Azure Data Lake Storage hiyerarşik ad alanı
Azure Data Lake Storage'ın nesne depolama ölçeğinde dosya sistemi performansı ve fiyatları sağlamasına olanak tanıyan temel mekanizma, hiyerarşik ad alanının eklenmesidir. Bu, bir hesaptaki nesne/dosya koleksiyonunun, bilgisayarınızdaki dosya sistemiyle aynı şekilde dizinler ve iç içe alt dizinler hiyerarşisi halinde düzenlenmesini sağlar. Hiyerarşik ad alanı etkinleştirildiğinde, depolama hesabı analiz altyapılarına ve çerçevelerine aşina olan dosya sistemi semantiğiyle nesne depolamanın ölçeklenebilirliğini ve uygun maliyetliliğini sağlar.
Hiyerarşik ad alanının avantajları
Aşağıdaki avantajlar, blob verileri üzerinde hiyerarşik ad alanı uygulayan dosya sistemleriyle ilişkilendirilir:
Atomik dizin düzenlemesi: Nesne, yol kesimlerini belirtmek için nesne adına eğik çizgi (/) ekleme kuralını benimseyerek yaklaşık bir dizin hiyerarşisini depolar. Bu kural nesneleri düzenlemek için çalışsa da, kural dizinleri taşıma, yeniden adlandırma veya silme gibi eylemler için hiçbir yardım sağlamaz. Gerçek dizinler olmadan, uygulamaların dizin düzeyinde görevlere ulaşmak için milyonlarca blobu işlemesi gerekir. Buna karşılık, hiyerarşik ad alanı bu görevleri tek bir girişi (üst dizin) güncelleştirerek işler.
Bu çarpıcı iyileştirme özellikle birçok büyük veri analizi çerçevesi için önemlidir. Hive, Spark vb. gibi araçlar genellikle geçici konumlara çıkış yazar ve işin sonunda konumu yeniden adlandırır. Hiyerarşik ad alanı olmadan bu yeniden adlandırma işlemi genellikle analiz işleminin kendisinden daha uzun sürebilir. Daha düşük iş gecikme süresi, analiz iş yükleri için daha düşük toplam sahip olma maliyetine (TCO) eşittir.
Tanıdık Arabirim Stili: Dosya sistemleri hem geliştiriciler hem de kullanıcılar tarafından iyi anlaşılır. Data Lake Storage tarafından kullanıma sunulan dosya sistemi arabirimi büyük ve küçük bilgisayarlar tarafından kullanılan paradigma ile aynı paradigma olduğundan buluta geçiş yaptığınızda yeni bir depolama paradigması öğrenmenize gerek yoktur.
Nesne depolarının hiyerarşik ad alanını geçmişte desteklememiş olmasının nedenlerinden biri hiyerarşik ad alanı sınırları ölçeğidir. Ancak Data Lake Storage hiyerarşik ad alanı doğrusal olarak ölçeklendirilir ve veri kapasitesini veya performansını düşürmez.
Hiyerarşik ad alanının etkinleştirilip etkinleştirilmeymeyeceğine karar verme
Hesabınızda hiyerarşik bir ad alanını etkinleştirdikten sonra, bunu düz bir ad alanına geri döndüremezsiniz. Bu nedenle, nesne deposu iş yüklerinizin doğasına göre hiyerarşik ad alanını etkinleştirmenin mantıklı olup olmadığını göz önünde bulundurun. Hiyerarşik ad alanının iş yükleri, uygulamalar, maliyetler, hizmet tümleştirmeleri, araçlar, özellikler ve belgeler üzerindeki etkisini değerlendirmek için bkz. Azure Data Lake Storage özellikleriyle Azure Blob Depolama yükseltme.
Bazı iş yükleri hiyerarşik ad alanını etkinleştirerek herhangi bir fayda sağlamayabilir. Örnek olarak yedeklemeler, görüntü depolama ve nesne kuruluşunun nesnelerden ayrı olarak depolandığı diğer uygulamalar (örneğin: ayrı bir veritabanında) verilebilir.
Ayrıca Blob depolama özellikleri ve Azure hizmet ekosistemi desteği artmaya devam ederken, hiyerarşik ad alanına sahip hesaplarda henüz desteklenmeyen bazı özellikler ve Azure hizmetleri de vardır. Bkz. Bilinen Sorunlar.
Genel olarak, dizinleri işleyen dosya sistemleri için tasarlanmış depolama iş yükleri için hiyerarşik ad alanını açmanızı öneririz. Bu, öncelikli olarak analiz işlemeye yönelik tüm iş yüklerini içerir. Yüksek düzeyde kuruluş gerektiren veri kümeleri, hiyerarşik ad alanını etkinleştirerek de avantaj sağlar.
Hiyerarşik ad alanını etkinleştirme nedenleri bir TCO analizi tarafından belirlenir. Genel olarak bakıldığında, depolama hızlandırma nedeniyle iş yükü gecikme süresindeki geliştirmeler daha kısa süre için işlem kaynaklarını gerektirir. Hiyerarşik ad alanı tarafından etkinleştirilen atomik dizin işlemesi nedeniyle birçok iş yükü için gecikme süresi iyileştirilebilir. Birçok iş yükünde işlem kaynağı toplam maliyetin %85'ini temsil eder > ve bu nedenle iş yükü gecikme süresindeki mütevazı bir azalma bile önemli miktarda TCO tasarrufu sağlar. Hiyerarşik ad alanının etkinleştirilmesinin depolama maliyetlerini artırdığı durumlarda bile, daha düşük işlem maliyetleri nedeniyle TCO hala düşürülmüştür.
Düz hiyerarşik ad alanına ve hiyerarşik ad alanına sahip hesaplar arasındaki veri depolama fiyatları, işlem fiyatları ve depolama kapasitesi rezervasyon fiyatlandırması arasındaki farkları analiz etmek için bkz . Azure Data Lake Storage fiyatlandırması.
Sonraki adımlar
- Yeni bir depolama hesabı oluşturduğunuzda hiyerarşik ad alanını etkinleştirin. Bkz. Azure Data Lake Storage ile kullanmak için depolama hesabı oluşturma.
- Mevcut bir depolama hesabında hiyerarşik ad alanını etkinleştirin. Bkz. Azure Data Lake Storage özellikleriyle Azure Blob Depolama yükseltme.