HDInsight kümeleri için kapasite planlaması
HDInsight kümesini dağıtmadan önce, gerekli performansı ve ölçeği belirleyerek hedeflenen küme kapasitesini planlayın. Bu planlama hem kullanılabilirliği hem de maliyetleri iyileştirmeye yardımcı olur. Bazı küme kapasitesi kararları dağıtımdan sonra değiştirilemez. Performans parametreleri değişirse küme, depolanan verileri kaybetmeden dağıtılabilir ve yeniden oluşturulabilir.
Kapasite planlaması için sorulacak başlıca sorular şunlardır:
- Kümenizi hangi coğrafi bölgede dağıtmanız gerekir?
- Ne kadar depolamaya ihtiyacınız var?
- Hangi küme türünü dağıtmanız gerekir?
- Küme düğümleriniz hangi sanal makine (VM) boyutunu ve türünü kullanmalıdır?
- Kümenizde kaç çalışan düğümü olmalıdır?
Azure bölgesi seçme
Azure bölgesi, kümenizin fiziksel olarak sağlandığı yeri belirler. Okuma ve yazma işlemlerinin gecikme süresini en aza indirmek için kümenin verilerinize yakın olması gerekir.
HDInsight birçok Azure bölgesinde kullanılabilir. En yakın bölgeyi bulmak için bkz . Bölgeye göre kullanılabilir ürünler.
Depolama konumunu ve boyutunu seçme
Varsayılan depolamanın konumu
Azure Depolama hesabı veya Azure Data Lake Depolama varsayılan depolama alanı kümenizle aynı konumda olmalıdır. Azure Depolama tüm konumlarda kullanılabilir. Data Lake Depolama bazı bölgelerde kullanılabilir. Geçerli Data Lake Depolama kullanılabilirliğine bakın.
Mevcut verilerin konumu
Kümenizin varsayılan depolama alanı olarak mevcut bir depolama hesabını veya Data Lake Depolama kullanmak istiyorsanız, kümenizi aynı konuma dağıtmanız gerekir.
Depolama boyutu
Dağıtılan bir kümede başka bir Azure Depolama hesabı ekleyebilir veya diğer Data Lake Depolama erişebilirsiniz. Tüm depolama hesaplarınızın kümenizle aynı konumda bulunması gerekir. Data Lake Depolama farklı bir konumda olabilir, ancak uzaklıklar biraz gecikmeye neden olabilir.
Azure Depolama bazı kapasite sınırlarına sahipken Data Lake Depolama neredeyse sınırsızdır. Küme, farklı depolama hesaplarının birleşimine erişebilir. Tipik örnekleri şunlardır:
- Veri miktarının tek bir blob depolama kapsayıcısının depolama kapasitesini aşma olasılığı yüksek olduğunda.
- Blob kapsayıcısına erişim hızı azaltmanın gerçekleştiği eşiği aşabilir.
- Veri oluşturmak istediğinizde, kümenin kullanabileceği bir blob kapsayıcısına zaten yüklemişsinizdir.
- Depolamanın farklı bölümlerini güvenlik nedeniyle yalıtmak veya yönetimi basitleştirmek istediğinizde.
Daha iyi performans için depolama hesabı başına yalnızca bir kapsayıcı kullanın.
Küme türü seçme
Küme türü, HDInsight kümenizin çalışacak şekilde yapılandırıldığı iş yükünü belirler. Türler Apache Hadoop, Apache Kafka veya Apache Spark'tır. Kullanılabilir küme türlerinin ayrıntılı açıklaması için bkz . Azure HDInsight'a giriş. Her küme türünün, düğüm boyutu ve sayısı için gereksinimleri içeren belirli bir dağıtım topolojisi vardır.
VM boyutunu ve türünü seçin
Her küme türünün bir düğüm türü kümesi vardır ve her düğüm türünün vm boyutu ve türü için belirli seçenekleri vardır.
Uygulamanız için en uygun küme boyutunu belirlemek için küme kapasitesini karşılaştırmak ve belirtilen boyutu artırabilirsiniz. Örneğin, sanal iş yükü veya kanarya sorgusu kullanabilirsiniz. Simülasyon iş yüklerinizi farklı boyut kümelerinde çalıştırın. Hedeflenen performansa ulaşılana kadar boyutu kademeli olarak artırın. Kümenin yeterli kaynağa sahip olup olmadığını göstermek için diğer üretim sorgularının arasına düzenli aralıklarla bir kanarya sorgusu eklenebilir.
İş yükünüz için doğru VM ailesini seçme hakkında daha fazla bilgi için bkz . Kümeniz için doğru VM boyutunu seçme.
Küme ölçeğini seçin
Bir kümenin ölçeği, VM düğümlerinin miktarına göre belirlenir. Tüm küme türleri için belirli bir ölçeğe sahip düğüm türleri ve ölçeği genişletmeyi destekleyen düğüm türleri vardır. Örneğin, bir küme tam olarak üç Apache ZooKeeper düğümü veya iki Head düğümü gerektirebilir. Dağıtılmış bir şekilde veri işleme yapan çalışan düğümleri, başka bir çalışan düğümünden yararlanılır.
Kümenizin türüne bağlı olarak çalışan düğümlerinin sayısını artırmak daha fazla işlem kapasitesi (daha fazla çekirdek gibi) ekler. Daha fazla düğüm, işlenen verilerin bellek içi depolamasını desteklemek için kümenin tamamı için gereken toplam belleği artırır. VM boyutu ve türü seçiminde olduğu gibi, doğru küme ölçeğinin seçilmesine genellikle ampirik olarak ulaşılır. Sanal iş yüklerini veya kanarya sorgularını kullanın.
En yüksek yük taleplerini karşılamak için kümenizin ölçeğini genişletebilirsiniz. Daha sonra bu ek düğümlere artık gerek kalmadığında ölçeği yeniden azaltın. Otomatik Ölçeklendirme özelliği, önceden belirlenmiş ölçümlere ve zamanlamalara göre kümenizi otomatik olarak ölçeklendirmenizi sağlar. Kümelerinizi el ile ölçeklendirme hakkında daha fazla bilgi için bkz . HDInsight kümelerini ölçeklendirme.
Küme yaşam döngüsü
Bir kümenin kullanım ömrü için ücretlendirilirsiniz. Kümenize yalnızca belirli zamanlarda ihtiyacınız varsa Azure Data Factory'yi kullanarak isteğe bağlı kümeler oluşturun. Ayrıca kümenizi sağlayan ve silecek PowerShell betikleri oluşturabilir ve ardından Azure Otomasyonu kullanarak bu betikleri zamanlayabilirsiniz.
Dekont
Bir küme silindiğinde, varsayılan Hive meta veri deposu da silinir. Meta veri depoyu bir sonraki küme yeniden oluşturma işleminde kalıcı hale getirmek için Azure Veritabanı veya Apache Oozie gibi bir dış meta veri deposu kullanın.
Küme işi hatalarını yalıtma
Bazen birden çok eşlemenin paralel yürütülmesi ve çok düğümlü bir kümedeki bileşenlerin azaltılması nedeniyle hatalar oluşabilir. Sorunu yalıtmaya yardımcı olmak için dağıtılmış testi deneyin. Tek bir çalışan düğümü kümesinde eşzamanlı birden çok iş çalıştırın. Ardından, birden fazla düğüm içeren kümelerde birden çok işi eşzamanlı olarak çalıştırmak için bu yaklaşımı genişletin. Azure'da tek düğümlü bir HDInsight kümesi oluşturmak için seçeneğini kullanın Custom(size, settings, apps)
ve portalda yeni bir küme sağlarken Küme boyutu bölümündeki Çalışan düğümlerinin sayısı için 1 değerini kullanın.
HDInsight için kota yönetimini görüntüleme
Vm ailesi düzeyinde kotanın ayrıntılı düzeyini ve kategorisini görüntüleyin. Geçerli kotayı ve vm ailesi düzeyinde bir bölge için kalan kotayı görüntüleyin.
Dekont
Bu özellik şu anda Doğu ABD EUAP bölgesi için HDInsight 4.x ve 5.x'te kullanılabilir. Daha sonra izleyebileceğiniz diğer bölgeler.
Geçerli kotayı görüntüle:
Vm ailesi düzeyinde bir bölge için geçerli kotaya ve kalan kota miktarına bakın.
VM ailesi ve bölgesi başına yeni kotalar isteme
- Kota ayrıntılarını görüntülemek istediğiniz satıra tıklayın.
Kotalar
Abonelik kotalarını yönetme hakkında daha fazla bilgi için bkz . Kota artışı isteme.
Sonraki adımlar
- Apache Hadoop, Spark, Kafka ve daha fazlası ile HDInsight'ta kümeleri ayarlama: HDInsight'ta kümeleri ayarlamayı ve yapılandırmayı öğrenin.
- Küme performansını izleme: HDInsight kümenizin kapasitesini etkileyebilecek temel senaryolar hakkında bilgi edinin.