Visual Studio için Data Lake Araçları'nı kullanarak Azure HDInsight'a bağlanma ve Apache Hive sorguları çalıştırma
Visual Studio için Microsoft Azure Data Lake ve Stream Analytics Araçları'nı (Data Lake Araçları) kullanmayı öğrenin. Azure HDInsight'ta Apache Hadoop kümelerine bağlanmak ve Hive sorguları göndermek için aracını kullanın.
HDInsight kullanma hakkında daha fazla bilgi için bkz . HDInsight'ı kullanmaya başlama.
Visual Studio için Data Lake Araçlarını hem Azure Data Lake Analytics’e hem de HDInsight’a erişmek için kullanabilirsiniz. Data Lake Araçları hakkında bilgi için bkz. Visual Studio için Data Lake Araçları'nı kullanarak U-SQL betikleri geliştirme.
Önkoşullar
Bu makaleyi tamamlamak ve Visual Studio için Data Lake Araçları'nı kullanmak için aşağıdaki öğelere ihtiyacınız vardır:
Bir Azure HDInsight kümesi. HDInsight kümesi oluşturmak için bkz . Azure HDInsight'ta Apache Hadoop'u kullanmaya başlama. Etkileşimli Apache Hive sorguları çalıştırmak için bir HDInsight Etkileşimli Sorgu kümesi gerekir.
Visual Studio. Visual Studio Community sürümü ücretsizdir. Burada gösterilen yönergeler Visual Studio 2019 içindir.
Visual Studio için Data Lake Araçları’nı yükleme
Visual Studio sürümünüz için Data Lake Araçları'nı yüklemek için uygun yönergeleri izleyin:
Visual Studio 2017 veya Visual Studio 2019 için:
Visual Studio yüklemesi sırasında Azure geliştirme iş yükünü veya Veri depolama ve işleme iş yükünü eklediğinizden emin olun.
Mevcut Visual Studio yüklemeleri için IDE menü çubuğuna gidin ve Araçlar Araçları>ve Özellikleri Al'ı seçerek Visual Studio Yükleyicisi açın. İş Yükleri sekmesinde en azından Azure geliştirme iş yükünü seçin (Web ve Bulut altında). Veya Veri depolama ve işleme iş yükünü seçin (Diğer Araç Kümeleri'nin altında).
Visual Studio 2015 için:
Data Lake Araçları'nı indirin. Visual Studio sürümünüzle eşleşen Data Lake Araçları sürümünü seçin.
Visual Studio için Data Lake Araçlarını Güncelleştirme
Ardından Data Lake Araçları'nı en son sürüme güncelleştirdiğinizden emin olun.
Visual Studio'yu açın.
Başlangıç penceresinde Kod olmadan devam et'i seçin.
Visual Studio IDE menü çubuğunda Uzantılar>Uzantıları Yönet'i seçin.
Uzantıları Yönet iletişim kutusunda Güncelleştirmeler düğümünü genişletin.
Kullanılabilir güncelleştirmeler listesinde Azure Data Lake ve Stream Analytic Tools varsa seçin. Ardından Güncelleştir düğmesini seçin. İndir ve Yükle iletişim kutusu görüntülenip kaybolduktan sonra, Visual Studio güncelleştirme zamanlamasına Azure Data Lake ve Stream Analytic Tools uzantısını ekler.
Tüm Visual Studio pencerelerini kapatın. VSIX Yükleyicisi iletişim kutusu görüntülenir.
Lisans koşullarını okumak için Lisans'ı seçin, ardından VSIX Yükleyicisi iletişim kutusuna dönmek için Kapat'ı seçin.
Değiştir'i seçin. Uzantı güncelleştirmesinin yüklenmesi başlar. Bir süre sonra, iletişim kutusu değişiklik yapıldığını gösterecek şekilde değişir. Kapat'ı seçin ve yüklemeyi tamamlamak için Visual Studio'yu yeniden başlatın.
Not
Etkileşimli Sorgu kümelerine bağlanmak ve etkileşimli Hive sorguları çalıştırmak için yalnızca Data Lake Araçları sürüm 2.3.0.0 veya üzerini kullanabilirsiniz.
Azure aboneliklerine bağlanma
HDInsight kümelerinize bağlanmak, bazı temel yönetim işlemleri yapmak ve Hive sorguları çalıştırmak için Visual Studio için Data Lake Araçları'nı kullanabilirsiniz.
Not
Genel bir Hadoop kümesine bağlanma hakkında bilgi için bkz . Visual Studio kullanarak Hive sorguları yazma ve gönderme.
Bir Azure aboneliğine Bağlanma
Azure aboneliğinize bağlanmak için:
Visual Studio'yu açın.
Başlangıç penceresinde Kod olmadan devam et'i seçin.
IDE menü çubuğunda Sunucu Gezginini Görüntüle'yi>seçin.
Sunucu Gezgini'nde Azure'a sağ tıklayın, Microsoft Azure Aboneliğine Bağlan'ı seçin ve kimlik doğrulama işlemini tamamlayın. Mevcut HDInsight kümelerinin listesini görüntülemek için Sunucu Gezgini'nde Azure>HDInsight'ı genişletin.
Kümeniz yoksa Azure portalını, Azure PowerShell'i veya HDInsight SDK'sını kullanarak bir küme oluşturun. Daha fazla bilgi için bkz . HDInsight'ta kümeleri ayarlama.
HDInsight kümesini genişletin. Küme Hive Veritabanları için düğümler içerir. Ayrıca, varsayılan bir depolama hesabı, ek bağlantılı depolama hesapları ve Hadoop Hizmet Günlüğü. Varlıkları daha da genişletebilirsiniz.
Azure aboneliğinize bağlandıktan sonra aşağıdaki görevleri gerçekleştirebilirsiniz.
Visual Studio'dan Azure'a bağlanma
Visual Studio'dan Azure portalına bağlanmak için:
Sunucu Gezgini'nde Azure>HDInsight'ı genişletin ve kümenizi seçin.
HDInsight kümesine sağ tıklayın ve Azure portalında Kümeyi Yönet'i seçin.
Visual Studio'dan soru ve geri bildirim sunma
Visual Studio'dan soru sormak ve geri bildirim sağlamak için:
Sunucu Gezgini'nden Azure>HDInsight'ı seçin.
HDInsight'a sağ tıklayın ve soru sormak için MSDN Forumu'nu veya geri bildirimde bulunmak için Geri Bildirim Ver'i seçin.
Kümeye bağlanma veya kümeyi düzenleme
Not
Şu anda bağlanabileceğiniz tek HDInsight kümesi türü hive türüdür.
HDInsight kümesini bağlamak için:
HDInsight'a sağ tıklayın ve HDInsight Kümesini Bağla'yı seçerek HDInsight Kümesini Bağla iletişim kutusunu görüntüleyin.
biçiminde
https://CLUSTERNAME.azurehdinsight.net
bir Bağlantı Url'si girin. Başka bir alana gittiğinizde Küme Adı, URL'nizin küme adı bölümüyle otomatik olarak doldurulur. Ardından bir Kullanıcı Adı ve Parola girin ve İleri'yi seçin.Bitir'i seçin. Küme bağlama başarılı olursa, küme HDInsight düğümü altında listelenir.
Bağlı bir kümeyi güncelleştirmek için kümeye sağ tıklayın ve Düzenle'yi seçin. Daha sonra küme bilgilerini güncelleştirebilirsiniz.
Bağlantılı kaynakları araştırma
Sunucu Gezgini'nde, varsayılan depolama hesabını ve bağlı tüm depolama hesaplarını görebilirsiniz. Varsayılan depolama hesabını genişletirseniz, depolama hesabında kapsayıcıları görebilirsiniz. Varsayılan depolama hesabı ve varsayılan kapsayıcı işaretlenmiştir.
Kapsayıcıya sağ tıklayın ve kapsayıcının içeriğini görüntülemek için Kapsayıcıyı Görüntüle'yi seçin. Kapsayıcıyı açtıktan sonra araç çubuğu düğmelerini kullanarak içerik listesini yenileyebilir, Blobu Karşıya Yükle, Seçili blobları sil, Blobu Aç ve seçili blobları indir (Farklı Kaydet) yapabilirsiniz.
Etkileşimli Apache Hive sorguları çalıştırma
Apache Hive, Hadoop üzerinde oluşturulmuş bir veri ambarı altyapısıdır. Hive veri özetleme, sorgular ve analiz için kullanılır. Visual Studio’dan Hive sorguları çalıştırmak üzere Visual Studio için Data Lake Araçları’nı kullanabilirsiniz. Hive hakkında daha fazla bilgi için bkz . Azure HDInsight'ta Apache Hive ve HiveQL nedir?.
Azure HDInsight'taki Interactive Query, Apache Hive 2.1'de LLAP üzerinde Hive kullanır. Etkileşimli Sorgu, büyük, depolanan veri kümelerindeki karmaşık, veri ambarı stili sorgulara etkileşim sağlar. Etkileşimli Sorguda Hive sorguları çalıştırmak, geleneksel Hive toplu işlerinden çok daha hızlıdır.
Not
Etkileşimli Hive sorgularını yalnızca bir HDInsight Etkileşimli Sorgu kümesine bağlandığınızda çalıştırabilirsiniz.
Hive işinin içinde neler olduğunu görmek için Visual Studio için Data Lake Araçları'nı da kullanabilirsiniz. Visual Studio için Data Lake Araçları bazı Hive işlerinin Yarn günlüklerini toplar ve yüzeye çıkarır.
Sunucu Gezgini'nden Azure>HDInsight'ı seçin ve kümenizi seçin. Bu düğüm, sunucu gezgininde izleyebileceğiniz bölümlerin başlangıç noktasıdır.
hivesampletable öğesini görüntüleme
Tüm HDInsight kümelerinin adlı hivesampletable
varsayılan örnek Hive tablosu vardır.
Kümenizden Hive Veritabanları varsayılan>hivesampletable'ı> seçin.
Şemayı
hivesampletable
görüntülemek için:Hivesampletable'i genişletin. Sütunların
hivesampletable
adları ve veri türleri gösterilir.Verileri görüntülemek
hivesampletable
için:Hivesampletable'a sağ tıklayın ve İlk 100 Satırı Görüntüle'yi seçin. 100 sonuç listesi Hive Tablosu: hivesampletable penceresinde görüntülenir. Bu eylem, Hive ODBC sürücüsünü kullanarak aşağıdaki Hive sorgusunu çalıştırmaya eşdeğerdir:
SELECT * FROM hivesampletable LIMIT 100
Satır sayısını satır sayısını değiştirerek özelleştirebilirsiniz; açılan listeden 50, 100, 200 veya 1000 satır seçebilirsiniz.
Hive tabloları oluşturma
Bir Hive tablosu oluşturmak için GUI’yi ya da Hive sorgularını kullanabilirsiniz. Hive sorgularını kullanma hakkında bilgi için bkz . Hive sorguları oluşturma ve çalıştırma.
Kümenizden Hive Veritabanları varsayılanı'nı> seçin.
Varsayılana sağ tıklayın ve Tablo Oluştur'u seçin.
Tabloyu yapılandırın.
yeni Hive tablosunu oluşturan işi göndermek için Tablo Oluştur düğmesini seçin.
Hive sorguları oluşturma ve çalıştırma
Hive sorguları oluşturmak ve çalıştırmak için iki seçeneğiniz vardır:
- Geçici sorgular oluşturma
- Hive uygulaması oluşturma
Geçici sorgu oluşturma
Geçici sorgu oluşturmak ve çalıştırmak için:
Sorguyu çalıştırmak istediğiniz kümeye sağ tıklayın ve Hive Sorgusu Yaz'ı seçin.
Bir Hive sorgusu girin.
Hive düzenleyicisi IntelliSense’i destekler. Visual Studio için Data Lake Araçları, Hive betiğinizi düzenlerken uzak meta verilerin yüklenmesini destekler. Örneğin, yazarsanız
SELECT * FROM
IntelliSense önerilen tüm tablo adlarını listeler. Bir tablo adı belirtildiğinde, IntelliSense sütun adlarını listeler. Araçlar çoğu Hive DML deyimlerini, alt sorguları ve yerleşik UDF'leri destekler.Not
IntelliSense yalnızca HDInsight araç çubuğunda seçilen kümelerin meta verilerini önerir.
Kullanabileceğiniz örnek bir sorgu aşağıda verilmiştir:
SELECT devicemodel, COUNT(devicemodel) AS deviceCount FROM hivesampletable GROUP BY devicemodel ORDER BY devicemodel
Yürütme modunu seçin:
Etkileşimli
İlk açılan listede Etkileşimli'yi ve ardından Yürüt'i seçin.
Batch
İlk açılan listede Batch'i ve ardından Gönder'i seçin. Alternatif olarak Gönder'in yanındaki açılan simgeyi seçip Gelişmiş'i de seçebilirsiniz.
Gelişmiş gönderme seçeneğini seçerseniz, Betik Gönder iletişim kutusu görüntülenir. Betik için İş Adı, Bağımsız Değişkenler, Ek Yapılandırmalar ve Durum Dizini'ni yapılandırın.
Not
Toplu işlemleri Etkileşimli Sorgu kümelerine gönderemezsiniz. Etkileşimli modu kullanmanız gerekir.
Hive uygulaması oluşturma
Hive çözümü oluşturmak ve çalıştırmak için:
Menü çubuğundan Dosya>Yeni Proje'yi> seçin.
Yeni proje oluştur penceresinde arama kutusunu seçin ve Hive yazın. Ardından Hive Uygulaması'nı ve ardından İleri'yi seçin.
Yeni projenizi yapılandırın penceresinde bir Proje adı girin, proje Konumunu seçin veya oluşturun ve ardından Oluştur'u seçin.
Betiği açmak için Çözüm Gezgini’nde Script.hql öğesine çift tıklayın.
İş özetini ve çıktıyı görüntüleme
İş özeti Batch ve Etkileşimli mod arasında biraz değişiklik gösterir.
İş durumu Tamamlandı olarak değişene kadar durumu güncelleştirmek için Yenile simgesini kullanın.
Batch modundan iş ayrıntıları için, İş Sorgusu, İş Çıktısı veya İş Günlüğü'nü görmek veya Yarn Günlüklerini Görüntülemek için alttaki bağlantıları seçin.
Etkileşimli moddan iş ayrıntıları için Çıkış ve HiveServer2 Çıkış bölmelerine bakın.
İş grafiğini görüntüleme
Şu anda iş grafikleri yalnızca Yürütme altyapısı olarak Tez kullanan Hive işleri için gösteriliyor. Tez'i etkinleştirme hakkında bilgi için bkz . Azure HDInsight'ta Apache Hive ve HiveQL nedir?. Ayrıca bkz. Harita Azaltma yerine Apache Tez kullanma.
Köşedeki tüm işleçleri görüntülemek için iş grafiğinin köşelerine çift tıklayın. Ayrıca, işleç hakkında daha fazla ayrıntı görmek için belirli bir işleci işaret edebilirsiniz.
Yürütme altyapısı olarak Tez belirtilse bile, hiçbir Tez uygulaması başlatılmamışsa iş grafiği görünmeyebilir. İş DML deyimleri içermediğinden bu durum oluşabilir. Veya DML deyimleri bir Tez uygulaması başlatmadan geri dönebileceği için. Örneğin, SELECT * FROM table1
Tez uygulamasını başlatmaz.
Görev yürütme ayrıntılarını görüntüleme
hive işleri için yapılandırılmış ve görselleştirilmiş bilgiler almak için iş grafiğinden Görev Yürütme Ayrıntısı'nı seçebilirsiniz. Ayrıca daha fazla iş ayrıntısı alabilirsiniz. Performans sorunları oluşursa, sorun hakkında daha fazla bilgi almak için bu görünümü kullanabilirsiniz. Örneğin, her görevin nasıl çalıştığı hakkındaki bilgileri ve her görev hakkında ayrıntılı bilgileri (veri okuma/yazma, zamanlama/başlangıç/bitiş saati ve daha fazlası) alabilirsiniz. İş yapılandırmalarını veya sistem mimarisini görselleştirilmiş bilgilere göre ayarlamak için bilgileri kullanın.
Hive İşlerini Görüntüleme
Hive işleri için iş sorguları, iş çıktısı, iş günlükleri ve Yarn günlüklerini görüntüleyebilirsiniz.
Araçların en son sürümünde, Yarn günlüklerini toplayarak ve gezinerek Hive işlerinizin içinde neler olduğunu görebilirsiniz. Yarn günlüğü, performans sorunlarını araştırmanıza yardımcı olabilir. HDInsight'ın Yarn günlüklerini nasıl topladığı hakkında daha fazla bilgi için bkz . Apache Hadoop YARN uygulama günlüklerine erişme.
Hive işlerini görüntülemek için:
HDInsight kümesine sağ tıklayın ve İşleri Görüntüle'yi seçin.
Küme üzerinde çalıştırılan Hive işlerinin listesi görüntülenir.
Bir iş seçin. Hive İşi Özeti penceresinde aşağıdaki bağlantılardan birini seçin:
- İş Sorgusu
- İş Çıktısı
- İş Günlüğü
- Yarn Günlüğü
Apache Pig betiklerini çalıştırma
Menü çubuğundan Dosya>Yeni Proje'yi> seçin.
Başlangıç penceresinde arama kutusunu seçin ve Pig yazın. Ardından Pig Uygulaması'nın ardından İleri'yi seçin.
Yeni projenizi yapılandırın penceresinde bir Proje adı girin ve proje için bir Konum seçin veya oluşturun. Daha sonra, Oluştur'u seçin.
IDE Çözüm Gezgini bölmesinde Script.pig dosyasına çift tıklayarak betiği açın.
Geri bildirim ve bilinen sorunlar
Null değerlerle başlatılan sonuçların gösterilmediği bir sorun düzeltilmiştir. Bu sorun sizi engelliyorsa destek ekibine başvurun.
Visual Studio'nun oluşturduğu HQL betiği, kullanıcının yerel bölge ayarına bağlı olarak kodlanır. Betiği bir kümeye ikili dosya olarak yüklerseniz betik doğru şekilde yürütülmez.
Sonraki adımlar
Bu makalede Visual Studio’dan HDInsight kümelerine bağlanmak üzere Visual Studio için Data Lake Araçları paketini kullanmayı öğrendiniz. Ayrıca bir Hive sorgusu çalıştırmayı öğrendiniz.
- Visual Studio için Data Lake araçlarını kullanarak Apache Hive sorgularını çalıştırma
- Azure HDInsight'ta Apache Hive ve HiveQL nedir?
- Apache Hadoop kümesi oluşturma - Şablon
- HDInsight'ta Apache Hadoop işlerini gönderme
- HDInsight üzerinde Apache Hive ve Apache Hadoop kullanarak X verilerini analiz etme