Aracılığıyla paylaş


Visual Studio için Data Lake Araçları'nı kullanarak Azure HDInsight'a bağlanma ve Apache Hive sorguları çalıştırma

Visual Studio için Microsoft Azure Data Lake ve Stream Analytics Araçları'nı (Data Lake Araçları) kullanmayı öğrenin. Azure HDInsight'ta Apache Hadoop kümelerine bağlanmak ve Hive sorguları göndermek için aracını kullanın.

HDInsight kullanma hakkında daha fazla bilgi için bkz . HDInsight'ı kullanmaya başlama.

Visual Studio için Data Lake Araçlarını hem Azure Data Lake Analytics’e hem de HDInsight’a erişmek için kullanabilirsiniz. Data Lake Araçları hakkında bilgi için bkz. Visual Studio için Data Lake Araçları'nı kullanarak U-SQL betikleri geliştirme.

Önkoşullar

Bu makaleyi tamamlamak ve Visual Studio için Data Lake Araçları'nı kullanmak için aşağıdaki öğelere ihtiyacınız vardır:

Visual Studio için Data Lake Araçları’nı yükleme

Visual Studio sürümünüz için Data Lake Araçları'nı yüklemek için uygun yönergeleri izleyin:

  • Visual Studio 2017 veya Visual Studio 2019 için:

    Visual Studio yüklemesi sırasında Azure geliştirme iş yükünü veya Veri depolama ve işleme iş yükünü eklediğinizden emin olun.

    Mevcut Visual Studio yüklemeleri için IDE menü çubuğuna gidin ve Araçlar Araçları>ve Özellikleri Al'ı seçerek Visual Studio Yükleyicisi açın. İş Yükleri sekmesinde en azından Azure geliştirme iş yükünü seçin (Web ve Bulut altında). Veya Veri depolama ve işleme iş yükünü seçin (Diğer Araç Kümeleri'nin altında).

    İş yükü seçimi, Visual Studio Yükleyicisi.

  • Visual Studio 2015 için:

    Data Lake Araçları'nı indirin. Visual Studio sürümünüzle eşleşen Data Lake Araçları sürümünü seçin.

Visual Studio için Data Lake Araçlarını Güncelleştirme

Ardından Data Lake Araçları'nı en son sürüme güncelleştirdiğinizden emin olun.

  1. Visual Studio'yu açın.

  2. Başlangıç penceresinde Kod olmadan devam et'i seçin.

  3. Visual Studio IDE menü çubuğunda Uzantılar>Uzantıları Yönet'i seçin.

  4. Uzantıları Yönet iletişim kutusunda Güncelleştirmeler düğümünü genişletin.

  5. Kullanılabilir güncelleştirmeler listesinde Azure Data Lake ve Stream Analytic Tools varsa seçin. Ardından Güncelleştir düğmesini seçin. İndir ve Yükle iletişim kutusu görüntülenip kaybolduktan sonra, Visual Studio güncelleştirme zamanlamasına Azure Data Lake ve Stream Analytic Tools uzantısını ekler.

  6. Tüm Visual Studio pencerelerini kapatın. VSIX Yükleyicisi iletişim kutusu görüntülenir.

  7. Lisans koşullarını okumak için Lisans'ı seçin, ardından VSIX Yükleyicisi iletişim kutusuna dönmek için Kapat'ı seçin.

  8. Değiştir'i seçin. Uzantı güncelleştirmesinin yüklenmesi başlar. Bir süre sonra, iletişim kutusu değişiklik yapıldığını gösterecek şekilde değişir. Kapat'ı seçin ve yüklemeyi tamamlamak için Visual Studio'yu yeniden başlatın.

Not

Etkileşimli Sorgu kümelerine bağlanmak ve etkileşimli Hive sorguları çalıştırmak için yalnızca Data Lake Araçları sürüm 2.3.0.0 veya üzerini kullanabilirsiniz.

Azure aboneliklerine bağlanma

HDInsight kümelerinize bağlanmak, bazı temel yönetim işlemleri yapmak ve Hive sorguları çalıştırmak için Visual Studio için Data Lake Araçları'nı kullanabilirsiniz.

Not

Genel bir Hadoop kümesine bağlanma hakkında bilgi için bkz . Visual Studio kullanarak Hive sorguları yazma ve gönderme.

Bir Azure aboneliğine Bağlanma

Azure aboneliğinize bağlanmak için:

  1. Visual Studio'yu açın.

  2. Başlangıç penceresinde Kod olmadan devam et'i seçin.

  3. IDE menü çubuğunda Sunucu Gezginini Görüntüle'yi>seçin.

  4. Sunucu Gezgini'nde Azure'a sağ tıklayın, Microsoft Azure Aboneliğine Bağlan'ı seçin ve kimlik doğrulama işlemini tamamlayın. Mevcut HDInsight kümelerinin listesini görüntülemek için Sunucu Gezgini'nde Azure>HDInsight'ı genişletin.

  5. Kümeniz yoksa Azure portalını, Azure PowerShell'i veya HDInsight SDK'sını kullanarak bir küme oluşturun. Daha fazla bilgi için bkz . HDInsight'ta kümeleri ayarlama.

    HDInsight küme listesi, Sunucu Gezgini, Visual Studio.

  6. HDInsight kümesini genişletin. Küme Hive Veritabanları için düğümler içerir. Ayrıca, varsayılan bir depolama hesabı, ek bağlantılı depolama hesapları ve Hadoop Hizmet Günlüğü. Varlıkları daha da genişletebilirsiniz.

Azure aboneliğinize bağlandıktan sonra aşağıdaki görevleri gerçekleştirebilirsiniz.

Visual Studio'dan Azure'a bağlanma

Visual Studio'dan Azure portalına bağlanmak için:

  1. Sunucu Gezgini'nde Azure>HDInsight'ı genişletin ve kümenizi seçin.

  2. HDInsight kümesine sağ tıklayın ve Azure portalında Kümeyi Yönet'i seçin.

Visual Studio'dan soru ve geri bildirim sunma

Visual Studio'dan soru sormak ve geri bildirim sağlamak için:

  1. Sunucu Gezgini'nden Azure>HDInsight'ı seçin.

  2. HDInsight'a sağ tıklayın ve soru sormak için MSDN Forumu'nu veya geri bildirimde bulunmak için Geri Bildirim Ver'i seçin.

Not

Şu anda bağlanabileceğiniz tek HDInsight kümesi türü hive türüdür.

HDInsight kümesini bağlamak için:

  1. HDInsight'a sağ tıklayın ve HDInsight Kümesini Bağla'yı seçerek HDInsight Kümesini Bağla iletişim kutusunu görüntüleyin.

  2. biçiminde https://CLUSTERNAME.azurehdinsight.netbir Bağlantı Url'si girin. Başka bir alana gittiğinizde Küme Adı, URL'nizin küme adı bölümüyle otomatik olarak doldurulur. Ardından bir Kullanıcı Adı ve Parola girin ve İleri'yi seçin.

    Kümeyi, HDInsight'ı, Visual Studio'yu bağlayın.

  3. Bitir'i seçin. Küme bağlama başarılı olursa, küme HDInsight düğümü altında listelenir.

Bağlı bir kümeyi güncelleştirmek için kümeye sağ tıklayın ve Düzenle'yi seçin. Daha sonra küme bilgilerini güncelleştirebilirsiniz.

Bağlı kümeyi, HDInsight'ı, Visual Studio'yu düzenleyin.

Bağlantılı kaynakları araştırma

Sunucu Gezgini'nde, varsayılan depolama hesabını ve bağlı tüm depolama hesaplarını görebilirsiniz. Varsayılan depolama hesabını genişletirseniz, depolama hesabında kapsayıcıları görebilirsiniz. Varsayılan depolama hesabı ve varsayılan kapsayıcı işaretlenmiştir.

Sunucu Gezgini'nde Visual Studio için Data Lake Araçları bağlantılı kaynaklar.

Kapsayıcıya sağ tıklayın ve kapsayıcının içeriğini görüntülemek için Kapsayıcıyı Görüntüle'yi seçin. Kapsayıcıyı açtıktan sonra araç çubuğu düğmelerini kullanarak içerik listesini yenileyebilir, Blobu Karşıya Yükle, Seçili blobları sil, Blobu Aç ve seçili blobları indir (Farklı Kaydet) yapabilirsiniz.

Kapsayıcı listesi ve blob işlemleri, HDInsight kümesi, Visual Studio.

Etkileşimli Apache Hive sorguları çalıştırma

Apache Hive, Hadoop üzerinde oluşturulmuş bir veri ambarı altyapısıdır. Hive veri özetleme, sorgular ve analiz için kullanılır. Visual Studio’dan Hive sorguları çalıştırmak üzere Visual Studio için Data Lake Araçları’nı kullanabilirsiniz. Hive hakkında daha fazla bilgi için bkz . Azure HDInsight'ta Apache Hive ve HiveQL nedir?.

Azure HDInsight'taki Interactive Query, Apache Hive 2.1'de LLAP üzerinde Hive kullanır. Etkileşimli Sorgu, büyük, depolanan veri kümelerindeki karmaşık, veri ambarı stili sorgulara etkileşim sağlar. Etkileşimli Sorguda Hive sorguları çalıştırmak, geleneksel Hive toplu işlerinden çok daha hızlıdır.

Not

Etkileşimli Hive sorgularını yalnızca bir HDInsight Etkileşimli Sorgu kümesine bağlandığınızda çalıştırabilirsiniz.

Hive işinin içinde neler olduğunu görmek için Visual Studio için Data Lake Araçları'nı da kullanabilirsiniz. Visual Studio için Data Lake Araçları bazı Hive işlerinin Yarn günlüklerini toplar ve yüzeye çıkarır.

Sunucu Gezgini'nden Azure>HDInsight'ı seçin ve kümenizi seçin. Bu düğüm, sunucu gezgininde izleyebileceğiniz bölümlerin başlangıç noktasıdır.

hivesampletable öğesini görüntüleme

Tüm HDInsight kümelerinin adlı hivesampletablevarsayılan örnek Hive tablosu vardır.

Kümenizden Hive Veritabanları varsayılan>hivesampletable'ı> seçin.

  • Şemayı hivesampletable görüntülemek için:

    Hivesampletable'i genişletin. Sütunların hivesampletable adları ve veri türleri gösterilir.

  • Verileri görüntülemek hivesampletable için:

    Hivesampletable'a sağ tıklayın ve İlk 100 Satırı Görüntüle'yi seçin. 100 sonuç listesi Hive Tablosu: hivesampletable penceresinde görüntülenir. Bu eylem, Hive ODBC sürücüsünü kullanarak aşağıdaki Hive sorgusunu çalıştırmaya eşdeğerdir:

    SELECT * FROM hivesampletable LIMIT 100

    Satır sayısını satır sayısını değiştirerek özelleştirebilirsiniz; açılan listeden 50, 100, 200 veya 1000 satır seçebilirsiniz.

Hive tabloları oluşturma

Bir Hive tablosu oluşturmak için GUI’yi ya da Hive sorgularını kullanabilirsiniz. Hive sorgularını kullanma hakkında bilgi için bkz . Hive sorguları oluşturma ve çalıştırma.

  1. Kümenizden Hive Veritabanları varsayılanı'nı> seçin.

  2. Varsayılana sağ tıklayın ve Tablo Oluştur'u seçin.

  3. Tabloyu yapılandırın.

  4. yeni Hive tablosunu oluşturan işi göndermek için Tablo Oluştur düğmesini seçin.

    Tablo penceresi, Hive, HDInsight kümesi, Visual Studio oluşturma.

Hive sorguları oluşturma ve çalıştırma

Hive sorguları oluşturmak ve çalıştırmak için iki seçeneğiniz vardır:

  • Geçici sorgular oluşturma
  • Hive uygulaması oluşturma

Geçici sorgu oluşturma

Geçici sorgu oluşturmak ve çalıştırmak için:

  1. Sorguyu çalıştırmak istediğiniz kümeye sağ tıklayın ve Hive Sorgusu Yaz'ı seçin.

  2. Bir Hive sorgusu girin.

    Hive düzenleyicisi IntelliSense’i destekler. Visual Studio için Data Lake Araçları, Hive betiğinizi düzenlerken uzak meta verilerin yüklenmesini destekler. Örneğin, yazarsanız SELECT * FROMIntelliSense önerilen tüm tablo adlarını listeler. Bir tablo adı belirtildiğinde, IntelliSense sütun adlarını listeler. Araçlar çoğu Hive DML deyimlerini, alt sorguları ve yerleşik UDF'leri destekler.

    IntelliSense örnek 1, Hive geçici sorgusu, HDInsight kümesi, Visual Studio.

    IntelliSense örnek 2, Hive geçici sorgusu, HDInsight kümesi, Visual Studio.

    Not

    IntelliSense yalnızca HDInsight araç çubuğunda seçilen kümelerin meta verilerini önerir.

    Kullanabileceğiniz örnek bir sorgu aşağıda verilmiştir:

    SELECT devicemodel, COUNT(devicemodel) AS deviceCount
    FROM hivesampletable
    GROUP BY devicemodel
    ORDER BY devicemodel
    
  3. Yürütme modunu seçin:

    • Etkileşimli

      İlk açılan listede Etkileşimli'yi ve ardından Yürüt'i seçin.

      Etkileşimli mod, Hive geçici sorgusu, HDInsight kümesi, Visual Studio.

    • Batch

      İlk açılan listede Batch'i ve ardından Gönder'i seçin. Alternatif olarak Gönder'in yanındaki açılan simgeyi seçip Gelişmiş'i de seçebilirsiniz.

      Batch modu, Hive geçici sorgusu, HDInsight kümesi, Visual Studio.

      Gelişmiş gönderme seçeneğini seçerseniz, Betik Gönder iletişim kutusu görüntülenir. Betik için İş Adı, Bağımsız Değişkenler, Ek Yapılandırmalar ve Durum Dizini'ni yapılandırın.

      Betik Gönder iletişim kutusu, Hive geçici sorgusu, HDInsight kümesi, Visual Studio.

      Not

      Toplu işlemleri Etkileşimli Sorgu kümelerine gönderemezsiniz. Etkileşimli modu kullanmanız gerekir.

Hive uygulaması oluşturma

Hive çözümü oluşturmak ve çalıştırmak için:

  1. Menü çubuğundan Dosya>Yeni Proje'yi> seçin.

  2. Yeni proje oluştur penceresinde arama kutusunu seçin ve Hive yazın. Ardından Hive Uygulaması'nı ve ardından İleri'yi seçin.

  3. Yeni projenizi yapılandırın penceresinde bir Proje adı girin, proje Konumunu seçin veya oluşturun ve ardından Oluştur'u seçin.

    Yeni Hive uygulaması, Yeni proje pencerenizi yapılandırın, HDInsight Visual Studio.

  4. Betiği açmak için Çözüm Gezgini’nde Script.hql öğesine çift tıklayın.

İş özetini ve çıktıyı görüntüleme

İş özeti Batch ve Etkileşimli mod arasında biraz değişiklik gösterir.

Hive iş özet pencereleri, toplu iş ve etkileşimli mod, Visual Studio.

İş durumu Tamamlandı olarak değişene kadar durumu güncelleştirmek için Yenile simgesini kullanın.

  • Batch modundan iş ayrıntıları için, İş Sorgusu, İş Çıktısı veya İş Günlüğü'nü görmek veya Yarn Günlüklerini Görüntülemek için alttaki bağlantıları seçin.

  • Etkileşimli moddan iş ayrıntıları için Çıkış ve HiveServer2 Çıkış bölmelerine bakın.

    Hive etkileşimli iş çıkışı, HDInsight kümesi, Visual Studio.

İş grafiğini görüntüleme

Şu anda iş grafikleri yalnızca Yürütme altyapısı olarak Tez kullanan Hive işleri için gösteriliyor. Tez'i etkinleştirme hakkında bilgi için bkz . Azure HDInsight'ta Apache Hive ve HiveQL nedir?. Ayrıca bkz. Harita Azaltma yerine Apache Tez kullanma.

Köşedeki tüm işleçleri görüntülemek için iş grafiğinin köşelerine çift tıklayın. Ayrıca, işleç hakkında daha fazla ayrıntı görmek için belirli bir işleci işaret edebilirsiniz.

Yürütme altyapısı olarak Tez belirtilse bile, hiçbir Tez uygulaması başlatılmamışsa iş grafiği görünmeyebilir. İş DML deyimleri içermediğinden bu durum oluşabilir. Veya DML deyimleri bir Tez uygulaması başlatmadan geri dönebileceği için. Örneğin, SELECT * FROM table1 Tez uygulamasını başlatmaz.

Apache Hive iş grafı, Visual Studio.

Görev yürütme ayrıntılarını görüntüleme

hive işleri için yapılandırılmış ve görselleştirilmiş bilgiler almak için iş grafiğinden Görev Yürütme Ayrıntısı'nı seçebilirsiniz. Ayrıca daha fazla iş ayrıntısı alabilirsiniz. Performans sorunları oluşursa, sorun hakkında daha fazla bilgi almak için bu görünümü kullanabilirsiniz. Örneğin, her görevin nasıl çalıştığı hakkındaki bilgileri ve her görev hakkında ayrıntılı bilgileri (veri okuma/yazma, zamanlama/başlangıç/bitiş saati ve daha fazlası) alabilirsiniz. İş yapılandırmalarını veya sistem mimarisini görselleştirilmiş bilgilere göre ayarlamak için bilgileri kullanın.

Görev Yürütme Görünümü penceresi, Data Lake Visual Studio Araçları.

Hive İşlerini Görüntüleme

Hive işleri için iş sorguları, iş çıktısı, iş günlükleri ve Yarn günlüklerini görüntüleyebilirsiniz.

Araçların en son sürümünde, Yarn günlüklerini toplayarak ve gezinerek Hive işlerinizin içinde neler olduğunu görebilirsiniz. Yarn günlüğü, performans sorunlarını araştırmanıza yardımcı olabilir. HDInsight'ın Yarn günlüklerini nasıl topladığı hakkında daha fazla bilgi için bkz . Apache Hadoop YARN uygulama günlüklerine erişme.

Hive işlerini görüntülemek için:

  1. HDInsight kümesine sağ tıklayın ve İşleri Görüntüle'yi seçin.

    İşleri, Apache Hive'ı, HDInsight kümesini, Visual Studio'yu görüntüleyin.

    Küme üzerinde çalıştırılan Hive işlerinin listesi görüntülenir.

  2. Bir iş seçin. Hive İşi Özeti penceresinde aşağıdaki bağlantılardan birini seçin:

    • İş Sorgusu
    • İş Çıktısı
    • İş Günlüğü
    • Yarn Günlüğü

Apache Pig betiklerini çalıştırma

  1. Menü çubuğundan Dosya>Yeni Proje'yi> seçin.

  2. Başlangıç penceresinde arama kutusunu seçin ve Pig yazın. Ardından Pig Uygulaması'nın ardından İleri'yi seçin.

  3. Yeni projenizi yapılandırın penceresinde bir Proje adı girin ve proje için bir Konum seçin veya oluşturun. Daha sonra, Oluştur'u seçin.

  4. IDE Çözüm Gezgini bölmesinde Script.pig dosyasına çift tıklayarak betiği açın.

Geri bildirim ve bilinen sorunlar

  • Null değerlerle başlatılan sonuçların gösterilmediği bir sorun düzeltilmiştir. Bu sorun sizi engelliyorsa destek ekibine başvurun.

  • Visual Studio'nun oluşturduğu HQL betiği, kullanıcının yerel bölge ayarına bağlı olarak kodlanır. Betiği bir kümeye ikili dosya olarak yüklerseniz betik doğru şekilde yürütülmez.

Sonraki adımlar

Bu makalede Visual Studio’dan HDInsight kümelerine bağlanmak üzere Visual Studio için Data Lake Araçları paketini kullanmayı öğrendiniz. Ayrıca bir Hive sorgusu çalıştırmayı öğrendiniz.