Aracılığıyla paylaş


Veri bilimi uçtan uca senaryo: giriş ve mimari

Bu öğretici kümesi, Doku veri bilimi deneyiminde örnek bir uçtan uca senaryoyu gösterir. Veri alımı, temizleme ve hazırlama adımlarından makine öğrenmesi modellerini eğitmeye ve içgörü oluşturmaya kadar her adımı uygular ve ardından Power BI gibi görselleştirme araçlarını kullanarak bu içgörüleri kullanırsınız.

Microsoft Fabric'i yeni kullanmaya yeniyseniz bkz . Microsoft Fabric nedir?.

Giriş

Veri bilimi projesinin yaşam döngüsü genellikle (genellikle, yinelemeli olarak) aşağıdaki adımları içerir:

  • Kurumsal yaklaşım
  • Veri alma
  • Veri keşfi, temizleme, hazırlama ve görselleştirme
  • Model eğitimi ve deneme izleme
  • Model puanlama ve içgörü oluşturma.

Her aşamanın hedefleri ve başarı ölçütleri işbirliğine, veri paylaşımına ve belgelere bağlıdır. Doku veri bilimi deneyimi, işbirliğine, veri alımına, paylaşmaya ve sorunsuz bir şekilde tüketime olanak tanıyan yerel olarak oluşturulmuş birden çok özellik içerir.

Bu öğreticilerde, bir bankadaki 10.000 müşterinin değişim durumunu içeren bir veri kümesini keşfetme, temizleme ve dönüştürme görevi verilen bir veri bilimcisi rolünü üstlenebilirsiniz. Ardından, hangi banka müşterilerinin ayrılma olasılığını tahmin etmek için bir makine öğrenmesi modeli oluşturursunuz.

Aşağıdaki etkinlikleri gerçekleştirmeyi öğreneceksiniz:

  1. Veri bilimi senaryoları için Doku not defterlerini kullanın.
  2. Apache Spark kullanarak bir Fabric lakehouse'a veri alın.
  3. Göl evi delta tablolarından mevcut verileri yükleyin.
  4. Apache Spark ve Python tabanlı araçları kullanarak verileri temizleyin ve dönüştürün.
  5. Farklı makine öğrenmesi modellerini eğitmek için denemeler ve çalıştırmalar oluşturun.
  6. MLflow ve Doku kullanıcı arabirimini kullanarak eğitilen modelleri kaydedin ve izleyin.
  7. Büyük ölçekte puanlama çalıştırın ve tahminleri ve çıkarım sonuçlarını lakehouse'a kaydedin.
  8. DirectLake kullanarak Power BI'da tahminleri görselleştirme.

Mimari

Bu öğretici serisinde şunları içeren basitleştirilmiş bir uçtan uca veri bilimi senaryosu sergileyeceğiz:

  1. Dış veri kaynağından veri alma.
  2. Verileri keşfedin ve temizleyin.
  3. Makine öğrenmesi modellerini eğitin ve kaydedin.
  4. Toplu puanlama gerçekleştirin ve tahminleri kaydedin.
  5. Power BI'da tahmin sonuçlarını görselleştirme.

Diagram of the Data science end-to-end scenario components.

Veri bilimi senaryosunun farklı bileşenleri

Veri kaynakları - Doku, verileri almak için Azure Veri Hizmetleri'ne, diğer bulut platformlarına ve şirket içi veri kaynaklarına bağlanmayı kolay ve hızlı hale getirir. Doku Not Defterlerini kullanarak yerleşik Lakehouse, Veri Ambarı, anlam modelleri ve Apache Spark ve Python tarafından desteklenen çeşitli özel veri kaynaklarından veri alabilirsiniz. Bu öğretici serisi, bir göl evinden veri alma ve yükleme konularına odaklanır.

Keşfedin, temizleyin ve hazırlayın - Dokudaki veri bilimi deneyimi, Spark'ta yerleşik deneyimlerin yanı sıra Data Wrangler ve SemPy Kitaplığı gibi Python tabanlı araçları kullanarak veri temizleme, dönüştürme, inceleme ve özellik geliştirmeyi destekler. Bu öğreticide Python kitaplığını seaborn kullanarak veri keşfi ve Apache Spark kullanarak veri temizleme ve hazırlama işlemleri gösterilir.

Modeller ve denemeler - Doku, deneme izleme ve model kaydı/dağıtımı için MLflow ile sorunsuz tümleştirme ile yerleşik deneme ve model öğeleri kullanarak makine öğrenmesi modellerini eğitmenizi, değerlendirmenizi ve puanlamanızı sağlar. Doku ayrıca iş içgörüleri elde etmek ve paylaşmak için uygun ölçekte model tahmini (PREDICT) özelliklerine de sahiptir.

Depolama - Doku Delta Lake'te standart hale gelir, bu da Fabric'in tüm altyapılarının bir göl evinde depolanan veri kümesiyle etkileşim kurabileceği anlamına gelir. Bu depolama katmanı, hem dosya tabanlı depolamayı hem de tablosal biçimi destekleyen hem yapılandırılmış hem de yapılandırılmamış verileri depolamanıza olanak tanır. Depolanan veri kümelerine ve dosyalara not defterleri ve işlem hatları gibi tüm Doku deneyimi öğeleri aracılığıyla kolayca erişilebilir.

Analiz ve içgörüleri kullanıma sunma - Bir göl evindeki veriler, raporlama ve görselleştirme için sektör lideri iş zekası aracı Power BI tarafından kullanılabilir. Lakehouse'da kalıcı olan veriler, Spark veya , seaborn, plotlyve gibi matplotlibPython yerel görselleştirme kitaplıkları kullanılarak not defterlerinde de görselleştirilebilir. Veriler ayrıca anlamsal veri modeli, bağımlılıklar ve ihlalleri, sınıflandırma ve regresyon kullanım örnekleri için yerleşik zengin, göreve özgü görselleştirmeleri destekleyen SemPy kitaplığı kullanılarak görselleştirilebilir.

Sonraki adım