Düzenle

Aracılığıyla paylaş


Modern veri ambarı için DataOps

Azure Data Factory
Azure Databricks
Azure DevOps
Azure Key Vault
Azure Synapse Analytics

Bu makalede, kurgusal bir şehir planlama ofisinin bu çözümü nasıl kullanabileceği açıklanmaktadır. Çözüm, park kullanımını değerlendirmek ve daha bilinçli iş kararları almak için ilgili DevOps ve DataOps işlemlerinin yanı sıra MDW mimari desenini izleyen bir uçtan uca veri işlem hattı sağlar.

Mimari

Aşağıdaki diyagramda çözümün genel mimarisi gösterilmektedir.

Modern veri ambarı için DataOps'ı gösteren mimari diyagramı.

Bu mimarinin bir Visio dosyasını indirin.

Veri akışı

Azure Data Factory verileri düzenler ve Azure Data Lake Storage 2. Nesil depolar:

  1. Contoso şehir otopark web hizmeti API'sini park noktalarından veri aktarımı için kullanabilirsiniz.

  2. Verileri Giriş şemasına aktaran bir veri fabrikası kopyalama işi vardır.

  3. Ardından Azure Databricks verileri temizler ve standartlaştırır. Ham verileri ve koşulları alır, böylece veri bilimciler bunu kullanabilir.

  4. Doğrulama hatalı veriler ortaya çıkarsa, Hatalı biçimlendirilmiş şemaya atılır.

    Önemli

    İnsanlar verilerin Data Lake Storage'da depolanmadan önce neden doğrulanmadığından sordu. Bunun nedeni, doğrulamanın veri kümesini bozabilecek bir hataya neden olmasıdır. Bu adımda bir hata eklerseniz, hatayı düzeltebilir ve işlem hattınızı yeniden yürütebilirsiniz. Hatalı verileri Data Lake Storage'a eklemeden önce attıysanız, bozuk veriler işlem hattınızı yeniden yürütemediğinizden işe yaramaz.

  5. Verileri veri ambarında depolayabileceğiniz bir biçime dönüştüren ikinci bir Azure Databricks dönüştürme adımı vardır.

  6. Son olarak işlem hattı verileri iki farklı şekilde sunar:

    1. Databricks, modelleri eğitebilmeleri için verileri veri bilimcisinin kullanımına sunar.

    2. Polybase, verileri veri gölünden Azure Synapse Analytics'e taşır ve Power BI verilere erişir ve iş kullanıcısına sunar.

Bileşenler

Çözüm şu bileşenleri kullanır:

Senaryo ayrıntıları

Modern veri ambarı (MDW), tüm verilerinizi istediğiniz ölçekte kolayca bir araya getirmenizi sağlar. Yapılandırılmış, yapılandırılmamış veya yarı yapılandırılmış veriler olması önemli değildir. Tüm kullanıcılarınız için analiz panoları, operasyonel raporlar veya gelişmiş analizler aracılığıyla MDW hakkında içgörüler elde edebilirsiniz.

Hem geliştirme (geliştirme) hem de üretim (üretim) ortamları için bir MDW ortamı ayarlamak karmaşıktır. İşlemi otomatikleştirmek çok önemlidir. Hata riskini en aza indirirken üretkenliği artırmaya yardımcı olur.

Bu makalede, kurgusal bir şehir planlama ofisinin bu çözümü nasıl kullanabileceği açıklanmaktadır. Çözüm, park kullanımını değerlendirmek ve daha bilinçli iş kararları almak için ilgili DevOps ve DataOps işlemlerinin yanı sıra MDW mimari desenini izleyen bir uçtan uca veri işlem hattı sağlar.

Çözüm gereksinimleri

  • Farklı kaynaklardan veya sistemlerden veri toplama olanağı.

  • Kod olarak altyapı: Yeni geliştirme ve hazırlama (hazırlama) ortamlarını otomatik bir şekilde dağıtın.

  • Uygulama değişikliklerini farklı ortamlar arasında otomatik bir şekilde dağıtın:

    • Sürekli tümleştirme ve sürekli teslim (CI/CD) işlem hatlarını uygulayın.

    • El ile onaylar için dağıtım geçitlerini kullanın.

  • Kod Olarak İşlem Hattı: CI/CD işlem hattı tanımlarının kaynak denetiminde olduğundan emin olun.

  • Örnek bir veri kümesi kullanarak değişiklikler üzerinde tümleştirme testleri gerçekleştirin.

  • İşlem hatlarını zamanlanmış olarak çalıştırın.

  • Veri bilimi iş yüklerinin eklenmesi de dahil olmak üzere gelecekteki çevik geliştirmeyi destekleyin.

  • Hem satır düzeyi hem de nesne düzeyi güvenlik desteği:

    • Güvenlik özelliği SQL Veritabanı'de kullanılabilir.

    • Bunu Azure Synapse Analytics, Azure Analysis Services ve Power BI'da da bulabilirsiniz.

  • 10 eşzamanlı pano kullanıcısı ve 20 eşzamanlı güç kullanıcısı için destek.

  • Veri işlem hattı, veri doğrulama gerçekleştirmeli ve hatalı biçimlendirilmiş kayıtları belirtilen bir depoda filtrelemelidir.

  • İzleme desteği.

  • Azure Key Vault gibi güvenli bir depolama alanında merkezi yapılandırma.

Olası kullanım örnekleri

Bu makalede, kullanım örneği senaryolarını açıklamak için kurgusal Contoso şehri kullanılır. Anlatıda Contoso, şehir için park sensörlerinin sahibi ve yönetimidir. Ayrıca algılayıcılara bağlanan ve algılayıcılardan veri alan API'lere de sahip olur. Birçok farklı kaynaktan veri toplayacak bir platforma ihtiyaç duyarlar. Daha sonra verilerin doğrulanması, temizlenmesi ve bilinen bir şemaya dönüştürülmesi gerekir. Contoso şehir planlayıcıları daha fazla park yeri veya ilgili kaynaklara ihtiyaçları olup olmadığını belirlemek için Power BI gibi veri görselleştirme araçlarıyla park kullanımıyla ilgili rapor verilerini inceleyebilir ve değerlendirebilir.

Sokakta Park Yeri Kullanılabilirliği

Dikkat edilmesi gereken noktalar

Bu önemli noktalar, bir iş yükünün kalitesini artırmak için kullanılabilecek bir dizi yol gösteren ilke olan Azure İyi Tasarlanmış Çerçeve'nin yapı taşlarını uygular. Daha fazla bilgi için bkz . Microsoft Azure İyi Tasarlanmış Çerçeve.

Bu bölümdeki önemli noktalar, bu çözüm tarafından sunulan temel öğrenmeleri ve en iyi yöntemleri özetler:

Not

Bu bölümde dikkate alınacak her bir nokta, GitHub'daki park sensörü çözümü örneğinin belgelerindeki ilgili Anahtar Öğrenmeleri bölümüne bağlanır.

Güvenlik

Güvenlik, kasıtlı saldırılara ve değerli verilerinizin ve sistemlerinizin kötüye kullanılmasına karşı güvence sağlar. Daha fazla bilgi için bkz . Güvenlik için tasarım gözden geçirme denetim listesi.

Operasyonel Mükemmellik

Operasyonel mükemmellik, bir uygulamayı dağıtan ve üretimde çalışır durumda tutan operasyon süreçlerini kapsar. Daha fazla bilgi için bkz . Operasyonel Mükemmellik için tasarım gözden geçirme denetim listesi.

Bu senaryoyu dağıtın

Aşağıdaki listede, Park Algılayıcıları çözümünü ilgili Derleme ve Yayın İşlem Hatları ile ayarlamak için gereken üst düzey adımlar yer alır. Ayrıntılı kurulum adımlarını ve önkoşulları bu Azure Örnekleri deposunda bulabilirsiniz.

Kurulum ve dağıtım

  1. İlk kurulum: Tüm önkoşulları yükleyin, Azure Samples GitHub deposunu kendi deponuza aktarın ve gerekli ortam değişkenlerini ayarlayın.

  2. Azure kaynaklarını dağıtma: Çözüm, otomatik dağıtım betiğiyle birlikte gelir. Ortam başına tüm gerekli Azure kaynaklarını ve Microsoft Entra hizmet sorumlularını dağıtır. Betik ayrıca Azure Pipelines, değişken grupları ve hizmet bağlantıları dağıtır.

  3. Dev Data Factory'de Git tümleştirmesini ayarlama: git tümleştirmesini içeri aktarılan GitHub deposuyla çalışacak şekilde yapılandırın.

  4. İlk derleme ve sürümü gerçekleştirme: Data Factory'de zamanlama tetikleyicisini etkinleştirme gibi örnek bir değişiklik oluşturun ve ardından değişikliğin ortamlar arasında otomatik olarak dağıtılmasını izleyin.

Dağıtılan kaynaklar

Dağıtım başarılı olursa, Azure'da üç ortamı temsil eden üç kaynak grubu olmalıdır: dev, stg ve prod. Azure DevOps'ta bu üç ortamda değişiklikleri otomatik olarak dağıtabilen uçtan uca derleme ve yayın işlem hatları da olmalıdır.

Tüm kaynakların ayrıntılı listesi için DataOps - Park Algılayıcısı Tanıtımı README'nin Dağıtılan Kaynaklar bölümüne bakın.

Sürekli tümleştirme ve sürekli teslim (CI/CD)

Aşağıdaki diyagramda derleme ve yayın işlem hatları için CI/CD işlemi ve sırası gösterilmektedir.

Derleme ve yayın işlemini ve sırasını gösteren diyagram.

Bu mimarinin bir Visio dosyasını indirin.

  1. Geliştiriciler geliştirme kaynak grubu içindeki kendi korumalı alan ortamlarında geliştirmeler gerçekleştirebilir ve değişiklikleri kendi kısa süreli Git dallarına işleyebilir. Örneğin, <developer_name>/<branch_name>.

  2. Değişiklikler tamamlandığında, geliştiriciler gözden geçirilmesi için ana dala bir çekme isteği (PR) oluşturur. Bunun yapılması, birim testleri, lint ve veri katmanı uygulama paketi (DACPAC) derlemelerini çalıştıran PR doğrulama işlem hattını otomatik olarak başlatır.

  3. Çekme isteği doğrulaması tamamlandığında, main'a işleme, gerekli tüm derleme yapıtlarını yayımlayan bir derleme işlem hattını tetikler.

  4. Başarılı bir derleme işlem hattının tamamlanması yayın işlem hattının ilk aşamasını tetikler. Bunu yaptığınızda, Data Factory dışında yayımlama derleme yapıtları geliştirme ortamına dağıtılır.

    Geliştiriciler, işbirliği dalından (main) dev Data Factory'ye el ile yayımlar. El ile yayımlama, daldaki adf_publish Azure Resource Manager şablonlarını güncelleştirir.

  5. İlk aşamanın başarıyla tamamlanması el ile bir onay kapısı tetikler.

    Onay'da yayın işlem hattı ikinci aşamayla devam eder ve değişiklikleri stg ortamına dağıtır.

  6. Stg ortamındaki değişiklikleri test etmek için tümleştirme testleri çalıştırın.

  7. İkinci aşama başarıyla tamamlandıktan sonra işlem hattı ikinci bir el ile onay kapısı tetikler.

    Onay'da yayın işlem hattı üçüncü aşamayla devam eder ve değişiklikleri üretim ortamına dağıtır.

Daha fazla bilgi için BENIOKU'nun Derleme ve Yayın İşlem Hattı bölümünü okuyun.

Test Etme

Çözüm hem birim testi hem de tümleştirme testi için destek içerir. Pytest-Data Factory ve Nutter Test Çerçevesi'ni kullanır. Daha fazla bilgi için BENIOKU'nun Test bölümüne bakın.

Gözlemlenebilirlik ve izleme

Çözüm, Databricks ve Data Factory için gözlemlenebilirliği ve izlemeyi destekler. Daha fazla bilgi için BENİOKU'nun Gözlemlenebilirlik/İzleme bölümüne bakın.

Sonraki adımlar

Çözümü dağıtmak isterseniz DataOps - Park Sensörü Tanıtımı README'nin Örnek kullanımı bölümündeki adımları izleyin.

GitHub'da çözüm kodu örnekleri

Gözlemlenebilirlik/izleme

Azure Databricks

Data Factory

Azure Synapse Analytics

Azure Depolama

Dayanıklılık ve olağanüstü durum kurtarma

Azure Databricks

Data Factory

Azure Synapse Analytics

Azure Depolama

Ayrıntılı kılavuz

Çözüm ve temel kavramlar hakkında ayrıntılı bir kılavuz için şu video kaydını izleyin: Microsoft Azure'da Modern Veri Ambarı için DataDevOps