Opis wzorców integracji danych

Ukończone

Platforma Microsoft Azure udostępnia różne usługi platformy danych, które umożliwiają wykonywanie różnych typów analiz. Niezależnie od tego, czy jest to rozwiązanie do analizy opisowej w magazynie danych, za pośrednictwem analizy predykcyjnej w usługach HDInsight, Azure Databricks lub Machine Learning Services. Istnieje potrzeba, aby usługa obsługiwała ważny aspekt integracji danych.

Integracja danych obejmuje najpierw zbieranie danych z co najmniej jednego źródła. Opcjonalnie zazwyczaj obejmuje proces, w którym dane mogą zostać oczyszczone i przekształcone, lub być może rozszerzone o dodatkowe dane i przygotowane. Na koniec połączone dane są przechowywane w usłudze platformy danych, która obsługuje typ analizy, którą chcesz wykonać. Ten proces można zautomatyzować za pomocą usługi Azure Data Factory we wzorcu znanym jako Wyodrębnianie, przekształcanie i ładowanie (ETL).

Wyodrębnianie

Podczas procesu wyodrębniania inżynierowie danych definiują dane i ich źródło:

  • Zdefiniuj źródło danych: zidentyfikuj szczegóły źródła, takie jak grupa zasobów, subskrypcja i informacje o tożsamości, takie jak klucz lub wpis tajny.

  • Zdefiniuj dane: zidentyfikuj dane do wyodrębnienia. Zdefiniuj dane za pomocą zapytania do bazy danych, zestawu plików lub usługi Azure Blob Storage w przypadku magazynu obiektów blob.

Przekształcanie

  • Definiowanie przekształcenia danych: Operacje przekształcania danych mogą obejmować dzielenie, łączenie, wyprowadzanie, dodawanie, usuwanie lub przestawianie kolumn. Zamapuj pola między źródłem danych i docelową lokalizacją danych. Konieczne może być również zagregowanie lub scalanie danych.

Ładowanie

  • Zdefiniuj miejsce docelowe: podczas ładowania wiele miejsc docelowych platformy Azure może akceptować dane sformatowane jako notacja obiektów JavaScript (JSON), plik lub obiekt blob. Wymagane może być również napisanie kodu do interakcji z interfejsami API aplikacji.

    Usługa Azure Data Factory oferuje wbudowaną obsługę usługi Azure Functions. Dostępna jest również obsługa wielu języków programowania, w tym Node.js, .NET, Python i Java. Wcześniej najczęściej używanym językiem był język XML (Extensible Markup Language), ale obecnie w większości systemów zaimplementowano format JSON z powodu jego elastyczności jako typu danych częściowo ustrukturyzowanych.

  • Uruchom zadanie: przetestuj zadanie ETL w środowisku projektowym lub testowym. Następnie przeprowadź migrację zadania do środowiska produkcyjnego w celu załadowania systemu produkcyjnego.

  • Monitorowanie zadania: operacje ETL mogą obejmować wiele złożonych procesów. Skonfiguruj proaktywny i reaktywny system monitorowania w celu dostarczania przydatnych informacji, gdy coś pójdzie źle. Skonfiguruj rejestrowanie zgodnie z technologią, która będzie go używać.

Narzędzia ETL

Jako inżynier danych istnieje kilka dostępnych narzędzi do etl. Usługa Azure Data Factory udostępnia prawie 100 łączników przedsiębiorstwa i niezawodnych zasobów zarówno dla użytkowników bez kodu, jak i opartych na kodzie w celu realizacji potrzeb związanych z przenoszeniem i przekształcaniem danych.

Ewolucja od procesu ETL

Pojawienie się platformy Azure zapoczątkowało powstawanie technologii mogących obsługiwać nieustrukturyzowane dane na nieograniczoną skalę. Ta zmiana spowodowała przesunięcie paradygmatu związanego z ładowaniem i transformacją danych z procesu ETL (wyodrębnianie, transformacja, ładowanie) do procesu ETL (wyodrębnianie, ładowanie, transformacja).

Zaletą procesu ELT jest możliwość przechowywania danych w ich oryginalnym formacie: JSON, XML lub PDF bądź jako obraz. W przypadku procesu ELT struktura danych jest definiowana w fazie transformacji, dzięki czemu możliwe jest używanie danych źródłowych w wielu systemach podrzędnych.

W przypadku procesu ELT dane są wyodrębniane i ładowane w formacie natywnym. Ta zmiana skraca czas potrzebny do załadowania danych do systemu docelowego. Powoduje również ograniczenie rywalizacji o zasoby w źródłach danych.

Kroki na potrzeby procesu ELT są takie same jak w przypadku procesu ETL. Jedyną różnicą jest wykonywanie ich w innej kolejności.

Innym procesem podobnym do procesu ELT jest proces wyodrębniania, ładowania, transformacji i ładowania (ELTL, extract, load, transform, load). Proces ELTL różni się końcowym ładowaniem danych do systemu docelowego.

Istnieją dwa typowe typy wzorców integracji danych, które mogą być obsługiwane przez usługę Azure Data Factory.

Obciążenia nowoczesnego magazynu danych:

Nowoczesny magazyn danych to scentralizowany magazyn danych, który zapewnia opisowe usługi analizy i wsparcia decyzyjnego w całym przedsiębiorstwie przy użyciu źródeł danych ze strukturą, bez struktury lub przesyłania strumieniowego. Dane są okresowo przesyłane do magazynu z wielu systemów transakcyjnych, relacyjnych baz danych i innych źródeł danych. Przechowywane dane są używane do tworzenia raportów historycznych i dotyczących analizy trendów. Magazyn danych stanowi centralne repozytorium danych z różnych dziedzin — pojedyncze źródło prawdziwych danych.

Usługa Azure Data Factory jest zwykle używana do automatyzowania procesu wyodrębniania, przekształcania i ładowania danych za pośrednictwem procesu wsadowego względem źródeł danych ze strukturą i bez struktury.

Zaawansowane obciążenia analityczne

Zaawansowaną analizę można wykonywać w formie analizy predykcyjnej lub wyprzedzanej przy użyciu szeregu usług platformy danych Platformy danych Platformy Azure. Usługa Azure Data Factory zapewnia integrację z systemami źródłowymi w usłudze Data Lake Store i może inicjować zasoby obliczeniowe, takie jak usługa Azure Databricks, lub usługa HDInsight, aby używać danych do wykonywania zaawansowanych zadań analitycznych