Udostępnij za pośrednictwem


Przechwytywanie zmienionych danych przy użyciu ewolucji schematu z usługi Azure SQL Database do ujścia różnicowego przy użyciu zasobu przechwytywania zmian danych

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

W tym artykule użyjesz interfejsu użytkownika usługi Azure Data Factory, aby utworzyć zasób przechwytywania zmian danych (CDC). Zasób pobiera zmienione dane ze źródła usługi Azure SQL Database i dodaje je do usługi Delta Lake przechowywanej w usłudze Azure Data Lake Storage Gen2 w czasie rzeczywistym. To działanie prezentuje obsługę ewolucji schematu przy użyciu zasobu CDC między źródłem a ujściem.

W tym artykule omówiono sposób wykonywania następujących zadań:

  • Utwórz zasób CDC.
  • Wprowadź dynamiczne zmiany schematu w tabeli źródłowej.
  • Zweryfikuj zmiany schematu w docelowym ujściu różnicy.

Możesz zmodyfikować i rozwinąć wzorzec konfiguracji w tym artykule.

Wymagania wstępne

Przed rozpoczęciem procedur opisanych w tym artykule upewnij się, że masz następujące zasoby:

  • Subskrypcja platformy Azure. Jeśli nie masz subskrypcji platformy Azure, utwórz bezpłatne konto platformy Azure.
  • Baza danych SQL. Usługa Azure SQL Database jest używana jako źródłowy magazyn danych. Jeśli nie masz bazy danych SQL, utwórz bazę danych w witrynie Azure Portal.
  • Konto magazynu. Usługa Delta Lake jest przechowywana w usłudze Azure Data Lake Storage Gen2 jako docelowy magazyn danych. Jeśli nie masz konta magazynu, zobacz Tworzenie konta magazynu, aby zapoznać się z krokami, które należy utworzyć.

Tworzenie artefaktu CDC

  1. Przejdź do okienka Autor w fabryce danych. Poniżej sekcji Potoki zostanie wyświetlony nowy artefakt najwyższego poziomu o nazwie Change Data Capture (wersja zapoznawcza).

    Zrzut ekranu przedstawiający nowy artefakt najwyższego poziomu umożliwiający przechwytywanie danych zmian w okienku Zasoby fabryki.

  2. Zatrzymaj wskaźnik myszy na przechwytywaniu zmian danych (wersja zapoznawcza) do momentu wyświetlenia trzech kropek. Następnie wybierz pozycję Zmień przechwytywanie danych (wersja zapoznawcza) Akcje.

    Zrzut ekranu przedstawiający przycisk akcji przechwytywania zmian danych wyświetlanych w nowym artefaktie najwyższego poziomu.

  3. Wybierz pozycję Nowa usługa CDC (wersja zapoznawcza). Ten krok otwiera okno wysuwane, aby rozpocząć proces z przewodnikiem.

    Zrzut ekranu przedstawiający listę akcji przechwytywania zmian danych.

  4. Zostanie wyświetlony monit o nadenie nazwy zasobowi CDC. Domyślnie nazwa to "adfcdc" z liczbą, która zwiększa się o 1. Możesz zastąpić tę nazwę domyślną wybraną nazwą.

    Zrzut ekranu przedstawiający pole tekstowe w celu zaktualizowania nazwy zasobu.

  5. Użyj listy rozwijanej, aby wybrać źródło danych. W tym artykule wybierz pozycję Azure SQL Database.

    Zrzut ekranu przedstawiający wysuwany proces z przewodnikiem z opcjami źródłowymi na liście rozwijanej.

  6. Zostanie wyświetlony monit o wybranie połączonej usługi. Utwórz nową połączoną usługę lub wybierz istniejącą.

    Zrzut ekranu przedstawiający pole wyboru lub utworzenie połączonej usługi.

  7. Po wybraniu połączonej usługi zostanie wyświetlony monit o wybranie tabel źródłowych. Użyj pól wyboru, aby wybrać tabele źródłowe, a następnie wybierz wartość kolumny przyrostowej przy użyciu listy rozwijanej.

    Zrzut ekranu przedstawiający wybór tabeli źródłowej i kolumny przyrostowej.

    W okienku są wyświetlane tylko tabele, które mają obsługiwane typy danych kolumn przyrostowych.

    Uwaga

    Aby włączyć usługę CDC z ewolucją schematu w źródle usługi Azure SQL Database, wybierz tabele oparte na kolumnach limitu, a nie na tabelach, które są natywnie włączone usługi SQL CDC.

  8. Po wybraniu tabel źródłowych wybierz pozycję Kontynuuj , aby ustawić cel danych.

    Zrzut ekranu przedstawiający przycisk Kontynuuj w procesie z przewodnikiem, aby wybrać element docelowy danych.

  9. Wybierz wartość Typu docelowego przy użyciu listy rozwijanej. W tym artykule wybierz pozycję Delta.

    Zrzut ekranu przedstawiający menu rozwijane wszystkich typów docelowych danych.

  10. Zostanie wyświetlony monit o wybranie połączonej usługi. Utwórz nową połączoną usługę lub wybierz istniejącą.

    Zrzut ekranu przedstawiający pole wyboru lub utworzenie połączonej usługi do celu danych.

  11. Wybierz docelowy folder danych. Możesz użyć jednej z następujących opcji:

    • Przycisk Przeglądaj w obszarze Ścieżka podstawowa elementu docelowego, który ułatwia automatyczne wypełnienie ścieżki przeglądania dla wszystkich nowych tabel wybranych dla źródła.
    • Przycisk Przeglądaj na zewnątrz, aby indywidualnie wybrać ścieżkę folderu.

    Zrzut ekranu przedstawiający ikonę folderu do przeglądania ścieżki folderu.

  12. Po wybraniu ścieżki folderu wybierz przycisk Kontynuuj .

    Zrzut ekranu przedstawiający przycisk Kontynuuj w procesie z przewodnikiem, aby przejść do następnego kroku.

  13. Zostanie wyświetlona nowa karta przechwytywania danych zmiany. Ta karta to studio CDC, w którym można skonfigurować nowy zasób.

    Zrzut ekranu przedstawiający studio przechwytywania zmian danych.

    Nowe mapowanie jest tworzone automatycznie. Możesz zaktualizować opcje Tabela źródłowa i Docelowa tabela dla mapowania, korzystając z list rozwijanych.

    Zrzut ekranu przedstawiający mapowanie typu source-to-target w studio przechwytywania zmian danych.

  14. Po wybraniu tabel ich kolumny są domyślnie mapowane z włączonym przełącznikiem Automatyczne mapowanie . Automatyczna mapa automatycznie mapuje kolumny według nazwy w ujściu, pobiera zmiany nowej kolumny po ewolucji schematu źródłowego i przepływa te informacje do obsługiwanych typów ujścia.

    Zrzut ekranu przedstawiający przełącznik automatycznego mapowania włączony.

    Uwaga

    Ewolucja schematu działa tylko wtedy, gdy przełącznik Mapy automatyczne jest włączony. Aby dowiedzieć się, jak edytować mapowania kolumn lub dołączać przekształcenia, zobacz Przechwytywanie zmienionych danych przy użyciu zasobu przechwytywania zmian danych.

  15. Wybierz link Klucze, a następnie wybierz kolumnę Klucze, która ma być używana do śledzenia operacji usuwania.

    Zrzut ekranu przedstawiający link umożliwiający włączenie wyboru kolumny Klucze.

    Zrzut ekranu przedstawiający wybieranie kolumny Klucze dla wybranego źródła.

  16. Po zakończeniu mapowania ustaw opóźnienie cdC przy użyciu przycisku Ustaw opóźnienie .

    Zrzut ekranu przedstawiający przycisk Ustaw opóźnienie w górnej części kanwy.

  17. Wybierz opóźnienie usługi CDC, a następnie wybierz pozycję Zastosuj , aby wprowadzić zmiany.

    Domyślnie opóźnienie jest ustawione na 15 minut. W przykładzie w tym artykule użyto opcji czasu rzeczywistego dla opóźnienia. Opóźnienie w czasie rzeczywistym stale pobiera zmiany w danych źródłowych w odstępach czasu krótszym niż 1 minuta.

    W przypadku innych opóźnień (na przykład jeśli wybierzesz 15 minut), przechwytywanie zmian spowoduje przetworzenie danych źródłowych i odebranie wszelkich zmienionych danych od czasu ostatniego przetworzenia.

    Zrzut ekranu przedstawiający opcje ustawiania opóźnienia.

  18. Po zakończeniu konfigurowania usługi CDC wybierz pozycję Opublikuj wszystko , aby opublikować zmiany.

    Zrzut ekranu przedstawiający przycisk publikowania w górnej części kanwy.

    Uwaga

    Jeśli nie opublikujesz zmian, nie będzie można uruchomić zasobu usługi CDC. Przycisk Uruchom w następnym kroku będzie niedostępny.

  19. Wybierz pozycję Rozpocznij , aby rozpocząć uruchamianie przechwytywania danych zmian.

    Zrzut ekranu przedstawiający przycisk Rozpocznij w górnej części kanwy.

Teraz, gdy przechwytywanie zmian danych jest uruchomione, możesz:

  • Użyj strony monitorowania, aby zobaczyć, ile zmian (wstawiania, aktualizowania lub usuwania) zostało odczytanych i zapisanych wraz z innymi informacjami diagnostycznymi.

    Zrzut ekranu przedstawiający stronę monitorowania wybranego przechwytywania danych zmiany.

    Zrzut ekranu przedstawiający stronę monitorowania wybranego przechwytywania danych zmiany ze szczegółowym widokiem.

  • Sprawdź, czy dane zmiany dotarły do usługi Delta Lake przechowywanej w usłudze Azure Data Lake Storage Gen2 w formacie delta.

    Zrzut ekranu przedstawiający docelowy folder delta.

  • Zweryfikuj schemat przybyłych danych zmiany.

    Zrzut ekranu przedstawiający plik delta.

Wprowadzanie dynamicznych zmian na poziomie schematu w tabelach źródłowych

  1. Dodaj nową kolumnę PersonalEmail do tabeli źródłowej przy użyciu ALTER TABLE instrukcji języka T-SQL, jak pokazano w poniższym przykładzie.

    Zrzut ekranu przedstawiający polecenie ALTER w narzędziu Azure Data Studio.

  2. Sprawdź, czy nowa kolumna PersonalEmail jest wyświetlana w istniejącej tabeli.

    Zrzut ekranu przedstawiający nowy projekt tabeli z kolumną dodaną do osobistej poczty e-mail.

Weryfikowanie zmian schematu w ujściu delty

Upewnij się, że nowa kolumna PersonalEmail jest wyświetlana w ujściu delty. Teraz wiesz, że zmiany danych ze zmianami schematu dotarły do miejsca docelowego.

Zrzut ekranu przedstawiający plik delta ze zmianą schematu.