Przechwytywanie zmienionych danych przy użyciu ewolucji schematu z usługi Azure SQL Database do ujścia różnicowego przy użyciu zasobu przechwytywania zmian danych
DOTYCZY: Azure Data Factory Azure Synapse Analytics
Napiwek
Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !
W tym artykule użyjesz interfejsu użytkownika usługi Azure Data Factory, aby utworzyć zasób przechwytywania zmian danych (CDC). Zasób pobiera zmienione dane ze źródła usługi Azure SQL Database i dodaje je do usługi Delta Lake przechowywanej w usłudze Azure Data Lake Storage Gen2 w czasie rzeczywistym. To działanie prezentuje obsługę ewolucji schematu przy użyciu zasobu CDC między źródłem a ujściem.
W tym artykule omówiono sposób wykonywania następujących zadań:
- Utwórz zasób CDC.
- Wprowadź dynamiczne zmiany schematu w tabeli źródłowej.
- Zweryfikuj zmiany schematu w docelowym ujściu różnicy.
Możesz zmodyfikować i rozwinąć wzorzec konfiguracji w tym artykule.
Wymagania wstępne
Przed rozpoczęciem procedur opisanych w tym artykule upewnij się, że masz następujące zasoby:
- Subskrypcja platformy Azure. Jeśli nie masz subskrypcji platformy Azure, utwórz bezpłatne konto platformy Azure.
- Baza danych SQL. Usługa Azure SQL Database jest używana jako źródłowy magazyn danych. Jeśli nie masz bazy danych SQL, utwórz bazę danych w witrynie Azure Portal.
- Konto magazynu. Usługa Delta Lake jest przechowywana w usłudze Azure Data Lake Storage Gen2 jako docelowy magazyn danych. Jeśli nie masz konta magazynu, zobacz Tworzenie konta magazynu, aby zapoznać się z krokami, które należy utworzyć.
Tworzenie artefaktu CDC
Przejdź do okienka Autor w fabryce danych. Poniżej sekcji Potoki zostanie wyświetlony nowy artefakt najwyższego poziomu o nazwie Change Data Capture (wersja zapoznawcza).
Zatrzymaj wskaźnik myszy na przechwytywaniu zmian danych (wersja zapoznawcza) do momentu wyświetlenia trzech kropek. Następnie wybierz pozycję Zmień przechwytywanie danych (wersja zapoznawcza) Akcje.
Wybierz pozycję Nowa usługa CDC (wersja zapoznawcza). Ten krok otwiera okno wysuwane, aby rozpocząć proces z przewodnikiem.
Zostanie wyświetlony monit o nadenie nazwy zasobowi CDC. Domyślnie nazwa to "adfcdc" z liczbą, która zwiększa się o 1. Możesz zastąpić tę nazwę domyślną wybraną nazwą.
Użyj listy rozwijanej, aby wybrać źródło danych. W tym artykule wybierz pozycję Azure SQL Database.
Zostanie wyświetlony monit o wybranie połączonej usługi. Utwórz nową połączoną usługę lub wybierz istniejącą.
Po wybraniu połączonej usługi zostanie wyświetlony monit o wybranie tabel źródłowych. Użyj pól wyboru, aby wybrać tabele źródłowe, a następnie wybierz wartość kolumny przyrostowej przy użyciu listy rozwijanej.
W okienku są wyświetlane tylko tabele, które mają obsługiwane typy danych kolumn przyrostowych.
Uwaga
Aby włączyć usługę CDC z ewolucją schematu w źródle usługi Azure SQL Database, wybierz tabele oparte na kolumnach limitu, a nie na tabelach, które są natywnie włączone usługi SQL CDC.
Po wybraniu tabel źródłowych wybierz pozycję Kontynuuj , aby ustawić cel danych.
Wybierz wartość Typu docelowego przy użyciu listy rozwijanej. W tym artykule wybierz pozycję Delta.
Zostanie wyświetlony monit o wybranie połączonej usługi. Utwórz nową połączoną usługę lub wybierz istniejącą.
Wybierz docelowy folder danych. Możesz użyć jednej z następujących opcji:
- Przycisk Przeglądaj w obszarze Ścieżka podstawowa elementu docelowego, który ułatwia automatyczne wypełnienie ścieżki przeglądania dla wszystkich nowych tabel wybranych dla źródła.
- Przycisk Przeglądaj na zewnątrz, aby indywidualnie wybrać ścieżkę folderu.
Po wybraniu ścieżki folderu wybierz przycisk Kontynuuj .
Zostanie wyświetlona nowa karta przechwytywania danych zmiany. Ta karta to studio CDC, w którym można skonfigurować nowy zasób.
Nowe mapowanie jest tworzone automatycznie. Możesz zaktualizować opcje Tabela źródłowa i Docelowa tabela dla mapowania, korzystając z list rozwijanych.
Po wybraniu tabel ich kolumny są domyślnie mapowane z włączonym przełącznikiem Automatyczne mapowanie . Automatyczna mapa automatycznie mapuje kolumny według nazwy w ujściu, pobiera zmiany nowej kolumny po ewolucji schematu źródłowego i przepływa te informacje do obsługiwanych typów ujścia.
Uwaga
Ewolucja schematu działa tylko wtedy, gdy przełącznik Mapy automatyczne jest włączony. Aby dowiedzieć się, jak edytować mapowania kolumn lub dołączać przekształcenia, zobacz Przechwytywanie zmienionych danych przy użyciu zasobu przechwytywania zmian danych.
Wybierz link Klucze, a następnie wybierz kolumnę Klucze, która ma być używana do śledzenia operacji usuwania.
Po zakończeniu mapowania ustaw opóźnienie cdC przy użyciu przycisku Ustaw opóźnienie .
Wybierz opóźnienie usługi CDC, a następnie wybierz pozycję Zastosuj , aby wprowadzić zmiany.
Domyślnie opóźnienie jest ustawione na 15 minut. W przykładzie w tym artykule użyto opcji czasu rzeczywistego dla opóźnienia. Opóźnienie w czasie rzeczywistym stale pobiera zmiany w danych źródłowych w odstępach czasu krótszym niż 1 minuta.
W przypadku innych opóźnień (na przykład jeśli wybierzesz 15 minut), przechwytywanie zmian spowoduje przetworzenie danych źródłowych i odebranie wszelkich zmienionych danych od czasu ostatniego przetworzenia.
Po zakończeniu konfigurowania usługi CDC wybierz pozycję Opublikuj wszystko , aby opublikować zmiany.
Uwaga
Jeśli nie opublikujesz zmian, nie będzie można uruchomić zasobu usługi CDC. Przycisk Uruchom w następnym kroku będzie niedostępny.
Wybierz pozycję Rozpocznij , aby rozpocząć uruchamianie przechwytywania danych zmian.
Teraz, gdy przechwytywanie zmian danych jest uruchomione, możesz:
Użyj strony monitorowania, aby zobaczyć, ile zmian (wstawiania, aktualizowania lub usuwania) zostało odczytanych i zapisanych wraz z innymi informacjami diagnostycznymi.
Sprawdź, czy dane zmiany dotarły do usługi Delta Lake przechowywanej w usłudze Azure Data Lake Storage Gen2 w formacie delta.
Zweryfikuj schemat przybyłych danych zmiany.
Wprowadzanie dynamicznych zmian na poziomie schematu w tabelach źródłowych
Dodaj nową kolumnę PersonalEmail do tabeli źródłowej przy użyciu
ALTER TABLE
instrukcji języka T-SQL, jak pokazano w poniższym przykładzie.Sprawdź, czy nowa kolumna PersonalEmail jest wyświetlana w istniejącej tabeli.
Weryfikowanie zmian schematu w ujściu delty
Upewnij się, że nowa kolumna PersonalEmail jest wyświetlana w ujściu delty. Teraz wiesz, że zmiany danych ze zmianami schematu dotarły do miejsca docelowego.