Przekształcanie danych ze źródła SAP ODP przy użyciu łącznika SAP CDC w usłudze Azure Data Factory lub Azure Synapse Analytics
DOTYCZY: Azure Data Factory Azure Synapse Analytics
Napiwek
Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !
W tym artykule opisano sposób używania przepływu mapowania danych do przekształcania danych ze źródła SAP ODP przy użyciu łącznika SAP CDC. Aby dowiedzieć się więcej, przeczytaj artykuł wprowadzający dotyczący usługi Azure Data Factory lub Azure Synapse Analytics. Aby zapoznać się z wprowadzeniem do przekształcania danych za pomocą usług Azure Data Factory i Azure Synapse Analytics, przeczytaj przepływ mapowania danych lub samouczek dotyczący przepływu mapowania danych.
Napiwek
Aby dowiedzieć się więcej na temat ogólnego scenariusza integracji danych SAP, zobacz oficjalny dokument dotyczący integracji danych SAP przy użyciu usługi Azure Data Factory ze szczegółowym wprowadzeniem do każdego łącznika SAP, porównania i wskazówek.
Obsługiwane możliwości
Ten łącznik SAP CDC jest obsługiwany w następujących funkcjach:
Obsługiwane możliwości | IR |
---|---|
Przepływ danych mapowania (źródło/-) | (1), (2) |
(1) Środowisko Azure Integration Runtime (2) Self-hosted Integration Runtime
Ten łącznik SAP CDC używa struktury SAP ODP do wyodrębniania danych z systemów źródłowych SAP. Aby zapoznać się z wprowadzeniem do architektury rozwiązania, przeczytaj wprowadzenie i architekturę do przechwytywania zmian (CDC) sap w naszym centrum wiedzy SAP.
Struktura SAP ODP jest zawarta we wszystkich aktualnych systemach opartych na oprogramowaniu SAP NetWeaver, w tym SAP ECC, SAP S/4HANA, SAP BW, SAP BW/4HANA, SAP LT Replication Server (SLT). Aby zapoznać się z wymaganiami wstępnymi i minimalnymi wymaganymi wersjami, zobacz Wymagania wstępne i konfiguracja.
Łącznik SAP CDC obsługuje uwierzytelnianie podstawowe lub secure network communications (SNC), jeśli skonfigurowano SNC.
Bieżące ograniczenia
Poniżej przedstawiono bieżące ograniczenia łącznika SAP CDC w usłudze Data Factory:
- Nie można zresetować ani usunąć subskrypcji ODQ w usłudze Data Factory (w tym celu użyj funkcji ODQMON transakcji w połączonym systemie SAP).
- Nie można używać hierarchii SAP z rozwiązaniem.
Wymagania wstępne
Aby użyć tego łącznika SAP CDC, zapoznaj się z tematem Wymagania wstępne i konfiguracja łącznika SAP CDC.
Rozpocznij
Aby wykonać działanie Kopiuj za pomocą potoku, możesz użyć jednego z następujących narzędzi lub zestawów SDK:
- Narzędzie do kopiowania danych
- Witryna Azure Portal
- Zestaw SDK platformy .NET
- Zestaw SDK języka Python
- Azure PowerShell
- Interfejs API REST
- Szablon usługi Azure Resource Manager
Tworzenie połączonej usługi dla łącznika SAP CDC przy użyciu interfejsu użytkownika
Wykonaj kroki opisane w artykule Przygotowywanie połączonej usługi SAP CDC, aby utworzyć połączoną usługę dla łącznika SAP CDC w interfejsie użytkownika witryny Azure Portal.
Właściwości zestawu danych
Aby przygotować zestaw danych SAP CDC, wykonaj czynności opisane w artykule Prepare the SAP CDC source dataset (Przygotowywanie źródłowego zestawu danych sap CDC).
Przekształcanie danych za pomocą łącznika SAP CDC
Nieprzetworzone źródło zmian SAP ODP jest trudne do zinterpretowania i poprawnego zaktualizowania go do ujścia może być wyzwaniem. Na przykład atrybuty techniczne skojarzone z każdym wierszem (na przykład ODQ_CHANGEMODE) muszą być zrozumiałe, aby prawidłowo zastosować zmiany do ujścia. Ponadto wyodrębnienie danych zmiany z odp może zawierać wiele zmian w tym samym kluczu (na przykład to samo zamówienie sprzedaży). Dlatego ważne jest, aby uwzględniać kolejność zmian, jednocześnie optymalizując wydajność, przetwarzając zmiany równolegle. Ponadto zarządzanie źródłem danych przechwytywania zmian wymaga również śledzenia stanu, na przykład w celu zapewnienia wbudowanych mechanizmów odzyskiwania błędów. Przepływy danych mapowania usługi Azure Data Factory zajmują się wszystkimi takimi aspektami. W związku z tym łączność SAP CDC jest częścią środowiska przepływu mapowania danych. W związku z tym użytkownicy mogą skoncentrować się na wymaganej logice przekształcania bez konieczności przejmowania się szczegółami technicznymi wyodrębniania danych.
Aby rozpocząć, utwórz potok z przepływem danych mapowania.
Następnie określ tymczasową połączoną usługę i folder przejściowy w usłudze Azure Data Lake Gen2, który służy jako pośredni magazyn dla danych wyodrębnionych z oprogramowania SAP.
Uwaga
- Połączona usługa przejściowa nie może używać własnego środowiska Integration Runtime.
- Folder przejściowy należy uznać za wewnętrzny magazyn łącznika SAP CDC. Aby uzyskać dalsze optymalizacje środowiska uruchomieniowego SAP CDC, szczegóły implementacji, takie jak format pliku używany na potrzeby danych przejściowych, mogą ulec zmianie. Dlatego nie zalecamy używania folderu przejściowego do innych celów, np. jako źródła dla innych działań kopiowania lub mapowania przepływów danych.
Klucz punktu kontrolnego jest używany przez środowisko uruchomieniowe SAP CDC do przechowywania informacji o stanie procesu przechwytywania zmian danych. Umożliwia to na przykład przepływom mapowania danych usługi SAP CDC w celu automatycznego odzyskiwania po sytuacjach błędów lub ustalenia, czy proces przechwytywania zmian danych dla danego przepływu danych został już ustanowiony. Dlatego ważne jest użycie unikatowego klucza punktu kontrolnego dla każdego źródła. W przeciwnym razie informacje o stanie jednego źródła zostaną zastąpione przez inne źródło.
Uwaga
- Aby uniknąć konfliktów, unikatowy identyfikator jest generowany jako klucz punktu kontrolnego domyślnie.
- W przypadku używania parametrów do korzystania z tego samego przepływu danych dla wielu źródeł upewnij się, że parametryzacja klucza punktu kontrolnego z unikatowymi wartościami na źródło.
- Właściwość Klucz punktu kontrolnego nie jest wyświetlana, jeśli tryb uruchamiania w źródle usługi SAP CDC jest ustawiony na Pełny dla każdego przebiegu (zobacz następną sekcję), ponieważ w tym przypadku nie zostanie ustanowiony żaden proces przechwytywania zmian danych.
Sparametryzowane klucze punktu kontrolnego
Klucze punktów kontrolnych są wymagane do zarządzania stanem procesów przechwytywania danych zmian. Aby efektywnie zarządzać, można sparametryzować klucz punktu kontrolnego, aby zezwolić na połączenia z różnymi źródłami. Oto jak zaimplementować sparametryzowany klucz punktu kontrolnego:
Utwórz parametr globalny do przechowywania klucza punktu kontrolnego na poziomie potoku, aby zapewnić spójność między wykonaniami:
"parameters": { "checkpointKey": { "type": "string", "defaultValue": "YourStaticCheckpointKey" } }
Programowe ustawianie klucza punktu kontrolnego w celu wywołania potoku z żądaną wartością przy każdym uruchomieniu. Oto przykład wywołania REST przy użyciu sparametryzowanego klucza punktu kontrolnego:
PUT https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.DataFactory/factories/{factoryName}/pipelines/{pipelineName}?api-version=2018-06-01 Content-Type: application/json { "properties": { "activities": [ // Your activities here ], "parameters": { "checkpointKey": { "type": "String", "defaultValue": "YourStaticCheckpointKey" } } } }
Aby uzyskać bardziej szczegółowe informacje, zobacz Tematy zaawansowane dla łącznika SAP CDC.
Właściwości przepływu mapowania danych
Aby utworzyć przepływ danych mapowania przy użyciu łącznika SAP CDC jako źródła, wykonaj następujące kroki:
W programie ADF Studio przejdź do sekcji Przepływy danych w centrum Autor, wybierz przycisk ... w celu menu akcji przepływu danych i wybierz element Nowy przepływ danych. Włącz tryb debugowania przy użyciu przycisku Debugowanie przepływu danych na górnym pasku kanwy przepływu danych.
W edytorze przepływu mapowania danych wybierz pozycję Dodaj źródło.
Na karcie Ustawienia źródła wybierz przygotowany zestaw danych SAP CDC lub wybierz przycisk Nowy , aby utworzyć nowy. Alternatywnie możesz również wybrać opcję Wbudowany we właściwości Typ źródła i kontynuować bez definiowania jawnego zestawu danych.
Na karcie Opcje źródła wybierz opcję Pełne dla każdego przebiegu , jeśli chcesz załadować pełne migawki w każdym wykonaniu przepływu mapowania danych. Wybierz pozycję Pełne w pierwszym uruchomieniu, a następnie przyrostowe , jeśli chcesz zasubskrybować zestawienie zmian z systemu źródłowego SAP, w tym początkową pełną migawkę danych. W takim przypadku pierwsze uruchomienie potoku wykonuje inicjowanie różnicowe, co oznacza, że tworzy subskrypcję różnicową ODP w systemie źródłowym i zwraca bieżącą pełną migawkę danych. Kolejne uruchomienia potoku zwracają tylko zmiany przyrostowe od poprzedniego uruchomienia. Opcja przyrostowych zmian tworzy tylko subskrypcję różnicową ODP bez zwracania początkowej pełnej migawki danych w pierwszym uruchomieniu. Ponownie kolejne przebiegi zwracają zmiany przyrostowe od poprzedniego przebiegu. Obie opcje ładowania przyrostowego wymagają określenia kluczy obiektu źródłowego ODP we właściwości Kolumny klucza.
Na kartach Projekcja, Optymalizowanie i inspekcja postępuj zgodnie z przepływem danych mapowania.
Optymalizowanie wydajności pełnych lub początkowych obciążeń przy użyciu partycjonowania źródłowego
Jeśli tryb uruchamiania jest ustawiony na Pełne dla każdego przebiegu lub Pełne przy pierwszym przebiegu, a następnie przyrostowe, karta Optymalizacja oferuje wybór i typ partycjonowania o nazwie Źródło. Ta opcja umożliwia określenie wielu warunków partycji (czyli filtrowania) w celu podzielenia dużego zestawu danych źródłowych na wiele mniejszych części. Dla każdej partycji łącznik SAP CDC wyzwala oddzielny proces wyodrębniania w systemie źródłowym SAP.
Jeśli partycje mają równy rozmiar, partycjonowanie źródłowe może liniowo zwiększyć przepływność wyodrębniania danych. Aby osiągnąć takie ulepszenia wydajności, w systemie źródłowym SAP wymagane są wystarczające zasoby, maszyna wirtualna hostująca własne środowisko Integration Runtime i środowisko Azure Integration Runtime.