Transfer danych na platformę Azure i z niej
Istnieje kilka opcji przesyłania danych do i z platformy Azure, w zależności od potrzeb.
Transfer fizyczny
Użycie sprzętu fizycznego do transferu danych na platformę Azure jest dobrym rozwiązaniem w przypadku:
- Sieć działa wolno lub zawodnie.
- Zwiększenie przepustowości sieci jest kosztowne.
- Zasady zabezpieczeń lub organizacji nie zezwalają na połączenia wychodzące w przypadku obsługi poufnych danych.
Jeśli twoim podstawowym problemem jest czas przesyłania danych, warto uruchomić test, aby sprawdzić, czy transfer sieciowy jest wolniejszy niż transport fizyczny.
Istnieją dwie główne opcje fizycznego transportu danych na platformę Azure:
Usługa Azure Import/Export
Usługa Azure Import/Export umożliwia bezpieczne przesyłanie dużych ilości danych do usługi Azure Blob Storage lub Azure Files przez wysyłanie wewnętrznych dysków twardych SATA (HDD) lub SDD do centrum danych platformy Azure. Możesz również użyć tej usługi do transferu danych z usługi Azure Storage na dyski twarde i mieć dyski dostarczane do ładowania lokalnego.
Azure Data Box
Azure Data Box to urządzenie dostarczane przez firmę Microsoft, które działa podobnie jak usługa Import/Export. Dzięki usłudze Data Box firma Microsoft dostarcza zastrzeżone, bezpieczne i odporne na naruszenia urządzenie transferowe i obsługuje kompleksową logistykę, którą można śledzić za pośrednictwem portalu. Jedną z zalet usługi Data Box jest łatwość użycia. Nie musisz kupować kilku dysków twardych, przygotowywać ich i przesyłać pliki do każdego z nich. Usługa Data Box jest obsługiwana przez wielu wiodących w branży partnerów platformy Azure, aby ułatwić bezproblemowe korzystanie z transportu offline do chmury z ich produktów.
Narzędzia wiersza polecenia i interfejsy API
Rozważ następujące opcje, jeśli chcesz przesyłać dane skryptowe i programowe:
Interfejs wiersza polecenia platformy Azure to międzyplatformowe narzędzie umożliwiające zarządzanie usługami platformy Azure i przekazywanie danych do usługi Storage.
AzCopy. Użyj narzędzia AzCopy z wiersza polecenia systemu Windows lub Linux , aby łatwo kopiować dane do i z usługi Blob Storage, Azure File Storage i Azure Table Storage z optymalną wydajnością. Narzędzie AzCopy obsługuje współbieżność i równoległość oraz umożliwia wznawianie operacji kopiowania, gdy zostaną przerwane. Możesz również użyć narzędzia AzCopy, aby skopiować dane z platformy AWS na platformę Azure. W przypadku dostępu programowego biblioteka przenoszenia danych usługi Microsoft Azure Storage to podstawowa struktura, która obsługuje narzędzie AzCopy. Jest ona udostępniana jako biblioteka platformy .NET Core.
W programie PowerShell polecenie cmdlet Start-AzureStorageBlobCopy programu PowerShell jest opcją dla administratorów systemu Windows, którzy są przyzwyczajeni do programu PowerShell.
Narzędzie AdlCopy umożliwia kopiowanie danych z usługi Blob Storage do usługi Azure Data Lake Storage. Można go również użyć do kopiowania danych między dwoma kontami usługi Data Lake Storage. Nie można jednak jej używać do kopiowania danych z usługi Data Lake Storage do usługi Blob Storage.
Narzędzie Distcp służy do kopiowania danych do i z magazynu klastra usługi HDInsight (WASB) na konto usługi Data Lake Storage.
Sqoop to projekt Apache i część ekosystemu platformy Hadoop. Jest on wstępnie zainstalowany we wszystkich klastrach usługi HDInsight. Umożliwia przesyłanie danych między klastrem usługi HDInsight i relacyjnymi bazami danych, takimi jak SQL, Oracle, MySQL itd. Sqoop to kolekcja powiązanych narzędzi, w tym narzędzi do importowania i eksportowania. Narzędzie Sqoop współpracuje z klastrami usługi HDInsight przy użyciu magazynu obiektów blob lub magazynu dołączonego do usługi Data Lake Storage.
PolyBase to technologia, która uzyskuje dostęp do danych spoza bazy danych za pośrednictwem języka T-SQL. W programie SQL Server 2016 umożliwia uruchamianie zapytań dotyczących danych zewnętrznych w usłudze Hadoop lub importowanie lub eksportowanie danych z usługi Blob Storage. W usłudze Azure Synapse Analytics można importować lub eksportować dane z usług Blob Storage i Data Lake Storage. Obecnie technologia PolyBase jest najszybszą metodą importowania danych do usługi Azure Synapse Analytics.
Użyj wiersza polecenia usługi Hadoop, gdy masz dane znajdujące się w węźle głównym klastra usługi HDInsight. Możesz użyć
hadoop -copyFromLocal
polecenia , aby skopiować te dane do dołączonego magazynu klastra, takiego jak Blob Storage lub Data Lake Storage. Aby użyć polecenia hadoop, należy najpierw nawiązać połączenie z węzłem głównym. Po nawiązaniu połączenia możesz przekazać plik do magazynu.
Interfejs graficzny
Rozważ następujące opcje, jeśli przesyłasz tylko kilka plików lub obiektów danych i nie musisz automatyzować tego procesu.
Eksplorator usługi Azure Storage to międzyplatformowe narzędzie umożliwiające zarządzanie zawartością kont usługi Azure Storage. Umożliwia przekazywanie i pobieranie obiektów blob, plików, kolejek, tabel i jednostek bazy danych Azure Cosmos DB, a także zarządzanie nimi. Usługa Blob Storage umożliwia zarządzanie obiektami blob i folderami oraz przekazywanie i pobieranie obiektów blob między lokalnym systemem plików a usługą Blob Storage lub między kontami magazynu.
Użycie witryny Azure Portal. Zarówno usługa Blob Storage, jak i usługa Data Lake Storage udostępniają internetowy interfejs do eksplorowania plików i przekazywania nowych plików. Ta opcja jest dobrym rozwiązaniem, jeśli nie chcesz instalować narzędzi lub wydać poleceń, aby szybko eksplorować pliki, lub jeśli chcesz przekazać kilka nowych.
Synchronizacja danych i potoki
Azure Data Factory to usługa zarządzana najlepiej nadaje się do regularnego przesyłania plików między wieloma usługami platformy Azure, systemami lokalnymi lub kombinacją tych dwóch. Za pomocą usługi Data Factory można tworzyć i planować oparte na danych przepływy pracy nazywane potokami, które pozyskują dane z różnych magazynów danych. Usługa Data Factory może przetwarzać i przekształcać dane przy użyciu usług obliczeniowych, takich jak Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics i Azure Machine Learning. Możesz tworzyć oparte na danych przepływy pracy do organizowania i automatyzowania przenoszenia danych i przekształcania danych.
Potoki i działania w usługach Data Factory i Azure Synapse Analytics mogą służyć do tworzenia pełnych przepływów pracy opartych na danych na potrzeby scenariuszy przenoszenia danych i przetwarzania danych. Ponadto środowisko Azure Data Factory Integration Runtime służy do zapewniania możliwości integracji danych w różnych środowiskach sieciowych.
Usługa Azure Data Box Gateway przesyła dane do i z platformy Azure, ale jest to urządzenie wirtualne, a nie dysk twardy. Maszyny wirtualne znajdujące się w sieci lokalnej zapisują dane w usłudze Data Box Gateway przy użyciu protokołów sieciowego systemu plików (NFS) i SMB. Następnie urządzenie przesyła dane na platformę Azure.
Kluczowe kryteria wyboru
W przypadku scenariuszy transferu danych wybierz odpowiedni system dla Twoich potrzeb, odpowiadając na następujące pytania:
Czy musisz przenieść duże ilości danych, gdzie to za pośrednictwem połączenia internetowego zajęłoby zbyt dużo czasu, byłoby zawodne lub zbyt kosztowne? Jeśli tak, rozważ transfer fizyczny.
Czy wolisz wykonywać skrypty zadań transferu danych, więc są one wielokrotnego użytku? Jeśli tak, wybierz jedną z opcji wiersza polecenia lub fabrykę danych.
Czy musisz przenieść dużą ilość danych za pośrednictwem połączenia sieciowego? Jeśli tak, wybierz opcję zoptymalizowaną pod kątem danych big data.
Czy musisz przesłać dane do lub z relacyjnej bazy danych? Jeśli tak, wybierz opcję, która obsługuje co najmniej jedną relacyjną bazę danych. Niektóre z tych opcji wymagają również klastra Hadoop.
Czy dane wymagają automatycznej aranżacji potoku lub przepływu pracy? Jeśli tak, rozważ użycie usługi Data Factory.
Macierz możliwości
W poniższych tabelach podsumowano kluczowe różnice w możliwościach.
Transfer fizyczny
Możliwość | Usługa Import/Export | Data Box |
---|---|---|
Faktor | Wewnętrzne dyski HDD LUB SDD SATA | Bezpieczne, odporne na naruszenia, jedno urządzenie sprzętowe |
Firma Microsoft zarządza logistyką wysyłkową | Nie. | Tak |
Integruje się z produktami partnerskimi | Nie. | Tak |
Urządzenie niestandardowe | Nie. | Tak |
Narzędzia wiersza polecenia
Hadoop/HDInsight:
Możliwość | DistCp | Sqoop | Interfejs wiersza polecenia usługi Hadoop |
---|---|---|---|
Zoptymalizowane pod kątem danych big data | Tak | Tak | Tak |
Kopiowanie do relacyjnej bazy danych | Nie. | Tak | Nie. |
Kopiowanie z relacyjnej bazy danych | Nie. | Tak | Nie. |
Kopiowanie do usługi Blob Storage | Tak | Tak | Tak |
Kopiowanie z usługi Blob Storage | Tak | Tak | Nie. |
Kopiowanie do usługi Data Lake Storage | Tak | Tak | Tak |
Kopiowanie z usługi Data Lake Storage | Tak | Tak | Nie. |
Inne:
Możliwość | Interfejs wiersza polecenia platformy Azure | AzCopy | PowerShell | AdlCopy | PolyBase |
---|---|---|---|---|---|
Zgodne platformy | Linux, OS X, Windows | Linux, Windows | Windows | Linux, OS X, Windows | SQL Server, Azure Synapse Analytics |
Zoptymalizowane pod kątem danych big data | Nie. | Tak | Nie. | Tak 1 | Tak 2 |
Kopiowanie do relacyjnej bazy danych | Nie | Nie. | Nie. | Nie. | Tak |
Kopiowanie z relacyjnej bazy danych | Nie | Nie. | Nie. | Nie. | Tak |
Kopiowanie do usługi Blob Storage | Tak | Tak | Tak | Nie | Tak |
Kopiowanie z usługi Blob Storage | Tak | Tak | Tak | Tak | Tak |
Kopiowanie do usługi Data Lake Storage | Nie. | Tak | Tak | Tak | Tak |
Kopiowanie z usługi Data Lake Storage | Nie | Nie. | Tak | Tak | Tak |
[1] Narzędzie AdlCopy jest zoptymalizowane pod kątem przesyłania danych big data w przypadku użycia z kontem usługi Data Lake Analytics.
Wydajność technologii PolyBase można zwiększyć dzięki wypychaniu obliczeń do usługi Hadoop i używaniu grup skalowania w poziomie technologii PolyBase w celu umożliwienia równoległego transferu danych między wystąpieniami programu SQL Server i węzłami usługi Hadoop.
Interfejsy graficzne, synchronizacja danych i potoki danych
Możliwość | Eksplorator magazynu Azure | Azure Portal * | Data Factory | Data Box Gateway |
---|---|---|---|---|
Zoptymalizowane pod kątem danych big data | Nie | Nie. | Tak | Tak |
Kopiowanie do relacyjnej bazy danych | Nie | Nie. | Tak | Nie. |
Kopiowanie z relacyjnej bazy danych | Nie | Nie. | Tak | Nie. |
Kopiowanie do usługi Blob Storage | Tak | Nie | Tak | Tak |
Kopiowanie z usługi Blob Storage | Tak | Nie | Tak | Nie. |
Kopiowanie do usługi Data Lake Storage | Nie | Nie. | Tak | Nie. |
Kopiowanie z usługi Data Lake Storage | Nie | Nie. | Tak | Nie. |
Przekazywanie do usługi Blob Storage | Tak | Tak | Tak | Tak |
Przekazywanie do usługi Data Lake Storage | Tak | Tak | Tak | Tak |
Organizowanie transferów danych | Nie | Nie. | Tak | Nie. |
Niestandardowe przekształcenia danych | Nie | Nie. | Tak | Nie. |
Model cen | Bezpłatna | Bezpłatna | Płatność za użycie | Płatność za jednostkę |
W tym przypadku witryna Azure Portal reprezentuje internetowe narzędzia eksploracji dla usług Blob Storage i Data Lake Storage.
Współautorzy
Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.
Główny autor:
- Zoiner Tejada | Dyrektor generalny i architekt
Następne kroki
- Co to jest usługa Azure Import/Export?
- Co to jest usługa Azure Data Box?
- Co to jest interfejs wiersza polecenia platformy Azure?
- Wprowadzenie do narzędzia AzCopy
- Wprowadzenie do Eksploratora usługi Storage
- Co to jest usługa Azure Data Factory?
- Co to jest usługa Azure Data Box Gateway?