Transferir dados do Azure e para ele
Há várias opções de transferência de dados bidirecionalmente no Azure, dependendo de suas necessidades.
Transferência física
O uso do hardware físico para transferir dados para o Azure é uma boa opção quando:
- A rede está lenta ou não é confiável.
- O custo para obter mais largura de banda para a rede é proibitivo.
- As políticas organizacionais ou de segurança não permitem conexões de saída ao lidar com os dados confidenciais.
Se a principal preocupação for o tempo necessário para a transferência dos dados, é recomendável executar um teste para verificar se a transferência pela rede é de fato mais lenta do que o transporte físico.
Há duas opções principais para o transporte físico de dados para o Azure:
O serviço de Importação/Exportação do Azure
O serviço de Importação/Exportação do Azure permite que você transfira grandes quantidades de dados com segurança para o Armazenamento de Blobs do Azure ou para Arquivos do Azure pelo envio de HDs (unidades de disco rígido) ou SDDs SATA internos para um datacenter do Azure. Você também pode usar esse serviço para transferir dados do Armazenamento do Azure para unidades de disco rígido e enviar essas unidades a você para o armazenamento local.
Azure Data Box
O Azure Data Box é um dispositivo fornecido pela Microsoft que funciona de modo muito semelhante ao serviço de Importação/Exportação. Com o Data Box, Microsoft fornece um dispositivo proprietário, seguro e de transferência resistente a adulterações e cuida da logística de ponta a ponta, que você pode controlar por meio do portal. Um dos benefícios do serviço Data Box é a facilidade de uso. Você não precisa comprar várias unidades de disco rígido, prepará-las e transferir arquivos para cada uma delas. O Data Box tem suporte de vários parceiros líderes do setor do Azure para facilitar o uso contínuo do transporte offline para a nuvem dos produtos.
Ferramentas de linha de comando e APIs
Considere estas opções quando desejar fazer uma transferência de dados programática e com script:
A CLI do Azure é uma ferramenta multiplataforma que permite que você gerencie os serviços do Azure e carregue dados no Armazenamento.
AzCopy. Use o AzCopy em uma linha de comando do Windows ou Linux para copiar dados com facilidade bidirecionalmente no Armazenamento de Blobs, Armazenamento de Arquivos e Armazenamento de Tabelas do Azure com desempenho ideal. O AzCopy dá suporte à simultaneidade e ao paralelismo e à capacidade de retomar as operações de cópia quando elas forem interrompidas. Use também o AzCopy para copiar dados da AWS para o Azure. Para o acesso programático, a Biblioteca de Movimentação de Dados do Armazenamento do Microsoft Azure é a estrutura básica que habilita o AzCopy. Ela é fornecida como uma biblioteca .NET Core.
Com o PowerShell, o cmdlet do PowerShell Start-AzureStorageBlobCopy é uma opção para os administradores do Windows que estão acostumados com o PowerShell.
O AdlCopy permite a cópia de dados do Armazenamento de Blobs para o Azure Data Lake Storage. Ele também pode ser usado para copiar dados entre duas contas do Data Lake Storage. No entanto, ele não pode ser usado para copiar dados do Data Lake Storage para Armazenamento de Blobs.
O Distcp é usado para copiar dados bilateralmente para um armazenamento de cluster HDInsight (WASB) para uma conta do Data Lake Storage.
O Sqoop é um projeto do Apache e faz parte do ecossistema do Hadoop. Ele vem pré-instalado em todos os clusters HDInsight. Permite a transferência de dados entre um cluster HDInsight e bancos de dados relacionais, como o SQL, Oracle, MySQL e assim por diante. O Sqoop é uma coleção de ferramentas relacionadas, incluindo ferramentas de importação e exportação. O Sqoop funciona com clusters HDInsight usando do Armazenamento de Blobs ou o armazenamento anexado do Data Lake Storage.
O PolyBase é uma tecnologia que acessa dados fora do banco de dados por meio da linguagem T-SQL. No SQL Server 2016, ele permite executar consultas em dados externos no Hadoop ou importar ou exportar dados do Armazenamento de Blobs. No Azure Synapse Analytics, você pode importar ou exportar dados do Armazenamento de Blobs e do Data Lake Storage. Atualmente, o PolyBase é o método mais rápido de importar dados para o Azure Synapse Analytics.
Use a linha de comando do Hadoop quando tiver dados que residem em um nó principal de cluster HDInsight. Você pode usar o
hadoop -copyFromLocal
comando para copiar esses dados para o armazenamento anexado do cluster, como Armazenamento de Blobs ou Data Lake Storage. Para usar o comando do Hadoop, primeiro você deve se conectar ao nó de cabeçalho. Depois de conectado, você pode carregar um arquivo no armazenamento.
Interface gráfica
Considere as opções a seguir caso esteja transferindo apenas alguns arquivos ou objetos de dados e não precisar automatizar o processo.
O Gerenciador de Armazenamento do Azure é uma ferramenta para várias plataformas que permite que você gerencie o conteúdo de suas contas de armazenamento do Azure. Ele permite carregar, baixar e gerenciar blogs, arquivos, filas, tabelas e entidades do Azure Cosmos DB. Use-o com o Armazenamento de Blobs para gerenciar blobs e pastas, além de carregar e baixar blobs entre o sistema de arquivos local e o Armazenamento de Blobs ou entre contas de armazenamento.
Portal do Azure. O Armazenamento de Blobs e o Data Lake Storage fornecem uma interface baseada na Web para explorar arquivos e carregar novos arquivos. Essa é uma boa opção caso você não queira instalar nenhuma ferramenta nem emitir comandos para explorar rapidamente os arquivos ou caso queira carregar novos arquivos.
Sincronização de dados e pipelines
O Azure Data Factory é um serviço gerenciado mais adequado para a transferência regular de arquivos entre diversos serviços do Azure, sistemas locais ou uma combinação dos dois. Usando o Data Factory, é possível criar e agendar fluxos de trabalho controlados por dados, chamados de pipelines, que podem ingerir dados de diferentes armazenamentos de dados. O Data Factory é capaz de processar e transformar os dados usando serviços de computação como o Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics e Azure Machine Learning. Você pode criar fluxos de trabalho controlados por dados para orquestrar e automatizar a movimentação e transformação de dados.
Pipelines e atividades no Data Factory e Azure Synapse Analytics para construir fluxos de trabalho orientados a dados de ponta a ponta para seus cenários de movimentação e processamento de dados. Além disso, o Azure Data Factory integration runtime é a infraestrutura de computação usada pelo Azure Data Factory para fornecer diversas funcionalidades de integração de dados entre diferentes ambientes de rede.
O Azure Data Box Gateway transfere dados bilateralmente para o Azure, mas é uma solução de virtualização, não um disco rígido. As máquinas virtuais que residem na rede local gravam dados no Data Box Gateway usando os protocolos NFS (Network File System) e SMB. Em seguida, o dispositivo transfere seus dados para o Azure.
Principais critérios de seleção
Para cenários de transferência de dados, escolha o sistema apropriado para suas necessidades respondendo a essas perguntas:
Você precisa transferir grandes quantidades de dados e fazer isso em uma conexão com a Internet levará muito tempo, será muito caro ou não confiável? Em caso afirmativo, considere o uso da transferência física.
Você prefere gerar o script das tarefas de transferência de dados, para que elas sejam reutilizáveis? Nesse caso, selecione uma das opções de linha de comando ou o Data Factory.
Você precisa transferir uma grande quantidade de dados em uma conexão de rede? Nesse caso, selecione uma opção que seja otimizada para Big Data.
Você precisa transferir dados bidirecionalmente em um banco de dados relacional? Em caso afirmativo, escolha uma opção que dá suporte a um ou mais bancos de dados relacionais. Algumas dessas opções também exigem um cluster Hadoop.
Seus dados precisam de um pipeline automatizado ou orquestração de fluxo de trabalho? Se sim, considere usar o Data Factory.
Matriz de funcionalidades
As tabelas a seguir resumem as principais diferenças em funcionalidades.
Transferência física
Funcionalidade | O serviço de Importação/Exportação | Data Box |
---|---|---|
Fator forma | HDDs ou SDDs SATA internos | Dispositivo de único hardware, seguro e à prova de adulteração |
A Microsoft gerencia a logística de envio | No | Sim |
É integrado a produtos de parceiros | Não | Sim |
Dispositivo personalizado | Não | Sim |
Ferramentas da linha de comando
Hadoop/HDInsight:
Funcionalidade | DistCp | Sqoop | CLI do Hadoop |
---|---|---|---|
Otimizado para Big Data | Sim | Sim | Sim |
Copiar para o banco de dados relacional | Não | Sim | No |
Copiar do banco de dados relacional | Não | Sim | No |
Copiar para o Armazenamento de Blobs | Sim | Sim | Sim |
Copiar do Armazenamento de Blobs | Sim | Sim | No |
Copiar para o Data Lake Storage | Sim | Sim | Sim |
Copiar do Data Lake Storage | Sim | Sim | No |
Outros:
Funcionalidade | A CLI do Azure | AzCopy | PowerShell | AdlCopy | PolyBase |
---|---|---|---|---|---|
Plataformas compatíveis | Linux, OS X, Windows | Linux, Windows | Windows | Linux, OS X, Windows | SQL Server, Azure Synapse Analytics |
Otimizado para Big Data | Não | Sim | Não | Sim 1 | Sim 2 |
Copiar para o banco de dados relacional | Não | No | No | No | Sim |
Copiar do banco de dados relacional | Não | No | No | No | Sim |
Copiar para o Armazenamento de Blobs | Sim | Sim | Sim | Não | Sim |
Copiar do Armazenamento de Blobs | Sim | Sim | Sim | Sim | Sim |
Copiar para o Data Lake Storage | Não | Sim | Sim | Sim | Sim |
Copiar do Data Lake Storage | Não | No | Sim | Sim | Sim |
[1] O AdlCopy é otimizado para a transferência de Big Data quando usado com uma conta do Data Lake Analytics.
[2] O desempenho do PolyBase pode ser aumentado com o push de computação para o Hadoop e o uso de grupos de escala horizontal do PolyBase para permitir a transferência paralela de dados entre instâncias do SQL Server e nós do Hadoop.
Interfaces gráficas, sincronização de dados e pipelines de dados
Funcionalidade | Gerenciador de Armazenamento do Azure | Portal do Azure * | Data Factory | Data Box Gateway |
---|---|---|---|---|
Otimizado para Big Data | Não | No | Sim | Sim |
Copiar para o banco de dados relacional | Não | No | Sim | No |
Copiar do banco de dados relacional | Não | No | Sim | No |
Copiar para o Armazenamento de Blobs | Sim | Não | Sim | Sim |
Copiar do Armazenamento de Blobs | Sim | Não | Sim | No |
Copiar para o Data Lake Storage | Não | No | Sim | No |
Copiar do Data Lake Storage | Não | No | Sim | No |
Upload para o Armazenamento de Blobs | Sim | Sim | Sim | Sim |
Upload para o Data Lake Storage | Sim | Sim | Sim | Sim |
Orquestrar transferências de dados | Não | No | Sim | No |
Transformações de dados personalizadas | Não | No | Sim | No |
Modelo de preços | Gratuita | Gratuita | Pagamento por uso | Pague por unidade |
Nesse caso, o portal do Azure representa as ferramentas de exploração baseadas na Web para o Armazenamento de Blobs e o Data Lake Storage.
Colaboradores
Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.
Autor principal:
- Zoiner Tejada | CEO e arquiteto
Próximas etapas
- O que é o serviço de Importação/exportação do Azure?
- O que é o Azure Data Box?
- O que é a CLI do Azure?
- Introdução ao AzCopy
- Introdução ao Gerenciador de Armazenamento
- O que é o Azure Data Factory?
- O que é o Azure Data Box Gateway?