Transferencia de datos hacia y desde Azure
Existen varias opciones para transferir datos a Azure, y desde este, en función de las necesidades de cada uno.
Transferencia física
El uso de hardware físico para transferir datos a Azure es una opción recomendable cuando:
- La red funciona con lentitud o es poco confiable.
- El costo de obtener más ancho de banda de red es prohibitivo.
- Las directivas de seguridad o de la organización no permiten las conexiones salientes cuando se trabaja con información confidencial.
Si su principal preocupación es el tiempo que se va a tardar en transferir los datos, es posible que desee ejecutar una prueba para comprobar si la transferencia de red es más lenta que el transporte físico.
Hay dos opciones principales para transportar físicamente los datos a Azure:
El servicio Azure Import/Export
El servicio Azure Import/Export permite transferir de forma segura grandes cantidades de datos a Azure Blob Storage o Azure Files mediante el envío de unidades de disco duro (HDD) o SSD a un centro de datos de Azure. También puede usar este servicio para transferir datos Azure Storage desde tardar hasta las unidades de disco duro y enviarlas al sitio local.
Azure Data Box
Azure Data Box es un dispositivo proporcionado por Microsoft que funciona de forma muy parecida al servicio Import/Export. Con Data Box, Microsoft envía un dispositivo de transferencia propietario, seguro y resistente a manipulaciones, y controla la logística de un extremo a otro, pero el usuario puede hacer un seguimiento de ella desde el portal. Una ventaja del servicio Data Box es lo fácil que es usarlo. No es preciso adquirir varios discos duros, prepararlos y transferir archivos a todos y cada uno de ellos. Data Box es compatible con varios asociados de Azure líderes de su sector, lo que facilita la tarea de transportar archivos sin conexión a la nube desde sus productos.
Herramientas de línea de comandos y API
Tenga en cuenta estas opciones cuando desee que la transferencia de datos se realice mediante programación y mediante scripts:
La CLI de Azure es una herramienta multiplataforma que permite administrar los servicios de Azure y cargar datos en Storage.
AzCopy. Use AzCopy desde una línea de comandos de Windows o Linux para copiar datos fácilmente tanto a Blob, File y Table Storage como desde estos servicios con un rendimiento óptimo. AzCopy admite la simultaneidad y el paralelismo, y permite reanudar operaciones de copia cuando si se interrumpen. También puede usar AzCopy para copiar datos de AWS a Azure. Para acceder mediante programación, la Biblioteca de movimiento de datos de Microsoft Azure Storage es el marco principal que alimenta AzCopy. Se proporciona en forma de biblioteca de .NET Core.
Con PowerShell, el cmdlet Start-AzureStorageBlobCopy PowerShell es una opción para los administradores de Windows acostumbrados a PowerShell.
AdlCopy permite copiar datos de Blob Storage a Azure Data Lake Storage. También se puede usar para copiar datos entre dos cuentas de Data Lake Storage. Sin embargo, no se puede utilizar para copiar datos de Data Lake Storage a Storage Blob.
Distcp se usa para copiar datos hacia y desde un almacenamiento de clúster de HDInsight (WASB) en una cuenta de Data Lake Storage.
Sqoop es un proyecto de Apache que forma parte del ecosistema de Hadoop. Viene preinstalado en todos los clústeres de HDInsight. Permite la transferencia de datos entre un clúster de HDInsight y bases de datos relacionales, como SQL, Oracle, MySQL, etc. Sqoop es una colección de herramientas relacionadas entre las cuales se incluyen las de importación y exportación. Sqoop funciona con clústeres de HDInsight mediante Blob Storage o almacenamiento adjunto de Data Lake Storage.
PolyBase es una tecnología que accede a datos que están fuera de la base de datos a través del lenguaje de T-SQL. En SQL Server 2016, permite ejecutar consultas de datos externos en Hadoop o importar o exportar datos desde Blob Storage. En Azure Synapse Analytics, puede importar o exportar datos tanto desde Blob Storage como desde Data Lake Storage. Actualmente, PolyBase es el método más rápido de importación de datos en Azure Synapse Analytics.
Use la línea de comandos de Hadoop cuando tenga datos que residen en un nodo principal del clúster de HDInsight. Puede usar el comando
hadoop -copyFromLocal
para copiar esos datos en el almacenamiento asociado a su clúster como, por ejemplo, en Blob Storage o Data Lake Storage. Para usar el comando de Hadoop, primero es preciso conectarse al nodo principal. Una vez conectado, puede cargar un archivo en el almacenamiento.
Interfaz gráfica
Si va a transferir solo unos pocos archivos u objetos de datos y no necesita automatizar el proceso, tenga en cuenta las siguientes opciones.
Explorador de Azure Storage es una herramienta multiplataforma que permite administrar el contenido de las cuentas de Azure Storage. Permite cargar, descargar y administrar blogs, archivos, colas, tablas y entidades de Azure Cosmos DB. Utilícelo con Blob Storage para administrar blobs y carpetas, así como para cargar y descargar blobs entre el sistema de archivos local y Blob Storage, o entre cuentas de almacenamiento.
Azure Portal. Tanto Blob Storage como Data Lake Storage proporcionan una interfaz basada en web para explorar archivos y cargar nuevos archivos. Esta es una buena opción si no desea instalar herramientas ni generar comandos para explorar rápidamente los archivos, o simplemente cargar archivos nuevos.
Sincronización de datos y canalizaciones
Azure Data Factory es un servicio administrado muy apropiado para transferir archivos con regularidad entre muchos servicios de Azure, sistemas locales o una combinación de ambas posibilidades. Mediante Data Factory, puede crear y programar flujos de trabajo controlados por datos (denominados canalizaciones) que ingieren datos de distintos almacenes. Data Factory puede procesar y transformar datos mediante servicios de proceso, como Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics y Azure Machine Learning. Puede crear flujos de trabajo controlados por datos para orquestar y automatizar tanto el movimiento de datos como la transformación de datos.
Las canalizaciones y actividades de Data Factory y Azure Synapse Analytics se pueden usar para crear flujos de trabajo completos controlados por datos para los escenarios de procesamiento y traslado de datos. Además, el entorno de ejecución de integración de Azure Data Factory se usa para proporcionar funcionalidades de integración de datos en distintos entornos de red.
Azure Data Box Gateway transfiere datos hacia y desde Azure, pero se trata de una aplicación virtual no de una unidad de disco duro. Las máquinas virtuales que residen en la red local escriben datos en Data Box Gateway mediante los protocolos Network File System (NFS) y SMB. Posteriormente, el dispositivo transfiere los datos a Azure.
Principales criterios de selección
En los escenarios de transferencia de datos, elija el sistema que más se ajuste a sus necesidades, para lo que debe responder estas preguntas:
¿Necesita transferir grandes cantidades de datos y hacerlo a través de una conexión a Internet tardaría demasiado tiempo, sería poco confiable o demasiado caro? Si es así, considere la posibilidad de realizar transferencias físicas.
¿Prefiere realizar las tareas de transferencia de datos mediante scripts para que se puedan volver a utilizar? Si es así, seleccione una de las opciones de línea de comandos o Data Factory.
¿Necesita transferir una gran cantidad de datos a través de una conexión de red? En ese caso, seleccione una opción que esté optimizada para macrodatos.
¿Necesita transferir datos a una base de datos relacional o desde ella? En caso afirmativo, elija una opción que admita una o varias bases de datos relacionales. Algunas de estas opciones también requieren un clúster de Hadoop.
¿Los datos necesitan una canalización automatizada o una orquestación de flujo de trabajo? Si es así, considere la posibilidad de usar Data Factory.
Matriz de funcionalidades
En las tablas siguientes se resumen las diferencias clave en cuanto a funcionalidades.
Transferencia física
Capacidad | Servicio Import/Export | Data Box |
---|---|---|
Factor de forma | Unidades de disco duro o SSD SATA internas | Dispositivo de hardware individual seguro y a prueba de alteraciones |
Microsoft administra la logística de envío | No | Sí |
Se integra con productos de asociados | No | Sí |
Dispositivo personalizado | No | Sí |
Herramientas de línea de comandos
Hadoop/HDInsight:
Capacidad | DistCp | Sqoop | CLI de Hadoop |
---|---|---|---|
Optimizado para macrodatos | Sí | Sí | Sí |
Copiar a base de datos relacional | No | Sí | No |
Copiar de base de datos relacional | No | Sí | No |
Copiar a Blob Storage | Sí | Sí | Sí |
Copiar de Blob Storage | Sí | Sí | No |
Copiar a Data Lake Storage | Sí | Sí | Sí |
Copiar de Data Lake Storage | Sí | Sí | No |
Otros:
Capacidad | La CLI de Azure | AzCopy | PowerShell | AdlCopy | PolyBase |
---|---|---|---|---|---|
Plataformas compatibles | Linux, OS X y Windows | Linux y Windows | Windows | Linux, OS X y Windows | SQL Server, Azure Synapse Analytics |
Optimizado para macrodatos | No | Sí | No | Sí 1 | Sí 2 |
Copiar a base de datos relacional | No | N.º | N.º | No | Sí |
Copiar de base de datos relacional | No | N.º | N.º | No | Sí |
Copiar a Blob Storage | Sí | Sí | Sí | No | Sí |
Copiar de Blob Storage | Sí | Sí | Sí | Sí | Sí |
Copiar a Data Lake Storage | No | Sí | Sí | Sí | Sí |
Copiar de Data Lake Storage | No | No | Sí | Sí | Sí |
[1] AdlCopy está optimizado para la transferencia de macrodatos cuando se utiliza con una cuenta de Data Lake Analytics.
[2] El rendimiento de PolyBase se puede aumentar mediante la inserción de cálculo en Hadoop y el uso de grupos de escalado horizontal de PolyBase para permitir la transferencia de datos paralela entre instancias de SQL Server y nodos de Hadoop.
Interfaces gráficas, sincronización de datos y canalizaciones de datos
Capacidad | Explorador de Azure Storage | Azure Portal* | Data Factory | Data Box Gateway |
---|---|---|---|---|
Optimizado para macrodatos | No | No | Sí | Sí |
Copiar a base de datos relacional | No | No | Sí | No |
Copiar de base de datos relacional | No | No | Sí | No |
Copiar a Blob Storage | Sí | No | Sí | Sí |
Copiar de Blob Storage | Sí | No | Sí | No |
Copiar a Data Lake Storage | No | No | Sí | No |
Copiar de Data Lake Storage | No | No | Sí | No |
Cargar en Blob Storage | Sí | Sí | Sí | Sí |
Cargar en Data Lake Storage | Sí | Sí | Sí | Sí |
Orquestar las transferencias de datos | No | No | Sí | No |
Personalizar las transformaciones de datos | No | No | Sí | No |
Modelo de precios | Gratuito | Gratuito | Pago por uso | Pago por unidad |
En este caso, Azure Portal representa las herramientas de exploración basada en web para Blob Storage y Data Lake Storage.
Colaboradores
Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.
Autor principal:
- Zoiner Tejada | Director ejecutivo y arquitecto
Pasos siguientes
- ¿Qué es el servicio Azure Import/Export?
- ¿Qué es Azure Data Box?
- ¿Qué es la CLI de Azure?
- Introducción a AzCopy
- Introducción al Explorador de Storage
- ¿Qué es Azure Data Factory?
- ¿Qué es Azure Data Box Gateway?