Tutorial: Carregar dados de exemplo em um cluster de Big Data do SQL Server
Aplica-se a: SQL Server 2019 (15.x)
Importante
O complemento Clusters de Big Data do Microsoft SQL Server 2019 será desativado. O suporte para Clusters de Big Data do SQL Server 2019 será encerrado em 28 de fevereiro de 2025. Todos os usuários existentes do SQL Server 2019 com Software Assurance terão suporte total na plataforma e o software continuará a ser mantido por meio de atualizações cumulativas do SQL Server até esse momento. Para obter mais informações, confira a postagem no blog de anúncio e as opções de Big Data na plataforma do Microsoft SQL Server.
Este tutorial explica como usar um script para carregar dados de exemplo em um Clusters de Big Data do SQL Server 2019. Muitos dos outros tutoriais da documentação usam esses dados de exemplo.
Dica
É possível encontrar exemplos adicionais para o Clusters de Big Data do SQL Server 2019 no repositório do GitHub sql-server-samples. Eles ficam localizados no caminho sql-server-samples/samples/features/sql-big-data-cluster/.
Pré-requisitos
- Um cluster de Big Data implantado
- Ferramentas de Big Data
- azdata
- kubectl
- sqlcmd
- curl
Carregar dados de exemplo
As etapas a seguir usam um script de inicialização para baixar um backup de um banco de dados do SQL Server e carregar os dados em seu cluster de Big Data. Para facilitar o uso, essas etapas foram divididas em seções referentes ao Windows e ao Linux. Se você quiser usar o nome de usuário/senha básico como mecanismo de autenticação, defina as variáveis de ambiente AZDATA_USERNAME e AZDATA_PASSWORD antes de executar o script. Caso contrário, o script usará a autenticação integrada para se conectar à instância mestra do SQL Server e ao gateway do Knox. Além disso, o nome DNS deve ser especificado para os pontos de extremidade a fim de usar a autenticação integrada.
Windows
As etapas a seguir descrevem como usar um cliente do Windows para carregar os dados de exemplo em seu cluster de Big Data.
Abra um novo prompt de comando do Windows.
Importante
Não use o Windows PowerShell para essas etapas. No PowerShell, o script falhará pois usará a versão do PowerShell para curl.
Use curl para baixar o script de inicialização para os dados de exemplo.
curl -o bootstrap-sample-db.cmd "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.cmd"
Baixe o script Transact-SQL bootstrap-sample-db.sql. Esse script é chamado pelo script de inicialização.
curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
O script de inicialização requer os seguintes parâmetros posicionais para o cluster de Big Data:
Parâmetro Descrição <CLUSTER_NAMESPACE> O nome que você atribuiu ao cluster de Big Data. <SQL_MASTER_ENDPOINT> O nome DNS ou o endereço IP da instância mestre. <KNOX_ENDPOINT> O nome DNS ou o endereço IP do gateway de HDFS/Spark. Dica
Use kubectl para localizar os endereços IP da instância mestre do SQL Server e o Knox. Execute
kubectl get svc -n <your-big-data-cluster-name>
e examine os endereços IP externos da instância mestra (master-svc-external) e do Knox (gateway-svc-external). O nome padrão de um cluster é mssql-cluster.Execute o script de inicialização.
.\bootstrap-sample-db.cmd <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
Linux
As etapas a seguir descrevem como usar um cliente do Linux para carregar os dados de exemplo em seu cluster de Big Data.
Baixe o script de inicialização e atribua permissões executáveis a ele.
curl -o bootstrap-sample-db.sh "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sh" chmod +x bootstrap-sample-db.sh
Baixe o script Transact-SQL bootstrap-sample-db.sql. Esse script é chamado pelo script de inicialização.
curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
O script de inicialização requer os seguintes parâmetros posicionais para o cluster de Big Data:
Parâmetro Descrição <CLUSTER_NAMESPACE> O nome que você atribuiu ao cluster de Big Data. <SQL_MASTER_ENDPOINT> O nome DNS ou o endereço IP da instância mestre. <KNOX_ENDPOINT> O nome DNS ou o endereço IP do gateway de HDFS/Spark. Dica
Use kubectl para localizar os endereços IP da instância mestre do SQL Server e o Knox. Execute
kubectl get svc -n <your-big-data-cluster-name>
e examine os endereços IP externos da instância mestra (master-svc-external) e do Knox (gateway-svc-external). O nome padrão de um cluster é mssql-cluster.Execute o script de inicialização.
./bootstrap-sample-db.sh <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
Próximas etapas
Depois que o script de inicialização for executado, seu cluster de Big Data terá os bancos de dados de exemplo e dados do HDFS. Os tutoriais a seguir usam os dados de exemplo para demonstrar os recursos do cluster de Big Data:
Virtualização de dados:
- Tutorial: Consultar o HDFS em um cluster de Big Data do SQL Server
- Tutorial: Consultar o Oracle em um cluster de Big Data do SQL Server
Ingestão de dados:
- Tutorial: Ingerir dados em um pool de dados do SQL Server com Transact-SQL
- Tutorial: Ingerir dados em um pool de dados do SQL Server com trabalhos do Spark
Notebooks: