Guia de início rápido: disputa de dados interativa com o Apache Spark no Azure Machine Learning
Para lidar com a disputa interativa de dados do bloco de anotações do Azure Machine Learning, a integração do Azure Machine Learning com o Azure Synapse Analytics fornece acesso fácil à estrutura do Apache Spark. Esse acesso permite a disputa interativa de dados do Bloco de Anotações de Aprendizado de Máquina do Azure.
Neste guia de início rápido, você aprenderá a executar disputas de dados interativas com a computação Spark sem servidor do Azure Machine Learning, a conta de armazenamento do Azure Data Lake Storage (ADLS) Gen 2 e a passagem de identidade do usuário.
Pré-requisitos
- Uma assinatura do Azure; se você não tiver uma assinatura do Azure, crie uma conta gratuita antes de começar.
- Uma área de trabalho do Azure Machine Learning. Visite Criar recursos do espaço de trabalho.
- Uma conta de armazenamento do Azure Data Lake Storage (ADLS) Gen 2. Visite Criar uma conta de armazenamento do Azure Data Lake Storage (ADLS) Gen 2.
Armazenar credenciais da conta de armazenamento do Azure como segredos no Cofre da Chave do Azure
Para armazenar credenciais de conta de armazenamento do Azure como segredos no Cofre da Chave do Azure, com a interface do usuário do portal do Azure:
Navegue até o Cofre da Chave do Azure no portal do Azure
Selecione Segredos no painel esquerdo
Selecionar + Gerar/Importar
No ecrã Criar um segredo, introduza um Nome para o segredo que pretende criar
Navegue até Conta de Armazenamento de Blob do Azure, no portal do Azure, conforme mostrado nesta imagem:
Selecione Teclas de acesso na página Conta de Armazenamento de Blobs do Azure no painel esquerdo
Selecione Mostrar ao lado de Chave 1 e, em seguida , Copiar para a área de transferência para obter a chave de acesso da conta de armazenamento
Nota
Selecione as opções apropriadas para copiar
- Tokens SAS (assinatura de acesso compartilhado) do contêiner de armazenamento de Blob do Azure
- Credenciais principais de serviço da conta de armazenamento do Azure Data Lake Storage (ADLS) Gen 2
- ID do inquilino
- ID do cliente e
- segredo
nas respetivas interfaces de usuário enquanto você cria os segredos do Cofre da Chave do Azure para elas
Navegue de volta para a tela Criar um segredo
Na caixa de texto Valor secreto, insira a credencial da chave de acesso para a conta de armazenamento do Azure, que foi copiada para a área de transferência na etapa anterior
Selecione Criar
Gorjeta
A CLI do Azure e a biblioteca de cliente secreta do Azure Key Vault para Python também podem criar segredos do Azure Key Vault.
Adicionar atribuições de função em contas de armazenamento do Azure
Temos de garantir que os caminhos dos dados de entrada e saída estão acessíveis antes de iniciarmos a disputa interativa de dados. Em primeiro lugar, para
a identidade do usuário conectado à sessão do Notebooks
ou
uma entidade de serviço
atribuir funções de Leitor e Leitor de Dados de Blob de Armazenamento à identidade do usuário conectado. No entanto, em determinados cenários, talvez queiramos gravar os dados disputados de volta na conta de armazenamento do Azure. As funções Leitor e Leitor de Dados de Blob de Armazenamento fornecem acesso somente leitura à identidade do usuário ou à entidade de serviço. Para habilitar o acesso de leitura e gravação, atribua as funções de Colaborador e Colaborador de Dados de Blob de Armazenamento à identidade do usuário ou à entidade de serviço. Para atribuir funções apropriadas à identidade do usuário:
Abra o portal do Microsoft Azure
Pesquise e selecione o serviço Contas de armazenamento
Na página Contas de armazenamento, selecione a conta de armazenamento do Azure Data Lake Storage (ADLS) Gen 2 na lista. Uma página mostrando a visão geral da conta de armazenamento é aberta
Selecione Controle de acesso (IAM) no painel esquerdo
Selecione Adicionar atribuição de função
Localizar e selecionar a função Contribuidor de Dados de Blob de Armazenamento
Selecione Seguinte
Selecione Usuário, grupo ou entidade de serviço
Selecionar + Selecionar membros
Procure a identidade do usuário abaixo de Selecionar
Selecione a identidade do usuário na lista, para que ela seja exibida em Membros selecionados
Selecione a identidade de usuário apropriada
Selecione Seguinte
Selecione Rever + Atribuir
Repita as etapas 2 a 13 para a atribuição da função de Colaborador
Depois que a identidade do usuário tiver as funções apropriadas atribuídas, os dados na conta de armazenamento do Azure deverão ficar acessíveis.
Nota
Se um pool Synapse Spark anexado apontar para um pool Synapse Spark, em um espaço de trabalho do Azure Synapse, que tenha uma rede virtual gerenciada associada a ele, você deverá configurar um ponto de extremidade privado gerenciado para uma conta de armazenamento para garantir o acesso aos dados.
Garantindo o acesso a recursos para trabalhos do Spark
Para acessar dados e outros recursos, os trabalhos do Spark podem usar uma identidade gerenciada ou passagem de identidade do usuário. A tabela a seguir resume os diferentes mecanismos de acesso a recursos enquanto você usa a computação do Spark sem servidor do Aprendizado de Máquina do Azure e o pool Synapse Spark anexado.
Piscina de faísca | Identidades suportadas | Identidade predefinida |
---|---|---|
Computação do Spark sem servidor | Identidade do usuário, identidade gerenciada atribuída pelo usuário anexada ao espaço de trabalho | Identidade do utilizador |
Piscina Synapse Spark anexada | Identidade do usuário, identidade gerenciada atribuída pelo usuário anexada ao pool Synapse Spark anexado, identidade gerenciada atribuída pelo sistema do pool Synapse Spark anexado | Identidade gerenciada atribuída pelo sistema do pool Synapse Spark anexado |
Se o código da CLI ou SDK definir uma opção para usar a identidade gerenciada, a computação do Spark sem servidor do Aprendizado de Máquina do Azure depende de uma identidade gerenciada atribuída pelo usuário anexada ao espaço de trabalho. Você pode anexar uma identidade gerenciada atribuída pelo usuário a um espaço de trabalho existente do Azure Machine Learning com a CLI v2 do Azure Machine Learning ou com ARMClient
o .
Próximos passos
- Apache Spark no Azure Machine Learning
- Anexar e gerenciar um pool do Synapse Spark no Aprendizado de Máquina do Azure
- Disputa interativa de dados com o Apache Spark no Azure Machine Learning
- Enviar trabalhos do Spark no Azure Machine Learning
- Exemplos de código para trabalhos do Spark usando a CLI do Azure Machine Learning
- Exemplos de código para trabalhos do Spark usando o SDK Python do Azure Machine Learning