Compartilhar via


Início rápido: Estruturação de dados interativa com o Apache Spark no Azure Machine Learning

Para lidar com a estruturação de dados interativa do notebook do Azure Machine Learning, a integração do Azure Machine Learning com o Azure Synapse Analytics fornece acesso fácil à estrutura do Apache Spark. Esse acesso permite a estruturação interativa de dados do Notebook do Azure Machine Learning.

Neste guia de início rápido, você aprenderá a executar a disputa interativa de dados com a computação spark sem servidor do Azure Machine Learning, a conta de armazenamento do AdLS (Azure Data Lake Storage) Gen 2 e a passagem de identidade do usuário.

Pré-requisitos

Armazenar credenciais da conta de armazenamento do Azure como segredos no Azure Key Vault

Para armazenar as credenciais da conta de armazenamento do Azure como segredos no Azure Key Vault, com a interface do usuário do portal do Azure:

  1. Navegue até o Azure Key Vault no portal do Azure

  2. Selecione Segredos no painel esquerdo

  3. Selecione + Gerar/importar

    Captura de tela que mostra a guia Gerar ou Importar Segredos do Azure Key Vault.

  4. Na tela Criar um segredo, insira um Nome para o segredo que você deseja criar

  5. Navegue até a Conta de Armazenamento de Blobs do Azure, no portal do Azure, conforme mostrado nesta imagem:

    Captura de tela que mostra a tela de valores da chave de acesso e da cadeia de conexão do Azure.

  6. Selecione Chaves de acesso no painel esquerdo da página Conta de Armazenamento de Blobs do Azure

  7. Selecione Exibir ao lado de Chave 1 e, em seguida, Copiar para área de transferência para obter a chave de acesso à conta de armazenamento

    Observação

    Selecione as opções apropriadas para copiar

    • Tokens SAS (assinatura de acesso compartilhado) do contêiner de armazenamento de blobs do Azure
    • Credenciais da entidade de serviço da conta de armazenamento do ADLS (Azure Data Lake Storage) Gen 2
      • ID do locatário
      • ID do cliente e
      • segredo

    nas respectivas interfaces do usuário enquanto você cria os segredos do Azure Key Vault para eles

  8. Volte para a tela Criar um segredo

  9. Na caixa de texto Valor do segrego, insira a credencial da chave de acesso para a conta de armazenamento do Azure, que foi copiada para a área de transferência na etapa anterior

  10. Escolha Criar

    Captura de tela que mostra a tela de criação do segredo do Azure.

Dica

A CLI do Azure e a biblioteca de clientes do segredo do Azure Key Vault para Python também podem criar segredos do Azure Key Vault.

Adicionar atribuições de função em contas de armazenamento do Azure

Devemos garantir que os caminhos dos dados de entrada e saída estejam acessíveis antes de iniciarmos a estruturação de dados interativa. Primeiro, para

  • a identidade do usuário conectado da sessão Notebooks

    or

  • uma entidade de serviço

atribua funções Leitor e Leitor de Dados de Blob de Armazenamento à identidade do usuário conectado. No entanto, em alguns cenários, talvez seja desejável gravar os dados estruturados de volta na conta de armazenamento do Azure. As funções Leitor e Leitor de Dados do Blob de Armazenamento fornecem acesso somente leitura à identidade do usuário ou à entidade de serviço. Para habilitar o acesso de leitura e gravação, atribua as funções Colaborador e Colaborador de Dados do Blob de Armazenamento à identidade do usuário ou entidade de serviço. Para atribuir funções apropriadas à identidade do usuário:

  1. Abra o portal do Microsoft Azure

  2. Pesquise e selecione o serviço Contas de armazenamento

    Captura de tela expansível que mostra a pesquisa e a seleção do serviço de contas de armazenamento no portal do Microsoft Azure.

  3. Na página Contas de armazenamento, selecione a conta de armazenamento do Azure Data Lake Storage (ADLS) Gen 2 na lista. Uma página mostrando a conta de armazenamento Visão geral é aberta

    Captura de tela expansível que mostra a seleção da conta de armazenamento do Azure Data Lake Storage (ADLS) Gen 2.

  4. Selecione Controle de Acesso (IAM) no painel esquerdo

  5. Selecione Adicionar atribuição de função

    Captura de tela que mostra a tela de chaves de acesso do Azure.

  6. Encontre e selecione a função Colaborador de Dados de Blob de Armazenamento

  7. Selecione Avançar

    Captura de tela que mostra a tela adicionar atribuição de função do Azure.

  8. Selecione Usuário, grupo ou entidade de serviço

  9. Selecione + Selecionar membros

  10. Pesquise pela identidade do usuário abaixo de Selecionar

  11. Selecione a identidade do usuário na lista para que apareça em Membros selecionados

  12. Selecione a identidade do usuário apropriada

  13. Selecione Avançar

    Captura de tela que mostra a guia Membros da tela Adicionar atribuição de função do Azure.

  14. Selecione Revisar + Atribuir

    Captura de tela mostrando a guia Revisar e atribuir na tela Adicionar atribuição de função do Azure.

  15. Repita as etapas 2 a 13 para atribuição de função Colaborador

Depois que as funções apropriadas da identidade do usuário ou da entidade de serviço forem atribuídas, os dados na conta de armazenamento do Azure deverão ficar acessíveis.

Observação

Se um pool do Synapse Spark anexado aponta para um pool do Synapse Spark, em um workspace do Azure Synapse, que tem uma rede virtual gerenciada associada a ele, você deve configurar um ponto de extremidade privado gerenciado para uma conta de armazenamento para garantir o acesso aos dados.

Garanta o acesso a recursos de trabalhos do Spark

Os trabalhos do Spark podem usar a passagem de identidade do usuário ou uma identidade gerenciada para acessar dados e outros recursos. A tabela a seguir resume os diferentes mecanismos de acesso a recursos enquanto você usa a computação spark sem servidor do Azure Machine Learning e o pool do Spark do Synapse anexado.

Pool do Spark Identidades com suporte Identidade padrão
Computação do Spark sem servidor Identidade do usuário, identidade gerenciada atribuída pelo usuário anexada ao espaço de trabalho Identidade do usuário
Pool do Spark do Synapse anexado Identidade do usuário, identidade gerenciada atribuída pelo usuário anexada ao pool do Spark do Synapse anexado, identidade gerenciada atribuída pelo sistema do pool do Spark do Synapse anexado Identidade gerenciada atribuída pelo sistema do pool do Spark do Synapse anexado

Se o código da CLI ou do SDK definir uma opção para usar a identidade gerenciada, a computação do Spark sem servidor do Azure Machine Learning dependerá de uma identidade gerenciada atribuída pelo usuário anexada ao espaço de trabalho. Você pode anexar uma identidade gerenciada atribuída pelo usuário a um workspace do Azure Machine Learning existente com a CLI do Azure Machine Learning v2 ou com ARMClient.

Próximas etapas