Ligar aos dados com o estúdio do Azure Machine Learning
Este artigo mostra como acessar seus dados com o estúdio do Azure Machine Learning. Conecte-se aos seus dados nos serviços de armazenamento do Azure com armazenamentos de dados do Azure Machine Learning. Em seguida, empacote esses dados para tarefas de fluxo de trabalho de ML com conjuntos de dados do Azure Machine Learning.
Esta tabela define e resume os benefícios de armazenamentos de dados e conjuntos de dados.
Objeto | Description | Benefícios |
---|---|---|
Arquivos de dados | Para se conectar com segurança ao seu serviço de armazenamento no Azure, armazene suas informações de conexão (ID de assinatura, autorização de token, etc.) no Cofre da Chave associado ao espaço de trabalho | Como suas informações são armazenadas com segurança, você não coloca em risco as credenciais de autenticação ou as fontes de dados originais e não precisa mais codificar esses valores em seus scripts |
Conjuntos de Dados | A criação do conjunto de dados também cria uma referência ao local da fonte de dados, juntamente com uma cópia de seus metadados. Com conjuntos de dados, você pode acessar dados durante o treinamento de modelos, compartilhar dados e colaborar com outros usuários e usar bibliotecas de código aberto, como pandas, para exploração de dados. | Como os conjuntos de dados são avaliados preguiçosamente e os dados permanecem em seu local existente, você mantém uma única cópia dos dados em seu armazenamento. Além disso, você não incorre em nenhum custo extra de armazenamento, evita alterações não intencionais em suas fontes de dados originais e melhora as velocidades de desempenho do fluxo de trabalho de ML. |
Para saber onde os armazenamentos de dados e os conjuntos de dados se encaixam no fluxo de trabalho geral de acesso a dados do Aprendizado de Máquina do Azure, visite Acessar dados com segurança.
Para obter mais informações sobre o SDK Python do Azure Machine Learning e uma experiência code-first, consulte:
- Conectar-se aos serviços de armazenamento do Azure com armazenamentos de dados
- Criar conjuntos de dados do Azure Machine Learning
Pré-requisitos
Uma subscrição do Azure. Se não tiver uma subscrição do Azure, crie uma conta gratuita antes de começar. Experimente a versão gratuita ou paga do Azure Machine Learning
Acesso ao estúdio do Azure Machine Learning
Uma área de trabalho do Azure Machine Learning. Criar recursos do espaço de trabalho
- Quando você cria um espaço de trabalho, um contêiner de blob do Azure e um compartilhamento de arquivos do Azure são registrados automaticamente no espaço de trabalho como armazenamentos de dados. Eles são nomeados
workspaceblobstore
eworkspacefilestore
, respectivamente. Para recursos de armazenamento de blob suficientes, oworkspaceblobstore
é definido como o armazenamento de dados padrão, já configurado para uso. Se você precisar de mais recursos de armazenamento de blob, precisará de uma conta de armazenamento do Azure, com um tipo de armazenamento suportado.
- Quando você cria um espaço de trabalho, um contêiner de blob do Azure e um compartilhamento de arquivos do Azure são registrados automaticamente no espaço de trabalho como armazenamentos de dados. Eles são nomeados
Criar arquivos de dados
Você pode criar armazenamentos de dados a partir dessas soluções de armazenamento do Azure. Para soluções de armazenamento sem suporte e para economizar custos de saída de dados durante experimentos de ML, você deve mover seus dados para uma solução de armazenamento do Azure com suporte. Para obter mais informações sobre datastores, visite este recurso.
Você pode criar armazenamentos de dados com acesso baseado em credenciais ou acesso baseado em identidade.
Crie um novo armazenamento de dados com o estúdio do Azure Machine Learning.
Importante
Se sua conta de armazenamento de dados estiver localizada em uma rede virtual, etapas de configuração adicionais serão necessárias para garantir que o estúdio possa acessar seus dados. Visite Isolamento de rede & privacidade para obter mais informações sobre as etapas de configuração apropriadas.
- Entre no estúdio do Azure Machine Learning.
- Selecione Dados no painel esquerdo em Ativos.
- Na parte superior, selecione Datastores.
- Selecione +Criar.
- Preencha o formulário para criar e registrar um novo armazenamento de dados. O formulário se atualiza de forma inteligente com base em suas seleções para o tipo de armazenamento do Azure e o tipo de autenticação. Para obter mais informações sobre onde encontrar as credenciais de autenticação necessárias para preencher este formulário, visite a seção de permissões e acesso ao armazenamento.
Esta captura de tela mostra o painel de criação do armazenamento de dados de blob do Azure:
Criar ativos de dados
Depois de criar um armazenamento de dados, crie um conjunto de dados para interagir com seus dados. Os conjuntos de dados empacotam seus dados em um objeto consumível avaliado preguiçosamente para tarefas de aprendizado de máquina - por exemplo, treinamento. Visite Criar conjuntos de dados do Azure Machine Learning para obter mais informações sobre conjuntos de dados.
Os conjuntos de dados têm dois tipos: FileDataset e TabularDataset. FileDatasets criam referências a arquivos únicos ou múltiplos, ou URLs públicas. TabularDatasets representam dados em um formato tabular. Você pode criar TabularDatasets de
- .csv
- .tsv
- .parquet
- .json arquivos e dos resultados da consulta SQL.
As etapas a seguir descrevem como criar um conjunto de dados no estúdio do Azure Machine Learning.
Nota
Os conjuntos de dados criados por meio do estúdio do Azure Machine Learning são registrados automaticamente no espaço de trabalho.
Navegue até o estúdio do Azure Machine Learning
Em Ativos na navegação à esquerda, selecione Dados. Na guia Ativos de dados, selecione Criar
Dê ao ativo de dados um nome e uma descrição opcional. Em seguida, em Tipo, selecione um tipo de Conjunto de Dados, Arquivo ou Tabelar.
O painel Fonte de dados será aberto em seguida, conforme mostrado nesta captura de tela:
Você tem diferentes opções para sua fonte de dados. Para dados já armazenados no Azure, escolha "Do armazenamento do Azure". Para carregar dados da unidade local, escolha "De arquivos locais". Para dados armazenados em um local da Web público, escolha "De arquivos da Web". Você também pode criar um ativo de dados a partir de um banco de dados SQL ou de Conjuntos de Dados Abertos do Azure.
Na etapa de seleção de arquivo, selecione o local onde o Azure deve armazenar seus dados e os arquivos de dados que você deseja usar.
- Habilite a validação de ignorar se seus dados estiverem em uma rede virtual. Saiba mais sobre isolamento e privacidade de rede virtual.
Siga as etapas para definir as configurações e o esquema de análise de dados para seu ativo de dados. As configurações são pré-preenchidas com base no tipo de arquivo e você pode definir ainda mais as configurações antes da criação do ativo de dados.
Quando chegar à etapa Revisão, selecione Criar na última página
Pré-visualização e perfil dos dados
Depois de criar seu conjunto de dados, verifique se você pode visualizar a visualização e o perfil no estúdio:
- Entre no estúdio do Azure Machine Learning
- Em Ativos na navegação à esquerda, selecione Dados.
- Selecione o nome do conjunto de dados que deseja exibir.
- Selecione a guia Explorar .
- Selecione a guia Visualizar .
- Selecione a guia Perfil .
Você pode usar estatísticas de resumo em todo o conjunto de dados para verificar se o conjunto de dados está pronto para ML. Para colunas não numéricas, essas estatísticas incluem apenas estatísticas básicas - por exemplo, min, max e contagem de erros. As colunas numéricas oferecem momentos estatísticos e quantis estimados.
O perfil de dados do conjunto de dados do Azure Machine Learning inclui:
Nota
Entradas em branco aparecem para recursos com tipos irrelevantes.
Estatística | Description |
---|---|
Caraterística | O nome da coluna resumida |
Perfil | Visualização em linha com base no tipo inferido. Strings, booleanos e datas têm contagens de valores. As casas decimais (numéricas) têm histogramas aproximados. Essas visualizações oferecem uma rápida compreensão da distribuição de dados |
Distribuição de tipo | Contagem de valores em linha de tipos dentro de uma coluna. Nulos são seu próprio tipo, portanto, essa visualização pode detetar valores ímpares ou ausentes |
Type | Tipo de coluna inferido. Os valores possíveis incluem: strings, booleanos, datas e decimais |
Min | Valor mínimo da coluna. Entradas em branco aparecem para recursos cujo tipo não tem uma ordem inerente (por exemplo, booleanos) |
Máx | Valor máximo da coluna. |
Count | Número total de entradas em falta e não em falta na coluna |
Contagem não faltando | Número de entradas na coluna que não faltam. Cadeias de caracteres vazias e erros são tratados como valores, portanto, não contribuem para a "contagem não faltante". |
Quantis | Valores aproximados em cada quantil, para fornecer uma noção da distribuição de dados |
Média | Média aritmética ou média da coluna |
Desvio padrão | Medida da quantidade de dispersão ou variação para os dados desta coluna |
Desvio | Medir a distância entre os dados desta coluna e o seu valor médio |
Assimetria | Mede a diferença dos dados desta coluna em relação a uma distribuição normal |
Kurtosis | Mede o grau de "cauda" dos dados desta coluna, em comparação com uma distribuição normal |
Acesso e permissões de armazenamento
Para garantir que você se conecte com segurança ao seu serviço de armazenamento do Azure, o Azure Machine Learning exige que você tenha permissão para acessar o armazenamento de dados correspondente. Esse acesso depende das credenciais de autenticação usadas para registrar o armazenamento de dados.
Rede virtual
Se sua conta de armazenamento de dados estiver em uma rede virtual, etapas de configuração adicionais serão necessárias para garantir que o Azure Machine Learning tenha acesso aos seus dados. Consulte Usar o estúdio do Azure Machine Learning em uma rede virtual para garantir que as etapas de configuração apropriadas sejam aplicadas quando você cria e registra seu armazenamento de dados.
Validação de acesso
Aviso
O acesso entre inquilinos a contas de armazenamento não é suportado. Se o seu cenário precisar de acesso entre locatários, entre em contato com o alias da equipe de Suporte de Dados do Azure Machine Learning em amldatasupport@microsoft.com para obter assistência com uma solução de código personalizada.
Como parte do processo inicial de criação e registro do armazenamento de dados, o Aprendizado de Máquina do Azure valida automaticamente que o serviço de armazenamento subjacente existe e que a entidade fornecida pelo usuário (nome de usuário, entidade de serviço ou token SAS) tem acesso ao armazenamento especificado.
Após a criação do armazenamento de dados, essa validação só é executada para métodos que exigem acesso ao contêiner de armazenamento subjacente. A validação não é executada sempre que objetos de armazenamento de dados são recuperados. Por exemplo, a validação acontece quando você baixa arquivos do seu armazenamento de dados. No entanto, se você quiser alterar seu armazenamento de dados padrão, a validação não ocorrerá.
Para autenticar seu acesso ao serviço de armazenamento subjacente, forneça sua chave de conta, tokens SAS (assinaturas de acesso compartilhado) ou entidade de serviço, de acordo com o tipo de armazenamento de dados que você deseja criar. A matriz de tipo de armazenamento lista os tipos de autenticação suportados que correspondem a cada tipo de armazenamento de dados.
Você pode encontrar a chave da conta, o token SAS e as informações da entidade de serviço no portal do Azure.
Para obter uma chave de conta para autenticação, selecione Contas de Armazenamento no painel esquerdo e escolha a conta de armazenamento que deseja registrar
- A página Visão geral fornece informações como o nome da conta, o contêiner e o nome do compartilhamento de arquivos.
- Expanda o nó Segurança + rede no painel de navegação esquerdo
- Selecione Chaves de acesso
- Os valores-chave disponíveis servem como valores-chave da conta
Para obter um token SAS para autenticação, selecione Contas de Armazenamento no painel esquerdo e escolha a conta de armazenamento desejada
- Para obter um valor de chave de acesso, expanda o nó Segurança + rede no painel de navegação esquerdo
- Selecione Assinatura de acesso compartilhado
- Conclua o processo para gerar o valor SAS
Para usar uma entidade de serviço para autenticação, vá para seus registros de aplicativo e selecione qual aplicativo você deseja usar.
- A página Visão geral correspondente contém informações necessárias, como ID do locatário e ID do cliente.
Importante
- Para alterar suas chaves de acesso para uma conta de Armazenamento do Azure (chave de conta ou token SAS), certifique-se de sincronizar as novas credenciais com seu espaço de trabalho e os armazenamentos de dados conectados a ele. Para obter mais informações, visite sincronizar suas credenciais atualizadas.
- Se você cancelar o registro e, em seguida, registrar novamente um armazenamento de dados com o mesmo nome, e esse novo registro falhar, o Cofre da Chave do Azure para seu espaço de trabalho pode não ter a exclusão suave habilitada. Por padrão, a exclusão suave está habilitada para a instância do cofre de chaves criada pelo seu espaço de trabalho, mas pode não ser habilitada se você tiver usado um cofre de chaves existente ou tiver um espaço de trabalho criado antes de outubro de 2020. Para obter mais informações sobre como ativar a exclusão suave, visite Ativar exclusão suave para um cofre de chaves existente.
Permissões
Para o contêiner de blob do Azure e o armazenamento do Azure Data Lake Gen 2, verifique se suas credenciais de autenticação têm acesso ao Leitor de Dados de Blob de Armazenamento . Saiba mais sobre o Storage Blob Data Reader. Por padrão, um token SAS de conta não tem permissões.
Para acesso de leitura de dados, suas credenciais de autenticação devem ter um mínimo de permissões de lista e leitura para contêineres e objetos.
Para acesso de gravação de dados, permissões de gravação e adição também são necessárias.
Preparar com conjuntos de dados
Use seus conjuntos de dados em seus experimentos de aprendizado de máquina para treinar modelos de ML. Saiba mais sobre como treinar com conjuntos de dados.
Próximos passos
Um exemplo passo a passo de treinamento com TabularDatasets e aprendizado de máquina automatizado
Para obter mais exemplos de treinamento de conjunto de dados, consulte os blocos de anotações de exemplo