Usar o Navegador de Trabalhos e a Exibição de Trabalho para o Azure Data Lake Analytics

Artigo
12/20/2023

Importante

O Azure Data Lake Analytics desativado em 29 de fevereiro de 2024. Saiba mais nesse comunicado.

Para análise de dados, sua organização pode usar o Azure Synapse Analytics ou o Microsoft Fabric.

O serviço Azure Data Lake Analytics arquiva trabalhos enviados em um repositório de consultas. Neste artigo, você aprende como usar o Navegador de Trabalhos e Exibição de Trabalho nas Ferramentas do Azure Data Lake para Visual Studio para localizar as informações de histórico do trabalho.

Por padrão, o serviço Data Lake Analytics arquiva os trabalhos por 30 dias. O período de validade pode ser configurado do Portal do Azure, configurando a política de expiração personalizada. Você não poderá acessar as informações do trabalho após a expiração.

Pré-requisitos

Veja Pré-requisitos das Ferramentas do Data Lake para Visual Studio.

Abrir o Navegador de Trabalhos

Acesse o Navegador de Trabalhos via Gerenciador de Servidores>Azure>Data Lake Analytics>Trabalhos no Visual Studio. Usando o navegador de trabalho, você pode acessar o repositório de consultas de uma conta do Data Lake Analytics. O Navegador de Trabalho exibe o Repositório de Consultas à esquerda, mostrando as informações básicas do trabalho, bem como a Exibição de Trabalho à direita, mostrando as informações detalhadas do trabalho.

Exibição de Trabalho

A Exibição de Trabalho mostra as informações detalhadas de um trabalho. Para abrir um trabalho, clique duas vezes em um trabalho no Navegador de Trabalhos ou abra-o do menu do Data Lake clicando em Exibição de Trabalho. Você deve ver uma caixa de diálogo populada com a URL do trabalho.

Navegador de Trabalhos das Ferramentas do Data Lake para Visual Studio

A Exibição de Trabalho contém:

Resumo do trabalho

Atualize o Modo de Exibição de Trabalho para ver as informações mais recentes sobre como executar trabalhos.
- Status do Trabalho (grafo):
  
  Status do Trabalho descreve as fases do trabalho:
  - Preparando: carregue o script na nuvem, compilando e otimizando o script usando o serviço de compilação.
  - Enfileirados: os trabalhos são enfileirados quando estão aguardando recursos suficientes ou os trabalhos excedem a limitação máxima de trabalhos simultâneos por conta. A configuração de prioridade determina a sequência de trabalhos na fila – quanto menor o número, maior a prioridade.
  - Em execução: o trabalho está sendo executado em sua conta do Data Lake Analytics.
  - Finalizando: o trabalho está em conclusão (por exemplo, finalizando o arquivo).
    
    O trabalho pode falhar em todas as fases. Por exemplo, erros de compilação na fase de Preparação, erros de tempo limite na fase Na fila e erros de execução na fase Em execução, etc.
- Informações Básicas
  
  As informações básicas do trabalho são mostradas na parte inferior do painel de Resumo do Trabalho.
  - Resultado do Trabalho: êxito ou falha. O trabalho pode falhar em todas as fases.
  - Duração Total: a hora do relógio (duração) entre a hora do envio e a hora de término.
  - Tempo Total de Computação: a soma do tempo de execução de cada vértice, você pode considerá-lo como o tempo durante o qual o trabalho é executado em apenas um vértice. Consulte Total de Vértices para obter mais informações sobre o vértice.
  - Hora de Envio/Início/Término: a hora em o serviço do Data Lake Analytics recebe o envio de trabalho/começa a executar o trabalho/termina o trabalho com êxito ou não.
  - Compilação/Na fila/Em execução: tempo gasto durante a fase de Preparação/Na fila/Em execução.
  - Conta: a conta do Data Lake Analytics usada para executar o trabalho.
  - Autor: o usuário que enviou o trabalho, pode ser uma conta do sistema ou de uma pessoa real.
  - Prioridade: a prioridade do trabalho. Quanto menor o número, maior a prioridade. Ela afeta somente a sequência dos trabalhos na fila. Definir uma prioridade mais alta não impede a execução de trabalhos.
  - Paralelismo: o número máximo solicitado de ADLAUs (unidades do Azure Data Lake Analytics) simultâneas, também conhecidas como vértices. Atualmente, um vértice é igual a uma VM com dois núcleos virtuais e RAM de seis GB, embora isso possa ser atualizado em atualizações futuras Data Lake Analytics.
  - Bytes Restantes: bytes que precisam ser processados até que o trabalho seja concluído.
  - Bytes lidos/gravados: bytes que foram lidos/gravados desde o início da execução do trabalho.
  - Total de vértices: o trabalho é dividido em várias partes de trabalho, cada uma delas é chamada de um vértice. Esse valor descreve de quantas partes de trabalho o trabalho consiste. Você pode considerar os vértices como unidades de processo básico, também conhecidas como ADLAUs (unidades do Azure Data Lake Analytics), que podem ser executados em paralelismo.
  - Concluído/Em execução/Com falha: a contagem de vértices concluídos/em execução/com falha. Vértices podem falhar devido tanto a falhas do sistema quanto ao código do usuário, o sistema volta a tentar usar vértices com falha automaticamente por algumas vezes. Se o vértice ainda falhar após as novas tentativas, todo o trabalho falhará.
Grafo do Trabalho

Um script U-SQL representa a lógica de transformação de dados de entrada em dados de saída. O script é compilado e otimizado para um plano de execução física na fase de Preparação. O Grafo do Trabalho mostra o plano de execução física. O diagrama a seguir ilustra o processo:

Um trabalho é dividido em várias partes de trabalho. Cada parte de trabalho é chamada de um vértice. Os vértices são agrupados como um supervértice (também conhecido como estágio) e são visualizados como um gráfico de trabalho. Os letreiros de estágio verdes no grafo de trabalho mostram os estágios.

Cada vértice em um estágio está fazendo o mesmo tipo de trabalho com partes diferentes dos mesmos dados. Por exemplo, se você tiver um arquivo com dados de um TB e houver centenas de vértices lendo dele, cada um deles está lendo uma parte. Esses vértices são agrupados no mesmo estágio e fazem o mesmo trabalho em diferentes partes do mesmo arquivo de entrada.
- Informações do estágio
  
  Em um estágio específico, alguns números são mostrados no letreiro.
  - SV1 Extract: o nome de um estágio, nomeado com um número e o método da operação.
  - 84 vértices: A contagem total de vértices neste estágio. A figura indica quantas partes de trabalho são divididas nesta fase.
  - 12,9 s/vértice: o tempo de execução de vértice médio para este estágio. Esse número é calculado pela SOMA (tempo de execução de todos os vértices) / (contagem total de vértices). Isso significa que se você puder atribuir todos os vértices executados em paralelismo, o estágio inteiro será concluído em 12,9 s. Isso também significa que se todo o trabalho neste estágio for feito em série, o custo seria nº. de vértices * tempo MÉDIO.
  - 850.895 linhas gravadas: contagem total de linhas gravadas nesse estágio.
  - L/G: a quantidade de dados lidos/gravados nesse estágio, em bytes.
  - Cores: cores são usadas no estágio para indicar status de vértice diferentes.
    - Verde indica que o vértice foi bem-sucedido.
    - Laranja indica que o vértice realizou uma nova tentativa. O vértice que realizou uma nova tentativa falhou mas uma nova tentativa é realizada automaticamente pelo sistema e o estágio geral é concluído com êxito. Se ocorrerem novas tentativas para o vértice mas ele ainda falhar, a cor se tornará vermelha e indicando que todo o trabalho falhou.
    - Vermelho indica falha, que significa que foram realizadas novas tentativas para um determinado vértice algumas vezes pelo sistema, mas ainda assim ele falhou. Esse cenário faz com que todo o trabalho falhe.
    - Azul significa que um determinado vértice está em execução.
    - Branco indica que o vértice está Aguardando. O vértice pode estar aguardando para ser agendado quando um ADLAU ficar disponível ou pode estar aguardando a entrada, pois seus dados de entrada podem não estar prontos.
    Você pode encontrar mais detalhes para o estágio passando o cursor do mouse sobre um estado:
- Vértices: descreve os detalhes de vértices, por exemplo, quantos vértices no total, quantos vértices foram concluídos, se eles falharam ou ainda estão em execução/aguardando, etc.
- Dados lidos entre pods/dentro de um pod: arquivos e dados são armazenados em vários pods no sistema de arquivos distribuído. O valor aqui descreve a quantidade de dados lidos no mesmo pod ou em vários pods.
- Tempo total de computação: a soma do tempo de execução de cada vértice no estágio, você pode considerá-lo como o tempo que levaria se todos os trabalhos no estágio fossem executados em apenas um vértice.
- Dados e linhas gravadas/lidas: indica que volume de dados ou quantas linhas foram lidas/gravadas ou precisam ser lidas.
- Falhas de leitura de vértice: descreve quantos vértices falharam durante a leitura de dados.
- Descartes de duplicação de vértice: se um vértice for muito lento, o sistema poderá agendar vários vértices para executar a mesma parte do trabalho. Os vértices redundantes serão descartados quando um dos vértices for concluído com êxito. Os descartes de vértices duplicados registra o número de vértices que são descartados como duplicações no estágio.
- Revogações de vértice: o vértice foi bem-sucedida, mas será executado novamente mais tarde devido a alguns motivos. Por exemplo, se o vértice downstream perder dados de entrada intermediários, ele solicitará ao vértice upstream que execute novamente.
- Execuções de agendamento de vértice: o tempo total pelo qual os vértices foram agendados.
- Leitura de dados de vértice Min/Média/Máx: o mínimo/médio/máximo de toda leitura de dados de vértice.
- Duração: o tempo que leva um estágio, você precisará carregar o perfil para ver esse valor.
- Reprodução do Trabalho
  
  Data Lake Analytics executa trabalhos e arquiva os vértices que executam informações dos trabalhos, como quando os vértices são iniciados, interrompidos, com falha e como são repetidos, etc. Todas as informações são registradas automaticamente no repositório de consultas e armazenadas em seu Perfil de Trabalho. Você pode baixar o Perfil de Trabalho por meio de "Carregar Perfil" na Exibição de Trabalho, além de poder exibir a Reprodução de Trabalho depois de baixar o Perfil de Trabalho.
  
  A Reprodução de Trabalho é uma visualização representativa do que aconteceu no cluster. Ela ajuda você a assistir ao andamento da execução do trabalho e detecte visualmente os gargalos e anomalias no desempenho em um tempo muito curto (geralmente menos de 30s).
- Exibição de Mapa de Calor do Trabalho
  
  O Mapa de Calor de Trabalho pode ser selecionado por meio do menu suspenso Modo de Exibição no Grafo do Trabalho.
  
  Ele mostra a E/S, o tempo e o mapa de calor de taxa de transferência de um trabalho, por meio do qual você pode localizar onde o trabalho passa a maior parte do tempo ou se o seu trabalho é um trabalho de limite de E/S e assim por diante.
  - Andamento: o andamento da execução do trabalho, veja as informações em informações do estágio.
  - Dados lidos/gravados: o mapa de calor do total de dados lidos/gravados em cada estágio.
  - Tempo de computação: o mapa de calor de SOMA (cada tempo de execução de vértice), você pode considerar isso como quanto tempo levaria se todo o trabalho no estágio fosse executado com apenas um vértice.
  - Tempo médio de execução por nó: o mapa de calor da SOMA (tempo de execução de cada vértice) / (número de vértices). Isso significa que se você puder atribuir todos os vértices executados em paralelismo, o estágio inteiro será concluído nesse período.
  - Taxa de transferência de entrada/saída: o mapa de calor da taxa de transferência de entrada/saída de cada estágio; com isso, você pode confirmar se o seu trabalho é um trabalho associado a E/S.
Operações de Metadados

Você pode executar algumas operações de metadados em seu script U-SQL, como criar um banco de dados, remover uma tabela etc. Essas operações são mostradas em Operação de metadados após a compilação. Você pode encontrar declarações, criar entidades, descartar entidades aqui.
Histórico de Estado

O Histórico de Estado também é visualizado no Resumo do Trabalho, mas você pode obter mais detalhes aqui. Você pode encontrar informações mais detalhadas, por exemplo, quando o trabalho é preparado, colocado na fila, quando inicia a execução e quando encerra. Também é possível encontrar quantas vezes o trabalho foi compilado (o CcsAttempts: 1), quando o trabalho é realmente expedido para o cluster (o Detalhe: expedindo o trabalho para cluster), etc.
Diagnósticos

A ferramenta diagnostica automaticamente a execução do trabalho. Você receberá alertas quando houver alguns erros ou problemas de desempenho em seus trabalhos. Observe que você precisa baixar o Perfil para obter informações completas aqui.
- Avisos: um alerta aparece aqui com aviso do compilador. Você pode selecionar o link "x issue(s)" para ter mais detalhes quando o alerta for exibido.
- O vértice é executado por muito tempo: se algum vértice ficar sem tempo (digamos 5 horas), os problemas serão encontrados aqui.
- Uso de recursos: se você tiver alocado mais paralelismo do que necessário ou paralelismo insuficiente, haverá problemas. Além disso, você pode selecionar Uso de recursos para ver mais detalhes e executar cenários de teste de hipóteses para encontrar uma melhor alocação de recursos (para obter mais detalhes, consulte este guia).
- Verificação de memória: se qualquer um deles usar mais de 5 GB de memória, haverá problemas. A execução do trabalho poderá ser interrompida pelo sistema se usar mais memória do que a limitação do sistema.

Detalhes do Trabalho

Detalhes do Trabalho mostra as informações detalhadas do trabalho, incluindo o Script, Recursos e Modo de Exibição de Execução de Vértice.

Detalhes do trabalho do Azure Data Lake Analytics

Script

O script U-SQL do trabalho é armazenado no repositório de consultas. Você pode exibir o script U-SQL original e reenviá-lo, se necessário.
Recursos

Você pode encontrar as saídas de compilação de trabalho armazenadas no repositório de consultas por meio de Recursos. Por exemplo, você pode encontrar aqui o "algebra.xml", que é usado para mostrar o Grafo do Trabalho, os assemblies que você registrou, etc.
Modo de exibição de execução de vértice

Mostra detalhes de execução de vértices. O perfil de trabalho arquiva cada log de execução de vértice, como total de leitura/gravação de dados, tempo de execução, estado etc. Nessa exibição, você pode obter mais detalhes sobre como um trabalho foi executado. Para obter mais informações, veja Usar o Modo de Exibição de Execução de Vértice nas Ferramentas do Data Lake para Visual Studio.

Próximas etapas

Para registrar em log as informações de diagnóstico, veja Acessando os logs de diagnóstico para o Azure Data Lake Analytics
Para ver uma consulta mais complexa, consulte Analisar logs de site usando a Análise Data Lake do Azure.
Para usar o modo de exibição de execução de vértice, veja Usar o Modo de Exibição de Execução de Vértice nas Ferramentas do Data Lake para Visual Studio

Compartilhar via