Processar dados na borda com pipelines do processador de dados

Artigo
09/08/2023

Importante

Azure IoT Operations Preview – habilitado pelo Azure Arc está atualmente em visualização. Não deve utilizar este software de pré-visualização em ambientes de produção.

Você precisará implantar uma nova instalação do Azure IoT Operations quando uma versão disponível em geral for disponibilizada, você não poderá atualizar uma instalação de visualização.

Veja Termos de Utilização Complementares da Pré-visualizações do Microsoft Azure para obter os termos legais que se aplicam às funcionalidades do Azure que estão na versão beta, na pré-visualização ou que ainda não foram lançadas para disponibilidade geral.

Os ativos industriais geram dados em muitos formatos diferentes e usam vários protocolos de comunicação. Essa diversidade de fontes de dados, juntamente com esquemas e medidas unitárias variáveis, dificulta o uso e a análise de dados industriais brutos de forma eficaz. Além disso, por motivos de conformidade, segurança e desempenho, não é possível carregar todos os conjuntos de dados para a nuvem.

Tradicionalmente, para processar esses dados, é necessária uma engenharia de dados cara, complexa e demorada. O processador de dados é um serviço de processamento de dados configurável que pode gerenciar as complexidades e a diversidade dos dados industriais. Use o processador de dados para tornar os dados de fontes diferentes mais compreensíveis, utilizáveis e valiosos.

O que é o processador de dados?

O processador de dados é um componente opcional do Azure IoT Operations Preview. O processador de dados permite agregar, enriquecer, normalizar e filtrar os dados de seus dispositivos. O processador de dados é um mecanismo de processamento de dados baseado em pipeline que permite processar dados na borda antes de enviá-los para os outros serviços, seja na borda ou na nuvem:

O processador de dados ingere dados de streaming em tempo real de fontes como servidores OPC UA, historiadores e outros sistemas industriais. Ele normaliza esses dados convertendo vários formatos de dados em um formato padronizado e estruturado, o que facilita a consulta e a análise. O processador de dados também pode contextualizar os dados, enriquecendo-os com dados de referência ou últimos valores conhecidos (LKV) para fornecer uma visão abrangente de suas operações industriais.

A saída do processador de dados é de dados limpos, enriquecidos e padronizados que estão prontos para aplicativos downstream, como ferramentas de análise e insights em tempo real. O processador de dados reduz significativamente o tempo necessário para transformar dados brutos em insights acionáveis.

Os principais recursos do processador de dados incluem:

Normalização flexível de dados para converter vários formatos de dados em uma estrutura padronizada.
Enriquecimento de fluxos de dados com dados de referência ou LKV para melhorar o contexto e permitir melhores insights.
Integração integrada do Microsoft Fabric para simplificar a análise de dados limpos.
Capacidade de processar dados de várias fontes e publicar os dados para vários destinos.
Como uma plataforma de processamento de dados agnóstica, o processador de dados pode ingerir dados em qualquer formato, processar os dados e, em seguida, gravá-los em um destino. Para suportar esses recursos, o processador de dados pode desserializar e serializar vários formatos. Por exemplo, ele pode serializar para parquet para gravar arquivos no Microsoft Fabric.
Políticas de repetição automáticas e configuráveis para lidar com erros transitórios ao enviar dados para destinos na nuvem.

Implantar o processador de dados

Por padrão, o processador de dados não está incluído em uma implantação do Azure IoT Operations Preview. Se você planeja usar o processador de dados, deve incluí-lo ao implantar o Azure IoT Operations Preview - não é possível adicioná-lo posteriormente. Para implantar o processador de dados, use o --include-dp argumento ao executar o comando az iot ops init . Para saber mais, consulte Implantar o Azure IoT Operations Preview em um cluster Kubernetes habilitado para Arc.

O que é um pipeline?

Um pipeline de processador de dados tem uma fonte de entrada de onde lê dados, um destino onde grava dados processados e um número variável de estágios intermediários para processar os dados.

Diagrama que mostra como um pipeline é composto a partir de estágios.

As fases intermédias representam as diferentes capacidades de tratamento de dados disponíveis:

Você pode adicionar quantos estágios intermediários forem necessários a um pipeline.
Você pode solicitar os estágios intermediários de um pipeline conforme necessário. Você pode reordenar estágios depois de criar um pipeline.
Cada etapa adere a uma interface de implementação definida e a um contrato de esquema de entrada/saída.
Cada estágio é independente dos outros estágios no pipeline.
Todos os estágios operam dentro do escopo de uma partição. Os dados não são compartilhados entre partições diferentes.
Os dados fluem apenas de um estágio para o seguinte.

Os pipelines do processador de dados podem usar os seguintes estágios:

Fase	Description
Fonte - MQ	Recupera dados de um broker MQTT.
Origem - Ponto de extremidade HTTP	Recupera dados de um ponto de extremidade HTTP.
Fonte - SQL	Recupera dados de um banco de dados do Microsoft SQL Server.
Fonte - InfluxDB	Recupera dados de um banco de dados InfluxDB.
Filtro	Filtra os dados que passam pelo palco. Por exemplo, filtre qualquer mensagem com temperatura fora do `50F-150F` intervalo.
Transformar	Normaliza a estrutura dos dados. Por exemplo, altere a estrutura de `{"Name": "Temp", "value": 50}` para `{"temp": 50}`.
LKV	Armazena valores de métricas selecionados em um repositório LKV. Por exemplo, armazene apenas medições de temperatura e umidade em LKV, ignore o resto. Uma etapa subsequente pode enriquecer uma mensagem com os dados LKV armazenados.
Enriqueça	Enriquece as mensagens com dados do armazenamento de dados de referência. Por exemplo, adicione um nome de operador e um número de lote do conjunto de dados de operações.
Agregado	Agrega valores que passam pelo estágio. Por exemplo, quando os valores de temperatura são enviados a cada 100 milissegundos, emita uma métrica de temperatura média a cada 30 segundos.
Chamar	Faz uma chamada para um serviço HTTP ou gRPC externo. Por exemplo, chame uma Função do Azure para converter de um formato de mensagem personalizado para JSON.
Destino - MQ	Grava seus dados processados, limpos e contextualizados em um tópico MQTT.
Destino - Referência	Grava os dados processados no armazenamento de referência interno. Outros pipelines podem usar o repositório de referência para enriquecer suas mensagens.
Destino - gRPC	Envia seus dados processados, limpos e contextualizados para um ponto de extremidade gRPC.
Destino - HTTP	Envia seus dados processados, limpos e contextualizados para um ponto de extremidade HTTP.
Destino - Fabric Lakehouse	Envia seus dados processados, limpos e contextualizados para um lago do Microsoft Fabric na nuvem.
Destino - Azure Data Explorer	Envia seus dados processados, limpos e contextualizados para um ponto de extremidade do Azure Data Explorer na nuvem.

Próximo passo

Para saber mais sobre o processador de dados, consulte:

Partilhar via

Processar dados na borda com pipelines do processador de dados

O que é o processador de dados?

Implantar o processador de dados

O que é um pipeline?

Próximo passo

Recursos adicionais