Escolha uma tecnologia de processamento de imagem e vídeo de IA do Azure
Os serviços de IA do Azure ajudam os programadores e as organizações a criar aplicações inteligentes, inovadoras, prontas para o mercado e responsáveis com APIs e modelos prontos a utilizar, pré-construídos e personalizáveis.
Este artigo aborda os serviços de IA do Azure que oferecem recursos de processamento de vídeo e imagem, como análise visual e geração de imagens, deteção de objetos, classificação de imagens e reconhecimento facial.
Serviços
Os seguintes serviços fornecem recursos de processamento de vídeo e imagem para serviços de IA do Azure:
-
- Use o Azure OpenAI para geração de imagens a partir de linguagem natural usando modelos de imagem generativa pré-treinados. Por exemplo, geração sob demanda de arte personalizada.
- Use o Azure OpenAI quando precisar executar análises amplas e não específicas em imagens. Por exemplo, gerando descrições de acessibilidade.
- Não use o Azure OpenAI se quiser usar modelos de geração de imagem de código aberto disponíveis no Azure Machine Learning.
- Não use o Azure OpenAI se precisar executar tipos específicos de processamento de imagem, como extração de formulários, reconhecimento facial ou deteção de características de imagem especializadas em domínio. Para esses cenários, use ou crie soluções de IA projetadas especificamente treinadas para esses fins.
-
- Use o serviço de visão quando precisar de reconhecimento ótico de caracteres (OCR) básico, análise de imagem ou análise básica de vídeo para detetar movimento e outros eventos.
- Não use o serviço Vision para análise que modelos de fundação grandes e multimodais já suportam.
- Não use o serviço Visão para moderar conteúdo. Em vez disso, use o serviço de Segurança de Conteúdo.
Visão Personalizada da IA do Azure
- Use o serviço quando tiver requisitos específicos que a análise de imagem básica do serviço Visão não pode fornecer. Por exemplo, é bom para reconhecer objetos incomuns, defeitos de fabricação ou fornecer classificações personalizadas detalhadas.
- Não use o serviço se precisar de deteção básica de objetos ou de rosto. Em vez disso, use os serviços Face ou Vision.
- Não use o serviço para análise visual básica. Em vez disso, use modelos com capacidade de visão do Azure OpenAI ou modelos de código aberto no Azure Machine Learning.
-
- Use o serviço Face quando precisar verificar se os rostos estão ativos ou falsificados/falsificados, ou para identificar, agrupar ou encontrar rostos semelhantes.
- Não use o serviço Face para detetar emoções em rostos ou realizar outro raciocínio de alto nível sobre rostos. Em vez disso, utilize modelos linguísticos multimodais para essas tarefas.
-
- Use o serviço Azure Video Indexer para tarefas relacionadas à análise de vídeo mais avançadas que a análise de vídeo básica do serviço Visão não pode fornecer.
- Não use o serviço Azure Video Indexer para tarefas básicas de análise de vídeo, como contagem de pessoas e deteção de movimento e eventos. A análise de vídeo básica do serviço Vision é mais econômica para essas tarefas.
Azure OpenAI
O Azure OpenAI fornece acesso aos poderosos modelos de linguagem da OpenAI, incluindo a última geração de modelos GPT. Estes suportam análise visual e gerações de imagens, e DALL-E suporta geração de imagens.
Visão de IA do Azure
O Azure AI Vision fornece algoritmos avançados que processam imagens e retornam informações com base nos recursos visuais em que você está interessado. Presta quatro serviços: OCR, Face service, imagem e análise espacial.
Capacidades
A tabela a seguir fornece uma lista de recursos disponíveis no serviço Azure AI Vision.
Capacidade | Description |
---|---|
Reconhecimento ótico de caracteres (OCR) | O serviço de reconhecimento ótico de caracteres (OCR) extrai texto de imagens. Você pode usar a API de leitura para extrair texto impresso e manuscrito de fotos e documentos. Utiliza modelos baseados em aprendizagem profunda e trabalha com texto em várias superfícies e fundos. Estes incluem documentos comerciais, faturas, recibos, cartazes, cartões de visita, cartas e quadros brancos. As APIs OCR suportam a extração de texto impresso em vários idiomas. |
Análise de Imagem | O serviço de Análise de Imagem extrai muitos recursos visuais de imagens, como objetos, rostos e descrições de texto geradas automaticamente. Com o Image Analysis 4.0 baseado no modelo básico de Florença, você também pode criar modelos de identificador de imagem personalizados. |
Análise de Vídeo | A Análise de Vídeo inclui recursos relacionados a vídeo, como Análise Espacial e Recuperação de Vídeo. A Análise Espacial analisa a presença e o movimento de pessoas em um feed de vídeo e produz eventos aos quais outros sistemas podem responder. |
Visão Personalizada de IA do Azure
O serviço Azure AI Custom Vision é um serviço de reconhecimento de imagem que lhe permite criar, implementar e melhorar os seus próprios modelos de identificador de imagem. Um identificador de imagem aplica etiquetas às imagens, de acordo com as suas características visuais. Cada rótulo representa uma classificação ou objeto. A Visão Personalizada permite-lhe especificar as suas próprias etiquetas e treinar modelos personalizados para as detetar.
O serviço Visão Personalizada usa um algoritmo de aprendizado de máquina para analisar imagens em busca de recursos personalizados. Você envia conjuntos de imagens que têm e não têm as características visuais que você está procurando. Em seguida, você rotula as imagens com seus próprios rótulos (tags) no momento do envio. O algoritmo treina esses dados e calcula sua própria precisão, testando-se nas mesmas imagens. Depois de treinar seu modelo, você pode testá-lo, treiná-lo novamente e, eventualmente, usá-lo em seu aplicativo de reconhecimento de imagens para classificar imagens ou detetar objetos. Você também pode exportar o modelo para uso offline.
Capacidades
A tabela a seguir fornece uma lista de recursos disponíveis no serviço Azure AI Custom Vision.
Capacidade | Description |
---|---|
Classificação das imagens | Preveja uma categoria, ou classe, com base em um conjunto de entradas, que são chamadas de recursos. Calcule uma pontuação de probabilidade para cada classe possível e retorne um rótulo que indique a classe à qual o objeto provavelmente pertence. Para usar esse modelo, você precisa de dados que consistem em recursos e seus rótulos. |
Deteção de objetos | Obtenha as coordenadas de um objeto em uma imagem. Para usar esse modelo, você precisa de dados que consistem em recursos e seus rótulos |
Casos de utilização
A tabela a seguir fornece uma lista de possíveis casos de uso para o serviço Azure AI Custom Vision.
Caso de utilização | Description |
---|---|
Usar a Visão Personalizada com um dispositivo IoT para relatar estados visuais | use a Visão Personalizada para treinar um dispositivo com uma câmera para detetar estados visuais. Você pode executar esse cenário de deteção em um dispositivo IoT usando um modelo ONNX exportado. Um estado visual descreve o conteúdo de uma imagem: uma sala vazia ou uma sala com pessoas, uma entrada vazia ou uma entrada com um caminhão, e assim por diante. |
Reconhecer logotipos em imagens da câmera | Analise fotos, procurando logotipos específicos. |
Azure AI Face
O serviço Azure AI Face fornece algoritmos de IA que detetam, reconhecem e analisam rostos humanos em imagens. O software de reconhecimento facial é importante em muitos cenários, como identificação, controle de acesso sem toque e desfoque facial automático para privacidade.
Capacidades
A tabela a seguir fornece uma lista de recursos disponíveis no serviço Azure AI Face.
Capacidade | Description |
---|---|
Deteção e análise facial | Identifique as regiões de uma imagem que contêm um rosto humano, normalmente retornando as coordenadas da caixa delimitadora que formam um retângulo ao redor do rosto. |
Encontrar rostos semelhantes | A operação Localizar semelhante faz a correspondência facial entre um rosto alvo e um conjunto de rostos candidatos, encontrando um conjunto menor de rostos que se parecem com o rosto alvo. Isso é útil para fazer uma pesquisa de rosto por imagem. |
Rostos do grupo | A operação do Grupo divide um conjunto de rostos desconhecidos em vários grupos menores com base na semelhança. Cada grupo é um subconjunto adequado e desassociado do conjunto original de rostos. Ele também retorna uma única matriz "messyGroup" que contém os IDs de rosto para os quais não foram encontradas semelhanças. |
Identificação | A identificação facial pode abordar a correspondência "um-para-muitos" de um rosto em uma imagem para um conjunto de rostos em um repositório seguro. Os candidatos correspondentes são retornados com base na proximidade com que seus dados faciais correspondem à face da consulta. |
Operações de reconhecimento facial | Empresas e aplicativos modernos podem usar as tecnologias de reconhecimento facial, incluindo verificação facial ("correspondência um-para-um") e identificação facial ("correspondência um-para-muitos") para confirmar que um usuário é quem afirma ser. |
Deteção de vivacidade | A deteção de vivacidade é um recurso anti-falsificação que verifica se um usuário está fisicamente presente na frente da câmera. Ele é usado para evitar ataques de falsificação usando uma foto impressa, vídeo gravado ou uma máscara 3D do rosto do usuário. |
Casos de utilização
A tabela a seguir fornece uma lista de possíveis casos de uso para o serviço Azure AI Face.
Caso de utilização | Description |
---|---|
Verifique a identidade do usuário. | Verifique uma pessoa em relação a uma imagem de rosto confiável. Essa verificação pode ser usada para conceder acesso a propriedades digitais ou físicas. Na maioria dos casos, a imagem do rosto confiável pode vir de um documento de identificação emitido pelo governo, como passaporte ou carteira de motorista, ou pode vir de uma foto de inscrição tirada pessoalmente. Durante a verificação, a deteção de vivacidade pode desempenhar um papel crítico na verificação de que a imagem vem de uma pessoa real, não de uma foto ou máscara impressa. |
Redação de rostos | Redigir ou desfocar rostos detetados de pessoas gravadas em um vídeo para proteger sua privacidade. |
Controlo de acesso sem toque. | Em comparação com métodos como cartões ou bilhetes, a identificação facial opt-in permite uma experiência de controle de acesso aprimorada, reduzindo os riscos de higiene e segurança do compartilhamento de mídia física, perda ou roubo. O reconhecimento facial auxilia o processo de check-in com um humano no circuito para check-ins em aeroportos, estádios, parques temáticos, edifícios, quiosques de receção em escritórios, hospitais, academias, clubes ou escolas. |
Azure AI Video Indexer
O Azure AI Video Indexer é uma aplicação na nuvem, parte dos serviços de IA do Azure, criada nos serviços de IA do Azure (como o Face, o Translator, o Azure AI Vision e o Speech). Ele permite que você extraia as informações de seus vídeos usando modelos de vídeo e áudio do Azure AI Video Indexer.
Capacidades
A tabela a seguir fornece uma lista de alguns dos recursos disponíveis no serviço Azure AI Video Indexer.
Capacidade | Description |
---|---|
Identificação e transcrição da fala em vários idiomas | Identifica a linguagem falada em diferentes segmentos do áudio. Envia cada segmento do ficheiro multimédia para ser transcrito e, em seguida, combina a transcrição de volta numa transcrição unificada. |
Deteção de rosto | Deteta e agrupa rostos que aparecem no vídeo. |
Identificação de celebridades | Identifica mais de 1 milhão de celebridades, como líderes mundiais, atores, artistas, atletas, pesquisadores, líderes empresariais e de tecnologia em todo o mundo. Os dados sobre essas celebridades também podem ser encontrados em vários sites (IMDB, Wikipedia e assim por diante). |
Identificação facial baseada na conta | Treina um modelo para uma conta específica. Em seguida, reconhece rostos no vídeo com base no modelo treinado. |
Rastreamento de pessoas observadas (visualização) | Deteta pessoas observadas em vídeos e fornece informações como a localização da pessoa no quadro do vídeo (usando caixas delimitadoras) e o carimbo de data/hora exato (início, fim) e confiança quando uma pessoa aparece. |
Transcrição de áudio | Converte fala em texto em mais de 50 idiomas e permite extensões. |
Deteção de idioma | Identifica a língua falada dominante. |
Redução de ruído | Limpa áudio de telefonia ou gravações barulhentas (com base em filtros do Skype). |
Tradução | FCreates traduções da transcrição de áudio para muitos idiomas diferentes. |
Para analisar mais recursos do serviço Azure AI Video Indexer, consulte a documentação do Azure AI Video Indexer.
Casos de utilização
A tabela a seguir fornece uma lista de possíveis casos de uso para o serviço Azure AI Video Indexer.
Caso de utilização | Description |
---|---|
Pesquisa profunda | Use as informações extraídas do vídeo para aprimorar a experiência de pesquisa em uma biblioteca de vídeos. Por exemplo, a indexação de palavras faladas e rostos pode permitir a experiência de pesquisa de encontrar momentos em um vídeo onde uma pessoa falou certas palavras ou quando duas pessoas foram vistas juntas. A pesquisa com base nessas informações de vídeos é aplicável a agências de notícias, institutos educacionais, emissoras, proprietários de conteúdo de entretenimento, aplicativos LOB corporativos e, em geral, a qualquer setor que tenha uma biblioteca de vídeos que os usuários precisem pesquisar. |
Criação de conteúdo | Crie trailers, realce bobinas, conteúdo de redes sociais ou clipes de notícias com base nas informações que o Azure AI Video Indexer extrai do seu conteúdo. Quadros-chave, marcadores de cenas e carimbos de data/hora das pessoas e aparências de rótulos tornam o processo de criação mais suave e fácil, permitindo que você acesse facilmente as partes do vídeo de que precisa ao criar conteúdo. |
Acessibilidade | Quer pretenda disponibilizar o seu conteúdo para pessoas com deficiências ou se pretende que o seu conteúdo seja distribuído para diferentes regiões utilizando idiomas diferentes, pode utilizar a transcrição e tradução fornecidas pelo Azure AI Video Indexer em vários idiomas. |
Rentabilização | O Azure AI Video Indexer pode ajudar a aumentar o valor dos vídeos. Por exemplo, os setores que dependem da receita de anúncios (mídia de notícias, mídia social e assim por diante) podem exibir anúncios relevantes usando as informações extraídas como sinais adicionais para o servidor de anúncios. |
Moderação de conteúdo | Use modelos de moderação de conteúdo textual e visual para manter seus usuários protegidos contra conteúdo impróprio e validar se o conteúdo publicado corresponde aos valores da sua organização. Você pode bloquear automaticamente determinados vídeos ou alertar seus usuários sobre o conteúdo. |
Recomendações | As informações de vídeo podem ser usadas para melhorar o envolvimento do usuário, destacando os momentos de vídeo relevantes para os usuários. Ao marcar cada vídeo com metadados adicionais, você pode recomendar aos usuários os vídeos mais relevantes e destacar as partes do vídeo que correspondem às suas necessidades. |
Próximos passos
- O que é o Azure AI Vision?
- Caminho de aprendizagem: Desenvolver soluções de processamento de linguagem natural com os Serviços de IA do Azure
- Caminho de aprendizagem: Introdução aos Serviços de IA do Azure
- Caminho de aprendizagem: Fundamentos de IA do Microsoft Azure: Visão por Computador
- Caminho de aprendizagem: Criar soluções de visão computacional com o Azure AI Vision
- Caminho de aprendizagem: Criar uma solução de reconhecimento de imagem com o Azure IoT Edge e os serviços de IA do Azure