Partilhar via


Soluções de vídeo do Azure AI Content Understanding (pré-visualização)

Importante

  • O Entendimento de Conteúdo do Azure AI está disponível na visualização. As versões de visualização pública fornecem acesso antecipado a recursos que estão em desenvolvimento ativo.
  • Recursos, abordagens e processos podem mudar ou ter recursos restritos, antes da Disponibilidade Geral (GA).
  • Para obter mais informações, consulte Termos de uso suplementares para visualizações do Microsoft Azure.

O Entendimento de Conteúdo do Azure AI permite extrair e personalizar metadados de vídeo. A Compreensão de Conteúdo ajuda a gerenciar, categorizar, recuperar e criar fluxos de trabalho para ativos de vídeo de forma eficiente. Ele aprimora sua biblioteca de ativos de mídia, suporta fluxos de trabalho como geração de destaque, categoriza conteúdo e facilita aplicativos como geração aumentada de recuperação (RAG).

A compreensão de conteúdo para vídeo tem amplos usos potenciais. Por exemplo, você pode personalizar metadados para marcar cenas específicas em um vídeo de treinamento, tornando mais fácil para os funcionários localizar e revisitar seções importantes. Você também pode usar a personalização de metadados para identificar o posicionamento do produto em vídeos promocionais, o que ajuda as equipes de marketing a analisar a exposição da marca.

Casos de uso de negócios

O Azure AI Content Understanding fornece uma variedade de casos de uso de negócios, incluindo:

  • Transmissão de mídia e entretenimento: gerencie grandes bibliotecas de shows, filmes e clipes gerando metadados detalhados para cada ativo.
  • Educação e e*Learning: Indexar e recuperar momentos específicos em vídeos educativos ou palestras.
  • Treinamento corporativo: organize vídeos de treinamento por tópicos-chave, cenas ou momentos importantes.
  • Marketing e publicidade: analise vídeos promocionais para extrair posicionamentos de produtos, aparências de marca e mensagens-chave.

Recursos de compreensão de vídeo

Captura de tela do fluxo do analisador de vídeo.

A Compreensão de Conteúdo processa arquivos de vídeo por meio de um pipeline personalizável que pode executar tarefas de extração de conteúdo e extração de campo. A Extração de Conteúdo se concentra na análise do vídeo para gerar metadados fundamentais, enquanto a Extração de Campo usa esses metadados para criar insights mais detalhados e personalizados adaptados a casos de uso específicos. A seguir está uma visão geral de cada capacidade.

Extração de conteúdo

A extração de conteúdo para vídeo inclui transcrição, deteção de capturas, extração de quadros-chave e agrupamento de rostos. Essas operações são realizadas em quadros de amostra de todo o vídeo e geram uma saída de texto estruturada representando o vídeo. A extração de conteúdo também serve como dados de base para os recursos generativos da extração de campo, fornecendo contexto sobre o que está contido no vídeo.

Capacidades específicas de extração de conteúdo:

  • Transcrição: converte fala em texto estruturado e pesquisável por meio do Azure AI Speech, permitindo que os usuários especifiquem idiomas de reconhecimento.
  • Deteção de capturas: identifica segmentos do vídeo alinhados com os limites de captura sempre que possível, permitindo a edição precisa e o reempacotamento de conteúdo com quebras exatamente nos limites de captura.
  • Extração de quadros-chave: extrai quadros-chave de vídeos para representar cada foto completamente, garantindo que cada foto tenha quadros-chave suficientes para permitir que a extração de campo funcione de forma eficaz.
  • Agrupamento de rostos: rostos agrupados que aparecem em um vídeo para extrair uma imagem de rosto representativa para cada pessoa e fornece segmentos onde cada um está presente. Os dados de face agrupados estão disponíveis como metadados e podem ser usados para gerar campos de metadados personalizados.
  • Este recurso é de acesso limitado e envolve identificação facial e agrupamento; os clientes precisam se cadastrar para acesso no Reconhecimento Facial.

Extração de campo

A extração de campo permite a geração de dados estruturados para cada segmento do vídeo, como tags, categorias ou descrições, usando um esquema personalizável adaptado às suas necessidades específicas. Esses dados estruturados facilitam a organização, a pesquisa e o processamento automático de conteúdo de vídeo de forma eficiente. A extração de campo usa um modelo generativo multimodal para extrair dados específicos do vídeo, usando quadros-chave e saída de texto da extração de conteúdo como entrada. A extração de campo permite que o modelo generativo faça insights detalhados com base no conteúdo visual capturado das fotos, fornecendo uma identificação detalhada.

Exemplos de campos para diferentes indústrias:

  • Gestão de ativos de mídia:

    • Tipo de captura: ajuda editores e produtores a organizar o conteúdo, simplificando a edição e entendendo a linguagem visual do vídeo. Útil para marcação de metadados e recuperação de cena mais rápida.
    • Esquema de cores: Transmite humor e atmosfera, essenciais para a consistência narrativa e o envolvimento do espectador. A identificação de temas de cores ajuda a encontrar clipes correspondentes para edição de vídeo acelerada.
  • Publicidade:

    • Marca: identifica a presença da marca, fundamental para analisar o impacto do anúncio, a visibilidade da marca e a associação com os produtos. Esse recurso permite que os anunciantes avaliem a proeminência da marca e garantam a conformidade com as diretrizes da marca.
    • Categorias de anúncios: categoriza os tipos de anúncios por setor, tipo de produto ou segmento de público-alvo, o que oferece suporte a estratégias de publicidade direcionada, categorização e análise de desempenho.

Principais benefícios

O Content Understanding oferece vários benefícios importantes quando comparado a outras soluções de análise de vídeo:

  • Análise de vários quadros baseada em segmentos: identifique ações, eventos, tópicos e temas analisando vários quadros de cada segmento de vídeo, em vez de quadros individuais.
  • Personalização: Personalize os metadados gerados modificando o esquema de acordo com seu caso de uso específico.
  • Modelos generativos: descreva em linguagem natural qual conteúdo você deseja extrair e o Content Understanding usa modelos generativos para extrair esses metadados.
  • Pré-processamento otimizado: execute várias etapas de pré-processamento de extração de conteúdo, como transcrição e deteção de cena, otimizadas para fornecer contexto rico para modelos generativos de IA.

Requisitos de entrada

Para obter informações detalhadas sobre os formatos de documentos de entrada suportados, consulte nossa página Cotas e limites de serviço.

Idiomas e regiões suportados

Para obter uma lista detalhada dos idiomas e regiões suportados, visite a nossa página de suporte de idiomas e regiões.

Privacidade e segurança dos dados

Como acontece com todos os serviços de IA do Azure, os desenvolvedores que usam o serviço de Compreensão de Conteúdo devem estar cientes das políticas da Microsoft sobre dados do cliente. Consulte a nossa página de Dados, proteção e privacidade para saber mais.

Importante

Os usuários do Content Understanding podem habilitar recursos como o Agrupamento Facial para vídeos, que envolvia o processamento de Dados Biométricos. Se estiver a utilizar produtos ou serviços da Microsoft para processar Dados Biométricos, é responsável por: (i) notificar os titulares dos dados, incluindo no que diz respeito a períodos de retenção e destruição; (ii) obtenção do consentimento dos titulares dos dados; e (iii) eliminar os Dados Biométricos, tudo conforme adequado e exigido ao abrigo dos Requisitos de Proteção de Dados aplicáveis. "Dados Biométricos" terá o significado definido no Artigo 4 do RGPD e, se aplicável, termos equivalentes em outros requisitos de proteção de dados. Para obter informações relacionadas, consulte Dados e privacidade para o rosto.

Próximos passos