Nota de transparência para avaliações de segurança do Azure AI Foundry

Artigo
11/21/2024

Importante

Os itens marcados (visualização) neste artigo estão atualmente em visualização pública. Essa visualização é fornecida sem um contrato de nível de serviço e não a recomendamos para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.

O que é uma Nota de Transparência

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usarão, as pessoas que serão afetadas por ela e o ambiente em que é implantado. Criar um sistema adequado ao fim a que se destina requer uma compreensão de como a tecnologia funciona, quais são as suas capacidades e limitações e como alcançar o melhor desempenho. As Notas de Transparência da Microsoft destinam-se a ajudá-lo a compreender como funciona a nossa tecnologia de IA, as escolhas que os proprietários de sistemas podem fazer que influenciam o desempenho e o comportamento do sistema e a importância de pensar em todo o sistema, incluindo a tecnologia, as pessoas e o ambiente. Você pode usar as Notas de Transparência ao desenvolver ou implantar seu próprio sistema ou compartilhá-las com as pessoas que usarão ou serão afetadas pelo seu sistema.

As Notas de Transparência da Microsoft fazem parte de um esforço mais amplo da Microsoft para colocar nossos Princípios de IA em prática. Para saber mais, consulte os princípios da IA da Microsoft.

Noções básicas das avaliações de segurança do Azure AI Foundry

Introdução

As avaliações de segurança do portal Azure AI Foundry permitem que os usuários avaliem a saída de seu aplicativo de IA generativa para riscos de conteúdo textual: conteúdo odioso e injusto, conteúdo sexual, conteúdo violento, conteúdo relacionado à automutilação, vulnerabilidade de jailbreak. As avaliações de segurança também podem ajudar a gerar conjuntos de dados adversários para ajudá-lo a acelerar e aumentar a operação de red-teaming. As avaliações de segurança do Azure AI Foundry refletem os compromissos da Microsoft em garantir que os sistemas de IA sejam construídos de forma segura e responsável, operacionalizando nossos princípios de IA responsável.

Termos principais

Conteúdo odioso e injusto refere-se a qualquer linguagem relacionada ao ódio ou representações injustas de indivíduos e grupos sociais ao longo de fatores incluindo, mas não limitado a, raça, etnia, nacionalidade, gênero, orientação sexual, religião, status de imigração, capacidade, aparência pessoal e tamanho do corpo. A injustiça ocorre quando os sistemas de IA tratam ou representam grupos sociais de forma desigual, criando ou contribuindo para desigualdades sociais.
O conteúdo sexual inclui linguagem relativa a órgãos anatómicos e genitais, relações amorosas, atos retratados em termos eróticos, gravidez, atos sexuais físicos (incluindo agressão ou violência sexual), prostituição, pornografia e abuso sexual.
O conteúdo violento inclui linguagem relacionada a ações físicas destinadas a ferir, ferir, danificar ou matar alguém ou algo. Também inclui descrições de armas e armas (e entidades relacionadas, como fabricantes e associações).
O conteúdo relacionado à automutilação inclui linguagem referente a ações destinadas a ferir, ferir ou danificar o corpo ou se matar.
Jailbreak, ataques de prompt direto ou ataques de injeção de prompt do usuário, referem-se a usuários manipulando prompts para injetar entradas prejudiciais em LLMs para distorcer ações e saídas. Um exemplo de um comando de jailbreak é um ataque 'DAN' (Do Anything Now), que pode enganar o LLM para gerar conteúdo inadequado ou ignorar restrições impostas pelo sistema.
A taxa de defeitos (risco de conteúdo) é definida como a porcentagem de instâncias em seu conjunto de dados de teste que ultrapassam um limite na escala de gravidade em todo o tamanho do conjunto de dados.
O Red-teaming historicamente descreve ataques adversários sistemáticos para testar vulnerabilidades de segurança. Com a ascensão dos Large Language Models (LLM), o termo se estendeu além da cibersegurança tradicional e evoluiu no uso comum para descrever muitos tipos de sondagem, teste e ataque de sistemas de IA. No caso dos LLM, a utilização benigna e adversarial pode produzir resultados potencialmente nocivos, que podem assumir muitas formas, incluindo conteúdos nocivos como discursos de ódio, incitamento ou glorificação da violência, referência a conteúdos relacionados com automutilação ou conteúdos sexuais.

Capacidades

Comportamento do sistema

O Azure AI Foundry provisiona um modelo GPT-4 do Azure OpenAI e orquestra ataques adversários contra seu aplicativo para gerar um conjunto de dados de teste de alta qualidade. Em seguida, ele provisiona outro modelo GPT-4 para anotar seu conjunto de dados de teste para conteúdo e segurança. Os usuários fornecem seu endpoint de aplicativo de IA generativo que desejam testar, e as avaliações de segurança produzirão um conjunto de dados de teste estático em relação a esse ponto final, juntamente com seu rótulo de risco de conteúdo (Muito baixo, Baixo, Médio, Alto) e o raciocínio para o rótulo gerado por IA.

Casos de utilização

Utilizações previstas

As avaliações de segurança não se destinam a ser usadas para qualquer outra finalidade que não seja avaliar os riscos de conteúdo e vulnerabilidades de jailbreak do seu aplicativo de IA generativa:

Avaliando a pré-implantação do aplicativo de IA generativa: usando o assistente de avaliação no portal do Azure AI Foundry ou o SDK Python do Azure AI, as avaliações de segurança podem ser avaliadas de forma automatizada para avaliar possíveis riscos de conteúdo ou segurança.
Aumentando suas operações de equipe vermelha: Usando o simulador adversarial, as avaliações de segurança podem simular interações adversárias com seu aplicativo de IA generativa para tentar descobrir conteúdo e riscos de segurança.
Comunicar conteúdo e riscos de segurança às partes interessadas: Usando o portal do Azure AI Foundry, você pode compartilhar o acesso ao seu projeto do Azure AI Foundry com os resultados das avaliações de segurança com auditores ou partes interessadas em conformidade.

Considerações ao escolher um caso de uso

Incentivamos os clientes a aproveitar as avaliações de segurança do Azure AI Foundry em suas soluções ou aplicativos inovadores. No entanto, aqui estão algumas considerações ao escolher um caso de uso:

As avaliações de segurança devem incluir human-in-the-loop: o uso de avaliações automatizadas, como as avaliações de segurança do Azure AI Foundry, deve incluir revisores humanos, como especialistas em domínio, para avaliar se seu aplicativo de IA generativa foi testado completamente antes da implantação para usuários finais.
As avaliações de segurança não incluem cobertura abrangente total: embora as avaliações de segurança possam fornecer uma maneira de aumentar seus testes quanto a possíveis riscos de conteúdo ou segurança, elas não foram projetadas para substituir as operações manuais de red-teaming especificamente voltadas para o domínio, casos de uso e tipo de usuários finais do seu aplicativo.
Cenários suportados:
- Para simulação adversarial: Resposta a perguntas, bate-papo multiturno, sumarização, pesquisa, reescrita de texto, geração de conteúdo sem fundamento e fundamentada.
- Para anotação automatizada: Resposta a perguntas e bate-papo multiturno.
O serviço atualmente é melhor usado com o domínio em inglês apenas para gerações textuais. Recursos adicionais, incluindo suporte a vários modelos, serão considerados para versões futuras.
A cobertura dos riscos de conteúdo fornecidos nas avaliações de segurança é subamostrada a partir de um número limitado de grupos e tópicos marginalizados:
- A métrica de ódio e injustiça inclui alguma cobertura para um número limitado de grupos marginalizados pelo fator demográfico de gênero (por exemplo, homens, mulheres, pessoas não binárias) e raça, ancestralidade, etnia e nacionalidade (por exemplo, negro, mexicano, europeu). Nem todos os grupos marginalizados em gênero e raça, ancestralidade, etnia e nacionalidade são cobertos. Outros fatores demográficos que são relevantes para o ódio e injustiça não têm cobertura atualmente (por exemplo, deficiência, sexualidade, religião).
- As métricas para conteúdo sexual, violento e relacionado à automutilação são baseadas em uma conceituação preliminar desses danos, que são menos desenvolvidos do que o ódio e a injustiça. Isso significa que podemos fazer afirmações menos fortes sobre a cobertura da medição e quão bem as medições representam as diferentes maneiras pelas quais esses danos podem ocorrer. A cobertura para estes tipos de conteúdo inclui um número limitado de tópicos relacionados com sexo (por exemplo, violência sexual, relacionamentos, atos sexuais), violência (por exemplo, abuso, ferir outras pessoas, sequestro) e automutilação (por exemplo, morte intencional, automutilação intencional, distúrbios alimentares).
Atualmente, as avaliações de segurança do Azure AI Foundry não permitem plug-ins ou extensibilidade.
Para manter a qualidade atualizada e melhorar a cobertura, buscaremos uma cadência de lançamentos futuros de melhoria para os recursos de simulação e anotação adversarial do serviço.

Limitações técnicas, fatores operacionais e intervalos

O campo dos grandes modelos linguísticos (LLMs) continua a evoluir a um ritmo rápido, exigindo uma melhoria contínua das técnicas de avaliação para garantir a implementação segura e fiável de sistemas de IA. As avaliações de segurança do Azure AI Foundry refletem o compromisso da Microsoft em continuar inovando no campo da avaliação LLM. Nosso objetivo é fornecer as melhores ferramentas para ajudá-lo a avaliar a segurança de suas aplicações generativas de IA, mas reconhecemos que a avaliação eficaz é um trabalho contínuo em andamento.
A personalização das avaliações de segurança do Azure AI Foundry é atualmente limitada. Esperamos apenas que os usuários forneçam seu endpoint de aplicativo de IA generativo de entrada e nosso serviço produzirá um conjunto de dados estático rotulado para risco de conteúdo.
Finalmente, deve-se notar que este sistema não automatiza nenhuma ação ou tarefa, apenas fornece uma avaliação de suas saídas de aplicativos de IA generativa, que devem ser revisados por um tomador de decisão humano no loop antes de escolher implantar o aplicativo ou sistema de IA generativa em produção para usuários finais.

Desempenho do sistema

Práticas recomendadas para melhorar o desempenho do sistema

Ao contabilizar seu domínio, que pode tratar algum conteúdo com mais sensibilidade do que outros, considere ajustar o limite para calcular a taxa de defeitos.
Ao usar as avaliações de segurança automatizadas, às vezes pode haver um erro em seus rótulos gerados por IA para a gravidade de um risco de conteúdo ou seu raciocínio. Há uma coluna manual de feedback humano para permitir a validação human-in-the-loop dos resultados da avaliação de segurança automatizada.

Avaliação das avaliações de segurança do Azure AI Foundry

Métodos de avaliação

Para todos os tipos de risco de conteúdo suportados, verificamos internamente a qualidade comparando a taxa de correspondências aproximadas entre rotuladores humanos usando uma escala de gravidade de 0 a 7 e o anotador automatizado das avaliações de segurança também usando uma escala de gravidade de 0 a 7 nos mesmos conjuntos de dados. Para cada área de risco, tínhamos rotuladores humanos e um anotador automatizado com 500 textos em inglês, de volta única. Os rotuladores humanos e o anotador automatizado não usavam exatamente as mesmas versões das diretrizes de anotação; Embora as diretrizes do anotador automatizado decorressem das diretrizes para humanos, desde então elas divergiram em diferentes graus (com as diretrizes de ódio e injustiça tendo divergido mais). Apesar dessas diferenças leves a moderadas, acreditamos que ainda é útil compartilhar tendências gerais e insights de nossa comparação de correspondências aproximadas. Em nossas comparações, procuramos correspondências com tolerância de 2 níveis (em que o rótulo humano correspondia exatamente ao rótulo do anotador automatizado ou estava dentro de 2 níveis acima ou abaixo em gravidade), correspondências com tolerância de 1 nível e correspondências com tolerância de nível 0.

Resultados da avaliação

No geral, vimos uma alta taxa de correspondências aproximadas entre os riscos de automutilação e conteúdo sexual em todos os níveis de tolerância. No que se refere à violência e ao ódio e à injustiça, a taxa de correspondência aproximada entre os níveis de tolerância foi inferior. Esses resultados foram em parte devido ao aumento da divergência no conteúdo da diretriz de anotação para rotuladores humanos versus anotador automatizado, e em parte devido à maior quantidade de conteúdo e complexidade em diretrizes específicas.

Embora nossas comparações sejam entre entidades que usaram diretrizes de anotação ligeiramente a moderadamente diferentes (e, portanto, não são comparações padrão de acordo de modelo humano), essas comparações fornecem uma estimativa da qualidade que podemos esperar das avaliações de segurança do Azure AI Foundry, dados os parâmetros dessas comparações. Especificamente, analisamos apenas amostras em inglês, então nossas descobertas podem não generalizar para outros idiomas. Além disso, cada amostra de conjunto de dados consistiu em apenas um turno e, portanto, mais experimentos são necessários para verificar a generalizabilidade de nossos resultados de avaliação para cenários de várias voltas (por exemplo, uma conversa de ida e volta, incluindo consultas de usuários e respostas do sistema). Os tipos de amostras usados nesses conjuntos de dados de avaliação também podem afetar grandemente a taxa de correspondência aproximada entre rótulos humanos e um anotador automatizado – se as amostras forem mais fáceis de rotular (por exemplo, se todas as amostras estiverem livres de riscos de conteúdo), podemos esperar que a taxa de correspondência aproximada seja maior. A qualidade dos rótulos humanos para uma avaliação também pode afetar a generalização de nossos achados.

Avaliando e integrando avaliações de segurança do Azure AI Foundry para seu uso

A medição e a avaliação de sua aplicação de IA generativa são uma parte crítica de uma abordagem holística para o gerenciamento de riscos de IA. As avaliações de segurança do Azure AI Foundry são complementares e devem ser usadas em conjunto com outras práticas de gerenciamento de risco de IA. Especialistas em domínio e revisores human-in-the-loop devem fornecer supervisão adequada ao usar avaliações de segurança assistidas por IA no ciclo de design, desenvolvimento e implantação de aplicativos generativos de IA. Você deve entender as limitações e os usos pretendidos das avaliações de segurança, tendo cuidado para não confiar nas saídas produzidas pelas avaliações de segurança assistidas por IA do Azure AI Foundry isoladamente.

Devido à natureza não determinística dos LLMs, você pode experimentar resultados falsos negativos ou positivos, como um alto nível de gravidade de conteúdo violento pontuado como "muito baixo" ou "baixo". Além disso, os resultados da avaliação podem ter significados diferentes para públicos diferentes. Por exemplo, as avaliações de segurança podem gerar um rótulo para "baixa" gravidade de conteúdo violento que pode não estar alinhado com a definição de um revisor humano de quão grave esse conteúdo violento específico pode ser. No portal do Azure AI Foundry, fornecemos uma coluna de comentários humanos com polegares para cima e polegares para baixo ao exibir os resultados da avaliação para mostrar quais instâncias foram aprovadas ou sinalizadas como incorretas por um revisor humano. Considere o contexto de como seus resultados podem ser interpretados para a tomada de decisões por outras pessoas com quem você pode compartilhar a avaliação e validar seus resultados de avaliação com o nível apropriado de escrutínio para o nível de risco no ambiente em que cada aplicativo de IA generativa opera.

Partilhar via