Atenuar possíveis danos

Concluído

Após determinar uma linha de base e uma maneira de medir a saída prejudicial gerada por uma solução, você pode adotar medidas para atenuar os possíveis danos e, quando apropriado, testar novamente o sistema modificado e comparar os níveis de danos com a linha de base.

A mitigação de possíveis danos em uma solução de IA generativa envolve uma abordagem em camadas, em que as técnicas de mitigação podem ser aplicadas em cada uma das quatro camadas, conforme mostrado aqui:

Diagrama mostrando as camadas de modelo, sistema de segurança, aplicativo e posicionamento de uma solução de IA generativa.

  1. Modelo
  2. Sistema de segurança
  3. Metaprompt e aterramento
  4. Experiência do usuário

1: A camada de modelo

A camada de modelo consiste em um ou mais modelos de IA generativa no centro da sua solução. Por exemplo, a solução pode ser criada em torno de um modelo como o GPT-4.

As mitigações que podem ser aplicadas na camada de modelo incluem:

  • Selecionar um modelo apropriado para o uso pretendido da solução. Por exemplo, embora o GPT-4 possa ser poderoso e versátil, em uma solução que precisa apenas classificar entradas de texto pequenas e específicas, um modelo mais simples pode fornecer a funcionalidade necessária com menor risco de geração de conteúdo prejudicial.
  • Fazer o ajuste de um modelo fundamental com os seus dados de treinamento para que assim as respostas geradas por ele sejam mais relevantes e tenham o seu cenário de solução como escopo.

2: A camada de sistema de segurança

A camada de sistema de segurança inclui configurações e funcionalidades no nível da plataforma que ajudam a atenuar danos. Por exemplo, o Estúdio de IA do Azure inclui suporte para filtros de conteúdo que aplicam critérios para suprimir prompts e respostas com base na classificação de conteúdo em quatro níveis de severidade (seguro, baixa, média e alta) para quatro categorias de danos potenciais (ódio, sexual, violência e automutilação).

Outras atenuações da camada do sistema de segurança podem incluir algoritmos de detecção de abuso para determinar se houve abuso sistemático da solução (por exemplo, por meio de grandes volumes de solicitações automatizadas de um bot) e notificações de alerta que habilitam uma resposta rápida a possíveis abusos do sistema ou comportamentos prejudiciais.

3: A camada de metaprompt e aterramento

A camada de metaprompt e de aterramento se concentra na construção de prompts que são enviados para o modelo. As técnicas de mitigação de danos que você pode aplicar nessa camada incluem:

  • Especificar metaprompts ou entradas do sistema que definem parâmetros comportamentais para o modelo.
  • Aplicar engenharia de prompt para adicionar dados de aterramento aos prompts de entrada, maximizando a probabilidade de uma saída relevante e não danosa.
  • Usando uma abordagem de geração aumentada de recuperação (RAG) para recuperar dados contextuais de fontes de dados confiáveis e incluí-los em prompts.

4: A camada de experiência do usuário

A camada de experiência do usuário inclui o aplicativo de software por meio do qual os usuários interagem com o modelo de IA generativa e a documentação ou outra garantia do usuário que descreve o uso da solução para seus usuários e stakeholders.

Projetar a interface do usuário do aplicativo para restringir entradas a assuntos ou tipos específicos ou aplicar a validação de entrada e saída pode atenuar o risco de respostas potencialmente prejudiciais.

A documentação e outras descrições de uma solução de IA generativa devem ser adequadamente transparentes sobre as funcionalidades e as limitações do sistema, os modelos nos quais ele se baseia e possíveis danos que nem sempre podem ser resolvidos pelas medidas de atenuação que você implementou.