Como configurar os filtros de conteúdo com o Serviço OpenAI do Azure
O sistema de filtragem de conteúdo integrado ao Serviço OpenAI do Azure é executado junto com os modelos principais, incluindo os modelos de geração de imagem DALL-E. Ele usa um conjunto de modelos de classificação de várias classes para detectar quatro categorias de conteúdo nocivo (violência, ódio, sexual e automutilação) em quatro níveis de gravidade, respectivamente (seguro, baixo, médio e alto), e classificadores binários opcionais para detectar o risco de violação de cadeias, texto existente e código nos repositórios públicos. A configuração de filtragem de conteúdo padrão é definida para filtrar no limite de gravidade médio para todas as quatro categorias de danos de conteúdo para prompts e conclusões. Isso significa que o conteúdo detectado no nível de gravidade médio ou alto é filtrado, enquanto o conteúdo detectado no nível de gravidade baixo ou seguro não é filtrado pelos filtros de conteúdo. Saiba mais sobre as categorias de conteúdo, os níveis de gravidade e o comportamento do sistema de filtragem de conteúdo aqui. A detecção de risco de jailbreak e os modelos de texto e código protegidos são opcionais e desativados por padrão. Para modelos de código e texto de material protegido e jailbreak, o recurso de configurabilidade permite que todos os clientes ativem e desativem os modelos. Os modelos estão desativados por padrão e podem ser ativados de acordo com seu cenário. Alguns modelos devem estar ativados para determinados cenários manterem a cobertura no Compromisso de Direitos Autorais do Cliente.
Observação
Todos os clientes têm a capacidade de modificar os filtros de conteúdo e configurar os limites de gravidade (baixo, médio, alto). A aprovação é necessária para desativar parcial ou totalmente os filtros de conteúdo. Os clientes gerenciados só podem solicitar o controle total da filtragem de conteúdo por meio deste formulário: Revisão de acesso limitado do OpenAI do Azure: Filtros de Conteúdo Modificados. No momento, não é possível se tornar um cliente gerenciado.
Os filtros de conteúdo podem ser configurados no nível do recurso. Uma vez que uma nova configuração é criada, ela pode ser associada a uma ou mais implantações. Para obter mais informações sobre a implantação do modelo, consulte o Guia de implantação de recursos.
Pré-requisitos
- Você precisa ter um recurso de OpenAI do Azure e uma implantação de LLM (modelo de linguagem grande) para configurar filtros de conteúdo. Siga nosso início rápido para começar.
Entender a configurabilidade do filtro de conteúdo
O Serviço OpenAI do Azure inclui configurações de segurança padrão aplicadas a todos os modelos, excluindo o Whisper do OpenAI do Azure. Essas configurações fornecem uma experiência responsável por padrão, incluindo modelos de filtragem de conteúdo, listas de bloqueio, transformação de prompt, credenciais de conteúdo e outros. Leia mais sobre isso aqui.
Todos os clientes também podem configurar filtros de conteúdo e criar políticas de segurança personalizadas adaptadas aos requisitos de caso de uso. O recurso de configurabilidade permite que os clientes ajustem as configurações, separadamente para prompts e conclusões, para filtrar o conteúdo de cada categoria de conteúdo em diferentes níveis de gravidade, conforme descrito na tabela abaixo. O conteúdo detectado no nível de gravidade "seguro" é rotulado em anotações, mas não está sujeito a filtragem e não é configurável.
Gravidade filtrada | Configurável para prompts | Configurável para conclusões | Descrições |
---|---|---|---|
Baixo, médio ou alto | Sim | Sim | Configuração de filtragem mais rigorosa. O conteúdo detectado nos níveis de gravidade baixo, médio e alto é filtrado. |
Médio, alto | Sim | Yes | O conteúdo detectado no nível de severidade baixo não é filtrado, enquanto o conteúdo nos níveis médio e alto é filtrado. |
Alto | Sim | Yes | O conteúdo detectado nos níveis de gravidade baixo e médio não será filtrado. Somente o conteúdos com nível de gravidade alto serão filtrados. |
Nenhum filtro | Se aprovado1 | Se aprovado1 | nenhum conteúdo será filtrado, independentemente do nível de gravidade detectado. Exige aprovação1. |
Anotar somente | Se aprovado1 | Se aprovado1 | Desabilita a funcionalidade de filtro para que o conteúdo não seja bloqueado, mas as anotações são retornadas por meio da resposta à API. Exige aprovação1. |
1 Para modelos de OpenAI do Azure, somente os clientes aprovados para filtragem de conteúdo modificado têm o controle completo de filtragem de conteúdo e podem desativar os filtros de conteúdo. Aplique filtros de conteúdo modificados por meio deste formulário: Revisão de acesso limitado do OpenAI do Azure: filtros de conteúdo modificados. Para clientes do Azure Governamental, solicite filtros de conteúdo modificados por meio deste formulário: Azure Governamental – Solicitar filtragem de conteúdo modificada para o Serviço OpenAI do Azure.
Filtros de conteúdo configuráveis para entradas (prompts) e saídas (conclusões) estão disponíveis para os seguintes modelos do Azure OpenAI:
- Série de modelos GPT
- GPT-4 Turbo com Visão GA* (
turbo-2024-04-09
) - GPT-4o
- GPT-4o mini
- DALL-E 2 e 3
Os filtros de conteúdo configuráveis não estão disponíveis para
- o1-preview
- o1-mini
*Disponível apenas para o GPT-4 Turbo Vision em disponibilidade geral, não se aplica à versão prévia do GPT-4 Turbo Vision
As configurações de filtragem de conteúdo são criadas em um Recurso no Estúdio de IA do Azure e podem ser associadas a Implantações. Saiba mais sobre configurabilidade aqui.
Os clientes são responsáveis por garantir que os aplicativos que integram o OpenAI do Azure estejam em conformidade com o Código de conduta.
Entender outros filtros
Você pode configurar as categorias de filtro a seguir, além dos filtros de categoria de danos padrão.
Categoria de filtro | Status | Configuração padrão | Aplicado ao prompt ou à conclusão? | Descrição |
---|---|---|---|---|
Prompt Shields para ataques diretos (jailbreak) | GA | Ativado | Prompt de usuário | Filtra/anota os prompts do usuário que podem apresentar um risco de jailbreak. Para obter mais informações sobre anotações, acesse Filtragem de conteúdo do Serviço OpenAI do Azure. |
Prompt Shields para ataques indiretos | GA | Ativado | Prompt de usuário | Filtre/anote ataques indiretos, também conhecidos como ataques de prompt indireto ou ataques de injeção de prompt entre domínios, uma vulnerabilidade potencial onde terceiros colocam instruções maliciosas dentro de documentos que o sistema de IA generativa pode acessar e processar. Obrigatório: Formatação de documento. |
Material protegido – código | GA | Ativado | Completion | Filtra o código protegido ou obtém as informações de citação e licença de exemplo em anotações para snippets de código que correspondem a quaisquer fontes de código público, alimentadas pelo GitHub Copilot. Para obter mais informações sobre como consumir anotações, confira oguia de conceitos de filtragem de conteúdo |
Material protegido – texto | GA | Ativado | Completion | Identifica e impede que o conteúdo de texto conhecido seja exibido na saída do modelo (por exemplo, letras de música, receitas e conteúdo da Web selecionado). |
Fundamentação* | Visualizar | Desativado | Completion | Detecta se as respostas de texto de grandes modelos de linguagem (LLMs) são baseadas nos materiais de origem fornecidos pelos usuários. A falta de fundamentação refere-se a casos em que os LLMs produzem informações que não são factuais ou são imprecisas em relação ao que estava presente nos materiais de origem. |
*Requer a inserção de documentos no seu prompt. Ler Mais.
Configurar filtros de conteúdo com o Estúdio de IA do Azure
As etapas a seguir mostram como definir uma configuração de filtragem de conteúdo personalizada para seu recurso OpenAI do Azure dentro do Estúdio de IA. Para obter diretrizes sobre filtros de conteúdo no seu projeto do Estúdio de IA do Azure, você pode ler mais em Filtragem de conteúdo do Estúdio de IA do Azure.
Vá para o Estúdio de IA do Azure e navegue até a página Proteção + segurança no menu à esquerda.
Prossiga para a guia Filtros de conteúdo e crie uma nova configuração de filtragem de conteúdo personalizada.
Isso leva à seguinte exibição de configuração, na qual você pode escolher um nome para a configuração da filtragem de conteúdo personalizada. Após inserir um nome, você poderá configurar os filtros de entrada (para prompts do usuário) e filtros de saída (para conclusão do modelo).
Para as quatro primeiras categorias de conteúdo, há três níveis de gravidade configuráveis: baixo, médio e alto. Você pode usar os controles deslizantes para definir o limite de severidade se determinar que o seu aplicativo ou cenário de uso exigem uma filtragem diferente dos valores padrão.
Alguns filtros, como Escudos de Prompt e Detecção de material protegido, permitem que você determine se o modelo deve anotar e/ou bloquear o conteúdo. Selecionar Apenas Anotar executa o modelo respectivo e retorna anotações por meio da resposta da API, mas não filtrará o conteúdo. Além de anotar, você também pode optar por bloquear o conteúdo.
Se o seu caso de uso foi aprovado para filtros de conteúdo modificados, você receberá controle total sobre as configurações de filtragem de conteúdo e poderá optar por desativar parcialmente ou totalmente a filtragem, ou habilitar apenas anotar para as categorias de danos ao conteúdo (violência, ódio, sexual e automutilação).
Você pode criar várias configurações de filtragem de conteúdo de acordo com suas necessidades.
Em seguida, para usar uma configuração de filtragem de conteúdo personalizada, atribua-a a uma ou mais implantações em seu recurso. Para fazer isso, vá para a guia Implantações e selecione a sua implantação. Em seguida, selecione Editar.
Na janela Atualizar implantação exibida, selecione o seu filtro personalizado no menu suspenso Filtro de conteúdo. Em seguida, selecione Salvar e fechar para aplicar a configuração selecionada à implantação.
Você também pode editar e excluir uma configuração de filtro de conteúdo, se necessário.
Antes de excluir uma configuração de filtragem de conteúdo, você precisará desatribuir e substituí-la de qualquer implantação na guia Implantações.
Relatar comentários de filtragem de conteúdo
Se você estiver enfrentando um problema de filtragem de conteúdo, selecione o botão Enviar Comentários no topo do playground. Isso está habilitado no playground Imagens, Chat e Conclusões.
Quando o diálogo aparecer, selecione o problema de filtragem de conteúdo apropriado. Inclua o máximo de detalhes possível em relação ao seu problema de filtragem de conteúdo, como o prompt específico e o erro de filtragem de conteúdo que você encontrou. Não inclua nenhuma informação privada ou confidenciais.
Para suporte, envie um tíquete de suporte.
Seguir as práticas recomendadas
Recomendamos que você informe suas decisões de configuração de filtragem de conteúdo por meio de um processo iterativo de identificação (por exemplo, teste de agrupamento vermelho, teste de estresse e análise) e medição para abordar os possíveis danos que são relevantes para um modelo, aplicativo e cenário de implantação específicos. Após a implementação de mitigações, como a filtragem de conteúdo, repita a medição para testar a eficácia. Recomendações e práticas recomendadas para IA Responsável para o OpenAI do Azure, com base no IA Responsável da Microsoft Standard, podem ser encontradas na Visão Geral de IA Responsável para o OpenAI do Azure.
Conteúdo relacionado
- Saiba mais sobre as práticas de IA Responsável para o OpenAI do Azure: Visão geral das práticas de IA Responsável para os modelos do OpenAI do Azure.
- Leia mais sobre as categorias de filtragem de conteúdo e níveis de gravidade com o Serviço OpenAI do Azure.
- Saiba mais sobre a formação de agrupamentos vermelhos em nosso artigo: Introdução aos modelos de linguagem grande (LLMs) do agrupamento vermelho.