Gerenciar IA – Processo para gerenciar IA
Este artigo descreve o processo organizacional para gerenciar cargas de trabalho de IA. Ele fornece recomendações para gerenciar cargas de trabalho de IA desde o desenvolvimento, implantação e operações. Uma gestão eficaz da IA requer uma abordagem estruturada desde o desenvolvimento até à implementação e operações contínuas. As empresas precisam de práticas padronizadas e monitoramento regular para evitar problemas como desvio de dados e modelos, garantindo que a IA permaneça precisa e confiável ao longo do tempo.
Gerencie operações de IA
O gerenciamento de operações de IA garante visibilidade e consistência em todo o ciclo de vida da IA. Ao adotar estruturas operacionais como MLOps, criar ambientes de sandbox e estabelecer pipelines de CI/CD, você pode supervisionar o desenvolvimento, o teste e a implantação.
Adotar um quadro operacional de IA. Implemente estruturas MLOps (operações de aprendizado de máquina) para fluxos de trabalho tradicionais de aprendizado de máquina e GenAIOps para cargas de trabalho de IA generativas. Essas estruturas operacionais organizam o ciclo de ponta a ponta para o desenvolvimento da IA. Cada estrutura afeta a abordagem e as ferramentas da equipe de carga de trabalho. Para obter mais informações, consulte MLOps e GenAIOps.
Padronize as ferramentas de desenvolvimento de IA. Defina e padronize o uso de SDKs e APIs para consistência entre as equipes de desenvolvimento. Ferramentas como o SDK do Azure para cargas de trabalho de IA fornecem bibliotecas e APIs otimizadas para dimensionar modelos de IA e integrá-los em aplicativos. Para IA generativa, padronize sua plataforma de IA e orquestradores, como Semantic Kernel, LangChain e Prompt Flow.
Use um ambiente de sandbox para experimentação de IA. Use um ambiente de sandbox para experimentação de modelos de IA. Você deseja consistência em ambientes de desenvolvimento, teste e prod. Portanto, o ambiente de sandbox deve ser distinto dos ambientes de desenvolvimento, teste e produção no ciclo de vida de desenvolvimento de IA. Se você alterar os modelos de implantação e governança entre ambientes de desenvolvimento, teste e prod, ele poderá ocultar e introduzir alterações significativas.
Estabeleça pipelines de integração contínua e entrega contínua para implantação. Certifique-se de que seus pipelines de dados abranjam verificações de qualidade de código, incluindo linting e análise estática. Os pipelines de dados também devem incluir testes unitários e de integração, bem como fluxos de experimentação e avaliação. Por fim, incorpore etapas de implantação de produção, como a promoção de versões para ambientes de teste e produção após aprovações manuais. Mantenha a separação entre modelos, fluxos de prompt e a interface do usuário do cliente para garantir que as atualizações de um componente não afetem outros. Cada fluxo deve ter seu próprio ciclo de vida para promoção independente.
Gerenciar a implantação de IA
O gerenciamento de implantação de IA consiste em definir quem pode implantar recursos de IA e quem governa esses endpoints. Uma abordagem estruturada, liderada por um centro de excelência em IA, ajuda as empresas a decidir se as equipes de carga de trabalho ou uma equipe central devem gerenciar recursos, equilibrando a velocidade de desenvolvimento com os requisitos de governança. O CdE da IA deve liderar os esforços para determinar a melhor abordagem.
Use o gerenciamento de equipe de carga de trabalho de recursos de IA para um desenvolvimento mais rápido. Quando as equipes de carga de trabalho gerenciam recursos de IA, elas têm autonomia para implantar e gerenciar recursos de IA dentro dos limites de suas políticas de governança. Use a Política do Azure para impor a governança de forma consistente em todos os ambientes de carga de trabalho. Crie e comunique políticas de IA que as equipes de carga de trabalho devem seguir para resolver quaisquer lacunas de governança. Por exemplo, crie políticas generativas de IA para impor configurações de filtro de conteúdo e impedir o uso de modelos não permitidos. Tornar essas políticas claramente conhecidas pelas equipes de carga de trabalho e auditar regularmente.
Figura 1. Gerenciamento de equipe de carga de trabalho de recursos de IA.
Usar uma gestão compartilhada de recursos de IA aumentou a governança de IA. Em uma abordagem de gerenciamento de IA compartilhada, uma equipe central gerencia recursos de IA para todas as cargas de trabalho de IA. Essa equipe implanta os principais recursos de IA e configura a segurança e a governança que todas as equipes de carga de trabalho usam. Use essa abordagem se quiser que uma única equipe controle as implantações e a governança de IA em todas as suas cargas de trabalho.
Figura 2. Gestão central da equipa de IA dos recursos de IA.
Gerenciar o compartilhamento de pontos finais de IA
O compartilhamento de pontos de extremidade de IA entre cargas de trabalho pode simplificar o gerenciamento, mas requer uma consideração cuidadosa dos requisitos de governança e modelo. As empresas só devem compartilhar endpoints dentro de uma única carga de trabalho com necessidades consistentes, pois o uso compartilhado entre diferentes necessidades pode complicar a governança e aumentar os custos.
Evite compartilhar pontos de extremidade de IA quando as necessidades de governança e modelo variam. Cargas de trabalho que exigem configurações de filtro de conteúdo diferentes, como governança de entrada e saída, não devem compartilhar um ponto de extremidade. Além disso, não compartilhe um único ponto de extremidade de IA se um modelo de IA diferente fornecer uma maneira mais econômica de atender aos requisitos de carga de trabalho.
Compartilhe pontos de extremidade de IA apenas dentro de uma única carga de trabalho. Compartilhar um ponto de extremidade de IA funciona melhor quando uma equipe de carga de trabalho tem vários aplicativos como parte da mesma carga de trabalho. O compartilhamento de pontos finais de IA fornece a menor quantidade de sobrecarga de gerenciamento e simplifica a implantação. Esses aplicativos devem compartilhar as mesmas necessidades de governança e de modelo de IA. O compartilhamento de pontos de extremidade pode fazer com que você atinja limites de taxa e limitações de cota. A maioria dos serviços do Azure tem limites por assinatura. Dentro de uma assinatura, cada região tem limites de cota.
Gerir modelos de IA
O gerenciamento de modelos de IA envolve a definição de estruturas de governança, monitoramento contínuo e reciclagem para manter o desempenho ao longo do tempo. Esse processo ajuda as empresas a alinhar modelos com padrões éticos, acompanhar o desempenho do modelo e garantir que os sistemas de IA permaneçam eficazes e alinhados com os objetivos de negócios.
Estabelecer uma estrutura de governança para a supervisão da IA. Crie um centro de excelência em IA (AI CoE) ou nomeie um líder de IA. Devem assegurar o cumprimento de normas responsáveis em matéria de IA. Eles devem tomar decisões sobre se os sistemas precisam ser ajustados com base nesses relatórios. Use o painel de IA responsável para gerar relatórios em torno das saídas do modelo.
Defina uma linha de base de medição de IA. Estabeleça uma linha de base de medição para garantir que os modelos de IA estejam alinhados com os objetivos de negócios e os padrões éticos. Use KPIs relacionados a princípios de IA responsáveis, como justiça, transparência e precisão. Mapeie esses KPIs para cargas de trabalho de IA. Por exemplo, em um chatbot de atendimento ao cliente, meça a equidade avaliando o desempenho do modelo em diferentes grupos demográficos. Para fazer essas medições, comece com as ferramentas usadas no painel de IA responsável.
Implementar monitorização contínua. As cargas de trabalho de IA podem mudar ao longo do tempo devido à evolução dos dados, atualizações de modelos ou mudanças no comportamento do usuário. Monitore modelos de IA, recursos de IA, dados de IA para garantir que essas cargas de trabalho permaneçam alinhadas com os KPIs. Realizar auditorias para avaliar os sistemas de IA em relação aos princípios e métricas de IA responsáveis definidos.
Identifique as causas dos problemas de desempenho. Identifique a origem do problema quando uma queda no desempenho ou na precisão for detetada monitorando a IA. Certifique-se de ter visibilidade em cada estágio da interação para isolar o problema e implementar ações corretivas mais rapidamente. Por exemplo, se um chatbot de atendimento ao cliente gerar respostas imprecisas, o monitoramento deve ajudá-lo a determinar se o erro está na criação do prompt ou na compreensão do contexto do modelo. Use ferramentas internas como o Azure Monitor e o Application Insights para identificar proativamente gargalos e anomalias de desempenho.
Acompanhe a aposentadoria do modelo. Acompanhe a desativação de modelos pré-treinados para evitar problemas de desempenho à medida que o suporte do fornecedor termina. Por exemplo, um modelo de IA generativa pode ser preterido, então você precisaria atualizá-lo para manter a funcionalidade. O portal do Azure AI Foundry mostra a data de desativação do modelo para todas as implantações.
Retreine os modelos de IA conforme necessário. Considere os modelos que se degradam ao longo do tempo devido a alterações nos dados. Agende um retreinamento regular com base no desempenho do modelo ou nas necessidades de negócios para garantir que o sistema de IA permaneça relevante. O retreinamento pode ser caro, portanto, avalie o custo do treinamento inicial e use esse custo para avaliar com que frequência você deve treinar novamente os modelos de IA. Mantenha o controle de versão para modelos e garanta um mecanismo de reversão para versões com baixo desempenho.
Estabeleça um processo de promoção do modelo. Use portas de qualidade para promover modelos treinados, ajustados e retreinados para ambientes mais altos com base em critérios de desempenho. Os critérios de desempenho são exclusivos para cada aplicação.
Gerencie os custos de IA
O gerenciamento de custos de IA requer uma compreensão clara das despesas relacionadas a recursos como computação, armazenamento e processamento de tokens. Você deve implementar práticas recomendadas de gerenciamento de custos, monitorar o uso e configurar alertas automatizados para evitar despesas inesperadas e otimizar a eficiência de recursos.
Siga as melhores práticas de gestão de custos para cada serviço. Cada serviço do Azure tem recursos específicos e práticas recomendadas que maximizam a otimização de custos. Familiarize-se com as seguintes orientações para planejar e gerenciar custos no Azure AI Foundry, Azure OpenAI Servicee Azure Machine Learning.
Monitorize e maximize a eficiência da faturação. Compreenda os pontos de interrupção de custos para evitar cobranças desnecessárias. Os exemplos incluem a plena utilização dos limiares de preço fixo para a geração de imagens ou o ajuste fino por hora. Rastreie seus padrões de uso, incluindo tokens por minuto (TPM) e solicitações por minuto (RPM), e ajuste os modelos e a arquitetura de acordo. Considere um modelo de faturamento baseado em compromisso para padrões de uso consistentes.
Configure alertas de custos automatizados. Use alertas de orçamento, notifique você sobre cobranças inesperadas e estabeleça estratégias de orçamento para controlar e prever suas despesas de IA.
Para aplicativos de IA generativa usando o Azure OpenAI, consulte estas recomendações de otimização de custos.
Gerenciar dados de IA
O gerenciamento eficaz de dados de IA se concentra em manter a precisão, integridade e sensibilidade dos dados durante todo o ciclo de vida da IA. Quando você seleciona conjuntos de dados de alta qualidade e protege pipelines de dados, sua organização pode garantir que os dados permaneçam confiáveis e em conformidade com as mudanças nos requisitos regulamentares.
Mantenha a precisão dos dados e faça a curadoria de conjuntos de dados dourados. Desenvolva um conjunto autorizado de dados usados para testes e validação regulares em ambos os tipos de IA. Faça a curadoria contínua desse conjunto de dados para garantir que ele reflita informações atualizadas e precisas.
Garanta a integridade do pipeline de dados. Desenvolva e mantenha pipelines de dados personalizados para garantir a integridade dos dados, desde a coleta de dados até o pré-processamento e armazenamento. Cada etapa do pipeline deve ser segura para manter o desempenho e a confiabilidade em ambos os tipos de aplicações de IA.
Gerencie as alterações de sensibilidade de dados. Entenda que a classificação de sensibilidade dos dados pode mudar ao longo do tempo. Talvez você queira reclassificar dados de baixa sensibilidade como altamente confidenciais devido a alterações comerciais ou regulatórias. Desenvolver processos para remoção ou substituição de dados sensíveis em sistemas downstream. O Microsoft Defender for Cloud e o Microsoft Purview podem ajudá-lo a rotular e gerenciar dados confidenciais. Esse processo começa com um bom catálogo de dados antes da ingestão de IA. Quando ocorrerem alterações, identifique todos os modelos ou sistemas que usam os dados confidenciais. Se possível, treine novamente os modelos de IA usando conjuntos de dados que excluam os dados confidenciais reclassificados.
Gerencie a continuidade de negócios de IA
A continuidade de negócios e a recuperação de desastres para IA envolvem a criação de implantações em várias regiões e o teste regular de planos de recuperação. Essas estratégias ajudam a garantir que os sistemas de IA permaneçam operacionais durante interrupções e minimizam o risco de interrupções prolongadas ou perda de dados.
Use implantações multirregionais para IA. Implemente implantações em várias regiões para garantir alta disponibilidade e resiliência para sistemas de IA generativos e não generativos. Essas estratégias minimizam o tempo de inatividade e garantem que os aplicativos críticos de IA permaneçam operacionais durante interrupções regionais ou falhas de infraestrutura. Certifique-se de implementar a redundância necessária para modelos treinados e ajustados para evitar a necessidade de retreinamento durante uma interrupção.
Teste e valide planos de recuperação de desastres regularmente. Execute testes regulares de planos de recuperação de desastres para verificar se você pode restaurar sistemas de IA generativos e não generativos de forma eficaz. Inclua testes de processos de restauração de dados e procedimentos de validação para garantir que todos os componentes de IA estejam funcionando corretamente após a recuperação. A validação regular garante que a organização esteja preparada para incidentes do mundo real e minimiza o risco de falhas durante a recuperação.
Gerencie e acompanhe alterações em sistemas de IA. Certifique-se de que todas as alterações em modelos, dados e configurações sejam gerenciadas por meio de sistemas de controle de versão, como o Git. Fazer isso é fundamental para rastrear modificações e garantir a capacidade de restaurar versões anteriores durante a recuperação. Para IA generativa e não generativa, a auditoria automatizada de alterações de modelo e sistema deve estar em vigor para que você possa identificar e reverter rapidamente alterações não planejadas.