Catálogo e Coleções de Modelos
O catálogo de modelos no estúdio de Aprendizado de Máquina do Azure é o hub para descobrir e usar uma ampla gama de modelos que permitem criar aplicativos de IA generativa. O catálogo de modelos apresenta centenas de modelos de fornecedores de modelos como o serviço Azure OpenAI, Mistral, Meta, Cohere, Nvidia, Hugging Face, incluindo modelos treinados pela Microsoft. Os modelos de fornecedores que não sejam a Microsoft são Produtos que não são da Microsoft, conforme definido nos Termos do Produto da Microsoft, e estão sujeitos aos termos fornecidos com o modelo.
Coleções de modelos
Os modelos são organizados por Coleções no catálogo de modelos. Existem três tipos de coleções no catálogo de modelos:
- Modelos selecionados pelo Azure AI: os modelos proprietários e de ponderação aberta de terceiros mais populares e empacotados e otimizados para funcionarem perfeitamente na plataforma do Azure AI. O uso desses modelos está sujeito aos termos de licença do provedor do modelo fornecidos com o modelo. Quando implementado no Azure Machine Learning, a disponibilidade do modelo está sujeita ao SLA do Azure aplicável e a Microsoft fornece suporte para problemas de implementação. Modelos de parceiros como Meta, NVIDIA, Mistral AI são exemplos de modelos disponíveis na coleção "Curated by Azure AI" no catálogo. Estes modelos podem ser identificados por uma marca de verificação verde nos mosaicos de modelos no catálogo ou pode filtrar pela coleção "Selecionados pelo Azure AI".
- Modelos do Azure OpenAI, disponíveis exclusivamente no Azure: modelos emblemáticos do Azure OpenAI através da coleção 'Azure OpenAI' através de uma integração com o Serviço OpenAI do Azure. Estes modelos são suportados pela Microsoft e o uso dos mesmos está sujeito aos termos do produto e ao SLA do Azure OpenAI Service.
- Modelos abertos do hub Hugging Face: Centenas de modelos do hub HuggingFace são acessíveis através da coleção 'Hugging Face' para inferência em tempo real com endpoints online. O Hugging Face cria e mantém modelos disponibilizados na coleção Hugging Face. Aceda ao Fórum da HuggingFace ou contacte o Suporte da HuggingFace para obter ajuda. Saiba mais sobre como implementar modelos do Hugging Face.
Sugerindo adições ao catálogo de modelos: você pode enviar uma solicitação para adicionar um modelo ao catálogo de modelos usando este formulário.
Visão geral dos recursos do catálogo de modelos
Para obter informações sobre os modelos do Azure OpenAI, consulte Azure OpenAI Service.
Para modelos selecionados pela IA do Azure e modelos abertos do hub Hugging Face, alguns deles podem ser implantados com uma opção de computação gerenciada, e alguns deles estão disponíveis para serem implantados usando APIs sem servidor com cobrança pré-paga. Esses modelos podem ser descobertos, comparados, avaliados, ajustados (quando suportados) e implantados em escala e integrados em seus aplicativos de IA generativa com segurança de nível empresarial e governança de dados.
- Descubra: revise cartões de modelo, experimente a inferência de exemplo e procure exemplos de código para avaliar, ajustar ou implantar o modelo.
- Comparar: compare benchmarks entre modelos e conjuntos de dados disponíveis no setor para avaliar qual deles atende ao seu cenário de negócios.
- Avaliar: avalie se o modelo é adequado para sua carga de trabalho específica, fornecendo seus próprios dados de teste. As métricas de avaliação facilitam a visualização do desempenho do modelo selecionado no seu cenário.
- Ajuste fino: personalize modelos ajustáveis usando seus próprios dados de treinamento e escolha o melhor modelo comparando métricas em todos os seus trabalhos de ajuste fino. As otimizações integradas aceleram o ajuste fino e reduzem a memória e a computação necessárias para o ajuste fino.
- Implantar: implante modelos pré-treinados ou modelos ajustados perfeitamente para inferência. Os modelos que podem ser implantados na computação gerenciada também podem ser baixados.
Implantação do modelo: computação gerenciada e API sem servidor (paga conforme o uso)
O Catálogo de Modelos oferece duas maneiras distintas de implementar modelos do catálogo para utilizar: computação gerida e APIs sem servidor. As opções de implementação disponíveis para cada modelo variam; saiba mais sobre os recursos das opções de implementação e as opções disponíveis para modelos específicos nas tabelas abaixo. Saiba mais sobre o processamento de dados com as opções de implementação.
Funcionalidades | Computação gerida | API sem servidor (pay as you go) |
---|---|---|
Experiência de implementação e faturação | As ponderações de modelo são implementadas em máquinas virtuais dedicadas com pontos finais online geridos. O ponto final online gerido, que pode ter uma ou mais implementações, disponibiliza uma API REST para inferência. São-lhe cobradas as horas principais da Máquina Virtual usadas pelas implementações. | O acesso aos modelos é feito por meio de uma implementação que aprovisiona uma API para aceder aos mesmos. A API fornece acesso ao modelo alojado num conjunto de GPU central, gerido pela Microsoft, para inferência. Este modo de acesso é denominado "Modelos como Serviço". São-lhe cobradas as entradas e saídas para as APIs, geralmente em tokens; as informações de preços são fornecidas antes da implementação. |
Autenticação de API | Chaves e Autenticação com Microsoft Entra ID. Mais informações. | Apenas chaves. |
Segurança dos Conteúdos | Use as APIs do serviço de Segurança de Conteúdos do Azure. | Os filtros da Segurança de Conteúdos do Azure AI estão disponíveis integrados nas APIs de inferência. Os filtros de Segurança de Conteúdos do Azure AI podem ser cobrados separadamente. |
Isolamento da rede | Rede Virtual Gerida com pontos Finais Online. Mais informações. |
Opções de implementação
Modelo | Computação gerida | API sem servidor (pay as you go) |
---|---|---|
Modelos da família Llama | Llama-3.3-70B-Instruir Lama 2-7b Llama-2-7b-bate-papo Lama-2-13b Llama-2-13b-bate-papo Lama-2-70b Llama-2-70b-bate-papo Llama-3-8B-Instruir Llama-3-70B-Instruir Lama-3-8B Llama-3-70B |
Llama-3.3-70B-Instruir Llama-3-70B-Instruir Llama-3-8B-Instruir Lama 2-7b Llama-2-7b-bate-papo Lama-2-13b Llama-2-13b-bate-papo Lama-2-70b Llama-2-70b-chat |
Modelos da família Mistral | mistralai-Mixtral-8x22B-v0-1 mistralai-Mixtral-8x22B-Instruir-v0-1 mistral-comunidade-Mixtral-8x22B-v0-1 mistralai-Mixtral-8x7B-v01 mistralai-Mistral-7B-Instruir-v0-2 mistralai-Mistral-7B-v01 mistralai-Mixtral-8x7B-Instruir-v01 mistralai-Mistral-7B-Instruct-v01 |
Mistral-grande (2402) Mistral-grande (2407) Mistral-pequeno Ministral-3B Mistral-Nemo |
Modelos da família Cohere | Não disponível | Cohere-comando-r-plus-08-2024 Cohere-comando-r-08-2024 Cohere-command-r-plus Cohere-command-r Cohere-embed-v3-inglês Cohere-embed-v3-multilíngue Cohere-rerank-v3-inglês Cohere-rerank-v3-multilíngue |
JAIS | Não disponível | jais-30b-bate-papo |
Modelos da família Phi-3 | Phi-3-mini-4k-Instruir Phi-3-mini-128k-Instruir Phi-3-small-8k-Instruir Phi-3-small-128k-Instruir Phi-3-medium-4k-instruir Phi-3-medium-128k-instruir Phi-3-vision-128k-Instruir Phi-3.5-mini-Instruir Phi-3.5-visão-Instruir Phi-3.5-MoE-Instruir |
Phi-3-mini-4k-Instruir Phi-3-mini-128k-Instruir Phi-3-small-8k-Instruir Phi-3-small-128k-Instruir Phi-3-medium-4k-instruir Phi-3-medium-128k-instruir Phi-3.5-mini-Instruir Phi-3.5-visão-Instruir Phi-3.5-MoE-Instruir |
Nixtla | Não disponível | TimeGEN-1 |
Outros modelos | Disponível | Não disponível |
Computação gerida
A capacidade de implantar modelos com computação gerenciada se baseia nos recursos de plataforma do Aprendizado de Máquina do Azure para permitir a integração perfeita, em todo o ciclo de vida do GenAIOps (às vezes chamado de LLMOps), da ampla coleção de modelos no catálogo de modelos.
Como os modelos são disponibilizados para computação gerida?
Os modelos são disponibilizados através de registos do Azure Machine Learning que permitem a primeira abordagem de ML para alojar e distribuir recursos de Machine Learning, como ponderações de modelos, runtimes de contentores para executar os modelos, pipelines para avaliar e ajustar os modelos e conjuntos de dados para referências e exemplos. Estes Registos de ML baseiam-se numa infraestrutura altamente escalável e pronta para a empresa que:
Fornece artefactos de modelo de acesso de baixa latência para todas as regiões do Azure com replicação geográfica incorporada.
Suporta requisitos de segurança empresarial como limitar o acesso a modelos com o Azure Policy e a implementação de forma segura com redes virtuais geridas.
Avalie e ajuste modelos implantados com computação gerenciada
Pode avaliar e ajustar a coleção "Organizado por Azure AI" no Azure Machine Learning utilizando os Pipelines do Azure Machine Learning. Pode optar por trazer o seu próprio código de avaliação e otimização e aceder apenas aos pesos de modelo ou utilizar componentes do Azure Machine Learning que oferecem recursos integrados de avaliação e otimização. Saiba mais seguindo esta ligação.
Implante modelos para inferência com computação gerenciada
Os modelos disponíveis para implantação com computação gerenciada podem ser implantados em pontos de extremidade online do Azure Machine Learning para inferência em tempo real ou podem ser usados para inferência em lote do Azure Machine Learning para processar seus dados em lote. A implantação em computação gerenciada exige que você tenha uma cota de Máquina Virtual em sua Assinatura do Azure para as SKUs específicas necessárias para executar o modelo de forma otimizada. Alguns modelos permitem que você implante uma cota compartilhada temporariamente para testar o modelo. Saiba mais sobre a implantação de modelos:
- Implante modelos Meta Llama
- Implantar modelos abertos criados pela IA do Azure
- Implante modelos Hugging Face
Criar aplicações de IA Generativa com computação gerida
O fluxo dos pedidos oferece recursos para prototipar, experimentar, iterar e implementar as suas aplicações de IA. Pode usar modelos implementados na computação gerida no Fluxo de Pedidos com a ferramenta Open Model LLM. Também pode usar a API REST exposta pelas computações geridas em ferramentas de LLM populares, como LangChain, com a extensão Azure Machine Learning.
Segurança de conteúdo para modelos implementados com computação gerida
O serviço Azure AI Content Safety (AACS) está disponível para uso com modelos implantados para computação gerenciada para rastrear várias categorias de conteúdo prejudicial, como conteúdo sexual, violência, ódio e automutilação, e ameaças avançadas, como deteção de risco de jailbreak e deteção de texto de material protegido. Você pode consultar este bloco de anotações para integração de referência com o AACS para Llama 2 ou usar a ferramenta Segurança de Conteúdo (Texto) no Prompt Flow para passar respostas do modelo para o AACS para triagem. Você será cobrado separadamente de acordo com os preços da AACS por esse uso.
Trabalhar com modelos que não estão no catálogo de modelos
Para modelos não disponíveis no catálogo de modelos, o Azure Machine Learning fornece uma plataforma aberta e extensível para trabalhar com modelos de sua escolha. Você pode trazer um modelo com qualquer estrutura ou tempo de execução usando os recursos de plataforma aberta e extensível do Azure Machine Learning, como ambientes do Azure Machine Learning para contêineres que podem empacotar estruturas e tempos de execução e pipelines do Azure Machine Learning para código para avaliar ou ajustar os modelos. Consulte este bloco de anotações para obter uma referência de exemplo para importar modelos e trabalhar com os tempos de execução e pipelines internos.
APIs sem servidor com faturamento pré-pago
Certos modelos no catálogo de modelos podem ser implantados como APIs sem servidor com faturamento pré-pago; esse método de implantação é chamado de Models-as-a Service (MaaS). Os modelos disponíveis por meio do MaaS são hospedados em infraestrutura gerenciada pela Microsoft, o que permite o acesso baseado em API ao modelo do provedor de modelos. O acesso baseado em API pode reduzir drasticamente o custo de acesso a um modelo e simplificar significativamente a experiência de provisionamento. A maioria dos modelos MaaS vem com preços baseados em tokens.
Como os modelos de terceiros são disponibilizados no MaaS?
Os modelos disponíveis para implementação como APIs sem servidor com faturação pay-as-you-go são oferecidos pelo fornecedor de modelos, mas alojados na infraestrutura do Azure gerida pela Microsoft e acedidos através de API. Os provedores de modelo definem os termos de licença e definem o preço de uso de seus modelos, enquanto o serviço Azure Machine Learning gerencia a infraestrutura de hospedagem, disponibiliza as APIs de inferência e atua como processador de dados para prompts enviados e saída de conteúdo por modelos implantados via MaaS. Saiba mais sobre o processamento de dados para MaaS no artigo sobre privacidade de dados.
Pague pelo uso do modelo no MaaS
A experiência de descoberta, assinatura e consumo para modelos implantados por meio de MaaS está no portal do Azure AI Foundry e no estúdio do Azure Machine Learning. Os usuários aceitam os termos de licença para uso dos modelos e as informações de preços para consumo são fornecidas durante a implantação. Os modelos de fornecedores terceiros são faturados através do Azure Marketplace, de acordo com os Termos de Utilização do Mercado Comercial, e os modelos da Microsoft são faturados utilizando os contadores do Azure como Serviços de Consumo de Primeira Parte. Conforme descrito nos Termos do Produto, os Serviços de Consumo de Primeira Parte são adquiridos usando medidores do Azure, mas não estão sujeitos aos termos de serviço do Azure, e o uso desses modelos está sujeito aos termos de licença fornecidos.
Implantar modelos para inferência por meio de MaaS
A implantação de um modelo por meio do MaaS permite que os usuários tenham acesso a APIs de inferência prontas para uso sem a necessidade de configurar a infraestrutura ou provisionar GPUs, economizando tempo e recursos de engenharia. Essas APIs podem ser integradas com várias ferramentas LLM e o uso é cobrado conforme descrito na seção anterior.
Ajuste os modelos através do MaaS com o Pay-as-you-go
Para modelos que estão disponíveis por meio de MaaS e suportam ajuste fino, os usuários podem aproveitar o ajuste fino hospedado com faturamento pré-pago para personalizar os modelos usando os dados que eles fornecem. Para obter mais informações, consulte Ajustar um modelo Llama 2 no portal do Azure AI Foundry.
RAG com modelos implantados através de MaaS
O Azure AI Foundry permite que os usuários usem índices vetoriais e geração aumentada de recuperação. Os modelos que podem ser implantados como APIs sem servidor podem ser usados para gerar incorporações e inferências com base em dados personalizados para gerar respostas específicas para seu caso de uso. Para obter mais informações, consulte Recuperação de geração aumentada e índices.
Disponibilidade regional de ofertas e modelos
A faturação PPay-as-you-go está disponível apenas para utilizadores cuja subscrição do Azure pertença a uma conta de faturação num país/região onde o fornecedor de modelos disponibilizou a oferta. Se a oferta estiver disponível na região relevante, o usuário deverá ter um Hub/Projeto na região do Azure onde o modelo está disponível para implantação ou ajuste fino, conforme aplicável. Consulte Disponibilidade de região para modelos em pontos de extremidade de API sem servidor para obter informações detalhadas.
Segurança de conteúdo para modelos implementados via MaaS
Importante
Esta funcionalidade está atualmente em pré-visualização pública. Esta versão de pré-visualização é fornecida sem um contrato de nível de serviço e não a recomendamos para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas.
Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.
Para modelos de linguagem implantados por meio de APIs sem servidor, a IA do Azure implementa uma configuração padrão de filtros de moderação de texto do Azure AI Content Safety que detetam conteúdo nocivo, como conteúdo de ódio, automutilação, sexual e violento. Para saber mais sobre filtragem de conteúdo (visualização), consulte Categorias de danos no Azure AI Content Safety.
Gorjeta
A filtragem de conteúdo (visualização) não está disponível para determinados tipos de modelo implantados por meio de APIs sem servidor. Esses tipos de modelo incluem modelos de incorporação e modelos de séries temporais.
A filtragem de conteúdo (visualização) ocorre de forma síncrona à medida que o serviço processa prompts para gerar conteúdo. Você pode ser cobrado separadamente de acordo com os preços do Azure AI Content Safety para esse uso. Você pode desativar a filtragem de conteúdo (visualização) para pontos de extremidade sem servidor individuais:
- No momento em que você implanta um modelo de idioma pela primeira vez
- Mais tarde, selecionando a opção de filtragem de conteúdo na página de detalhes da implantação
Suponha que você decida usar uma API diferente da API de Inferência de Modelo de IA do Azure para trabalhar com um modelo implantado por meio de uma API sem servidor. Nessa situação, a filtragem de conteúdo (visualização) não é habilitada, a menos que você a implemente separadamente usando o Azure AI Content Safety.
Para começar a usar o Azure AI Content Safety, consulte Guia de início rápido: analisar conteúdo de texto. Se você não usar a filtragem de conteúdo (visualização) ao trabalhar com modelos implantados por meio de APIs sem servidor, correrá um risco maior de expor os usuários a conteúdo prejudicial.
Isolamento de rede para modelos implantados por meio de APIs sem servidor
Os pontos de extremidade para modelos implantados como APIs sem servidor seguem a configuração do sinalizador de acesso à rede pública (PNA) do espaço de trabalho no qual a implantação existe. Para proteger seu ponto de extremidade MaaS, desative o sinalizador PNA em seu espaço de trabalho. Você pode proteger a comunicação de entrada de um cliente para seu ponto de extremidade usando um ponto de extremidade privado para o espaço de trabalho.
Para definir o sinalizador PNA para o espaço de trabalho:
- Aceda ao portal do Azure.
- Pesquise o Azure Machine Learning e selecione seu espaço de trabalho na lista de espaços de trabalho.
- Na página Visão geral, use o painel de navegação esquerdo para ir para Configurações>de rede.
- Na guia Acesso público, você pode definir configurações para o sinalizador de acesso à rede pública.
- Guardar as suas alterações. Suas alterações podem levar até cinco minutos para serem propagadas.
Limitações
- Se você tiver um espaço de trabalho com um ponto de extremidade privado criado antes de 11 de julho de 2024, os novos pontos de extremidade MaaS adicionados a esse espaço de trabalho não seguirão sua configuração de rede. Em vez disso, você precisa criar um novo ponto de extremidade privado para o espaço de trabalho e criar novas implantações de API sem servidor no espaço de trabalho para que as novas implantações possam seguir a configuração de rede do espaço de trabalho.
- Se você tiver um espaço de trabalho com implantações MaaS criadas antes de 11 de julho de 2024 e habilitar um ponto de extremidade privado nesse espaço de trabalho, as implantações MaaS existentes não seguirão a configuração de rede do espaço de trabalho. Para que as implantações de API sem servidor no espaço de trabalho sigam a configuração do espaço de trabalho, você precisa criar as implantações novamente.
- Atualmente , o suporte On Your Data não está disponível para implantações MaaS em espaços de trabalho privados, uma vez que os espaços de trabalho privados têm o sinalizador PNA desativado.
- Qualquer alteração na configuração da rede (por exemplo, ativar ou desativar o sinalizador PNA) pode levar até cinco minutos para ser propagada.