Como usar a família de modelos Meta Llama com o estúdio Azure Machine Learning
Neste artigo, você aprenderá sobre a família de modelos Meta Llama (LLMs). Os modelos e ferramentas Meta Llama são uma coleção de modelos de raciocínio generativo de texto e imagem de IA pré-treinados e ajustados - variando em escala de SLMs (modelos 1B, 3B Base e Instruct) para inferência no dispositivo e borda - a LLMs de médio porte (modelos 7B, 8B e 70B Base e Instruct) e modelos de alto desempenho como Meta Llama 3.1 405B Instruct para geração de dados sintéticos e casos de uso de destilação.
Gorjeta
Veja nossos anúncios dos modelos da família Llama 3.2 da Meta, disponíveis agora no Catálogo de Modelos de IA do Azure através do blog da Meta e do Blog da Comunidade Tecnológica da Microsoft.
Consulte os seguintes exemplos do GitHub para explorar integrações com LangChain, LiteLLM, OpenAI e a API do Azure.
Importante
Esta funcionalidade está atualmente em pré-visualização pública. Esta versão de pré-visualização é fornecida sem um contrato de nível de serviço e não a recomendamos para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas.
Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.
Família de modelos Meta Llama
A família de modelos Meta Llama inclui os seguintes modelos:
A coleção Llama 3.2 de SLMs e modelos de raciocínio de imagem já está disponível. Em breve, o Llama 3.2 11B Vision Instruct e o Llama 3.2 90B Vision Instruct estarão disponíveis como um endpoint de API sem servidor via Models-as-a-Service. A partir de hoje, os seguintes modelos estarão disponíveis para implantação por meio de computação gerenciada:
- Lama 3,2 1B
- Lama 3,2 3B
- Lama 3.2 1B Instruir
- Llama 3.2 3B Instruir
- Guarda Lama 3 1B
- Llama Guarda 11B Visão
- Llama 3.2 11B Visão Instruir
- Llama 3.2 90B Vision Instruct estão disponíveis para implantação de computação gerenciada.
Pré-requisitos
Uma subscrição do Azure com um método de pagamento válido. As subscrições gratuitas ou de avaliação do Azure não funcionarão. Se você não tiver uma assinatura do Azure, crie uma conta paga do Azure para começar.
Um espaço de trabalho do Azure Machine Learning e uma instância de computação. Se você não tiver esses recursos, use as etapas no artigo Guia de início rápido: criar recursos do espaço de trabalho para criá-los. A oferta de implantação de modelo de API sem servidor para Meta Llama 3.1 e Llama 3 só está disponível com espaços de trabalho criados nestas regiões:
- E.U.A. Leste
- E.U.A. Leste 2
- E.U.A. Centro-Norte
- E.U.A. Centro-Sul
- E.U.A. Oeste
- EUA Oeste 3
- Suécia Central
Para obter uma lista das regiões disponíveis para cada um dos modelos que suportam implementações de ponto final de API sem servidor, consulte Disponibilidade regional para modelos em pontos finais de API sem servidor.
Os controlos de acesso baseado em funções (RBAC do Azure) são utilizados para conceder acesso às operações no Azure Machine Learning. Para executar os passos neste artigo, sua conta de utilizador deve ter atribuída a função de proprietário ou contribuinte para a subscrição do Azure. Em alternativa, pode ser atribuída à sua conta uma função personalizada com as seguintes permissões:
Na subscrição do Azure — para subscrever o espaço de trabalho na oferta do Azure Marketplace, uma vez para cada espaço de trabalho, por oferta:
Microsoft.MarketplaceOrdering/agreements/offers/plans/read
Microsoft.MarketplaceOrdering/agreements/offers/plans/sign/action
Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
Microsoft.Marketplace/offerTypes/publishers/offers/plans/agreements/read
Microsoft.SaaS/register/action
No grupo de recursos — para criar e utilizar o recurso SaaS:
Microsoft.SaaS/resources/read
Microsoft.SaaS/resources/write
No espaço de trabalho — para implementar pontos finais (a função de cientista de dados do Azure Machine Learning já contém essas permissões):
Microsoft.MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
Microsoft.MachineLearningServices/workspaces/serverlessEndpoints/*
Para obter mais informações sobre permissões, consulte Gerir o acesso a um espaço de trabalho do Azure Machine Learning.
Criar uma nova implantação
Para criar uma implantação:
Vá para o estúdio do Azure Machine Learning.
Selecione o espaço de trabalho no qual você deseja implantar seus modelos. Para usar a oferta de implantação de modelo pré-pago, seu espaço de trabalho deve pertencer a uma das regiões disponíveis listadas nos pré-requisitos deste artigo.
Escolha
Meta-Llama-3.1-405B-Instruct
implantar a partir do catálogo de modelos.Como alternativa, você pode iniciar a implantação acessando seu espaço de trabalho e selecionando Pontos>de extremidade>sem servidor Criar.
Na página Detalhes do , selecione Implantar e, em seguida, selecione API sem servidor com Segurança de Conteúdo do Azure AI.
Meta-Llama-3.1-405B-Instruct
No assistente de implantação, selecione o link para os Termos do Azure Marketplace para saber mais sobre os termos de uso. Você também pode selecionar a guia Detalhes da oferta do Marketplace para saber mais sobre os preços do modelo selecionado.
Se esta for a primeira vez que implementa o modelo na área de trabalho, tem de subscrever a sua área de trabalho para a oferta específica (por exemplo,
Meta-Llama-3.1-405B-Instruct
) do Azure Marketplace. Esta etapa requer que sua conta tenha as permissões de assinatura do Azure e as permissões de grupo de recursos listadas nos pré-requisitos. Cada espaço de trabalho tem a sua própria subscrição para a oferta específica do Azure Marketplace, que lhe permite controlar e monitorizar os gastos. Selecione Inscrever-se e Implantar.Nota
Subscrever uma área de trabalho numa oferta específica do Azure Marketplace (neste caso, Llama-3-70B) requer que a sua conta tenha acesso de Colaborador ou Proprietário ao nível da subscrição onde o projeto é criado. Como alternativa, sua conta de usuário pode receber uma função personalizada que tenha as permissões de assinatura do Azure e as permissões de grupo de recursos listadas nos pré-requisitos.
Depois de inscrever o espaço de trabalho para a oferta específica do Azure Marketplace, as implantações subsequentes da mesma oferta no mesmo espaço de trabalho não exigem assinatura novamente. Portanto, você não precisa ter as permissões de nível de assinatura para implantações subsequentes. Se esse cenário se aplicar a você, selecione Continuar para implantar.
Dê um nome à implantação. Esse nome se torna parte da URL da API de implantação. Essa URL deve ser exclusiva em cada região do Azure.
Selecione Implementar. Aguarde até que a implantação seja concluída e você seja redirecionado para a página de pontos de extremidade sem servidor.
Selecione o ponto de extremidade para abrir a página Detalhes.
Selecione a guia Teste para começar a interagir com o modelo.
Você também pode anotar a URL de destino e a chave secreta para chamar a implantação e gerar conclusão.
Você sempre pode encontrar os detalhes, a URL e as chaves de acesso do ponto de extremidade navegando até Pontos de extremidade sem servidor de pontos de extremidade de espaço de trabalho>>.
Para saber mais sobre o faturamento de modelos Meta Llama implantados como uma API sem servidor, consulte Considerações de custo e cota para modelos Meta Llama implantados como uma API sem servidor.
Consuma modelos Meta Llama como um serviço
Os modelos implantados como um serviço podem ser consumidos usando o chat ou a API de conclusão, dependendo do tipo de modelo implantado.
No espaço de trabalho, selecione Pontos de extremidade> sem servidor.
Localize e selecione a implantação que
Meta-Llama-3.1-405B-Instruct
você criou.Copie a URL de destino e os valores do token de chave .
Faça uma solicitação de API com base no tipo de modelo implantado.
- Para modelos de conclusão, como
Llama-3-8B
, use a<target_url>/v1/completions
API. - Para modelos de chat, como
Meta-Llama-3.1-405B-Instruct
o , use a/chat/completions
API.
Para obter mais informações sobre como usar as APIs, consulte a seção de referência .
- Para modelos de conclusão, como
Referência para modelos Meta Llama 3.1 implantados uma API sem servidor
Os modelos Llama aceitam a API de Inferência de Modelo de IA do Azure na rota ou uma API de Chat Llama na /v1/chat/completions
./chat/completions
Da mesma forma, as completações de texto podem ser geradas usando a API de Inferência de Modelo de IA do Azure na rota ou uma API de Conclusão de Llama na rota /completions
/v1/completions
O esquema da API de Inferência de Modelo do Azure AI está disponível no artigo Referência à conclusão de chats e é possível obter uma especificação da OpenAPI a partir do próprio ponto final.
API de conclusão
Use o método POST
para enviar a solicitação para a /v1/completions
rota:
Pedir
POST /v1/completions HTTP/1.1
Host: <DEPLOYMENT_URI>
Authorization: Bearer <TOKEN>
Content-type: application/json
Esquema de solicitação
Payload é uma cadeia de caracteres formatada JSON que contém os seguintes parâmetros:
Chave | Type | Predefinido | Description |
---|---|---|---|
prompt |
string |
Sem predefinição. Este valor deve ser especificado. | O prompt para enviar para o modelo. |
stream |
boolean |
False |
O streaming permite que os tokens gerados sejam enviados como eventos enviados apenas pelo servidor de dados sempre que estiverem disponíveis. |
max_tokens |
integer |
16 |
O número máximo de tokens a serem gerados na conclusão. A contagem de tokens do prompt plus max_tokens não pode exceder o comprimento de contexto do modelo. |
top_p |
float |
1 |
Uma alternativa à amostragem com temperatura, chamada amostragem de núcleo, onde o modelo considera os resultados dos tokens com top_p massa de probabilidade. Assim, 0,1 significa que apenas os tokens que compõem a massa de probabilidade superior de 10% são considerados. Geralmente recomendamos alterar top_p ou temperature , mas não ambos. |
temperature |
float |
1 |
A temperatura de amostragem a utilizar, entre 0 e 2. Valores mais altos significam que o modelo mostra de forma mais ampla a distribuição de tokens. Zero significa amostragem gananciosa. Recomendamos alterar este ou top_p , mas não ambos. |
n |
integer |
1 |
Quantas finalizações gerar para cada prompt. Nota: Como esse parâmetro gera muitas conclusões, ele pode consumir rapidamente sua cota de token. |
stop |
array |
null |
String ou uma lista de strings contendo a palavra onde a API para de gerar outros tokens. O texto retornado não conterá a sequência de parada. |
best_of |
integer |
1 |
Gera best_of finalizações do lado do servidor e retorna o "melhor" (aquele com a menor probabilidade de log por token). Os resultados não podem ser transmitidos. Quando usado com n o , best_of controla o número de candidatos concluídos e n especifica quantos devem retornar — best_of deve ser maior que n . Nota: Como esse parâmetro gera muitas conclusões, ele pode consumir rapidamente sua cota de token. |
logprobs |
integer |
null |
Um número que indica incluir as probabilidades de log nos logprobs tokens mais prováveis e nos tokens escolhidos. Por exemplo, se logprobs for 10, a API retorna uma lista dos 10 tokens mais prováveis. a API sempre retorna o logprob do token amostrado, portanto, pode haver até logprobs +1 elementos na resposta. |
presence_penalty |
float |
null |
Número entre -2,0 e 2,0. Valores positivos penalizam novos tokens com base em se eles aparecem no texto até agora, aumentando a probabilidade do modelo falar sobre novos tópicos. |
ignore_eos |
boolean |
True |
Se o token EOS deve ser ignorado e continuar gerando tokens depois que o token EOS for gerado. |
use_beam_search |
boolean |
False |
Se deve usar a pesquisa de feixe em vez de amostragem. Nesse caso, best_of deve ser maior do que 1 e temperature deve ser 0 . |
stop_token_ids |
array |
null |
Lista de IDs para tokens que, quando gerados, interrompem a geração de tokens. A saída retornada contém os tokens stop, a menos que os tokens stop sejam tokens especiais. |
skip_special_tokens |
boolean |
null |
Se deve ignorar tokens especiais na saída. |
Exemplo
Corpo
{
"prompt": "What's the distance to the moon?",
"temperature": 0.8,
"max_tokens": 512,
}
Esquema de resposta
A carga útil de resposta é um dicionário com os seguintes campos.
Chave | Tipo | Description |
---|---|---|
id |
string |
Um identificador exclusivo para a conclusão. |
choices |
array |
A lista de opções de conclusão que o modelo gerou para o prompt de entrada. |
created |
integer |
O carimbo de data/hora Unix (em segundos) de quando a conclusão foi criada. |
model |
string |
O model_id usado para conclusão. |
object |
string |
O tipo de objeto, que é sempre text_completion . |
usage |
object |
Estatísticas de utilização do pedido de conclusão. |
Gorjeta
No modo de streaming, para cada parte da resposta, finish_reason
é sempre null
, exceto a última que é encerrada por uma carga [DONE]
útil.
O choices
objeto é um dicionário com os seguintes campos.
Chave | Tipo | Description |
---|---|---|
index |
integer |
Índice de escolha. Quando best_of > 1, o índice nessa matriz pode não estar em ordem e pode não ser de 0 a n-1. |
text |
string |
Resultado da conclusão. |
finish_reason |
string |
A razão pela qual o modelo parou de gerar tokens: - stop : o modelo atingiu um ponto de paragem natural ou uma sequência de paragem fornecida. - length : se o número máximo de tokens tiver sido atingido. - content_filter : Quando a RAI modera e a CMP força a moderação. - content_filter_error : um erro durante a moderação e não foi capaz de tomar uma decisão sobre a resposta. - null : Resposta da API ainda em andamento ou incompleta. |
logprobs |
object |
As probabilidades de log dos tokens gerados no texto de saída. |
O usage
objeto é um dicionário com os seguintes campos.
Chave | Type | valor |
---|---|---|
prompt_tokens |
integer |
Número de tokens no prompt. |
completion_tokens |
integer |
Número de tokens gerados na conclusão. |
total_tokens |
integer |
Total de tokens. |
O logprobs
objeto é um dicionário com os seguintes campos:
Chave | Type | valor |
---|---|---|
text_offsets |
array de integers |
A posição ou índice de cada token na saída de conclusão. |
token_logprobs |
array de float |
Selecionado logprobs do dicionário na top_logprobs matriz. |
tokens |
array de string |
Tokens selecionados. |
top_logprobs |
array de dictionary |
Matriz de dicionário. Em cada dicionário, a chave é o token e o valor é o prob. |
Exemplo
{
"id": "12345678-1234-1234-1234-abcdefghijkl",
"object": "text_completion",
"created": 217877,
"choices": [
{
"index": 0,
"text": "The Moon is an average of 238,855 miles away from Earth, which is about 30 Earths away.",
"logprobs": null,
"finish_reason": "stop"
}
],
"usage": {
"prompt_tokens": 7,
"total_tokens": 23,
"completion_tokens": 16
}
}
API de bate-papo
Use o método POST
para enviar a solicitação para a /v1/chat/completions
rota:
Pedir
POST /v1/chat/completions HTTP/1.1
Host: <DEPLOYMENT_URI>
Authorization: Bearer <TOKEN>
Content-type: application/json
Esquema de solicitação
Payload é uma cadeia de caracteres formatada JSON que contém os seguintes parâmetros:
Chave | Type | Predefinido | Description |
---|---|---|---|
messages |
string |
Sem predefinição. Este valor deve ser especificado. | A mensagem ou o histórico de mensagens a serem usadas para solicitar o modelo. |
stream |
boolean |
False |
O streaming permite que os tokens gerados sejam enviados como eventos enviados apenas pelo servidor de dados sempre que estiverem disponíveis. |
max_tokens |
integer |
16 |
O número máximo de tokens a serem gerados na conclusão. A contagem de tokens do prompt plus max_tokens não pode exceder o comprimento de contexto do modelo. |
top_p |
float |
1 |
Uma alternativa à amostragem com temperatura, chamada amostragem de núcleo, onde o modelo considera os resultados dos tokens com top_p massa de probabilidade. Assim, 0,1 significa que apenas os tokens que compõem a massa de probabilidade superior de 10% são considerados. Geralmente recomendamos alterar top_p ou temperature , mas não ambos. |
temperature |
float |
1 |
A temperatura de amostragem a utilizar, entre 0 e 2. Valores mais altos significam que o modelo mostra de forma mais ampla a distribuição de tokens. Zero significa amostragem gananciosa. Recomendamos alterar este ou top_p , mas não ambos. |
n |
integer |
1 |
Quantas finalizações gerar para cada prompt. Nota: Como esse parâmetro gera muitas conclusões, ele pode consumir rapidamente sua cota de token. |
stop |
array |
null |
String ou uma lista de strings contendo a palavra onde a API para de gerar outros tokens. O texto retornado não conterá a sequência de parada. |
best_of |
integer |
1 |
Gera best_of finalizações do lado do servidor e retorna o "melhor" (aquele com a menor probabilidade de log por token). Os resultados não podem ser transmitidos. Quando usado com n o , best_of controla o número de candidatos concluídos e n especifica quantos devem retornar —best_of deve ser maior que n . Nota: Como esse parâmetro gera muitas conclusões, ele pode consumir rapidamente sua cota de token. |
logprobs |
integer |
null |
Um número que indica incluir as probabilidades de log nos logprobs tokens mais prováveis e nos tokens escolhidos. Por exemplo, se logprobs for 10, a API retorna uma lista dos 10 tokens mais prováveis. a API sempre retornará o logprob do token amostrado, portanto, pode haver até logprobs +1 elementos na resposta. |
presence_penalty |
float |
null |
Número entre -2,0 e 2,0. Valores positivos penalizam novos tokens com base em se eles aparecem no texto até agora, aumentando a probabilidade do modelo falar sobre novos tópicos. |
ignore_eos |
boolean |
True |
Se o token EOS deve ser ignorado e continuar gerando tokens depois que o token EOS for gerado. |
use_beam_search |
boolean |
False |
Se deve usar a pesquisa de feixe em vez de amostragem. Nesse caso, best_of deve ser maior do que 1 e temperature deve ser 0 . |
stop_token_ids |
array |
null |
Lista de IDs para tokens que, quando gerados, interrompem a geração de tokens. A saída retornada contém os tokens stop, a menos que os tokens stop sejam tokens especiais. |
skip_special_tokens |
boolean |
null |
Se deve ignorar tokens especiais na saída. |
O messages
objeto tem os seguintes campos:
Chave | Type | valor |
---|---|---|
content |
string |
O conteúdo da mensagem. O conteúdo é necessário para todas as mensagens. |
role |
string |
O papel do autor da mensagem. Um de system , user ou assistant . |
Exemplo
Corpo
{
"messages":
[
{
"role": "system",
"content": "You are a helpful assistant that translates English to Italian."},
{
"role": "user",
"content": "Translate the following sentence from English to Italian: I love programming."
}
],
"temperature": 0.8,
"max_tokens": 512,
}
Esquema de resposta
A carga útil de resposta é um dicionário com os seguintes campos.
Chave | Tipo | Description |
---|---|---|
id |
string |
Um identificador exclusivo para a conclusão. |
choices |
array |
A lista de opções de conclusão que o modelo gerou para as mensagens de entrada. |
created |
integer |
O carimbo de data/hora Unix (em segundos) de quando a conclusão foi criada. |
model |
string |
O model_id usado para conclusão. |
object |
string |
O tipo de objeto, que é sempre chat.completion . |
usage |
object |
Estatísticas de utilização do pedido de conclusão. |
Gorjeta
No modo de streaming, para cada parte da resposta, finish_reason
é sempre null
, exceto a última que é encerrada por uma carga [DONE]
útil. Em cada choices
objeto, a chave para messages
é alterada por delta
.
O choices
objeto é um dicionário com os seguintes campos.
Chave | Tipo | Description |
---|---|---|
index |
integer |
Índice de escolha. Quando best_of > 1, o índice nessa matriz pode não estar em ordem e pode não estar 0 em n-1 . |
messages ou delta |
string |
Resultado da conclusão do bate-papo no messages objeto. Quando o modo de streaming é usado, delta a chave é usada. |
finish_reason |
string |
A razão pela qual o modelo parou de gerar tokens: - stop : o modelo atingiu um ponto de paragem natural ou uma sequência de paragem fornecida. - length : se o número máximo de tokens tiver sido atingido. - content_filter : Quando a RAI modera e a CMP força a moderação - content_filter_error : um erro durante a moderação e não foi capaz de tomar uma decisão sobre a resposta - null : Resposta da API ainda em andamento ou incompleta. |
logprobs |
object |
As probabilidades de log dos tokens gerados no texto de saída. |
O usage
objeto é um dicionário com os seguintes campos.
Chave | Type | valor |
---|---|---|
prompt_tokens |
integer |
Número de tokens no prompt. |
completion_tokens |
integer |
Número de tokens gerados na conclusão. |
total_tokens |
integer |
Total de tokens. |
O logprobs
objeto é um dicionário com os seguintes campos:
Chave | Type | valor |
---|---|---|
text_offsets |
array de integers |
A posição ou índice de cada token na saída de conclusão. |
token_logprobs |
array de float |
Selecionado logprobs do dicionário na top_logprobs matriz. |
tokens |
array de string |
Tokens selecionados. |
top_logprobs |
array de dictionary |
Matriz de dicionário. Em cada dicionário, a chave é o token e o valor é o prob. |
Exemplo
Segue-se um exemplo de resposta:
{
"id": "12345678-1234-1234-1234-abcdefghijkl",
"object": "chat.completion",
"created": 2012359,
"model": "",
"choices": [
{
"index": 0,
"finish_reason": "stop",
"message": {
"role": "assistant",
"content": "Sure, I\'d be happy to help! The translation of ""I love programming"" from English to Italian is:\n\n""Amo la programmazione.""\n\nHere\'s a breakdown of the translation:\n\n* ""I love"" in English becomes ""Amo"" in Italian.\n* ""programming"" in English becomes ""la programmazione"" in Italian.\n\nI hope that helps! Let me know if you have any other sentences you\'d like me to translate."
}
}
],
"usage": {
"prompt_tokens": 10,
"total_tokens": 40,
"completion_tokens": 30
}
}
Implementar modelos Meta Llama na computação gerida
Além de implantar com o serviço gerenciado pré-pago, você também pode implantar modelos Meta Llama 3.1 para computação gerenciada no estúdio de Aprendizado de Máquina do Azure. Quando implementados na computação gerida, pode selecionar todos os detalhes sobre a infraestrutura que executa os modelos, incluindo as máquinas virtuais a serem usadas e o número de instâncias para lidar com a carga esperada. Os modelos implementados na computação gerida consomem quota da sua subscrição. Os seguintes modelos da onda de lançamento 3.1 estão disponíveis na computação gerenciada:
Meta-Llama-3.1-8B-Instruct
(FT suportado)Meta-Llama-3.1-70B-Instruct
(FT suportado)Meta-Llama-3.1-8B
(FT suportado)Meta-Llama-3.1-70B
(FT suportado)Llama Guard 3 8B
Prompt Guard
Criar uma nova implantação
Siga estas etapas para implantar um modelo como Meta-Llama-3.1-70B-Instruct
em uma computação gerenciada no estúdio do Azure Machine Learning.
Selecione o espaço de trabalho no qual você deseja implantar o modelo.
Escolha o modelo que você deseja implantar no catálogo de modelos do estúdio.
Como alternativa, você pode iniciar a implantação acessando seu espaço de trabalho e selecionando Endpoints>Managed Comput>Create.
Na página de visão geral do modelo, selecione Implantar e, em seguida , Computação gerenciada sem a Segurança de Conteúdo do Azure AI.
Na página Implantar com a Segurança de Conteúdo do Azure AI (visualização), selecione Ignorar Segurança de Conteúdo do Azure AI para que você possa continuar a implantar o modelo usando a interface do usuário.
Gorjeta
Em geral, recomendamos que você selecione Habilitar Segurança de Conteúdo do Azure AI (Recomendado) para implantação do modelo Meta Llama. Atualmente, essa opção de implantação só é suportada usando o SDK do Python e acontece em um bloco de anotações.
Selecione Continuar.
Gorjeta
Se você não tiver cota suficiente disponível no projeto selecionado, poderá usar a opção Quero usar a cota compartilhada e reconheço que esse ponto de extremidade será excluído em 168 horas.
Selecione a máquina virtual e a contagem de instâncias que você deseja atribuir à implantação.
Selecione se deseja criar essa implantação como parte de um novo ponto de extremidade ou de um existente. Os endpoints podem hospedar várias implantações, mantendo a configuração de recursos exclusiva para cada uma delas. As implantações sob o mesmo ponto de extremidade compartilham o URI do ponto de extremidade e suas chaves de acesso.
Indique se deseja habilitar a coleta de dados de inferência (visualização).
Indique se deseja habilitar o Modelo de Pacote (visualização).
Selecione Implementar. Depois de alguns momentos, a página Detalhes do ponto de extremidade é aberta.
Aguarde até que a criação e a implantação do ponto de extremidade sejam concluídas. Este passo pode demorar alguns minutos.
Selecione a página Consumir do ponto de extremidade para obter exemplos de código que você pode usar para consumir o modelo implantado em seu aplicativo.
Para obter mais informações sobre como implantar modelos para computação gerenciada usando o estúdio, consulte Implantando modelos de base em pontos de extremidade para inferência.
Consumir modelos Meta Llama implementados na computação gerida
Para obter referência sobre como invocar modelos Meta Llama 3 implantados para computação gerenciada, consulte o cartão do modelo no catálogo de modelos do estúdio do Azure Machine Learning. O cartão de cada modelo tem uma página de visão geral que inclui uma descrição do modelo, exemplos para inferência baseada em código, ajuste fino e avaliação do modelo.
Exemplos adicionais de inferência
Pacote | Bloco de notas de exemplo |
---|---|
CLI usando solicitações da Web CURL e Python | webrequests.ipynb |
OpenAI SDK (experimental) | openaisdk.ipynb |
LangChain | langchain.ipynb |
LiteLLM SDK | litellm.ipynb |
Custo e quotas
Considerações sobre custo e cota para modelos Meta Llama 3.1 implantados como uma API sem servidor
Os modelos Meta Llama 3.1 implantados como uma API sem servidor são oferecidos pela Meta por meio do Azure Marketplace e integrados ao estúdio Azure Machine Learning para uso. Pode obter os preços do Azure Marketplace quando implementar ou otimizar os modelos.
Sempre que uma área de trabalho subscreve uma determinada oferta de modelo do Azure Marketplace, é criado um novo recurso para controlar os custos associados ao seu consumo. O mesmo recurso é usado para monitorizar os custos associados à inferência e à otimização; no entanto, estão disponíveis vários medidores para monitorizar cada cenário de forma independente.
Para obter mais informações sobre como controlar os custos, consulte Monitorizar custos dos modelos oferecidos através do Azure Marketplace.
A quota é gerida por implementação. Cada implementação tem um limite de taxa de 200 000 tokens por minuto e 1000 pedidos de API por minuto. No entanto, atualmente, limitamos uma implementação por modelo por projeto. Contacte o Suporte do Microsoft Azure se os limites de taxa atuais não forem suficientes para os seus cenários.
Considerações sobre custo e cota para modelos Meta Llama 3.1 implantados computação gerenciada
Para implantação e inferência de modelos Meta Llama 3.1 com computação gerenciada, você consome a cota principal da máquina virtual (VM) atribuída à sua assinatura por região. Ao inscrever-se no Estúdio de IA do Azure, recebe uma quota de VM predefinida para várias famílias de VMs disponíveis na região. Pode continuar a criar implementações até atingir o seu limite de quota. Uma vez atingido este limite, pode solicitar um aumento de quota.
Filtragem de conteúdos
Os modelos implantados como uma API sem servidor são protegidos pela segurança de conteúdo da IA do Azure. Quando implantado na computação gerenciada, você pode desativar esse recurso. Com a segurança de conteúdo de IA do Azure habilitada, tanto o prompt quanto a conclusão passam por um conjunto de modelos de classificação destinados a detetar e prevenir a saída de conteúdo nocivo. O sistema de filtragem de conteúdo (visualização) deteta e executa ações em categorias específicas de conteúdo potencialmente nocivo em prompts de entrada e finalizações de saída. Saiba mais sobre a Segurança de Conteúdo do Azure AI.