Tutorial: Criar e implantar um modelo de base Execução de ajuste fino

Artigo
11/19/2024

Importante

Esse recurso está em Visualização Pública nas seguintes regiões: centralus, eastus, eastus2, northcentralus e westus.

Este artigo descreve como criar e configurar uma execução usando a API de ajuste fino do modelo de base (agora parte do Treinamento de Modelo de IA do Mosaic) e, em seguida, examinar os resultados e implantar o modelo usando a interface do usuário do Databricks e o Mosaic AI Model Serving.

Requisitos

Um workspace m uma das seguintes regiões do Azure: centralus, eastus, eastus2, northcentralus, westcentralus, westus, westus3.
Databricks Runtime 12.2 LTS ML ou superior.
Este tutorial deve ser executado em um notebook do Databricks.
Dados de treinamento no formato aceito. Consulte Preparar dados para o ajuste fino do modelo de fundação.

Etapa 1: preparar seus dados para o treinamento de modelos

Consulte Preparar dados para o ajuste fino do modelo de fundação.

Etapa 2: instalar o SDK `databricks_genai`

Use as etapas a seguir para instalar o SDK databricks_genai.

%pip install databricks_genai

Em seguida, importe a biblioteca foundation_model:

dbutils.library.restartPython()
from databricks.model_training import foundation_model as fm

Etapa 3: criar uma execução de treinamento

Crie uma execução de treinamento usando a função Ajuste create() fino do modelo de base. Os seguintes parâmetros são obrigatórios:

model: o modelo que você deseja testar.
train_data_path: o local do conjunto de dados de treinamento.
register_to: o catálogo e o esquema do Catálogo do Unity no qual você deseja salvar pontos de verificação.

Por exemplo:

run = fm.create(model='meta-llama/Meta-Llama-3.1-8B-Instruct',
                train_data_path='dbfs:/Volumes/main/my-directory/ift/train.jsonl', # UC Volume with JSONL formatted data
                register_to='main.my-directory',
                training_duration='1ep')

run

Etapa4: exibir o status de uma atualização

O tempo necessário para concluir uma execução de treinamento depende do número de tokens, do modelo e da disponibilidade da GPU. Para um treinamento mais rápido, o Databricks recomenda que você use a computação reservada. Entre em contato com sua equipe de conta do Databricks para obter mais detalhes.

Depois de iniciar sua execução, você pode monitorar o status dele usando get_events().

run.get_events()

Etapa 5: exibir métricas e saídas

Siga estas etapas para exibir os resultados na interface do usuário do Databricks:

No workspace do Databricks, clique em Experimentos na barra de navegação esquerda.
Selecione seu experimento na lista.
Examine os gráficos de métricas na guia Gráficos. As métricas de treinamento são geradas para cada execução de treinamento e as métricas de avaliação só são geradas se um caminho de dados de avaliação for fornecido.
1. A métrica de treinamento principal mostrando o progresso é a perda. A perda de avaliação pode ser usada para ver se o modelo está sobreajuste aos dados de treinamento. No entanto, a perda não deve ser totalmente confiada porque, em tarefas de treinamento supervisionadas, a perda de avaliação pode parecer estar sobreajustada enquanto o modelo continua a melhorar.
2. Quanto maior a precisão, melhor será o modelo, mas tenha em mente que a precisão próxima de 100% pode demonstrar sobreajuste.
3. As seguintes métricas aparecem no MLflow após a execução:
  - LanguageCrossEntropy computa entropia cruzada em saídas de modelagem de linguagem. Uma pontuação mais baixa é melhor.
  - LanguagePerplexity mede o quão bem um modelo de linguagem prevê a próxima palavra ou caractere em um bloco de texto com base em palavras ou caracteres anteriores. Uma pontuação mais baixa é melhor.
  - TokenAccuracy calcula a precisão no nível do token para modelagem de linguagem. Uma pontuação maior é melhor.
4. Nesta guia, você também pode exibir a saída dos prompts de avaliação se os especificou.

Etapa 6: avaliar vários modelos personalizados com a avaliação do Mosaic AI Agent antes da implantação

Consulte O que é a avaliação do agente Mosaic AI?.

Etapa 7: implantar seu modelo

A execução de treinamento registra automaticamente seu modelo no Catálogo do Unity após a conclusão. O modelo é registrado com base no que você especificou no campo register_to no método create() de execução.

Para implantar o modelo para servir, siga estas etapas:

Navegue até o modelo no Catálogo do Unity.
Clique em Servir este modelo.
Clique em Criar ponto de extremidade de serviço.
No campo Nome, forneça um nome para o ponto de extremidade.
Clique em Criar.

Recursos adicionais

Criar uma execução de treinamento usando a API de ajuste fino do modelo de base
Ajuste fino do modelo de fundação
Serviço de modelo com o Azure Databricks
Confira o notebook de demonstração Instrução de ajuste fino: Reconhecimento de Entidade Nomeada para obter um exemplo de ajuste fino de instrução que percorre a preparação de dados, a configuração e a implantação da execução de treinamento de ajuste fino.

Compartilhar via

Tutorial: Criar e implantar um modelo de base Execução de ajuste fino

Requisitos

Etapa 1: preparar seus dados para o treinamento de modelos

Etapa 2: instalar o SDK `databricks_genai`

Etapa 3: criar uma execução de treinamento

Etapa4: exibir o status de uma atualização

Etapa 5: exibir métricas e saídas

Etapa 6: avaliar vários modelos personalizados com a avaliação do Mosaic AI Agent antes da implantação

Etapa 7: implantar seu modelo

Recursos adicionais

Comentários

Recursos adicionais

Compartilhar via

Tutorial: Criar e implantar um modelo de base Execução de ajuste fino

Requisitos

Etapa 1: preparar seus dados para o treinamento de modelos

Etapa 2: instalar o SDK databricks_genai

Etapa 3: criar uma execução de treinamento

Etapa4: exibir o status de uma atualização

Etapa 5: exibir métricas e saídas

Etapa 6: avaliar vários modelos personalizados com a avaliação do Mosaic AI Agent antes da implantação

Etapa 7: implantar seu modelo

Recursos adicionais

Comentários

Recursos adicionais

Etapa 2: instalar o SDK `databricks_genai`