Condividi tramite


Modelli supportati per il pagamento per token

Importante

Solo i modelli GTE Large (En) e Meta Llama 3.3 70B Instruct sono disponibili nelle regioni supportate dall'UE e dagli Stati Uniticon pagamento per token .

Vedere Foundation Model APIs limits for the pay-per-token models only supported in US regions (Limiti delle API del modello di base per i modelli con pagamento in base al token supportati solo nelle aree degli Stati Uniti).

Questo articolo descrive i modelli aperti all'avanguardia supportati dalle API modello di Databricks Foundation in modalità con pagamento in base al token.

È possibile inviare richieste di query a questi modelli usando gli endpoint con pagamento in base al token disponibili nell'area di lavoro Databricks. Vedere modelli di base di Query e modelli supportati con pagamento in base al token table per i nomi degli endpoint del modello da usare.

Oltre a supportare i modelli in modalità a pagamento per token, le API del Modello Foundation offrono anche una modalità di elaborazione con provisioning. Databricks consiglia il throughput provisionato per i carichi di lavoro di produzione. Questa modalità supporta tutti i modelli di una famiglia di architetture di modelli (ad esempio, modelli DBRX), inclusi i modelli con training preliminare ottimizzati e personalizzati supportati in modalità con pagamento in base al token. Consulta API del modello di base per la velocità effettiva provisioned throughput per le list delle architetture supportate.

È possibile interagire con questi modelli supportati usando AI Playground.

Meta Llama 3.3 70B Istruzione

Importante

A partire dall'11 dicembre 2024, Meta-Llama-3.3-70B-Instruct sostituisce il supporto per Meta-Llama-3.1-70B-Instruct negli endpoint delle API dei modelli di base con pagamento per token.

Importante

Meta Llama 3.3 è concesso in licenza con LLAMA 3.3 Community License, Copyright © Meta Platforms, Inc. Tutti i diritti riservati. I clienti sono responsabili di garantire la conformità alle condizioni di questa licenza e alla Politica di utilizzo accettabile Llama 3.3.

Meta-Llama-3.3-70B-Instruct è un modello linguistico di grandi dimensioni all'avanguardia con un contesto di 128.000 token creati e sottoposti a training da Meta. Il modello supporta più lingue ed è ottimizzato per i casi d'uso dei dialoghi. Scopri di più su Meta Llama 3.3.

Analogamente ad altri modelli linguistici di grandi dimensioni, l'output di Llama-3 può omettere alcuni fatti e talvolta produrre informazioni false. Databricks consiglia di usare la generazione aumentata di recupero negli scenari where'accuratezza è particolarmente importante.

Meta Llama 3.1 405B Istruzione

Importante

L'uso di questo modello con le API del modello fondamentale è in anteprima pubblica. Contatta il team dell'account Databricks se si verificano errori agli endpoint o errori di stabilizzazione quando usi questo modello.

Importante

Meta Llama 3.1 è concesso in licenza con LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Tutti i diritti riservati. I clienti sono responsabili di garantire la conformità alle licenze del modello applicabili.

Meta-Llama-3.1-405B-Instruct è il modello di linguaggio di grandi dimensioni più ampio e disponibile all'avanguardia, compilato e sottoposto a training da Meta ed è distribuito da Azure Machine Learning usando il modello di AzureML Catalog. L'uso di questo modello consente ai clienti di sbloccare nuove funzionalità, ad esempio il ragionamento avanzato in più passaggi e generazione di dati sintetici di alta qualità. Questo modello è competitivo con GPT-4-Turbo in termini di qualità.

Come Meta-Llama-3.1-70B-Instruct, questo modello ha un contesto di 128.000 token e supporto in dieci lingue. Si allinea alle preferenze umane per l'utilità e la sicurezza ed è ottimizzato per i casi d'uso del dialogo. Altre informazioni sui modelli Meta Llama 3.1.

Analogamente ad altri modelli linguistici di grandi dimensioni, l'output di Llama-3.1 può omettere alcuni fatti e talvolta produrre informazioni false. Databricks consiglia di usare la generazione aumentata di recupero negli scenari where'accuratezza è particolarmente importante.

DBRX Istruire

Importante

DBRX viene fornito in e soggetto alla licenza Databricks Open Model License, Copyright © Databricks, Inc. Tutti i diritti riservati. I clienti sono responsabili della conformità alle licenze dei modelli applicabili, inclusi i criteridi utilizzo accettabile di Databricks .

DBRX Instruct è un modello linguistico all'avanguardia basato su una miscela di esperti (MoE) ed è stato addestrato da Databricks.

I modelli hanno stabilito modelli open source su benchmark standard ed eccelle in un'ampia set di attività in linguaggio naturale, ad esempio: riepilogo del testo, risposta alle domande, estrazione e codifica.

DBRX Instruct può gestire fino a 32.000 token di lunghezza dell'input e genera output di un massimo di 4.000 token. Grazie alla sua architettura MoE, DBRX Instruct è altamente efficiente nell'inferenza, attivando solo 36B parameters su un totale di 132B addestrati parameters. L'endpoint a pagamento per token che gestisce questo modello ha un tasso limit di una query al secondo. Vedere Limiti e aree di gestione dei modelli.

Analogamente ad altri modelli linguistici di grandi dimensioni, l'output DBRX Instruct può omettere alcuni fatti e talvolta produrre informazioni false. Databricks consiglia di usare la generazione aumentata di recupero negli scenari where'accuratezza è particolarmente importante.

I modelli DBRX usano il prompt di sistema predefinito seguente per garantire la pertinenza e l'accuratezza nelle risposte del modello:

You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.

Mixtral-8x7B Instruct

Mixtral-8x7B Instruct è un modello a miscela sparsa di esperti (SMoE) di alta qualità addestrato da Mistral AI. Mixtral-8x7B Instruct può essere usato per diverse attività, ad esempio domande e risposte, riepiloghi ed estrazione.

Mixtral può gestire lunghezze di contesto fino a 32.000 token. Mixtral può elaborare inglese, francese, italiano, tedesco e spagnolo. Mixtral eguaglia o supera Llama 2 70B e GPT3.5 nella maggior parte dei benchmark (prestazioni Mixtral), risultando quattro volte più veloce di Llama 2 70B durante l'inferenza.

Analogamente ad altri modelli linguistici di grandi dimensioni, non si dovrebbe fare affidamento sul modello Mixtral-8x7B Instruct per produrre informazioni fattualmente accurate. Anche se sono stati compiuti grandi sforzi per pulire i dati di pre-training, è possibile che questo modello possa generate output lewd, biased o altrimenti offensivi. Per ridurre i rischi, Databricks, per impostazione predefinita, utilizza una variante del prompt del sistema in modalità sicura di Mistral .

GTE Large (En)

Importante

GTE Large (En) è fornito ai sensi di e soggetto alla licenza Apache 2.0, Copyright © The Apache Software Foundation, Tutti i diritti riservati. I clienti sono responsabili di garantire la conformità alle licenze del modello applicabili.

General Text Embedding (GTE) è un modello di incorporamento di testo in grado di eseguire il mapping di qualsiasi testo a un vettore di incorporamento a 1024 dimensioni e a un window di incorporamento di 8192 token. Questi vettori possono essere usati nei database vettoriali per le macchine virtuali e per attività quali recupero, classificazione, risposta alle domande, clustering o ricerca semantica. Questo endpoint serve la versione inglese del modello e non generate incorporazioni normalizzate.

I modelli di embedding sono particolarmente efficaci quando vengono usati in combinazione con modelli linguistici su larga scala per i casi d'uso di generazione aumentata con recupero (RAG). GTE può essere usato per trovare frammenti di testo pertinenti in blocchi di documenti di grandi dimensioni che possono essere usati nel contesto di un LLM.

BGE Large (en)

BGE (General Embedding) di BAAI è un modello di incorporamento di testo in grado di eseguire il mapping di qualsiasi testo a un vettore di incorporamento di dimensioni 1024 e a un window di incorporamento di 512 token. Questi vettori possono essere usati nei database vettoriali per i modelli linguistici di grandi dimensioni e per attività come il recupero, la classificazione, la risposta alle domande, il clustering o la ricerca semantica. Questo endpoint serve la versione inglese del modello e genera incorporamenti normalizzati.

I modelli di embedding sono particolarmente efficaci quando vengono usati in combinazione con LLM per i casi d'uso di generazione aumentata dal recupero (RAG). BGE può essere usato per trovare frammenti di testo pertinenti in blocchi di documenti di grandi dimensioni che possono essere usati nel contesto di un LLM.

Nelle applicazioni RAG è possibile migliorare le prestazioni del sistema di recupero includendo un parametro di istruzione. Gli autori di BGE consigliano di provare l'istruzione "Represent this sentence for searching relevant passages:" per gli incorporamenti di query, anche se l'impatto sulle prestazioni dipende dal dominio.

Risorse aggiuntive