Interfejsy API modelu usługi Databricks Foundation
Ten artykuł zawiera omówienie interfejsów API modelu bazowego na platformie Azure Databricks. Zawiera wymagania dotyczące użycia, obsługiwanych modeli i ograniczeń.
Co to są interfejsy API modelu Databricks Foundation?
Mosaic AI Model Serving teraz obsługuje interfejsy API modeli bazowych, które umożliwiają uzyskiwanie dostępu do najnowocześniejszych otwartych modeli i ich odpytywania z poziomu punktu końcowego obsługującego. Te modele są hostowane przez usługę Databricks i można szybko i łatwo tworzyć aplikacje korzystające z nich bez konieczności utrzymywania własnego wdrożenia modelu. Interfejsy API modelu fundacyjnego to wyznaczona usługa Databricks, co oznacza, że używa Databricks Geos do zarządzania miejscem przechowywania danych podczas przetwarzania treści klienta.
Interfejsy modelu fundamentowego są dostępne w następujących trybach cenowych.
- Płatność za token: jest to najprostszy sposób na rozpoczęcie uzyskiwania dostępu do modeli bazowych w usłudze Databricks i zalecany jako początek pracy z interfejsami API modeli bazowych. Ten tryb nie jest przeznaczony dla aplikacji o wysokiej przepływności ani wydajnych obciążeń produkcyjnych.
- Aprowizowana przepływność: ten tryb jest zalecany dla wszystkich obciążeń produkcyjnych, zwłaszcza tych, które wymagają wysokiej przepływności, gwarancji wydajności, dostrojonych modeli lub mają dodatkowe wymagania dotyczące zabezpieczeń. Punkty końcowe z przydzieloną przepustowością są dostępne z certyfikatami zgodności, takimi jak HIPAA.
Aby uzyskać wskazówki dotyczące używania tych trybów i obsługiwanych modeli, zobacz Use Foundation Model APIs (Korzystanie z interfejsów API modelu podstawowego).
Korzystając z interfejsów API modelu Foundation, można wykonać następujące czynności
- Użyj uogólnionego LLM do weryfikacji zasadności projektu przed zainwestowaniem większej liczby zasobów.
- Przeprowadź zapytanie do uogólnionego modelu LLM, aby stworzyć szybki dowód koncepcji dla aplikacji opartej na LLM przed zainwestowaniem w trenowanie i wdrażanie niestandardowego modelu.
- Użyj modelu bazowego wraz z bazą danych wektorów, aby zbudować czatbota przy użyciu generacji wspomaganej przeszukiwaniem (RAG).
- Zastąp zastrzeżone modele otwartymi alternatywami dla optimize kosztów i wydajności.
- Efektywnie porównaj modele LLM, aby zobaczyć, który z nich jest najlepszym kandydatem do Twojego zastosowania, lub zamień model produkcyjny na taki, który lepiej się sprawdza.
- Utwórz aplikację LLM na potrzeby programowania lub produkcji na podstawie skalowalnego, opartego na umowie SLA rozwiązania obsługującego usługę LLM, które może obsługiwać wzrost ruchu produkcyjnego.
Wymagania
- Token interfejsu API usługi Databricks do uwierzytelniania żądań punktów końcowych.
- Obliczenia bezserwerowe (w przypadku modeli aprowizowanej przepływności).
- Obszar roboczy w jednym z następujących obsługiwanych regionów:
Użyj interfejsów API Modelu Foundation
Masz wiele opcji używania interfejsów API Modelu Bazowego.
Interfejsy API są zgodne z interfejsem OpenAI, więc do wykonywania zapytań można użyć klienta OpenAI. Możesz również użyć interfejsu użytkownika, interfejsu API modeli podstawowych zestawu SDK języka Python, zestawu SDK wdrożeń platformy MLflow lub interfejsu API REST do wykonywania zapytań dotyczących obsługiwanych modeli. Databricks zaleca korzystanie z zestawu SDK klienta OpenAI lub interfejsu API na potrzeby interakcji rozszerzonych oraz interfejsu użytkownika do wypróbowania tej funkcji.
Aby uzyskać przykłady oceniania, zobacz Modele podstaw zapytań.
interfejsy API modelu modelu płatności za token
Wstępnie skonfigurowane punkty końcowe obsługujące modele płatności za token są dostępne w obszarze roboczym usługi Azure Databricks. Ten model płatności za tokeny jest zalecany do rozpoczęcia pracy. Aby uzyskać do nich dostęp w przestrzeni roboczej, przejdź do zakładki Obsługa na pasku bocznym po lewej stronie. Interfejsy API modelu podstawowego znajdują się w górnej części widoku punktów końcowych list.
- Obsługiwane modele płatności za token.
- Aby uzyskać wskazówki dotyczące zapytań do interfejsów API modeli podstawowych, zobacz Modele Fundamentowe.
- Aby uzyskać wymagane
oraz składnię, zobacz odniesienie interfejsu API REST modelu Foundation.
Interfejsy API dla modelu bazowego zarezerwowanej przepustowości
Przydzielona przepustowość zapewnia zoptymalizowane wnioskowanie dla punktów końcowych, w przypadku obciążeń modelu bazowego, które wymagają gwarancji dotyczących wydajności. Usługa Databricks zaleca przydzieloną przepustowość dla obciążeń produkcyjnych.
- Architektury modeli obsługiwane przez aprowizowaną przepustowość.
- Zobacz Interfejsy API modelu podstawowego o zarezerwowanej przepustowości, aby zapoznać się z przewodnikiem krok po kroku dotyczącym wdrażania interfejsów API modelu podstawowego w trybie zarezerwowanej przepustowości.
Obsługa zapewnionej przepływności obejmuje:
- Podstawowe modele we wszystkich rozmiarach. Dostęp do modeli podstawowych można uzyskać za pomocą witryny Marketplace usługi Databricks lub możesz też pobrać je z witryny Hugging Face lub innego zewnętrznego źródła i zarejestrować je w środowisku Unity Catalog. Drugie podejście działa z dowolnym dostosowanym wariantem obsługiwanych modeli.
- dostrojone warianty modeli podstawowych, takie jak modele dostrojone do zastrzeżonych danych.
- w pełni niestandardowe wagi i tokenizatory, takie jak te wytrenowane od podstaw lub wstępnie wytrenowane lub innych odmian przy użyciu architektury modelu podstawowego (na przykład CodeLlama).
Ograniczenia
Zobacz limity interfejsów API modelu Foundation.
Dodatkowe zasoby
interfejsy API modelu aprowizowania przepływności foundation
Dokumentacja interfejsu API REST modelu Foundation
Przeprowadzanie wsadowego wnioskowania przy użyciu modelu LLM i ai_query