Udostępnij za pośrednictwem


Interfejsy API modelu usługi Databricks Foundation

Ten artykuł zawiera omówienie interfejsów API modelu bazowego na platformie Azure Databricks. Zawiera wymagania dotyczące użycia, obsługiwanych modeli i ograniczeń.

Co to są interfejsy API modelu Databricks Foundation?

Mosaic AI Model Serving teraz obsługuje interfejsy API modeli bazowych, które umożliwiają uzyskiwanie dostępu do najnowocześniejszych otwartych modeli i ich odpytywania z poziomu punktu końcowego obsługującego. Te modele są hostowane przez usługę Databricks i można szybko i łatwo tworzyć aplikacje korzystające z nich bez konieczności utrzymywania własnego wdrożenia modelu. Interfejsy API modelu fundacyjnego to wyznaczona usługa Databricks, co oznacza, że używa Databricks Geos do zarządzania miejscem przechowywania danych podczas przetwarzania treści klienta.

Interfejsy modelu fundamentowego są dostępne w następujących trybach cenowych.

  • Płatność za token: jest to najprostszy sposób na rozpoczęcie uzyskiwania dostępu do modeli bazowych w usłudze Databricks i zalecany jako początek pracy z interfejsami API modeli bazowych. Ten tryb nie jest przeznaczony dla aplikacji o wysokiej przepływności ani wydajnych obciążeń produkcyjnych.
  • Aprowizowana przepływność: ten tryb jest zalecany dla wszystkich obciążeń produkcyjnych, zwłaszcza tych, które wymagają wysokiej przepływności, gwarancji wydajności, dostrojonych modeli lub mają dodatkowe wymagania dotyczące zabezpieczeń. Punkty końcowe z przydzieloną przepustowością są dostępne z certyfikatami zgodności, takimi jak HIPAA.

Aby uzyskać wskazówki dotyczące używania tych trybów i obsługiwanych modeli, zobacz Use Foundation Model APIs (Korzystanie z interfejsów API modelu podstawowego).

Korzystając z interfejsów API modelu Foundation, można wykonać następujące czynności

  • Użyj uogólnionego LLM do weryfikacji zasadności projektu przed zainwestowaniem większej liczby zasobów.
  • Przeprowadź zapytanie do uogólnionego modelu LLM, aby stworzyć szybki dowód koncepcji dla aplikacji opartej na LLM przed zainwestowaniem w trenowanie i wdrażanie niestandardowego modelu.
  • Użyj modelu bazowego wraz z bazą danych wektorów, aby zbudować czatbota przy użyciu generacji wspomaganej przeszukiwaniem (RAG).
  • Zastąp zastrzeżone modele otwartymi alternatywami dla optimize kosztów i wydajności.
  • Efektywnie porównaj modele LLM, aby zobaczyć, który z nich jest najlepszym kandydatem do Twojego zastosowania, lub zamień model produkcyjny na taki, który lepiej się sprawdza.
  • Utwórz aplikację LLM na potrzeby programowania lub produkcji na podstawie skalowalnego, opartego na umowie SLA rozwiązania obsługującego usługę LLM, które może obsługiwać wzrost ruchu produkcyjnego.

Wymagania

Użyj interfejsów API Modelu Foundation

Masz wiele opcji używania interfejsów API Modelu Bazowego.

Interfejsy API są zgodne z interfejsem OpenAI, więc do wykonywania zapytań można użyć klienta OpenAI. Możesz również użyć interfejsu użytkownika, interfejsu API modeli podstawowych zestawu SDK języka Python, zestawu SDK wdrożeń platformy MLflow lub interfejsu API REST do wykonywania zapytań dotyczących obsługiwanych modeli. Databricks zaleca korzystanie z zestawu SDK klienta OpenAI lub interfejsu API na potrzeby interakcji rozszerzonych oraz interfejsu użytkownika do wypróbowania tej funkcji.

Aby uzyskać przykłady oceniania, zobacz Modele podstaw zapytań.

interfejsy API modelu modelu płatności za token

Wstępnie skonfigurowane punkty końcowe obsługujące modele płatności za token są dostępne w obszarze roboczym usługi Azure Databricks. Ten model płatności za tokeny jest zalecany do rozpoczęcia pracy. Aby uzyskać do nich dostęp w przestrzeni roboczej, przejdź do zakładki Obsługa na pasku bocznym po lewej stronie. Interfejsy API modelu podstawowego znajdują się w górnej części widoku punktów końcowych list.

obsługa punktów końcowych list

Interfejsy API dla modelu bazowego zarezerwowanej przepustowości

Przydzielona przepustowość zapewnia zoptymalizowane wnioskowanie dla punktów końcowych, w przypadku obciążeń modelu bazowego, które wymagają gwarancji dotyczących wydajności. Usługa Databricks zaleca przydzieloną przepustowość dla obciążeń produkcyjnych.

Obsługa zapewnionej przepływności obejmuje:

  • Podstawowe modele we wszystkich rozmiarach. Dostęp do modeli podstawowych można uzyskać za pomocą witryny Marketplace usługi Databricks lub możesz też pobrać je z witryny Hugging Face lub innego zewnętrznego źródła i zarejestrować je w środowisku Unity Catalog. Drugie podejście działa z dowolnym dostosowanym wariantem obsługiwanych modeli.
  • dostrojone warianty modeli podstawowych, takie jak modele dostrojone do zastrzeżonych danych.
  • w pełni niestandardowe wagi i tokenizatory, takie jak te wytrenowane od podstaw lub wstępnie wytrenowane lub innych odmian przy użyciu architektury modelu podstawowego (na przykład CodeLlama).

Ograniczenia

Zobacz limity interfejsów API modelu Foundation.

Dodatkowe zasoby