Wdrażanie modeli z użyciem Mosaic AI Model Serving
W tym artykule opisano usługę Mosaic AI Model Serving , rozwiązanie usługi Databricks do wdrażania modeli sztucznej inteligencji i uczenia maszynowego na potrzeby obsługi w czasie rzeczywistym i wnioskowania wsadowego.
Co to jest obsługa modelu mozaiki sztucznej inteligencji?
Obsługa modeli mozaiki sztucznej inteligencji zapewnia ujednolicony interfejs do wdrażania modeli sztucznej inteligencji, zarządzania nimi i wykonywania zapytań na potrzeby wnioskowania w czasie rzeczywistym i wsadowego. Każdy model, który służy, jest dostępny jako interfejs API REST, który można zintegrować z aplikacją internetową lub kliencką.
Obsługa modeli zapewnia usługę o wysokiej dostępności i małym opóźnieniu na potrzeby wdrażania modeli. Usługa automatycznie skaluje w górę lub w dół, aby sprostać zmianom zapotrzebowania, oszczędzając koszty infrastruktury podczas optymalizowania wydajności opóźnień. Ta funkcja korzysta z bezserwerowych obliczeń. Aby uzyskać więcej informacji, zobacz stronę Cennik obsługi modelu.
Serwowanie modeli oferuje ujednolicony interfejs API REST oraz interfejs wdrażania MLflow do zadań CRUD i zapytań. Ponadto zapewnia jeden interfejs użytkownika do zarządzania wszystkimi modelami i odpowiednimi punktami końcowymi obsługującymi. Możesz również uzyskiwać dostęp do modeli bezpośrednio z bazy danych SQL przy użyciu funkcji sztucznej inteligencji w celu łatwej integracji z przepływami pracy analizy.
Zapoznaj się z następującymi przewodnikami, aby uruchomić get:
- Aby zapoznać się z samouczkiem wprowadzającym dotyczącym obsługi modeli niestandardowych w usłudze Azure Databricks, zobacz Samouczek: wdrażanie i wykonywanie zapytań dotyczących modelu niestandardowego.
- Aby zapoznać się z przewodnikiem na temat rozpoczynania pracy z zapytaniami do modelu bazowego na platformie Databricks, zobacz Get wprowadzanie zapytań do LLM w Databricks.
- Aby uzyskać informacje o wykonywaniu wnioskowania wsadowego, zobacz Wdrażanie modeli na potrzeby wnioskowania wsadowego i przewidywania.
Modele, które można wdrożyć
Obsługa modelu obsługuje wnioskowanie w czasie rzeczywistym i wsadowe dla następujących typów modeli:
-
Modele niestandardowe. Są to modele języka Python spakowane w formacie MLflow. Można je zarejestrować w Unity Catalog lub w rejestrze modeli obszaru roboczego. Przykłady obejmują modele przekształcania twarzy scikit-learn, XGBoost, PyTorch i Hugging Face transformer.
- Obsługa agenta jest obsługiwana jako model niestandardowy. Zobacz Deploy an agent for generative AI application (Wdrażanie agenta na potrzeby generowania aplikacji sztucznej inteligencji)
- modele Foundation.
- Modele bazowe hostowane na platformie Databricks takie jak Meta Llama. Modele te są dostępne przy użyciu interfejsów API modelu Foundation . Te modele są nadzorowanymi architekturami modeli podstawowych, które obsługują zoptymalizowane wnioskowanie. Modele podstawowe, takie jak Meta-Llama-3.3-70B-Instruct, GTE-Large i Mistral-7B, dostępne są do natychmiastowego użycia z płatnością za token, a obciążenia wymagające gwarancji wydajności i dostrojonych wariantów modelu można wdrożyć z zarezerwowaną przepustowością.
- Foundation modele hostowane poza usługą Databricks, takie jak GPT-4 z platformy OpenAI. Te modele są dostępne za pomocą zewnętrznych modeli . Punkty końcowe obsługujące te modele mogą być centralnie zarządzane przez usługę Azure Databricks, dzięki czemu można usprawnić korzystanie z różnych providersLLM i zarządzanie nimi, takich jak OpenAI i Anthropic, w organizacji.
Uwaga
Możesz wchodzić w interakcje z obsługiwanymi dużymi modelami językowymi przy użyciu narzędzia AI Playground. Plac zabaw dla sztucznej inteligencji to środowisko podobne do czatów, where można testować, promptować i porównywać modele LLM. Ta funkcja jest dostępna w obszarze roboczym usługi Azure Databricks.
Dlaczego warto używać funkcji obsługi modelu?
- Wdrażanie i wykonywanie zapytań o dowolne modele: obsługa modelu udostępnia ujednolicony interfejs, który umożliwia zarządzanie wszystkimi modelami w jednej lokalizacji i wykonywanie zapytań względem nich za pomocą jednego interfejsu API, niezależnie od tego, czy są hostowane w usłudze Databricks, czy zewnętrznie. Takie podejście upraszcza proces eksperymentowania, dostosowywania i wdrażania modeli w środowisku produkcyjnym w różnych chmurach i providers.
- Bezpieczne dostosowywanie modeli przy użyciu danych prywatnych: oparta na platformie analizy danych funkcja Model Serving upraszcza integrację funkcji i osadzania w modelach za pomocą natywnej integracji z usługą Databricks Feature Store i mozaikowym wyszukiwaniem wektorów sztucznej inteligencji. Aby uzyskać jeszcze większą dokładność i kontekstowe zrozumienie, modele można dostosować do zastrzeżonych danych i bez wysiłku wdrażać w obsłudze modeli.
- Zarządzanie i monitorowanie modeli: interfejs użytkownika obsługujący umożliwia centralne zarządzanie wszystkimi punktami końcowymi modelu w jednym miejscu, w tym tymi, które są hostowane zewnętrznie. Możesz zarządzać uprawnieniami, śledzić limity użycia set oraz monitorować jakość wszystkich typów modeli. Dzięki temu można zdemokratyzować dostęp do usługi SaaS i otworzyć maszyny LLM w organizacji, zapewniając jednocześnie odpowiednie zabezpieczenia.
- Obniżyć koszty dzięki zoptymalizowanemu wnioskowaniu i szybkiemu skalowaniu: usługa Databricks zaimplementowała szereg optymalizacji, aby zapewnić get najlepszą przepływność i opóźnienie dla dużych modeli. Punkty końcowe są automatycznie skalowane w górę lub w dół w celu spełnienia zmian zapotrzebowania, co pozwala zaoszczędzić koszty infrastruktury podczas optymalizowania wydajności opóźnień. Monitorowanie kosztów obsługi modelu.
Uwaga
W przypadku obciążeń, które są wrażliwe na opóźnienia lub obejmują dużą liczbę zapytań na sekundę, usługa Databricks zaleca korzystanie z optymalizacji tras w niestandardowych punktach końcowych obsługujących model. Skontaktuj się z zespołem konta usługi Databricks, aby upewnić się, że obszar roboczy jest włączony w celu zapewnienia wysokiej skalowalności.
- Zapewnienie niezawodności i zabezpieczeń do obsługi modeli: obsługa modeli została zaprojektowana pod kątem wysokiej dostępności, użycia produkcyjnego o małych opóźnieniach i może obsługiwać ponad 25 tys. zapytań na sekundę z opóźnieniem mniejszym niż 50 ms. Obciążenia obsługujące są chronione przez wiele warstw zabezpieczeń, zapewniając bezpieczne i niezawodne środowisko nawet dla najbardziej wrażliwych zadań.
Uwaga
Obsługa modelu nie zapewnia poprawek zabezpieczeń istniejących obrazów modelu ze względu na ryzyko destabilizacji wdrożeń produkcyjnych. Nowy obraz modelu utworzony na podstawie nowej wersji modelu będzie zawierać najnowsze poprawki. Skontaktuj się z zespołem kont usługi Databricks, aby uzyskać więcej informacji.
Wymagania
- Zarejestrowany model w Unity Catalog lub rejestrze modelu w przestrzeni roboczej .
- Uprawnienia do zarejestrowanych modeli zgodnie z opisem w temacie Obsługa list ACL punktów końcowych.
- MLflow 1.29 lub nowszy.
- Jeśli używasz usługi Azure Private Link do przestrzegania reguł ruchu przychodzącego związanych z siecią skonfigurowanych w obszarze roboczym, usługa Azure Private Link jest obsługiwana tylko w przypadku punktów końcowych obsługujących model obsługujących punkty końcowe obsługujące aprowizowaną przepływność lub punkty końcowe obsługujące modele niestandardowe. Zobacz Konfigurowanie łączności prywatnej z zasobów obliczeniowych bezserwerowych.
Włączanie obsługi modelu dla obszaru roboczego
Do włączenia obsługi modelu w obszarze roboczym nie są wymagane żadne dodatkowe kroki.
Ograniczenia i dostępność regionów
Obsługa modelu mozaiki sztucznej inteligencji nakłada domyślne limity, aby zapewnić niezawodną wydajność. Zobacz Limity i regiony obsługi modeli. Jeśli masz opinię na temat tych limitów lub punktu końcowego w nieobsługiwanym regionie, skontaktuj się z zespołem konta usługi Databricks.
Ochrona danych w usłudze modelowania
Usługa Databricks poważnie traktuje zabezpieczenia danych. Usługa Databricks rozumie znaczenie analizowanych danych przy użyciu usługi Mosaic AI Model Serving i implementuje następujące mechanizmy kontroli zabezpieczeń w celu ochrony danych.
- Każde żądanie klienta do obsługi modelu jest logicznie izolowane, uwierzytelniane i autoryzowane.
- Usługa mozaikowego modelu sztucznej inteligencji szyfruje wszystkie dane magazynowane (AES-256) i podczas przesyłania (TLS 1.2+).
W przypadku wszystkich płatnych kont usługa Mosaic AI Model Serving nie używa danych wejściowych użytkownika przesłanych do usługi lub danych wyjściowych z usługi w celu trenowania modeli ani ulepszania żadnych usług usługi Databricks.
W przypadku interfejsów API modelu usługi Databricks Foundation w ramach świadczenia usługi usługa Databricks może tymczasowo przetwarzać i przechowywać dane wejściowe i wyjściowe w celu zapobiegania, wykrywania i ograniczania nadużyć lub szkodliwych zastosowań. Dane wejściowe i wyjściowe są odizolowane od innych klientów, przechowywane w tym samym regionie co obszar roboczy przez maksymalnie trzydzieści (30) dni i dostępne tylko do wykrywania i reagowania na problemy związane z bezpieczeństwem lub nadużyciami. Podstawowe interfejsy API modelu to wyznaczona usługa usługi Databricks, co oznacza, że jest ona zgodna z granicami rezydencji danych wdrożonych przez usługę Databricks Geos.
Dodatkowe zasoby
- Get rozpoczęto wykonywanie zapytań do LLMs na platformie Databricks.
- Samouczek: wdrażanie i wykonywanie zapytań względem modelu niestandardowego
- Samouczek: tworzenie punktów końcowych modelu zewnętrznego w celu wykonywania zapytań dotyczących modeli OpenAI
- Wprowadzenie do tworzenia aplikacji sztucznej inteligencji w usłudze Databricks
- Wykonywanie wnioskowania wsadowego w LLM przy użyciu ai_query
- Migrowanie do środowiska obsługi modeli