Freigeben über


Übersicht: Bereitstellen von Modellen, Flows und Web-Apps mit Azure KI Studio

Azure KI Studio unterstützt die Bereitstellung großer Sprachmodelle (LLMs), Flows und Web-Apps. Durch die Bereitstellung eines großen Sprachmodells (Large Language Model, LLM) wird es für die Verwendung in einer Website, einer Anwendung oder anderen Produktionsumgebungen zur Verfügung gestellt. Diese Aufgabe umfasst in der Regel das Hosten des Modells auf einem Server oder in der Cloud und das Erstellen einer API oder einer anderen Schnittstelle für Benutzer, die mit dem Modell interagieren.

Der Prozess der Interaktion mit einem bereitgestellten Modell wird als Rückschließen bezeichnet. Rückschließen umfasst das Anwenden neuer Eingabedaten auf ein Modell, um Ausgaben zu generieren.

Sie können Rückschließen in verschiedenen Anwendungen verwenden. Beispielsweise können Sie ein Chat-Vervollständigungsmodell verwenden, um Wörter oder Ausdrücke, die eine Person in Echtzeit eingibt, automatisch zu vervollständigen. Sie können auch ein Chatmodell verwenden, um eine Antwort auf die Frage „Können Sie eine Reiseroute für einen Tagesbesuch in Seattle erstellen?“ zu generieren. Den Möglichkeiten sind keine Grenzen gesetzt.

Bereitstellen von Modellen

Zuerst können Sie Folgendes fragen:

  • „Welche Modelle kann ich bereitstellen?“

    Azure KI Studio unterstützt die Bereitstellung einiger der beliebtesten großen Sprach- und Vision-Basismodelle, die von Microsoft, Hugging Face, Meta und anderen kuratiert wurden.

  • „Wie wähle ich das richtige Modell aus?“

    Azure KI Studio bietet einen Modellkatalog, mit dem Sie Modelle basierend auf Ihrem Anwendungsfall durchsuchen und filtern können. Sie können ein Modell auch in einem Beispiel-Playground testen, bevor Sie es in Ihrem Projekt bereitstellen.

  • „Von wo aus kann ich in Azure KI Studio ein Modell bereitstellen?“

    Sie können ein Modell aus dem Modellkatalog oder über die Bereitstellungsseite Ihres Projekts bereitstellen.

Azure KI Studio vereinfacht Bereitstellungen. Eine einfache Auswahl oder eine Codezeile stellt ein Modell bereit und generiert einen API-Endpunkt für Ihre Anwendungen, die verwendet werden sollen.

Azure OpenAI-Modelle

Mit Azure OpenAI Service haben Sie Zugriff auf die neuesten OpenAI-Modelle mit den Unternehmensfunktionen von Azure. Erfahren Sie mehr darüber, wie Sie Azure OpenAI-Modelle in KI Studio bereitstellen.

Offene Modelle

Der Modellkatalog bietet Zugriff auf eine große Auswahl an Modellen für Modalitäten. Sie können bestimmte Modelle im Modellkatalog als Dienst mit nutzungsbasierter Bezahlung bereitstellen. Diese Funktionalität bietet eine Möglichkeit, die Modelle als API zu nutzen, ohne sie in Ihrem Abonnement zu hosten, während die Unternehmenssicherheit und Compliance beibehalten werden, die Organisationen benötigen.

Bereitstellen von Modellen als serverlose APIs

Für die Modellbereitstellung als serverlose API ist kein Kontingent aus Ihrem Abonnement erforderlich. Mit dieser Option können Sie Ihr Modell als Dienst (MaaS) bereitstellen. Sie verwenden eine Bereitstellung als serverlose API, und jedes Token wird nutzungsbasiert in Rechnung gestellt. Weitere Informationen zum Bereitstellen eines Modells als serverlose API finden Sie unter Bereitstellen von Modellen als serverlose APIs.

Bereitstellen von Modellen mit einer gehosteten verwalteten Infrastruktur

Sie können offene Modelle in Ihrem eigenen Abonnement mit einer verwalteten Infrastruktur, VMs und einer bestimmten Anzahl von Instanzen für die Kapazitätsverwaltung hosten. Es gibt eine breite Palette von Modellen von Azure OpenAI, HuggingFace und NVIDIA. Erfahren Sie mehr darüber, wie Sie offene Modelle auf Echtzeit-Endpunkten einsetzen können.

Abrechnung für die Bereitstellung und Ableitung von LLMs in Azure KI Studio

In der folgenden Tabelle wird beschrieben, wie Sie die Bereitstellung und Ableitung von LLMs in Azure KI Studio in Rechnung stellen. Weitere Informationen zum Nachverfolgen von Kosten finden Sie unter Überwachen der Kosten für Modelle, die über den Azure Marketplace angeboten werden.

Anwendungsfall Azure OpenAI-Modelle Modelle, die als serverlose APIs bereitgestellt werden (nutzungsbasierte Bezahlung) Mit verwalteten Computeressourcen bereitgestellte Modelle
Bereitstellen eines Modells aus dem Modellkatalog in Ihrem Projekt Nein, die Bereitstellung eines Azure OpenAI-Modells für Ihr Projekt wird Ihnen nicht in Rechnung gestellt. Ja, Ihre Abrechnung erfolgt entsprechend der Infrastruktur des Endpunkts.1 Ja, die Infrastruktur, die das Modell hostet, wird Ihnen in Rechnung gestellt.2
Testen des Chatmodus im Playground nach der Bereitstellung eines Modells für Ihr Projekt Ja. Ihnen werden basierend auf der Tokennutzung Gebühren in Rechnung gestellt. Ja. Ihnen werden basierend auf der Tokennutzung Gebühren in Rechnung gestellt. Keine
Testen eines Modells im Beispiel-Playground im Modellkatalog (falls zutreffend) Nicht zutreffend Keine Keine
Testen eines Modells in einem Playground unter Ihrem Projekt (falls zutreffend) oder auf der Registerkarte „Test“ auf der Seite mit den Bereitstellungsdetails unter Ihrem Projekt. Ja. Ihnen werden basierend auf der Tokennutzung Gebühren in Rechnung gestellt. Ja. Ihnen werden basierend auf der Tokennutzung Gebühren in Rechnung gestellt. Keine

1 Eine minimale Endpunktinfrastruktur wird pro Minute abgerechnet. Beim nutzungsbasierten Modell wird Ihnen die Infrastruktur, die das Modell hostet, nicht in Rechnung gestellt. Nachdem Sie den Endpunkt gelöscht haben, fallen keine weiteren Gebühren an.

2 Die Abrechnung erfolgt auf Minutenbasis in Abhängigkeit von der Produktebene und der Anzahl der Instanzen, die seit der Erstellung in der Bereitstellung verwendet wurden. Nachdem Sie den Endpunkt gelöscht haben, fallen keine weiteren Gebühren an.

Bereitstellen von Flows

Was ist ein Flow und warum möchten Sie ihn bereitstellen? Ein Flow ist eine Reihe von Tools, die Sie zum Erstellen einer generativen KI-Anwendung verwenden können. Die Bereitstellung eines Flows unterscheidet sich von der Bereitstellung eines Modells, in dem Sie den Flow mit Ihren eigenen Daten und anderen Komponenten anpassen können, z. B. Einbettungen, Vektor-Datenbanksuche und benutzerdefinierte Verbindungen. Eine Anleitung finden Sie unter Bereitstellen eines Flows für echtzeitbasierte Rückschlüsse.

Sie können beispielsweise einen Chatbot erstellen, der Ihre Daten verwendet, um fundierte und geerdete Antworten auf Benutzerabfragen zu generieren. Wenn Sie Ihre Daten im Playground hinzufügen, wird automatisch ein Prompt Flow für Sie generiert. Sie können den Fluss wie vorhanden bereitstellen oder anpassen. In Azure KI Studio können Sie auch ihren eigenen Flow von Grund auf neu erstellen.

Unabhängig davon, wie Sie einen Flow in Azure KI Studio erstellen möchten, können Sie ihn schnell bereitstellen und einen API-Endpunkt für Ihre Anwendungen generieren, die sie nutzen können.

Bereitstellen von Web-Apps

Das Modell oder Flow, das Sie bereitstellen, kann in einer Webanwendung verwendet werden, die auf Azure gehostet wird. Azure KI Studio bietet eine schnelle Möglichkeit zum Bereitstellen einer Web-App. Weitere Informationen finden Sie auf unter Azure KI Studio Enterprise Chat-Tutorial.

Planen der KI-Sicherheit für ein bereitgestelltes Modell

Für Azure OpenAI-Modelle wie GPT-4 stellt Azure KI Studio während der Bereitstellung einen Sicherheitsfilter bereit, um die verantwortungsvolle Nutzung von KI sicherzustellen. Der Sicherheitsfilter ermöglicht die Moderation schädlicher und sensibler Inhalte, um die Sicherheit von KI-verbesserten Anwendungen zu fördern.

Azure KI Studio bietet Modellüberwachung für bereitgestellte Modelle. Die Modellüberwachung für LLMs verwendet die neuesten GPT-Sprachmodelle, um zu überwachen und zu warnen, wenn die Ausgaben eines Modells schlecht gegenüber den festgelegten Schwellenwerten für die Sicherheit und Qualität der Generation funktionieren. Sie können zum Beispiel einen Monitor konfigurieren, um zu bewerten, wie gut die vom Modell generierten Antworten mit den Informationen aus der Eingabequelle übereinstimmen (Quellenübereinstimmung) und wie gut sie mit Ground-Truth-Aussagen oder -Dokumenten übereinstimmen (Ähnlichkeit).

Optimieren der Leistung eines bereitgestellten Modells

Die Optimierung von LLMs erfordert eine sorgfältige Prüfung mehrerer Faktoren, einschließlich betriebstechnischer Metriken (z. B. Latenz), Qualitätsmetriken (z. B. Genauigkeit) und Kosten. Es ist wichtig, mit erfahrenen Datenwissenschaftlern und Ingenieuren zusammenzuarbeiten, um sicherzustellen, dass Ihr Modell für Ihren spezifischen Anwendungsfall optimiert ist.