Freigeben über


GenAIOps für MLOps-Praktiker

Dieser Artikel bietet Anleitungen für Teams, die über Investitionen in Machine Learning Operations (MLOps) verfügen und diese Investitionen erweitern möchten, um generative KI in ihre Arbeitslast zu integrieren. Um eine generative KI-Workload zu operationalisieren, müssen Sie Ihre MLOps-Investitionen mit GenAIOps erweitern (Generative AI Ops, Vorgänge generativer KI; manchmal auch als LLMOps bezeichnet). In diesem Artikel werden technische Muster beschrieben, die sowohl für herkömmliche maschinelles Lernen als auch für generative KI-Workloads sowie für spezifische Muster für generative KI gelten. Der Artikel hilft Ihnen zu verstehen, wo Sie vorhandene Investitionen in die Operationalisierung anwenden können und wo Sie diese Investitionen erweitern müssen.

Technische Muster für generative KI

Generative KI-Workloads unterscheiden sich von herkömmlichen Machine Learning-Workloads auf verschiedene Arten:

  • Konzentrieren Sie sich auf generative Modelle. Herkömmliche Arbeitslasten für maschinelles Lernen konzentrieren sich auf das Training neuer Modelle, die trainiert werden, um bestimmte Aufgaben auszuführen. Generative KI-Workloads nutzen generative Modelle, die eine größere Vielfalt von Anwendungsfällen abdecken können und in einigen Fällen multimodal sind.

  • Konzentrieren Sie sich auf die Erweiterung der Modelle. Die wichtigste Ressource im herkömmlichen maschinellen Lernen ist das bereitgestellte Modell. Der Zugriff auf das Modell wird dem Clientcode in einer oder mehreren Workloads gewährt, aber die Workload ist nicht Teil des MLOps-Prozesses. Bei generativen KI-Lösungen ist ein wichtiger Facet der Lösung die Aufforderung, die dem generativen Modell bereitgestellt wird. Der Prompt muss zusammengesetzt sein und kann Daten aus einem oder mehreren Datenspeichern enthalten. Das System, das die Logik koordiniert, die verschiedenen Back-Ends aufruft, den Prompt generiert und das generative Modell aufruft, ist Teil des generativen KI-Systems, das Sie mit GenAIOps steuern müssen.

Obwohl einige generative KI-Lösungen herkömmliche Maschinelle Lernpraktiken wie Modellschulungen und Feinabstimmungen verwenden, stellen sie alle neue Muster vor, die Sie standardisieren sollten. In diesem Abschnitt finden Sie eine Übersicht über die drei allgemeinen Kategorien technischer Muster für generative KI-Lösungen:

  • Vorabtraining und Feinabstimmung
  • Eingabeaufforderungsengineering
  • Retrieval Augmented Generation (RAG)

Training und Feinabstimmung von Sprachmodellen

Derzeit verwenden viele generative KI-Lösungen vorhandene Basissprachmodelle, die vor der Verwendung keine Feinabstimmung erfordern. Einige Anwendungsfälle können von der Feinabstimmung eines Basismodells oder der Schulung eines neuen generativen KI-Modells, wie beispielsweise eines kleinen Sprachmodells (SLM), profitieren.

Schulung eines neuen SLM und Feinabstimmung eines generativen Foundation-Modells sind logisch die gleichen Prozesse wie das Training herkömmlicher Machine Learning-Modelle. Diese Prozesse sollten Ihre vorhandenen MLOps-Investitionen nutzen.

Eingabeaufforderungsengineering

Prompt Engineering umfasst alle Prozesse, die an der Generierung einer Eingabeaufforderung beteiligt sind, die als Eingabe an ein generatives Modell gesendet wird. Es gibt in der Regel einen Orchestrator, der einen Workflow zum Generieren des Prompts steuert. Der Orchestrator kann eine beliebige Anzahl von Datenspeichern aufrufen, um Informationen wie Grounding-Daten zu sammeln, und die erforderliche Logik anwenden, um den effektivsten Prompt zu generieren. Der Orchestrator wird dann als API-Endpunkt bereitgestellt, auf den der Clientcode in einer intelligenten Anwendung zugreift.

Das folgende Diagramm zeigt eine Architektur für Prompt Engineering.

Diagramm: Architektur für Prompt Engineering

Diese Kategorie von technischen Mustern kann viele Anwendungsfälle behandeln, darunter:

  • Klassifikation.
  • Übersetzung.
  • Zusammenfassung.
  • Retrieval-Augmented Generation, die im nächsten Abschnitt erläutert wird

Retrieval Augmented Generation

Retrieval-Augmented Generation (RAG) ist ein architekturbezogenes Muster, das Prompt Engineering verwendet, um domänenspezifische Daten als Grounding-Daten für ein Sprachmodell zu integrieren. Das Sprachmodell wird anhand einer bestimmten Datenmenge trainiert. Ihre Workload erfordert möglicherweise eine Begründung über Daten, die für Ihr Unternehmen, Ihre Kunden oder Ihre Domäne spezifisch sind. Bei RAG-Lösungen werden Ihre Daten abgefragt, und die Ergebnisse werden dem Sprachmodell als Teil des Prompts bereitgestellt, in der Regel über eine Orchestrierungsebene.

Eine gängige RAG-Implementierung besteht darin, Ihre Dokumente in Blöcke aufzuteilen und in einem Vektorspeicher zusammen mit Metadaten zu speichern. Vektorspeicher, z. B. Azure KI-Suche, ermöglichen es Ihnen, sowohl Text- als auch Vektor-Ähnlichkeitssuchen auszuführen, um kontextbezogene relevante Ergebnisse zurückzugeben. RAG-Lösungen können auch andere Datenspeicher verwenden, um Grounding-Daten zurückzugeben.

Das folgende Diagramm veranschaulicht eine RAG-Architektur:

Diagramm, das eine RAG-Architektur zeigt.

Erweitern von MLOps für technische Muster der generativen KI

In diesem Abschnitt werden die folgenden Schlüsselaspekte der Phasen der inneren und äußeren Schleife für die technischen Muster der generativen KI beschrieben, damit Sie verstehen, wo Sie Ihre bestehenden MLOps-Investitionen anwenden können und wo Sie sie erweitern müssen:

DataOps

Sowohl MLOps als auch GenAIOps wenden die Grundlagen von DataOps an, um erweiterbare und reproduzierbare Workflows zu erstellen, die sicherstellen, dass Daten bereinigt, transformiert und ordnungsgemäß für Experimente und Auswertungen formatiert werden. Die Workflowreproduzierbarkeit und Datenversionsverwaltung sind wichtige Features von DataOps für alle technischen Muster. Die Quellen, Typen und der Zweck der Daten sind musterabhängig.

Training und Feinabstimmung

Dieses technische Muster sollte die vorhandenen DataOps-Investitionen, die Sie im Rahmen Ihrer MLOps-Implementierung getätigt haben, vollständig nutzen. Mit der Reproduzierbarkeit und Datenversionsverwaltung können Sie mit unterschiedlichen Feature engineering-Daten experimentieren, die Leistung der verschiedenen Modelle vergleichen und Ergebnisse reproduzieren.

RAG und Prompt Engineering

Die Daten in RAG-Lösungen sollen Grounding-Daten bereitstellen, die dem Sprachmodell als Teil eines Prompts präsentiert werden. RAG-Lösungen erfordern oft die Verarbeitung großer Dokumente in eine Sammlung von Blöcken in der richtigen Größe und mit semantischer Relevanz und die dauerhafte Speicherung dieser Blöcke in einem Vektorspeicher. Weitere Informationen finden Sie unter Entwerfen und Entwickeln einer RAG-Lösung. Mit der Reproduzierbarkeit und Datenversionsverwaltung für RAG-Lösungen können Sie mit verschiedenen Blöcken und Einbettungsstrategien experimentieren, die Leistung vergleichen und auf frühere Versionen zurücksetzen.

Datenpipelines für das Aufteilen von Dokumenten in Blöcke sind nicht Teil von DataOps in herkömmlichen MLOps, sodass Sie Ihre Architektur und Ihre Vorgänge erweitern müssen. Die Datenpipelinen können Daten aus unterschiedlichen Quellen lesen, die sowohl strukturierte als auch unstrukturierte Daten enthalten. Sie können auch die transformierten Daten in verschiedene Ziele schreiben. Sie müssen Ihre Architektur erweitern, um die Datenbanken einzuschließen, die Sie für die Validierung von Daten verwenden. Allgemeine Datenspeicher für diese Muster sind Vektorspeicher wie KI-Suche.

Wie bei Training und Feinabstimmungen können Sie Azure Machine Learning-Pipelines oder andere Datenpipelinetools nutzen, um die Phasen der Blockerstellung zu koordinieren. Sie können die Prompt-Flows in Azure Machine Learning-Pipelines nutzen, um Ihre Daten auf konsistente und reproduzierbare Weise zu verarbeiten und anzureichern. Außerdem müssen Sie Ihre Vorgänge erweitern, um die Aktualität und Gültigkeit der Suchindizes in den Datenspeichern aufrechtzuerhalten.

Experimentieren

Experimentieren, ein Teil der inneren Schleife, ist der iterative Prozess zum Erstellen, Auswerten und Optimieren Ihrer Lösung. In den folgenden Abschnitten wird das Experimentieren für die gängigen technischen Muster der generativen KI erläutert.

Training und Feinabstimmung

Wenn Sie ein vorhandenes Sprachmodell optimieren oder ein kleines Sprachmodell trainieren, können Sie ihre aktuellen MLOps-Investitionen nutzen. Beispielsweise bieten Azure Machine Learning-Pipelines ein Toolkit zum effizienten und effektiven Durchführen von Experimenten. Diese Pipelines ermöglichen es Ihnen, den gesamten Feinabstimmungsprozess von der Datenvorverarbeitung bis hin zum Modelltraining und -auswertung zu verwalten.

RAG und Prompt Engineering

Das Experimentieren mit Prompt Engineering- und RAG-Workloads erfordert eine Erweiterung Ihrer MLOps-Investitionen. Bei diesen technischen Mustern endet die Workload nicht mit dem Modell. Die Workload erfordert einen Orchestrator. Dabei handelt es sich um ein System, das Logik ausführen, Datenspeicher für erforderliche Informationen wie Grounding-Daten aufrufen, Prompts generieren, Sprachmodelle aufrufen und viele weitere Aktionen ausführen kann. Die Datenspeicher und die Indizes in den Speichern sind ebenfalls Teil der Workloads. Sie müssen Ihre Betriebsabläufe erweitern, um diese Aspekte der Arbeitslast zu steuern.

Sie können bei Prompt Engineering mit mehreren Dimensionen experimentieren, u. a. mit verschiedenen Anweisungen, Personas, Beispielen, Einschränkungen und fortgeschrittenen Techniken wie Prompt Chaining. Beim Experimentieren mit RAG-Lösungen können Sie mit zusätzlichen Bereichen experimentieren:

  • Chunking-Strategie
  • Erstellen und Anreichern von Blöcken
  • Ihr Einbettungsmodell
  • Konfiguration des Suchindexes
  • Welche Suchvorgänge ausgeführt werden sollen (Vektor, Volltext, Hybrid usw.)

Wie in DataOps-beschrieben, sind Reproduzierbarkeit und Datenversionsverwaltung entscheidend für das Experimentieren. Mit einem guten Experimentframework können Sie Eingaben, z. B. Änderungen an Hyperparametern oder Prompts, zusammen mit den Ausgaben speichern, die beim Auswerten des Experiments verwendet werden sollen.

Wie in Ihrer vorhandenen MLOps-Umgebung können Sie Frameworks wie Azure Machine Learning-Pipelines nutzen. Azure Machine Learning-Pipelines verfügen über Features, die die Indizierung unterstützen, indem sie in Vektorspeicher wie AI Search integriert werden. Ihre GenAIOps-Umgebung kann diese Pipelinefeatures nutzen und mit Prompt Flow-Features kombinieren, die Prompt Engineering und benutzerdefinierte Vorverarbeitungslogik verwalten.

Evaluieren und Experimentieren

Die Auswertung ist der Schlüssel zum iterativen Experimentierprozess, um Ihre Lösung zu erstellen, zu bewerten und zu verfeinern. Die Auswertung Ihrer Änderungen liefert das Feedback, damit Sie Ihre Verfeinerungen vornehmen oder überprüfen können, ob die derzeitige Iteration Ihre Anforderungen erfüllt. In den folgenden Abschnitten wird die Auswertung in der Experimentierphase für die gängigen technischen Muster der generativen KI erörtert.

Training und Feinabstimmung

Zur Bewertung optimierter oder trainierter generativer KI-Modelle sollten Sie vorhandene MLOps-Investitionen nutzen. Wenn Sie beispielsweise Azure Machine Learning-Pipelines verwenden, um Ihre Maschinelle Lernmodellschulung zu koordinieren, können Sie dieselben Auswertungsfeatures verwenden, um Foundation-Sprachmodelle zu optimieren oder neue kleine Sprachmodelle zu trainieren. Diese Features umfassen die Evaluate Model component, die Branchenstandardauswertungsmetriken für bestimmte Modelltypen berechnet und Ergebnisse über Modelle hinweg vergleicht.

RAG und Prompt Engineering

Sie müssen Ihre bestehenden MLOps-Investitionen erweitern, um generative KI-Technologien auszuwerten. Sie können Tools wie Prompt Flow verwenden, das ein Framework für die Auswertung bereitstellt. Mit prompt flow können Teams benutzerdefinierte Auswertungslogik definieren, indem sie Kriterien und Metriken angeben, um die Leistung verschiedener Promptvarianten und LLMs (Large Language Models, große Sprachmodelle) zu bewerten. Mit diesem strukturierten Ansatz können Sie unterschiedliche Konfigurationen nebeneinander vergleichen, z. B. Hyperparameter oder Architekturvariationen, um das optimale Setup für bestimmte Aufgaben zu identifizieren.

Aufträge in prompt flow erfassen automatisch Eingabe- und Ausgabedaten während des gesamten Experimentiervorgangs, um einen umfassenden Testdatensatz zu erstellen. Durch die Analyse dieser Daten können Sie Erkenntnisse gewinnen und vielversprechende Konfigurationen ermitteln, die in zukünftige Iterationen einfließen können. Sie können die Entwicklung Ihrer generativen KI-Lösungen beschleunigen, indem Sie prompte Abläufe verwenden, um effiziente und systematische Experimente durchzuführen.

Der Experimentiervorgang ist unabhängig vom Anwendungsfall für Ihre generative KI-Lösung identisch. Zu diesen Anwendungsfällen gehören Klassifizierung, Zusammenfassung, Übersetzung und sogar RAG. Der wichtige Unterschied ist die Metrik, die Sie zum Auswerten der verschiedenen Anwendungsfälle verwenden. Einige Metriken, die man basierend auf dem Anwendungsfall berücksichtigen sollte, sind im Folgenden aufgeführt.

  • Übersetzung: BLEU
  • Zusammenfassung: ROUGE. BLEU, BERTScore, METEOR
  • Klassifizierung: Präzision, Recall, Genauigkeit, Kreuzentropie
  • RAG: Geerdetheit, Relevanz

Hinweis

Weitere Informationen zur Bewertung von Sprachmodellen und RAG-Lösungen finden Sie unter End-to-End-Evaluierung der LLM.

Im Allgemeinen erweitern generative KI-Lösungen die Verantwortlichkeiten des Machine-Learning-Teams vom Modelltraining bis hin zum Prompt-Engineering und zum Verwalten von Ankerdaten. Da Prompt Engineering und RAG-Experimentieren und -Auswerten nicht notwendigerweise Data Scientists erfordern, ist es möglicherweise verlockend, diese Funktionen mit anderen Rollen wie technischen Fachkräften für Software und Daten auszuführen. Sie stoßen auf Herausforderungen, wenn Sie Data Scientists aus dem Experimentieren mit Prompt Engineering- und RAG-Lösungen ausschließen. Andere Rollen werden normalerweise nicht darauf geschult, Ergebnisse wissenschaftlich zu bewerten, im Gegensatz zu vielen Datenwissenschaftlern. Lesen Sie die siebenteilige Artikelreihe Entwerfen und Entwickeln einer RAG-Lösung, um ein Verständnis für die Komplexität des Entwerfens von generativen KI-Lösungen zu erhalten.

Wenn Sie in generative KI-Lösungen investieren, können Sie den Druck auf Ihre Data-Science-Ressourcen verringern. Die Rolle von Softwaretechnikern erweitert sich in diesen Lösungen. Softwareingenieure sind beispielsweise hervorragende Fachkräfte für die Verwaltung der Orchestrierungsverantwortung in generativen KI-Lösungen und sind im Einrichten der Auswertungsmetriken in Tools wie Prompt Flow versiert. Es ist wichtig, dass Datenwissenschaftler diese Arbeit überprüfen lassen. Sie verfügen über die Ausbildung und Erfahrung, um zu verstehen, wie die Experimente richtig ausgewertet werden.

Bereitstellung

Einige generative KI-Lösungen umfassen die Bereitstellung von benutzerdefinierten trainierten Modellen oder die Feinabstimmung vorhandener Modelle, andere jedoch nicht. Für generative KI-Lösungen müssen Sie die zusätzlichen Aufgaben zur Bereitstellung der Orchestratoren und aller Datenspeicher einschließen. In den folgenden Abschnitten wird die Bereitstellung für die gängigen technischen Muster der generativen KI erläutert.

Training und Feinabstimmung

Sie sollten Ihre vorhandenen MLOps-Investitionen mit einigen möglichen Anpassungen verwenden, um generative KI-Modelle bereitzustellen und grundlegende Modelle zu optimieren. Um beispielsweise ein großes Sprachmodell in Azure OpenAI zu optimieren, müssen Sie sicherstellen, dass Ihre Schulungs- und Validierungsdatensätze im JSONL-Format vorliegen, und Sie müssen die Daten über eine REST-API hochladen. Sie müssen auch einen Feinabstimmungsauftrag erstellen. Zum Bereitstellen eines trainierten kleinen Sprachmodells können Sie Ihre vorhandenen MLOps-Investitionen nutzen.

RAG und Prompt Engineering

Bei RAG und Prompt Engineering gibt es zusätzliche Aspekte, einschließlich Orchestrierungslogik, Änderungen an Datenspeichern wie Indizes und Schemas sowie Änderungen an der Datenpipelinelogik. Die Orchestrierungslogik wird in der Regel in Frameworks wie prompt flow, Semantic Kernel oder LangChain gekapselt. Sie können den Orchestrator für unterschiedliche Computeressourcen bereitstellen, einschließlich Ressourcen, für die Sie derzeit u. U. benutzerdefinierte Modelle bereitstellen. Beispiele für die Bereitstellung von prompt flow für verwaltete Onlineendpunkte von Azure Machine Learning oder Azure App Services finden Sie unter End-to-End-Chatarchitektur von Azure OpenA. Für die Bereitstellung in App Service verpackt die Azure OpenAI-Chatarchitektur den Datenfluss und seine Abhängigkeiten als Container, eine Vorgehensweise, die die Portabilität und Konsistenz in verschiedenen Umgebungen erhöht.

Implementierungen von Änderungen an Datenbankressourcen, wie Änderungen an Datenmodellen oder Indizes, sind neue Aufgaben, die in GenAIOps angesprochen werden müssen. Eine gängige Vorgehensweise beim Arbeiten mit großen Sprachmodellen besteht darin, ein Gateway vor dem LLM zu verwenden.

Viele generative KI-Architekturen, die plattformgehostete Sprachmodelle nutzen, wie die von Azure OpenAI bereitgestellten, umfassen ein Gateway wie Azure API Management. Zu den Gateway-Anwendungsfällen gehören Lastenausgleich, Authentifizierung und Überwachung. Das Gateway kann eine Rolle bei der Bereitstellung neu trainierter oder fein abgestimmter Modelle spielen, sodass Sie neue Modelle schrittweise bereitstellen können. Die Verwendung eines Gateways zusammen mit der Modellversionsverwaltung ermöglicht es Ihnen, das Risiko bei der Bereitstellung von Änderungen zu minimieren und ein Rollback auf frühere Versionen auszuführen, wenn Probleme auftreten.

Bereitstellungen von Elementen, die spezifisch für generative KI sind, z. B. der Orchestrator, sollten die richtigen betrieblichen Verfahren befolgen, z. B.:

  • Strenge Tests, einschließlich Komponententests.
  • Integrationstests.
  • A/B-Tests
  • End-to-End-Tests
  • Bereitstellen von Strategien wie Canary- oder Blau/Grün-Bereitstellungen

Da die Bereitstellungsaufgaben für generative KI-Anwendungen über die Modellbereitstellung hinausgehen, benötigen Sie möglicherweise zusätzliche Stellenrollen, um die Bereitstellung und Überwachung von Elementen wie der Benutzeroberfläche, dem Orchestrator und den Datenspeichern zu verwalten. Diese Rollen werden häufig an DevOps-Expertenkompetenzen ausgerichtet.

Ableiten und Überwachen

Die Ableitung ist der Prozess der Übergabe von Eingaben an ein trainiertes und bereitgestelltes Modell, das dann eine Antwort generiert. Sie sollten sowohl herkömmliche Machine Learning-Lösungen als auch generative KI-Lösungen aus drei Perspektiven überwachen: Betriebsüberwachung, Lernen aus Produktion und Ressourcenmanagement.

Betriebsüberwachung

Die operative Überwachung ist der Prozess der Beobachtung der laufenden Vorgänge des Systems, einschließlich Datenvorgängen (DataOps) und Modellschulungen. Diese Art der Überwachung sucht nach Abweichungen, einschließlich Fehlern, Änderungen an Fehlerraten und Änderungen an Verarbeitungszeiten.

Für das Modelltraining und die Feinabstimmung beobachten Sie in der Regel die Datenvorgänge für die Verarbeitung von Featuredaten, das Modelltraining und die Feinabstimmung. Bei der Überwachung dieser Prozesse der inneren Schleife sollten Ihre vorhandenen MLOps- und DataOps-Investitionen genutzt werden.

Für Prompt Engineering in generativen KI-Lösungen müssen Sie zusätzliche Überwachungsaspekte berücksichtigen. Sie müssen die Datenpipelines überwachen, die die Grounding-Daten oder andere Daten verarbeiten, die zum Generieren von Prompts verwendet werden. Diese Verarbeitung kann Datenspeichervorgänge wie das Erstellen oder Neuerstellen von Indizes umfassen.

Lernen aus der Produktion

Ein kritischer Aspekt der Überwachung während der Rückschlussphase ist das Lernen aus der Produktion. Die Überwachung für herkömmliche Modelle des maschinellen Lernens verfolgt Metriken wie Genauigkeit, Präzision und Rückruf. Ein wichtiges Ziel ist es, Vorhersageabweichungen zu vermeiden. Lösungen, die generative Modelle verwenden, um vorhersagen zu können, z. B. mithilfe eines GPT-Modells für die Klassifizierung, sollten Ihre vorhandenen MLOps-Überwachungsinvestitionen nutzen.

Lösungen, die generative Modelle verwenden, um das Grounding von Daten durchzuführen, verwenden Metriken wie Fundiertheit, Vollständigkeit, Nutzung und Relevanz. Ziel ist es, sicherzustellen, dass das Modell die Abfrage vollständig beantwortet und die Antwort auf ihren Kontext basiert. Hier müssen Sie versuchen, Probleme wie Datenabweichungen zu vermeiden. Sie möchten sicherstellen, dass die Basisdaten und die Eingabeaufforderung, die Sie dem Modell geben, maximal relevant für die Benutzerabfrage sind.

Lösungen, die generative Modelle für nicht-prädiktive Aufgaben wie RAG-Lösungen verwenden, profitieren häufig von menschlichem Feedback von Endbenutzern, um Nützlichkeitsempfindungen zu bewerten. Benutzeroberflächen können Feedback wie Daumen nach oben oder unten erfassen, und Sie können diese Daten verwenden, um die Antworten regelmäßig auszuwerten.

Ein gängiges Muster für generative KI-Lösungen besteht darin, ein Gateway vor den generativen Modellen bereitzustellen. Einer der Anwendungsfälle für das Gateway ist die Überwachung der Basismodelle. Sie können das Gateway verwenden, um Eingabeaufforderungen und -ausgaben zu protokollieren.

Ein weiterer wichtiger Bereich zur Überwachung von generativen Lösungen ist die Inhaltssicherheit. Ziel ist es, schädliche oder unerwünschte Inhalte zu moderieren und zu erkennen. Azure AI Content Safety Studio ist ein Beispiel für ein Tool, mit dem Sie Inhalte moderieren können.

Ressourcenverwaltung

Generative Lösungen, die Modelle verwenden, die als Dienst verfügbar gemacht werden, wie Azure OpenAI, weisen unterschiedliche Ressourcenverwaltungsaspekte auf als Modelle, die Sie selbst bereitstellen. Bei Modellen, die als Dienst verfügbar gemacht werden, sind Sie nicht mit der Infrastruktur befasst. Stattdessen beschäftigen Sie sich mit dem Dienstdurchsatz, dem Kontingent und der Drosselung. Azure OpenAI verwendet Token für Abrechnung, Drosselung und Kontingente. Sie sollten die Kontingentnutzung für Kostenmanagement und Leistungseffizienz überwachen. Mit Azure OpenAI können Sie die Tokenverwendung protokollieren.

Tools

Viele MLOps-Experten haben sich auf ein Toolkit geeinigt, um die verschiedenen Aktivitäten rund um Automatisierung, Nachverfolgung, Bereitstellung, Experimente usw. zu organisieren und die gemeinsamen Bedenken und Implementierungsdetails dieser Prozesse zu abstrahieren. Eine gemeinsame einheitliche Plattform ist MLflow. Bevor Sie nach neuen Tools zur Unterstützung von GenAIOps-Mustern suchen, sollten Sie Ihre vorhandenen MLOps-Tools überprüfen, um die Unterstützung für generative KI zu bewerten. Beispielsweise unterstützt MLflow eine breite Palette von Features für Sprachmodelle.

MLOps- und GenAIOps-Reifemodelle

Möglicherweise haben Sie das MLOps-Reifemodell verwendet, um die Reife Ihrer aktuellen Machine Learning-Vorgänge und -Umgebung zu bewerten. Wenn Sie Ihre MLOps-Investitionen für generative KI-Workloads erweitern, sollten Sie das GenAIOps-Reifegradmodell verwenden, um diese Vorgänge zu bewerten. Möglicherweise sind Sie versucht, die beiden Reifemodelle zu kombinieren, aber wir empfehlen, jede unabhängig voneinander zu messen. MLOps und GenAIOps werden sich unabhängig voneinander entwickeln. Beispielsweise können Sie im MLOps-Reifemodell auf Ebene 4, aber auf Ebene 1 für generative KI sein.

Zusammenfassung

Wenn Sie mit der Erweiterung Ihrer MLOps-Investitionen beginnen, um generative KI einzuschließen, ist es wichtig zu verstehen, dass Sie nicht von vorn beginnen müssen. Sie können Ihre vorhandenen MLOps-Investitionen für einige der generativen TECHNISCHEn KI-Muster verwenden. Die Feinabstimmung von generativen Modellen ist ein hervorragendes Beispiel. Es gibt Bereiche von generativen KI-Lösungen wie Prompt Engineering und RAG, die neue Prozesse sind, daher müssen Sie Ihre vorhandenen Betriebsinvestitionen erweitern und neue Fähigkeiten erwerben.

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.

Nächste Schritte