Projektowanie danych szkoleniowych dla obciążeń sztucznej inteligencji na platformie Azure

Artykuł
11/19/2024

Podczas projektowania danych dotyczących funkcji sztucznej inteligencji w aplikacjach należy wziąć pod uwagę zarówno wymagania niefunkcjonalne, jak obsługa, koszt i zabezpieczenia oraz wymagania funkcjonalne związane z pozyskiwaniem, przygotowywaniem i walidacją danych.

Nie można rozdzielić projektu danych i projektowania aplikacji. Projekt aplikacji wymaga zrozumienia przypadków użycia, wzorców zapytań i wymagań dotyczących aktualności. Aby spełnić wymagania biznesowe, które wymagają używania sztucznej inteligencji, aplikacja może potrzebować danych wyjściowych z modeli dyskryminacyjnych, modeli generowania lub kombinacji typów modeli.

Aby uzyskać znaczące wyniki, modele sztucznej inteligencji należy wytrenować. Trenowanie modelu obejmuje nauczanie modelu w celu klasyfikowania lub przewidywania nowych lub niezauczanych sytuacji. Dane szkoleniowe muszą być dostosowane do konkretnego problemu i kontekstu obciążenia.

Trenowanie nadzorowane obejmuje dostarczanie modelu z przykładami oznaczonymi etykietami. Ten typ trenowania jest przydatny, gdy żądany wynik jest jasny. Z kolei uczenie nienadzorowane umożliwia modelowi identyfikowanie wzorców i relacji w danych bez wskazówek dotyczących oczekiwanych danych wyjściowych. Podczas trenowania typ algorytmu i jego parametry są dostosowywane w celu kontrolowania sposobu uczenia się modelu. Podejście różni się w zależności od typu modelu, który może obejmować sieci neuronowe, drzewa decyzyjne i inne.

Na przykład modele wykrywania obrazów są zwykle trenowane na zadaniach, takich jak wykrywanie obiektów, rozpoznawanie twarzy lub zrozumienie sceny. Uczą się one z obrazów z adnotacjami w celu identyfikowania określonych obiektów lub funkcji. Inne typowe przykłady obejmują algorytmy wykrywania oszustw i modele przewidywania punktów cenowych. Modele te uczą się na podstawie historycznych danych finansowych w celu podejmowania świadomych decyzji.

W tym artykule skupiono się głównie na poprzednim przypadku użycia, w którym modele są trenowane , zanim będą mogły przekazać znaczące dane wejściowe aplikacji. Artykuł zawiera wskazówki dotyczące zbierania, przetwarzania, przechowywania, testowania i konserwacji danych. Projekt danych na potrzeby eksploracyjnej nauki o danych lub analizy biznesowej za pośrednictwem sztucznej inteligencji nie jest omówiony. Celem jest wsparcie wymagań szkoleniowych za pomocą strategii, które są zgodne z wymaganiami dotyczącymi obciążenia, udostępniając zalecenia dotyczące potoku danych szkoleniowych obciążenia sztucznej inteligencji.

Aby uzyskać informacje na temat projektowania danych dla modeli sztucznej inteligencji, które wymagają kontekstu podczas wnioskowania, zobacz Projektowanie danych grounding.

Ważne

Spodziewaj się, że projekt danych będzie procesem iteracyjnym opartym na eksperymentach statystycznych. Aby osiągnąć akceptowalny poziom jakości, dostosuj dane treningowe, przetwarzanie, opracowywanie funkcji modelu i hiperparametry modelu (jeśli jest to możliwe). Ta pętla eksperymentowania zwykle odbywa się zarówno podczas początkowego trenowania modelu, jak i podczas ciągłych działań uściślinia w celu rozwiązania problemu z danymi i dryfem modelu w ciągu cyklu życia funkcji w obciążeniu.

Zalecenia

Poniżej przedstawiono podsumowanie zaleceń przedstawionych w tym artykule.

Zalecenie	opis
Wybierz źródła danych na podstawie wymagań dotyczących obciążenia.	Uwzględnij dostępne zasoby i to, czy źródło danych może pomóc w osiągnięciu akceptowalnej jakości danych na potrzeby trenowania modelu. Omówienie zarówno pozytywnych, jak i negatywnych przykładów. Połącz różne typy danych, aby osiągnąć odpowiednią kompletność na potrzeby analizy i modelowania. Rozważ techniki, takie jak Syntetyczna mniejszość oversampling Technique (SMOTE) dla niedoboru danych lub dysproporcji. ▪ Pozyskiwanie i analiza danych
Przeprowadzaj analizę danych na temat zebranych danych wcześnie.	Wykonywanie procesów analizy, takich jak Eksploracyjna analiza danych (EDA), w trybie offline. Weź pod uwagę koszty i implikacje dotyczące zabezpieczeń. W przypadku małych zestawów danych bez ograniczeń zasobów możesz rozważyć przeprowadzenie analizy w źródle. ▪ Magazyn zbierania danych
Zachowaj segmentację danych, jeśli wymagają tego wymagania biznesowe i techniczne.	Jeśli używasz źródeł danych, które mają odrębne wymagania dotyczące zabezpieczeń, utwórz oddzielne potoki dla każdego modelu. Ustanów mechanizmy kontroli dostępu w celu ograniczenia interakcji z określonymi podzestawami danych. ▪ Segmentacja danych
Wstępne przetwarzanie danych w celu ich znaczenia w odniesieniu do celów szkoleniowych.	Uściślij jakość pozyskanych danych, filtrując szum, ponownie łącząc dane, zwracając się do duplikatów i standandaryzując różne formaty. ▪ Przetwarzanie wstępne danych
Unikaj trenowania nieaktualnych danych.	Monitoruj dryf danych i dryf koncepcji w ramach wewnętrznych i zewnętrznych pętli operacyjnych, aby zachować dokładność i niezawodność modeli w czasie. Regularnie aktualizuj dane treningowe przy użyciu nowych obserwacji. Zdefiniuj warunki wyzwalające ponowne trenowanie modelu i określanie częstotliwości aktualizacji. ▪ Konserwacja danych

Typy danych

Aby utworzyć moc predykcyjną w modelach, musisz zebrać dane, przetworzyć je i podawać je do modelu. Ten proces jest zwykle koncepcyjny jako potok podzielony na etapy. Każdy etap potoku może obsługiwać ten sam zestaw danych, ale może obsługiwać różne cele. Zazwyczaj dane tego typu są obsługiwane:

Dane źródłowe to dane obserwacji punktu w czasie. Może to być również dane, które można oznaczyć jako potencjalne dane wejściowe potoku danych.

Te dane są zwykle uzyskiwane z produkcji lub z zewnętrznego źródła. Te źródła danych mogą znajdować się na kontach magazynu, bazach danych, interfejsach API lub innych źródłach. Dane mogą być w różnych formatach danych, takich jak bazy danych OLTP, dokumenty bez struktury lub pliki dziennika. Te dane służą jako potencjalne dane wejściowe do potoku danych.
Dane szkoleniowe to podzbiór danych źródłowych używanych do dostarczania przykładów do modelu. Przykłady to wstępnie obliczone dane opisowe, które pomagają modelowi uczyć się wzorców i relacji. Bez tych danych model nie może wygenerować odpowiednich danych wyjściowych.
Dane ewaluacyjne to podzestaw danych źródłowych używanych do monitorowania i weryfikowania wydajności modelu uczenia maszynowego podczas trenowania. Różni się ona od danych treningowych i testowych i jest używana do okresowego oceniania wydajności modelu podczas fazy trenowania i dostrajania hiperparametrów. Aby uzyskać więcej informacji, zobacz Ocena modelu.
Dane testowe służą do weryfikowania mocy predykcyjnej wytrenowanego modelu. Te dane są próbkowane z danych źródłowych, które nie były używane do trenowania. Zawiera on obserwacje z produkcji, aby proces testowania był niejednoznaczny. Z perspektywy projektu danych należy przechowywać te dane. Aby uzyskać informacje na temat modeli testowania, zobacz obszar projektowy Testowanie .

W niektórych przypadkach informacje udostępniane przez użytkowników podczas interakcji z aplikacją mogą ostatecznie stać się danymi źródłowymi. Ogólnie rzecz biorąc, zalecamy, aby dane wejściowe użytkownika używane w ten sposób były wysokiej jakości. W przeciwnym razie potrzeba ciągłego obsługiwania problemów z jakością podrzędnych może stać się problematyczna. Wskazówki dotyczące obsługi danych użytkowników nie zostały omówione w tym artykule.

Pozyskiwanie i analiza danych

Dane szkoleniowe są zbierane w wstępnie określonym oknie, które ma wystarczające reprezentacje na potrzeby trenowania wybranego typu modelu. Na przykład w przypadku trenowania modelu klasyfikacji binarnej dane szkoleniowe muszą zawierać reprezentacje tego, co to jest przypadek (pozytywne przykłady) i co to nie jest przypadek (negatywne przykłady). Aby dane szkoleniowe zawierały istotne znaczenie, należy przeprowadzić analizę EDA na wczesnym etapie projektowania funkcji.

Usługa EDA ułatwia analizowanie danych źródłowych w celu identyfikowania cech, relacji, wzorców i problemów z jakością. Możesz przeprowadzić EDA bezpośrednio w źródłowym magazynie danych lub replikować dane do scentralizowanych magazynów, takich jak magazyn typu data lake lub magazyn danych. Wynikiem tego procesu jest informowanie o zbieraniu i przetwarzaniu danych w celu efektywnego trenowania modelu.

Uwaga

Mimo że EDA jest procesem przedprodukcyjnym, używa danych pochodzących z środowiska produkcyjnego. Zastosuj ten sam poziom kontroli do tego procesu, co w przypadku środowiska produkcyjnego.

Poniżej przedstawiono kilka zagadnień dotyczących zbierania danych w ramach przygotowań do trenowania modelu.

Źródła danych

Dane można zbierać z następujących źródeł:

Zastrzeżone dane są tworzone lub własnością organizacji. Nie jest przeznaczona do użytku publicznego. Służy do celów wewnętrznych.
Źródła publiczne są dostępne dla wszystkich użytkowników. Źródła te obejmują witryny internetowe, dokumenty badawcze i publicznie udostępnione bazy danych. Może to być specyficzne dla obszaru niszowego. Na przykład treści z Witryny Wikipedia i PubMed są uznawane za publicznie dostępne.

Wybór źródeł danych zależy od wymagań dotyczących obciążenia, dostępnych zasobów i jakości danych, które są dopuszczalne do trenowania modelu. Niezrównoważone zestawy danych mogą prowadzić do stronniczych modeli, dlatego należy zaprojektować zbieranie danych, aby uzyskać wystarczające próbki reprezentatywnych danych. Może być konieczne przeładowanie danych mniejszościowych lub niepełne próbkowanie danych większościowych. Jeśli dane są ograniczone lub niezrównoważone, rozważ techniki, takie jak SMOTE i syntetyczne generowanie danych.

Magazyn zbierania danych

Istnieją dwie główne opcje zbierania danych źródłowych:

Wykonywanie zapytań dotyczących danych w źródle danych
Kopiowanie danych do zlokalizowanego magazynu danych, a następnie wykonywanie zapytań względem tego magazynu

Wybór zależy od wymagań dotyczących obciążenia i ilości danych. Jeśli masz stosunkowo małą ilość danych, system źródłowy może obsługiwać zapytania pierwotne bezpośrednio. Typowym rozwiązaniem jest jednak wykonywanie zapytań i analizowanie z zlokalizowanego magazynu.

Kompromis. Chociaż zlokalizowane magazyny danych mogą ułatwić analizę i proces trenowania, należy również równoważyć koszty, zabezpieczenia i wymagania dotyczące modelu.

Duplikowanie danych wiąże się z kosztami magazynowania i obliczeń. Obsługa oddzielnej kopii wymaga dodatkowych zasobów. Kopie lokalne mogą zawierać poufne informacje. Jeśli tak, musisz chronić dane przy użyciu zwykłych środków zabezpieczeń.

Jeśli dane produkcyjne są używane do trenowania danych, muszą być objęte wszystkimi oryginalnymi ograniczeniami klasyfikacji danych.

Dane mogą być dostarczane do procesu trenowania (tryb wypychania) lub sam proces może wykonywać zapytania dotyczące źródła danych (tryb ściągania). Wybór zależy od własności, wydajności i ograniczeń zasobów.

Gdy dane są wypychane do obciążenia, właściciel źródła danych jest odpowiedzialny za dostarczanie nowych danych. Właściciel obciążenia zapewnia odpowiednią lokalizację w zlokalizowanym magazynie danych do przechowywania danych. Takie podejście ma zastosowanie do zastrzeżonych danych należących do organizacji, a nie do źródeł publicznych.

Istnieją dwa podejścia, których można użyć do ściągania danych. W jednym podejściu obciążenie wykonuje zapytania względem magazynu danych, pobiera niezbędne dane i umieszcza je w zlokalizowanym magazynie. Innym sposobem jest wykonywanie zapytań w czasie rzeczywistym w pamięci. Decyzja zależy od ilości danych i dostępnych zasobów obliczeniowych. W przypadku mniejszych zestawów danych pobieranie w pamięci może być wystarczające do trenowania modelu.

Niezależnie od tego, czy używasz trybu wypychania, czy ściągania, unikaj trenowania modeli na nieaktualnych danych. Częstotliwość aktualizacji danych powinna być zgodna z wymaganiami dotyczącymi obciążenia.

Segmentacja danych

Wymagania specyficzne dla obciążenia mogą wymagać segmentacji danych. Oto kilka potencjalnych przypadków użycia:

Wymagania dotyczące zabezpieczeń często napędzają decyzje dotyczące segmentacji. Na przykład ograniczenia regulacyjne mogą uniemożliwiać eksportowanie danych między regionami geopolitycznym. Jeśli projekt aplikacji umożliwia korzystanie z oddzielnych modeli, projekt danych uwzględnia oddzielne potoki danych dla każdego modelu.

Jeśli jednak używany jest pojedynczy model, podzielone na segmenty źródła danych są przesyłane do tego modelu. Musisz wytrenować model na danych z obu obszarów geograficznych, co potencjalnie zwiększa złożoność.

Niezależnie od tego, czy aplikacja korzysta z jednego modelu, czy wielu modeli, zachowaj środki zabezpieczeń w poszczególnych segmentach danych, aby była chroniona przy użyciu tego samego poziomu rygora co dane w miejscu pochodzenia.
Szybkość świeżości danych może być czynnikiem oddzielającym dane. Dane z różnych źródeł mogą być odświeżane w różnych interwałach czasu. Jeśli dane się zmienią, ponowne trenowanie staje się konieczne. Segmentacja umożliwia szczegółową kontrolę nad cyklem życia danych. Rozważ użycie oddzielnych tabel lub potoków dla różnych segmentów danych.

Niezależnie od przypadku użycia, gdy dane są segmentowane, kontrola dostępu jest kluczem. Specjaliści ds. danych, tacy jak inżynierowie danych i analitycy danych, eksplorują dostępne dane źródłowe, aby zrozumieć wzorce i relacje. Ich szczegółowe informacje przyczyniają się do modeli szkoleniowych, które przewidują wyniki. Ustanów mechanizmy kontroli dostępu, aby zapewnić, że tylko autoryzowani użytkownicy mogą wchodzić w interakcje z określonymi podzestawami danych. Zastosuj najmniejsze uprawnienia do danych, które są uważane za istotne. Współpraca z właścicielami danych w celu skonfigurowania odpowiednich uprawnień.

Przetwarzanie wstępne danych

W rzeczywistym scenariuszu dane źródłowe nie są po prostu przechowywane w scenariuszach sztucznej inteligencji. Istnieje pośredni proces, który przygotowuje dane do trenowania. Na tym etapie dane są pozbawione szumu, dzięki czemu są przydatne do użycia. Podczas pracy z danymi źródłowymi analitycy danych angażują się w proces eksploracji, eksperymentowania i podejmowania decyzji. Ich głównym celem jest zidentyfikowanie i wyodrębnienie części danych źródłowych, które mają moc predykcyjną.

Logika przetwarzania wstępnego zależy od problemu, typu danych i żądanych wyników. Poniżej przedstawiono kilka typowych technik przetwarzania wstępnego. Ta lista nie jest wyczerpująca. Rzeczywiste kryteria obciążenia będą oparte na wymaganiach biznesowych.

Jakość. Przetwarzanie wstępne może pomóc w zapewnieniu, że dane szkoleniowe są pozbawione szumu. Celem jest zapewnienie, że każdy wiersz w danych treningowych reprezentuje wyraźną obserwację lub dobry przykład, który jest istotny dla twojego przypadku użycia i wyeliminować obserwacje, które nie mają jakości lub mocy predykcyjnej. Na przykład w przypadku sortowania przeglądów produktów możesz wyeliminować zbyt krótkie dane. Musisz dowiedzieć się, jaka jakość danych generuje znaczące wyniki predykcyjne.
Zmiana rozmiaru. Pola danych źródłowych, które są zbyt specyficzne, mogą ograniczać uprawnienia predykcyjne. Rozważmy na przykład pole adresu. Rozszerzanie zakresu od pełnego adresu (numer domu i nazwa ulicy) na wyższy poziom, taki jak miasto, stan lub kraj/region, może być bardziej istotne.
Deduplikacja. Wyeliminowanie nadmiarowości może zapewnić, że dane szkoleniowe pozostają dokładne i reprezentatywne. W niektórych przypadkach częstotliwość, z jaką dokonuje się obserwacji, nie jest odpowiednia. Na przykład podczas skanowania dzienników, jeśli wpis dziennika pojawia się 1000 razy, oznacza to jego częstotliwość. Niekoniecznie oznacza to, że jest to poważniejszy błąd niż dziennik, który wystąpił tylko raz. Ten typ nadmiarowości może powodować szum.
Obsługa danych poufnych. Wyeliminuj dane osobowe, chyba że jest to absolutnie istotne dla potęgi predykcyjnej modelu w sposób, którego nie można osiągnąć poprzez anonimizację. Dane szkoleniowe powinny być skuteczne bez naruszania prywatności. Jeśli dane zapewniają wartość, należy pamiętać o zagadnieniach etycznych związanych z obsługą poufnych danych. Aby uzyskać więcej informacji, zobacz sekcję Odpowiedzialna sztuczna inteligencja.
Znormalizowana transformacja. Eksperci z dziedziny uważają, że powyższe techniki są główną częścią inżynierii cech. Szeroki zakres i zróżnicowane dane źródłowe ostatecznie muszą zostać scalone z magazynami funkcji, w których funkcje są zorganizowane (na przykład w tabele funkcji) w celu jawnego przeznaczenia modeli trenowania. Po wybraniu danych predykcyjnych na potrzeby trenowania przekształć dane w ustandaryzowany format. Standaryzacja zapewnia również zgodność z modelem trenowania.

Konwertowanie obrazów na reprezentacje tekstowe jest formą transformacji. Na przykład można przekonwertować zeskanowane dokumenty lub obrazy na tekst czytelny dla maszyny.

Aby zapewnić zgodność z modelami, może być konieczne dostosowanie orientacji lub współczynników proporcji obrazów w celu dopasowania ich do oczekiwań modelu.

Uwaga

Mieszanie dużych ilości danych ze strukturą i bez struktury może zwiększyć czas przetwarzania. Zespoły ds. obciążeń powinny mierzyć wpływ przetwarzania różnych formatów. Ponieważ okno między ponownym trenowaniem wysiłków staje się krótsze, ilość czasu poświęcanego na przetwarzanie wstępne staje się bardziej krytyczna.

Przechowywanie danych

Po wytrenuj model, sprawdź, czy dane używane do trenowania i ponownego kompilowania modelu w następnym oknie trenowania.

Jeśli dane pozostaną stosunkowo niezmienione, ponowne trenowanie może nie być konieczne, chyba że wystąpi dryf modelu. Jeśli dokładność przewidywania się zmniejszy, należy ponownie wytrenować model. Możesz ponownie pozyskać dane, wstępnie przetworzyć i skompilować model. Ten przebieg akcji jest najlepszy, jeśli od ostatniego okna trenowania występuje znaczna różnica danych. Jeśli istnieje duża ilość danych i nie uległa zmianie, może nie być konieczne wstępne przetwarzanie i ponowne kompilowanie modelu. W takim przypadku zachowaj dane, wykonaj aktualizacje w miejscu i ponownie wytrenuj model. Zdecyduj, jak długo chcesz przechowywać dane treningowe.

Ogólnie rzecz biorąc, usuń dane z magazynów funkcji, aby zmniejszyć koszty bałaganu i magazynowania funkcji, które mają niską wydajność i które nie są już istotne dla bieżących lub przyszłych modeli. Jeśli zachowasz dane, spodziewaj się zarządzania kosztami i rozwiązywania problemów z zabezpieczeniami, które są typowymi problemami dotyczącymi duplikowania danych.

Śledzenie pochodzenia

Pochodzenie danych odnosi się do śledzenia ścieżki danych ze źródła do użycia w trenowaniu modelu. Śledzenie pochodzenia danych jest niezbędne do wyjaśnienia. Chociaż użytkownicy mogą nie potrzebować szczegółowych informacji o źródłach danych, te informacje mają kluczowe znaczenie dla wewnętrznych zespołów nadzoru nad danymi. Metadane pochodzenia zapewniają przejrzystość i odpowiedzialność, nawet jeśli nie są bezpośrednio używane przez model. Jest to przydatne do celów debugowania. Pomaga również określić, czy uprzedzenia są wprowadzane podczas wstępnego przetwarzania danych.

Korzystanie z funkcji platformy do śledzenia pochodzenia, kiedy to możliwe. Na przykład usługa Azure Machine Learning jest zintegrowana z usługą Microsoft Purview. Ta integracja zapewnia dostęp do funkcji odnajdywania danych, śledzenia pochodzenia i ładu w ramach cyklu życia metodyki MLOps.

Konserwacja danych

Wszystkie modele mogą stać się nieaktualne w czasie, co powoduje, że moc predykcyjna lub znaczenie modelu ulega rozpadowi. Kilka zmian zewnętrznych może spowodować rozpad, w tym zmianę zachowania użytkownika, dynamikę rynku lub inne czynniki. Modele trenowane jakiś czas temu mogą być mniej istotne ze względu na zmieniające się okoliczności. Aby przewidywać lepszą wierność, potrzebne są najnowsze dane.

Wdrażanie nowszych modeli. Aby zapewnić istotność, potrzebna jest pętla operacyjna, która stale ocenia wydajność modelu i uwzględnia nowsze modele, które zapewniają minimalne zakłócenia potoku danych. Alternatywnie można przygotować się na większą zmianę, która obejmuje przeprojektowanie cyklu życia danych i potoku.

Po wybraniu nowego modelu nie musisz rozpoczynać od nowego zestawu danych. Istniejące obserwacje używane do trenowania mogą pozostać cenne nawet podczas przełączania modelu. Mimo że nowe modele mogą ujawnić węższe scenariusze, proces podstawowy pozostaje podobny. Metody zarządzania danymi, takie jak magazyny funkcji i siatki danych, mogą usprawnić wdrażanie nowych modeli uczenia maszynowego.
Operacje oparte na wyzwalaczu a rutynowe. Zastanów się, czy ponowne trenowanie modelu powinno być wyzwalane przez określone zdarzenia lub warunki. Na przykład dostępność nowych, bardziej istotnych danych lub spadek trafności poniżej ustalonego punktu odniesienia może spowodować ponowne trenowanie. Zalety tego podejścia to czas reakcji i terminowe aktualizacje.

Konserwacja może być również zaplanowana w regularnych stałych odstępach czasu, takich jak codziennie lub co tydzień. W przypadku operacji sprawdzających niepowodzenie należy wziąć pod uwagę oba podejścia.
Usuwanie danych. Usuń dane, które nie są już używane do trenowania w celu optymalizacji użycia zasobów i minimalizuj ryzyko użycia nieaktualnych lub nieistotnych danych na potrzeby trenowania modelu.

Prawo do zapomnienia odnosi się do prawa osoby fizycznej do usunięcia ich danych osobowych z platform online lub baz danych. Upewnij się, że obowiązują zasady usuwania danych osobowych używanych do szkolenia.
Przechowywanie danych. W niektórych sytuacjach należy ponownie skompilować istniejący model. Na przykład w przypadku odzyskiwania po awarii model powinien zostać wygenerowany dokładnie tak, jak wcześniej, przed katastrofalnym zdarzeniem. Zalecamy posiadanie pomocniczego potoku danych, który spełnia wymagania dotyczące obciążenia potoku podstawowego, takie jak rozwiązywanie problemów z rozkładem modelu, regularne aktualizacje za pośrednictwem operacji opartych na wyzwalaczach lub rutynowych oraz innych zadań konserwacji.

Kompromis. Konserwacja danych jest kosztowna. Obejmuje kopiowanie danych, tworzenie nadmiarowych potoków i uruchamianie rutynowych procesów. Należy pamiętać, że regularne szkolenie może nie poprawić jakości odpowiedzi. Zapewnia tylko pewność przed nieaktualnością. Oceń znaczenie zmian danych jako sygnał, aby określić częstotliwość aktualizacji.

Upewnij się, że konserwacja danych jest wykonywana w ramach operacji modelu. Należy ustanowić procesy do obsługi zmian za pośrednictwem automatyzacji jak najwięcej i korzystać z odpowiedniego zestawu narzędzi. Aby uzyskać więcej informacji, zobacz Metodyki MLOps i GenAIOps dla obciążeń sztucznej inteligencji na platformie Azure.

Następne kroki

Obszar projektowania: projekt danych uziemienia

Udostępnij za pośrednictwem