Projektowanie i opracowywanie rozwiązania RAG
Wzorzec generacji Retrieval-Augmented (RAG) to standardowe podejście do tworzenia aplikacji, które używają modeli językowych do przetwarzania określonych lub zastrzeżonych danych, których model jeszcze nie zna. Architektura jest prosta, ale projektowanie, eksperymentowanie i ocenianie rozwiązań RAG, które pasują do tej architektury, wiąże się z wieloma złożonymi zagadnieniami, które korzystają z rygorystycznego, naukowego podejścia.
Ten artykuł stanowi wprowadzenie do serii. Każdy artykuł z serii obejmuje konkretną fazę projektowania rozwiązania RAG.
Inne artykuły z tej serii obejmują następujące zagadnienia:
- Jak określić, które dokumenty testowe i zapytania mają być używane podczas oceny
- Jak wybrać strategię fragmentowania
- Jak określić fragmenty, które należy wzbogacić i jak je wzbogacić
- Jak wybrać odpowiedni model osadzania
- Jak skonfigurować indeks wyszukiwania
- Jak określić, które rodzaje wyszukiwań, takie jak wyszukiwanie wektorowe, pełnotekstowe, hybrydowe i ręczne, należy wykonać
- Jak ocenić każdy krok
Architektura RAG
Przepływ aplikacji RAG
Poniższy przepływ pracy opisuje przepływ wysokiego poziomu dla aplikacji RAG.
- Użytkownik wystawia zapytanie w inteligentnym interfejsie użytkownika aplikacji.
- Inteligentna aplikacja wykonuje wywołanie interfejsu API do orkiestratora. Orkiestrator można zaimplementować za pomocą narzędzi lub platform, takich jak Semantic Kernel, Przepływ monitów usługi Azure Machine Learning lub LangChain.
- Orkiestrator określa, które wyszukiwanie należy wykonać w usłudze Azure AI Search i wystawia zapytanie.
- Orkiestrator zestawia najlepsze wyniki N z zapytania. Pakuje on najlepsze wyniki i zapytanie jako kontekst w ramach promptu i wysyła ten prompt do modelu językowego. Koordynator zwraca odpowiedź inteligentnej aplikacji, aby użytkownik mógł ją odczytać.
Przepływ danych RAG
W poniższym procesie opisano ogólny przepływ dla potoku danych, który dostarcza dane podstawowe dla aplikacji RAG.
- Dokumenty są przesuwane lub pobierane do potoku danych.
- Potok danych przetwarza każdy dokument indywidualnie, wykonując następujące czynności:
- Podział dokumentu: Dzieli dokument na semantycznie istotne części tak, aby każda z nich zawierała pojedynczą myśl lub koncepcję.
- Wzbogacanie fragmentów: Dodaje pola metadanych, które pipelina tworzy na podstawie zawartości we fragmentach. Potok danych kategoryzuje metadane na odrębne pola, takie jak tytuł, podsumowanie i słowa kluczowe.
- Osadzanie fragmentów: używa modelu osadzania do wektorowania fragmentu i innych pól metadanych używanych do wyszukiwania wektorowego.
- Utrwalaj fragmenty: przechowuje fragmenty w indeksie wyszukiwania.
Zagadnienia dotyczące projektowania i oceny RAG
Podczas projektowania rozwiązania RAG należy podejmować różne decyzje dotyczące implementacji. Na poniższym diagramie przedstawiono niektóre pytania, które należy zadać podczas podejmowania tych decyzji.
Poniższa lista zawiera krótki opis tego, co należy zrobić w każdej fazie opracowywania rozwiązań RAG.
W fazie przygotowania należy wykonać następujące czynności:
- Określ domenę rozwiązania. Jasno zdefiniuj wymagania biznesowe dotyczące rozwiązania RAG.
- Zbieranie reprezentatywnych dokumentów testowych. Zbierz dokumenty testowe dla rozwiązania RAG, które są reprezentatywne dla kolekcji dokumentów.
- Zbieranie zapytań testowych. Zbierz informacje i przetestuj zapytania oraz wygeneruj syntetyczne zapytania i zapytania, których dokumenty nie obejmują.
Podczas fazy fragmentowania powinieneś:
- Omówienie ekonomii fragmentowania. Dowiedz się, które czynniki należy wziąć pod uwagę podczas oceniania ogólnego kosztu rozwiązania fragmentowania dla kolekcji tekstu.
- Przeprowadzanie analizy dokumentów. Zadaj następujące pytania, aby ułatwić podejmowanie decyzji podczas analizowania typu dokumentu:
- Jakiej zawartości w dokumencie chcesz zignorować lub wykluczyć?
- Jaką zawartość chcesz przechwycić we fragmentach?
- Jak chcesz fragmentować zawartość?
- Zrozumienie metod fragmentowania. Zapoznaj się z różnymi podejściami do fragmentowania, w tym podejściami opartymi na zdaniach, stałym rozmiarze i niestandardowymi albo przy użyciu rozszerzeń modelu językowego, analizy układu dokumentów i modeli uczenia maszynowego.
- Dowiedz się, jak struktura dokumentu wpływa na fragmentowanie. Wybierz podejście fragmentujące na podstawie stopnia struktury, którą ma dokument.
Podczas fazy wzbogacania fragmentu
, powinieneś: - Czyszczenie fragmentów. Zaimplementuj metody czyszczenia, aby wyeliminować różnice, które nie mają wpływu na znaczenie tekstu. Ta metoda obsługuje dopasowania bliskości.
- Rozszerzanie fragmentów. Rozważ wzbogacenie danych fragmentów poprzez dodanie typowych pól metadanych oraz zrozumienie ich potencjalnych zastosowań w wyszukiwaniu. Dowiedz się więcej o powszechnie używanych narzędziach lub technikach generowania zawartości metadanych.
Podczas fazy osadzania powinno się:
- Zrozumienie znaczenia modelu osadzania. Model osadzania może znacząco wpłynąć na trafność wyników wyszukiwania wektorowego.
- Wybierz odpowiedni model osadzania dla twojego przypadku użycia.
- Ocena modeli osadzania. Oceń modele osadzania, wizualizując osadzanie i obliczając odległości osadzania.
Podczas fazy pobierania informacji powinieneś:
- Utwórz indeks wyszukiwania. Zastosuj odpowiednie konfiguracje wyszukiwania wektorów do pól wektorów.
- Omówienie opcji wyszukiwania. Rozważ różne typy wyszukiwań, w tym wyszukiwanie wektorowe, pełnotekstowe, hybrydowe i ręczne. Dowiedz się, jak podzielić zapytanie na podzapytania i filtrowanie zapytań.
- Ocenianie wyszukiwań. Użyj metod oceny pobierania, aby ocenić rozwiązanie wyszukiwania.
W fazie kompleksowej oceny modelu języka
należy wykonać następujące elementy: - Omówienie metryk oceny modelu językowego. Istnieje kilka metryk, takich jak osadzenie, kompletność, wykorzystanie i trafność, których można użyć do oceny odpowiedzi modelu językowego.
- Omówienie podobieństwa i metryk oceny. Aby ocenić rozwiązanie RAG, możesz użyć metryk podobieństwa i oceny.
- Zrozumienie znaczenia dokumentacji, raportowania i agregacji. Udokumentowanie hiperparametrów i wyników oceny. Agregowanie wyników z wielu zapytań i wizualizowanie wyników.
- Użyj akceleratora eksperymentu RAG. Możesz użyć repozytorium RAG Experiment Accelerator GitHub, aby pomóc zespołowi znaleźć najlepsze strategie implementacji RAG, uruchamiając wiele eksperymentów, utrwalając i oceniając wyniki.
Podejście ustrukturyzowane
Ze względu na liczbę kroków i zmiennych ważne jest, aby postępować zgodnie ze strukturą procesu oceny dla rozwiązania RAG. Oceń wyniki każdego kroku i wprowadź zmiany na podstawie wymagań. Należy ocenić każdy krok niezależnie pod kątem optymalizacji, ale pamiętaj, że wynik końcowy jest tym, co klienci doświadczają. Przed określeniem własnych kryteriów akceptacji dla każdego kroku upewnij się, że rozumiesz wszystkie kroki tego procesu.
Współpracownicy
Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.
Główni autorzy:
- Raouf Aliouat | Inżynier oprogramowania II
- Rob Bagby | Główny lider ds. treści w centrum architektury
- Prabal Deb | Główny inżynier oprogramowania
- Chad Kittel | Główny inżynier oprogramowania
- Ritesh Modi | Główny inżynier
- Ryan Pfalz | Starszy menedżer programu technicznego
- Randy Thurman | Główny architekt rozwiązań w chmurze sztucznej inteligencji
Aby wyświetlić niepubalne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.
Następne kroki
- Retrieval Augmented Generation (RAG) w usłudze Azure AI Search
- pobieranie rozszerzonej generacji i indeksów