Dela via


Parsa eller segmentera innehåll för Standard-arbetsflöden i Azure Logic Apps (förhandsversion)

Gäller för: Azure Logic Apps (Standard)

Viktigt!

Den här funktionen är i förhandsversion och omfattas av kompletterande användningsvillkor för Förhandsversioner av Microsoft Azure.

Ibland måste du konvertera innehåll till token, som är ord eller segment med tecken, eller dela upp ett stort dokument i mindre delar innan du kan använda det här innehållet med vissa åtgärder. Till exempel förväntar sig Azure AI Search - eller Azure OpenAI-åtgärderna tokeniserade indata och kan endast hantera ett begränsat antal token.

I dessa scenarier använder du åtgärderna Dataåtgärder med namnet Parsa ett dokument och segmenttext i arbetsflödet för standardlogikappen. Dessa åtgärder omvandlar innehåll, till exempel ett PDF-dokument, CSV-fil, Excel-fil och så vidare, till tokeniserade strängutdata och delar sedan upp strängen i bitar, baserat på antalet token. Du kan sedan referera till och använda dessa utdata med efterföljande åtgärder i arbetsflödet.

Dricks

Om du vill veta mer kan du ställa följande frågor till Azure Copilot:

  • Vad är en token i AI?
  • Vad är tokeniserade indata?
  • Vad är tokeniserade strängutdata?
  • Vad är parsning i AI?
  • Vad är segmentering i AI?

Om du vill hitta Azure Copilot väljer du Copilot i verktygsfältet Azure Portal.

Den här guiden visar hur du lägger till och konfigurerar dessa åtgärder i arbetsflödet.

Förutsättningar

  • Ett Azure-konto och prenumeration. Om du heller inte har någon Azure-prenumeration kan du registrera ett kostnadsfritt Azure-konto.

  • Ett standardarbetsflöde för logikappar med en befintlig utlösare eftersom åtgärderna Parsa ett dokument och segmenttext endast är tillgängliga som åtgärder. Kontrollera att åtgärden som hämtar innehållet som du vill parsa eller segment föregår dessa dataåtgärder.

Parsa ett dokument

Åtgärden Parsa ett dokument konverterar innehåll, till exempel ett PDF-dokument, CSV-fil, Excel-fil och så vidare, till en tokeniserad sträng. Anta i det här exemplet att arbetsflödet börjar med utlösaren Förfrågning med namnet När en HTTP-begäran tas emot. Den här utlösaren väntar på att få en HTTP-begäran som skickas från en annan komponent, till exempel en Azure-funktion, ett annat logikapparbetsflöde och så vidare. HTTP-begäran innehåller URL:en för ett nytt uppladdat dokument som är tillgängligt för arbetsflödet för att hämta och parsa. En HTTP-åtgärd följer omedelbart utlösaren och skickar en HTTP-begäran till dokumentets URL och returnerar med dokumentinnehållet från lagringsplatsen.

Om du använder andra innehållskällor, till exempel Azure Blob Storage, SharePoint, OneDrive, Filsystem, FTP och så vidare, kan du kontrollera om utlösare är tillgängliga för dessa källor. Du kan också kontrollera om åtgärder är tillgängliga för att hämta innehållet för dessa källor. Mer information finns i Inbyggda åtgärder och hanterade anslutningsappar.

  1. I Azure Portal öppnar du standardlogikappresursen och arbetsflödet i designern.

  2. Under den befintliga utlösaren och åtgärderna följer du dessa allmänna steg för att lägga till åtgärden Dataåtgärder med namnet Parsa ett dokument i arbetsflödet.

  3. I designern väljer du åtgärden Parsa ett dokument .

  4. När åtgärdsinformationsfönstret har öppnats går du till fliken Parametrar och i egenskapen Dokumentinnehåll anger du det innehåll som ska parsas genom att följa dessa steg:

    1. Välj i rutan Dokumentinnehåll .

      Alternativen för listan med dynamiskt innehåll (blixtikonen) och uttrycksredigeraren (funktionsikonen) visas.

      • Om du vill välja utdata från en föregående åtgärd väljer du listan med dynamiskt innehåll.

      • Om du vill skapa ett uttryck som ändrar utdata från en föregående åtgärd väljer du uttrycksredigeraren.

      Det här exemplet fortsätter genom att välja blixtikonen för listan med dynamiskt innehåll.

    2. När listan med dynamiskt innehåll har öppnats väljer du de utdata som du vill använda från en föregående åtgärd.

      I det här exemplet refererar åtgärden Parsa ett dokument till brödtextutdata från HTTP-åtgärden.

      Skärmbild som visar standardarbetsflödesdesignern och åtgärden Parsa ett dokument med en öppen lista med dynamiskt innehåll. och valt Brödtextutdata från HTTP-åtgärden.

      Brödtextutdata visas nu i rutan Dokumentinnehåll:

      Skärmbild som visar exempelarbetsflöde med brödtextutdata i åtgärden Parsa ett dokument.

  5. Under åtgärden Parsa ett dokument lägger du till de åtgärder som du vill arbeta med tokeniserade strängutdata, till exempel segmenttext, som beskrivs senare i den här guiden.

Parsa ett dokument – referens

Parameters

Name Värde Datatyp beskrivning Gräns
Dokumentinnehåll <content-to-parse> Alla Innehållet som ska parsas. Ingen

Utdata

Name Datatyp beskrivning
Tolkad resultattext Strängmatris En matris med strängar.
Parsat resultat Objekt Ett objekt som innehåller hela den tolkade texten.

Segmenttext

Åtgärden Segmenttext delar upp innehållet i mindre delar för efterföljande åtgärder som enklare kan användas i det aktuella arbetsflödet. Följande steg bygger på exemplet från avsnittet Parsa ett dokument och delar upp tokensträngsutdata för användning med Azure AI-åtgärder som förväntar sig tokeniserade, små innehållssegment.

Kommentar

Föregående åtgärder som använder segmentering påverkar inte åtgärden Segmenttext och åtgärden Segmenttext påverkar inte heller efterföljande åtgärder som använder segmentering.

  1. I Azure Portal öppnar du standardlogikappresursen och arbetsflödet i designern.

  2. Under åtgärden Parsa ett dokument följer du de här allmänna stegen för att lägga till åtgärden Dataåtgärder med namnet Segmenttext.

  3. Välj textåtgärden Segment i designern.

  4. När åtgärdsinformationsfönstret har öppnats går du till fliken Parametrar och väljer TokenSize som segmenteringsmetod för egenskapen Segmenteringsstrategi, om den inte redan har valts.

    Strategi beskrivning
    TokenSize Dela upp det angivna innehållet baserat på antalet token.
  5. När du har valt strategin väljer du i rutan Text för att ange innehållet för segmentering.

    Alternativen för listan med dynamiskt innehåll (blixtikonen) och uttrycksredigeraren (funktionsikonen) visas.

    • Om du vill välja utdata från en föregående åtgärd väljer du listan med dynamiskt innehåll.

    • Om du vill skapa ett uttryck som ändrar utdata från en föregående åtgärd väljer du uttrycksredigeraren.

    Det här exemplet fortsätter genom att välja blixtikonen för listan med dynamiskt innehåll.

    1. När listan med dynamiskt innehåll har öppnats väljer du de utdata som du vill använda från en föregående åtgärd.

      I det här exemplet refererar textåtgärden Segment till textutdata för parsat resultat från åtgärden Parsa ett dokument.

      Skärmbild som visar Standard arbetsflödesdesigner, åtgärd med namnet Segmenttext med öppen lista med dynamiskt innehåll och valda utdata från Parsa en dokumentåtgärd.

      Utdata för åtgärden Parsat resultat visas nu i textrutan:

      Skärmbild som visar exempelarbetsflöde med valda parsade resultattextutdata i åtgärden med namnet Segmenttext.

  6. Slutför konfigurationen för textåtgärden Segment baserat på din valda strategi och ditt scenario. Mer information finns i Segmenttext – referens.

När du nu lägger till andra åtgärder som förväntar sig och använder tokeniserade indata, till exempel Azure AI-åtgärderna, formateras indatainnehållet för enklare förbrukning.

Segmenttext – referens

Parameters

Name Värde Datatyp beskrivning Gränser
Segmenteringsstrategi TokenSize Stränguppräkning Dela upp innehållet baserat på antalet token.

Standard: TokenSize
Inte tillämpligt
Text <content-to-chunk> Alla Innehållet till segment. Se Referensguide för gränser och konfiguration
KodningModel <encoding-method> Stränguppräkning Kodningsmodellen som ska användas:

- Standard: cl100k_base (gpt4, gpt-3.5-turbo, gpt-35-turbo)

- r50k_base (gpt-3)

- p50k_base (gpt-3)

- p50k_edit (gpt-3)

- cl200k_base (gpt-4o)

Mer information finns i Översikt över OpenAI – Modeller.
Inte tillämpligt
TokenSize <max-tokens-per-chunk> Integer Det maximala antalet token per innehållssegment.

Standard: Ingen
Minimum: 1
Maximalt: 8 000
PageOverlapLength <antal överlappande tecken> Integer Antalet tecken från slutet av föregående segment som ska inkluderas i nästa segment. Den här inställningen hjälper dig att undvika att förlora viktig information när du delar upp innehåll i segment och bevarar kontinuitet och kontext mellan segment.

Standard: 0 – Det finns inga överlappande tecken.
Minimum: 0

Dricks

Om du vill veta mer kan du ställa följande frågor till Azure Copilot:

  • Vad är PageOverlapLength i segmentering?
  • Vad är kodning i Azure AI?

Om du vill hitta Azure Copilot väljer du Copilot i verktygsfältet Azure Portal.

Utdata

Name Datatyp beskrivning
Segmenterat resultat Textobjekt Strängmatris En matris med strängar.
Objekt för segmenterad resultattext String En enda sträng i matrisen.
Segmenterat resultat Objekt Ett objekt som innehåller hela den segmenterade texten.

Exempelarbetsflöde

I följande exempel ingår andra åtgärder som skapar ett fullständigt arbetsflödesmönster för att mata in data från valfri källa:

Skärmbild som visar ett fullständigt exempelarbetsflöde.

Steg Aktivitet Underliggande åtgärd beskrivning
1 Vänta eller sök efter nytt innehåll. När en HTTP-begäran tas emot En utlösare som antingen avsöker eller väntar på att nya data ska tas emot, antingen baserat på en schemalagd upprepning eller som svar på specifika händelser. En sådan händelse kan vara en ny fil som laddas upp till ett visst lagringssystem, till exempel Azure Blob Storage, SharePoint, OneDrive, Filsystem, FTP och så vidare.

I det här exemplet väntar åtgärden Förfrågningsutlösare på en HTTP- eller HTTPS-begäran som skickas från en annan slutpunkt. Begäran innehåller URL:en för ett nytt uppladdat dokument.
2 Hämta innehållet. HTTP En HTTP-åtgärd som hämtar det uppladdade dokumentet med hjälp av fil-URL:en från utlösarens utdata.
3 Skriv dokumentinformation. Compose En åtgärd för dataåtgärder som sammanfogar olika objekt.

I det här exemplet sammanfogas nyckel/värde-information om dokumentet.
4 Skapa tokensträng. Parsa ett dokument En åtgärd för dataåtgärder som genererar en tokeniserad sträng med hjälp av utdata från åtgärden Skriv .
5 Skapa innehållssegment. Segmenttext En dataåtgärd som delar upp tokensträngen i bitar, baserat på antalet token per innehållssegment.
6 Konvertera tokeniserad och segmenterad text till JSON. Parsa JSON En dataåtgärder-åtgärd som konverterar segmenterade utdata till en JSON-matris.
7 Välj JSON-matrisobjekt. Välj En åtgärd för dataåtgärder som väljer flera objekt från JSON-matrisen.
8 Generera inbäddningarna. Hämta flera inbäddningar En Azure OpenAI-åtgärd som skapar inbäddningar för varje JSON-matrisobjekt.
9 Välj inbäddningar och annan information. Välj En åtgärd för dataåtgärder som väljer inbäddningar och annan dokumentinformation.
10 Indexering av data. Indexdokument En Azure AI Search-åtgärd som indexerar data baserat på varje vald inbäddning.