Condividi tramite


Competenza cognitiva di unione testi

La competenza Unione testo consolida il testo da una matrice di stringhe in un singolo campo.

Nota

Questa competenza non è associata ai servizi di intelligenza artificiale di Azure. Non è fatturabile e non ha requisiti chiave per i servizi di intelligenza artificiale di Azure.

@odata.type

Microsoft.Skills.Text.MergeSkill

Parametri della competenza

I parametri fanno distinzione tra maiuscole e minuscole.

Nome parametro Descrizione
insertPreTag Stringa da includere prima di ogni inserimento. Il valore predefinito è " ". Per omettere lo spazio, impostare il valore su "".
insertPostTag Stringa da includere prima di ogni inserimento. Il valore predefinito è " ". Per omettere lo spazio, impostare il valore su "".

Input competenze

Nome input Descrizione
itemsToInsert Matrice di stringhe da unire.
text (facoltativo) Corpo del testo principale in cui inserire. Se text non viene specificato, gli elementi di itemsToInsert verranno concatecati.
offsets (facoltativo) Matrice di posizioni all'interno della posizione in text cui itemsToInsert deve essere inserito. Se specificato, il numero di elementi di text deve essere uguale al numero di elementi di textToInsert. In caso contrario, tutti gli elementi verranno accodati alla fine di text.

Output competenze

Nome output Descrizione
mergedText Testo unito risultante.
mergedOffsets Matrice di posizioni all'interno della posizione in mergedText cui sono stati inseriti gli elementi di itemsToInsert .

Input di esempio

Un documento JSON che fornisce input utilizzabile per questa competenza può essere:

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "text": "The brown fox jumps over the dog",
        "itemsToInsert": ["quick", "lazy"],
        "offsets": [3, 28]
      }
    }
  ]
}

Output di esempio

Questo esempio mostra l'output dell'input precedente assumendo che insertPreTag sia impostato su " " e che insertPostTag sia impostato su "".

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "mergedText": "The quick brown fox jumps over the lazy dog"
      }
    }
  ]
}

Definizione del set di competenze di esempio estesa

Uno scenario comune per l'uso di unione testi è quello di unire la rappresentazione testuale di immagini (testo di una competenza OCR o la didascalia di un'immagine) nel campo del contenuto di un documento.

Il set di competenze di esempio seguente usa la competenza OCR per estrarre il testo da immagini incorporate nel documento. Successivamente crea un campo merged_text per contenere sia il testo originale sia il testo OCR da ogni immagine. Altre informazioni sulla competenza OCR sono disponibili qui.

{
  "description": "Extract text from images and merge with content text to produce merged_text",
  "skills":
  [
    {
      "description": "Extract text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": "en",
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text"
        }
      ]
    },
    {
      "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
      "description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
      "context": "/document",
      "insertPreTag": " ",
      "insertPostTag": " ",
      "inputs": [
        {
          "name":"text", 
          "source": "/document/content"
        },
        {
          "name": "itemsToInsert", 
          "source": "/document/normalized_images/*/text"
        },
        {
          "name":"offsets", 
          "source": "/document/normalized_images/*/contentOffset" 
        }
      ],
      "outputs": [
        {
          "name": "mergedText", 
          "targetName" : "merged_text"
        }
      ]
    }
  ]
}

Nell'esempio precedente si suppone l'esistenza di un campo di immagini normalizzate. Per ottenere un campo di immagini normalizzate impostare la configurazione imageAction nella definizione di indicizzatore su generateNormalizedImages come illustrato di seguito:

{
  //...rest of your indexer definition goes here ...
  "parameters":{
    "configuration":{
        "dataToExtract":"contentAndMetadata",
        "imageAction":"generateNormalizedImages"
    }
  }
}

Vedi anche