交談語言理解所接受的資料格式

發行項
11/21/2024

如果您要將資料上傳至交談語言理解，則必須遵循特定格式。使用本文深入了解已接受的資料格式。

匯入專案檔格式

如果您要將專案匯入交談語言理解，所上傳的檔案就必須使用下列格式：

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

機碼	預留位置	值	範例
`{API-VERSION}`	您所呼叫 API 的版本。	`2023-04-01`
`confidenceThreshold`	`{CONFIDENCE-THRESHOLD}`	這是一個閾值分數，系統會將低於此分數的意圖預測為無意圖。值從 `0` 到 `1`。	`0.7`
`projectName`	`{PROJECT-NAME}`	您專案的名稱。此值須區分大小寫。	`EmailApp`
`multilingual`	`true`	布林值，可讓您在資料集中具有多種語言的語句。部署模型時，您可以以任何支援的語言 (不一定要包含在定型文件中) 查詢模型。若要進一步了解支援的語言代碼，請參閱語言支援。	`true`
`sublists`	`[]`	包含子清單的陣列。每個子清單都是索引鍵及其相關聯的值。	`[]`
`compositionSetting`	`{COMPOSITION-SETTING}`	定義如何在實體中管理多個元件的規則。選項為 `combineComponents` 或 `separateComponents`。	`combineComponents`
`synonyms`	`[]`	包含所有同義字的陣列。	同義字
`language`	`{LANGUAGE-CODE}`	字串，指定專案中所用表達、同義字和規則運算式的語言代碼。若您的專案為多語系專案，請選擇大部分語句的語言代碼。	`en-us`
`intents`	`[]`	陣列，其中包含您在專案中擁有的所有意圖。這些意圖會從您的語句分類。	`[]`
`entities`	`[]`	陣列，其中包含在專案中的所有實體。這些實體會從您的語句中擷取。每個實體都可以有與其一起定義的其他選用元件：list、prebuilt 或 regex。	`[]`
`dataset`	`{DATASET}`	在訓練之前分割時，此表達會移至其中的測試集。若要深入了解資料分割，請參閱訓練交談語言理解模型。此欄位的可能值為 `Train` 和 `Test`。	`Train`
`category`		與指定的文字範圍相關聯的實體類型。	`Entity1`
`offset`		實體開頭的內含字元位置。	`5`
`length`		實體的字元長度。	`5`
`listKey`		在預測中對應回同義字清單的正規化值。	`Microsoft`
`values`	`{VALUES-FOR-LIST}`	逗號分隔字串的清單將會完全比對這些字串，以供擷取和對應至清單索引鍵。	`"msft", "microsoft", "MS"`
`regexKey`	`{REGEX-PATTERN}`	要在預測中對應回規則運算式的正規化值。	`ProductPattern1`
`regexPattern`	`{REGEX-PATTERN}`	規則運算式。	`^pre`
`prebuilts`	`{PREBUILT-COMPONENTS}`	可擷取常見類型的預先建置元件。如需您可以新增的預先建置清單，請參閱支援的預先建置實體元件。	`Quantity.Number`
`requiredComponents`	`{REQUIRED-COMPONENTS}`	指定需求的設定，即必須存在特定元件才能傳回實體。若要深入了解，請參閱實體元件。可能的值為 `learned`、`regex`、`list` 或 `prebuilts`。	`"learned", "prebuilt"`

表達檔案格式

交談語言理解提供將您的表達直接上傳至專案的選項，而不是逐一輸入表達。您可以在專案的資料標記分頁中找到此選項。

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

機碼	預留位置	值	範例
`text`	`{Utterance-Text}`	您的表達文字。	測試
`language`	`{LANGUAGE-CODE}`	字串，指定專案中所用語句的語言代碼。若您的專案是多語系專案，請選擇大部分語句的語言代碼。若要進一步了解支援的語言代碼，請參閱語言支援。	`en-us`
`dataset`	`{DATASET}`	在訓練之前分割時，此表達會移至其中的測試集。若要深入了解資料分割，請參閱訓練交談語言理解模型。此欄位的可能值為 `Train` 和 `Test`。	`Train`
`intent`	`{intent}`	指派的意圖。	intent1
`entity`	`{entity}`	要擷取的實體。	entity1
`category`		與指定的文字範圍相關聯的實體類型。	`Entity1`
`offset`		文字開頭的內含字元位置。	`0`
`length`		周框方塊的長度 (以 UTF16 字元為單位)。訓練只會考慮此區域中的資料。	`500`

如需將已標記的資料直接匯入專案的詳細資訊，請參閱匯入專案。
如需標記資料的詳細資訊，請參閱在 Language Studio 中為語句加上標記。在標記資料之後，您可以訓練模型。

共用方式為

交談語言理解所接受的資料格式

匯入專案檔格式

表達檔案格式

意見反應

其他資源

共用方式為

交談語言理解所接受的資料格式

匯入專案檔格式

表達檔案格式

相關內容

意見反應

其他資源