共用方式為


交談語言理解所接受的資料格式

如果您要將資料上傳至交談語言理解,則必須遵循特定格式。 使用本文深入了解已接受的資料格式。

匯入專案檔格式

如果您要將專案匯入交談語言理解,所上傳的檔案就必須使用下列格式:

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

機碼 預留位置 範例
{API-VERSION} 您所呼叫 API 的版本 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} 這是一個閾值分數,系統會將低於此分數的意圖預測為無意圖。 值從 01 0.7
projectName {PROJECT-NAME} 您專案的名稱。 此值須區分大小寫。 EmailApp
multilingual true 布林值,可讓您在資料集中具有多種語言的語句。 部署模型時,您可以以任何支援的語言 (不一定要包含在定型文件中) 查詢模型。 若要進一步了解支援的語言代碼,請參閱語言支援 true
sublists [] 包含子清單的陣列。 每個子清單都是索引鍵及其相關聯的值。 []
compositionSetting {COMPOSITION-SETTING} 定義如何在實體中管理多個元件的規則。 選項為 combineComponentsseparateComponents combineComponents
synonyms [] 包含所有同義字的陣列。 同義字
language {LANGUAGE-CODE} 字串,指定專案中所用表達、同義字和規則運算式的語言代碼。 若您的專案為多語系專案,請選擇大部分語句的語言代碼 en-us
intents [] 陣列,其中包含您在專案中擁有的所有意圖。 這些意圖會從您的語句分類。 []
entities [] 陣列,其中包含在專案中的所有實體。 這些實體會從您的語句中擷取。 每個實體都可以有與其一起定義的其他選用元件:list、prebuilt 或 regex。 []
dataset {DATASET} 在訓練之前分割時,此表達會移至其中的測試集。 若要深入了解資料分割,請參閱訓練交談語言理解模型。 此欄位的可能值為 TrainTest Train
category 與指定的文字範圍相關聯的實體類型。 Entity1
offset 實體開頭的內含字元位置。 5
length 實體的字元長度。 5
listKey 在預測中對應回同義字清單的正規化值。 Microsoft
values {VALUES-FOR-LIST} 逗號分隔字串的清單將會完全比對這些字串,以供擷取和對應至清單索引鍵。 "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} 要在預測中對應回規則運算式的正規化值。 ProductPattern1
regexPattern {REGEX-PATTERN} 規則運算式。 ^pre
prebuilts {PREBUILT-COMPONENTS} 可擷取常見類型的預先建置元件。 如需您可以新增的預先建置清單,請參閱支援的預先建置實體元件 Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} 指定需求的設定,即必須存在特定元件才能傳回實體。 若要深入了解,請參閱實體元件。 可能的值為 learnedregexlistprebuilts "learned", "prebuilt"

表達檔案格式

交談語言理解提供將您的表達直接上傳至專案的選項,而不是逐一輸入表達。 您可以在專案的資料標記分頁中找到此選項。

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

機碼 預留位置 範例
text {Utterance-Text} 您的表達文字。 測試
language {LANGUAGE-CODE} 字串,指定專案中所用語句的語言代碼。 若您的專案是多語系專案,請選擇大部分語句的語言代碼。 若要進一步了解支援的語言代碼,請參閱語言支援 en-us
dataset {DATASET} 在訓練之前分割時,此表達會移至其中的測試集。 若要深入了解資料分割,請參閱訓練交談語言理解模型。 此欄位的可能值為 TrainTest Train
intent {intent} 指派的意圖。 intent1
entity {entity} 要擷取的實體。 entity1
category 與指定的文字範圍相關聯的實體類型。 Entity1
offset 文字開頭的內含字元位置。 0
length 周框方塊的長度 (以 UTF16 字元為單位)。 訓練只會考慮此區域中的資料。 500