交談語言理解所接受的資料格式
如果您要將資料上傳至交談語言理解,則必須遵循特定格式。 使用本文深入了解已接受的資料格式。
匯入專案檔格式
如果您要將專案匯入交談語言理解,所上傳的檔案就必須使用下列格式:
{
"projectFileVersion": "2022-10-01-preview",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "Conversation",
"projectName": "{PROJECT-NAME}",
"multilingual": true,
"description": "DESCRIPTION",
"language": "{LANGUAGE-CODE}",
"settings": {
"confidenceThreshold": 0
}
},
"assets": {
"projectKind": "Conversation",
"intents": [
{
"category": "intent1"
}
],
"entities": [
{
"category": "entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "list1",
"synonyms": [
{
"language": "{LANGUAGE-CODE}",
"values": [
"{VALUES-FOR-LIST}"
]
}
]
}
]
},
"prebuilts": [
{
"category": "{PREBUILT-COMPONENTS}"
}
],
"regex": {
"expressions": [
{
"regexKey": "regex1",
"language": "{LANGUAGE-CODE}",
"regexPattern": "{REGEX-PATTERN}"
}
]
},
"requiredComponents": [
"{REQUIRED-COMPONENTS}"
]
}
],
"utterances": [
{
"text": "utterance1",
"intent": "intent1",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"category": "ENTITY1",
"offset": 6,
"length": 4
}
]
}
]
}
}
機碼 | 預留位置 | 值 | 範例 |
---|---|---|---|
{API-VERSION} |
您所呼叫 API 的版本。 | 2023-04-01 |
|
confidenceThreshold |
{CONFIDENCE-THRESHOLD} |
這是一個閾值分數,系統會將低於此分數的意圖預測為無意圖。 值從 0 到 1 。 |
0.7 |
projectName |
{PROJECT-NAME} |
您專案的名稱。 此值須區分大小寫。 | EmailApp |
multilingual |
true |
布林值,可讓您在資料集中具有多種語言的語句。 部署模型時,您可以以任何支援的語言 (不一定要包含在定型文件中) 查詢模型。 若要進一步了解支援的語言代碼,請參閱語言支援。 | true |
sublists |
[] |
包含子清單的陣列。 每個子清單都是索引鍵及其相關聯的值。 | [] |
compositionSetting |
{COMPOSITION-SETTING} |
定義如何在實體中管理多個元件的規則。 選項為 combineComponents 或 separateComponents 。 |
combineComponents |
synonyms |
[] |
包含所有同義字的陣列。 | 同義字 |
language |
{LANGUAGE-CODE} |
字串,指定專案中所用表達、同義字和規則運算式的語言代碼。 若您的專案為多語系專案,請選擇大部分語句的語言代碼。 | en-us |
intents |
[] |
陣列,其中包含您在專案中擁有的所有意圖。 這些意圖會從您的語句分類。 | [] |
entities |
[] |
陣列,其中包含在專案中的所有實體。 這些實體會從您的語句中擷取。 每個實體都可以有與其一起定義的其他選用元件:list、prebuilt 或 regex。 | [] |
dataset |
{DATASET} |
在訓練之前分割時,此表達會移至其中的測試集。 若要深入了解資料分割,請參閱訓練交談語言理解模型。 此欄位的可能值為 Train 和 Test 。 |
Train |
category |
|
與指定的文字範圍相關聯的實體類型。 | Entity1 |
offset |
|
實體開頭的內含字元位置。 | 5 |
length |
|
實體的字元長度。 | 5 |
listKey |
|
在預測中對應回同義字清單的正規化值。 | Microsoft |
values |
{VALUES-FOR-LIST} |
逗號分隔字串的清單將會完全比對這些字串,以供擷取和對應至清單索引鍵。 | "msft", "microsoft", "MS" |
regexKey |
{REGEX-PATTERN} |
要在預測中對應回規則運算式的正規化值。 | ProductPattern1 |
regexPattern |
{REGEX-PATTERN} |
規則運算式。 | ^pre |
prebuilts |
{PREBUILT-COMPONENTS} |
可擷取常見類型的預先建置元件。 如需您可以新增的預先建置清單,請參閱支援的預先建置實體元件。 | Quantity.Number |
requiredComponents |
{REQUIRED-COMPONENTS} |
指定需求的設定,即必須存在特定元件才能傳回實體。 若要深入了解,請參閱實體元件。 可能的值為 learned 、regex 、list 或 prebuilts 。 |
"learned", "prebuilt" |
表達檔案格式
交談語言理解提供將您的表達直接上傳至專案的選項,而不是逐一輸入表達。 您可以在專案的資料標記分頁中找到此選項。
[
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 19,
"length": 10
}
]
},
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 20,
"length": 10
},
{
"category": "{entity}",
"offset": 31,
"length": 5
}
]
}
]
機碼 | 預留位置 | 值 | 範例 |
---|---|---|---|
text |
{Utterance-Text} |
您的表達文字。 | 測試 |
language |
{LANGUAGE-CODE} |
字串,指定專案中所用語句的語言代碼。 若您的專案是多語系專案,請選擇大部分語句的語言代碼。 若要進一步了解支援的語言代碼,請參閱語言支援。 | en-us |
dataset |
{DATASET} |
在訓練之前分割時,此表達會移至其中的測試集。 若要深入了解資料分割,請參閱訓練交談語言理解模型。 此欄位的可能值為 Train 和 Test 。 |
Train |
intent |
{intent} |
指派的意圖。 | intent1 |
entity |
{entity} |
要擷取的實體。 | entity1 |
category |
|
與指定的文字範圍相關聯的實體類型。 | Entity1 |
offset |
|
文字開頭的內含字元位置。 | 0 |
length |
|
周框方塊的長度 (以 UTF16 字元為單位)。 訓練只會考慮此區域中的資料。 | 500 |
相關內容
- 如需將已標記的資料直接匯入專案的詳細資訊,請參閱匯入專案。
- 如需標記資料的詳細資訊,請參閱在 Language Studio 中為語句加上標記。 在標記資料之後,您可以訓練模型。