實體辨識認知技能 (v2)
實體辨識技能 (v2) 會從文字擷取不同類型的實體。 此技能會使用 Azure AI 服務中 文字分析 所提供的機器學習模型。
重要
實體辨識技能 (v2) (Microsoft.Skills.Text.EntityRecognitionSkill) 現在已由 Microsoft.Skills.Text.V3.EntityRecognitionSkill 取代。 請遵循淘汰的技能中之建議,以移轉至支援的技能。
注意
當您藉由增加處理頻率、新增更多檔或新增更多 AI 演算法來擴充範圍時,您必須 附加可計費的 Azure AI 服務資源。 在 Azure AI 服務中呼叫 API,並在 Azure AI 搜尋中作為檔破解階段的影像擷取時產生費用。 從文件擷取文字不會產生任何費用。
內建技能的執行會依現有的 Azure AI 服務預付型方案價格收費。 影像擷取定價會在 Azure AI 搜尋定價頁面上描述。
@odata.type
Microsoft.Skills.Text.EntityRecognitionSkill
資料限制
記錄的大小上限應該是 50,000 個字元 (以 String.Length
為測量單位)。 如果您需要在將數據傳送至關鍵片語擷取器之前中斷數據,請考慮使用 文字分割技能。 如果您使用文字分割技能,請將頁面長度設定為 5000 以獲得最佳效能。
技能參數
參數會區分大小寫,而且都是選擇性的。
參數名稱 | 描述 |
---|---|
categories |
應擷取的類別數位。 可能的類別類型:"Person" 、、"Location" 、、"Datetime" "Organization" "Quantity" 、"URL" 、 "Email" 。 如果未提供任何類別,則會傳回所有類型。 |
defaultLanguageCode |
輸入文字的語言代碼。 支援下列語言: ar, cs, da, de, en, es, fi, fr, hu, it, ja, ko, nl, no, pl, pt-BR, pt-PT, ru, sv, tr, zh-hans 。 並非所有語言都支援所有實體類別;請參閱下方的附註。 |
minimumPrecision |
介於 0 和 1 之間的值。 如果信賴分數 (在輸出中 namedEntities ) 低於此值,則不會傳回實體。 預設值是 0。 |
includeTypelessEntities |
true 如果您要辨識不符合目前類別的已知實體,請將 設定為 。 辨識的實體會在複雜輸出欄位中傳 entities 回。 例如,「Windows 10」 是已知的實體(產品),但由於「產品」不是支持的類別,因此此實體會包含在實體輸出欄位中。 預設為 false |
技能輸入
輸入名稱 | 描述 |
---|---|
languageCode |
選擇性。 預設值為 "en" 。 |
text |
要分析的文字。 |
技能輸出
注意
並非所有語言都支援所有實體類別。 上述 "Person"
語言的完整清單支援、 "Location"
和 "Organization"
實體類別類型。 只有 de、 en、 es、 fr 和 zh-hans 支援擷 "Quantity"
取 、 "Datetime"
、 "URL"
和 "Email"
類型。 如需詳細資訊,請參閱 文字分析 API 的語言和區域支援。
輸出名稱 | 描述 |
---|---|
persons |
字串陣列,其中每個字串都代表人員的名稱。 |
locations |
字串陣列,其中每個字串都代表位置。 |
organizations |
字串陣列,其中每個字串都代表組織。 |
quantities |
字串數位,其中每個字串都代表數量。 |
dateTimes |
字串陣列,其中每個字串都代表DateTime(如文字中所示) 值。 |
urls |
字串數位,其中每個字串都代表URL |
emails |
字串數位,其中每個字串都代表電子郵件 |
namedEntities |
包含下列欄位的複雜型別數組:
|
entities |
複雜類型的陣列,其中包含從文字擷取之實體的豐富資訊,其中包含下列字段
|
範例定義
{
"@odata.type": "#Microsoft.Skills.Text.EntityRecognitionSkill",
"categories": [ "Person", "Email"],
"defaultLanguageCode": "en",
"includeTypelessEntities": true,
"minimumPrecision": 0.5,
"inputs": [
{
"name": "text",
"source": "/document/content"
}
],
"outputs": [
{
"name": "persons",
"targetName": "people"
},
{
"name": "emails",
"targetName": "contact"
},
{
"name": "entities"
}
]
}
範例輸入
{
"values": [
{
"recordId": "1",
"data":
{
"text": "Contoso corporation was founded by John Smith. They can be reached at contact@contoso.com",
"languageCode": "en"
}
}
]
}
範例輸出
{
"values": [
{
"recordId": "1",
"data" :
{
"persons": [ "John Smith"],
"emails":["contact@contoso.com"],
"namedEntities":
[
{
"category":"Person",
"value": "John Smith",
"offset": 35,
"confidence": 0.98
}
],
"entities":
[
{
"name":"John Smith",
"wikipediaId": null,
"wikipediaLanguage": null,
"wikipediaUrl": null,
"bingId": null,
"type": "Person",
"subType": null,
"matches": [{
"text": "John Smith",
"offset": 35,
"length": 10
}]
},
{
"name": "contact@contoso.com",
"wikipediaId": null,
"wikipediaLanguage": null,
"wikipediaUrl": null,
"bingId": null,
"type": "Email",
"subType": null,
"matches": [
{
"text": "contact@contoso.com",
"offset": 70,
"length": 19
}]
},
{
"name": "Contoso",
"wikipediaId": "Contoso",
"wikipediaLanguage": "en",
"wikipediaUrl": "https://en.wikipedia.org/wiki/Contoso",
"bingId": "349f014e-7a37-e619-0374-787ebb288113",
"type": null,
"subType": null,
"matches": [
{
"text": "Contoso",
"offset": 0,
"length": 7
}]
}
]
}
}
]
}
請注意,此技能輸出中實體傳回的位移會直接從 文字分析 API 傳回,這表示如果您使用它們來編製原始字串的索引,則應該使用 .NET 中的 StringInfo 類別來擷取正確的內容。 如需詳細資訊,請參閱這裡。
警告案例
如果不支援文件的語言代碼,則會傳回警告,而且不會擷取任何實體。
另請參閱
- 內建技能
- 如何定義技能集 (英文)
- 實體辨識技能 (V3)