自訂具名實體辨識的常見問題集
尋找適用於語言的 Azure AI 服務中與自訂 NER 相關的概念和案例的常見問題集解答。
如何開始使用此服務?
請參閱快速入門以快速建立您的第一個專案,或檢視如何建立專案以取得更詳細的資訊。
服務限制有哪些?
如需詳細資訊,請參閱服務限制一文。
需要多少個標記的檔案?
一般來說,多樣化且具代表性的標記資料可產生更好的結果,因為標記是以精確、一致且完整的方式進行。 每個模型適用的標記執行個體數目都不是固定的。 效能與您的結構描述以及結構描述的模糊性息息相關。 模擬兩可的實體類型需要更多標記。 效能也取決於您標記的品質。 每個實體建議的標記執行個體數目是 50。
定型花了很長的時間,這是預期的嗎?
定型程序可能需要很長的時間。 根據粗略估計,針對合併長度為 12,800,000 個字元的多個檔案,預期定型時間為 6 小時。
如何以程式設計方式建置自訂模型?
注意
目前您只能使用 REST API 或 Language Studio 建置模型。
您可以使用 REST API 建置自訂模型。 依照此快速入門開始建立專案,並透過 API 建立模型,以取得如何呼叫撰寫 API 的範例。
當您準備好要開始使用模型進行預測時,可以使用 REST API 或用戶端程式庫。
建議的 CI/CD 流程為何?
您可以在相同專案內的相同資料集上為多個模型定型。 成功定型模型之後,您就可以檢視其效能。 您可以在 Language Studio 中部署並測試模型。 您可以新增或移除資料中的標籤,以及為新的模型定型並進行測試。 檢視服務限制,以瞭解具有相同專案的已定型模型數目上限。 當您定型模型時,可判斷如何將資料集分割成定型集和測試集。 您也可以將資料隨機分割成定型集和測試集,其中無法保證反映的模型評估與相同的測試集有關,且結果無法比較。 建議您開發自己的測試集,並將其用於評估這兩個模型,讓您可以衡量改進。
模型分數的高低是否保證生產環境中效能的優劣?
模型評估不一定是完整的。 這會取決於:
- 如果測試集太小,則分數的高低並不代表模型的實際效能。 此外,如果測試集中缺少特定的實體類型或代表性不足,則會影響模型效能。
- 資料多樣性:如果您的資料只涵蓋生產環境中預期文字的少數案例/範例,則不會向所有可能的案例公開您的模型,而且對於未定型的案例可能效能不彰。
- 資料表示:如果用來定型模型的資料集不代表將在生產環境中向模型導入的資料,則會大幅影響模型效能。
如需詳細資訊,請參閱資料選取和結構描述設計一文。
如何提升模型效能?
檢視模型混淆矩陣。 如果您注意到某個實體類型通常無法正確預測,請考慮為此類別新增更多標記的執行個體。 如果您注意到有兩個實體類型的預測經常互相混淆,這表示結構描述模糊不清,您應該考慮將這兩個實體類型合併成一個實體類型,以獲得更好的效能。
審核測試集預測。 如果其中一個實體類型的標記執行個體比其他實體類型多很多,則您的模型可能嚴重偏向此類型。 將更多資料新增至其他實體類型,或從具有主導性的類型中移除範例。
深入了解資料選取和結構描述設計。
檢閱您的測試集,以並排查看預測和標記的執行個體,讓您可以更了解模型效能,並決定是否需要在結構描述或標記中進行任何變更。
為什麼我會在重新定型模型時獲得不同的結果?
當您定型模型時,可以判斷是否要將資料隨機分割成定型集和測試集。 如果這樣做,無法保證反映的模型評估會在相同的測試集上,因此結果無法比較。
如果您要為相同的模型重新定型,您的測試集將會相同,但您可能會注意到模型所做的預測有些許變更。 這是因為定型的模型不夠健全,這是影響資料的代表性和獨特性以及標記資料品質的一個因素。
如何取得不同語言的預測?
首先,您必須在建立專案時啟用多語系選項,或者您可以稍後從 [專案設定] 頁面啟用該選項。 定型並部署模型之後,您就可以開始以多種語言查詢。 不同語言的結果可能相異。 若要提高任何語言的正確性,請以該語言將更多標記的執行個體新增至專案,以便將定型的模型引進該語言的其他語法。
我已將模型定型,但無法進行測試
您必須先部署模型,才能進行測試。
如何使用我的定型模型進行預測?
部署模型之後,您可以使用 REST API 或用戶端程式庫呼叫預測 API。
資料隱私權和安全性
自訂 NER 是一種資料處理器,用於一般資料保護規定 (GDPR) 用途。 為符合 GDPR 原則,自訂 NER 使用者可透過 Language Studio 或使用 REST API,以程式設計方式獲得檢視、匯出或刪除任何使用者內容的完整控制權。
您的資料只會儲存在您的 Azure 儲存體帳戶中。 自訂 NER 只有在定型期間,才擁有從該帳戶讀取的存取權。
如何複製我的專案?
若要複製您的專案,您必須使用匯出 API 來匯出專案資產,然後將其匯入新專案。 請參閱這兩個作業的 REST API 參考。