標記您的資料

已完成

正確為資料加上標籤或標記資料是建立自訂實體擷取模型程序的重要部分。 標籤可識別用來定型模型之文字中特定實體的範例。 需著重的三個要點如下:

  • 一致性 - 在所有檔案中以相同方式標記資料以進行定型。 一致性可讓模型在沒有任何輸入有所衝突的情況下學習。
  • 精確度 - 以一致的方式標記實體,不含不必要的額外字詞。 精確度可確保擷取的實體中只包含正確的資料。
  • 完整性 - 完全標記資料,不遺漏任何實體。 完整性可協助模型一律辨識出存在的實體。

Screenshot of labeling an entity in Language Studio.

如何標記您的資料

Language Studio 是標記資料最直接的方法。 Language Studio 可用來查看檔案、選取實體的開頭和結尾,並指定確切實體為何。

您識別的每個標籤都會儲存到存放於您儲存體帳戶 (具有資料集) 中的檔案,以及自動產生的 JSON 檔案中。 接著模型會使用這個檔案來學習如何擷取自訂實體。 建立專案時可以提供此檔案 (例如從不同專案匯入相同標籤時),但必須使用 已接受自訂 NER資料的格式。 例如:


{
  "projectFileVersion": "{DATE}",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

欄位 描述
documents 已標記文件的陣列
location 連線至專案之容器內的檔案路徑
language 檔案的語言
entities 目前文件中現有實體的陣列
regionOffset 文字開頭的內含字元位置
regionLength 用於定型的資料字元長度
category 要擷取的實體名稱
labels 檔案中已標記實體的陣列
offset 實體開頭的內含字元位置
length 實體字元長度
dataset 指派檔案的目標資料集