受け入れられるカスタムの NER データ形式
カスタムの NER にデータをインポートする場合は、特定の形式に従う必要があります。 インポートするデータがない場合は、プロジェクトを作成し、Language Studio を使用してドキュメントにラベルを付けることができます。
ラベルのファイル形式
ラベル ファイルは、ラベルをプロジェクトにインポートする場合に使用する以下の json
形式にする必要があります。
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
Key | プレースホルダー | 値 | 例 |
---|---|---|---|
multilingual |
true |
データセットで複数の言語のドキュメントを得ることを可能とするブール値であり、モデルがデプロイされる場合に、サポートする任意の言語 (必ずしもトレーニング ドキュメントに含まれているとは限りません) でモデルに関するクエリを実行することができます。 多言語サポートの詳細については、言語サポートをご覧ください。 | true |
projectName |
{PROJECT-NAME} |
プロジェクト名 | myproject |
storageInputContainerName | {CONTAINER-NAME} |
コンテナー名 | mycontainer |
entities |
プロジェクト内にあるすべてのエンティティ型を含めた配列。 これらは、ドキュメントから抽出されるエンティティ型です。 | ||
documents |
プロジェクト内のすべてのドキュメントと、各ドキュメント内でラベル付けされたエンティティのリストを含む配列。 | [] | |
location |
{DOCUMENT-NAME} |
ストレージ コンテナー内のドキュメントの場所。 すべてのドキュメントはコンテナーのルートに含まれているので、これはドキュメント名にする必要があります。 | doc1.txt |
dataset |
{DATASET} |
トレーニング前に分割される場合、このファイルの移動先のテスト セット。 データの分割の詳細については、こちらを参照してください。 このフィールドで使用できる値は Train および Test です。 |
Train |
regionOffset |
テキストの先頭の包括的な文字位置。 | 0 |
|
regionLength |
UTF16 文字を基準とした場合の境界ボックスの長さ。 トレーニングではこの領域のデータのみが考慮されます。 | 500 |
|
category |
指定されたテキストのスパンに関連付けられているエンティティ型。 | Entity1 |
|
offset |
エンティティ テキストの開始位置。 | 25 |
|
length |
UTF16 文字を基準とした場合のエンティティの長さ。 | 20 |
|
language |
{LANGUAGE-CODE} |
プロジェクトで使用されるドキュメントの言語コードを指定する文字列。 プロジェクトが多言語プロジェクトの場合は、ほとんどのドキュメントの言語コードを選択します。 サポートされている言語コードの詳細については、言語サポートを参照してください。 | en-us |
次の手順
- ラベル付きデータをプロジェクトに直接インポートできます。 プロジェクトをインポートする方法を学習する
- データのタグ付けに関する詳細については、操作方法に関する記事を参照してください。 データのタグ付けが完了したら、モデルをトレーニングできます。