インデックス作成プロセスについて
インデックス作成プロセスは、インデックス付きのエンティティごとに document を作成することによって機能します。 インデックス作成中、"エンリッチメント パイプライン" によって、データ ソースのメタデータと、コグニティブ スキルによって抽出された強化されたフィールドを組み合わせたドキュメントが繰り返し作成されます。 各インデックス付きドキュメントは JSON 構造体であると考えることができます、これは、最初は、次のように、ソース データから直接抽出されたフィールドにマップしたインデックス フィールドを含む document で構成されます。
- document
- metadata_storage_name
- metadata_author
- content
データ ソース内のドキュメントに画像が含まれている場合は、画像データを抽出し、次のように各画像を normalized_images コレクションに配置するようにインデクサーを構成できます。
- document
- metadata_storage_name
- metadata_author
- content
- normalized_images
- image0
- image1
この方法で画像データを正規化すると、画像データから情報を抽出するスキルの入力として画像のコレクションを使用できるようになります。
スキルごとに、document にフィールドが追加されるため、たとえば、ドキュメントの記述 "言語" を検出するスキルでは、その出力が、次のように language フィールドに格納されます。
- document
- metadata_storage_name
- metadata_author
- content
- normalized_images
- image0
- image1
- language
ドキュメントは階層構造になっており、スキルは階層内の特定の "コンテキスト" に適用されます。これにより、ドキュメントの特定のレベルで項目ごとにスキルを実行できるようになります。 たとえば、正規化された画像コレクション内の画像ごとに光学式文字認識 (OCR) スキルを実行して、含まれるテキストを抽出できます。
- document
- metadata_storage_name
- metadata_author
- content
- normalized_images
- image0
- [テキスト]
- image1
- [テキスト]
- image0
- language
各スキルの出力フィールドをパイプライン内のその後の他のスキルの入力として使用すると、"それら" の出力が、ドキュメント構造体に格納されます。 たとえば、"マージ" スキルを使用して、元のテキスト コンテンツと各画像から抽出されたテキストを組み合わせて、画像テキストを含む、ドキュメント内のすべてのテキストが含まれる新しい merged_content フィールドを作成できます。
- document
- metadata_storage_name
- metadata_author
- content
- normalized_images
- image0
- [テキスト]
- image1
- [テキスト]
- image0
- language
- merged_content
パイプラインの最後にある最終のドキュメント構造内のフィールドが、次の 2 つの方法のいずれかで、インデクサーによってインデックス フィールドにマップされます。
- ソース データから直接抽出されたフィールドは、すべてインデックス フィールドにマップされます。 これらのマッピングは、"暗黙的" (フィールドはインデックス内の名前が同じフィールドに自動的にマップされます) または "明示的" (ソース フィールドをインデックス フィールドに一致させるようにマッピングが定義され、多くの場合、フィールドの名前をより便利なものに変更したり、マップされたときにデータ値に関数を適用したりします) のいずれかです。
- スキルセット内のスキルからの出力フィールドは、出力内のそれらの階層位置からインデックスのターゲット フィールドに明示的にマップされます。