共用方式為


建置標示資料集的提示

此內容適用於: v4.0 (GA) | 舊版:blue-checkmark勾選記號 v3.1 (GA)blue-checkmark v3.0 (GA)

此內容適用於: v3.1 (GA) | 最新版本: 勾選記號 purple-checkmarkv4.0 (GA) | 舊版: blue-checkmark v3.0

此內容適用於: v3.0 (GA) | 最新版本:purple-checkmark勾選記號 v4.0 (GA)紫色核取記號 v3.1

本文重點說明在文件智慧服務工作室中標記自訂模型資料集的最佳方法。 當您有大量標籤、長篇文件或具有不同結構的文件時,標記文件可能相當耗時。 這些提示應該可協助您更有效率地標記文件。

影片:自訂標籤最佳做法

  • 下列影片是兩個簡報中的第二個,旨在協助您建置具有較高正確性的自訂模型 (第一個簡報會探索如何建立平衡的資料集)。

  • 我們會探討標記您選擇的文件的最佳做法。 使用語意相關且一致的標記,您應該會看到模型效能的改善。

工作室現在會包含搜尋方塊,例如,當您知道需要尋找特定字詞來標記,但不知道可在文件何處找到它們時。 只要搜尋單字或片語,然後瀏覽至文件中的特定區段,即可標記該出現項目。

自動標記表格

當表格有許多資料列或密集文字時,對資料表標記可能很困難。 如果版面配置表格會擷取您需要的結果,應該只使用該結果並略過標記程序。 在版面配置表格不是您確切需要的情況中,您可以從值版面配置擷取來產生表格欄位開始。 首先選取頁面上的資料表圖示,然後選取自動標記按鈕。 然後,您可以視需要編輯這些值。 自動標記目前僅支援單一頁面資料表。

Shift 選取

標記大範圍文字時,不要標記範圍中的每個單字,而是在選取文字時按住 Shift 鍵以加快標記速度並確保您不會錯過文字範圍中的任何單字。

區域標籤

標記較大範圍文字時的第二個選項是使用區域標記。 使用區域標記時,OCR 結果會填入訓練時的值。 Shift 選取和區域標記之間的差異在於 Shift 標記方法所提供的視覺回饋。

標記重疊欄位

欄位和表格單元格支援重疊欄位。 如果您預期分析結果包含重疊的欄位,則應將至少一個樣本新增到訓練資料集中,並標記特定欄位重疊。 若要標記重疊欄位,請使用區域標記功能來選取每個欄位的區域。 支援完全重疊和部分重疊。 文件中的任何單字只能為兩個欄位進行標記。

欄位子類型

建立欄位時,請選取正確的子類型以最小化後處理,例如選取日期的 dmy 選項,以擷取 dd-mm-yyyy 格式的值。

下一步