Freigeben über


Tipps zum Erstellen von beschrifteten Datasets

Dieser Inhalt gilt für:Häkchen Version 4.0 (GA) | Vorherige Versionen: Blaues Häkchen Version 3.1 (GA) Blaues Häkchen Version 3.0 (GA)

Dieser Inhalt gilt für: Häkchen Version 3.1 (GA) | Aktuelle Version: Lila Häkchen Version 4.0 (GA) | Vorherige Versionen: Blaues Häkchen Version 3.0

Dieser Inhalt gilt für: Häkchen Version 3.0 (GA) | Aktuelle Versionen: Lila Häkchen Version 4.0 (GA) Lila Häkchen Version 3.1

In diesem Artikel werden die besten Methoden zum Bezeichnen von Datasets in benutzerdefinierten Modellen in Dokument Intelligenz Studio erläutert. Das Bezeichnen von Dokumenten kann zeitaufwendig sein, wenn Sie über eine große Anzahl von Bezeichnungen, langen Dokumenten oder Dokumenten mit variabler Struktur verfügen. Diese Tipps sollen Ihnen helfen, Dokumente effizienter zu bezeichnen.

Video: Best Practices für benutzerdefinierte Bezeichnungen

  • Das folgende Video ist die zweite von zwei Präsentationen, die Ihnen helfen sollen, benutzerdefinierte Modelle mit höherer Genauigkeit zu erstellen (In der ersten Präsentation wird das Erstellen eines ausgewogenen Dataset erläutert).

  • Hier untersuchen wir Best Practices für das Bezeichnen Ihrer ausgewählten Dokumente. Bei semantisch relevanter und konsistenter Bezeichnung sollte eine Verbesserung der Modellleistung erfolgen.

Studio bietet jetzt ein Suchfeld für Instanzen, wenn Sie bestimmte Wörter für die Bezeichnung finden müssen, aber einfach nicht wissen, wo sie sich im Dokument befinden. Suchen Sie einfach nach dem Wort oder Ausdruck, und navigieren Sie zum entsprechenden Abschnitt im Dokument, um das Vorkommen zu bezeichnen.

Automatisches Bezeichnen von Tabellen

Tabellen können schwierig zu bezeichnen sein, wenn sie viele Zeilen oder umfangreichen Text enthalten. Wenn die Layouttabelle das benötigte Ergebnis extrahiert, sollten Sie einfach dieses Ergebnis verwenden und den Bezeichnungsprozess überspringen. Falls die Layouttabelle nicht genau Ihren Anforderungen entspricht, können Sie mit dem Generieren des Tabellenfelds aus den Werten beginnen, die vom Layout extrahiert wurden. Wählen Sie zunächst das Tabellensymbol auf der Seite aus, und wählen Sie dann die Schaltfläche für die automatische Bezeichnung aus. Sie können die Werte nach Bedarf bearbeiten. Für die automatische Bezeichnung werden derzeit nur Tabellen mit einer Seite unterstützt.

UMSCHALTTASTE während der Auswahl

Wenn Sie eine große Textmenge bezeichnen, müssen Sie nicht jedes Wort im Bereich einzeln markieren, sondern können die UMSCHALTTASTE gedrückt halten, während Sie die Wörter auswählen. Damit können Sie die Bezeichnung beschleunigen und sicherstellen, dass Sie keine Wörter im Textabschnitt auslassen.

Beschriften von Bereichen

Eine zweite Option zum Bezeichnen größerer Textabschnitte stellt die Verwendung von Bereichsbezeichnungen dar. Bei der Verwendung von Regionskennzeichnungen werden die OCR-Ergebnisse zum Zeitpunkt des Trainings in den Wert eingefügt. Der Unterschied zwischen der Auswahl mit gedrückter UMSCHALTTASTE und der Bereichsbezeichnung liegt nur im visuellen Feedback, das der Bezeichnungsansatz mit der UMSCHALTTASTE bietet.

Beschriftung überlappende Felder

Überlappende Felder werden für Felder und Tabellenzellen unterstützt. Wenn Ihre Analyseergebnisse überlappende Felder enthalten sollen, sollten Sie dem Schulungsdatensatz mindestens ein Beispiel hinzufügen, wobei das spezifische Feld mit der Bezeichnung überlappt wird. Verwenden Sie zum Bezeichnen eines überlappenden Felds das Bereichsbezeichnungsfeature, um die Regionen für jedes Feld auszuwählen. Sowohl vollständige als auch teilweise Überlappungen werden unterstützt. Jedes einzelne Wort im Dokument kann nur für zwei Felder beschriftet werden.

Felduntertypen

Wählen Sie beim Erstellen eines Felds den richtigen Untertyp aus, um die Nachbearbeitung zu minimieren. Wählen Sie z. B. die Option dmy für Datumsangaben aus, um die Werte im Format dd-mm-yyyy zu extrahieren.

Nächste Schritte