Tipps zum Erstellen von beschrifteten Datasets
Dieser Inhalt gilt für: Version 4.0 (GA) | Vorherige Versionen: Version 3.1 (GA) Version 3.0 (GA)
Dieser Inhalt gilt für: Version 3.1 (GA) | Aktuelle Version: Version 4.0 (GA) | Vorherige Versionen: Version 3.0
Dieser Inhalt gilt für: Version 3.0 (GA) | Aktuelle Versionen: Version 4.0 (GA) Version 3.1
In diesem Artikel werden die besten Methoden zum Bezeichnen von Datasets in benutzerdefinierten Modellen in Dokument Intelligenz Studio erläutert. Das Bezeichnen von Dokumenten kann zeitaufwendig sein, wenn Sie über eine große Anzahl von Bezeichnungen, langen Dokumenten oder Dokumenten mit variabler Struktur verfügen. Diese Tipps sollen Ihnen helfen, Dokumente effizienter zu bezeichnen.
Video: Best Practices für benutzerdefinierte Bezeichnungen
Das folgende Video ist die zweite von zwei Präsentationen, die Ihnen helfen sollen, benutzerdefinierte Modelle mit höherer Genauigkeit zu erstellen (In der ersten Präsentation wird das Erstellen eines ausgewogenen Dataset erläutert).
Hier untersuchen wir Best Practices für das Bezeichnen Ihrer ausgewählten Dokumente. Bei semantisch relevanter und konsistenter Bezeichnung sollte eine Verbesserung der Modellleistung erfolgen.
Suche
Studio bietet jetzt ein Suchfeld für Instanzen, wenn Sie bestimmte Wörter für die Bezeichnung finden müssen, aber einfach nicht wissen, wo sie sich im Dokument befinden. Suchen Sie einfach nach dem Wort oder Ausdruck, und navigieren Sie zum entsprechenden Abschnitt im Dokument, um das Vorkommen zu bezeichnen.
Automatisches Bezeichnen von Tabellen
Tabellen können schwierig zu bezeichnen sein, wenn sie viele Zeilen oder umfangreichen Text enthalten. Wenn die Layouttabelle das benötigte Ergebnis extrahiert, sollten Sie einfach dieses Ergebnis verwenden und den Bezeichnungsprozess überspringen. Falls die Layouttabelle nicht genau Ihren Anforderungen entspricht, können Sie mit dem Generieren des Tabellenfelds aus den Werten beginnen, die vom Layout extrahiert wurden. Wählen Sie zunächst das Tabellensymbol auf der Seite aus, und wählen Sie dann die Schaltfläche für die automatische Bezeichnung aus. Sie können die Werte nach Bedarf bearbeiten. Für die automatische Bezeichnung werden derzeit nur Tabellen mit einer Seite unterstützt.
UMSCHALTTASTE während der Auswahl
Wenn Sie eine große Textmenge bezeichnen, müssen Sie nicht jedes Wort im Bereich einzeln markieren, sondern können die UMSCHALTTASTE gedrückt halten, während Sie die Wörter auswählen. Damit können Sie die Bezeichnung beschleunigen und sicherstellen, dass Sie keine Wörter im Textabschnitt auslassen.
Beschriften von Bereichen
Eine zweite Option zum Bezeichnen größerer Textabschnitte stellt die Verwendung von Bereichsbezeichnungen dar. Bei der Verwendung von Regionskennzeichnungen werden die OCR
-Ergebnisse zum Zeitpunkt des Trainings in den Wert eingefügt. Der Unterschied zwischen der Auswahl mit gedrückter UMSCHALTTASTE und der Bereichsbezeichnung liegt nur im visuellen Feedback, das der Bezeichnungsansatz mit der UMSCHALTTASTE bietet.
Beschriftung überlappende Felder
Überlappende Felder werden für Felder und Tabellenzellen unterstützt. Wenn Ihre Analyseergebnisse überlappende Felder enthalten sollen, sollten Sie dem Schulungsdatensatz mindestens ein Beispiel hinzufügen, wobei das spezifische Feld mit der Bezeichnung überlappt wird. Verwenden Sie zum Bezeichnen eines überlappenden Felds das Bereichsbezeichnungsfeature, um die Regionen für jedes Feld auszuwählen. Sowohl vollständige als auch teilweise Überlappungen werden unterstützt. Jedes einzelne Wort im Dokument kann nur für zwei Felder beschriftet werden.
Felduntertypen
Wählen Sie beim Erstellen eines Felds den richtigen Untertyp aus, um die Nachbearbeitung zu minimieren. Wählen Sie z. B. die Option dmy
für Datumsangaben aus, um die Werte im Format dd-mm-yyyy
zu extrahieren.
Nächste Schritte
Weitere Informationen zu benutzerdefinierten Bezeichnungen:
Weitere Informationen zu benutzerdefinierten Vorlagenmodellen: