Modèle de documents fiscaux américains d’Intelligence documentaire

Article
12/12/2024

Ce contenu s’applique à : v4.0 (GA) | Versions précédentes : v3.1 (GA) :::moniker-end

Ce contenu s’applique à : v3.1 (GA) | Dernière version : v4.0 (GA)

Le modèle fiscal Intelligence documentaire utilise de puissantes fonctionnalités de reconnaissance optique de caractères (OCR) pour analyser et extraire des champs clés et des éléments de ligne à partir d’un groupe de documents fiscaux sélectionné. Les documents fiscaux peuvent être de différents formats, comme 1099, 1098, W2, 1040, 1095A, 1095C, W-4 ou 1099-SSA. Les formats d’entrée peuvent inclure des images capturées par téléphone, des documents numérisés et des fichiers PDF numériques. L’API analyse les documents d’identité, extrait les informations clés et retourne une représentation des données JSON structurée. Le modèle prend actuellement en charge certains formats de documents fiscaux en anglais.

Types de formulaires fiscaux pris en charge :

États-Unis d’impôt unifié
W-2
1098
1098-E
1098-T
1099 et variantes (1099-SSA ajouté)
1040 et variantes
1095A, 1095C
W-4

Gestion automatisée des documents fiscaux

Le traitement automatisé des documents fiscaux est le processus d’extraction de champs clés à partir de documents fiscaux. Historiquement, les documents fiscaux étaient traités manuellement. Ce modèle permet d’automatiser facilement les scénarios fiscaux.

États-Unis d’impôt unifié

Le modèle prédéfini Unified US Tax détecte et extrait automatiquement les données des formulaires fiscaux W2, 1098, 1040 et1099 des documents soumis. Ces documents peuvent être composés de nombreux documents fiscaux ou non fiscaux. Le modèle traite uniquement les formulaires qu’il prend en charge.

Capture d’écran d’un diagramme de traitement fiscal unifié.

Options de développement

Intelligence Documentaire v4.0 : 2024-11-30 (GA) prend en charge les outils, applications et bibliothèques suivants :

Fonctionnalité	Ressources	ID de modèle
Modèles de formulaires fiscaux américains	• Document Intelligence Studio • API REST • Kit de développement logiciel (SDK) C# • Kit de développement logiciel (SDK) Python • Kit de développement logiciel (SDK) Java • Kit de développement logiciel (SDK) JavaScript	• prebuilt-tax.us • prebuilt-tax.us.W-2 • prebuilt-tax.us.W-4 • prebuilt-tax.us.1095A • prebuilt-tax.us.1095C • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T • prebuilt-tax.us.1099A • prebuilt-tax.us.1099B • prebuilt-tax.us.1099C • prebuilt-tax.us.1099CAP • prebuilt-tax.us.1099Combo • prebuilt-tax.us.1099DIV • prebuilt-tax.us.1099G • prebuilt-tax.us.1099H • prebuilt-tax.us.1099INT • prebuilt-tax.us.1099K • prebuilt-tax.us.1099LS • prebuilt-tax.us.1099LTC • prebuilt-tax.us.1099MISC • prebuilt-tax.us.1099NEC • prebuilt-tax.us.1099OID • prebuilt-tax.us.1099PATR • prebuilt-tax.us.1099Q • prebuilt-tax.us.1099QA • prebuilt-tax.us.1099R • prebuilt-tax.us.1099S • prebuilt-tax.us.1099SA • prebuilt-tax.us.1099SB • prebuilt-tax.us.1099SSA • prebuilt-tax.us.1040 • prebuilt-tax.us.1040Schedule1 • prebuilt-tax.us.1040Schedule2 • prebuilt-tax.us.1040Schedule3 • prebuilt-tax.us.1040Schedule8812 • prebuilt-tax.us.1040ScheduleA • prebuilt-tax.us.1040ScheduleB • prebuilt-tax.us.1040ScheduleC • prebuilt-tax.us.1040ScheduleD • prebuilt-tax.us.1040ScheduleE • prebuilt-tax.us.1040ScheduleEIC • prebuilt-tax.us.1040ScheduleF • prebuilt-tax.us.1040ScheduleH • prebuilt-tax.us.1040ScheduleJ • prebuilt-tax.us.1040ScheduleR • prebuilt-tax.us.1040ScheduleSE • prebuilt-tax.us.1040Senior

Intelligence documentaire v3.1 prend en charge les outils, applications et bibliothèques suivants :

Fonction	Ressources	ID de modèle
Modèles de formulaires fiscaux américains	• Document Intelligence Studio • API REST • Kit de développement logiciel (SDK) C# • Kit de développement logiciel (SDK) Python • Kit de développement logiciel (SDK) Java • Kit de développement logiciel (SDK) JavaScript	• prebuilt-tax.us.W-2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T

Intelligence documentaire v3.0 prend en charge les outils, applications et bibliothèques suivants :

Fonction	Ressources	ID de modèle
Modèles de formulaires fiscaux américains	• Document Intelligence Studio • API REST • Kit de développement logiciel (SDK) C# • Kit de développement logiciel (SDK) Python • Kit de développement logiciel (SDK) Java • Kit de développement logiciel (SDK) JavaScript	• prebuilt-tax.us.W-2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T

Critères des entrées

Formats de fichiers pris en charge :

Modèle	PDF	Image : `JPEG/JPG`, `PNG`, `BMP`, `TIFF`, `HEIF`	Microsoft Office : Word (`DOCX`), Excel (`XLSX`), PowerPoint (`PPTX`), HTML
Lire	✔	✔	✔
Layout	✔	✔	✔
Document général	✔	✔
Prédéfinie	✔	✔
Extraction personnalisée	✔	✔
Classification personnalisée	✔	✔	✔

Pour de meilleurs résultats, fournissez une photo nette ou une copie de qualité par document.
Pour les PDF et TIFF, jusqu'à 2 000 pages peuvent être traitées (avec un abonnement gratuit, seules les deux premières pages sont traitées).
La taille de fichier pour l’analyse de documents est de 500 Mo pour le niveau payant (S0) et de 4 Mo pour le niveau gratuit (F0).
Les dimensions de l’image doivent être comprises entre 50 pixels x 50 pixels et 10 000 pixels x 10 000 pixels.
Si vos fichiers PDF sont verrouillés par mot de passe, vous devez supprimer le verrou avant leur envoi.
La hauteur minimale du texte à extraire est de 12 pixels pour une image de 1024 x 768 pixels. Cette dimension correspond environ à un texte de 8 points à 150 points par pouce (ppp).
Pour la formation de modèles personnalisés, le nombre maximal de pages pour les données de formation est de 500 pour le modèle personnalisé et 50 000 pour le modèle neural personnalisé.
- Pour l’apprentissage du modèle d’extraction personnalisé, la taille totale des données d’entraînement est de 50 Mo pour le modèle de gabarit et de 1 Go pour le modèle neuronal.
- Pour l’apprentissage du modèle de classification personnalisé, la taille totale des données d’entraînement est de 1 Go, avec un maximum de 10 000 pages. Pour 2024-11-30 (GA), la taille totale des données d’apprentissage est de 2 Go avec un maximum de 10 000 pages.

Essayer l’extraction de données de documents fiscaux

Découvrez comment les données, y compris les informations sur les clients, les détails du fournisseur et les articles, sont extraites des factures. Vous avez besoin des ressources suivantes :

Un abonnement Azure. Vous pouvez en créer un gratuitement.
Instance Intelligence documentaire dans le Portail Azure. Vous pouvez utiliser le niveau tarifaire gratuit (F0) pour tester le service. Une fois votre ressource déployée, sélectionnez Accéder à la ressource pour accéder à la clé et au point de terminaison.

Capture d’écran de l’emplacement des clés et des points de terminaison dans le Portail Azure.

Document Intelligence Studio

Dans la page d’accueil d’Intelligence documentaire Studio, sélectionnez le modèle de document fiscal pris en charge.
Vous pouvez analyser un exemple de document fiscal ou charger vos propres fichiers.
Sélectionnez le bouton Exécuter l’analyse et, si nécessaire, configurez les Options d’analyse :

Essayer le Studio d’Intelligence documentaire

Langues et régions prises en charge

Pour obtenir la liste complète des langues prises en charge, consultez notre page Prise en charge des langues : Modèles prédéfinis.

Extraction de champ

Pour connaître les champs d’extraction de documents pris en charge, consulter les pages Schéma du modèle de document fiscal de notre référentiel d’exemples GitHub.

Les paires clé-valeur et les éléments de ligne extraits des documents fiscaux se trouvent dans la section documentResults de la sortie JSON.

Étapes suivantes

Essayez de traiter vos propres formulaires et documents avec Document Intelligence Studio.
Effectuez un démarrage rapide Intelligence Documentaire et commencez à créer une application de traitement de documents dans le langage de développement de votre choix.

Découvrez plus d’exemples sur GitHub.

Partager via