Modèle payStub de Document Intelligence

Article
12/13/2024

Le modèle payStub de Document Intelligence associe de puissantes fonctionnalités de reconnaissance optique de caractères (OCR) à des modèles Deep Learning pour analyser et extraire les données relatives à la rémunération et aux revenus à partir des bulletins de paie. L’API analyse les documents et fichiers contenant des informations liées à des données de paie, extrait les informations clés et retourne une représentation des données sous forme de JSON structuré.

Fonctionnalité	version	ID de modèle
Modèle payStub	v4.0 : 2024-11-30 (GA)	`prebuilt-payStub.us`

Essayer l’extraction de données payStub

Les bulletins de paie sont des documents essentiels émis par les employeurs aux employés, qui indiquent les revenus, les déductions et des renseignements sur le salaire net pour une période de rémunération spécifique. Découvrez comment les données sont extraites à l’aide du modèle prebuilt-payStub.us. Vous avez besoin des ressources suivantes :

Un abonnement Azure : vous pouvez en créer un gratuitement
Instance Intelligence documentaire dans le Portail Azure. Vous pouvez utiliser le niveau tarifaire gratuit (F0) pour tester le service. Une fois votre ressource déployée, sélectionnez Accéder à la ressource pour accéder à la clé et au point de terminaison.

Document Intelligence Studio

Sur la page d’accueil d’Intelligence documentaire Studio, sélectionnez payStub.
Vous pouvez analyser l’exemple de bulletin de paie ou charger vos propres fichiers.
Sélectionnez le bouton Exécuter l’analyse et, si nécessaire, configurez les Options d’analyse :

Critères des entrées

Formats de fichiers pris en charge :

Modèle	PDF	Image : `JPEG/JPG`, `PNG`, `BMP`, `TIFF`, `HEIF`	Microsoft Office : Word (`DOCX`), Excel (`XLSX`), PowerPoint (`PPTX`), HTML
Lire	✔	✔	✔
Layout	✔	✔	✔
Document général	✔	✔
Prédéfinie	✔	✔
Extraction personnalisée	✔	✔
Classification personnalisée	✔	✔	✔

Pour de meilleurs résultats, fournissez une photo nette ou une copie de qualité par document.
Pour les PDF et TIFF, jusqu'à 2 000 pages peuvent être traitées (avec un abonnement gratuit, seules les deux premières pages sont traitées).
La taille de fichier pour l’analyse de documents est de 500 Mo pour le niveau payant (S0) et de 4 Mo pour le niveau gratuit (F0).
Les dimensions de l’image doivent être comprises entre 50 pixels x 50 pixels et 10 000 pixels x 10 000 pixels.
Si vos fichiers PDF sont verrouillés par mot de passe, vous devez supprimer le verrou avant leur envoi.
La hauteur minimale du texte à extraire est de 12 pixels pour une image de 1024 x 768 pixels. Cette dimension correspond environ à un texte de 8 points à 150 points par pouce (ppp).
Pour la formation de modèles personnalisés, le nombre maximal de pages pour les données de formation est de 500 pour le modèle personnalisé et 50 000 pour le modèle neural personnalisé.
- Pour l’apprentissage du modèle d’extraction personnalisé, la taille totale des données d’entraînement est de 50 Mo pour le modèle de gabarit et de 1 Go pour le modèle neuronal.
- Pour l’apprentissage du modèle de classification personnalisé, la taille totale des données d’entraînement est de 1 Go, avec un maximum de 10 000 pages. Pour 2024-11-30 (GA), la taille totale des données d’entraînement est de 2 Go, avec un maximum de 10 000 pages.

Langues et régions prises en charge

Pour obtenir la liste complète des langues prises en charge, consultez notre page Prise en charge des langues du modèle prédéfini.

Extractions de champs

Pour connaître les champs d’extraction de documents pris en charge, consultez la page Schéma du modèle payStub dans notre référentiel d’exemples GitHub.

Paramètres régionaux pris en charge

La version de prebuilt-payStub.us prend en charge les paramètres régionaux en-us.

Étapes suivantes

Traitez vos propres formulaires et documents avec Studio Intelligence Documentaire.
Effectuez un démarrage rapide Intelligence Documentaire et commencez à créer une application de traitement de documents dans le langage de développement de votre choix.

Partager via