Vue d’ensemble de la reconnaissance optique de caractères dans Microsoft Syntex
Remarque
Jusqu’en juin 2025, vous pouvez essayer gratuitement une quantité limitée de reconnaissance optique de caractères et d’autres services Syntex sélectionnés si la facturation du paiement à l’utilisation est configurée. Pour plus d’informations et pour connaître les limitations, consultez Essayer Microsoft Syntex et explorer ses services.
Le service de reconnaissance optique de caractères (OCR) dans Microsoft Syntex vous permet d’extraire du texte imprimé ou manuscrit à partir d’images et de documents. Les affiches, les dessins et les étiquettes de produits sont des exemples d’images. Les articles, les rapports, les formulaires et les factures sont des exemples de documents.
Le texte est généralement extrait sous forme de mots, de lignes de texte, de paragraphes ou de blocs de texte, ce qui permet d’accéder à la version numérique du texte numérisé. Les informations extraites sont indexées dans la recherche et peuvent être mises à disposition pour les fonctionnalités de conformité telles que la protection contre la perte de données (DLP).
Par exemple, vous activez le service OCR, puis ajoutez des fichiers image à votre bibliothèque de documents. Microsoft Syntex analyse automatiquement les fichiers image, extrait le texte approprié et rend le texte des images disponible pour la recherche et l’indexation. Cette fonctionnalité vous permet de trouver rapidement et précisément les mots clés et les expressions que vous recherchez.
Configuration requise et limitations
Types de fichiers pris en charge
Point de terminaison | Types de fichiers pris en charge |
---|---|
SharePoint et OneDrive | .bmp, .png, .jpeg, .jpg, .jfif, .arw, .cr2, .crw, .erf, .gif, .mef, .mrw, .nef, .nrw, .orf, .pef, .raw, .rw2, .rw1, .sr2, .tif, .tiff, .heic, .heif, .ari, .bay, .cap, .cr3, .dcs, .dcr, .drf, .eip, .fff, .iiq, .k25, .kdc, .mef, .mos, .ptx, .pxn, .raf, .rwl, .sr2, .srf, .srw, .x3f, .dng, .tiff, and .pdf |
Appareils Teams, Exchange et Windows | .bmp, .png, .jpeg, .jpg, .tiff, and .pdf |
En plus du PDF basé sur l’image, Syntex OCR prendra en charge le PDF hybride (texte plus image PDF) à partir de novembre 2024. Après ce délai, les fichiers PDF hybrides nouvellement chargés seront traités par le service OCR.
Remarque
Lorsque vous appliquez la reconnaissance optique de caractères à un fichier image, le texte est stocké dans la colonne Métadonnées du texte extrait . Lorsque vous appliquez la reconnaissance optique de caractères à un fichier PDF ou TIFF, le texte extrait est indexé dans la recherche, mais n’est pas disponible dans la colonne de métadonnées.
Langues prises en charge
Le service OCR prend en charge plus de 150 langues.
Emplacements et solutions pris en charge
Le service OCR prend en charge plusieurs solutions, comme indiqué dans le tableau suivant. Pour plus d’informations sur les solutions de conformité, consultez Emplacements et solutions pris en charge dans Microsoft Purview.
Emplacement | Solution prise en charge |
---|---|
Exchange | Le texte est disponible pour la recherche par l’utilisateur final et les solutions pilotées par la recherche. Le texte est disponible pour les solutions de conformité. |
Sites SharePoint | Le texte est disponible pour la recherche par l’utilisateur final et les solutions pilotées par la recherche. Le texte est disponible pour les solutions de conformité. |
Comptes OneDrive | Le texte est disponible pour la recherche par l’utilisateur final et les solutions pilotées par la recherche. Le texte est disponible pour les solutions de conformité. |
Conversation teams et message de canal | Le texte est disponible pour les solutions de conformité. |
Appareils | Le texte est disponible pour les solutions de conformité. |
Limitations de fichier
Les images doivent être inférieures à 50 Mo.
Les images doivent être d’au moins 50 x 50 pixels et ne pas dépasser 16 000 x 16 000 pixels.
Les images chargées après l’activation de la reconnaissance optique de caractères sont les seules images qui sont analysées.
Les images incorporées dans les documents Office ne sont pas prises en charge.