Partager via


Index sémantique pour Copilot

L’index sémantique est généré à partir du contenu dans Microsoft Graph. Il est utilisé pour faciliter la production de réponses contextuellement pertinentes aux requêtes utilisateur. Il permet aux organisations de rechercher des milliards de vecteurs (représentations mathématiques de caractéristiques ou d’attributs) et de retourner les résultats associés. Combiné aux améliorations apportées à Microsoft Graph, l’index sémantique vous connecte avec des informations pertinentes dans votre organization. Il repose sur l’approche complète de Microsoft en matière de sécurité, de conformité et de confidentialité, et respecte toutes les limites organisationnelles au sein de votre locataire.

Qu’est-ce qu’un index ?

Le concept d’indexation des données est bien établi dans Microsoft 365. L’indexation est l’un des principaux moyens pour les services Microsoft 365 d’accéder à l’énorme quantité de données dans Microsoft Graph, où réside votre locataire Microsoft 365. Avec l’indexation, les utilisateurs voient les résultats de recherche de Microsoft Graph, y compris le contenu et les signaux de la plupart des applications Microsoft 365 dans votre locataire. Cela garantit que les résultats de la recherche sont personnalisés et élevés en fonction de vos connexions entre le contenu et les personnes de votre réseau.

Les interactions avec les données dans Microsoft Graph sont basées sur la correspondance mot clé, la personnalisation et la correspondance sociale. La recherche par mot clé interroge un index dans Microsoft Graph, qui mappe à des emplacements dans des documents ou un ensemble de documents. Microsoft 365 utilise Microsoft Graph pour classer le contenu le plus pertinent en fonction de sa connaissance des signaux supplémentaires pour les utilisateurs et leur réseau proche. C’est ce que l’on appelle la personnalisation et la mise en correspondance sociale dans Microsoft 365, ce qui détermine la pertinence des requêtes par rapport au contenu de votre organization. L’accès aux données de locataire dans Microsoft Graph est contrôlé par le contrôle d’accès en fonction du rôle. Les organisations contrôlent toujours les fonctionnalités de Recherche Microsoft via le portail de recherche et d’intelligence dans le Centre d’administration Microsoft 365.

Comment l’index sémantique permet de gérer vos données

L’index sémantique améliore l’expérience Microsoft 365 Copilot dans les Business Chat et dans les applications Microsoft 365. Il prend en charge une meilleure compréhension conceptuelle et de base du contenu de vos données en ligne qui est automatiquement activée par Microsoft. Pour ce faire, il crée des index vectorisés. Un vecteur est une représentation numérique d’un mot, d’un pixel d’image ou d’un autre point de données. Le vecteur est organisé ou mappé avec des nombres proches placés à proximité les uns des autres pour représenter la similarité. Les vecteurs sont stockés dans des espaces multidimensionnels où des points de données sémantiquement similaires sont regroupés dans l’espace vectoriel, ce qui permet à Microsoft 365 de gérer un ensemble plus large de requêtes de recherche au-delà de la « correspondance exacte ».

En pratique, cela signifie que les services Microsoft 365 tels que Microsoft 365 Copilot peuvent :

  • Comprendre les relations entre différentes formes de mots (par exemple, technologie, technologie, technologies ; États-Unis, États-Unis, États-Unis, États-Unis d’Amérique ; chien, chat, animal de compagnie).
  • Capturez des synonymes pour étendre la quantité d’informations pouvant faire l’objet d’une recherche, notamment l’intention des phrases, des extraits de code, des documents et des réunions.
  • Identifiez les ressources associées à votre requête ou à votre exemple de contenu.

Le graphique suivant utilise du texte (au lieu des nombres utilisés par les index vectorisés) pour montrer un exemple de similarité entre les points de données :

Graphique montrant un exemple de cluster des points de données pour l’index sémantique.

L’index sémantique permet une recherche de similarité et une récupération rapides et précises des données en fonction de leur distance de vecteur ou de leur similarité. Cela signifie qu’en plus d’utiliser des méthodes lexicales traditionnelles pour interroger en fonction de correspondances exactes ou de critères prédéfinis, l’index sémantique peut trouver les données les plus similaires ou pertinentes en fonction de la signification sémantique ou contextuelle.

Fonctionnalités

Les fonctionnalités d’index sémantique suivantes font plus qu’améliorer les résultats de recherche : Ils collaborent pour vous aider à comprendre vos données, à trouver des informations plus rapidement et à améliorer votre productivité. Les utilisateurs peuvent interagir avec l’index sémantique initialement via l’intégration Microsoft 365 Copilot. Nous générons un index sémantique pour les utilisateurs disposant d’une licence Microsoft 365 Copilot payante. Voici les détails du fonctionnement de chaque fonctionnalité.

Microsoft Copilot avec conversation ancrée sur Graph

L’index sémantique permet de faire apparaître les résultats dans Microsoft Copilot avec une conversation fondée sur Graph en comprenant l’intention de votre requête et en ajoutant des informations supplémentaires à votre invite de Microsoft Copilot. Les informations pertinentes sont obtenues dans Microsoft Graph et l’index sémantique pour fournir au modèle LLM (Large Language Model) plus d’informations à raisonner. Par exemple, supposons que vous souhaitiez Microsoft Copilot localiser un e-mail où un collègue a fait l’éloge du travail de conception d’un fournisseur. L’index sémantique inclut des mots proches (par exemple, énervés, excités, émerveillés) dans la recherche pour élargir la zone de recherche et donner le meilleur résultat. Tout ce travail se déroule en arrière-plan pour ajouter de la pertinence aux résultats que vous recherchez avec Microsoft Copilot, sans ajouter de complexité.

Fonctionnement de l’index sémantique

L’index sémantique améliore Microsoft Copilot et les résultats de recherche dans l’application Microsoft 365, SharePoint Online et Microsoft Teams. Il prend en charge une expérience de recherche améliorée et une compréhension conceptuelle de vos données en ligne qui est automatiquement activée par Microsoft.

Aujourd’hui, l’index sémantique est créé au niveau du locataire. Il s’agit d’un index organization généré à partir de fichiers SharePoint Online textuels accessibles par deux personnes ou plus via l’héritage de site. Toutefois, il ne présente les résultats à un utilisateur que si celui-ci a déjà accès au contenu contrôlé par le contrôle d’accès en fonction du rôle. En outre, le site SharePoint Online doit continuer à faire l’objet d’une recherche. Avec le temps, nous allons également générer du contenu d’index au niveau de l’utilisateur. Cela ajoute un index personnalisé d’un jeu de données de travail accessible aux utilisateurs effectuant des tâches quotidiennes. Cela inclut tout contenu textuel que vous créez ou avec lequel vous interagissez, comme les e-mails, les documents qui vous mention, que vous commentez ou partagez.

La section suivante explique comment activer chaque index, comment le flux de données dans Microsoft 365 Copilot utilise l’index sémantique, quels types de fichiers chaque index peut gérer et comment chaque index traite les mises à jour.

Activation

Chaque client Microsoft 365 Copilot dispose désormais d’un index sémantique au niveau du locataire. Le processus d’indexation ne nécessite aucune intervention administrative.

Flux de données

L’index sémantique interagit avec Microsoft Graph pour fournir aux utilisateurs l’accès aux informations contenues dans l’index. Le diagramme suivant montre comment fonctionne le flux de données pour une requête à l’aide de Microsoft 365 Copilot.

Capture d’écran montrant la relation entre Microsoft 365 Copilot, Microsoft 365 Apps, Microsoft Graph et grand modèle de langage.

Les invites utilisateur des applications Microsoft 365 sont envoyées à Copilot (1), et Copilot accède à Microsoft Graph et à l’index sémantique pour traitement (2). Copilot envoie l’invite modifiée au modèle de langage large (3), reçoit la réponse LLM (4), puis accède à Microsoft Graph et à l’index sémantique pour le post-traitement (5). Copilot renvoie ensuite la réponse et la commande d’application aux applications Microsoft 365. Toutes les demandes sont chiffrées par HTTPS et les données client restent chiffrées au repos.

Types de contenu pris en charge

L’index sémantique prend en charge l’indexation des types de boîtes aux lettres utilisateur et de fichiers répertoriés dans le tableau suivant, avec d’autres types de fichiers pris en charge au fil du temps. Une liste des types de fichiers pris en charge pour l’index de niveau utilisateur et l’index au niveau du locataire est incluse dans la table.

Type de contenu/fichier Niveau utilisateur Niveau du locataire
Boîte aux lettres utilisateur Pris en charge Non applicable
Boîte aux lettres déléguée Non pris en charge Non applicable
Boîte aux lettres partagée Non pris en charge Non applicable
Données de boîte aux lettres archivées Non pris en charge Non applicable
Données SharePoint archivées Non pris en charge Non pris en charge
documents Word (doc/docx) Pris en charge Pris en charge
PowerPoint (pptx) Pris en charge Pris en charge
Fichiers .pdf Pris en charge Pris en charge
Pages web (aspx) Pris en charge Pris en charge
Fichiers OneNote (un) Pris en charge Pris en charge
Données du connecteur Graph Non applicable Pris en charge

Remarque

Les fichiers jusqu’à 512 Mo sont désormais pris en charge pour les extensions PDF, PPTX et DOCX. Cette amélioration permet aux utilisateurs de Copilot d’analyser, de résumer et de générer efficacement des insights à partir de ces fichiers volumineux.

Mises à jour d’index

Lorsque l’index sémantique termine l’indexation pour un client pour la première fois, les documents créés par les utilisateurs sont indexés en quasi-temps réel dans la boîte aux lettres de l’utilisateur. Les nouveaux documents ajoutés aux sites SharePoint Online accessibles, via l’héritage de site, par au moins deux utilisateurs sont indexés quotidiennement. Lorsqu’un document de niveau utilisateur et locataire indexé est mis à jour, les modifications sont immédiatement indexées.

Administration

Nous fournissons aux administrateurs des activités facultatives pour préparer et gérer l’index sémantique via le Centre d’administration Microsoft 365. Aucune intervention administrative n’est requise pour activer l’index sémantique, car le service est automatiquement activé par Microsoft. L’index sémantique est une amélioration de La recherche Microsoft 365 et ne peut pas être désactivé.

Les administrateurs peuvent choisir de préparer et de gérer l’index sémantique en examinant les considérations relatives à la planification et au déploiement d’une collaboration de fichiers dans SharePoint et au partage des autorisations dans l’expérience moderne SharePoint. Les administrateurs peuvent choisir d’exclure des fichiers de l’index sémantique en examinant les considérations relatives à l’exclusion de données avec Protection contre la perte de données Microsoft Purview (DLP). Si aucune solution DLP n’est présente, les administrateurs peuvent exclure les sites SharePoint Online de l’index au niveau du locataire.

Exclusion des sites SharePoint Online

Il arrive que des organisations sans Protection contre la perte de données Microsoft Purview souhaitent exclure un site SharePoint Online de l’indexation de ses données par Recherche Microsoft. Ces étapes ne doivent être prises en compte que pour les données sensibles, telles que la paie, les ressources humaines ou les informations financières. Pour exclure un site SharePoint Online, procédez comme suit :

  1. Accédez au site avec les autorisations d’administrateur appropriées.

  2. Sélectionnez Paramètres , puis Informations sur le site dans le menu déroulant.

  3. Sélectionnez Afficher tous les paramètres du site pour afficher la page Paramètres du site.

  4. Sélectionnez Recherche et disponibilité hors connexion sous la catégorie Recherche , puis sélectionnez Non pour Autoriser ce site à apparaître dans les résultats de la recherche afin de l’exclure à la fois de Recherche Microsoft et de la recherche d’index sémantique. Cette opération peut également être effectuée avec PowerShell pour plusieurs sites.

    Capture d’écran montrant les paramètres d’exclusion des sites SharePoint Online.

    Recherche Microsoft et l’index sémantique prennent en charge l’exclusion du contenu SharePoint Online de l’index au niveau du locataire uniquement. Il n’existe aucune option permettant d’exclure les résultats de Recherche Microsoft uniquement ou de l’index sémantique uniquement ; les actions s’appliquent aux deux en même temps.

Configuration des insights sur les éléments

Dans la page Recherche et intelligence du Centre d’administration Microsoft 365, les informations sur les éléments sont activées par défaut. La désactivation des informations sur les personnes ou les éléments réduit l’expérience de recherche Microsoft et d’index sémantique, car les résultats n’incluent pas les personnes pertinentes qui auraient été dérivées de groupes de distribution ou de l’organigramme.

  • Personnes insights fournissent une liste de personnes pertinentes à un utilisateur en fonction de leur travail collaboratif public dans Microsoft 365. La collaboration publique comprend les membres d’un groupe de distribution public et les individus connectés dans l’organigramme.

  • Les informations sur les éléments permettent d’obtenir des recommandations pour les personnes de votre organization en fonction de leur travail collaboratif dans Microsoft 365. Ces recommandations peuvent inclure, sans s’y limiter, des documents ou d’autres types de contenu et apparaître dans les cartes de personnes (contacts), Delve, l’application Microsoft 365, Microsoft Copilot résultats et d’autres emplacements.

Les insights d’élément et les insights Personnes ne couvrent pas les fonctionnalités de personnalisation basées sur les données d’un utilisateur.

Incorporation d’informations tierces

À l’aide des connecteurs Copilot, les organisations peuvent importer des données organisationnelles ou du contenu provenant de sources externes dans Microsoft Graph, où ils sont ensuite placés dans un index sémantique. Microsoft indexe toutes vos données de connecteurs Graph tout en conservant des contrôles d’accès pour le contenu. Cela étend les types de sources de contenu qui peuvent faire l’objet d’une recherche dans vos applications de productivité Microsoft 365 et l’écosystème Microsoft plus large, et fonctionne mieux lorsque le contenu du connecteur est riche en texte. Les données tierces peuvent être hébergées localement ou dans des clouds publics ou privés, et ces informations sont consommées par Microsoft Graph, qui peut être ingérée dans l’index sémantique pour vous aider à fournir à votre organization tout le contexte dans Microsoft 365 et le contenu tiers de votre organization. Pour en savoir plus sur les exigences de licence des connecteurs graph pour les Microsoft 365 Entreprise et les Microsoft 365 Copilot, consultez Conditions requises et tarification des licences.

Confidentialité, conformité et sécurité

Le modèle d’autorisations relatif à votre locataire Microsoft 365 peut vous aider à garantir que les données ne fuient pas involontairement entre les utilisateurs, les groupes et les locataires. L’index sémantique présente uniquement les données auxquelles chaque individu peut accéder à l’aide des mêmes contrôles sous-jacents pour l’accès aux données que dans d’autres services Microsoft 365. L’index sémantique respecte la limite d’accès basée sur l’identité de l’utilisateur afin que le processus de mise à l’terre accède uniquement au contenu auquel l’utilisateur actuel est autorisé à accéder. Pour plus d’informations, consultez la politique de confidentialité de Microsoft et la documentation du service.

Microsoft 365 Copilot est conforme à nos engagements existants en matière de confidentialité, de sécurité et de conformité envers les clients commerciaux de Microsoft 365, notamment le RGPD (Règlement général sur la protection des données) et la limite de données de l’Union européenne (UE). Requêtes, les réponses et les données accessibles par le biais de l’index sémantique ne sont pas utilisés pour entraîner les llms de base, y compris celles utilisées par Microsoft 365 Copilot. Pour plus d’informations, consultez Données, confidentialité et sécurité pour Microsoft 365 Copilot.

Stockage et traitement

Les données générées par l’index sémantique restent dans le locataire de votre entreprise et sont conformes à vos stratégies et processus de sécurité, de conformité, d’identité et de confidentialité. L’index sémantique fonctionne uniquement avec le contenu pour lequel vos utilisateurs disposent déjà d’autorisations et n’affecte pas les quotas de stockage.

Les informations d’index au niveau de l’utilisateur sont stockées là où se trouve la boîte aux lettres de l’utilisateur. En revanche, les informations d’index au niveau du locataire sont stockées dans un conteneur client isolé et protégé. Ce conteneur se trouve dans la région où se trouve le site SharePoint, qui peut être la région d’accueil ou une autre région spécifiée par l’administrateur du locataire. Pour les clients se trouvant dans la limite de données de l’Union européenne (EUDB), l’index est stocké dans un centre de données basé dans l’UE/AELE. Le traitement d’autres clients peut avoir lieu dans une région de locataire ou dans le États-Unis. Pour les organisations multigéographiques, toutes les limites géographiques sont respectées. Les données dans la région sont stockées et traitées dans chaque région.

Prise en charge de la clé client Microsoft Purview (BYOK)

L’index sémantique fournit la prise en charge byOK (Bring Your Own Key) pour les entreprises qui ont activé BYOK dans leur environnement. Microsoft active automatiquement l’index sémantique pour les clients compatibles BYOK sans aucune intervention administrative.

Protection des informations

Dans le contexte de la recherche, il n’existe aucune autre façon d’exclure des données de l’index sémantique à l’aide des fonctionnalités de protection des informations. L’index sémantique hérite des paramètres de sécurité et de confidentialité de Recherche Microsoft, et les données introduites à partir de connecteurs tiers sont fournies avec le même stockage et les mêmes protections que les autres données Microsoft 365. Pour les organisations qui étudient d’autres options de protection des informations, Microsoft 365 fournit des fonctionnalités intégrées dans les applications Microsoft 365. Des produits complémentaires sont également disponibles pour aider les administrateurs à protéger les données organisationnelles par le biais de la réduction des données et de la réduction du surpartage. Les sections suivantes décrivent les options disponibles pour les organisations à titre de référence uniquement.

Réduction des données

La réduction des données réduit la quantité de données disponibles à laquelle votre organization peut accéder. La conservation et la suppression de contenu sont souvent nécessaires pour la conformité et les exigences réglementaires, mais la suppression de contenu qui n’a plus de valeur métier vous aide également à gérer les risques et la responsabilité. Gestion du cycle de vie des données Microsoft Purview, qui est concédé sous licence séparément, peut être utilisé pour supprimer du contenu qui n’est plus nécessaire avec des stratégies de rétention pour la gestion à grande échelle, et des étiquettes de rétention pour les exceptions et le contrôle granulaire.

Réduire le surpartage

Les organisations ont depuis longtemps été en mesure de prendre des mesures pour réduire le surpartage dans Microsoft 365 à l’aide des contrôles existants dans le Centre d’administration Microsoft 365 et SharePoint Online. Il est important de noter que l’index sémantique ne modifie pas les autorisations d’accès au contenu et ne change pas les principes de la façon dont les utilisateurs doivent partager des informations avec leurs collègues. Par exemple, l’index sémantique ne rend pas le contenu partagé avec un lien qui fonctionne avec tous les membres de mon organization partie de l’index au niveau du locataire. Seuls les utilisateurs qui sélectionnent un lien auquel ils ont accès auront les informations ajoutées à leur index utilisateur. Il est recommandé que les organisations prennent en compte les éléments suivants lors de l’exploration des options de protection des informations :

  • Planifier la collaboration de fichiers sécurisés : passez en revue Planifier et déployer une collaboration de fichiers pour en savoir plus sur les pratiques recommandées pour utiliser un environnement de collaboration de fichiers sécurisé et productif pour vos utilisateurs.

  • Taille appropriée de l’accès utilisateur aux données pour réduire la liste : réduisez le surpartage en héritant des listes d’exclusion pour les sites SharePoint Online et en effectuant des vérifications de contrôle d’accès en temps réel. Les organisations peuvent envisager d’utiliser le module complémentaire Gestion avancée SharePoint Syntex pour gérer et régir ces autorisations.

  • Utiliser des étiquettes de confidentialité : une autre façon de réduire le surpartage du contenu consiste à utiliser Protection des données Microsoft Purview pour appliquer des étiquettes de confidentialité, qui vous permettent de classifier les données en fonction de leur sensibilité et d’appliquer des protections telles que le chiffrement et le marketing de contenu. Les étiquettes de confidentialité sont également incluses dans le découpage de recherche (c’est-à-dire, pris en charge pour le filtrage et les règles côté application utilisées pour le marquage visuel et les restrictions d’accès).

  • Limiter l’accès : Protection contre la perte de données Microsoft Purview est disponible dans Microsoft 365 E5 et peut être utilisé pour limiter rétroactivement et temporairement l’accès aux documents signalés comme étant surpartagés. Les organisations dont vous n’avez pas de licences Microsoft 365 E5 peuvent utiliser la version d’évaluation de 90 jours des solutions Microsoft Purview pour explorer comment des fonctionnalités supplémentaires de Purview peuvent vous aider à gérer vos besoins en matière de sécurité et de conformité des données.

Pour les clients désireux d’explorer comment déployer des solutions avancées de protection des informations, consultez l’article suivant qui explique comment déployer une solution de protection des informations avec Microsoft Purview. Pour plus d’informations sur la façon dont Microsoft Purview peut vous aider à renforcer vos exigences de sécurité et de conformité des données pour Microsoft 365 Copilot, consultez Protéger et gérer les interactions Microsoft 365 Copilot avec Microsoft Purview.

Ressources supplémentaires

Microsoft 365, Microsoft Graph et l’index sémantique permettent une expressivité sans précédent pour la recherche, la conversation et les copilotes tirant parti des données Microsoft 365. Cette expressivité permet de mettre en évidence les données de base appropriées pour tirer le meilleur parti de vos données organisationnelles avec Microsoft 365 et Microsoft 365 Copilot.

Pour en savoir plus sur Microsoft 365 Copilot, case activée ces ressources :