Partager via


Étiqueter les données de texte pour l’apprentissage de votre modèle pour l’analyse des sentiments personnalisés

Avant d’entraîner votre modèle, vous devez étiqueter vos documents avec les sentiments pour lesquelles vous souhaitez créer des catégories. Ces données seront utilisées à l’étape suivante lors de l’apprentissage de votre modèle afin que celui-ci puisse apprendre à partir des données étiquetées. Si vous avez déjà annoté les données, vous pouvez l’importer directement dans votre projet. Assurez-vous que vos données utilisent les format de données acceptés.

Avant de créer un modèle d’analyse des sentiments, vous devez d’abord avoir étiqueté les données. Si vos données ne sont pas encore étiquetées, vous pouvez les étiqueter dans Language Studio. Les données étiquetées informent le modèle de la façon d’interpréter le texte et sont utilisées pour l’entraînement et l’évaluation.

Prérequis

Avant de pouvoir étiqueter des données, vous avez besoin des éléments suivants :

Pour plus d’informations, consultez le cycle de vie de développement de projet.

Instructions relatives à l’étiquetage des données

Après avoir préparé vos données et créé votre projet, vous devez étiqueter vos données. L’étiquetage de vos données est important afin que votre modèle sache quels documents seront associés aux sentiments dont vous avez besoin. Lorsque vous étiquetez vos données dans Language Studio (ou importez des données étiquetées), ces étiquettes sont stockées dans le fichier JSON dans le conteneur de stockage que vous avez connecté à ce projet.

Quand vous étiquetez vos données, gardez ceci à l’esprit :

  • En général, une plus grande quantité de données étiquetées conduit à de meilleurs résultats, à condition que les données soient étiquetées avec précision.

  • Il n’existe aucun nombre fixe d’étiquettes qui peuvent garantir que votre modèle fonctionnera au mieux. Les performances du modèle dépendent de l’ambiguïté possible dans vos données et de la qualité de vos données étiquetées.

Étiqueter vos données

Suivez les étapes suivantes pour étiqueter vos données :

  1. Accédez à la page de votre projet dans Langage Studio.

  2. Dans le menu de gauche, sélectionnez Étiquetage des données. Vous trouverez une liste de tous les documents de votre conteneur de stockage.

    Conseil

    Vous pouvez utiliser les filtres dans le menu supérieur pour afficher les fichiers non étiquetés afin que vous puissiez commencer à les étiqueter. Vous pouvez également utiliser les filtres pour afficher les documents étiquetés avec un sentiment spécifique.

  3. Passez à une vue de fichier unique à partir du côté gauche dans le menu supérieur ou sélectionnez un fichier spécifique pour démarrer l’étiquetage. Vous trouverez à gauche une liste de tous les fichiers .txt disponibles dans vos projets. Vous pouvez utiliser les boutons Retour et Suivant au bas de la page pour parcourir vos documents.

    Notes

    Si vous avez activé plusieurs langues pour votre projet, vous trouverez une liste déroulante Language dans le menu supérieur, qui vous permet de sélectionner la langue de chaque document.

  4. Dans le volet de droite, vous pouvez ajouter des sentiments à votre projet afin de commencer à étiqueter vos données avec eux.

  5. Dans le volet de droite sous le pivot Étiquettes, vous pouvez trouver tous les sentiments dans votre projet et le nombre d’instances étiquetées par chacun.

  6. Dans la section inférieure du volet de droite, vous pouvez ajouter le fichier actif que vous visualisez à l’ensemble de formations ou de tests. Par défaut, tous les documents sont ajoutés à votre ensemble de formations. En savoir plus sur les ensembles de formations et de tests et sur leur utilisation pour l’apprentissage et l’évaluation des modèles.

    Conseil

    Si vous envisagez d’utiliser le fractionnement automatique des données, utilisez l’option par défaut d’affectation de tous les documents dans votre ensemble de formations.

  7. Sous le pivot Distribution, vous pouvez afficher la distribution entre les ensembles d’entraînement et de test. Vous disposez de deux options pour l’affichage :

    • Nombre total d’instances, où vous pouvez voir le nombre de toutes les instances étiquetées d’un sentiment spécifique.
    • Documents avec au moins une étiquette, où chaque document est pris en compte s’il contient au moins une instance étiquetée de ce sentiment.
  8. Lors de l’étiquetage, vos modifications sont synchronisées périodiquement ; si elles n’ont pas encore été enregistrées, un avertissement figure en haut de votre page. Si vous souhaitez enregistrer manuellement, cliquez sur le bouton Enregistrer les étiquettes en haut de la page.

Étapes suivantes

Une fois que vous avez étiqueté vos données, vous pouvez commencer l’entraînement d’un modèle qui va apprendre à partir de vos données.