Partager via


Guide pratique pour préparer des données pour l’analyse des sentiments personnalisée

Pour pouvoir créer un modèle d’analyse des sentiments Personnalisée, vous avez besoin de l’entraîner avec des données de qualité. Cet article explique comment sélectionner et préparer vos données, ainsi que définir un schéma. La définition du schéma est la première étape du cycle de vie de développement de projet. Elle définit les classes dans lesquelles votre modèle doit classer votre texte au moment de l’exécution.

Sélection de données

La qualité des données avec lesquelles vous entraînez votre modèle affecte considérablement ses performances.

  • Utilisez des données réelles qui reflètent l’espace des problèmes de votre domaine pour entraîner efficacement votre modèle. Vous pouvez utiliser des données synthétiques pour accélérer le processus d’entraînement initial du modèle. Toutefois, elles diffèrent probablement de vos données réelles et rendent le modèle moins efficace quand il est utilisé.

  • Équilibrez autant que possible la distribution de vos données sans trop vous éloigner de leur distribution réelle.

  • Utilisez des données diversifiées chaque fois que cela est possible pour éviter le surajustement de votre modèle. Une diversité moindre des données d’entraînement peut conduire votre modèle à apprendre de fausses corrélations qui n’existent peut-être pas dans les données réelles.

  • Évitez les documents dupliqués dans vos données. Les données dupliquées ont un effet négatif sur le processus d’entraînement ainsi que sur les métriques et les performances du modèle.

  • Tenez compte de la provenance de vos données. Si vous collectez les données auprès d’une personne, d’un service ou dans le cadre de votre scénario, le modèle risque probablement de manquer de la diversité nécessaire.

Notes

Si vos documents sont en plusieurs langues, sélectionnez l’option plusieurs langues lors de la création du projet, puis affectez à l’option langue la langue de la majorité de vos documents.

Préparation des données

En guise de prérequis à la création d’un projet d’analyse des sentiments Personnalisée, vos données d’entraînement doivent être chargées dans un conteneur d’objets blob de votre compte de stockage. Vous pouvez créer et charger des documents d’apprentissage directement à partir d’Azure ou via l’outil Explorateur Stockage Azure. L’outil Explorateur Stockage Azure vous permet de charger plus de données rapidement.

Vous ne pouvez utiliser que des fichiers .txt documents de texte personnalisé. Si vos données sont dans un autre format, vous pouvez utiliser la commande d’analyse CLUtils pour changer de format de fichier.

Jeu de test

Lors de la définition du jeu de test, veillez à inclure des exemples de documents qui ne sont pas présents dans le jeu d’entraînement. La définition du jeu de tests est une étape importante pour calculer les performances du modèle. Vérifiez aussi que le jeu de tests inclut des documents qui représentent toutes les classes utilisées dans votre projet.

Étapes suivantes

Si ce n’est déjà fait, créez un projet d’analyse des sentiments Personnalisée. Si vous utilisez l’analyse des sentiments Personnalisée pour la première fois, suivez le guide de démarrage rapide afin de créer un exemple de projet. Vous pouvez également voir les spécifications du projet pour plus d’informations sur ce dont vous avez besoin pour créer un projet.