Qu’est-ce que les transformateurs Hugging Face ?
Cet article présente les Hugging Face Transformers sur Azure Databricks. Il comprend des conseils sur les raisons d’utiliser les Hugging Face Transformers et sur la manière de les installer sur votre cluster.
Arrière-plan pour Hugging Face Transformer
Hugging Face Transformers est un framework open source pour l’apprentissage profond créé par Hugging Face. Il fournit des API et des outils permettant de télécharger des modèles pré-entraînés de pointe et de les affiner pour maximiser le niveau de performance. Ces modèles prennent en charge des tâches courantes dans différentes modalités, telles que le traitement du langage naturel, la vision par ordinateur, l’audio et les applications multimodales.
Remarque
Databricks Runtime pour Machine Learning inclut Hugging Face transformers
dans Databricks Runtime 10.4 LTS ML et versions ultérieures, et inclut des jeux de données Hugging Face, accéléreret évaluer dans Databricks Runtime 13.0 ML et versions ultérieures.
Pour vérifier quelle version de Hugging Face est incluse dans votre version configurée de Databricks Runtime ML, consultez la section sur les bibliothèques Python dans les notes de publication correspondantes.
Pourquoi utiliser Hugging Face Transformers ?
Pour de nombreuses applications, telles que l’analyse des sentiments et le résumé de texte, les modèles pré-entraînés fonctionnent bien sans entraînement supplémentaire.
Les pipelines Hugging Face Transformers codent les meilleures pratiques et disposent de modèles par défaut sélectionnés pour différentes tâches, ce qui facilite la prise en main. Les pipelines facilitent l’utilisation des GPU lorsqu’ils sont disponibles et permettent de regrouper les éléments envoyés au GPU pour améliorer le débit du niveau de performance.
Hugging Face fournit :
- Un hub de modèles contenant de nombreux modèles préformés.
- La bibliothèque🤗 Transformers qui prend en charge le téléchargement et l’utilisation de ces modèles pour les applications NLP et le réglage précis. Il est courant d’avoir besoin à la fois d’un tokenizer et d’un modèle pour les tâches de traitement du langage naturel.
- Les🤗 pipelines Transformers qui ont une interface simple pour la plupart des tâches de traitement du langage naturel.
Installer transformers
Si la version Databricks Runtime de votre cluster n’inclut pas Hugging Face transformers
, vous pouvez installer la dernière bibliothèque Hugging Face transformers
en tant que bibliothèque Databricks PyPI.
%pip install transformers
Installer des dépendances de modèle
Différents modèles peuvent avoir des dépendances différentes. Databricks vous recommande d’utiliser les commandes magiques %pip pour installer ces dépendances si nécessaire.
Les dépendances communes sont les suivantes :
librosa
: prend en charge le décodage des fichiers audio.soundfile
: obligatoire lors de la génération de jeux de données audio.bitsandbytes
: Obligatoire lors de l’utilisation deload_in_8bit=True
.SentencePiece
: utilisé comme tokenizer pour les modèles NLP.timm
: obligatoire par DetrForSegmentation.
Entraînement sur un seul nœud
Pour tester et migrer des workflows monomachines, utilisez un cluster mononœud.
Ressources supplémentaires
Les articles suivants incluent des exemples de notebooks et des conseils sur l’utilisation de Hugging Face transformers
pour le réglage précis et l’inférence de modèle (LLM) sur Azure Databricks.