Collecte de données à partir de modèles en production
S’APPLIQUE À :Extension Azure CLI v2 (actuelle)Kit de développement logiciel (SDK) Python azure-ai-ml v2 (version actuelle)
Dans cet article, vous découvrez la collecte de données à partir de modèles déployés sur des points de terminaison en ligne Azure Machine Learning.
Le collecteur de données d’Azure Machine Learning assure la journalisation en temps réel des données d’entrée et de sortie à partir de modèles déployés sur des points de terminaison en ligne managés ou des points de terminaison en ligne Kubernetes. Azure Machine Learning stocke les données d’inférence journalisées dans le stockage Blob Azure. Ces données peuvent ensuite être utilisées directement pour le monitoring, le débogage ou l’audit des modèles, ce qui permet d’observer les performances de vos modèles déployés.
Le collecteur de données offre les fonctionnalités suivantes :
- Journalisation des données d’inférence dans un emplacement central (Stockage Blob Azure)
- Prise en charge des points de terminaison en ligne managés et des points de terminaison en ligne Kubernetes
- Définition au niveau du déploiement, permettant d’apporter un maximum de modifications à sa configuration
- Prise en charge de la journalisation de charge utile et de la journalisation personnalisée
Modes de journalisation
Le collecteur de données offre deux modes de journalisation : journalisation de charge utile et journalisation personnalisée. La journalisation de charge utile vous permet de collecter les données de charge utile de requête et de réponse HTTP à partir de vos modèles déployés. Avec la journalisation personnalisée, Azure Machine Learning met à votre disposition un SDK Python pour la journalisation des DataFrames Pandas directement à partir de votre script de scoring. Avec le SDK Python de journalisation personnalisée, vous pouvez journaliser les données d’entrée et de sortie du modèle, en plus des données avant, pendant et après toute transformation (ou prétraitement) de données.
Configuration du collecteur de données
Le collecteur de données peut être configuré au niveau du déploiement et la configuration est spécifiée au moment du déploiement. Vous pouvez configurer la destination de stockage Blob Azure qui recevra les données collectées. Vous pouvez également configurer le taux d’échantillonnage (entre 0 et 100 %) des données à collecter.
Limites
Le collecteur de données présente les limites suivantes :
- Le collecteur de données prend en charge la journalisation uniquement pour les points de terminaison Azure Machine Learning en ligne (ou en temps réel) (managés ou Kubernetes).
- Le SDK Python du collecteur de données prend en charge la journalisation des données tabulaires par le biais de DataFrames Pandas.