Partager via


Informations de référence sur l’API Python De Mosaïque AutoML

Cet article décrit l’API Python Mosaïque AutoML, qui fournit des méthodes pour démarrer la classification, la régression et la prévision des exécutions AutoML. Chaque appel de méthode forme un ensemble de modèles et génère un bloc-notes d’évaluation pour chaque modèle.

Pour plus d’informations sur Mosaïque AutoML, notamment une option d’interface utilisateur à code faible, consultez Qu’est-ce que Mosaïque AutoML ?.

Classer

La databricks.automl.classify méthode configure une exécution Mosaïque AutoML pour entraîner un modèle de classification.

Remarque

Le paramètre max_trials est déconseillé dans Databricks Runtime 10.4 ML et n’est pas pris en charge dans Databricks Runtime 11.0 ML et versions ultérieures. Utilisez timeout_minutes pour contrôler la durée d’une exécution de AutoML.

databricks.automl.classify(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "f1",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  pos_label: Optional[Union[int, bool, str]] = None,                 # <DBR> 11.1 ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None                           # <DBR> 15.4 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Classifier les paramètres

Nom du paramètre Type Description
dataset str, , pandas.DataFramepyspark.DataFrame, ,pyspark.sql.DataFrame Nom de la table d’entrée ou DataFrame qui contient des fonctionnalités d’entraînement et une cible. Le nom de la table peut être au format « <database_name>.<table_name> » ou «<schema_name>.<table_name> » pour les tables de catalogue non Unity.
target_col str Nom de colonne de l’étiquette cible.
primary_metric str Métrique utilisée pour évaluer et classer les performances du modèle.

Mesures prises en charge pour la régression : « R2 » (par défaut), « Mae », « RMSE », « MSE »

Mesures prises en charge pour la classification : « F1 » (par défaut), « log_loss », « précision », « précision », « roc_auc »
data_dir str de format dbfs:/<folder-name> facultatif. Chemin d’accès utilisé pour stocker le jeu de données de formation. Ce chemin d’accès est visible pour les nœuds de pilote et de travail.

Databricks recommande de laisser ce champ vide pour qu’AutoML puisse enregistrer le jeu de données d’apprentissage comme artifact MLflow.

Si un chemin d’accès personnalisé est spécifié, le jeu de données n’hérite pas des autorisations d’accès de l’expérience AutoML.
experiment_dir str facultatif. Chemin d’accès au répertoire de l’espace de travail pour enregistrer les blocs-notes et les expériences générés.

Valeur par défaut : /Users/<username>/databricks_automl/
experiment_name str facultatif. Nom de l’expérience MLflow créée par AutoML.

Par défaut : Le nom est généré automatiquement.
exclude_cols List[str] facultatif. Liste des colonnes à ignorer lors des calculs AutoML.

Par défaut : []
exclude_frameworks List[str] facultatif. Liste des infrastructures d’algorithmes que AutoML ne doit pas prendre en compte au fur et à mesure qu’il développe des modèles. Valeurs possibles : liste vide, ou un ou plusieurs « sklearn », « lightgbm », « xgboost ».

Valeur par défaut : [] (toutes les infrastructures sont prises en compte)
feature_store_lookups List[Dict] facultatif. Liste des dictionnaires qui représentent les caractéristiques de Feature Store pour l’augmentation des données. Les clés valides dans chaque dictionnaire sont les suivantes :

- table_name (str) : obligatoire. Nom de la table de caractéristiques.
- lookup_key (liste ou str) : obligatoire. Noms de colonnes à utiliser sous forme de clé au moment de la jointure de la table de caractéristiques aux données passées dans le param dataset. L’ordre des noms de colonnes doit correspondre à l’ordre des clés primaires de la table de caractéristiques.
- timestamp_lookup_key (str) : obligatoire si la table spécifiée est une table de fonctionnalités de série chronologique . Nom de colonne à utiliser au moment de l’exécution d’une recherche d’un instant dans le passé dans la table de caractéristiques avec les données passées dans le paramètre dataset.

Par défaut : []
imputers Dict[str, Union[str, Dict[str, Any]]] facultatif. Dictionnaire où chaque clé est un nom de colonne, et chaque valeur est une chaîne ou un dictionnaire décrivant la stratégie d’imputation. S’il est spécifié sous forme de chaîne, la valeur doit être « Mean », « median » ou « most_frequent ». Pour effectuer une imputation avec une valeur connue, spécifiez cette valeur en tant que dictionnaire {"strategy": "constant", "fill_value": <desired value>}. Vous pouvez également spécifier des options de chaîne en tant que dictionnaires, par exemple {"strategy": "mean"}.

Si aucune stratégie d’imputation n’est fournie pour une colonne, AutoML sélectionne une stratégie par défaut en fonction du type et du contenu de la colonne. Si vous spécifiez une méthode d’imputation autre que celle par défaut, AutoML n’effectue pas la détection de type sémantique.

Valeur par défaut : {}
pos_label Union[int, bool, str] (Classification uniquement) Classe positive. Cela est utile pour calculer des métriques telles que la précision et le rappel. Doit uniquement être spécifié pour les problèmes de classification binaire.
time_col str Disponible dans Databricks Runtime 10.1 et ultérieur.

facultatif. Nom de colonne pour une colonne d’heure.

S’il est fourni, AutoML essaie de fractionner le jeu de données en jeux d’apprentissage, de validation et de test par ordre chronologique, en utilisant les points les plus anciens comme données d’apprentissage et les points les plus récents en tant que jeu de test.

Les types de colonne acceptés sont l'horodatage et les entiers. Avec Databricks Runtime 10.2 ML et versions ultérieures, les colonnes de chaîne sont également prises en charge.

Si le type de colonne est String, AutoML essaie de le convertir en timestamp à l’aide de la détection sémantique. Si la conversion échoue, l’exécution de AutoML échoue.
split_col str facultatif. Nom de colonne pour une colonne fractionnée. Disponible uniquement dans Databricks Runtime 15.3 ML et les versions ultérieures pour les flux de travail d’API. Si elle est fournie, AutoML tente de fractionner les jeux d’apprentissage/validation/test par valeurs spécifiées par l’utilisateur, et cette colonne est automatiquement exclue des fonctionnalités de formation.

Le type de colonne accepté est chaîne. La valeur de chaque entrée de cette colonne doit être l’une des suivantes : « train », « validate » ou « test ».
sample_weight_col str Disponible dans Databricks Runtime 15.4 ML et versions ultérieures pour les flux de travail d’API de classification.

facultatif. Nom de colonne dans le jeu de données qui contient les poids des exemples pour chaque ligne. La classification prend en charge les poids d’échantillons par classe. Ces poids ajustent l’importance de chaque classe pendant l’entraînement du modèle. Chaque échantillon d’une classe doit avoir le même poids d’échantillon, et les poids doivent être des valeurs décimales ou entières non négatives, comprises entre 0 et 10 000. Les classes avec des poids d’échantillon plus élevés sont considérées comme plus importantes, et ont une plus grande influence sur l’algorithme d’entraînement. Si cette colonne n’est pas spécifiée, toutes les classes sont supposées avoir un poids égal.
max_trials int facultatif. Nombre maximal d’essais à exécuter. Ce paramètre est disponible dans Databricks Runtime 10.5 ML et les versions antérieures, mais est déprécié à compter de Databricks Runtime 10.3 ML. Dans Databricks Runtime 11.0 ML et les versions ultérieures, ce paramètre n’est pas pris en charge.

Valeur par défaut : 20

Si timeout_minutes = None, AutoML exécute le nombre maximal d’essais.
timeout_minutes int facultatif. Durée d’attente maximale pour l’exécution des versions d’évaluation de AutoML. Des délais d’attente plus longs permettent à AutoML d’exécuter plus d’essais et d’identifier un modèle avec une meilleure précision.

Par défaut : 120 minutes

Valeur minimale : 5 minutes

Une erreur est signalée si le délai d’expiration est trop faible pour permettre l’exécution d’au moins une version d’évaluation.

Régression

La méthode databricks.automl.regress configure une exécution AutoML pour former un modèle de régression. Cette méthode retourne un objet AutoMLSummary.

Remarque

Le paramètre max_trials est déconseillé dans Databricks Runtime 10.4 ML et n’est pas pris en charge dans Databricks Runtime 11.0 ML et versions ultérieures. Utilisez timeout_minutes pour contrôler la durée d’une exécution de AutoML.

databricks.automl.regress(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "r2",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None,                          # <DBR> 15.3 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Paramètres de régression

Nom du paramètre Type Description
dataset str, , pandas.DataFramepyspark.DataFrame, ,pyspark.sql.DataFrame Nom de la table d’entrée ou DataFrame qui contient des fonctionnalités d’entraînement et une cible. Le nom de la table peut être au format « <database_name>.<table_name> » ou «<schema_name>.<table_name> » pour les tables de catalogue non Unity.
target_col str Nom de colonne de l’étiquette cible.
primary_metric str Métrique utilisée pour évaluer et classer les performances du modèle.

Mesures prises en charge pour la régression : « R2 » (par défaut), « Mae », « RMSE », « MSE »

Mesures prises en charge pour la classification : « F1 » (par défaut), « log_loss », « précision », « précision », « roc_auc »
data_dir str de format dbfs:/<folder-name> facultatif. Chemin d’accès utilisé pour stocker le jeu de données de formation. Ce chemin d’accès est visible pour les nœuds de pilote et de travail.

Databricks recommande de laisser ce champ vide pour qu’AutoML puisse enregistrer le jeu de données d’apprentissage comme artifact MLflow.

Si un chemin d’accès personnalisé est spécifié, le jeu de données n’hérite pas des autorisations d’accès de l’expérience AutoML.
experiment_dir str facultatif. Chemin d’accès au répertoire de l’espace de travail pour enregistrer les blocs-notes et les expériences générés.

Valeur par défaut : /Users/<username>/databricks_automl/
experiment_name str facultatif. Nom de l’expérience MLflow créée par AutoML.

Par défaut : Le nom est généré automatiquement.
exclude_cols List[str] facultatif. Liste des colonnes à ignorer lors des calculs AutoML.

Par défaut : []
exclude_frameworks List[str] facultatif. Liste des infrastructures d’algorithmes que AutoML ne doit pas prendre en compte au fur et à mesure qu’il développe des modèles. Valeurs possibles : liste vide, ou un ou plusieurs « sklearn », « lightgbm », « xgboost ».

Valeur par défaut : [] (toutes les infrastructures sont prises en compte)
feature_store_lookups List[Dict] facultatif. Liste des dictionnaires qui représentent les caractéristiques de Feature Store pour l’augmentation des données. Les clés valides dans chaque dictionnaire sont les suivantes :

- table_name (str) : obligatoire. Nom de la table de caractéristiques.
- lookup_key (liste ou str) : obligatoire. Noms de colonnes à utiliser sous forme de clé au moment de la jointure de la table de caractéristiques aux données passées dans le param dataset. L’ordre des noms de colonnes doit correspondre à l’ordre des clés primaires de la table de caractéristiques.
- timestamp_lookup_key (str) : obligatoire si la table spécifiée est une table de fonctionnalités de série chronologique . Nom de colonne à utiliser au moment de l’exécution d’une recherche d’un instant dans le passé dans la table de caractéristiques avec les données passées dans le paramètre dataset.

Par défaut : []
imputers Dict[str, Union[str, Dict[str, Any]]] facultatif. Dictionnaire où chaque clé est un nom de colonne, et chaque valeur est une chaîne ou un dictionnaire décrivant la stratégie d’imputation. S’il est spécifié sous forme de chaîne, la valeur doit être « Mean », « median » ou « most_frequent ». Pour effectuer une imputation avec une valeur connue, spécifiez cette valeur en tant que dictionnaire {"strategy": "constant", "fill_value": <desired value>}. Vous pouvez également spécifier des options de chaîne en tant que dictionnaires, par exemple {"strategy": "mean"}.

Si aucune stratégie d’imputation n’est fournie pour une colonne, AutoML sélectionne une stratégie par défaut en fonction du type et du contenu de la colonne. Si vous spécifiez une méthode d’imputation autre que celle par défaut, AutoML n’effectue pas la détection de type sémantique.

Valeur par défaut : {}
time_col str Disponible dans Databricks Runtime 10.1 et ultérieur.

facultatif. Nom de colonne pour une colonne d’heure.

S’il est fourni, AutoML essaie de fractionner le jeu de données en jeux d’apprentissage, de validation et de test par ordre chronologique, en utilisant les points les plus anciens comme données d’apprentissage et les points les plus récents en tant que jeu de test.

Les types de colonne acceptés sont l'horodatage et les entiers. Avec Databricks Runtime 10.2 ML et versions ultérieures, les colonnes de chaîne sont également prises en charge.

Si le type de colonne est String, AutoML essaie de le convertir en timestamp à l’aide de la détection sémantique. Si la conversion échoue, l’exécution de AutoML échoue.
split_col str facultatif. Nom de colonne pour une colonne fractionnée. Disponible uniquement dans Databricks Runtime 15.3 ML et les versions ultérieures pour les flux de travail d’API. Si elle est fournie, AutoML tente de fractionner les jeux d’apprentissage/validation/test par valeurs spécifiées par l’utilisateur, et cette colonne est automatiquement exclue des fonctionnalités de formation.

Le type de colonne accepté est chaîne. La valeur de chaque entrée de cette colonne doit être l’une des suivantes : « train », « validate » ou « test ».
sample_weight_col str Disponible dans Databricks Runtime 15.3 ML et versions ultérieures pour les flux de travail d’API de régression.

facultatif. Nom de colonne dans le jeu de données qui contient les poids des exemples pour chaque ligne. Ces poids ajustent l’importance de chaque ligne pendant la formation du modèle. Les poids doivent être des valeurs décimales ou entières non négatives, comprises entre 0 et 10 000. Les lignes avec des poids d’échantillon plus élevés sont considérées comme plus importantes et ont une plus grande influence sur l’algorithme de formation. Si cette colonne n’est pas spécifiée, toutes les lignes sont supposées avoir un poids égal.
max_trials int facultatif. Nombre maximal d’essais à exécuter. Ce paramètre est disponible dans Databricks Runtime 10.5 ML et les versions antérieures, mais est déprécié à compter de Databricks Runtime 10.3 ML. Dans Databricks Runtime 11.0 ML et les versions ultérieures, ce paramètre n’est pas pris en charge.

Valeur par défaut : 20

Si timeout_minutes = None, AutoML exécute le nombre maximal d’essais.
timeout_minutes int facultatif. Durée d’attente maximale pour l’exécution des versions d’évaluation de AutoML. Des délais d’attente plus longs permettent à AutoML d’exécuter plus d’essais et d’identifier un modèle avec une meilleure précision.

Par défaut : 120 minutes

Valeur minimale : 5 minutes

Une erreur est signalée si le délai d’expiration est trop faible pour permettre l’exécution d’au moins une version d’évaluation.

Prévision

La méthode databricks.automl.forecast configure une exécution AutoML pour la formation d’un modèle de prévision. Cette méthode retourne un objet AutoMLSummary. Pour utiliser la ARIMA automatique, la série chronologique doit avoir une fréquence régulière (autrement dit, l’intervalle entre deux points quelconques doit être le même dans toute la série chronologique). La fréquence doit correspondre à l’unité de fréquence spécifiée dans l’appel d’API. AutoML gère les étapes de temps manquantes en remplissant ces valeurs avec la valeur précédente.

databricks.automl.forecast(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  time_col: str,
  primary_metric: str = "smape",
  country_code: str = "US",                                         # <DBR> 12.0 ML and above
  frequency: str = "D",
  horizon: int = 1,
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_frameworks: Optional[List[str]] = None,
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 12.2 LTS ML and above
  identity_col: Optional[Union[str, List[str]]] = None,
  sample_weight_col: Optional[str] = None,                          # <DBR> 16.0 ML and above
  output_database: Optional[str] = None,                            # <DBR> 10.5 ML and above
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Paramètres des prévisions

Nom du paramètre Type Description
dataset str, , pandas.DataFramepyspark.DataFrame, ,pyspark.sql.DataFrame Nom de la table d’entrée ou DataFrame qui contient des fonctionnalités d’entraînement et une cible.

Le nom de la table peut être au format « .. » ou « . » pour les tables non Unity Catalog
target_col str Nom de colonne de l’étiquette cible.
time_col str Nom de la colonne de temps pour la prévision.
primary_metric str Métrique utilisée pour évaluer et classer les performances du modèle.

Mesures prises en charge : « smape » (par défaut), « mse », « rmse », « mae » ou « mdape ».
country_code str Disponible dans Databricks Runtime 12.0 ML et les versions ultérieures. Pris en charge uniquement par le modèle de prévision Prophet.

facultatif. Code du pays à deux lettres, qui indique les jours fériés du pays que le modèle de prévision doit utiliser. Pour ignorer les jours fériés, affectez une chaîne vide ("") à ce paramètre.

Pays pris en charge.

Par défaut : US (jours fériés aux États-Unis).
frequency str Fréquence de la série chronologique pour les prévisions. Il s’agit de la période avec laquelle les événements sont supposés se produire. Le paramètre par défaut est « D », pour données quotidiennes. Veillez à modifier le paramètre si vos données ont une fréquence différente.

Valeurs possibles :

“W” (semaines)

« D »/« jours »/« jour »

« heures »/« heure »/« hr »/« h »

"m"/"minute"/"min"/"minutes"/"T"

« S »/« secondes »/« sec »/« seconde »

Les éléments suivants sont uniquement disponibles avec Databricks Runtime 12.0 ML et les versions ultérieures :

« M » / « month » / « months »

« Q » / « quarter » / « quarters »

« Y » / « year » / « years »

Valeur par défaut : « D »
horizon int Nombre de périodes dans le futur pour lesquelles les prévisions doivent être retournées.

Les unités sont la fréquence de la série temporelle.

Valeur par défaut : 1.
data_dir str de format dbfs:/<folder-name> facultatif. Chemin d’accès utilisé pour stocker le jeu de données de formation. Ce chemin d’accès est visible pour les nœuds de pilote et de travail.

Databricks recommande de laisser ce champ vide pour qu’AutoML puisse enregistrer le jeu de données d’apprentissage comme artifact MLflow.

Si un chemin d’accès personnalisé est spécifié, le jeu de données n’hérite pas des autorisations d’accès de l’expérience AutoML.
experiment_dir str facultatif. Chemin d’accès au répertoire de l’espace de travail pour enregistrer les blocs-notes et les expériences générés.

Valeur par défaut : /Users/<username>/databricks_automl/
experiment_name str facultatif. Nom de l’expérience MLflow créée par AutoML.

Par défaut : Le nom est généré automatiquement.
exclude_frameworks List[str] facultatif. Liste des infrastructures d’algorithmes que AutoML ne doit pas prendre en compte au fur et à mesure qu’il développe des modèles. Valeurs possibles : liste vide, ou un ou plusieurs « prophet », « arima ».

Valeur par défaut : [] (toutes les infrastructures sont prises en compte)
feature_store_lookups List[Dict] facultatif. Liste des dictionnaires qui représentent les caractéristiques de Feature Store pour l’augmentation des données de covariable. Les clés valides dans chaque dictionnaire sont les suivantes :

- table_name (str) : obligatoire. Nom de la table de caractéristiques.
- lookup_key (liste ou str) : obligatoire. Noms de colonnes à utiliser sous forme de clé au moment de la jointure de la table de caractéristiques aux données passées dans le param dataset. L’ordre des noms de colonnes doit correspondre à l’ordre des clés primaires de la table de caractéristiques.
- timestamp_lookup_key (str) : obligatoire si la table spécifiée est une table de fonctionnalités de série chronologique . Nom de colonne à utiliser au moment de l’exécution d’une recherche d’un instant dans le passé dans la table de caractéristiques avec les données passées dans le paramètre dataset.

Par défaut : []
identity_col Union[str, list] facultatif. Colonne/Colonnes qui identifient la série chronologique pour les prévisions de plusieurs séries. AutoML regroupe ces colonnes et la colonne heure pour les prévisions.
sample_weight_col str Disponible dans Databricks Runtime 16.0 ML et versions ultérieures. Uniquement pour les flux de travail de séries multiples.

facultatif. Spécifie la colonne du jeu de données qui contient des exemples de pondérations. Ces pondérations indiquent l’importance relative de chaque série chronologique pendant l’entraînement et l’évaluation du modèle.

Les séries chronologiques avec des poids plus élevés ont une plus grande influence sur le modèle. S’il n’est pas fourni, toutes les séries chronologiques sont traitées avec un poids égal.

Toutes les lignes appartenant à la même série chronologique doivent avoir le même poids.

Les pondérations doivent être des valeurs non négatives, des décimales ou des entiers, et être comprises entre 0 et 10 000.
output_database str facultatif. Si fourni, AutoML enregistre les prédictions du meilleur modèle dans une nouvelle table de la base de données spécifiée.

Valeur par défaut : Les prédictions ne sont pas enregistrées.
timeout_minutes int facultatif. Durée d’attente maximale pour l’exécution des versions d’évaluation de AutoML. Des délais d’attente plus longs permettent à AutoML d’exécuter plus d’essais et d’identifier un modèle avec une meilleure précision.

Par défaut : 120 minutes

Valeur minimale : 5 minutes

Une erreur est signalée si le délai d’expiration est trop faible pour permettre l’exécution d’au moins une version d’évaluation.

Importer un notebook

La méthode databricks.automl.import_notebook importe un notebook qui a été enregistré en tant qu’artefact MLflow. Cette méthode retourne un ImportNotebookResult.

databricks.automl.import_notebook(
  artifact_uri: str,
  path: str,
  overwrite: bool = False
) -> ImportNotebookResult:
Paramètres Type Description
artifact_uri str URI de l’artefact MLflow qui contient le notebook d’évaluation.
path str Chemin d’accès dans l’espace de travail Databricks où le notebook doit être importé. Ceci doit être un chemin absolu. Le répertoire est créé s’il n’existe pas.
overwrite bool Indique s’il faut remplacer le bloc-notes s’il existe déjà. La valeur par défaut de ce paramètre est False.

Exemple d’importation de bloc-notes

summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)

AutoMLSummary

Objet de résumé pour une exécution AutoML qui décrit les métriques, les paramètres et d'autres détails pour chacun des essais. Vous utilisez également cet objet pour charger le modèle formé par une version d’évaluation spécifique.

Propriété Type Description
experiment mlflow.entities.Experiment Expérience MLflow utilisée pour enregistrer les essais.
trials List[TrialInfo] Liste d’objets TrialInfo contenant des informations sur toutes les versions d’évaluation qui ont été exécutées.
best_trial TrialInfo Objet TrialInfo contenant des informations sur l’essai qui a formé le meilleur score pondéré pour la métrique principale.
metric_distribution str Distribution des scores pondérés pour la métrique principale dans tous les essais.
output_table_name str Utilisé avec la prévision uniquement et uniquement si output_database est fourni.

Nom de la table dans output_database contenant les prédictions du modèle.

TrialInfo

Objet Résumé pour chaque essai individuel.

Propriété Type Description
notebook_path Optional[str] Chemin d’accès au bloc-notes généré pour cette version d’évaluation dans l’espace de travail.

Pour la classification et la régression, cette valeur est définie uniquement pour le meilleur essai, tandis que tous les autres essais ont la valeur définie sur None.

Pour la prévision, cette valeur est présente pour tous les essais.
notebook_url Optional[str] URL du bloc-notes généré pour cette version d’évaluation.

Pour la classification et la régression, cette valeur est définie uniquement pour le meilleur essai, tandis que tous les autres essais ont la valeur définie sur None.

Pour la prévision, cette valeur est présente pour tous les essais.
artifact_uri Optional[str] URI d'artefact MLflow pour le notebook généré.
mlflow_run_id str ID d’exécution MLflow associé à cette exécution d’essai.
metrics Dict[str, float] Les métriques enregistrées dans MLflow pour cette version d’évaluation.
params Dict[str, str] Les paramètres consignés dans MLflow qui ont été utilisés pour cette version d’évaluation.
model_path str URL de l’artefact MLflow du modèle formé dans cette version d’évaluation.
model_description str Brève description du modèle et des hyperparamètres utilisés pour l’apprentissage de ce modèle.
duration str Durée du retard en minutes
preprocessors str Description des préprocesseurs exécutée avant d’effectuer l’apprentissage du modèle.
evaluation_metric_score float Score de la métrique principale, évalué pour le jeu de données de validation.

TrialInfo a une méthode pour charger le modèle généré pour l’essai.

Méthode Description
load_model() Chargez le modèle généré dans cette version d’évaluation, enregistré en tant qu’artefact MLflow.

ImportNotebookResult

Propriété Type Description
path str Chemin d’accès dans l’espace de travail Databricks où le notebook doit être importé. Ceci doit être un chemin absolu. Le répertoire est créé s’il n’existe pas.
url str URI de l’artefact MLflow qui contient le notebook d’évaluation.