Informations de référence sur l’API Python De Mosaïque AutoML
Cet article décrit l’API Python Mosaïque AutoML, qui fournit des méthodes pour démarrer la classification, la régression et la prévision des exécutions AutoML. Chaque appel de méthode forme un ensemble de modèles et génère un bloc-notes d’évaluation pour chaque modèle.
Pour plus d’informations sur Mosaïque AutoML, notamment une option d’interface utilisateur à code faible, consultez Qu’est-ce que Mosaïque AutoML ?.
Classer
La databricks.automl.classify
méthode configure une exécution Mosaïque AutoML pour entraîner un modèle de classification.
Remarque
Le paramètre max_trials
est déconseillé dans Databricks Runtime 10.4 ML et n’est pas pris en charge dans Databricks Runtime 11.0 ML et versions ultérieures. Utilisez timeout_minutes
pour contrôler la durée d’une exécution de AutoML.
databricks.automl.classify(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
primary_metric: str = "f1",
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
pos_label: Optional[Union[int, bool, str]] = None, # <DBR> 11.1 ML and above
time_col: Optional[str] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None # <DBR> 15.4 ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Classifier les paramètres
Nom du paramètre | Type | Description |
---|---|---|
dataset |
str , , pandas.DataFrame pyspark.DataFrame , ,pyspark.sql.DataFrame |
Nom de la table d’entrée ou DataFrame qui contient des fonctionnalités d’entraînement et une cible. Le nom de la table peut être au format « <database_name>.<table_name> » ou «<schema_name>.<table_name> » pour les tables de catalogue non Unity. |
target_col |
str |
Nom de colonne de l’étiquette cible. |
primary_metric |
str |
Métrique utilisée pour évaluer et classer les performances du modèle. Mesures prises en charge pour la régression : « R2 » (par défaut), « Mae », « RMSE », « MSE » Mesures prises en charge pour la classification : « F1 » (par défaut), « log_loss », « précision », « précision », « roc_auc » |
data_dir |
str de format dbfs:/<folder-name> |
facultatif. Chemin d’accès utilisé pour stocker le jeu de données de formation. Ce chemin d’accès est visible pour les nœuds de pilote et de travail. Databricks recommande de laisser ce champ vide pour qu’AutoML puisse enregistrer le jeu de données d’apprentissage comme artifact MLflow. Si un chemin d’accès personnalisé est spécifié, le jeu de données n’hérite pas des autorisations d’accès de l’expérience AutoML. |
experiment_dir |
str |
facultatif. Chemin d’accès au répertoire de l’espace de travail pour enregistrer les blocs-notes et les expériences générés. Valeur par défaut : /Users/<username>/databricks_automl/ |
experiment_name |
str |
facultatif. Nom de l’expérience MLflow créée par AutoML. Par défaut : Le nom est généré automatiquement. |
exclude_cols |
List[str] |
facultatif. Liste des colonnes à ignorer lors des calculs AutoML. Par défaut : [] |
exclude_frameworks |
List[str] |
facultatif. Liste des infrastructures d’algorithmes que AutoML ne doit pas prendre en compte au fur et à mesure qu’il développe des modèles. Valeurs possibles : liste vide, ou un ou plusieurs « sklearn », « lightgbm », « xgboost ». Valeur par défaut : [] (toutes les infrastructures sont prises en compte) |
feature_store_lookups |
List[Dict] |
facultatif. Liste des dictionnaires qui représentent les caractéristiques de Feature Store pour l’augmentation des données. Les clés valides dans chaque dictionnaire sont les suivantes : - table_name (str) : obligatoire. Nom de la table de caractéristiques.- lookup_key (liste ou str) : obligatoire. Noms de colonnes à utiliser sous forme de clé au moment de la jointure de la table de caractéristiques aux données passées dans le param dataset . L’ordre des noms de colonnes doit correspondre à l’ordre des clés primaires de la table de caractéristiques.- timestamp_lookup_key (str) : obligatoire si la table spécifiée est une table de fonctionnalités de série chronologique . Nom de colonne à utiliser au moment de l’exécution d’une recherche d’un instant dans le passé dans la table de caractéristiques avec les données passées dans le paramètre dataset .Par défaut : [] |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
facultatif. Dictionnaire où chaque clé est un nom de colonne, et chaque valeur est une chaîne ou un dictionnaire décrivant la stratégie d’imputation. S’il est spécifié sous forme de chaîne, la valeur doit être « Mean », « median » ou « most_frequent ». Pour effectuer une imputation avec une valeur connue, spécifiez cette valeur en tant que dictionnaire {"strategy": "constant", "fill_value": <desired value>} . Vous pouvez également spécifier des options de chaîne en tant que dictionnaires, par exemple {"strategy": "mean"} .Si aucune stratégie d’imputation n’est fournie pour une colonne, AutoML sélectionne une stratégie par défaut en fonction du type et du contenu de la colonne. Si vous spécifiez une méthode d’imputation autre que celle par défaut, AutoML n’effectue pas la détection de type sémantique. Valeur par défaut : {} |
pos_label |
Union[int, bool, str] |
(Classification uniquement) Classe positive. Cela est utile pour calculer des métriques telles que la précision et le rappel. Doit uniquement être spécifié pour les problèmes de classification binaire. |
time_col |
str |
Disponible dans Databricks Runtime 10.1 et ultérieur. facultatif. Nom de colonne pour une colonne d’heure. S’il est fourni, AutoML essaie de fractionner le jeu de données en jeux d’apprentissage, de validation et de test par ordre chronologique, en utilisant les points les plus anciens comme données d’apprentissage et les points les plus récents en tant que jeu de test. Les types de colonne acceptés sont l'horodatage et les entiers. Avec Databricks Runtime 10.2 ML et versions ultérieures, les colonnes de chaîne sont également prises en charge. Si le type de colonne est String, AutoML essaie de le convertir en timestamp à l’aide de la détection sémantique. Si la conversion échoue, l’exécution de AutoML échoue. |
split_col |
str |
facultatif. Nom de colonne pour une colonne fractionnée. Disponible uniquement dans Databricks Runtime 15.3 ML et les versions ultérieures pour les flux de travail d’API. Si elle est fournie, AutoML tente de fractionner les jeux d’apprentissage/validation/test par valeurs spécifiées par l’utilisateur, et cette colonne est automatiquement exclue des fonctionnalités de formation. Le type de colonne accepté est chaîne. La valeur de chaque entrée de cette colonne doit être l’une des suivantes : « train », « validate » ou « test ». |
sample_weight_col |
str |
Disponible dans Databricks Runtime 15.4 ML et versions ultérieures pour les flux de travail d’API de classification. facultatif. Nom de colonne dans le jeu de données qui contient les poids des exemples pour chaque ligne. La classification prend en charge les poids d’échantillons par classe. Ces poids ajustent l’importance de chaque classe pendant l’entraînement du modèle. Chaque échantillon d’une classe doit avoir le même poids d’échantillon, et les poids doivent être des valeurs décimales ou entières non négatives, comprises entre 0 et 10 000. Les classes avec des poids d’échantillon plus élevés sont considérées comme plus importantes, et ont une plus grande influence sur l’algorithme d’entraînement. Si cette colonne n’est pas spécifiée, toutes les classes sont supposées avoir un poids égal. |
max_trials |
int |
facultatif. Nombre maximal d’essais à exécuter. Ce paramètre est disponible dans Databricks Runtime 10.5 ML et les versions antérieures, mais est déprécié à compter de Databricks Runtime 10.3 ML. Dans Databricks Runtime 11.0 ML et les versions ultérieures, ce paramètre n’est pas pris en charge. Valeur par défaut : 20 Si timeout_minutes = None, AutoML exécute le nombre maximal d’essais. |
timeout_minutes |
int |
facultatif. Durée d’attente maximale pour l’exécution des versions d’évaluation de AutoML. Des délais d’attente plus longs permettent à AutoML d’exécuter plus d’essais et d’identifier un modèle avec une meilleure précision. Par défaut : 120 minutes Valeur minimale : 5 minutes Une erreur est signalée si le délai d’expiration est trop faible pour permettre l’exécution d’au moins une version d’évaluation. |
Régression
La méthode databricks.automl.regress
configure une exécution AutoML pour former un modèle de régression. Cette méthode retourne un objet AutoMLSummary.
Remarque
Le paramètre max_trials
est déconseillé dans Databricks Runtime 10.4 ML et n’est pas pris en charge dans Databricks Runtime 11.0 ML et versions ultérieures. Utilisez timeout_minutes
pour contrôler la durée d’une exécution de AutoML.
databricks.automl.regress(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
primary_metric: str = "r2",
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
time_col: Optional[str] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None, # <DBR> 15.3 ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Paramètres de régression
Nom du paramètre | Type | Description |
---|---|---|
dataset |
str , , pandas.DataFrame pyspark.DataFrame , ,pyspark.sql.DataFrame |
Nom de la table d’entrée ou DataFrame qui contient des fonctionnalités d’entraînement et une cible. Le nom de la table peut être au format « <database_name>.<table_name> » ou «<schema_name>.<table_name> » pour les tables de catalogue non Unity. |
target_col |
str |
Nom de colonne de l’étiquette cible. |
primary_metric |
str |
Métrique utilisée pour évaluer et classer les performances du modèle. Mesures prises en charge pour la régression : « R2 » (par défaut), « Mae », « RMSE », « MSE » Mesures prises en charge pour la classification : « F1 » (par défaut), « log_loss », « précision », « précision », « roc_auc » |
data_dir |
str de format dbfs:/<folder-name> |
facultatif. Chemin d’accès utilisé pour stocker le jeu de données de formation. Ce chemin d’accès est visible pour les nœuds de pilote et de travail. Databricks recommande de laisser ce champ vide pour qu’AutoML puisse enregistrer le jeu de données d’apprentissage comme artifact MLflow. Si un chemin d’accès personnalisé est spécifié, le jeu de données n’hérite pas des autorisations d’accès de l’expérience AutoML. |
experiment_dir |
str |
facultatif. Chemin d’accès au répertoire de l’espace de travail pour enregistrer les blocs-notes et les expériences générés. Valeur par défaut : /Users/<username>/databricks_automl/ |
experiment_name |
str |
facultatif. Nom de l’expérience MLflow créée par AutoML. Par défaut : Le nom est généré automatiquement. |
exclude_cols |
List[str] |
facultatif. Liste des colonnes à ignorer lors des calculs AutoML. Par défaut : [] |
exclude_frameworks |
List[str] |
facultatif. Liste des infrastructures d’algorithmes que AutoML ne doit pas prendre en compte au fur et à mesure qu’il développe des modèles. Valeurs possibles : liste vide, ou un ou plusieurs « sklearn », « lightgbm », « xgboost ». Valeur par défaut : [] (toutes les infrastructures sont prises en compte) |
feature_store_lookups |
List[Dict] |
facultatif. Liste des dictionnaires qui représentent les caractéristiques de Feature Store pour l’augmentation des données. Les clés valides dans chaque dictionnaire sont les suivantes : - table_name (str) : obligatoire. Nom de la table de caractéristiques.- lookup_key (liste ou str) : obligatoire. Noms de colonnes à utiliser sous forme de clé au moment de la jointure de la table de caractéristiques aux données passées dans le param dataset . L’ordre des noms de colonnes doit correspondre à l’ordre des clés primaires de la table de caractéristiques.- timestamp_lookup_key (str) : obligatoire si la table spécifiée est une table de fonctionnalités de série chronologique . Nom de colonne à utiliser au moment de l’exécution d’une recherche d’un instant dans le passé dans la table de caractéristiques avec les données passées dans le paramètre dataset .Par défaut : [] |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
facultatif. Dictionnaire où chaque clé est un nom de colonne, et chaque valeur est une chaîne ou un dictionnaire décrivant la stratégie d’imputation. S’il est spécifié sous forme de chaîne, la valeur doit être « Mean », « median » ou « most_frequent ». Pour effectuer une imputation avec une valeur connue, spécifiez cette valeur en tant que dictionnaire {"strategy": "constant", "fill_value": <desired value>} . Vous pouvez également spécifier des options de chaîne en tant que dictionnaires, par exemple {"strategy": "mean"} .Si aucune stratégie d’imputation n’est fournie pour une colonne, AutoML sélectionne une stratégie par défaut en fonction du type et du contenu de la colonne. Si vous spécifiez une méthode d’imputation autre que celle par défaut, AutoML n’effectue pas la détection de type sémantique. Valeur par défaut : {} |
time_col |
str |
Disponible dans Databricks Runtime 10.1 et ultérieur. facultatif. Nom de colonne pour une colonne d’heure. S’il est fourni, AutoML essaie de fractionner le jeu de données en jeux d’apprentissage, de validation et de test par ordre chronologique, en utilisant les points les plus anciens comme données d’apprentissage et les points les plus récents en tant que jeu de test. Les types de colonne acceptés sont l'horodatage et les entiers. Avec Databricks Runtime 10.2 ML et versions ultérieures, les colonnes de chaîne sont également prises en charge. Si le type de colonne est String, AutoML essaie de le convertir en timestamp à l’aide de la détection sémantique. Si la conversion échoue, l’exécution de AutoML échoue. |
split_col |
str |
facultatif. Nom de colonne pour une colonne fractionnée. Disponible uniquement dans Databricks Runtime 15.3 ML et les versions ultérieures pour les flux de travail d’API. Si elle est fournie, AutoML tente de fractionner les jeux d’apprentissage/validation/test par valeurs spécifiées par l’utilisateur, et cette colonne est automatiquement exclue des fonctionnalités de formation. Le type de colonne accepté est chaîne. La valeur de chaque entrée de cette colonne doit être l’une des suivantes : « train », « validate » ou « test ». |
sample_weight_col |
str |
Disponible dans Databricks Runtime 15.3 ML et versions ultérieures pour les flux de travail d’API de régression. facultatif. Nom de colonne dans le jeu de données qui contient les poids des exemples pour chaque ligne. Ces poids ajustent l’importance de chaque ligne pendant la formation du modèle. Les poids doivent être des valeurs décimales ou entières non négatives, comprises entre 0 et 10 000. Les lignes avec des poids d’échantillon plus élevés sont considérées comme plus importantes et ont une plus grande influence sur l’algorithme de formation. Si cette colonne n’est pas spécifiée, toutes les lignes sont supposées avoir un poids égal. |
max_trials |
int |
facultatif. Nombre maximal d’essais à exécuter. Ce paramètre est disponible dans Databricks Runtime 10.5 ML et les versions antérieures, mais est déprécié à compter de Databricks Runtime 10.3 ML. Dans Databricks Runtime 11.0 ML et les versions ultérieures, ce paramètre n’est pas pris en charge. Valeur par défaut : 20 Si timeout_minutes = None, AutoML exécute le nombre maximal d’essais. |
timeout_minutes |
int |
facultatif. Durée d’attente maximale pour l’exécution des versions d’évaluation de AutoML. Des délais d’attente plus longs permettent à AutoML d’exécuter plus d’essais et d’identifier un modèle avec une meilleure précision. Par défaut : 120 minutes Valeur minimale : 5 minutes Une erreur est signalée si le délai d’expiration est trop faible pour permettre l’exécution d’au moins une version d’évaluation. |
Prévision
La méthode databricks.automl.forecast
configure une exécution AutoML pour la formation d’un modèle de prévision. Cette méthode retourne un objet AutoMLSummary.
Pour utiliser la ARIMA automatique, la série chronologique doit avoir une fréquence régulière (autrement dit, l’intervalle entre deux points quelconques doit être le même dans toute la série chronologique). La fréquence doit correspondre à l’unité de fréquence spécifiée dans l’appel d’API. AutoML gère les étapes de temps manquantes en remplissant ces valeurs avec la valeur précédente.
databricks.automl.forecast(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
time_col: str,
primary_metric: str = "smape",
country_code: str = "US", # <DBR> 12.0 ML and above
frequency: str = "D",
horizon: int = 1,
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None,
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_frameworks: Optional[List[str]] = None,
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 12.2 LTS ML and above
identity_col: Optional[Union[str, List[str]]] = None,
sample_weight_col: Optional[str] = None, # <DBR> 16.0 ML and above
output_database: Optional[str] = None, # <DBR> 10.5 ML and above
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Paramètres des prévisions
Nom du paramètre | Type | Description |
---|---|---|
dataset |
str , , pandas.DataFrame pyspark.DataFrame , ,pyspark.sql.DataFrame |
Nom de la table d’entrée ou DataFrame qui contient des fonctionnalités d’entraînement et une cible. Le nom de la table peut être au format « .. » ou « . » pour les tables non Unity Catalog |
target_col |
str |
Nom de colonne de l’étiquette cible. |
time_col |
str |
Nom de la colonne de temps pour la prévision. |
primary_metric |
str |
Métrique utilisée pour évaluer et classer les performances du modèle. Mesures prises en charge : « smape » (par défaut), « mse », « rmse », « mae » ou « mdape ». |
country_code |
str |
Disponible dans Databricks Runtime 12.0 ML et les versions ultérieures. Pris en charge uniquement par le modèle de prévision Prophet. facultatif. Code du pays à deux lettres, qui indique les jours fériés du pays que le modèle de prévision doit utiliser. Pour ignorer les jours fériés, affectez une chaîne vide ("") à ce paramètre. Pays pris en charge. Par défaut : US (jours fériés aux États-Unis). |
frequency |
str |
Fréquence de la série chronologique pour les prévisions. Il s’agit de la période avec laquelle les événements sont supposés se produire. Le paramètre par défaut est « D », pour données quotidiennes. Veillez à modifier le paramètre si vos données ont une fréquence différente. Valeurs possibles : “W” (semaines) « D »/« jours »/« jour » « heures »/« heure »/« hr »/« h » "m"/"minute"/"min"/"minutes"/"T" « S »/« secondes »/« sec »/« seconde » Les éléments suivants sont uniquement disponibles avec Databricks Runtime 12.0 ML et les versions ultérieures : « M » / « month » / « months » « Q » / « quarter » / « quarters » « Y » / « year » / « years » Valeur par défaut : « D » |
horizon |
int |
Nombre de périodes dans le futur pour lesquelles les prévisions doivent être retournées. Les unités sont la fréquence de la série temporelle. Valeur par défaut : 1. |
data_dir |
str de format dbfs:/<folder-name> |
facultatif. Chemin d’accès utilisé pour stocker le jeu de données de formation. Ce chemin d’accès est visible pour les nœuds de pilote et de travail. Databricks recommande de laisser ce champ vide pour qu’AutoML puisse enregistrer le jeu de données d’apprentissage comme artifact MLflow. Si un chemin d’accès personnalisé est spécifié, le jeu de données n’hérite pas des autorisations d’accès de l’expérience AutoML. |
experiment_dir |
str |
facultatif. Chemin d’accès au répertoire de l’espace de travail pour enregistrer les blocs-notes et les expériences générés. Valeur par défaut : /Users/<username>/databricks_automl/ |
experiment_name |
str |
facultatif. Nom de l’expérience MLflow créée par AutoML. Par défaut : Le nom est généré automatiquement. |
exclude_frameworks |
List[str] |
facultatif. Liste des infrastructures d’algorithmes que AutoML ne doit pas prendre en compte au fur et à mesure qu’il développe des modèles. Valeurs possibles : liste vide, ou un ou plusieurs « prophet », « arima ». Valeur par défaut : [] (toutes les infrastructures sont prises en compte) |
feature_store_lookups |
List[Dict] |
facultatif. Liste des dictionnaires qui représentent les caractéristiques de Feature Store pour l’augmentation des données de covariable. Les clés valides dans chaque dictionnaire sont les suivantes : - table_name (str) : obligatoire. Nom de la table de caractéristiques.- lookup_key (liste ou str) : obligatoire. Noms de colonnes à utiliser sous forme de clé au moment de la jointure de la table de caractéristiques aux données passées dans le param dataset . L’ordre des noms de colonnes doit correspondre à l’ordre des clés primaires de la table de caractéristiques.- timestamp_lookup_key (str) : obligatoire si la table spécifiée est une table de fonctionnalités de série chronologique . Nom de colonne à utiliser au moment de l’exécution d’une recherche d’un instant dans le passé dans la table de caractéristiques avec les données passées dans le paramètre dataset .Par défaut : [] |
identity_col |
Union[str, list] |
facultatif. Colonne/Colonnes qui identifient la série chronologique pour les prévisions de plusieurs séries. AutoML regroupe ces colonnes et la colonne heure pour les prévisions. |
sample_weight_col |
str |
Disponible dans Databricks Runtime 16.0 ML et versions ultérieures. Uniquement pour les flux de travail de séries multiples. facultatif. Spécifie la colonne du jeu de données qui contient des exemples de pondérations. Ces pondérations indiquent l’importance relative de chaque série chronologique pendant l’entraînement et l’évaluation du modèle. Les séries chronologiques avec des poids plus élevés ont une plus grande influence sur le modèle. S’il n’est pas fourni, toutes les séries chronologiques sont traitées avec un poids égal. Toutes les lignes appartenant à la même série chronologique doivent avoir le même poids. Les pondérations doivent être des valeurs non négatives, des décimales ou des entiers, et être comprises entre 0 et 10 000. |
output_database |
str |
facultatif. Si fourni, AutoML enregistre les prédictions du meilleur modèle dans une nouvelle table de la base de données spécifiée. Valeur par défaut : Les prédictions ne sont pas enregistrées. |
timeout_minutes |
int |
facultatif. Durée d’attente maximale pour l’exécution des versions d’évaluation de AutoML. Des délais d’attente plus longs permettent à AutoML d’exécuter plus d’essais et d’identifier un modèle avec une meilleure précision. Par défaut : 120 minutes Valeur minimale : 5 minutes Une erreur est signalée si le délai d’expiration est trop faible pour permettre l’exécution d’au moins une version d’évaluation. |
Importer un notebook
La méthode databricks.automl.import_notebook
importe un notebook qui a été enregistré en tant qu’artefact MLflow. Cette méthode retourne un ImportNotebookResult.
databricks.automl.import_notebook(
artifact_uri: str,
path: str,
overwrite: bool = False
) -> ImportNotebookResult:
Paramètres | Type | Description |
---|---|---|
artifact_uri |
str |
URI de l’artefact MLflow qui contient le notebook d’évaluation. |
path |
str |
Chemin d’accès dans l’espace de travail Databricks où le notebook doit être importé. Ceci doit être un chemin absolu. Le répertoire est créé s’il n’existe pas. |
overwrite |
bool |
Indique s’il faut remplacer le bloc-notes s’il existe déjà. La valeur par défaut de ce paramètre est False . |
Exemple d’importation de bloc-notes
summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)
AutoMLSummary
Objet de résumé pour une exécution AutoML qui décrit les métriques, les paramètres et d'autres détails pour chacun des essais. Vous utilisez également cet objet pour charger le modèle formé par une version d’évaluation spécifique.
Propriété | Type | Description |
---|---|---|
experiment |
mlflow.entities.Experiment |
Expérience MLflow utilisée pour enregistrer les essais. |
trials |
List[TrialInfo] |
Liste d’objets TrialInfo contenant des informations sur toutes les versions d’évaluation qui ont été exécutées. |
best_trial |
TrialInfo |
Objet TrialInfo contenant des informations sur l’essai qui a formé le meilleur score pondéré pour la métrique principale. |
metric_distribution |
str |
Distribution des scores pondérés pour la métrique principale dans tous les essais. |
output_table_name |
str |
Utilisé avec la prévision uniquement et uniquement si output_database est fourni. Nom de la table dans output_database contenant les prédictions du modèle. |
TrialInfo
Objet Résumé pour chaque essai individuel.
Propriété | Type | Description |
---|---|---|
notebook_path |
Optional[str] |
Chemin d’accès au bloc-notes généré pour cette version d’évaluation dans l’espace de travail. Pour la classification et la régression, cette valeur est définie uniquement pour le meilleur essai, tandis que tous les autres essais ont la valeur définie sur None .Pour la prévision, cette valeur est présente pour tous les essais. |
notebook_url |
Optional[str] |
URL du bloc-notes généré pour cette version d’évaluation. Pour la classification et la régression, cette valeur est définie uniquement pour le meilleur essai, tandis que tous les autres essais ont la valeur définie sur None .Pour la prévision, cette valeur est présente pour tous les essais. |
artifact_uri |
Optional[str] |
URI d'artefact MLflow pour le notebook généré. |
mlflow_run_id |
str |
ID d’exécution MLflow associé à cette exécution d’essai. |
metrics |
Dict[str, float] |
Les métriques enregistrées dans MLflow pour cette version d’évaluation. |
params |
Dict[str, str] |
Les paramètres consignés dans MLflow qui ont été utilisés pour cette version d’évaluation. |
model_path |
str |
URL de l’artefact MLflow du modèle formé dans cette version d’évaluation. |
model_description |
str |
Brève description du modèle et des hyperparamètres utilisés pour l’apprentissage de ce modèle. |
duration |
str |
Durée du retard en minutes |
preprocessors |
str |
Description des préprocesseurs exécutée avant d’effectuer l’apprentissage du modèle. |
evaluation_metric_score |
float |
Score de la métrique principale, évalué pour le jeu de données de validation. |
TrialInfo
a une méthode pour charger le modèle généré pour l’essai.
Méthode | Description |
---|---|
load_model() |
Chargez le modèle généré dans cette version d’évaluation, enregistré en tant qu’artefact MLflow. |
ImportNotebookResult
Propriété | Type | Description |
---|---|---|
path |
str |
Chemin d’accès dans l’espace de travail Databricks où le notebook doit être importé. Ceci doit être un chemin absolu. Le répertoire est créé s’il n’existe pas. |
url |
str |
URI de l’artefact MLflow qui contient le notebook d’évaluation. |