databricks_step Modulo

Contiene funzionalità per creare un passaggio della pipeline di Azure ML per eseguire un notebook di Databricks o uno script Python in DBFS.

Classi

DatabricksStep

Crea un passaggio di Azure ML Pipeline per aggiungere un notebook di DataBricks, uno script Python o un file JAR come nodo.

Per un esempio di uso di DatabricksStep, vedere il notebook https://aka.ms/pl-databricks.

Creare un passaggio di Azure ML Pipeline per aggiungere un notebook di DataBricks, uno script Python o JAR come nodo.

Per un esempio di uso di DatabricksStep, vedere il notebook https://aka.ms/pl-databricks.

:p aram python_script_name:[Obbligatorio] Nome di uno script Python relativo a source_directory. Se lo script accetta input e output, questi verranno passati allo script come parametri. Se python_script_name è specificato, source_directory deve essere troppo.

Specificare esattamente uno di notebook_path, python_script_path, python_script_nameo main_class_name.

Se si specifica un oggetto DataReference come input con data_reference_name=input1 e un oggetto PipelineData come output con name=output1, gli input e gli output verranno passati allo script come parametri. Si tratta di un aspetto simile al seguente e sarà necessario analizzare gli argomenti nello script per accedere ai percorsi di ogni input e output: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d2b81a2/output1"

Inoltre, i parametri seguenti saranno disponibili nello script:

  • AZUREML_RUN_TOKEN: token AML per l'autenticazione con Azure Machine Learning.
  • AZUREML_RUN_TOKEN_EXPIRY: ora di scadenza del token AML.
  • AZUREML_RUN_ID: ID esecuzione di Azure Machine Learning per questa esecuzione.
  • AZUREML_ARM_SUBSCRIPTION: sottoscrizione di Azure per l'area di lavoro AML.
  • AZUREML_ARM_RESOURCEGROUP: gruppo di risorse di Azure per l'area di lavoro di Azure Machine Learning.
  • AZUREML_ARM_WORKSPACE_NAME: nome dell'area di lavoro di Azure Machine Learning.
  • AZUREML_ARM_PROJECT_NAME: nome dell'esperimento di Azure Machine Learning.
  • AZUREML_SERVICE_ENDPOINT: URL dell'endpoint per i servizi AML.
  • AZUREML_WORKSPACE_ID: ID dell'area di lavoro di Azure Machine Learning.
  • AZUREML_EXPERIMENT_ID: ID dell'esperimento di Azure Machine Learning.
  • AZUREML_SCRIPT_DIRECTORY_NAME: percorso della directory in DBFS in cui è stato copiato source_directory.
  (This parameter is only populated when `python_script_name` is used.  See more details below.)

Quando si esegue uno script Python dal computer locale in Databricks usando i parametri source_directory DatabricksStep e python_script_name, il source_directory viene copiato in DBFS e il percorso della directory in DBFS viene passato come parametro allo script quando inizia l'esecuzione. Questo parametro viene etichettato come –AZUREML_SCRIPT_DIRECTORY_NAME. È necessario prefissirlo con la stringa "dbfs:/" o "/dbfs/" per accedere alla directory in DBFS.