DatabricksStep Classe
Cria um passo do Pipeline do Azure ML para adicionar um bloco de notas do DataBricks, script python ou JAR como um nó.
Para obter um exemplo de utilização do DatabricksStep, consulte o bloco de notas https://aka.ms/pl-databricks.
Crie um passo do Pipeline do Azure ML para adicionar um bloco de notas do DataBricks, script python ou JAR como um nó.
Para obter um exemplo de utilização do DatabricksStep, consulte o bloco de notas https://aka.ms/pl-databricks.
:p aram python_script_name:[Obrigatório] O nome de um script python relativo a source_directory
.
Se o script utilizar entradas e saídas, estas serão transmitidas para o script como parâmetros.
Se python_script_name
for especificado, tem de source_directory
ser também.
Especifique exatamente um de notebook_path
, python_script_path
, python_script_name
ou main_class_name
.
Se especificar um objeto DataReference como entrada com data_reference_name=input1 e um objeto PipelineData como saída com name=output1, as entradas e saídas serão transmitidas para o script como parâmetros. É assim que serão e terá de analisar os argumentos no script para aceder aos caminhos de cada entrada e saída: "-input1", "wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"
Além disso, os seguintes parâmetros estarão disponíveis no script:
- AZUREML_RUN_TOKEN: o token AML para autenticação com o Azure Machine Learning.
- AZUREML_RUN_TOKEN_EXPIRY: o tempo de expiração do token AML.
- AZUREML_RUN_ID: ID de Execução do Azure Machine Learning para esta execução.
- AZUREML_ARM_SUBSCRIPTION: subscrição do Azure para a área de trabalho do AML.
- AZUREML_ARM_RESOURCEGROUP: grupo de recursos do Azure para a área de trabalho do Azure Machine Learning.
- AZUREML_ARM_WORKSPACE_NAME: Nome da área de trabalho do Azure Machine Learning.
- AZUREML_ARM_PROJECT_NAME: nome da experimentação do Azure Machine Learning.
- AZUREML_SERVICE_ENDPOINT: o URL do ponto final dos serviços AML.
- AZUREML_WORKSPACE_ID: ID da área de trabalho do Azure Machine Learning.
- AZUREML_EXPERIMENT_ID: ID da experimentação do Azure Machine Learning.
- AZUREML_SCRIPT_DIRECTORY_NAME: caminho do diretório no DBFS onde source_directory foi copiado.
(This parameter is only populated when `python_script_name` is used. See more details below.)
Quando está a executar um script python a partir do seu computador local no Databricks com os parâmetros source_directory
DatabricksStep e python_script_name
, o seu source_directory é copiado para o DBFS e o caminho do diretório no DBFS é transmitido como um parâmetro para o script quando inicia a execução.
Este parâmetro é rotulado como –AZUREML_SCRIPT_DIRECTORY_NAME. Tem de o prefixar com a cadeia "dbfs:/" ou "/dbfs/" para aceder ao diretório no DBFS.
- Herança
-
azureml.pipeline.core._databricks_step_base._DatabricksStepBaseDatabricksStep
Construtor
DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)
Parâmetros
Name | Description |
---|---|
name
Necessário
|
[Obrigatório] O nome do passo. |
inputs
|
Uma lista de ligações de entrada para dados consumidos por este passo. Obtenha isto no bloco de notas com dbutils.widgets.get("input_name"). Pode ser DataReference ou PipelineData. DataReference representa um conjunto de dados existente num arquivo de dados. Essencialmente, este é um caminho num arquivo de dados. O DatabricksStep suporta arquivos de dados que encapsulam o DBFS, o blob do Azure ou o ADLS v1. PipelineData representa dados intermédios produzidos por outro passo num pipeline. Default value: None
|
outputs
|
Uma lista de definições de portas de saída para saídas produzidas por este passo. Obtenha isto no bloco de notas com dbutils.widgets.get("output_name"). Deve ser PipelineData. Default value: None
|
existing_cluster_id
|
Um ID de cluster de um cluster interativo existente na área de trabalho do Databricks. Se estiver a transmitir este parâmetro, não poderá transmitir nenhum dos seguintes parâmetros que são utilizados para criar um novo cluster:
Nota: para criar um novo cluster de tarefas, terá de transmitir os parâmetros acima. Pode transmitir estes parâmetros diretamente ou pode transmiti-los como parte do objeto RunConfiguration com o parâmetro runconfig. Transmitir estes parâmetros diretamente e através de RunConfiguration resulta num erro. Default value: None
|
spark_version
|
A versão do Spark para o cluster de execução do Databricks, por exemplo: "10.4.x-scala2.12".
Para obter mais informações, veja a descrição do Default value: None
|
node_type
|
[Obrigatório] Os tipos de nó da VM do Azure para o cluster de execução do Databricks, por exemplo: "Standard_D3_v2". Especifique ou Default value: None
|
instance_pool_id
|
[Obrigatório] O ID do conjunto de instâncias ao qual o cluster tem de ser anexado.
Especifique ou Default value: None
|
num_workers
|
[Obrigatório] O número estático de trabalhos para o cluster de execução do Databricks.
Tem de especificar ou Default value: None
|
min_workers
|
[Obrigatório] O número mínimo de trabalhos a utilizar para dimensionar automaticamente o cluster de execução do Databricks.
Tem de especificar ou Default value: None
|
max_workers
|
[Obrigatório] O número máximo de trabalhos a utilizar para dimensionar automaticamente o cluster de execução do Databricks.
Tem de especificar ou Default value: None
|
spark_env_variables
|
As variáveis de ambiente do Spark para o cluster de execução do Databricks.
Para obter mais informações, veja a descrição do Default value: None
|
spark_conf
|
A configuração do Spark para o cluster de execução do Databricks.
Para obter mais informações, veja a descrição do Default value: None
|
init_scripts
|
[str]
Preterido. O Databricks anunciou que o script init armazenado no DBFS deixará de funcionar após 1 de dezembro de 2023. Para mitigar o problema, 1) utilize scripts init globais no databricks após https://learn.microsoft.com/azure/databricks/init-scripts/global 2) comentar a linha de init_scripts no passo do AzureML databricks. Default value: None
|
cluster_log_dbfs_path
|
Os caminhos do DBFS onde os registos de clusters serão entregues. Default value: None
|
notebook_path
|
[Obrigatório] O caminho para o bloco de notas na instância do Databricks. Esta classe permite quatro formas de especificar o código a executar no cluster do Databricks.
Especifique exatamente um de Default value: None
|
notebook_params
|
Um dicionário de parâmetros para passar para o bloco de notas.
Default value: None
|
python_script_path
|
[Obrigatório] O caminho para o script python no DBFS.
Especifique exatamente um de Default value: None
|
python_script_params
|
Parâmetros para o script python. Default value: None
|
main_class_name
|
[Obrigatório] O nome do ponto de entrada num módulo JAR.
Especifique exatamente um de Default value: None
|
jar_params
|
Parâmetros para o módulo JAR. Default value: None
|
python_script_name
|
[Obrigatório] O nome de um script python relativo a Especifique exatamente um de Se especificar um objeto DataReference como entrada com data_reference_name=input1 e um objeto PipelineData como saída com name=output1, as entradas e saídas serão transmitidas para o script como parâmetros. É assim que serão e terá de analisar os argumentos no script para aceder aos caminhos de cada entrada e saída: "-input1", "wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1" Além disso, os seguintes parâmetros estarão disponíveis no script:
Quando está a executar um script python a partir do seu computador local no Databricks com os parâmetros Default value: None
|
source_directory
|
A pasta que contém o script e outros ficheiros.
Se Default value: None
|
hash_paths
|
[str]
PRETERIDO: já não é necessário. Uma lista de caminhos para hash ao verificar se existem alterações nos conteúdos do passo. Se não forem detetadas alterações, o pipeline reutilizará o conteúdo do passo de uma execução anterior. Por predefinição, os conteúdos de Default value: None
|
run_name
|
O nome no Databricks para esta execução. Default value: None
|
timeout_seconds
|
O tempo limite para a execução do Databricks. Default value: None
|
runconfig
|
O runconfig a utilizar. Nota: pode transmitir o número de bibliotecas que quiser como dependências para a sua tarefa através dos seguintes parâmetros: Default value: None
|
maven_libraries
|
Bibliotecas do Maven a utilizar para a execução do Databricks. Default value: None
|
pypi_libraries
|
Bibliotecas PyPi a utilizar para a execução do Databricks. Default value: None
|
egg_libraries
|
Bibliotecas de ovos a utilizar para a execução do Databricks. Default value: None
|
jar_libraries
|
Bibliotecas jar a utilizar para a execução do Databricks. Default value: None
|
rcran_libraries
|
Bibliotecas RCran a utilizar para a execução do Databricks. Default value: None
|
compute_target
|
[Obrigatório] Uma computação do Azure Databricks. Antes de poder utilizar o DatabricksStep para executar os seus scripts ou blocos de notas numa área de trabalho do Azure Databricks, tem de adicionar a área de trabalho do Azure Databricks como um destino de computação à sua área de trabalho do Azure Machine Learning. Default value: None
|
allow_reuse
|
Indica se o passo deve reutilizar os resultados anteriores ao executar novamente com as mesmas definições. A reutilização está ativada por predefinição. Se o conteúdo do passo (scripts/dependências), bem como as entradas e os parâmetros permanecerem inalterados, o resultado da execução anterior deste passo será reutilizado. Ao reutilizar o passo, em vez de submeter a tarefa para computação, os resultados da execução anterior são imediatamente disponibilizados para quaisquer passos subsequentes. Se utilizar conjuntos de dados do Azure Machine Learning como entradas, a reutilização é determinada se a definição do conjunto de dados foi alterada e não se os dados subjacentes foram alterados. Default value: True
|
version
|
Uma etiqueta de versão opcional para denotar uma alteração na funcionalidade do passo. Default value: None
|
permit_cluster_restart
|
se existing_cluster_id for especificado, este parâmetro indica se o cluster pode ser reiniciado em nome do utilizador. Default value: None
|
name
Necessário
|
[Obrigatório] O nome do passo. |
inputs
Necessário
|
Lista de ligações de entrada para dados consumidos por este passo. Obtenha isto no bloco de notas com dbutils.widgets.get("input_name"). Pode ser DataReference ou PipelineData. DataReference representa um conjunto de dados existente num arquivo de dados. Essencialmente, este é um caminho num arquivo de dados. O DatabricksStep suporta arquivos de dados que encapsulam o DBFS, o blob do Azure ou o ADLS v1. PipelineData representa dados intermédios produzidos por outro passo num pipeline. |
outputs
Necessário
|
list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]]
Uma lista de definições de portas de saída para saídas produzidas por este passo. Obtenha isto no bloco de notas com dbutils.widgets.get("output_name"). Deve ser PipelineData. |
existing_cluster_id
Necessário
|
Um ID de cluster de um cluster interativo existente na área de trabalho do Databricks. Se estiver a transmitir este parâmetro, não poderá transmitir nenhum dos seguintes parâmetros que são utilizados para criar um novo cluster:
Nota: para criar um novo cluster de tarefas, terá de transmitir os parâmetros acima. Pode transmitir estes parâmetros diretamente ou pode passá-los como parte do objeto RunConfiguration com o parâmetro runconfig. Transmitir estes parâmetros diretamente e através de RunConfiguration resulta num erro. |
spark_version
Necessário
|
A versão do Spark para o cluster de execução do Databricks, por exemplo: "10.4.x-scala2.12".
Para obter mais informações, veja a descrição do |
node_type
Necessário
|
[Obrigatório] Os tipos de nó da VM do Azure para o cluster de execução do Databricks, por exemplo: "Standard_D3_v2". Especifique ou |
instance_pool_id
Necessário
|
[Obrigatório] O ID do conjunto de instâncias ao qual o cluster precisa de ser anexado.
Especifique ou |
num_workers
Necessário
|
[Obrigatório] O número estático de trabalhos do cluster de execução do Databricks.
Tem de especificar ou Para obter mais informações, veja a descrição do |
min_workers
Necessário
|
[Obrigatório] O número mínimo de trabalhadores a utilizar para dimensionar automaticamente o cluster de execução do Databricks.
Tem de especificar ou Para obter mais informações, veja a descrição do |
max_workers
Necessário
|
[Obrigatório] O número máximo de trabalhadores a utilizar para dimensionar automaticamente o cluster de execução do Databricks.
Tem de especificar ou Para obter mais informações, veja a descrição do |
spark_env_variables
Necessário
|
As variáveis de ambiente spark para o cluster de execução do Databricks.
Para obter mais informações, veja a descrição do |
spark_conf
Necessário
|
A configuração do Spark para o cluster de execução do Databricks.
Para obter mais informações, veja a descrição do |
init_scripts
Necessário
|
[str]
Preterido. O Databricks anunciou que o script init armazenado no DBFS deixará de funcionar após 1 de dezembro de 2023. Para mitigar o problema, utilize scripts init globais no databricks após https://learn.microsoft.com/azure/databricks/init-scripts/global 2) para comentar a linha de init_scripts no passo do AzureML databricks. |
cluster_log_dbfs_path
Necessário
|
Os caminhos do DBFS onde os registos de clusters devem ser entregues. |
notebook_path
Necessário
|
[Obrigatório] O caminho para o bloco de notas na instância do Databricks. Esta classe permite quatro formas de especificar o código a executar no cluster do Databricks.
Especifique exatamente um de |
notebook_params
Necessário
|
Um dicionário de parâmetros para passar para o bloco de notas.
|
python_script_path
Necessário
|
[Obrigatório] O caminho para o script python no DBFS.
Especifique exatamente um de |
python_script_params
Necessário
|
Parâmetros para o script python. |
main_class_name
Necessário
|
[Obrigatório] O nome do ponto de entrada num módulo JAR.
Especifique exatamente um de |
jar_params
Necessário
|
Parâmetros para o módulo JAR. |
source_directory
Necessário
|
A pasta que contém o script e outros ficheiros.
Se |
hash_paths
Necessário
|
[str]
PRETERIDO: já não é necessário. Uma lista de caminhos para hash ao verificar se existem alterações nos conteúdos do passo. Se não forem detetadas alterações, o pipeline reutilizará o conteúdo do passo de uma execução anterior. Por predefinição, os conteúdos de |
run_name
Necessário
|
O nome no Databricks para esta execução. |
timeout_seconds
Necessário
|
O tempo limite para a execução do Databricks. |
runconfig
Necessário
|
O runconfig a utilizar. Nota: pode transmitir o número de bibliotecas que quiser como dependências para a sua tarefa através dos seguintes parâmetros: |
maven_libraries
Necessário
|
list[<xref:azureml.core.runconfig.MavenLibrary>]
Bibliotecas do Maven a utilizar para a execução do Databricks.
Para obter mais informações sobre a especificação das bibliotecas do Maven, consulte |
pypi_libraries
Necessário
|
list[<xref:azureml.core.runconfig.PyPiLibrary>]
Bibliotecas PyPi a utilizar para a execução do Databricks.
Para obter mais informações sobre a especificação das bibliotecas PyPi, consulte |
egg_libraries
Necessário
|
list[<xref:azureml.core.runconfig.EggLibrary>]
Bibliotecas de ovos a utilizar para a execução do Databricks.
Para obter mais informações sobre a especificação das bibliotecas de Ovos, consulte |
jar_libraries
Necessário
|
list[<xref:azureml.core.runconfig.JarLibrary>]
Bibliotecas jar a utilizar para a execução do Databricks.
Para obter mais informações sobre a especificação das bibliotecas Jar, consulte |
rcran_libraries
Necessário
|
list[<xref:azureml.core.runconfig.RCranLibrary>]
Bibliotecas RCran a utilizar para a execução do Databricks.
Para obter mais informações sobre a especificação das bibliotecas RCran, consulte |
compute_target
Necessário
|
[Obrigatório] Computação do Azure Databricks. Antes de poder utilizar o DatabricksStep para executar os seus scripts ou blocos de notas numa área de trabalho do Azure Databricks, tem de adicionar a área de trabalho do Azure Databricks como um destino de computação à sua área de trabalho do Azure Machine Learning. |
allow_reuse
Necessário
|
Indica se o passo deve reutilizar os resultados anteriores ao executar novamente com as mesmas definições. A reutilização está ativada por predefinição. Se o conteúdo do passo (scripts/dependências), bem como as entradas e os parâmetros permanecerem inalterados, o resultado da execução anterior deste passo será reutilizado. Ao reutilizar o passo, em vez de submeter a tarefa para computação, os resultados da execução anterior são imediatamente disponibilizados para quaisquer passos subsequentes. Se utilizar conjuntos de dados do Azure Machine Learning como entradas, a reutilização é determinada se a definição do conjunto de dados foi alterada e não se os dados subjacentes foram alterados. |
version
Necessário
|
Uma etiqueta de versão opcional para denotar uma alteração na funcionalidade do passo. |
permit_cluster_restart
Necessário
|
se existing_cluster_id for especificado, este parâmetro indica se o cluster pode ser reiniciado em nome do utilizador. |
Métodos
create_node |
Crie um nó a partir do passo Databricks e adicione-o ao gráfico especificado. Este método não se destina a ser utilizado diretamente. Quando um pipeline é instanciado com este passo, o Azure ML transmite automaticamente os parâmetros necessários através deste método para que esse passo possa ser adicionado a um gráfico de pipeline que represente o fluxo de trabalho. |
create_node
Crie um nó a partir do passo Databricks e adicione-o ao gráfico especificado.
Este método não se destina a ser utilizado diretamente. Quando um pipeline é instanciado com este passo, o Azure ML transmite automaticamente os parâmetros necessários através deste método para que esse passo possa ser adicionado a um gráfico de pipeline que represente o fluxo de trabalho.
create_node(graph, default_datastore, context)
Parâmetros
Name | Description |
---|---|
graph
Necessário
|
O objeto de grafo ao que adicionar o nó. |
default_datastore
Necessário
|
O arquivo de dados predefinido. |
context
Necessário
|
<xref:azureml.pipeline.core._GraphContext>
O contexto do gráfico. |
Devoluções
Tipo | Description |
---|---|
O nó criado. |