Compartilhar via


SparkComponent Classe

Versão do componente spark, usada para definir um componente ou trabalho do Spark.

Herança
azure.ai.ml.entities._component.component.Component
SparkComponent
azure.ai.ml.entities._job.parameterized_spark.ParameterizedSpark
SparkComponent
azure.ai.ml.entities._job.spark_job_entry_mixin.SparkJobEntryMixin
SparkComponent
azure.ai.ml.entities._component.code.ComponentCodeMixin
SparkComponent

Construtor

SparkComponent(*, code: PathLike | str | None = '.', entry: Dict[str, str] | SparkJobEntry | None = None, py_files: List[str] | None = None, jars: List[str] | None = None, files: List[str] | None = None, archives: List[str] | None = None, driver_cores: int | str | None = None, driver_memory: str | None = None, executor_cores: int | str | None = None, executor_memory: str | None = None, executor_instances: int | str | None = None, dynamic_allocation_enabled: bool | str | None = None, dynamic_allocation_min_executors: int | str | None = None, dynamic_allocation_max_executors: int | str | None = None, conf: Dict[str, str] | None = None, environment: Environment | str | None = None, inputs: Dict | None = None, outputs: Dict | None = None, args: str | None = None, **kwargs: Any)

Parâmetros somente de palavra-chave

Nome Description
code

O código-fonte para executar o trabalho. Pode ser um caminho local ou uma URL "http:", "https:" ou "azureml:" apontando para um local remoto. O padrão é ".", indicando o diretório atual.

valor padrão: .
entry

O ponto de entrada de arquivo ou classe.

py_files

A lista de arquivos .zip, .egg ou .py a serem colocados no PYTHONPATH para aplicativos Python. Assume o valor padrão de Nenhum.

jars

A lista de . Arquivos JAR a serem incluídos nos caminhos de classe do driver e do executor. Assume o valor padrão de Nenhum.

files

A lista de arquivos a serem colocados no diretório de trabalho de cada executor. Assume o valor padrão de Nenhum.

archives

A lista de arquivos a serem extraídos no diretório de trabalho de cada executor. Assume o valor padrão de Nenhum.

driver_cores

O número de núcleos a serem usados para o processo de driver, somente no modo de cluster.

driver_memory

A quantidade de memória a ser usada para o processo de driver, formatada como cadeias de caracteres com um sufixo de unidade de tamanho ("k", "m", "g" ou "t") (por exemplo, "512m", "2g").

executor_cores

O número de núcleos a serem usados em cada executor.

executor_memory

A quantidade de memória a ser usada por processo de executor, formatada como cadeias de caracteres com um sufixo de unidade de tamanho ("k", "m", "g" ou "t") (por exemplo, "512m", "2g").

executor_instances

O número inicial de executores.

dynamic_allocation_enabled

Se deseja usar a alocação dinâmica de recursos, o que dimensiona o número de executores registrados com esse aplicativo para cima e para baixo com base na carga de trabalho. Usa False como padrão.

dynamic_allocation_min_executors

O limite inferior para o número de executores se a alocação dinâmica estiver habilitada.

dynamic_allocation_max_executors

O limite superior para o número de executores se a alocação dinâmica estiver habilitada.

conf

Um dicionário com valores e chave de configurações predefinidos do Spark. Assume o valor padrão de Nenhum.

environment

O ambiente do Azure ML no qual executar o trabalho.

inputs
Optional[dict[str, Union[ <xref:azure.ai.ml.entities._job.pipeline._io.NodeOutput>, Input, str, bool, int, float, <xref:Enum>, ]]]

Um mapeamento de nomes de entrada para fontes de dados de entrada usadas no trabalho. Assume o valor padrão de Nenhum.

outputs

Um mapeamento de nomes de saída para as fontes de dados de saída usadas no trabalho. Assume o valor padrão de Nenhum.

args

Os argumentos para o trabalho. Assume o valor padrão de Nenhum.

Exemplos

Criando SparkComponent.


   from azure.ai.ml.entities import SparkComponent

   component = SparkComponent(
       name="add_greeting_column_spark_component",
       display_name="Aml Spark add greeting column test module",
       description="Aml Spark add greeting column test module",
       version="1",
       inputs={
           "file_input": {"type": "uri_file", "mode": "direct"},
       },
       driver_cores=2,
       driver_memory="1g",
       executor_cores=1,
       executor_memory="1g",
       executor_instances=1,
       code="./src",
       entry={"file": "add_greeting_column.py"},
       py_files=["utils.zip"],
       files=["my_files.txt"],
       args="--file_input ${{inputs.file_input}}",
       base_path="./sdk/ml/azure-ai-ml/tests/test_configs/dsl_pipeline/spark_job_in_pipeline",
   )


Métodos

dump

Despejar o conteúdo do componente em um arquivo no formato yaml.

dump

Despejar o conteúdo do componente em um arquivo no formato yaml.

dump(dest: str | PathLike | IO, **kwargs: Any) -> None

Parâmetros

Nome Description
dest
Obrigatório
Union[<xref:PathLike>, str, IO[AnyStr]]

O destino para receber o conteúdo desse componente. Deve ser um caminho para um arquivo local ou um fluxo de arquivos já aberto. Se dest for um caminho de arquivo, um novo arquivo será criado e uma exceção será gerada se o arquivo existir. Se dest for um arquivo aberto, o arquivo será gravado diretamente e uma exceção será gerada se o arquivo não for gravável.

Atributos

base_path

O caminho base do recurso.

Retornos

Tipo Description
str

O caminho base do recurso.

creation_context

O contexto de criação do recurso.

Retornos

Tipo Description

Os metadados de criação para o recurso.

display_name

Nome de exibição do componente.

Retornos

Tipo Description
str

Nome de exibição do componente.

entry

environment

O ambiente do Azure ML no qual executar o componente ou o trabalho do Spark.

Retornos

Tipo Description

O ambiente do Azure ML no qual executar o componente ou o trabalho do Spark.

id

A ID do recurso.

Retornos

Tipo Description

A ID global do recurso, uma ID do ARM (Resource Manager do Azure).

inputs

Entradas do componente.

Retornos

Tipo Description

Entradas do componente.

is_deterministic

Se o componente é determinístico.

Retornos

Tipo Description

Se o componente é determinístico

outputs

Saídas do componente.

Retornos

Tipo Description

Saídas do componente.

type

Tipo do componente, o padrão é 'command'.

Retornos

Tipo Description
str

Tipo do componente.

version

A versão do componente.

Retornos

Tipo Description
str

A versão do componente.

CODE_ID_RE_PATTERN

CODE_ID_RE_PATTERN = re.compile('\\/subscriptions\\/(?P<subscription>[\\w,-]+)\\/resourceGroups\\/(?P<resource_group>[\\w,-]+)\\/providers\\/Microsoft\\.MachineLearningServices\\/workspaces\\/(?P<workspace>[\\w,-]+)\\/codes\\/(?P<co)