Partilhar via


O que são arquivos de espaço de trabalho?

Um arquivo de espaço de trabalho é um arquivo em sua árvore de arquivos de espaço de trabalho do Azure Databricks que não é um dos tipos listados a seguir:

  • Notebooks
  • Consultas
  • Dashboards
  • Espaços Genie
  • Experimentações

Além desses tipos excluídos, os arquivos de espaço de trabalho podem ser qualquer tipo de arquivo. Exemplos comuns incluem:

  • .py arquivos usados em módulos personalizados.
  • .md arquivos, como README.md.
  • .csv ou outros pequenos ficheiros de dados.
  • .txt ficheiros.
  • .whl bibliotecas.
  • Ficheiros de registo.

Para obter recomendações sobre como trabalhar com ficheiros, consulte Recomendações para ficheiros em volumes e ficheiros de espaço de trabalho.

Sua árvore de arquivos do espaço de trabalho do Azure Databricks pode conter pastas anexadas a um repositório Git chamado "Pastas Git Databricks". Eles têm algumas limitações adicionais no suporte ao tipo de arquivo. Para obter uma list dos tipos de arquivo suportados em pastas Git (anteriormente "Repos"), consulte Tipos de ativos suportados em pastas Git.

Importante

Os arquivos de espaço de trabalho são habilitados em todos os lugares por padrão no Databricks Runtime versão 11.2. Para cargas de trabalho de produção, use o Databricks Runtime 11.3 LTS ou superior. Entre em contato com o administrador do espaço de trabalho se não conseguir acessar essa funcionalidade.

O que você pode fazer com arquivos de espaço de trabalho

O Azure Databricks fornece funcionalidade semelhante ao desenvolvimento local para muitos tipos de arquivo de espaço de trabalho, incluindo um editor de arquivos interno. Nem todos os casos de uso para todos os tipos de arquivo são suportados.

Você pode criar, editar e gerenciar o acesso a arquivos de espaço de trabalho usando padrões familiares de interações do bloco de anotações. Você pode usar caminhos relativos para importações de bibliotecas de arquivos de espaço de trabalho, semelhante ao desenvolvimento local. Para obter mais detalhes, consulte:

Os scripts de inicialização armazenados em arquivos de espaço de trabalho têm um comportamento especial. Você pode usar arquivos de espaço de trabalho para armazenar e fazer referência a scripts de inicialização em qualquer versão do Databricks Runtime. Consulte Armazenar scripts de inicialização em arquivos de espaço de trabalho.

Nota

No Databricks Runtime 14.0 e superior, o diretório de trabalho atual padrão (CWD) para código executado localmente é o diretório que contém o bloco de anotações ou script que está sendo executado. Esta é uma mudança no comportamento do Databricks Runtime 13.3 LTS e inferior. Consulte Qual é o diretório de trabalho atual padrão?.

Limitações

  • Se seu fluxo de trabalho usa código-fonte localizado em um repositório Git remoto, você não pode gravar no diretório atual ou gravar usando um caminho relativo. Grave dados em outras opções de local.
  • Não é possível usar git comandos quando você salva em arquivos de espaço de trabalho. A criação de diretórios não é permitida em arquivos de espaço de .git trabalho.
  • A leitura de arquivos do espaço de trabalho usando executores do Spark (como spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")) não é suportada com computação sem servidor.
  • Os executores não podem gravar em arquivos de espaço de trabalho.
  • Os links simbólicos são suportados apenas para diretórios de destino na pasta raiz /Workspace, como os.symlink("/Workspace/Users/someone@example.com/Testing", "Testing").
  • Os arquivos de espaço de trabalho não podem ser acessados a partir de funções definidas pelo usuário (UDFs) em clusters com modo de acesso compartilhado no Databricks Runtime 14.2 e inferior.

Tamanho do ficheiro limit

  • O tamanho do arquivo do espaço de trabalho é limitado a 500 MB. As operações que tentarem transferir ou criar ficheiros maiores do que este limit falharão.

Permissão de acesso a arquivos limit

A permissão para acessar arquivos em pastas expira /Workspace após 36 horas para computação interativa e após 30 dias para trabalhos. O Databricks recomenda executar execuções longas como trabalhos se precisarem de acesso ao arquivo /Workspace.

Habilitar arquivos de espaço de trabalho

Para habilitar o suporte para arquivos que não sejam de notebook em seu espaço de trabalho Databricks, chame a API REST /api/2.0/workspace-conf de um bloco de anotações ou outro ambiente com acesso ao seu espaço de trabalho Databricks. Os arquivos de espaço de trabalho são habilitados por padrão.

Para ativar ou reativar o suporte para arquivos que não são blocos de anotações no seu espaço de trabalho Databricks, defina o /api/2.0/workspace-conf e get com o valor da chave enableWorkspaceFileSystem. Se for de set a true, os ficheiros que não são do bloco de notas já estão habilitados para o seu espaço de trabalho.

O exemplo a seguir demonstra como você pode chamar essa API de um bloco de anotações para verificar se os arquivos do espaço de trabalho estão desabilitados e, em caso afirmativo, reativá-los.

Exemplo: Bloco de anotações para reativar o suporte a arquivos de espaço de trabalho Databricks

Get portátil