Che cosa è successo a Databricks Repos?
Azure Databricks ha implementato nuovi elementi dell'interfaccia utente che consentono agli utenti di lavorare direttamente con le cartelle supportate dal repository Git dall'interfaccia utente dell'area di lavoro, sostituendo in modo efficace la funzionalità precedente separata di "Repos".
Cosa significa questo cambiamento per me?
Se si è un utente della funzionalità Databricks Repos per il controllo del codice sorgente basato su Git con co-controllo delle risorse del progetto, la funzionalità principale non è stata modificata. La differenza più importante è che molte operazioni contestuali dell'interfaccia utente ora fanno riferimento a "Cartelle Git" anziché a "Repos".
Ad esempio, è possibile creare una cartella Databricks supportata da un repository Git selezionando Nuovo e quindi Repository dall'interfaccia utente:
A questo momento, selezionare Nuovo e scegliere Cartella Git. Stessa cosa, nome diverso!
Questa modifica offre alcuni miglioramenti che semplificano l'uso delle cartelle controllate dalla versione:
- Organizzazione di cartelle migliore: le cartelle Git possono essere create a qualsiasi livello dell'albero dei file dell'area di lavoro, consentendo di organizzare le cartelle Git in modo ottimale per il progetto. Ad esempio, è possibile creare cartelle Git in
/Workspace/Users/<user email>/level_1/level_2/level_3/<Git folder name>
. I repository possono essere creati solo a livello di directory fisso, ad esempio la radice della cartella utente Repos, ad esempio/Workspace/Repos/<user email>/<Repo name>
.- Nota: le cartelle Git possono contenere o collocare con altri asset che non sono attualmente supportati da Repos. I tipi di asset non supportati, ad esempio gli asset DBSQL e gli esperimenti MLflow, possono essere spostati in cartelle Git. Il supporto della serializzazione per asset aggiuntivi verrà aggiunto nel tempo.
- Comportamenti semplificati dell'interfaccia utente: questa modifica comporta un'interazione comune dell'area di lavoro, che usa Git direttamente nell'area di lavoro di Databricks e riduce il tempo impiegato per spostarsi tra l'area di lavoro e le cartelle Git controllate dalla versione.
Cosa è cambiato, in particolare?
- Le cartelle Git possono essere create all'esterno della
/Repos
directory. - Le cartelle Git vengono create selezionando Nuova>cartella Git in un'area di lavoro di Databricks. Verrà creata una nuova cartella Git in
/Workspace/Users/<user-email>/
. - Le cartelle Git possono essere create a varie profondità dell'albero dei file dell'area di lavoro, purché si trovino in
/Workspace/Users/<user-email>
. Ad esempio, è possibile creare cartelle Git in/Workspace/Users/<user-email>/level_1/level_2/level_3/<git-folder-name>
. È possibile avere più cartelle Git in/Workspace/Users/<user-email>
. - Gli asset non supportati sono consentiti nelle cartelle Git. Il supporto della serializzazione per altri tipi di asset verrà aggiunto nel tempo.
- A differenza di Repos, non è possibile creare una nuova cartella Git in Databricks senza un URL del repository remoto.
Cosa succede ai miei repository repos attuali?
Se è stato definito Repos per l'area di lavoro di Azure Databricks, non sono disponibili e non è necessario eseguire la migrazione di tali repository esistenti alle cartelle Git. Repos è stato invece integrato nell'interfaccia utente dell'area di lavoro di Azure Databricks e non viene più presentato come un set separato di cartelle organizzate in un nodo Repository di primo livello. Ora sono disponibili nella /Workspace
cartella radice come /Workspace/Repos
.
- I riferimenti esistenti
/Repos
continueranno a funzionare. I percorsi che iniziano con/Repos
o/Workspace/Repos
fanno riferimento alla stessa cartella e i percorsi dichiarati injobs
,dbutils.notebook.run
e%run
i riferimenti possono rimanere invariati. - In rari casi, è necessario apportare una modifica una tantum nell'area di lavoro per consentire il funzionamento di questo reindirizzamento. Per altre informazioni su questa modifica, vedere Riferimenti agli oggetti dell'area di lavoro.
Databricks consiglia agli utenti di creare nuove cartelle Git invece di Repos se devono connettersi al controllo del codice sorgente Git dall'area di lavoro Databricks. L'individuazione di repository Git e altri asset dell'area di lavoro rende le cartelle Git più individuabili e più facili da gestire rispetto a Repos.
Le autorizzazioni delle cartelle Git per le cartelle Git hanno le stesse autorizzazioni per le cartelle dell'area di lavoro delle altre cartelle dell'area di lavoro. Gli utenti devono disporre dell'autorizzazione per eseguire la CAN_MANAGE
maggior parte delle operazioni Git.
Quale DBR è consigliabile usare per l'esecuzione di codice nelle cartelle Git?
Per un'esecuzione coerente del codice tra cartelle Git e Repos legacy, Databricks consiglia agli utenti di eseguire codice solo nelle cartelle Git con DBR 15+.
Comportamento corrente della directory di lavoro (CWD)
Databricks Runtime (DBR) versione 14 o successiva consente l'uso di percorsi relativi e offre la stessa esperienza di working directory (CWD) corrente per tutti i notebook, in cui si esegue il notebook dalla directory di lavoro corrente. I comportamenti correnti della directory di lavoro (CWD) potrebbero non essere coerenti tra i notebook in una cartella Git e una cartella non Git per le versioni precedenti di Databricks Runtime (DBR).
Comportamento sys.path di Python
Databricks Runtime (DBR) versione 14.3 o successiva offre lo stesso sys.path
comportamento nelle cartelle Git come nei repository legacy. Con le versioni precedenti di DBR, il comportamento delle cartelle Git differisce da Repos legacy perché la directory del repository radice non viene aggiunta automaticamente a sys.path
per le cartelle Git. Per Python, sys.path
contiene un elenco di directory in cui l'interprete cerca durante l'importazione dei moduli. Se non è possibile usare DBR 15 o versione successiva, è possibile aggiungere manualmente un percorso di cartella a sys.path
come soluzione alternativa.
Per esempi su come aggiungere directory all'uso sys.path
dei percorsi relativi, vedere Importare moduli Python e R.
Precedenza della libreria Python
Databricks Runtime (DBR) versione 14.3 o successiva fornisce la stessa precedenza della libreria Python nelle cartelle Git come in Repos legacy.