Condividi tramite


Integrazione Git per le cartelle Git di Databricks

Le cartelle Git di Databricks sono un client Git visivo e un'API in Azure Databricks. Supporta operazioni Git comuni, come la clonazione di un repository, il commit e il push, il pull, la gestione dei rami e il confronto visivo delle differenze durante il commit.

All'interno delle cartelle Git, è possibile sviluppare codice in notebook o altri file e seguire le procedure consigliate per lo sviluppo di codice di data science e ingegneria dei dati usando Git per il controllo della versione, la collaborazione e CI/CD.

Nota

Le cartelle Git (Repository) sono progettate principalmente per la creazione e la collaborazione dei flussi di lavoro.

Cosa si può fare con le cartelle Git di Databricks?

Le cartelle Git di Databricks forniscono il controllo del codice sorgente per i progetti di dati e intelligenza artificiale grazie all'integrazione con Git providers.

Nelle cartelle Git di Databricks è possibile usare la funzionalità Git per:

  • Clonare, eseguire il push e il pull da un repository Git remoto.
  • Creare e gestire rami per il lavoro di sviluppo, tra cui l'unione, la riassegnazione e la risoluzione dei conflitti.
  • Creare notebook (inclusi i notebook IPYNB) e modificarli, e altri file.
  • Confrontare visivamente le differenze al commit e risolvere i conflitti di unione.

Per istruzioni dettagliate, vedere Eseguire operazioni Git nelle cartelle Git di Databricks (Repository).

Nota

Le cartelle Git di Databricks hanno anche un'API che è possibile integrare con la pipeline CI/CD. Ad esempio, è possibile update un repository Databricks a livello di codice in modo che abbia sempre la versione più recente del codice. Per informazioni sulle procedure consigliate per lo sviluppo di codice con cartelle Git di Databricks, vedere Tecniche CI/CD con Git e le cartelle Git di Databricks (Repository).

Per informazioni sui tipi di notebook supportati in Azure Databricks, vedere Esportare e importare notebook di Databricks.

Git supportato providers

Le cartelle Git di Databricks sono supportate da un repository Git integrato. Il repository può essere ospitato da uno dei providers Git cloud e aziendali elencati nella sezione seguente.

Nota

Che cos'è un "provider Git"?

Un "provider Git" è il servizio specifico (denominato) che ospita un modello di controllo del codice sorgente basato su Git. Le piattaforme di controllo del codice sorgente basate su Git sono ospitate in due modi: come servizio cloud ospitato dall'azienda che lo sviluppa, o come servizio locale installato e gestito dall’azienda nel proprio hardware. Molti Git providers, come GitHub, Microsoft, GitLab e Atlassian, offrono sia servizi SaaS basati sul cloud sia servizi Git on-premise (talvolta chiamati "self-managed").

Quando si sceglie il provider Git durante la configurazione, è necessario tenere presenti le differenze tra Il cloud (SaaS) e Git locale providers. Le soluzioni locali sono in genere ospitate dietro una VPN aziendale e potrebbero non essere accessibili da Internet. In genere, l'providers Git locale ha un nome che termina con "Server" o "Self-Managed", ma se hai dubbi, contatta gli amministratori aziendali o esamina la documentazione del fornitore Git.

Se il provider Git è basato sul cloud e non è elencato come provider supportato, selezionare "GitHub" come provider può funzionare, ma non è garantito.

Nota

Se si usa "GitHub" come provider e si è ancora incerti sull’utilizzo della versione cloud o locale, vedere Informazioni su GitHub Enterprise Server nella documentazione di GitHub.

Cloud Git providers supportato da Databricks

  • GitHub, GitHub AE e GitHub Enterprise Cloud
  • Atlassian BitBucket Cloud
  • GitLab e GitLab EE
  • Microsoft Azure DevOps (Azure Repos)

Git locale providers supportato da Databricks

  • GitHub Enterprise Server
  • Server e data center Atlassian BitBucket
  • GitLab Self-Managed
  • Microsoft Azure DevOps Server: un amministratore dell'area di lavoro deve consentire in modo esplicito di elencare i prefissi di dominio URL per Microsoft Azure DevOps Server se l'URL non corrisponde a dev.azure.com/* o visualstudio.com/*. Per ulteriori dettagli, vedere Restringere l'uso agli URL in un elenco list consentito

Se si sta integrando un repository Git locale non accessibile da Internet, è necessario installare anche un proxy per le richieste di autenticazione Git all'interno della VPN aziendale. Per ulteriori dettagli, vedere Set su come configurare la connettività Git privata per le cartelle Git di Azure Databricks (Repos).

Per informazioni su come usare i token di accesso con il provider Git, vedere Configurare Git credentials & connettere un repository remoto ad Azure Databricks.

Risorse per l'integrazione Git

Usare la CLI 2.0 di Databricks per l'integrazione Git con Azure Databricks:

Leggere i seguenti documenti di riferimento:

Passaggi successivi