Set cartelle Git di Databricks (Repo)
Informazioni su come set le cartelle Git di Databricks (in precedenza Repos) per il controllo della versione. Dopo aver set le cartelle Git in Databricks, è possibile eseguire operazioni Git comuni, ad esempio clonare, estrarre, eseguire il commit, il push, il pull e la gestione dei rami dall'interfaccia utente di Databricks. È anche possibile visualizzare le diff per le modifiche durante lo sviluppo con notebook e file in Databricks.
Configurare le impostazioni utente
Le cartelle Git di Databricks usano un token di accesso personale (PAT) o una credenziale equivalente per eseguire l'autenticazione con il provider Git per eseguire operazioni quali clonazione, push, pull e così via. Per usare le cartelle Git, è prima necessario aggiungere il nome utente del provider Git PAT e Git a Databricks. Vedere Configurare Git credentials & connettere un repository remoto ad Azure Databricks.
È possibile clonare repository remoti pubblici senza Git credentials (un token di accesso personale e un nome utente). Per modificare un repository remoto pubblico o per clonare o modificare un repository remoto privato, è necessario disporre di un nome utente del provider Git e PAT con autorizzazioni di scrittura (o superiori) per il repository remoto.
Le cartelle Git sono abilitate per impostazione predefinita. Per altre informazioni sull'abilitazione o la disabilitazione del supporto delle cartelle Git, vedere Abilitare o disabilitare la funzionalità della cartella Git di Databricks.
Aggiungere o modificare Git credentials in Databricks
Importante
Le cartelle Git di Databricks supportano una sola credenziale Git per utente, per area di lavoro.
Select la freccia giù accanto al nome dell'account in alto a destra della schermata e quindi selectImpostazioni.
Select la scheda account collegati.
Se stai aggiungendo credentials per la prima volta, segui le istruzioni sullo schermo.
Se hai precedentemente immesso credentials, fai clic su Config>Edit e passa al passaggio successivo.
Nell'elenco a discesa del provider Git, seleziona select come nome del provider.
Immettere il nome utente o l’email Git.
Nel campo Token aggiungere un token di accesso personale (PAT) o un altro credentials dal provider Git. Per informazioni dettagliate, vedere Configurare Git credentials & connettere un repository remoto ad Azure Databricks
Importante
Databricks consiglia di set una data di scadenza per tutti i token di accesso personali.
Per Azure DevOps, se non si immette un token o una password dell'app, l'integrazione Git usa il token ID Microsoft Entra ID per impostazione predefinita. Se si immette un token di accesso personale di Azure DevOps, l'integrazione Git lo usa. Vedere Connettersi a un repository di Azure DevOps usando un token.
Nota
Dopo aver update la password di Azure, eseguire nuovamente l'autenticazione con Azure Databricks se è necessaria la nuova autenticazione per funzionare immediatamente. Se non si esegue di nuovo l'autenticazione, la connessione di Azure DevOps potrebbe non essere convalidata per un massimo di 24 ore.
Se l'organizzazione ha abilitato l'accesso SAML SSO in GitHub, autorizzare il token di accesso personale per l'accesso SSO.
Inserire il nome utente nel campo Nome utente del provider Git.
Fare clic su Salva.
È anche possibile salvare un token Git PAT e un nome utente in Azure Databricks usando l'API Repository di Databricks.
Se non è possibile clonare il repository e si usa Azure DevOps con l'autenticazione di Microsoft Entra ID, vedere Problema con un criterio di accesso condizionale (CAP) per Microsoft Entra ID.
Connettività di rete tra le cartelle Git di Databricks e un provider Git
Le cartelle Git hanno bisogno della connettività di rete al provider Git. In genere, questo avviene tramite Internet e funziona in modo predefinito. Tuttavia, potrebbe essere necessario set restrizioni aggiuntive per il provider Git per controllare l'accesso. Ad esempio, si potrebbe avere un indirizzo IP consentito list sul posto oppure è possibile ospitare il proprio server Git locale usando servizi come GitHub Enterprise (GHE), Bitbucket Server (BBS) o Gitlab Self-managed. A seconda dell'hosting e della configurazione della rete, il server Git potrebbe non essere accessibile tramite Internet.
Nota
- Se il server Git è accessibile da Internet ma include un elenco IP consentiti, come gli elenchi di indirizzi consentiti di GitHub, è necessario aggiungere indirizzi IP NAT del piano di controllo di Azure Databricks all'elenco indirizzi IP consentiti del server Git. Vedere regioni di Azure Databricks per un elenco list di indirizzi IP NAT del piano di controllo per area. Usare l'indirizzo IP per l'area in cui si trova l’area di lavoro di Databricks.
- Se si ospita privatamente un server Git, leggere Set connettività Git privata per le cartelle Git di Azure Databricks (Repos) o contattare il team dell'account Azure Databricks per istruzioni per l'onboarding e l'accesso.
Funzionalità di sicurezza nelle cartelle Git
Le cartelle Git di Databricks hanno molte funzionalità di sicurezza. Le sezioni seguenti illustrano la configurazione e l'uso:
- Uso di Git crittografati credentials
- Elenco di elementi consentiti
- Controllo di accesso ad aree di lavoro
- Registrazione del controllo
- Rilevamento dei segreti
Porta la tua chiave: Crittografa Git credentials
È possibile usare Azure Key Vault per crittografare un token di accesso personale (PAT) Git o altre credenziali Git. L'uso di una chiave da un servizio di crittografia viene definito chiave gestita dal cliente (CMK) o BYOK (Bring Your Own Key).
Per altre informazioni, vedere Crittografia con chiavi gestite dal cliente.
Limitare l'utilizzo agli URL in un elenco list consentito
Se si utilizza Microsoft Entra ID per autenticarsi con Azure DevOps, l'impostazione predefinita list consente di limitare gli URL Git a:
- dev.azure.com
- visualstudio.com
Per AAD con CNAMES o URL Git personalizzati, l'amministratore dell'area di lavoro può configurare un allow list personalizzato, come illustrato nei passaggi seguenti. Se usi un listdi autorizzazione personalizzato, l'amministratore dell'area di lavoro deve aggiungere questi URL se vuoi usarli: dev.azure.com
e visualstudio.com
.
Un amministratore dell'area di lavoro può limit da quali repository remoti gli utenti possono clonare e fare il commit e & eseguire il push. Ciò consente di evitare l'esfiltrazione del codice; Ad esempio, gli utenti non possono eseguire il push del codice in un repository arbitrario se sono state attivate le restrizioni di autorizzazione list. È anche possibile impedire agli utenti di usare codice senza licenza limitando l'operazione di clonazione a un list di repository consentiti.
Per set configurare un permesso list:
Andare alla pagina Impostazioni.
Cliccare sulla scheda Amministratore dell'area di lavoro (è aperta per impostazione predefinita).
Nella sezione Development, scegliere un'opzione dall'URL Git per consentire l'autorizzazione list:
- Disabilitato (nessuna restrizione): non sono previsti controlli rispetto alle autorizzazioni list.
- Limitare la clonazione, eseguire il commit & push verso i repository Git consentiti: le operazioni di clonazione, commit e push sono consentite solo per gli URL dei repository consentiti nei list.
- Limitare solo commit e push & ai repository Git consentiti: le operazioni di commit e push sono consentite solo per gli URL del repository nella allow list list. Le operazioni di clonazione e pull non sono limitate.
Fare clic sul pulsante Modifica
accanto a URL Git allow (Modifica: Empty ) e immettere un delimitato da virgole di prefissi URL. Fare clic su Salva.
Nota
- Il list che salvi sovrascrive il set esistente di prefissi URL salvati.
- Possono essere necessari fino a 15 minuti affinché le modifiche vengano applicate.
Consentire l'accesso a tutti i repository
Per disabilitare un permesso list esistente e consentire l'accesso a tutti i repository:
- Andare alla pagina Impostazioni.
- Cliccare sulla scheda Amministratore dell’area di lavoro.
- Nella sezione sviluppo
, in URL Git consentire :autorizzazione Disabilita (nessuna restrizione) .
Controllo di accesso per un repository nell'area di lavoro
Nota
Il controllo di accesso è disponibile solo nel piano Premium.
Set autorizzazioni su un repository per controllare l'accesso. Le autorizzazioni per un repository si applicano a tutto il contenuto del repository. È possibile assegnare cinque livelli di autorizzazione ai file: NESSUNA AUTORIZZAZIONE, CAN READ, CAN RUN, CAN EDIT, e CAN MANAGE.
Per altre informazioni sulle autorizzazioni per le cartelle Git, vedere ACL della cartella Git.
(Facoltativo) Set un proxy per i server Git aziendali
Se l'azienda usa un servizio Git aziendale locale, ad esempio GitHub Enterprise o Azure DevOps Server, è possibile usare il server proxy Git di Databricks per connettere le aree di lavoro di Databricks ai repository usati.
Registrazione del controllo
Quando la registrazione del controllo è abilitata, gli eventi di controllo vengono registrati quando si interagisce con una cartella Git. Ad esempio, un evento di controllo viene registrato quando si crea, update, o si elimina una cartella Git, quando si list tutte le cartelle Git associate a un'area di lavoro e quando si sync le modifiche tra la cartella Git e il repository Git remoto.
Rilevamento dei segreti
Le cartelle Git scansionano il codice per individuare gli ID chiave di accesso che iniziano con il prefisso AKIA
e avvisano l'utente prima di eseguire il commit.
Usare un file config del repository
È possibile aggiungere le impostazioni per ogni notebook al repository in un file .databricks/commit_outputs
creato manualmente.
Specificare il notebook che si vuole includere negli output usando criteri simili ai criteri gitignore.
Criteri per un file config del repository
Il file contiene criteri di percorso di file positivi e negativi. I criteri di percorso dei file includono l'estensione del file notebook, come .ipynb
.
- I criteri positivi consentono l'inclusione degli output per i notebook corrispondenti.
- I criteri negativi disabilitano l'inclusione degli output per i notebook corrispondenti.
I criteri vengono valutati in ordine per tutti i notebook. I percorsi o i percorsi non validi che non risolvono ai notebook .ipynb
vengono ignorati.
Per includere gli output da un percorso del notebookfolder/innerfolder/notebook.ipynb
, usare i criteri seguenti:
**/*
folder/**
folder/innerfolder/note*
Per escludere gli output per un notebook, verificare che nessuno dei criteri positivi corrisponda o aggiunga un criterio negativo in un punto corretto del file di configurazione. I criteri negativi (escludi) iniziano con !
:
!folder/innerfolder/*.ipynb
!folder/**/*.ipynb
!**/notebook.ipynb
Spostare la cartella Git nel cestino (eliminare)
Per eliminare una cartella Git dall'area di lavoro:
Fare clic con il pulsante destro del mouse sulla cartella Git e quindi selectSposta nel cestino.
Nella finestra di dialogo, digitare il nome della cartella Git da eliminare. Quindi, cliccare su Conferma e sposta nel cestino.
Passaggi successivi
- Eseguire operazioni Git nelle cartelle Git di Databricks (Repository)
- Che cosa sono i file dell'area di lavoro?
- Tecniche CI/CD con Git e le cartelle Git di Databricks (Repository)
- Set Configurare la connettività Git privata per le cartelle Git di Azure Databricks (Repos)
- Eseguire un primo processo dbt con le cartelle Git