Condividi tramite


Set cartelle Git di Databricks (Repo)

Informazioni su come set le cartelle Git di Databricks (in precedenza Repos) per il controllo della versione. Dopo aver set le cartelle Git in Databricks, è possibile eseguire operazioni Git comuni, ad esempio clonare, estrarre, eseguire il commit, il push, il pull e la gestione dei rami dall'interfaccia utente di Databricks. È anche possibile visualizzare le diff per le modifiche durante lo sviluppo con notebook e file in Databricks.

Configurare le impostazioni utente

Le cartelle Git di Databricks usano un token di accesso personale (PAT) o una credenziale equivalente per eseguire l'autenticazione con il provider Git per eseguire operazioni quali clonazione, push, pull e così via. Per usare le cartelle Git, è prima necessario aggiungere il nome utente del provider Git PAT e Git a Databricks. Vedere Configurare Git credentials & connettere un repository remoto ad Azure Databricks.

È possibile clonare repository remoti pubblici senza Git credentials (un token di accesso personale e un nome utente). Per modificare un repository remoto pubblico o per clonare o modificare un repository remoto privato, è necessario disporre di un nome utente del provider Git e PAT con autorizzazioni di scrittura (o superiori) per il repository remoto.

Le cartelle Git sono abilitate per impostazione predefinita. Per altre informazioni sull'abilitazione o la disabilitazione del supporto delle cartelle Git, vedere Abilitare o disabilitare la funzionalità della cartella Git di Databricks.

Aggiungere o modificare Git credentials in Databricks

Importante

Le cartelle Git di Databricks supportano una sola credenziale Git per utente, per area di lavoro.

  1. Select la freccia giù accanto al nome dell'account in alto a destra della schermata e quindi selectImpostazioni.

  2. Select la scheda account collegati.

  3. Se stai aggiungendo credentials per la prima volta, segui le istruzioni sullo schermo.

    Se hai precedentemente immesso credentials, fai clic su Config>Edit e passa al passaggio successivo.

  4. Nell'elenco a discesa del provider Git, seleziona select come nome del provider.

  5. Immettere il nome utente o l’email Git.

  6. Nel campo Token aggiungere un token di accesso personale (PAT) o un altro credentials dal provider Git. Per informazioni dettagliate, vedere Configurare Git credentials & connettere un repository remoto ad Azure Databricks

    Importante

    Databricks consiglia di set una data di scadenza per tutti i token di accesso personali.

    Per Azure DevOps, se non si immette un token o una password dell'app, l'integrazione Git usa il token ID Microsoft Entra ID per impostazione predefinita. Se si immette un token di accesso personale di Azure DevOps, l'integrazione Git lo usa. Vedere Connettersi a un repository di Azure DevOps usando un token.

    Nota

    Dopo aver update la password di Azure, eseguire nuovamente l'autenticazione con Azure Databricks se è necessaria la nuova autenticazione per funzionare immediatamente. Se non si esegue di nuovo l'autenticazione, la connessione di Azure DevOps potrebbe non essere convalidata per un massimo di 24 ore.

    Se l'organizzazione ha abilitato l'accesso SAML SSO in GitHub, autorizzare il token di accesso personale per l'accesso SSO.

  7. Inserire il nome utente nel campo Nome utente del provider Git.

  8. Fare clic su Salva.

È anche possibile salvare un token Git PAT e un nome utente in Azure Databricks usando l'API Repository di Databricks.

Se non è possibile clonare il repository e si usa Azure DevOps con l'autenticazione di Microsoft Entra ID, vedere Problema con un criterio di accesso condizionale (CAP) per Microsoft Entra ID.

Connettività di rete tra le cartelle Git di Databricks e un provider Git

Le cartelle Git hanno bisogno della connettività di rete al provider Git. In genere, questo avviene tramite Internet e funziona in modo predefinito. Tuttavia, potrebbe essere necessario set restrizioni aggiuntive per il provider Git per controllare l'accesso. Ad esempio, si potrebbe avere un indirizzo IP consentito list sul posto oppure è possibile ospitare il proprio server Git locale usando servizi come GitHub Enterprise (GHE), Bitbucket Server (BBS) o Gitlab Self-managed. A seconda dell'hosting e della configurazione della rete, il server Git potrebbe non essere accessibile tramite Internet.

Nota

Funzionalità di sicurezza nelle cartelle Git

Le cartelle Git di Databricks hanno molte funzionalità di sicurezza. Le sezioni seguenti illustrano la configurazione e l'uso:

  • Uso di Git crittografati credentials
  • Elenco di elementi consentiti
  • Controllo di accesso ad aree di lavoro
  • Registrazione del controllo
  • Rilevamento dei segreti

Porta la tua chiave: Crittografa Git credentials

È possibile usare Azure Key Vault per crittografare un token di accesso personale (PAT) Git o altre credenziali Git. L'uso di una chiave da un servizio di crittografia viene definito chiave gestita dal cliente (CMK) o BYOK (Bring Your Own Key).

Per altre informazioni, vedere Crittografia con chiavi gestite dal cliente.

Limitare l'utilizzo agli URL in un elenco list consentito

Se si utilizza Microsoft Entra ID per autenticarsi con Azure DevOps, l'impostazione predefinita list consente di limitare gli URL Git a:

  • dev.azure.com
  • visualstudio.com

Per AAD con CNAMES o URL Git personalizzati, l'amministratore dell'area di lavoro può configurare un allow list personalizzato, come illustrato nei passaggi seguenti. Se usi un listdi autorizzazione personalizzato, l'amministratore dell'area di lavoro deve aggiungere questi URL se vuoi usarli: dev.azure.com e visualstudio.com.

Un amministratore dell'area di lavoro può limit da quali repository remoti gli utenti possono clonare e fare il commit e & eseguire il push. Ciò consente di evitare l'esfiltrazione del codice; Ad esempio, gli utenti non possono eseguire il push del codice in un repository arbitrario se sono state attivate le restrizioni di autorizzazione list. È anche possibile impedire agli utenti di usare codice senza licenza limitando l'operazione di clonazione a un list di repository consentiti.

Per set configurare un permesso list:

  1. Andare alla pagina Impostazioni.

  2. Cliccare sulla scheda Amministratore dell'area di lavoro (è aperta per impostazione predefinita).

  3. Nella sezione Development, scegliere un'opzione dall'URL Git per consentire l'autorizzazione list:

    • Disabilitato (nessuna restrizione): non sono previsti controlli rispetto alle autorizzazioni list.
    • Limitare la clonazione, eseguire il commit & push verso i repository Git consentiti: le operazioni di clonazione, commit e push sono consentite solo per gli URL dei repository consentiti nei list.
    • Limitare solo commit e push & ai repository Git consentiti: le operazioni di commit e push sono consentite solo per gli URL del repository nella allow list list. Le operazioni di clonazione e pull non sono limitate.

    Riquadro Sviluppo in Impostazioni di amministrazione, usato per set'accesso Git utente

  4. Fare clic sul pulsante Modifica accanto a URL Git allow : Empty (Modifica ) e immettere un delimitato da virgole di prefissi URL.

    pulsante Modifica consenti list nelle impostazioni di amministrazione sviluppo

  5. Fare clic su Salva.

Nota

  • Il list che salvi sovrascrive il set esistente di prefissi URL salvati.
  • Possono essere necessari fino a 15 minuti affinché le modifiche vengano applicate.

Consentire l'accesso a tutti i repository

Per disabilitare un permesso list esistente e consentire l'accesso a tutti i repository:

  1. Andare alla pagina Impostazioni.
  2. Cliccare sulla scheda Amministratore dell’area di lavoro.
  3. Nella sezione sviluppo , in URL Git consentire autorizzazione: Disabilita (nessuna restrizione).

Controllo di accesso per un repository nell'area di lavoro

Nota

Il controllo di accesso è disponibile solo nel piano Premium.

Set autorizzazioni su un repository per controllare l'accesso. Le autorizzazioni per un repository si applicano a tutto il contenuto del repository. È possibile assegnare cinque livelli di autorizzazione ai file: NESSUNA AUTORIZZAZIONE, CAN READ, CAN RUN, CAN EDIT, e CAN MANAGE.

Per altre informazioni sulle autorizzazioni per le cartelle Git, vedere ACL della cartella Git.

(Facoltativo) Set un proxy per i server Git aziendali

Se l'azienda usa un servizio Git aziendale locale, ad esempio GitHub Enterprise o Azure DevOps Server, è possibile usare il server proxy Git di Databricks per connettere le aree di lavoro di Databricks ai repository usati.

Registrazione del controllo

Quando la registrazione del controllo è abilitata, gli eventi di controllo vengono registrati quando si interagisce con una cartella Git. Ad esempio, un evento di controllo viene registrato quando si crea, update, o si elimina una cartella Git, quando si list tutte le cartelle Git associate a un'area di lavoro e quando si sync le modifiche tra la cartella Git e il repository Git remoto.

Rilevamento dei segreti

Le cartelle Git scansionano il codice per individuare gli ID chiave di accesso che iniziano con il prefisso AKIA e avvisano l'utente prima di eseguire il commit.

Usare un file config del repository

È possibile aggiungere le impostazioni per ogni notebook al repository in un file .databricks/commit_outputs creato manualmente.

Specificare il notebook che si vuole includere negli output usando criteri simili ai criteri gitignore.

Criteri per un file config del repository

Il file contiene criteri di percorso di file positivi e negativi. I criteri di percorso dei file includono l'estensione del file notebook, come .ipynb.

  • I criteri positivi consentono l'inclusione degli output per i notebook corrispondenti.
  • I criteri negativi disabilitano l'inclusione degli output per i notebook corrispondenti.

I criteri vengono valutati in ordine per tutti i notebook. I percorsi o i percorsi non validi che non risolvono ai notebook .ipynb vengono ignorati.

Per includere gli output da un percorso del notebookfolder/innerfolder/notebook.ipynb, usare i criteri seguenti:

**/*
folder/**
folder/innerfolder/note*

Per escludere gli output per un notebook, verificare che nessuno dei criteri positivi corrisponda o aggiunga un criterio negativo in un punto corretto del file di configurazione. I criteri negativi (escludi) iniziano con !:

!folder/innerfolder/*.ipynb
!folder/**/*.ipynb
!**/notebook.ipynb

Spostare la cartella Git nel cestino (eliminare)

Per eliminare una cartella Git dall'area di lavoro:

  1. Fare clic con il pulsante destro del mouse sulla cartella Git e quindi selectSposta nel cestino.

  2. Nella finestra di dialogo, digitare il nome della cartella Git da eliminare. Quindi, cliccare su Conferma e sposta nel cestino.

    Confermare la finestra di dialogo Sposta nel Cestino.

Passaggi successivi