Set Databricks Git 폴더(저장소)
버전 제어를 위해 Databricks Git 폴더(이전의 Repos)를 set 방법을 알아봅니다. Databricks에 있는 Git 폴더를 set 설정하면, Databricks UI에서 복제, 체크아웃, 커밋, 푸시, 풀 및 브랜치 관리와 같은 일반적인 Git 작업을 수행할 수 있습니다. Databricks에서 Notebook 및 파일을 사용하여 개발할 때 변경 내용에 대한 차이도 볼 수 있습니다.
사용자 설정 구성
Databricks Git 폴더는 PAT(개인용 액세스 토큰) 또는 동등한 자격 증명을 사용하여 Git 공급자에 인증하여 복제, 푸시, 풀 등의 작업을 수행합니다. Git 폴더를 사용하려면 먼저 Git PAT 및 Git 공급자 사용자 이름을 Databricks에 추가해야 합니다. 참조하세요 Git 구성 credentials & 원격 리포지토리를 Azure Databricks연결하기.
Git credentials 없이 공용 원격 리포지토리를 복제할 수 있습니다(개인 액세스 토큰 및 사용자 이름). 퍼블릭 원격 리포지토리를 수정하거나 프라이빗 원격 리포지토리를 복제 또는 수정하려면 원격 리포지토리에 대한 쓰기 이상 권한이 있는 Git 공급자 사용자 이름 및 PAT을 보유해야 합니다.
Git 폴더는 기본값으로 사용됩니다. Git 폴더 지원을 사용하거나 사용 중지하는 방법은 Databricks Git 폴더 기능 사용 또는 사용 중지를 참조하세요.
Databricks에서 Git credentials 추가 또는 편집
Important
Databricks Git 폴더는 작업 영역당 1명의 사용자에 대해 하나의 Git 자격 증명만 지원합니다.
Select 화면 오른쪽 위에 있는 계정 이름 옆에 있는 아래쪽 화살표를 클릭한 다음, select설정.
Select 연결된 계정 탭.
처음으로 credentials 추가하는 경우 화면의 지침을 따릅니다.
이전에 credentials입력한 경우 구성> 편집을 클릭하고 다음 단계로 이동합니다.
Git 공급자 드롭다운에서 select 공급자 이름.
Git 사용자 이름 또는 이메일을 입력합니다.
토큰 필드에 Git 공급자로부터 받은 개인용 액세스 토큰(PAT) 또는 기타 credentials를 추가합니다. 자세한 내용은 Git 구성 원격 리포지토리를 Azure Databricks 연결하기 credentials & 참조하세요.
Important
Databricks는 모든 개인 액세스 토큰에 대한 만료 날짜를 set 것이 좋습니다.
Azure DevOps의 경우 토큰 또는 앱 비밀번호를 입력하지 않으면 Git 통합은 기본값으로 Microsoft Entra ID 토큰을 사용합니다. Azure DevOps 개인용 액세스 토큰을 입력하면 Git 통합에서 대신 이를 사용합니다. 토큰을 사용하여 Azure DevOps 리포지토리에 연결을 참조하세요.
참고 항목
Azure 암호를 update 새 인증이 즉시 작동해야 하는 경우 Azure Databricks로 다시 인증합니다. 다시 인증하지 않으면 최대 24시간 동안 Azure DevOps 연결의 유효성이 검사되지 않을 수 있습니다.
조직에서 GitHub SAML SSO를 사용하는 경우 SSO에 대한 개인용 액세스 토큰에 권한을 부여합니다.
Git 공급자 사용자 이름 필드에 사용자 이름을 입력합니다.
저장을 클릭합니다.
Databricks Repos API를 사용하여 Azure Databricks에 Git PAT 토큰 및 사용자 이름을 저장할 수도 있습니다.
리포지토리를 복제할 수 없고 Microsoft Entra ID 인증으로 Azure DevOps를 사용하는 경우 Microsoft Entra ID에 대한 CAP(조건부 액세스 정책) 관련 문제를 참조하세요.
Databricks Git 폴더와 Git 공급자 간의 네트워크 연결
Git 폴더가 작동하려면 Git 공급자에 대한 네트워크 연결이 필요합니다. 일반적으로 이는 인터넷을 통해 작동하며 기본적으로 작동합니다. 그러나 액세스를 제어하기 위해 Git 공급자에 대한 추가 제한을 set 수 있습니다. 예를 들어 IP 허용 목록 list을 이미 설정해 두었거나, GitHub Enterprise(GHE), Bitbucket Server(BBS) 또는 Gitlab 자체 관리와 같은 서비스를 사용하여 자체 온-프레미스 Git 서버를 호스팅할 수 있습니다. 네트워크 호스팅 및 구성에 따라 인터넷을 통해 Git 서버에 액세스할 수 없을 수 있습니다.
참고 항목
- 인터넷을 통해 Git 서버에 액세스할 수 있지만 IP 허용 목록이 있는 경우(예: GitHub 허용 목록) Azure Databricks 컨트롤 플레인 NAT IP를 Git 서버의 IP 허용 목록에 추가해야 합니다. Azure Databricks 지역 에 대한 지역별 컨트롤 플레인 NAT IP 주소 list를 참조하세요. Azure Databricks 작업 영역이 속한 지역에 이 IP를 사용합니다.
- Git 서버를 비공개로 호스팅하는 경우, Azure Databricks Git 폴더(Repos)에 대한 비공개 Git 연결에 대해 섹션 Set 또는를 참조하거나, 액세스를 위한 온보딩 지침을 받으려면 Azure Databricks 계정 팀에 문의하세요.
Git 폴더의 보안 기능
Databricks Git 폴더에는 많은 보안 기능이 있습니다. 다음 섹션에서는 설정 및 사용 방법을 안내합니다.
- 암호화된 Git credentials 사용
- 허용 목록
- 작업 영역 액세스 제어
- 감사 로깅
- 비밀 검색
사용자 고유의 키 가져오기: Git credentials 암호화
Azure Key Vault를 사용하여 Git PAT(개인용 액세스 토큰) 또는 기타 Git 자격 증명을 암호화할 수 있습니다. 암호화 서비스의 키를 사용하는 것을 CMK(고객 관리형 키) 또는 BYOK(Bring Your Own Key)라고 합니다.
자세한 내용은 암호화를 위한 고객 관리형 키를 참조하세요.
허용 목록의 URL로 사용을 제한 list
Azure DevOps 인증에 Microsoft Entra ID를 사용하는 경우 기본 허용 list Git URL을 다음으로 제한합니다.
- dev.azure.com
- visualstudio.com
사용자 지정 CNAMES 또는 Git URL 별칭이 있는 AAD의 경우, 작업 공간 관리자가 다음 단계에 설명된 대로 사용자 지정 허용 목록 list를 구성할 수 있습니다. "사용자 지정 허용 list를 사용하는 경우, 해당 URL(dev.azure.com
및 visualstudio.com
)과 작업하려면 작업 공간 관리자가 이러한 URL을 추가해야 합니다."
작업 영역 관리자는 사용자가 limit 복제할 수 있고 & 커밋 및 푸시할 수 있는 원격 리포지토리를 설정할 수 있습니다. 이렇게 하면 코드 반출을 방지할 수 있습니다. 예를 들어 허용 list 제한을 설정한 경우 사용자는 임의 리포지토리에 코드를 푸시할 수 없습니다. 사용자가 허가되지 않은 코드를 사용하지 못하도록, 복제 작업을 허용된 리포지토리 list으로 제한할 수 있습니다.
set을(를) list으로 허용하려면:
설정 페이지로 이동합니다.
작업 영역 관리자 탭을 클릭합니다(기본값으로 열려 있음).
개발 섹션에서 옵션을 선택하여 Git URL 허용 list 권한을 설정합니다.
- 사용 안 함(제한 없음): 허용 list대한 검사는 없습니다.
- 복제 제한 허용되는 Git 리포지토리에 & 푸시 커밋: 복제, 커밋 및 푸시 작업은 허용 list리포지토리 URL에 대해서만 허용됩니다.
- 허용되는 Git 리포지토리로만 커밋 & 푸시 제한: 커밋 및 푸시 작업은 허용 list리포지토리 URL에 대해서만 허용됩니다. 복제 및 끌어오기 작업은 제한되지 않습니다.
관리 설정의 개발 창은 사용자 Git 액세스 위해 사용됨
Git URL 허용 list옆에 있는 편집 단추를 클릭하고 URL 접두사 list 쉼표로 구분된 list 입력합니다.
저장을 클릭합니다.
참고 항목
- 저장한 list가 기존에 저장된 URL 접두사인 set을 덮어씁니다.
- 변경 사항이 적용되는 데 최대 15분이 걸릴 수 있습니다.
모든 리포지토리에 대한 액세스 허용
기존 허용 list 사용하지 않도록 설정하고 모든 리포지토리에 대한 액세스를 허용하려면 다음을 수행합니다.
- 설정 페이지로 이동합니다.
- 작업 영역 관리자 탭을 클릭합니다.
- 개발 섹션의 Git URL에서 list 권한허용: select사용 안 함(제한 없음).
작업 영역의 리포지토리에 대한 액세스 제어
참고 항목
액세스 제어는 프리미엄 플랜에서만 사용할 수 있습니다.
리포지토리의 액세스를 제어하기 위한 Set 권한. 리포지토리에 대한 권한은 해당 리포지토리의 모든 콘텐츠에 적용됩니다. 권한 없음, 읽기 가능, 실행 가능, 편집 가능, 관리 가능과 같은 다섯 가지 권한 수준을 리포지터리에 할당할 수 있습니다.
Git 폴더 권한에 대한 자세한 내용은 Git 폴더 ACL을 참조하세요.
(선택 사항) 엔터프라이즈 Git 서버에 대한 프록시 설정하기 (Set)
회사에서 GitHub Enterprise 또는 Azure DevOps Server와 같은 온-프레미스 엔터프라이즈 Git 서비스를 사용하는 경우 Databricks Git 서버 프록시를 사용하여 Databricks 작업 영역을 지원되는 리포지토리에 연결할 수 있습니다.
감사 로깅
감사 로깅이 사용되면 Databricks 리포지토리와 상호 작용할 때 감사 이벤트가 기록됩니다. 예를 들어, Git 폴더를 만들 때, update, 또는 삭제할 때, 작업 영역과 연관된 모든 Git 폴더를 list 할 때, 그리고 Git 폴더와 원격 Git 리포지토리 간의 변경 사항을 sync 할 때 감사 이벤트가 기록됩니다.
비밀 검색
Git 폴더는 AKIA
접두사로 시작하는 액세스 키 ID에 대한 코드를 스캔하고 커밋하기 전에 사용자에게 경고합니다.
리포지토리 구성 파일 사용
수동으로 만든 .databricks/commit_outputs
파일의 리포지토리에 각 Notebook에 대한 설정을 추가할 수 있습니다.
gitignore 패턴과 유사한 패턴을 사용하여 출력을 포함하려는 Notebook을 지정합니다.
리포지토리 구성 파일의 패턴
파일에는 긍정 및 부정 파일 경로 패턴이 포함되어 있습니다. 파일 경로 패턴에는 Notebook 파일 확장자(예: .ipynb
)가 포함됩니다.
- 긍정 패턴을 사용하면 일치하는 Notebook의 출력을 포함할 수 있습니다.
- 부정 패턴은 일치하는 Notebook의 출력을 포함하지 않습니다.
패턴은 모든 Notebook에 대해 순서대로 평가됩니다.
.ipynb
Notebook으로 확인되지 않는 경로 또는 유효하지 않은 경로는 무시됩니다.
folder/innerfolder/notebook.ipynb
다음 패턴을 사용합니다.
**/*
folder/**
folder/innerfolder/note*
Notebook의 출력을 제외하려면 긍정 패턴 일치 항목이 없는지 확인하거나 구성 파일의 올바른 위치에 음수 패턴을 추가합니다. 부정(제외) 패턴은 !
로 시작합니다.
!folder/innerfolder/*.ipynb
!folder/**/*.ipynb
!**/notebook.ipynb
Git 폴더를 휴지통으로 이동(삭제)
작업 영역에서 Git 폴더를 삭제하려면 다음을 수행합니다.
Git 폴더를 마우스 오른쪽 단추로 클릭한 다음 휴지통으로 이동 select.
대화 상자에서 삭제할 Git 폴더의 이름을 입력합니다. 그런 다음, 확인 및 휴지통으로 이동을 클릭합니다.