Azure Databricks 개념

아티클
11/22/2024

이 문서에서는 Azure Databricks를 효과적으로 사용하기 위해 이해해야 하는 기본 개념 집합을 소개합니다.

계정 및 작업 영역

Azure Databricks에서 작업 영역은 팀이 Databricks 자산에 액세스할 수 있는 환경으로 작동하는 클라우드의 Azure Databricks 배포입니다. 조직에서는 여러 작업 영역을 선택하거나 하나만 선택할 수 있으며, 이는 해당 요구 사항에 따라 달라집니다.

Azure Databricks 계정은 여러 작업 영역을 포함할 수 있는 단일 엔터티를 나타냅니다. Unity 카탈로그에 사용하도록 설정된 계정은 계정의 모든 작업 영역 중앙에서 사용자 및 데이터에 대한 액세스를 관리하는 데 사용할 수 있습니다.

청구: Databricks 단위(DBU)

Azure Databricks는 VM 인스턴스 유형에 따라 시간당 처리 기능 단위인 DBU(Databricks 단위)를 기준으로 요금을 청구합니다.

Azure Databricks 가격 책정 페이지를 참조하세요.

인증 및 권한 부여

이 섹션에서는 Azure Databricks ID 및 Azure Databricks 자산에 대한 액세스를 관리할 때 알아야 할 개념을 설명합니다.

사용자

사용자는 시스템에 액세스할 수 있는 고유한 개인입니다. 사용자 ID는 이메일 주소로 표시됩니다. 사용자 관리를 참조하세요.

서비스 사용자

작업, 자동화된 도구 및 스크립트, 앱, CI/CD 플랫폼과 같은 시스템에서 사용하기 위한 서비스 ID입니다. 서비스 주체는 애플리케이션 ID로 표시됩니다. 서비스 주체 관리를 참조하세요.

그룹

ID 컬렉션입니다. 그룹은 ID 관리를 간소화하여 작업 영역, 데이터 및 기타 보안 개체에 대한 액세스를 더 쉽게 할당할 수 있도록 합니다. 모든 Databricks ID는 그룹의 멤버로 할당할 수 있습니다. 그룹 관리를 참조하세요.

ACL(액세스 제어 목록)

작업 영역, 클러스터, 작업, 테이블 또는 실험에 연결된 사용 권한 목록입니다. ACL은 개체에 대한 액세스 권한이 부여되는 사용자 또는 시스템 프로세스와 자산에 허용되는 작업을 지정합니다. 일반적인 ACL의 각 항목은 제목과 작업을 지정합니다. 액세스 제어 목록을 참조하세요.

PAT(개인용 액세스 토큰)

개인 액세스 토큰은 REST API 호출, 기술 파트너 연결 및 기타 도구를 인증하는 데 사용되는 문자열입니다. Azure Databricks 개인용 액세스 토큰 인증을 참조하세요.

Microsoft Entra ID 토큰을 사용하여 REST API에 인증할 수도 있습니다.

Azure Databricks 인터페이스

이 섹션에서는 Azure Databricks의 자산에 액세스하는 인터페이스에 대해 설명합니다.

UI

Azure Databricks UI는 작업 영역 폴더와 이에 포함된 개체, 데이터 개체 및 계산 리소스와 같은 기능과 상호 작용하기 위한 그래픽 인터페이스입니다.

REST API

Databricks REST API는 Azure Databricks 계정 및 작업 영역 개체에 대한 정보를 수정하거나 요청하기 위한 엔드포인트를 제공합니다. 계정 참조 및 작업 영역 참조를 참조하세요.

SQL REST API

SQL REST API를 사용하면 SQL 개체에 대한 태스크를 자동화할 수 있습니다. SQL API를 참조하세요.

CLI

Databricks CLI는 GitHub에서 호스트됩니다. CLI는 Databricks REST API 위에 빌드됩니다.

데이터 관리

이 섹션에서는 기계 학습 알고리즘에 피드하고 분석을 수행하는 데이터를 저장하는 논리 개체를 설명합니다. 또한 데이터 개체를 탐색하고 관리하기 위한 플랫폼 내 UI에 대해 설명합니다.

Unity 카탈로그

Unity 카탈로그는 Databricks 작업 영역에서 중앙 집중식 액세스 제어, 감사, 계보 및 데이터 검색 기능을 제공하는 Azure Databricks의 데이터 및 AI 자산에 대한 통합 거버넌스 솔루션입니다. Unity 카탈로그란?을 참조하세요.

DBFS 루트

Important

DBFS 루트 또는 DBFS 탑재를 사용한 데이터 저장 및 액세스는 사용되지 않는 패턴이며 Databricks에서 권장하지 않습니다. 대신 Databricks는 Unity 카탈로그를 사용하여 모든 데이터에 대한 액세스를 관리하는 것이 좋습니다. Unity 카탈로그란?을 참조하세요.

DBFS 루트는 기본적으로 모든 사용자가 사용할 수 있는 스토리지 위치입니다. DBFS란?을 참조하세요.

카탈로그 탐색기

카탈로그 탐색기를 사용하면 스키마(데이터베이스), 테이블, 모델, 볼륨(표 형식이 아닌 데이터), 함수 및 등록된 ML 모델을 비롯한 데이터 및 AI 자산을 탐색하고 관리할 수 있습니다. 이를 사용하여 데이터 개체 및 소유자를 찾고, 테이블 간의 데이터 관계를 이해하며, 사용 권한 및 공유를 관리할 수 있습니다. 카탈로그 탐색기란?을 참조하세요.

데이터베이스

쉽게 액세스, 관리 및 업데이트할 수 있도록 구성된 테이블 또는 보기 및 함수와 같은 데이터 개체의 컬렉션입니다. Azure Databricks의 스키마란?을 참조하세요.

테이블

구조화된 데이터의 프레젠테이션입니다. Apache Spark SQL과 Apache Spark API를 사용하여 테이블을 쿼리합니다. 테이블 및 뷰란?을 참조하세요.

델타 테이블

Azure Databricks에서 생성된 모든 테이블은 기본적으로 Delta 테이블입니다. Delta 테이블은 클라우드 개체 저장소를 통해 고성능 ACID 테이블 스토리지를 위한 프레임워크인 Delta Lake 오픈 소스 프로젝트를 기반으로 합니다. Delta 테이블은 데이터를 클라우드 개체 스토리지에 파일 디렉터리로 저장하고 테이블 메타데이터를 카탈로그 및 스키마 내의 메타스토어에 등록합니다.

Delta로 브랜딩된 기술에 대해 자세히 알아보세요.

메타 저장소

열 및 열 형식 정보, 데이터를 읽고 쓰는 데 필요한 직렬 변환기 및 역직렬 변환기, 데이터가 저장된 해당 파일을 포함하여 데이터 웨어하우스에 있는 다양한 테이블 및 파티션의 모든 구조 정보를 저장하는 구성 요소입니다. 메타스토어를 참조하세요.

모든 Azure Databricks 배포에는 테이블 메타데이터를 유지하기 위해 모든 클러스터에서 액세스할 수 있는 중앙 Hive 메타스토어가 있습니다. 기존 외부 Hive 메타스토어를 사용할 수도 있습니다.

계산 관리

이 섹션에서는 Azure Databricks에서 계산을 실행하기 위해 알아야 할 개념을 설명합니다.

클러스터

Notebook 및 작업을 실행하는 계산 리소스 및 구성 집합입니다. 클러스터에는 다목적 및 작업의 두 가지 유형이 있습니다. 컴퓨팅을 참조하세요.

다목적 클러스터는 UI, CLI 또는 REST API를 사용하여 만들 수 있습니다. 다목적 클러스터를 수동으로 종료하고 다시 시작할 수 있습니다. 여러 사용자가 클러스터를 공유하여 공동으로 대화형 분석을 수행할 수 있습니다.
Azure Databricks 작업 스케줄러는 새 작업 클러스터에서 작업을 실행할 때 작업 클러스터를 만들고, 작업이 완료되면 클러스터를 종료합니다. 작업 클러스터를 다시 시작할 수 없습니다.

풀

유휴 상태로, 클러스터 시작 및 자동 크기 조정 시간을 줄여 주는 즉시 사용 가능한 인스턴스 집합입니다. 풀에 연결된 경우 클러스터는 풀에서 해당 드라이버 및 작업자 노드를 할당합니다. 풀 구성 참조를 참조하세요.

풀에 클러스터의 요청을 수용할 수 있는 유휴 리소스가 충분하지 않으면 인스턴스 공급자로부터 새 인스턴스를 할당하여 풀이 확장됩니다. 연결된 클러스터가 종료되면 사용된 인스턴스가 풀로 반환되고 다른 클러스터에서 다시 사용할 수 있습니다.

Databricks 런타임

Azure Databricks에서 관리하는 클러스터에서 실행되는 핵심 구성 요소 집합입니다. 컴퓨팅을 참조하세요. Azure Databricks에는 다음과 같은 런타임이 있습니다.

Databricks Runtime에는 Apache Spark가 포함되어 있지만 빅 데이터 분석의 유용성, 성능 및 보안을 크게 향상시키는 많은 구성 요소 및 업데이트를 추가합니다.
Machine Learning용 Databricks Runtime은 Databricks Runtime을 기반으로 하며 Azure Databricks 작업 영역의 모든 기능과 통합된 미리 빌드된 기계 학습 인프라를 제공합니다. 또한 TensorFlow, Keras, PyTorch 및 XGBoost를 비롯한 여러 인기 있는 라이브러리가 포함되어 있습니다.

워크플로

워크플로 작업 영역 UI는 워크플로를 오케스트레이션하고 예약할 수 있는 도구인 작업 및 DLT 파이프라인 UI에 대한 항목을 제공합니다.

작업

Notebooks, 라이브러리 및 기타 태스크를 오케스트레이션하고 예약하기 위한 비대화형 메커니즘입니다. 워크플로 예약 및 오케스트레이션을 참조하세요.

Pipelines

Delta Live Tables 파이프라인은 안정적이고 유지 관리가 가능하며 테스트할 수 있는 데이터 처리 파이프라인을 위한 선언 프레임워크입니다. Delta Live Tables이란?.

작업

워크로드는 태스크 또는 태스크 그룹을 수행하는 데 필요한 처리 기능의 양입니다. Azure Databricks는 데이터 엔지니어링(작업) 및 데이터 분석(다목적)의 두 가지 유형의 워크로드를 식별합니다.

데이터 엔지니어링 (자동화된) 워크로드는 Azure Databricks 작업 스케줄러가 각 워크로드에 대해 만드는 작업 클러스터에서 실행됩니다.
데이터 분석 (대화형) 워크로드는 다목적 클러스터에서 실행됩니다. 대화형 워크로드는 일반적으로 Azure Databricks Notebook 내에서 명령을 실행합니다. 그러나 기존 다목적 클러스터에서 작업을 실행하면 대화형 워크로드로도 처리됩니다.

실행 컨텍스트

지원되는 각 프로그래밍 언어에 대한 REPL(read–eval–print loop) 환경의 상태입니다. 지원되는 언어는 Python, R, Scala, 및 SQL입니다.

데이터 엔지니어링

데이터 엔지니어링 도구는 데이터 과학자, 데이터 엔지니어, 데이터 분석가 및 기계 학습 엔지니어 간의 협업을 지원합니다.

작업 영역

작업 영역은 모든 Azure Databricks 자산에 액세스하는 환경입니다. 작업 영역은 개체(Notebook, 라이브러리, 대시보드 및 실험)를 폴더로 구성하고 데이터 개체 및 계산 리소스에 대한 액세스를 제공합니다.

Notebook

실행 가능한 명령, 시각화 및 설명 텍스트를 포함할 수 있는 데이터 과학 및 기계 학습 워크플로를 만들기 위한 웹 기반 인터페이스입니다. Databricks Notebooks 소개를 참조하세요.

라이브러리

클러스터에서 실행 중인 Notebook 또는 작업에 사용할 수 있는 코드 패키지입니다. Databricks Runtime은 많은 라이브러리를 포함하며 사용자가 직접 업로드할 수도 있습니다. 라이브러리를 참조하세요.

Git 폴더(이전의 리포지토리)

콘텐츠를 원격 Git 리포지토리에 동기화하여 버전이 공동으로 지정된 폴더입니다. Databricks Git 폴더는 Git과 통합하여 프로젝트의 원본 및 버전 제어를 제공합니다.

AI 및 기계 학습

Databricks는 AI 및 기계 학습 애플리케이션을 개발하고 배포하기 위한 관리되는 서비스와 통합 엔드투엔드 환경을 제공합니다.

Mosaic AI

생성형 AI에서 Databricks의 가장 큰 혁신을 담당하는 연구원 및 엔지니어 팀인 Databricks Mosaic AI Research의 제품 및 서비스에 대한 브랜드 이름입니다. Mosaic AI 제품에는 Databricks의 ML 및 AI 기능이 포함됩니다. Mosaic 연구를 참조하세요.

기계 학습 런타임

ML 및 AI 모델 개발을 지원하기 위해 Databricks는 Machine Learning용 Databricks Runtime을 제공하며, 이는 가장 일반적인 ML 및 DL 라이브러리를 포함하여 미리 빌드된 기계 학습 및 딥 러닝 인프라를 사용하여 컴퓨팅 생성을 자동화합니다. 또한 드라이버 및 지원 라이브러리를 포함하여 미리 구성된 기본 제공 GPU 지원도 있습니다. Databricks Runtime 릴리스 정보 버전 및 호환성에서 최신 런타임 릴리스에 대한 정보를 살펴봅니다.

실험

MLflow 컬렉션은 기계 학습 모델을 학습하기 위해 실행됩니다. MLflow 실험을 사용하여 학습 실행 구성을 참조하세요.

기능

기능은 ML 모델의 중요한 구성 요소입니다. 기능 저장소를 사용하면 조직 전체에서 기능 공유 및 검색을 수행할 수 있고 모델 학습과 유추에 동일한 기능 계산 코드가 사용됩니다. 기능 엔지니어링 및 서빙을 참조하세요.

GenAI 모델

Databricks는 다음을 포함하여 생성형 AI 모델의 탐색, 개발 및 배포를 지원합니다.

AI 플레이그라운드는 LLM을 테스트, 프롬프트 및 비교할 수 있는 작업 영역에서 채팅과 유사한 환경입니다. AI 플레이그라운드를 사용하여 LLM과 채팅 및 GenAI 앱 프로토타이핑을 참조하세요.
쿼리할 수 있는 미리 구성된 기본 제공 모델 세트입니다.
- 토큰당 종량제 파운데이션 모델 API를 참조하세요.
- 한 번의 클릭으로 제공할 수 있는 파운데이션 모델은 [권장] Unity 카탈로그에서 파운데이션 모델 배포를 참조하세요.
제3자 호스팅 LLM(외부 모델이라고도 함). 이러한 모델은 있는 그대로 사용됩니다.
파운데이션 모델을 사용자 지정하여 특정 애플리케이션에 대한 성능을 최적화하는 기능(미세 조정이라고도 함). 파운데이션 모델 미세 조정을 참조 하세요.

모델 레지스트리

Databricks는 Unity 카탈로그에서 호스팅 버전의 MLflow 모델 레지스트리를 제공합니다. Unity 카탈로그에 등록된 모델은 중앙 집중식 액세스 제어, 계보, 작업 영역 간 검색 및 액세스를 상속합니다. Unity 카탈로그에서 모델 수명 주기 관리를 참조하세요.

모델 지원

Mosaic AI 모델 서비스는 AI 모델을 배포, 관리 및 쿼리하는 통합 인터페이스를 제공합니다. 서비스하는 각 모델은 웹 또는 클라이언트 애플리케이션에 통합할 수 있는 REST API로 사용할 수 있습니다. Mosaic AI 모델 서빙을 사용하면 Databricks 외부에서 호스트되는 고유한 모델, 파운데이션 모델 또는 제3자 모델을 배포할 수 있습니다. Azure Databricks로 제공하는 모델을 참조하세요.

데이터 웨어하우징

데이터 웨어하우징은 비즈니스 인사이트 및 보고를 위해 신속하게 액세스할 수 있도록 여러 원본에서 데이터를 수집하고 저장하는 것을 의미합니다. Databricks SQL은 기존 데이터 레이크에 데이터 웨어하우징 기능 및 성능을 제공하는 서비스 컬렉션입니다. Azure Databricks의 데이터 웨어하우징이란?을 참조하세요.

쿼리

쿼리는 데이터와 상호 작용할 수 있는 유효한 SQL 문입니다. 플랫폼 내 SQL 편집기를 사용하여 쿼리를 작성하거나 SQL 커넥터, 드라이버 또는 API를 사용하여 연결할 수 있습니다. 쿼리를 사용하는 방법을 알아보려면 저장된 쿼리 액세스 및 관리를 참조하세요.

SQL 웨어하우스

SQL 쿼리를 실행하는 계산 리소스입니다. 클래식, 프로, 서버리스의 세 가지 SQL 웨어하우스 형식이 있습니다. Azure Databricks는 사용 가능한 경우 서버리스 SQL 웨어하우스를 사용하는 것이 좋습니다. 각 웨어하우스 유형에 대해 사용 가능한 기능을 비교하려면 SQL 웨어하우스 유형을 참조하세요.

쿼리 기록

실행된 쿼리 및 해당 성능 특성의 목록입니다. 쿼리 기록을 사용하면 쿼리 성능을 모니터링하여 병목 상태를 식별하고 쿼리 런타임을 최적화할 수 있습니다. 쿼리 기록 보기를 참조하세요.

시각화

쿼리 실행 결과에 대한 그래픽 프레젠테이션입니다. Databricks Notebook에서 시각적 개체를 참조하세요.

대시보드

데이터 시각화 및 해설의 프레젠테이션입니다. 대시보드를 사용하여 Azure Databricks 계정의 모든 사용자에게 보고서를 자동으로 보낼 수 있습니다. Databricks Assistant를 사용하여 자연 언어 프롬프트를 기반으로 시각화를 빌드할 수 있습니다. 대시보드를 참조하세요. Notebook에서 대시보드를 만들 수도 있습니다. Notebooks의 대시보드를 참조하세요.

레거시 대시보드는 레거시 대시보드를 참조하세요.