Databricks에서의 AI 및 기계 학습

아티클
11/15/2024

이 문서에서는 Mosaic AI(이전 Databricks Machine Learning)가 AI 및 ML 시스템을 빌드하는 데 도움이 되는 도구를 설명합니다. 이 다이어그램은 Databricks 플랫폼의 다양한 제품이 AI 및 ML 시스템을 빌드하고 배포하는 종단 간 워크플로를 구현하는 데 어떻게 도움이 되는지 보여줍니다.

기계 학습 다이어그램: Databricks의 모델 개발 및 배포

Databricks의 생성 AI

Mosaic AI는 데이터 수집 및 준비에서 모델 개발 및 LLMOps, 서비스 및 모니터링에 이르기까지 AI 수명 주기를 통합합니다. 다음 기능은 생성 AI 애플리케이션의 개발을 용이하게 하기 위해 특별히 최적화되어 있습니다.

데이터, 기능, 모델 및 함수에 대한 거버넌스, 검색, 버전 관리 및 액세스 제어를 위한 Unity 카탈로그입니다.
모델 개발 추적을 위한 MLflow 입니다.
LLM을 배포하는 데 사용되는 Mosaic AI 모델 서비스. 생성 AI 모델에 액세스하기 위해 특별히 엔드포인트를 제공하는 모델을 구성할 수 있습니다.
- 파운데이션 모델 API를 사용하는 최신 오픈 LLM.
- Databricks 외부에서 호스트되는 타사 모델입니다. Mosaic AI 모델 서비스에서 외부 모델을 참조하세요.
Mosaic AI Vector Search는 포함 벡터를 저장하고 기술 자료 자동으로 동기화하도록 구성할 수 있는 쿼리 가능한 벡터 데이터베이스를 제공합니다.
유추 테이블이 있는 자동 페이로드 로깅을 사용하여 데이터 모니터링 및 추적 모델 예측 품질 및 드리프트에 대한 Lakehouse 모니터링.
Databricks 작업 영역에서 생성 AI 모델을 테스트하기 위한 AI 플레이그라운드입니다. 시스템 프롬프트 및 유추 매개 변수와 같은 설정을 프롬프트, 비교 및 조정할 수 있습니다.
특정 애플리케이션에 대한 성능을 최적화하기 위해 사용자 고유의 데이터를 사용하여 기초 모델을 사용자 지정하기 위한 기초 모델 미세 조정(현재 Mosaic AI 모델 학습의 일부).
RAG(검색 증강 세대) 애플리케이션과 같은 프로덕션 품질 에이전트를 빌드하고 배포하기 위한 Mosaic AI 에이전트 프레임워크입니다.
RAG 애플리케이션 및 체인을 비롯한 생성 AI 애플리케이션의 품질, 비용 및 대기 시간을 평가하기 위한 Mosaic AI 에이전트 평가입니다.

생성 AI란?

생성형 AI는 컴퓨터가 모델을 사용하여 이미지, 텍스트, 코드 및 합성 데이터와 같은 콘텐츠를 만드는 기능에 초점을 맞춘 인공 지능의 한 유형입니다.

생성형 AI 애플리케이션은 LLM(대규모 언어 모델) 및 파운데이션 모델과 같은 생성 AI 모델을 기반으로 합니다.

LLM은 언어 처리 작업에 탁월한 성능을 발휘하기 위해 대규모 데이터 세트를 사용하고 학습하는 딥 러닝 모델입니다. 학습 데이터를 기반으로 자연어를 모방하는 새로운 텍스트 조합을 만듭니다.
생성 AI 모델 또는 기본 모델은 보다 구체적인 언어 이해 및 생성 작업을 위해 미세 조정되도록 미리 학습된 대규모 ML 모델 입니다. 이러한 모델은 입력 데이터 내의 패턴을 분별하는 데 사용됩니다.

이러한 모델이 학습 프로세스를 완료한 후 메시지가 표시되면 통계적으로 가능한 출력을 생성하고 다음을 비롯한 다양한 작업을 수행하기 위해 사용할 수 있습니다.

기존 이미지를 기반으로 이미지를 생성하거나 한 이미지의 스타일을 활용하여 새 이미지를 수정하거나 만듭니다.
전사, 번역, 질문/답변 생성, 텍스트의 의도 또는 의미 해석과 같은 음성 작업입니다.

Important

많은 LLM 또는 기타 생성 AI 모델에는 안전 장치가 있지만 여전히 유해하거나 부정확한 정보를 생성할 수 있습니다.

생성형 AI에는 다음과 같은 디자인 패턴이 있습니다.

프롬프트 엔지니어링: LLM 동작을 안내하는 특수 프롬프트 만들기
RAG(검색 증강 생성): LLM과 외부 지식 검색 결합
미세 조정: 미리 학습된 LLM을 특정 도메인 데이터 집합에 맞게 조정
사전 교육: 처음부터 LLM 학습

Databricks의 기계 학습

Mosaic AI를 사용하는 단일 플랫폼은 원시 데이터에서부터 제공된 모델에 대한 모든 요청 및 응답을 저장하는 유추 테이블에 이르기까지 ML 개발 및 배포의 모든 단계를 제공합니다. 데이터 과학자, 데이터 엔지니어, ML 엔지니어 및 DevOps는 동일한 도구 집합과 데이터에 대한 단일 진실 소스를 사용하여 작업을 수행할 수 있습니다.

Mosaic AI는 데이터 계층과 ML 플랫폼을 통합합니다. 모델 및 함수와 같은 모든 데이터 자산 및 아티팩트를 검색할 수 있으며 단일 카탈로그에서 관리됩니다. 데이터 및 모델에 단일 플랫폼을 사용하면 원시 데이터에서 프로덕션 모델로 계보를 추적할 수 있습니다. 기본 제공 데이터 및 모델 모니터링은 플랫폼에도 저장된 테이블에 품질 메트릭을 저장하여 모델 성능 문제의 근본 원인을 보다 쉽게 식별할 수 있도록 합니다. Databricks가 전체 ML 수명 주기와 MLOps를 지원하는 방법에 대한 자세한 내용은 Azure Databricks의 MLOps 워크플로 및 MLOps Stacks: 코드로서의 모델 개발 프로세스를 참조하세요.

데이터 인텔리전스 플랫폼의 주요 구성 요소 중 일부는 다음과 같습니다.

작업	구성 요소
데이터, 기능, 모델 및 함수를 제어하고 관리합니다. 또한 검색, 버전 관리 및 계보.	Unity 카탈로그
데이터, 데이터 품질 및 모델 예측 품질에 대한 변경 내용 추적	Lakehouse 모니터링, 유추 테이블
기능 개발 및 관리	기능 엔지니어링 및 서비스.
모델 학습	AutoML, Databricks Notebook
모델 개발 추적	MLflow 추적
사용자 지정 모델 제공	Mosaic AI 모델 서비스.
자동화된 워크플로 및 프로덕션 준비 ETL 파이프라인 빌드	Databricks 작업
Git 통합	Databricks Git 폴더

Databricks의 딥 러닝

딥 러닝 애플리케이션에 대한 인프라 구성은 어려울 수 있습니다. Machine Learning 용 Databricks Runtime은 TensorFlow, PyTorch 및 Keras와 같은 가장 일반적인 딥 러닝 라이브러리의 호환되는 기본 제공 버전이 있는 클러스터를 통해 이를 처리합니다.

Databricks 런타임 ML 클러스터에는 드라이버 및 지원 라이브러리를 사용하여 미리 구성된 GPU 지원도 포함됩니다. 또한 Ray와 같은 라이브러리를 지원하여 ML 워크플로 및 ML 애플리케이션의 크기를 조정하기 위한 컴퓨팅 처리를 병렬화합니다.

Databricks 런타임 ML 클러스터에는 드라이버 및 지원 라이브러리를 사용하여 미리 구성된 GPU 지원도 포함됩니다. Mosaic AI 모델 서비스를 사용하면 추가 구성 없이 딥 러닝 모델에 대해 확장 가능한 GPU 엔드포인트를 만들 수 있습니다.

기계 학습 애플리케이션의 경우 Databricks에서 Machine Learning을 위한 Databricks Runtime을 실행하는 클러스터를 사용하는 것을 권장합니다. Databricks Runtime ML을 사용하여 클러스터 만들기를 참조하세요.

Databricks에서 딥 러닝을 시작하려면 다음을 참조하세요.

다음 단계

시작하려면 다음을 참조하십시오.

자습서: AI 및 머신 러닝 시작하기

Databricks Mosaic AI에 대한 권장 MLOps 워크플로는 다음을 참조하세요.

Azure Databricks의 MLOps 워크플로

주요 Databricks Mosaic AI 기능에 대해 알아보려면 다음을 참조하세요.

다음을 통해 공유