Databricks에서의 AI 및 기계 학습
이 문서에서는 Mosaic AI(이전 Databricks Machine Learning)가 AI 및 ML 시스템을 빌드하는 데 도움이 되는 도구를 설명합니다. 이 다이어그램은 Databricks 플랫폼의 다양한 제품이 AI 및 ML 시스템을 빌드하고 배포하는 종단 간 워크플로를 구현하는 데 어떻게 도움이 되는지 보여줍니다.
Databricks의 생성 AI
Mosaic AI는 데이터 수집 및 준비에서 모델 개발 및 LLMOps, 서비스 및 모니터링에 이르기까지 AI 수명 주기를 통합합니다. 다음 기능은 생성 AI 애플리케이션의 개발을 용이하게 하기 위해 특별히 최적화되어 있습니다.
- Unity는 데이터, 기능, 모델 및 함수의 거버넌스, 검색, 버전 관리 및 액세스 제어를 위한 시스템입니다. Catalog.
- 모델 개발 추적을 위한 MLflow 입니다.
- LLM을 배포하는 데 사용되는 Mosaic AI 모델 서비스. 생성 AI 모델에 액세스하기 위해 특별히 엔드포인트를 제공하는 모델을 구성할 수 있습니다.
- 파운데이션 모델 API를 사용하는 최신 오픈 LLM.
- Databricks 외부에서 호스트되는 타사 모델입니다. Mosaic AI 모델 서비스에서 외부 모델을 참조하세요.
- Mosaic AI Vector Search 포함 벡터를 저장하고 기술 자료에 자동으로 sync 구성될 수 있는 쿼리 가능한 벡터 데이터베이스를 제공합니다.
- Lakehouse 모니터링는 데이터 모니터링 및 추적 모델 예측 품질과 드리프트를 유추하기 위해 자동 페이로드 로깅과 함께 사용됩니다 tables.
- Databricks 작업 영역에서 생성 AI 모델을 테스트하기 위한 AI 플레이그라운드입니다. 시스템 프롬프트 및 유추 parameters같은 설정을 프롬프트하여 비교하고 조정할 수 있습니다.
- 기초 모델 미세 조정(현재 Mosaic AI 모델 학습의 일부)을 통해 사용자 고유의 데이터를 사용하여 기초 모델을 사용자 지정하고 특정 애플리케이션에서 성능을 optimize.
- RAG(검색 증강 세대) 애플리케이션과 같은 프로덕션 품질 에이전트를 빌드하고 배포하기 위한 Mosaic AI 에이전트 프레임워크입니다.
- RAG 애플리케이션 및 체인을 비롯한 생성 AI 애플리케이션의 품질, 비용 및 대기 시간을 평가하기 위한 Mosaic AI 에이전트 평가입니다.
생성 AI란?
생성형 AI는 컴퓨터가 모델을 사용하여 이미지, 텍스트, 코드 및 합성 데이터와 같은 콘텐츠를 만드는 기능에 초점을 맞춘 인공 지능의 한 유형입니다.
생성형 AI 애플리케이션은 LLM(대규모 언어 모델) 및 파운데이션 모델과 같은 생성 AI 모델을 기반으로 합니다.
- LLM은 언어 처리 작업에 탁월한 성능을 발휘하기 위해 대규모 데이터 세트를 사용하고 학습하는 딥 러닝 모델입니다. 학습 데이터를 기반으로 자연어를 모방하는 새로운 텍스트 조합을 만듭니다.
- 생성 AI 모델 또는 기본 모델은 보다 구체적인 언어 이해 및 생성 작업을 위해 미세 조정되도록 미리 학습된 대규모 ML 모델 입니다. 이러한 모델은 입력 데이터 내의 패턴을 분별하는 데 사용됩니다.
이러한 모델이 학습 과정을 완료한 후, 명령을 받았을 때 통계적으로 가능한 출력을 함께 generate 다양한 작업을 수행하는 데 사용할 수 있습니다.
- 기존 이미지를 기반으로 이미지를 생성하거나 한 이미지의 스타일을 활용하여 새 이미지를 수정하거나 만듭니다.
- 전사, 번역, 질문/답변 생성, 텍스트의 의도 또는 의미 해석과 같은 음성 작업입니다.
Important
많은 LLM 또는 기타 생성 AI 모델에는 안전 장치가 있지만 여전히 유해하거나 부정확한 정보를 generate 수 있습니다.
생성형 AI에는 다음과 같은 디자인 패턴이 있습니다.
- 프롬프트 엔지니어링: LLM 동작을 안내하는 특수 프롬프트 만들기
- RAG(검색 증강 생성): LLM과 외부 지식 검색 결합
- 미세 조정: 미리 학습된 LLM을 특정 도메인 데이터 집합에 맞게 조정
- 사전 교육: 처음부터 LLM 학습
Databricks의 기계 학습
Mosaic AI를 사용하면 단일 플랫폼이 원시 데이터에서 유추 tables 이르기까지 ML 개발 및 배포의 모든 단계를 처리하여 제공된 모델에 대한 모든 요청과 응답을 저장합니다. 데이터 과학자, 데이터 엔지니어, ML 엔지니어 및 DevOps는 동일한 set 도구와 데이터에 대한 단일 진실 소스를 사용하여 작업을 수행할 수 있습니다.
Mosaic AI는 데이터 계층과 ML 플랫폼을 통합합니다. 모델 및 함수와 같은 모든 데이터 자산 및 아티팩트는 발견되고 단일 catalog내에서 관리됩니다. 데이터 및 모델에 단일 플랫폼을 사용하면 원시 데이터에서 프로덕션 모델로 계보를 추적할 수 있습니다. 기본 제공 데이터 및 모델 모니터링은 품질 메트릭을 tables에 저장하고 플랫폼에도 저장하여 모델 성능 문제의 근본 원인을 보다 쉽게 식별할 수 있도록 합니다. Databricks가 전체 ML 수명 주기와 MLOps를 지원하는 방법에 대한 자세한 내용은 Azure Databricks의 MLOps 워크플로 및 MLOps Stacks: 코드로서의 모델 개발 프로세스를 참조하세요.
데이터 인텔리전스 플랫폼의 주요 구성 요소 중 일부는 다음과 같습니다.
작업 | 구성 요소 |
---|---|
데이터, 기능, 모델 및 함수를 제어하고 관리합니다. 또한 검색, 버전 관리 및 계보. | 유니티 Catalog |
데이터, 데이터 품질 및 모델 예측 품질에 대한 변경 내용 추적 | Lakehouse 모니터링, 추론 tables |
기능 개발 및 관리 | 기능 엔지니어링 및 서비스. |
모델 학습 | AutoML, Databricks Notebook |
모델 개발 추적 | MLflow 추적 |
사용자 지정 모델 제공 | Mosaic AI 모델 서비스. |
자동화된 워크플로 및 프로덕션 준비 ETL 파이프라인 빌드 | Databricks 작업 |
Git 통합 | Databricks Git 폴더 |
Databricks의 딥 러닝
딥 러닝 애플리케이션에 대한 인프라 구성은 어려울 수 있습니다. Machine Learning 용 Databricks Runtime은 TensorFlow, PyTorch 및 Keras와 같은 가장 일반적인 딥 러닝 라이브러리의 호환되는 기본 제공 버전이 있는 클러스터를 통해 이를 처리합니다.
Databricks 런타임 ML 클러스터에는 드라이버 및 지원 라이브러리를 사용하여 미리 구성된 GPU 지원도 포함됩니다. 또한 Ray와 같은 라이브러리를 지원하여 ML 워크플로 및 ML 애플리케이션의 크기를 조정하기 위한 컴퓨팅 처리를 병렬화합니다.
Databricks 런타임 ML 클러스터에는 드라이버 및 지원 라이브러리를 사용하여 미리 구성된 GPU 지원도 포함됩니다. Mosaic AI 모델 서비스를 사용하면 추가 구성 없이 딥 러닝 모델에 대해 확장 가능한 GPU 엔드포인트를 만들 수 있습니다.
기계 학습 애플리케이션의 경우 Databricks에서 Machine Learning을 위한 Databricks Runtime을 실행하는 클러스터를 사용하는 것을 권장합니다. Databricks Runtime ML을 사용하여 클러스터 만들기를 참조하세요.
get Databricks에 대한 딥 러닝으로 시작하려면 다음을 참조하세요.
다음 단계
get 시작하려면 다음을 참조하세요.
Databricks Mosaic AI에 대한 권장 MLOps 워크플로는 다음을 참조하세요.
주요 Databricks Mosaic AI 기능에 대해 알아보려면 다음을 참조하세요.