Databricks 기반 모델 API들
이 문서에서는 Azure Databricks의 Foundation Model API에 대한 개요를 제공합니다. 여기에는 사용 요구 사항, 지원되는 모델 및 제한 사항이 포함됩니다.
Databricks Foundation 모델 API란?
Mosaic AI 모델 서비스 이제 서비스 엔드포인트에서 최신 오픈 모델에 액세스하고 쿼리할 수 있는 파운데이션 모델 API를 지원합니다. 이러한 모델은 Databricks에 의해 호스팅되며 사용자 고유의 모델 배포를 유지 관리하지 않고도 이를 사용하는 애플리케이션을 빠르고 쉽게 빌드할 수 있습니다. 파운데이션 모델 API는 Databricks 지정 서비스로, 고객 콘텐츠를 처리할 때 Databricks Geos를 사용하여 데이터 상주를 관리합니다.
파운데이션 모델 API는 다음과 같은 가격 책정 모드에서 제공됩니다.
- 토큰당 지불: Databricks에서 기본 모델에 액세스하기 시작하는 가장 쉬운 방법이며, 파운데이션 모델 API를 사용하여 여정을 시작하는 데 권장됩니다. 이 모드는 처리량이 높은 애플리케이션 또는 성능이 뛰어난 프로덕션 워크로드용으로 설계되지 않았습니다.
- 프로비전된 처리량: 이 모드는 모든 프로덕션 워크로드, 특히 높은 처리량, 성능 보장, 미세 조정된 모델이 필요하거나 추가 보안 요구 사항이 있는 워크로드에 권장됩니다. 프로비전된 처리량 엔드포인트는 HIPAA와 같은 규정 준수 인증과 함께 사용할 수 있습니다.
Foundation Model API를 사용하여에서 이러한 모드 및 지원되는 모델을 사용하는 방법에 대한 지침을 참조하십시오.
Foundation Model API를 사용하여 다음을 수행할 수 있습니다.
- 더 많은 리소스를 투자하기 전에 일반화된 LLM을 쿼리하여 프로젝트의 유효성을 확인합니다.
- 사용자 지정 모델 학습 및 배포에 투자하기 전에 LLM 기반 애플리케이션에 대한 빠른 개념 증명을 만들기 위해 일반화된 LLM을 쿼리합니다.
- 벡터 데이터베이스와 함께 기초 모델을 사용하여 RAG(검색 보강 생성)를 통해 챗봇을 구축합니다.
- 독점 모델을 optimize의 비용 및 성능을 개선하기 위해 개방형 대안으로 대체합니다.
- LLM을 효율적으로 비교하여 사용 사례에 가장 적합한 후보를 확인하거나 프로덕션 모델을 더 나은 성능으로 바꿉니다.
- 프로덕션 트래픽 급증을 지원할 수 있는 확장성 있는 SLA 지원 LLM 서비스 솔루션을 기반으로 개발 또는 프로덕션을 위한 LLM 애플리케이션을 빌드합니다.
요구 사항
- 엔드포인트 요청을 인증하는 Databricks API 토큰입니다.
- 서버리스 컴퓨팅(프로비전된 처리량 모델의 경우).
- 지원되는 다음 지역 중 하나의 작업 영역입니다.
기반 모델 API 사용
파운데이션 모델 API를 사용하기 위한 여러 옵션이 있습니다.
API는 OpenAI와 호환되므로 쿼리에 OpenAI 클라이언트를 사용할 수 있습니다. UI, Foundation Models API Python SDK, MLflow Deployments SDK 또는 REST API를 사용하여 지원되는 모델을 쿼리할 수도 있습니다. Databricks는 확장된 상호 작용에 OpenAI 클라이언트 SDK 또는 API를 사용하고 기능을 사용해 보기 위해 UI를 사용하는 것이 좋습니다.
채점 예제는 쿼리 기본 모델 참조하세요.
토큰당 종량제 기반 모델 API
토큰당 종량제 모델을 제공하는 미리 구성된 엔드포인트는 Azure Databricks 작업 영역에서 액세스할 수 있습니다. 이러한 토큰당 종량제 모델을 시작하는 것이 좋습니다. 작업 영역에서 액세스하려면 왼쪽 사이드바의 Serving 탭으로 이동하세요. 파운데이션 모델 API는 엔드포인트 list 보기의 맨 위에 있습니다.
- 토큰당 종량제로 지원되는 모델.
- Foundation Model API를 쿼리하는 방법에 대한 지침은
쿼리 기본 모델을 참조하세요. - 필요한 parameters 및 구문에 대해서는 Foundation 모델 REST API 참조를 보세요.
프로비전된 처리량 기반 모델 API
프로비전된 처리량은 성능 보장이 필요한 기본 모델 워크로드에 대해 최적화된 유추가 있는 엔드포인트를 제공합니다. Databricks는 프로덕션 워크로드에 프로비전된 처리량을 권장합니다.
- 프로비전된 처리량 지원 모델 아키텍처
. - 프로비전된 전체 모드에서 Foundation Model API를 배포하는 방법에 대한 단계별 가이드는 프로비전된 처리량 Foundation Model API 참조하세요.
프로비전된 처리량 지원에는 다음이 포함됩니다.
- 모든 크기의 기본 모델. 기본 모델은 Databricks Marketplace를 사용하여 액세스하거나 Hugging Face, 또는 다른 외부 원본에서 다운로드하여 Unity Catalog에 등록할 수 있습니다. 후자의 접근 방식은 지원되는 모델의 미세 조정된 변형에서 작동합니다.
- 예를 들어 소유 데이터로 미세 조정된 모델처럼기본 모델의 미세 조정된 변형입니다.
기본 모델 아키텍처(예: CodeLlama)을 사용하여 처음부터 학습되거나 미리 학습되거나 다른 변형을 .것과 같이 완전히 사용자 지정 가중치 및 토큰화
제한
Foundation Model API 제한을 참조하십시오.
추가 리소스
ai_query 사용하여 LLM 추론 일괄 처리 수행