다음을 통해 공유


Foundation Model 미세 조정 실행 보기, 관리 및 분석

Important

이 기능은 centralus, eastus, eastus2, northcentralus, westus 지역에서 공개 미리 보기로 제공됩니다.

이 문서에서는 API를 사용하거나 UI를 사용하여 파운데이션 모델 미세 조정(현재 Mosaic AI 모델 학습의 일부)을 보고, 관리하고, 분석하는 방법을 설명합니다.

실행을 만드는 방법에 대한 자세한 내용은 Foundation Model 미세 조정 API 를 사용하여 학습 실행 만들기 및 Foundation Model 미세 조정 UI를 사용하여 학습 실행 만들기를 참조하세요.

Foundation Model 미세 조정 API를 사용하여 학습 실행 보기 및 관리

Foundation Model 미세 조정 API는 학습 실행을 관리하기 위한 다음 함수를 제공합니다.

실행 가져오기

get() 함수를 사용하여 시작한 실행 개체 또는 이름을 기준으로 실행을 반환합니다.

from databricks.model_training import foundation_model as fm

fm.get('<your-run-name>')

목록 실행

list() 함수를 사용하여 시작한 실행을 확인합니다. 다음 표에는 지정할 수 있는 선택적 필터가 나열되어 있습니다.

선택적 필터 정의
finetuning_runs 가져올 실행 목록. 기본값은 모든 실행을 선택하는 것입니다.
user_emails 작업 영역에 대해 공유 실행을 사용하는 경우 학습 실행을 제출한 사용자별로 결과를 필터링할 수 있습니다. 기본값은 사용자 필터가 없는 상태입니다.
before 이전 실행을 필터링할 datetime 또는 datetime 문자열. 기본값은 모두 실행입니다.
after 이후 실행을 필터링할 datetime 또는 datetime 문자열. 기본값은 모두 실행입니다.
from databricks.model_training import foundation_model as fm

fm.list()

# filtering example
fm.list(before='2023-01-01', limit=50)

학습 실행 취소

단일 학습 실행을 취소하려면 cancel() 함수를 사용하여 실행 이름을 전달합니다.

from databricks.model_training import foundation_model as fm

run_to_cancel = '<name-of-run-to-cancel>'
fm.cancel(run_to_cancel)

여러 학습 실행을 취소하려면 특정 실행 이름을 목록으로 전달합니다.

from databricks.model_training import foundation_model as fm

runs_to_cancel = ['<run_1>, <run_2>, <run_3>']
fm.cancel(runs=runs_to_cancel)

실험의 모든 학습 실행을 취소하려면 실험 ID를 전달합니다.

from databricks.model_training import foundation_model as fm

experiment_to_cancel = '<experiment-id-to-cancel>'
fm.cancel(experiment_id=experiment_to_cancel)

학습 실행 상태 검토

다음 표에는 학습 실행에서 만든 이벤트가 나열되어 있습니다. 실행 중 언제든지 get_events() 함수를 사용하여 실행 진행률을 확인합니다.

참고 항목

파운데이션 모델 미세 조정은 10개의 활성 실행 제한을 적용합니다. 큐에서 대기 중이거나 실행 중이거나 완료된 상태의 실행입니다. 실행이 완료, 실패 또는 중지됨 상태가 된 후에는 더 이상 활성 상태로 간주되지 않습니다.

이벤트 유형 이벤트 메시지 예제 정의
CREATED 실행을 만들었습니다. 학습 실행을 만들었습니다. 리소스가 사용 가능한 경우 실행이 시작됩니다. 그렇지 않으면 Pending 상태가 됩니다.
STARTED 실행이 시작되었습니다. 리소스가 할당되고 실행이 시작되었습니다.
DATA_VALIDATED 학습 데이터의 유효성을 검사했습니다. 학습 데이터의 형식이 올바른지 확인했습니다.
MODEL_INITIALIZED 베이스 모델 meta-llama/Llama-2-7b-chat-hf에 대한 모델 데이터를 다운로드 및 초기화했습니다. 베이스 모델의 가중치가 다운로드되었으며 학습을 시작할 준비가 되었습니다.
TRAIN_UPDATED [epoch=1/1][배치=50/56][ETA=5분] 학습 손실: 1.71 현재 학습 배치, Epoch 또는 토큰, 학습 완료 예상 시간(검사점 업로드 시간 제외) 및 학습 손실을 보고합니다. 이 이벤트는 각 배치가 종료될 때 업데이트됩니다. 실행 구성에서 max_durationtok 단위로 지정하면 토큰 단위로 진행률이 보고됩니다.
TRAIN_FINISHED 학습이 완료되었습니다. 학습이 완료되었습니다. 검사점 업로드가 시작됩니다.
COMPLETED 실행이 완료되었습니다. 최종 가중치가 업로드되었습니다. 검사점이 업로드되었으며 실행이 완료되었습니다.
CANCELED 실행이 취소되었습니다. fm.cancel()이 호출되면 실행이 취소됩니다.
FAILED 하나 이상의 학습 데이터 세트 샘플에 알 수 없는 키가 있습니다. 지원되는 데이터 서식에 대한 설명서를 확인하세요. 실행이 실패했습니다. 실행 가능한 세부 정보는 event_message를 확인하거나 고객 지원에 문의하세요.
from databricks.model_training import foundation_model as fm

fm.get_events()

UI를 사용하여 실행 보기 및 관리

UI에서 실행을 보려면 다음을 수행합니다.

  1. 왼쪽 탐색 모음에서 실험을 클릭하여 실험 페이지를 표시합니다.

  2. 표에서 실험 이름을 클릭하여 실험 페이지를 표시합니다. 실험 페이지에는 실험과 관련된 모든 실행이 나열됩니다.

    실험 페이지

  3. 표에 추가 정보 또는 메트릭을 표시하려면 더하기 기호를 클릭하여 메뉴에서 표시할 항목을 선택합니다.

    차트에 메트릭 추가

  4. 추가 실행 정보는 차트 탭에서 확인할 수 있습니다.

    차트 탭

  5. 실행 이름을 클릭하여 실행 화면을 표시할 수도 있습니다. 이 화면에서는 실행에 대한 추가 세부 정보에 액세스할 수 있습니다.

    실행 페이지

검사점

검사점 폴더에 액세스하려면 실행 화면에서 아티팩트 탭을 클릭합니다. 실험 이름을 연 다음, 검사점 폴더를 엽니다. 이러한 아티팩트 검사점은 학습 실행이 끝나는 시점에서 등록된 모델과 동일하지 않습니다.

아티팩트 탭의 검사점 폴더

이 폴더에는 다음과 같은 몇 가지 디렉터리가 있습니다.

  • Epoch 폴더(이름: ep<n>-xxx)에는 각 작성기 검사점의 가중치 및 모델 상태가 포함됩니다. 작성기 검사점은 학습을 통해 주기적으로 저장되며, 이를 통해 미세 조정 학습 실행을 다시 시작하여 미세 조정을 계속 진행합니다. 이 검사점은 해당 가중치에서 다른 학습 실행을 시작하기 위해 custom_weights_path로 전달하는 검사점입니다. 사용자 지정 모델 가중치 기반 빌드를 참조하세요.
  • huggingface 폴더에는 학습을 통해 Hugging Face 검사점도 주기적으로 저장됩니다. 이 폴더의 콘텐츠를 다운로드한 후에는 다른 Hugging Face 검사점과 마찬가지로 AutoModelForCausalLM.from_pretrained(<downloaded folder>)를 사용하여 해당 검사점을 로드할 수 있습니다.
  • checkpoints/latest-sharded-rank0.symlink는 학습을 다시 시작할 때 사용할 수 있는 최신 검사점 경로가 저장된 파일입니다.

get_checkpoints(run)를 사용하여 작성기 검사점을 저장한 후 실행할 수도 있습니다. 이 함수는 실행 개체를 입력으로 사용합니다. 검사점이 아직 없는 경우 검사점을 저장한 후 재시도하라는 메시지가 표시됩니다.