Databricks 작업에 대한 모니터링 및 관측성
이 문서에서는 Azure Databricks UI에서 액세스할 수 있는 작업을 보고, 작업 실행 기록을 보고, 작업 실행의 세부 정보를 볼 수 있는 기능을 설명합니다. 작업에 대한 알림을 구성하려면 작업 이벤트에 대한 이메일 및 시스템 알림 추가를 참조하세요.
Databricks CLI를 사용하여 작업을 보고 작업을 실행하는 방법을 알아보려면 CLI 명령 databricks jobs list -h
, databricks jobs get -h
, databricks jobs run-now -h
을 실행하세요. 작업 API 사용에 대한 자세한 내용은 작업 API를 참조하세요.
system.lakeflow
스키마에 액세스할 수 있는 경우, 계정 전반의 작업 실행 및 태스크의 레코드를 보고 쿼리할 수 있습니다.
작업 시스템 테이블 참조를 참조하세요.
작업 보기
액세스할 수 있는 작업 목록을 보려면 사이드바에서워크플로를 클릭합니다. 워크플로 UI의 작업 탭에는 작업 작성자, 작업에 대한 트리거가 있는 경우 트리거, 마지막 실행 결과와 같은 사용 가능한 모든 작업에 대한 정보가 나열됩니다.
작업 목록에 표시되는 열을 변경하려면 을 클릭하고 열을 선택하거나 선택 취소합니다.
[작업] 목록에서 다음과 같이 작업을 필터링할 수 있습니다.
- 키워드를 사용합니다. 이 작업 영역에 대해 증가된 작업 제한 기능이 활성화된 경우 키워드로 검색하는 것은 이름, 작업 ID 및 작업 태그 필드에 대해서만 지원됩니다.
- 소유한 작업만 선택합니다.
- 액세스 권한이 있는 모든 작업을 선택합니다.
-
태그 사용. 키만 사용하여 만든 태그를 검색하려면 검색 상자에 키를 입력합니다. 키와 값으로 만든 태그를 검색하려면 키, 값 또는 키와 값 모두로 검색할 수 있습니다. 예를 들어 키
department
와 값finance
가 있는 태그의 경우department
또는finance
를 검색하여 일치하는 작업을 찾을 수 있습니다. 키와 값으로 검색하려면 키와 값을 콜론으로 구분하여 입력합니다(예:department:finance
).
열 머리글을 클릭하여 해당 열을 기준으로 작업 목록(내림차순 또는 오름차순)을 정렬할 수도 있습니다. 증가된 작업 제한 기능을 사용하도록 설정하면 Name
, Job ID
또는 Created by
로만 정렬할 수 있습니다. 기본 정렬은 Name
을 기준으로 오름차순입니다.
작업에 대한 동작(작업 삭제 등)에 액세스하려면 을 클릭합니다.
작업에 대한 보기 실행
Apache Airflow 또는 Azure Data Factory와 같은 외부 오케스트레이션 도구에서 시작한 실행을 포함하여 액세스 권한이 있는 모든 작업에 대해 현재 실행 중이거나 최근에 완료된 실행 목록을 볼 수 있습니다. 최근 작업 실행 목록을 보려면 다음을 수행합니다.
- 사이드바에서 워크플로를 클릭합니다.
- 이름 열에서 작업 이름을 클릭합니다. 실행 탭에는 실행 중이거나 완료된 실행이 행렬과 목록으로 표시됩니다.
행렬 보기는 각 작업 태스크를 포함하여 작업에 대한 실행 기록을 보여 줍니다.
행렬의 총 실행 시간 행에는 해당 실행의 총 실행 시간과 실행 상태가 표시됩니다. 시작 시간, 실행 시간, 상태를 포함한 실행의 세부 정보를 보려면 총 실행 시간 행의 막대 위로 마우스를 가져갑니다.
작업 행의 각 셀은 작업의 작업 및 해당 상태를 나타냅니다. 시작 시간, 기간, 클러스터 및 상태를 포함하여 각 작업의 세부 정보를 보려면 해당 작업의 셀을 마우스로 가리킵니다.
작업 실행 및 작업 실행 막대는 실행 상태를 나타내기 위해 색으로 구분됩니다. 성공한 실행은 녹색이고, 실패한 실행은 빨간색이고, 건너뛴 실행은 분홍색입니다. 개별 작업 실행 및 태스크 실행 막대는 높이로 실행 시간을 시각적으로 표시합니다.
예상 완료 시간을 구성한 경우, 실행 간이 구성된 예상 시간을 초과하면 행렬 보기에 경고가 표시됩니다.
기본적으로 실행 목록 보기는 다음과 같이 표시됩니다.
- 실행 시작 시간입니다.
- 실행 식별자
- 실행이 작업 일정 또는 API 요청에 의해 트리거되었거나 수동으로 시작되었는지 여부입니다.
- 현재 실행 중인 작업의 경과 시간 또는 완료된 실행의 총 실행 시간 실행 시간이 구성된 예상 완료 시간을 초과한 경우, 경고 표시
- Spark 로그에 대한 링크
-
Queued
,Pending
,Running
,Skipped
,Succeeded
,Failed
,Terminating
,Terminated
,Internal Error
,Timed Out
,Canceled
,Canceling
,Waiting for Retry
중 해당하는 실행 상태 - 활성 상태의 실행을 중지하거나 완료된 실행을 삭제하는 등 실행에 대한 컨텍스트별 작업에 액세스하려면 을 클릭합니다.
실행 목록 보기에 표시되는 열을 변경하려면 을 클릭하고 열을 선택하거나 선택 취소합니다.
작업 실행의 세부 정보를 보려면 실행 목록 보기에서 시작 시간 열에 있는 해당 실행의 링크를 클릭합니다. 이 작업의 가장 최근에 성공한 실행에 대한 세부 정보를 보려면 최근 성공한 실행으로 이동을 클릭합니다.
Azure Databricks는 작업 실행 기록을 최대 60일 동안 유지합니다. 작업 실행을 보존해야 하는 경우, 결과 만료되기 전에 결과를 내보내기를 Databricks는 권장합니다. 자세한 내용은 작업 실행 결과 내보내기를 참조하세요.
작업 실행 세부 정보 보기
작업 실행 세부 정보 페이지에는 작업 실행에서 각 작업의 성공 또는 실패에 대한 정보를 포함하여 작업 출력 및 로그에 대한 링크가 포함되어 있습니다. 작업 실행 세부 정보는 작업의 실행 탭에서 액세스할 수 있습니다. 실행 탭에서 작업 실행 세부 정보를 보려면 실행 목록 보기에서 시작 시간 열에 있는 해당 실행의 링크를 클릭합니다. 실행 탭으로 돌아가려면 작업 ID를 클릭합니다.
여러 태스크를 포함한 작업인 경우, 태스크를 클릭하여 다음의 태스크 실행 세부 정보를 봅니다.
- 태스크를 실행한 클러스터
- 태스크에 대한 Spark UI
- 태스크에 대한 로그
- 태스크에 대한 메트릭
작업 ID 값을 클릭하여 작업의 실행 탭으로 돌아갑니다.
Azure Databricks는 작업 실행 상태를 어떻게 결정하나요?
Azure Databricks는 작업의 리프 태스크 결과에 따라 작업 실행이 성공했는지 여부를 결정합니다. 리프 태스크는 다운스트림 종속성이 없습니다. 작업 실행 결과는 다음 세가지 중 하나입니다.
- 성공: 모든 태스크가 성공했습니다.
- 일부 실패: 일부 태스크는 실패했지만 모든 리프 작업이 성공했습니다.
- 실패: 리프 작업이 하나 이상 실패했습니다.
스트리밍 작업에 대한 메트릭 보기
중요하다
Databricks 작업의 스트리밍 가시성은 공개 미리 보기에 있습니다.
작업 실행 세부 정보를 볼 때 작업 UI에서 스트리밍 관찰성 메트릭을 사용하여 스트리밍 워크로드에 대한 데이터를 가져올 수 있습니다. 이러한 메트릭에는 Apache Kafka, Amazon Kinesis, Auto Loader, Google Pub/Sub 및 Delta 테이블을 포함하여 Spark 구조화된 스트리밍에서 지원하는 소스에 대한 백로그 초, 백로그 바이트, 백로그 레코드 및 백로그 파일이 포함됩니다. 메트릭은 작업에 대한 실행 세부 정보를 볼 때 오른쪽 창에 차트로 표시됩니다. 각 차트에 표시된 메트릭은 분 단위로 집계된 최대 값이며 이전 48시간까지 포함할 수 있습니다.
각 스트리밍 원본은 특정 메트릭만 지원합니다. 스트리밍 원본에서 지원되지 않는 메트릭은 UI에서 볼 수 없습니다. 다음 표에서는 지원되는 스트리밍 원본에 사용할 수 있는 메트릭을 보여 줍니다.
근원 | 백로그 바이트 | 작업 대기 기록 | 지연 초 | 백로그 파일 |
---|---|---|---|---|
Kafka | ✓ | ✓ | ||
키네시스 | ✓ | ✓ | ||
델타 | ✓ | ✓ | ||
자동 로더 | ✓ | ✓ | ||
Google Pub/Sub | ✓ | ✓ |
또한 각 스트리밍 메트릭에 대한 임계값을 지정하고 작업 실행 중에 스트림이 임계값을 초과하는 경우 알림을 구성할 수 있습니다. 임계값이 초과되면 알림을 구성하는 방법에 대한 정보를참조하세요.
지원되는 구조적 스트리밍 원본 중 하나에서 데이터를 스트리밍하는 작업 실행에 대한 스트리밍 메트릭을 보려면 다음을 수행합니다.
- 작업 실행 세부 정보 페이지에서 메트릭을 보려는 작업을 클릭합니다.
- 작업 실행 창에서 메트릭 탭을 클릭합니다.
- 메트릭에 대한 그래프를 열려면 메트릭 이름 옆에 있는 오른쪽 꺾쇠를 클릭합니다.
- 특정 스트림에 대한 메트릭을 보려면 필터에 stream_id 입력란에 스트림 ID를 입력합니다. 작업 실행의 출력에서 스트림 ID를 찾을 수 있습니다.
- 메트릭 그래프의 기간을 변경하려면 시간 드롭다운 메뉴를 사용합니다.
- 실행에 10개 이상의 스트림이 포함된 경우 스트림을 스크롤하려면, 다음 또는 이전버튼을 클릭하세요.
스트리밍 관찰 가능성 제한 사항
- 메트릭은 실행에 4개 이상의 스트림이 없는 한 1분마다 업데이트됩니다. 실행에 4개 이상의 스트림이 있는 경우 메트릭은 5분마다 업데이트됩니다.
- 메트릭은 각 실행의 처음 50개 스트림에 대해서만 수집됩니다.
태스크 실행 기록 보기
성공 및 실패 실행을 포함하여 태스크의 실행 기록을 보려면 다음을 수행합니다.
- 작업 실행 세부 정보 페이지에서 작업을 클릭합니다. 작업 실행 세부 정보 페이지가 나타납니다.
- 실행 기록 드롭다운 메뉴에서 태스크 실행을 선택합니다.
For each
태스크에 대한 태스크 실행 기록 보기
For each
태스크의 실행 기록에 액세스하는 방법은 표준 Azure Databricks 작업 태스크 액세스 방법과 동일합니다.
For each
페이지에서 태스크 노드를 클릭하거나 행렬 보기에서 해당 셀을 클릭합니다. 그러나 표준 작업과 달리, For each
태스크에 대한 실행 세부 정보는 중첩된 태스크 반복 테이블로 표시됩니다.
실패한 반복만 보려면 실패한 반복 한정을 클릭합니다.
반복의 출력을 보려면 반복의 시작 시간 또는 종료 시간을 클릭합니다.
최근 작업 실행 보기
Apache Airflow 또는 Azure Data Factory와 같은 외부 오케스트레이션 도구에서 시작한 실행을 포함하여 액세스 권한이 있는 작업 영역의 모든 작업에 대해 현재 실행 중이거나 최근에 완료된 실행 목록을 볼 수 있습니다. 최근 작업 실행 목록을 보려면 다음을 수행합니다.
- 사이드바에서 워크플로를 클릭합니다.
- 작업 실행 탭을 클릭하면 작업 실행 목록이 표시됩니다.
완료된 실행 개수 그래프에는 지난 48시간 동안 완료된 작업 실행 개수가 표시됩니다. 기본적으로 그래프는 작업 실행의 실패, 건너뛰기, 성공 개수를 표시합니다. 그래프를 필터링하여 특정 실행 상태를 표시하거나 특정 시간 범위로 그래프를 제한할 수도 있습니다. 작업 실행 탭에는 지난 67일 동안의 작업 실행에 대한 테이블도 포함됩니다. 기본적으로 테이블에는 작업 실행의 실패, 건너뛰기, 성공에 대한 세부 정보가 포함됩니다.
참고 항목
완료된 실행 개수 그래프는 내 소유를 클릭할 때만 표시됩니다.
실행 상태별로 완료된 실행 개수를 필터링할 수 있습니다.
- 현재 실행 중이거나 실행 대기 중인 작업을 표시하도록 그래프를 업데이트하려면 활성 실행을 클릭합니다.
- 실패, 성공, 건너뛴 실행을 포함하여 완료된 실행만 표시하도록 그래프를 업데이트하려면 완료된 실행을 클릭합니다.
- 지난 48시간 동안 성공적으로 완료된 실행만 표시하도록 그래프를 업데이트하려면 성공한 실행을 클릭합니다.
- 건너뛴 실행만 표시하도록 그래프를 업데이트하려면 건너뛴 실행을 클릭합니다. 작업 영역에서 최대 동시 실행 수를 초과했거나 작업이 작업 구성에서 지정한 최대 동시 실행 수를 초과하면 실행을 건너뜁니다.
- 오류 상태에서 완료된 실행만 표시하도록 그래프를 업데이트하려면 실패한 실행을 클릭합니다.
필터 버튼을 클릭하면 실행 테이블의 실행 목록도 선택한 상태와 일치하는 작업 실행만 표시하도록 업데이트됩니다.
완료된 실행 개수 그래프에 표시되는 시간 범위를 제한하려면 그래프에서 커서를 클릭하고 끌어서 시간 범위를 선택합니다. 그래프와 실행 테이블은 선택한 시간 범위의 실행만 표시하도록 업데이트됩니다.
기본적으로 실행 테이블에 표시되는 실행 목록은 다음과 같습니다.
- 실행 시작 시간입니다.
- 실행과 연결된 작업의 이름입니다.
- 작업을 실행할 사용자 이름입니다.
- 실행이 작업 일정 또는 API 요청에 의해 트리거되었거나 수동으로 시작되었는지 여부입니다.
- 현재 실행 중인 작업의 경과 시간 또는 완료된 실행의 총 실행 시간 실행 시간이 구성된 예상 완료 시간을 초과한 경우, 경고 표시
-
Queued
,Pending
,Running
,Skipped
,Succeeded
,Failed
,Terminating
,Terminated
,Internal Error
,Timed Out
,Canceled
,Canceling
,Waiting for Retry
중 해당하는 실행 상태 - 실행에 대한 모든 매개 변수
- 활성 상태의 실행을 중지하거나 완료된 실행을 삭제하는 등 실행에 대한 컨텍스트별 작업에 액세스하려면 을 클릭합니다.
실행 목록에 표시되는 열을 변경하려면 을 클릭하고 열을 선택하거나 선택 취소합니다.
상위 5개 오류 유형 테이블에는 선택한 시간 범위에서 가장 자주 발생한 오류 유형 목록이 표시되어 작업 영역에서 작업 문제의 가장 일반적인 원인을 빠르게 확인할 수 있습니다.
작업 실행 세부 정보를 보려면 해당 실행의 시작 시간 열에 있는 링크를 클릭합니다. 작업 세부 정보를 보려면 작업 열에서 작업 이름을 클릭합니다.
작업의 계보 정보 보기
작업 영역에서 Unity Catalog를 사용하는 경우, 워크플로의 모든 Unity Catalog 테이블에 대한 계보 정보를 볼 수 있습니다. 워크플로에 계보 정보를 사용할 수 있는 경우, 작업의 작업 세부 정보 패널, 작업 실행의 작업 실행 세부 정보, 태스크 실행의 태스크 실행 세부 정보 패널에서 업스트림 및 다운스트림 테이블 수와 링크를 확인할 수 있습니다. 링크를 클릭하면 테이블 목록이 표시됩니다. 테이블을 클릭하면 카탈로그 탐색기에 자세한 정보가 표시됩니다.
Databricks 자산 번들로 만든 작업 보기 및 실행
Azure Databricks 작업 UI를 사용하여 Databricks 자산 번들에 의해 배포된 작업을 보고 실행할 수 있습니다. 기본적으로 이러한 작업은 작업 UI에서 읽기 전용입니다. 번들에 의해 배포된 작업을 편집하려면 번들 구성 파일을 변경하고 작업을 다시 배포합니다. 번들 구성에만 변경 내용을 적용하면 번들 원본 파일이 항상 현재 작업 구성을 캡처할 수 있습니다.
그러나 작업을 즉시 변경해야 하는 경우 번들 구성에서 작업의 연결을 끊어 UI에서 작업 설정을 편집할 수 있습니다. 작업 연결을 끊으려면 원본에서 연결 끊기를 클릭합니다. 원본에서 연결 끊기 대화 상자에서 연결 끊기를 클릭하여 확인합니다.
UI에서 작업을 변경한 내용은 번들 구성에 적용되지 않습니다. UI에서 변경한 내용을 번들에 적용하려면 번들 구성을 수동으로 업데이트해야 합니다. 번들 구성에 작업을 다시 연결하려면 번들을 사용하여 작업을 다시 배포합니다.
작업 실행 결과 내보내기
모든 작업 유형에 대한 Notebook 실행 결과 및 작업 실행 로그를 내보낼 수 있습니다.
Notebook 실행 결과 내보내기
결과를 내보내 작업 실행을 보존할 수 있습니다. Notebook 작업 실행의 경우 나중에 Azure Databricks 작업 영역으로 가져올 수 있는 렌더링된 Notebook을 내보낼 수 있습니다.
단일 태스크가 있는 작업에 대한 Notebook 실행 결과를 내보내려면,
- 작업 세부 정보 페이지에서 완료된 실행(지난 60일) 테이블의 실행 열에서 해당 실행에 대한 세부 정보 보기 링크를 클릭합니다.
- HTML로 내보내기를 클릭합니다.
여러 태스크가 있는 작업에 대한 Notebook 실행 결과를 내보내려면,
- 작업 세부 정보 페이지에서 완료된 실행(지난 60일) 테이블의 실행 열에서 해당 실행에 대한 세부 정보 보기 링크를 클릭합니다.
- 내보낼 Notebook 태스크를 클릭합니다.
- HTML로 내보내기를 클릭합니다.
작업 실행 로그 내보내기
작업 실행에 대한 로그를 내보낼 수도 있습니다. 작업 API를 통해 로그를 DBFS에 자동으로 전달하도록 작업을 설정할 수 있습니다. 작업 API의 new_cluster.cluster_log_conf
작업()에 전달된 요청 본문의 POST /jobs/create
개체를 참조하세요.