Databricks UI로 모니터 만들기
이 문서에서는 Databricks UI를 사용하여 데이터 모니터를 만드는 방법을 보여 줍니다. API를 사용할 수도 있습니다.
Databricks UI에 액세스하려면 다음을 수행합니다.
- 작업 영역 왼쪽 사이드바에서 카탈로그 탐색기를 열려면 클릭합니다.
- 모니터링할 테이블로 이동합니다.
- 품질 탭을 클릭합니다.
- 시작 단추를 클릭합니다.
- 모니터 만들기에서 모니터를 설정할 옵션을 선택합니다.
프로파일링
프로필 유형 메뉴에서 만들 모니터 유형을 선택합니다. 프로필 형식이 테이블에 표시됩니다.
프로필 유형 | 설명 |
---|---|
시계열 프로필 | 시간에 따라 측정된 값을 포함하는 테이블입니다. 이 테이블에는 타임스탬프 열이 포함되어 있습니다. |
유추 프로필 | 기계 학습 분류 또는 회귀 모델에 의한 예측 값 출력을 포함하는 테이블입니다. 이 표에는 타임스탬프, 모델 ID, 모델 입력(기능), 모델 예측이 포함된 열 및 고유한 관찰 ID 및 접지 진리 레이블이 포함된 선택적 열이 포함되어 있습니다. 또한 모델에 대한 입력으로 사용되지 않지만 공정성 및 편향 조사 또는 기타 모니터링에 유용할 수 있는 인구 통계 정보와 같은 메타데이터를 포함할 수도 있습니다. |
스냅샷 프로필 | 모든 델타 관리 테이블, 외부 테이블, 뷰, 구체화된 뷰 또는 스트리밍 테이블입니다. |
선택 TimeSeries
하거나 Inference
추가 매개 변수가 필요한 경우 다음 섹션에 설명되어 있습니다.
참고 항목
- 시계열 또는 유추 프로필을 처음 만들 때 모니터는 생성 30일 전의 데이터만 분석합니다. 모니터를 만든 후에는 모든 새 데이터가 처리됩니다.
- 구체화된 뷰 및 스트리밍 테이블에 정의된 모니터는 증분 처리를 지원하지 않습니다.
팁
TimeSeries
및 Inference
프로필의 경우 테이블에서 CDF(변경 데이터 피드)를 사용하도록 설정하는 것이 가장 좋습니다. CDF를 사용하도록 설정하면 새로 고칠 때마다 전체 테이블을 다시 처리하는 대신 새로 추가된 데이터만 처리됩니다. 이렇게 하면 실행이 더 효율적이며 여러 테이블에서 모니터링을 확장할 때 비용이 절감됩니다.
TimeSeries
윤곽
프로필의 TimeSeries
경우 다음을 선택해야 합니다.
- 시간에 따라 창에서 데이터를 분할하는 방법을 결정하는 메트릭 세분성을 지정합니다.
- 타임스탬프를 포함하는 테이블의 열인 타임스탬프 열을 지정합니다. 타임스탬프 열 데이터 형식은
TIMESTAMP
또는to_timestamp
PySpark 함수를 사용하여 타임스탬프로 변환할 수 있는 형식이어야 합니다.
Inference
윤곽
프로필의 Inference
경우 세분성 및 타임스탬프 외에도 다음을 선택해야 합니다.
- 문제 유형(분류 또는 회귀)을 선택합니다.
- 모델의 예측 값이 포함된 열인 예측 열을 지정합니다.
- 선택적으로 모델 예측의 접지 진리를 포함하는 열인 레이블 열을 지정합니다.
- 예측에 사용되는 모델의 ID를 포함하는 열인 모델 ID 열을 지정합니다.
일정
예약된 기준으로 실행되도록 모니터를 설정하려면 일정에 따라 새로 고침을 선택하고 모니터를 실행할 빈도와 시간을 선택합니다. 모니터를 자동으로 실행하지 않으려면 수동으로 새로 고침을 선택합니다. 수동으로 새로 고침을 선택하면 나중에 품질 탭에서 메트릭을 새로 고칠 수 있습니다.
Notifications
모니터에 대한 메일 알림 설정하려면 알림을 받을 전자 메일을 입력하고 사용하도록 설정할 알림을 선택합니다. 알림 이벤트 유형별로 최대 5개의 전자 메일이 지원됩니다.
일반
일반 섹션에서는 필요한 설정 하나와 몇 가지 추가 구성 옵션을 지정해야 합니다.
- 모니터에서 만든 메트릭 테이블이 저장되는 Unity 카탈로그 스키마를 지정해야 합니다. 위치는 {catalog}형식이어야 합니다. {schema}.
다음 설정을 지정할 수도 있습니다.
자산 디렉터리. 생성된 대시보드와 같은 모니터링 자산을 저장할 기존 디렉터리의 절대 경로를 입력합니다. 기본적으로 자산은 기본 디렉터리 "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}"에 저장됩니다. 이 필드에 다른 위치를 입력하면 지정한 디렉터리의 "/{table_name}" 아래에 자산이 만들어집니다. 이 디렉터리가 작업 영역의 어느 곳에나 있을 수 있습니다. 조직 내에서 공유하려는 모니터의 경우 "/Shared/" 디렉터리의 경로를 사용할 수 있습니다.
이 필드는 비워 둘 수 없습니다.
Unity 카탈로그 기준 테이블 이름입니다. 비교를 위한 기준 데이터가 포함된 테이블 또는 뷰의 이름입니다. 기준 테이블에 대한 자세한 내용은 기본 입력 테이블 및 기준 테이블을 참조 하세요.
메트릭 조각화 식입니다. 식을 조각화하면 테이블 전체 외에도 모니터링할 테이블의 하위 집합을 정의할 수 있습니다. 조각화 식을 만들려면 식 추가를 클릭하고 식 정의를 입력합니다. 예를 들어 식
"col_2 > 10"
은 두 개의 조각을 생성합니다. 하나는 에 대해col_2 > 10
col_2 <= 10
하나씩 생성됩니다. 또 다른 예로 식은 .의"col_1"
col_1
각 고유 값에 대해 하나의 조각을 생성합니다. 데이터는 각 식별로 독립적으로 그룹화되므로 각 조건자와 해당 보수에 대해 별도의 조각이 생성됩니다.사용자 지정 메트릭. 사용자 지정 메트릭은 기본 제공 메트릭과 같이 메트릭 테이블에 표시됩니다. 자세한 내용은 Databricks Lakehouse 모니터링에서 사용자 지정 메트릭 사용을 참조하세요. 사용자 지정 메트릭을 구성하려면 사용자 지정 메트릭 추가를 클릭합니다.
- 사용자 지정 메트릭의 이름을 입력합니다.
- 사용자 지정 메트릭 유형, 중
Aggregate
Derived
하나 또는Drift
. 정의는 사용자 지정 메트릭 유형을 참조 하세요. - 입력 열의 드롭다운 목록에서 메트릭을 적용할 열을 선택합니다.
- 출력 형식 필드에서 메트릭의 Spark 데이터 형식을 선택합니다.
- 정의 필드에 사용자 지정 메트릭을 정의하는 SQL 코드를 입력합니다.
UI에서 모니터 설정 편집
모니터를 만든 후 품질 탭에서 모니터 구성 편집 단추를 클릭하여 모니터 설정을 변경할 수 있습니다.
UI에서 모니터 결과 새로 고침 및 보기
모니터를 수동으로 실행하려면 메트릭 새로 고침을 클릭합니다.
모니터 메트릭 테이블에 저장된 통계에 대한 자세한 내용은 메트릭 테이블 모니터링을 참조 하세요. 메트릭 테이블은 Unity 카탈로그 테이블입니다. Notebook 또는 SQL 쿼리 탐색기에서 쿼리하고 카탈로그 탐색기에서 볼 수 있습니다.
출력 모니터링에 대한 액세스 제어
모니터에서 만든 메트릭 테이블 및 대시보드는 모니터를 만든 사용자가 소유합니다. Unity 카탈로그 권한을 사용하여 메트릭 테이블에 대한 액세스를 제어할 수 있습니다. 작업 영역 내에서 대시보드를 공유하려면 대시보드의 오른쪽 위에 있는 공유 단추를 클릭합니다.
UI에서 모니터 삭제
UI에서 모니터를 삭제하려면 메트릭 새로 고침 단추 옆에 있는 케밥 메뉴를 클릭하고 모니터 삭제를 선택합니다.