Azure Databricks에 대한 예비 데이터 분석: 도구 및 기술
이 문서에서는 Azure Databricks에서 EDA(예비 데이터 분석)를 위한 도구와 기술을 설명합니다.
EDA란 무엇이며 왜 유용한가요?
EDA(예비 데이터 분석)에는 데이터 집합을 탐색하여 주요 특성을 요약하고 데이터 문제를 식별하는 방법이 포함되어 있습니다. 통계 메서드 및 시각화를 사용하여 데이터 집합에 대해 알아보고 분석 준비 상태를 확인하고 데이터 준비에 적용할 기술을 알릴 수 있습니다. EDA는 ML 모델 학습에 적용하도록 선택한 알고리즘에도 영향을 줄 수 있습니다.
Azure Databricks의 EDA 도구란?
Azure Databricks에는 Databricks SQL 및 Databricks 런타임 모두에서 기본 제공 분석 및 시각화 도구가 있습니다. Azure Databricks에서 사용할 수 있는 시각화 형식의 그림 목록은
Databricks SQL의 EDA
Databricks SQL의 데이터 시각화 및 탐색 도구에 대한 몇 가지 유용한 문서는 다음과 같습니다.
Databricks 런타임의 탐색적 데이터 분석 (EDA)
Databricks 런타임은 인기 있는 데이터 탐색 라이브러리가 이미 설치된 미리 빌드된 환경을 제공합니다. 릴리스 정보에서 기본 제공 라이브러리 목록을 볼 수 있습니다.
또한 다음 문서에서는 Databricks 런타임의 시각화 도구 예제를 보여 줍니다.
Databricks Python Notebook에서 SQL과 Python을 결합하여 데이터를 탐색할 수 있습니다. Python Notebook의 SQL 언어 셀에서 코드를 실행하면 테이블 결과가 Python DataFrame으로 자동으로 제공됩니다. 자세한 내용은 SQL 셀 결과를 Python 노트북에서 탐색하는 방법을 참조하세요.