다음을 통해 공유


이미지 애플리케이션에 대한 참조 솔루션

많은 실제 이미지 애플리케이션에서 공유하는 공통 구성에서 pandas UDF, PyTorch 및 TensorFlow를 사용하여 참조 솔루션 Notebook에서 분산 이미지 모델 유추를 수행하는 방법을 알아봅니다. 이 구성에서는 사용자가 개체 저장소에 많은 이미지를 저장하고 있다고 가정하며 선택적으로는 계속해서 새 이미지가 도착한다고 가정합니다.

이미지 모델 추론을 위한 워크플로

이미지 분류 및 개체 감지를 위해 학습된 DL(딥 러닝) 모델이 여러 개 있고(예: 개인 정보 보호를 위해 사용자 업로드 사진에서 사람 개체를 검색하는 MobileNetV2) 이러한 DL 모델을 저장된 이미지에 적용하려고 한다고 가정합니다.

모델을 다시 학습하고 이전에 계산된 update 예측을 다시 수행할 수 있습니다. 그러나 많은 이미지를 로드하고 DL 모델을 적용하면 I/O와 컴퓨팅이 모두 무거워집니다. 다행스럽게도 유추 워크로드는 처치 곤란 병렬이며 이론상 쉽게 분산될 수 있습니다. 이 가이드는 두 가지 주요 단계를 포함하는 실용적인 솔루션을 안내합니다.

  1. 이미지를 자동 로더를 사용하여 델타 table에 ETL하기
  2. pandas UDF를 사용하여 분산 유추 수행

델타 table에 ETL 이미지를 자동 로더를 사용하여 변환하기

학습 및 유추 작업을 포함한 이미지 애플리케이션의 경우, Databricks는 이미지 ETL을 Delta table에 하고, Auto Loader를 사용하는 것을 권장합니다. 자동 로더는 데이터 관리를 돕고 지속적으로 도착하는 새 이미지를 자동으로 처리합니다.

Delta table 노트북에 ETL 이미지 데이터셋

Get 노트북

pandas UDF를 사용하여 분산 유추 수행

다음 Notebooks는 PyTorch 및 TensorFlow tf.Keras를 사용하여 참조 솔루션을 시연합니다.

Pytorch 및 pandas UDF Notebook을 통한 분산 유추

Get 노트북

Keras 및 pandas UDF Notebook을 통한 분산 유추

Get 노트북

제한 사항: 이미지 파일 크기

큰 이미지 파일(평균 이미지 크기가 100MB 이상인 경우)에 대해, Databricks는 메타데이터(파일 이름의list)만 관리하기 위해 Delta table만 사용하고, 필요할 때 그 경로를 활용하여 객체 저장소에서 이미지를 로드하는 것을 권장합니다.