Azure Databricks 작업에서 Python 휠 파일 사용

아티클
10/14/2024

Python 휠 파일은 Python 애플리케이션을 실행하는 데 필요한 파일을 패키지하고 배포하는 표준 방법입니다. Python 휠 작업을 사용하면 Azure Databricks 작업에서 Python 코드를 빠르고 안정적으로 설치할 수 있습니다. 이 문서에서는 파이썬 휠 파일을 생성하는 예와 파이썬 휠 파일로 패키징된 애플리케이션을 실행하는 작업을 제공합니다. 이 예에서는 다음을 수행합니다.

예제 애플리케이션을 정의하는 Python 파일을 만듭니다.
예제 파일을 Python 휠 파일로 묶습니다.
Python 휠 파일을 실행하는 작업을 만듭니다.
작업을 실행하고 결과를 봅니다.

시작하기 전에

이 예를 완료하려면 다음이 필요합니다.

Python3
Python wheel 및 setuptool 패키지. pip를 사용하여 이러한 패키지를 설치할 수 있습니다. 예를 들어, 다음 명령을 실행하여 이러한 패키지를 설치할 수 있습니다.
```
pip install wheel setuptools
```

1단계: 예를 위한 로컬 디렉터리 만들기

예제 코드와 만들어진 아티팩트를 보관할 로컬 디렉터리를 만듭니다(예: databricks_wheel_test).

2단계: 예제 Python 스크립트 만들기

다음 Python 예제는 입력 인수를 읽고 해당 인수를 출력하는 간단한 스크립트입니다. 이 스크립트를 복사하고 이전 단계에서 만든 디렉터리의 my_test_code/__main__.py라는 경로에 저장합니다.

"""
The entry point of the Python Wheel
"""

import sys

def main():
  # This method will print the provided arguments
  print('Hello from my func')
  print('Got arguments:')
  print(sys.argv)

if __name__ == '__main__':
  main()

3단계: 패키지에 대한 메타데이터 파일 만들기

다음 파일에는 패키지를 설명하는 메타데이터가 포함되어 있습니다. 이것을 1단계에서 만든 디렉터리의 my_test_code/__init__.py라는 경로에 저장합니다.

__version__ = "0.0.1"
__author__ = "Databricks"

4단계: Python 휠 파일 만들기

파이썬 아티팩트를 파이썬 휠 파일로 변환하려면 패키지 이름 및 진입 지점과 같은 패키지 메타데이터를 지정해야 합니다. 다음 스크립트는 이 메타데이터를 정의합니다.

참고 항목

이 스크립트에 정의된 entry_points는 Azure Databricks 워크플로에서 패키지를 실행하는 데 사용됩니다. entry_points의 각 값에서 = 앞의 값(이 예제에서는 run)은 진입점의 이름이고 파이썬 휠 작업을 구성하는 데 사용됩니다.

1단계에서 만든 디렉터리의 루트에 있는 setup.py는 파일에 이 스크립트를 저장합니다.

from setuptools import setup, find_packages

import my_test_code

setup(
  name='my_test_package',
  version=my_test_code.__version__,
  author=my_test_code.__author__,
  url='https://databricks.com',
  author_email='john.doe@databricks.com',
  description='my test wheel',
  packages=find_packages(include=['my_test_code']),
  entry_points={
    'group_1': 'run=my_test_code.__main__:main'
  },
  install_requires=[
    'setuptools'
  ]
)

1단계에서 만든 디렉터리로 변경하고 다음 명령을 실행하여 코드를 파이썬 휠 배포에 패키지합니다.
```
python3 setup.py bdist_wheel
```

이 명령은 파이썬 휠 파일을 만들고 디렉터리의 dist/my_test_package-0.0.1-py3.none-any.whl 파일에 저장합니다.

5단계. Python 휠 파일을 실행할 Azure Databricks 작업 만들기

Azure Databricks 방문 페이지로 이동하여 다음 중 하나를 수행합니다.
- 사이드바에서 워크플로를 클릭하고 (을)를 클릭합니다.
- 사이드바에서 새로 만들기를 클릭하고 메뉴에서 작업을 선택합니다.
작업 탭에 나타나는 작업 대화 상자에서 작업 이름 추가…를 작업 이름(예: Python wheel example)으로 바꿉니다.
작업 이름에 작업 이름(예: python_wheel_task)을 입력합니다.
형식에서 Python 휠을 선택합니다.
패키지 이름에 my_test_package를 입력합니다. 패키지 이름 값은 가져올 Python 패키지의 이름입니다. 이 예제에서 패키지 이름은 name의 setup.py 매개 변수에 할당된 값입니다.
점에 run를 입력합니다. 진입점은 setup.py 스크립트의 entry_points 컬렉션에 지정된 값 중 하나입니다. 이 예제에서는 run가 정의된 유일한 진입점입니다.
컴퓨팅에서 기존 작업 클러스터를 선택하거나 새 작업 클러스터를 추가합니다.
종속 라이브러리에서 가를 클릭합니다. 작업 영역이 선택된 종속 라이브러리 추가 대화 상자에서 4단계에서 만든 my_test_package-0.0.1-py3-none-any.whl 파일을 대화 상자의 이곳에 파일 드롭 영역으로 끌어옵니다.
추가를 클릭합니다.
개 변수서 치 인수 또는 드 인수를 선택하여 각 매개 변수의 키와 값을 입력합니다. 위치 및 키워드 인수는 모두 명령줄 인수로 Python 휠 작업에 전달됩니다.
- 위치 인수를 입력하려면 매개 변수를 JSON 형식 문자열 배열로 입력합니다(예: ["first argument","first value","second argument","second value"]).
- 키워드 인수를 입력하려면 + 추가를 클릭하고 키와 값을 입력합니다. + 추가를 다시 클릭하여 인수를 더 입력합니다.
작업 만들기를 클릭합니다.