다음을 통해 공유


서버리스 송신 제어에 대한 네트워크 정책 관리

Important

이 기능은 공개 미리 보기 상태입니다.

이 문서에서는 Azure Databricks의 서버리스 워크로드에서 아웃바운드 네트워크 연결을 제어하도록 네트워크 정책을 구성하고 관리하는 방법을 설명합니다.

네트워크 정책 관리 권한은 계정 관리자로 제한됩니다. Azure Databricks 관리 소개를 참조하세요.

네트워크 정책 액세스

계정에서 네트워크 정책을 만들고, 보고, 업데이트하려면 다음을 수행합니다.

  1. 계정 콘솔에서 클라우드 리소스를 클릭합니다.
  2. 네트워크 탭을 클릭합니다.

네트워크 정책 목록입니다.

새 네트워크 정책 만들기

  1. 새 네트워크 정책 만들기클릭합니다.

  2. 네트워크 액세스 모드를 선택합니다.

    • 전체 액세스: 제한 없는 아웃바운드 인터넷 액세스. 전체 액세스를 선택하는 경우 아웃바운드 인터넷 액세스는 무제한으로 유지됩니다.
    • 제한된 액세스: 아웃바운드 액세스는 지정된 대상으로 제한됩니다. 자세한 내용은 네트워크 정책 개요를 참조하세요.

    네트워크 정책 세부 정보.

네트워크 정책 구성

다음 단계에서는 제한된 액세스 모드에 대한 선택적 설정을 간략하게 설명합니다.

아웃바운드 규칙

Unity 카탈로그 위치 또는 연결을 통해 설정된 대상은 정책에 의해 자동으로 허용됩니다.

  1. 서버리스 컴퓨팅에 추가 도메인에 대한 액세스 권한을 부여하려면 허용 도메인 목록 위에 있는 대상 추가를 클릭합니다.

    인터넷 대상을 추가합니다.

    FQDN 필터를 사용하면 동일한 IP 주소를 공유하는 모든 도메인에 액세스할 수 있습니다. 엔드포인트 전체에서 프로비전된 모델 제공은 네트워크 액세스가 제한되도록 설정된 경우 인터넷 액세스를 방지합니다. 그러나 FQDN 필터링을 사용한 세분화된 컨트롤은 지원되지 않습니다.

  2. 작업 영역에서 추가 Azure Storage 계정에 액세스할 수 있도록 하려면 허용된 스토리지 계정 목록 위의 대상 추가 단추를 클릭합니다.

    스토리지 대상을 추가합니다.

    참고 항목

    지원되는 최대 대상 수는 2000개입니다. 여기에는 정책에서 명시적으로 추가된 대상뿐만 아니라 작업 영역에서 액세스할 수 있는 모든 Unity 카탈로그 위치 및 연결이 포함됩니다.

정책 적용

로그 전용 모드를 사용하면 리소스에 대한 액세스를 방해하지 않고 정책 구성을 테스트하고 아웃바운드 연결을 모니터링할 수 있습니다. 로그 전용 모드를 사용하도록 설정하면 정책을 위반하는 요청이 기록되지만 차단되지는 않습니다. 다음 옵션 중에서 선택할 수 있습니다.

  1. Databricks SQL: Databricks SQL 웨어하우스는 로그 전용 모드에서 작동합니다.

  2. AI 모델 서빙: 모델 서빙 엔드포인트는 로그 전용 모드에서 작동합니다.

  3. 모든 제품: 모든 Azure Databricks 서비스는 로그 전용 모드에서 동작하여 다른 모든 선택 항목을 재정의합니다.

    스토리지 대상을 추가합니다.

기본 정책 업데이트

각 Azure Databricks 계정에는 기본 정책포함됩니다. 기본 정책 새로 만든 작업 영역을 포함하여 명시적 네트워크 정책 할당이 없는 모든 작업 영역과 연결됩니다. 이 정책은 수정할 수 있지만 삭제할 수는 없습니다. 기본 정책은 프리미엄 이상의 작업 영역에만 적용됩니다.

네트워크 정책을 작업 영역에 연결

추가 구성으로 기본 정책을 업데이트한 경우 기존 네트워크 정책이 없는 작업 영역에 자동으로 적용됩니다. 작업 영역은 프리미엄이어야 합니다.

작업 영역을 다른 정책과 연결하려면 다음을 수행합니다.

  1. 작업 영역을 선택합니다.
  2. 네트워크 정책에서 네트워크 정책업데이트를 클릭합니다.
  3. 목록에서 원하는 네트워크 정책을 선택합니다.

네트워크 정책을 업데이트합니다.

네트워크 정책 변경 적용

대부분의 네트워크 구성 업데이트는 10분 이내에 서버리스 컴퓨팅에 자동으로 전파됩니다. 다음 내용이 포함됩니다.

  • 새 Unity 카탈로그 외부 위치 또는 연결을 추가합니다.
  • 작업 영역을 다른 메타스토어에 연결합니다.
  • 허용되는 스토리지 또는 인터넷 대상 변경

참고 항목

인터넷 액세스 또는 로그 전용 모드 설정을 수정하는 경우 컴퓨팅을 다시 시작해야 합니다.

서버리스 워크로드 다시 시작 또는 다시 배포

인터넷 액세스 모드를 전환하거나 로그 전용 모드를 업데이트할 때만 업데이트해야 합니다.

적절한 다시 시작 절차를 확인하려면 제품별 다음 목록을 참조하세요.

  • Databricks ML 서비스: ML 서비스 엔드포인트를 다시 배포합니다. 엔드포인트를 제공하는 사용자 지정 모델 만들기 참조
  • 델타 라이브 테이블: 실행 중인 Delta Live Tables 파이프라인을 중지한 다음 다시 시작합니다. Delta Live Tables 파이프라인에서 업데이트 실행을 참조하세요.
  • 서버리스 SQL 웨어하우스: SQL 웨어하우스를 중지하고 다시 시작합니다. SQL 웨어하우스 관리를 참조하세요.
  • 워크플로: 새 작업 실행이 트리거되거나 기존 작업 실행이 다시 시작될 때 네트워크 정책 변경 내용이 자동으로 적용됩니다.
  • 전자 필기장:
    • Notebook이 Spark와 상호 작용하지 않는 경우 새 서버리스 클러스터를 종료하고 연결하여 Notebook에 적용된 네트워크 구성을 새로 고칠 수 있습니다.
    • 노트북이 Spark와 상호 작용하면 서버리스 리소스가 새로 고쳐지고 변경 사항이 자동으로 감지됩니다. 액세스 모드 및 로그 전용 모드 전환은 적용하는 데 최대 24시간이 걸릴 수 있으며 다른 변경 내용을 적용하는 데 최대 10분이 걸릴 수 있습니다.

네트워크 정책 적용 확인

다른 서버리스 워크로드에서 제한된 리소스에 액세스하려고 시도하여 네트워크 정책이 올바르게 적용되는지 확인할 수 있습니다. 유효성 검사 프로세스는 서버리스 제품에 따라 다릅니다.

Delta Live Tables를 사용하여 유효성 검사

  1. Python Notebook을 만듭니다. Delta Live Tables wikipedia python 자습서제공된 예제 Notebook을 사용할 수 있습니다.
  2. Delta Live Tables 파이프라인을 만듭니다.
    1. 작업 영역 사이드바에서 데이터 엔지니어링아래의 파이프라인을 클릭합니다.
    2. 파이프라인 만들기를 클릭합니다.
    3. 다음 설정을 사용하여 파이프라인을 구성합니다.
      • 파이프라인 모드: 서버리스
      • 소스 코드: 만든 전자 필기장을 선택합니다.
      • 스토리지 옵션: Unity 카탈로그. 원하는 카탈로그 및 스키마를 선택합니다.
    4. 만들기를 클릭합니다.
  3. Delta Live Tables 파이프라인을 실행합니다.
  4. 파이프라인 페이지에서 시작을 클릭합니다.
  5. 파이프라인이 완료되기를 기다립니다.
  6. 결과 확인
    • 신뢰할 수 있는 대상: 파이프라인이 성공적으로 실행되고 대상에 데이터를 씁니다.
    • 신뢰할 수 없는 대상: 네트워크 액세스가 차단되었음을 나타내는 오류와 함께 파이프라인이 실패해야 합니다.

Databricks SQL을 사용하여 유효성 검사

  1. SQL Warehouse를 만듭니다. 자세한 내용은 SQL 웨어하우스 만들기를 참조하세요.
  2. SQL 편집기에서 네트워크 정책으로 제어되는 리소스에 액세스하려고 시도하는 테스트 쿼리를 실행합니다.
  3. 결과를 확인합니다.
    • 신뢰할 수 있는 대상: 쿼리가 성공해야 합니다.
    • 신뢰할 수 없는 대상: 네트워크 액세스 오류로 쿼리가 실패해야 합니다.

모델 서비스로 유효성 검사

  1. 테스트 모델 만들기

    1. Python Notebook에서 파일 다운로드 또는 API 요청과 같은 공용 인터넷 리소스에 액세스하려는 모델을 만듭니다.
    2. 이 Notebook을 실행하여 테스트 작업 영역에서 모델을 생성합니다. 예시:
    
    import mlflow
    import mlflow.pyfunc
    import mlflow.sklearn
    import requests
    
    class DummyModel(mlflow.pyfunc.PythonModel):
        def load_context(self, context):
            pass
    
        def predict(self, _, model_input):
            first_row = model_input.iloc[0]
            try:
                response = requests.get(first_row['host'])
            except requests.exceptions.RequestException as e:
                # Return the error details as text
                return f"Error: An error occurred - {e}"
            return [response.status_code]
    
    with mlflow.start_run(run_name='internet-access-model'):
        wrappedModel = DummyModel()
    
        mlflow.pyfunc.log_model(artifact_path="internet_access_ml_model", python_model=wrappedModel, registered_model_name="internet-http-access")
    
  2. 서비스 엔드포인트 만들기

    1. 작업 영역 탐색에서 Machine Learning을 선택합니다.
    2. 서비스 탭을 클릭합니다.
    3. 서비스 엔드포인트 만들기를 클릭합니다.
    4. 다음 설정을 사용하여 엔드포인트를 구성합니다.
      • 서비스 엔드포인트 이름: 설명이 포함된 이름을 제공합니다.
      • 엔터티 세부 정보: 모델 레지스트리 모델을 선택합니다.
      • 모델: 이전 단계에서 만든 모델을 선택합니다.
    5. 확인을 클릭합니다.
    6. 서비스 엔드포인트가 준비 상태에 도달할 때까지 기다립니다.
  3. 엔드포인트를 쿼리합니다.

    1. 서비스 엔드포인트 페이지 내의 쿼리 엔드포인트 옵션을 사용하여 테스트 요청을 보냅니다.
    {"dataframe_records": [{"host": "https://www.google.com"}]}
    
  4. 결과를 확인합니다.

    • 인터넷 액세스 사용: 쿼리가 성공해야 합니다.
    • 인터넷 액세스 제한: 네트워크 액세스 오류로 쿼리가 실패해야 합니다.

네트워크 정책 업데이트

네트워크 정책을 만든 후 언제든지 업데이트할 수 있습니다. 네트워크 정책을 업데이트하려면 다음을 수행합니다.

  1. 계정 콘솔에서 네트워크 정책의 세부 정보 페이지에서 정책을 수정합니다.
    • 네트워크 액세스 모드를 변경합니다.
    • 특정 서비스에 대한 로그 전용 모드를 사용하거나 사용하지 않도록 설정합니다.
    • FQDN 또는 스토리지 대상을 추가하거나 제거합니다.
  2. 업데이트를 클릭합니다.
  3. 네트워크 정책 변경 적용을 참조하여 업데이트가 기존 워크로드에 적용되는지 확인합니다.

거부 로그 확인

거부 로그는 Unity 카탈로그의 system.access.outbound_network 테이블에 저장됩니다. 이러한 로그는 아웃바운드 네트워크 요청이 거부되는 시기를 추적합니다. 거부 로그에 액세스하려면 Unity 카탈로그 메타스토어에서 액세스 스키마가 사용하도록 설정되어 있는지 확인합니다. 시스템 테이블 스키마 사용을 참조하세요.

아래와 같은 SQL 쿼리를 사용하여 거부 이벤트를 봅니다. 로그 전용 로그를 사용하도록 설정하면 쿼리는 거부 로그와 로그 전용 로그를 모두 반환하며 열을 사용하여 access_type 구분할 수 있습니다. 거부 로그에는 DROP 값이 있지만, 로그 전용 로그에는 LOG_ONLY_DENIAL값이 표시됩니다.

다음 예제에서는 지난 2시간 동안의 로그를 검색합니다.


select * from system.access.outbound_network
where event_time >= current_timestamp() - interval 2 hour
sort by event_time desc

Mosaic AI Gateway를 사용하여 외부 생성 AI 모델에 연결할 때 거부는 네트워크 아웃바운드 시스템 테이블에 기록되지 않습니다. Mosaic AI Gateway 참조하세요.

참고 항목

액세스 시간과 거부 로그가 표시되는 시간 사이에 약간의 대기 시간이 있을 수 있습니다.

제한

  • 구성: 이 기능은 계정 콘솔을 통해서만 구성할 수 있습니다. API 지원은 아직 사용할 수 없습니다.

  • 아티팩트 업로드 크기: MLflow의 내부 Databricks Filesystem을 dbfs:/databricks/mlflow-tracking/<experiment_id>/<run_id>/artifacts/<artifactPath> 형식으로 사용하는 경우 아티팩트 업로드는 log_artifact, log_artifactslog_model API에 대해 5GB로 제한됩니다.

  • 지원되는 Unity 카탈로그 연결: 지원되는 연결 유형은 MySQL, PostgreSQL, Snowflake, Redshift, Azure Synapse, SQL Server, Salesforce, BigQuery, Netsuite, Workday RaaS, Hive MetaStore 및 Salesforce Data Cloud입니다.

  • 모델 서비스: 모델 서비스용 이미지를 빌드할 때 출력 제어가 적용되지 않습니다.

  • Azure 스토리지 액세스: Azure Data Lake Storage에 대해 Azure Blob Filesystem 드라이버만 지원됩니다. Azure Blob Storage 드라이버 또는 WASB 드라이버를 사용하는 액세스는 지원되지 않습니다.