다음을 통해 공유


Azure에서 AI 워크로드에 대한 학습 데이터 디자인

애플리케이션에서 AI 기능에 대한 데이터를 디자인할 때는 조작성, 비용 및 보안과 같은 비기능적 요구 사항과 데이터 수집, 준비 및 유효성 검사와 관련된 기능 요구 사항을 모두 고려합니다.

데이터 디자인 및 애플리케이션 디자인은 분리할 수 없습니다. 애플리케이션 디자인을 사용 사례, 쿼리 패턴 및 새로 고침 요구 사항을 이해해야 합니다. AI를 사용해야 하는 비즈니스 요구 사항을 해결하기 위해 애플리케이션은 차별적 모델, 생성 모델 또는 모델 유형의 조합에서 출력이 필요할 수 있습니다.

의미 있는 결과를 생성하려면 AI 모델을 학습해야 합니다. 모델 학습에는 새 상황이나 보이지 않는 상황을 분류하거나 예측하는 모델을 가르치는 작업이 포함됩니다. 학습 데이터는 특정 문제 및 워크로드 컨텍스트에 맞게 조정되어야 합니다.

감독 학습에는 레이블이 지정된 샘플이 있는 모델을 제공하는 작업이 포함됩니다. 이 유형의 학습은 원하는 결과가 명확할 때 유용합니다. 반면, 자율 학습을 사용하면 모델이 예상 출력에 대한 지침 없이 데이터 내의 패턴 및 관계를 식별할 수 있습니다. 학습하는 동안 알고리즘 형식과 해당 매개 변수는 모델이 학습하는 방법을 제어하도록 조정됩니다. 이 방법은 신경망, 의사 결정 트리 등을 포함할 수 있는 모델 유형에 따라 달라집니다.

예를 들어 이미지 감지 모델은 일반적으로 개체 감지, 얼굴 인식 또는 장면 이해와 같은 작업에 대해 학습됩니다. 주석이 추가된 이미지에서 학습하여 특정 개체 또는 기능을 식별합니다. 기타 일반적인 예로는 사기 감지 알고리즘 및 가격 포인트 예측 모델이 있습니다. 이러한 모델은 기록 재무 데이터에서 학습하여 정보에 입각한 결정을 내립니다.

이 문서에서는 주로 모델이 애플리케이션에 의미 있는 입력을 제공하기 전에 학습되는 이전 사용 사례에 중점을 둡니다. 이 문서에는 데이터 수집, 처리, 저장, 테스트 및 유지 관리에 대한 지침이 포함되어 있습니다. AI를 통한 예비 데이터 과학 또는 비즈니스 인텔리전스를 위한 데이터 디자인은 다루지 않습니다. 목표는 AI 워크로드의 학습 데이터 파이프라인에 대한 권장 사항을 제공하여 워크로드 요구 사항에 부합하는 전략을 통해 학습 요구를 지원하는 것입니다.

추론 중에 컨텍스트가 필요한 AI 모델의 데이터 디자인에 대한 자세한 내용은 Grounding 데이터 디자인을 참조하세요.

Important

데이터 디자인은 통계 실험을 기반으로 하는 반복적인 프로세스가 될 것으로 예상합니다. 허용 가능한 품질 수준에 도달하려면 학습 데이터, 해당 처리, 모델 기능 개발 및 모델 하이퍼 매개 변수(가능한 경우)를 조정합니다. 이 실험 루프는 일반적으로 초기 모델 학습 중과 워크로드에서 기능의 수명 동안 데이터 및 모델 드리프트를 해결하기 위한 지속적인 구체화 작업 중에 발생합니다.

권장 사항

다음은 이 문서에 제공된 권장 사항의 요약입니다.

추천 설명
워크로드 요구 사항에 따라 데이터 원본을 선택합니다. 사용 가능한 리소스 및 데이터 원본이 모델 학습에 허용되는 데이터 품질에 도달하는 데 도움이 되는지 여부를 고려합니다. 양수 및 음수 예제를 모두 다룹니다. 다양한 데이터 형식을 결합하여 분석 및 모델링을 위한 적절한 완성도를 달성합니다. 데이터 부족 또는 불균형에 대한 SMOTE(가상 소수점 초과 샘플링 기술)와 같은 기술을 고려합니다.

데이터 수집 및 분석
수집된 데이터에 대한 데이터 분석을 일찍 수행합니다. 오프라인으로 EDA(예비 데이터 분석)와 같은 분석 프로세스를 수행합니다. 비용과 보안에 미치는 영향을 고려합니다. 리소스 제약 조건이 없는 작은 데이터 세트의 경우 원본에서 분석을 수행하는 것이 좋습니다.

데이터 수집 저장소
비즈니스 및 기술 요구 사항이 요구되는 경우 데이터 구분을 유지 관리합니다. 고유한 보안 요구 사항이 있는 데이터 원본을 사용하는 경우 각 모델에 대해 별도의 파이프라인을 만듭니다. 액세스 제어를 설정하여 특정 데이터 하위 집합과의 상호 작용을 제한합니다.

데이터 구분
학습 목표에 대해 의미 있게 데이터를 전처리합니다. 노이즈를 필터링하고, 데이터의 범위를 조정하고, 중복 항목을 해결하고, 다양한 형식을 표준화하여 수집된 데이터의 품질을 구체화합니다.

데이터 전처리
부실 데이터에 대한 학습을 피합니다. 시간이 지남에 따라 모델의 정확도와 안정성을 유지하기 위해 내부 및 외부 운영 루프의 일부로 데이터 드리프트 및 개념 드리프트를 모니터링합니다. 새 관찰을 사용하여 학습 데이터를 정기적으로 업데이트합니다. 모델 재학습을 트리거하고 업데이트 빈도를 결정하는 조건을 정의합니다.

데이터 유지 관리

데이터 유형

모델에서 예측 능력을 구축하려면 데이터를 수집하고, 처리하고, 모델에 공급해야 합니다. 이 프로세스는 일반적으로 스테이지로 구분되는 파이프라인으로 개념화됩니다. 파이프라인의 각 단계에서는 동일한 데이터 집합을 처리할 수 있지만 서로 다른 용도로 사용될 수 있습니다. 일반적으로 다음 형식의 데이터를 처리합니다.

  • 원본 데이터는 지정 시간 관찰 데이터입니다. 데이터 파이프라인에 대한 잠재적 입력 역할을 하도록 레이블을 지정할 수 있는 데이터일 수도 있습니다.

    이 데이터는 일반적으로 프로덕션 또는 외부 원본에서 가져옵니다. 이러한 데이터 원본은 스토리지 계정, 데이터베이스, API 또는 기타 원본에 있을 수 있습니다. 데이터는 OLTP 데이터베이스, 구조화되지 않은 문서 또는 로그 파일과 같은 다양한 데이터 형식일 수 있습니다. 이 데이터는 데이터 파이프라인에 대한 잠재적인 입력 역할을 합니다.

  • 학습 데이터는 모델에 샘플을 제공하는 데 사용되는 원본 데이터의 하위 집합입니다. 샘플은 모델이 패턴 및 관계를 학습하는 데 도움이 되는 설명이 포함된 미리 계산된 데이터입니다. 이 데이터가 없으면 모델은 관련 출력을 생성할 수 없습니다.

  • 평가 데이터는 학습 중에 기계 학습 모델의 성능을 모니터링하고 유효성을 검사하는 데 사용되는 원본 데이터의 하위 집합입니다. 학습 및 테스트 데이터와는 별개이며 학습 단계 동안 모델의 성능을 주기적으로 평가하고 하이퍼 매개 변수 튜닝을 안내하는 데 사용됩니다. 자세한 내용은 모델 평가를 참조하세요.

  • 테스트 데이터는 학습된 모델의 예측 능력의 유효성을 검사하는 데 사용됩니다. 이 데이터는 학습에 사용되지 않은 원본 데이터에서 샘플링됩니다. 테스트 프로세스가 결정적이 되도록 프로덕션의 관찰을 포함합니다. 데이터 디자인 관점에서 이 데이터를 저장해야 합니다. 모델 테스트에 대한 자세한 내용은 테스트 디자인 영역을 참조하세요.

경우에 따라 애플리케이션과 상호 작용하는 동안 사용자가 제공하는 정보는 결국 원본 데이터가 될 수 있습니다. 일반적으로 이러한 방식으로 사용되는 사용자 입력은 고품질인 것이 좋습니다. 그렇지 않으면 다운스트림에서 품질 문제를 지속적으로 처리해야 하는 문제가 될 수 있습니다. 사용자 데이터 처리에 대한 지침은 이 문서에서 다루지 않습니다.

데이터 수집 및 분석

학습 데이터는 선택한 모델 형식을 학습하기 위한 충분한 표현이 있는 미리 결정된 창 내에서 수집됩니다. 예를 들어 이진 분류 모델을 학습할 때 학습 데이터에는 대/소문자(양수 예제)와 대/소문자(음수 예제)의 표현이 포함되어야 합니다. 학습 데이터가 의미 있는 경우 기능 디자인 중 초기에 EDA를 수행합니다.

EDA는 원본 데이터를 분석하여 특성, 관계, 패턴 및 품질 문제를 식별하는 데 도움이 됩니다. 원본 데이터 저장소에서 직접 EDA를 수행하거나 데이터 레이크 또는 데이터 웨어하우스와 같은 중앙 저장소에 데이터를 복제할 수 있습니다. 프로세스의 결과는 효과적인 모델 학습을 위해 데이터 수집 및 처리를 알리는 것입니다.

참고 항목

EDA는 사전 프로덕션 프로세스이지만 프로덕션에서 원본으로 제공되는 데이터를 사용합니다. 프로덕션과 동일한 수준의 제어를 이 프로세스에 적용합니다.

다음은 모델 학습을 준비하기 위해 데이터를 수집하기 위한 몇 가지 고려 사항입니다.

데이터 원본

데이터는 다음 원본에서 수집할 수 있습니다.

  • 독점 데이터는 조직에서 만들거나 소유합니다. 그것은 공공 소비를위한 것이 아닙니다. 내부 용도로 사용됩니다.

  • 공용 원본은 누구나 액세스할 수 있습니다. 이러한 출처에는 웹 사이트, 연구 논문 및 공개적으로 공유된 데이터베이스가 포함됩니다. 틈새 지역과 관련이 있을 수 있습니다. 예를 들어 Wikipedia 및 PubMed의 콘텐츠는 공개적으로 액세스할 수 있는 것으로 간주됩니다.

데이터 원본 선택은 워크로드 요구 사항, 사용 가능한 리소스 및 모델 학습에 허용되는 데이터의 품질에 따라 달라집니다. 불균형 데이터 세트는 편향된 모델로 이어질 수 있으므로 대표 데이터의 충분한 샘플을 얻기 위해 데이터 수집을 디자인해야 합니다. 소수 데이터 또는 대다수 데이터를 오버샘플링해야 할 수 있습니다. 데이터가 부족하거나 불균형한 경우 SMOTE 및 가상 데이터 생성같은 기술을 고려합니다.

데이터 수집 저장소

원본 데이터를 수집하기 위한 두 가지 주요 옵션이 있습니다.

  • 데이터 원본에서 데이터 쿼리
  • 지역화된 데이터 저장소에 데이터 복사 및 해당 저장소 쿼리

선택은 워크로드 요구 사항 및 데이터 볼륨에 따라 달라집니다. 상대적으로 적은 양의 데이터가 있는 경우 원본 시스템에서 원시 쿼리를 직접 처리할 수 있습니다. 그러나 일반적인 방법은 지역화된 저장소에서 쿼리하고 분석하는 것입니다.

거래. 지역화된 데이터 저장소는 분석 및 학습 프로세스를 용이하게 할 수 있지만 비용, 보안 및 모델 요구 사항의 균형을 유지해야 합니다.

데이터를 복제하면 스토리지 및 컴퓨팅 비용이 발생합니다. 별도의 복사본을 유지 관리하려면 추가 리소스가 필요합니다. 로컬 복사본에는 중요한 정보가 포함될 수 있습니다. 이 경우 정기적인 보안 조치를 사용하여 데이터를 보호해야 합니다.

학습 데이터에 프로덕션 데이터를 사용하는 경우 해당 데이터의 모든 원래 데이터 분류 제약 조건이 적용되어야 합니다.

데이터를 학습 프로세스(푸시 모드)에 제공하거나 프로세스 자체가 데이터 원본(끌어오기 모드)을 쿼리할 수 있습니다. 선택은 소유권, 효율성 및 리소스 제약 조건에 따라 달라집니다.

데이터가 워크로드에 푸시되는 경우 새 데이터를 제공하는 것은 데이터 원본 소유자의 책임입니다. 워크로드 소유자는 데이터를 저장하기 위해 지역화된 데이터 저장소에 적절한 위치를 제공합니다. 이 방법은 공용 원본이 아닌 조직이 소유한 소유 데이터에 적용됩니다.

데이터를 끌어당기는 데 사용할 수 있는 두 가지 방법이 있습니다. 한 가지 방법에서 워크로드는 데이터 저장소에 대해 쿼리하고, 필요한 데이터를 검색하고, 지역화된 저장소에 배치합니다. 또 다른 방법은 메모리에서 실시간 쿼리를 수행하는 것입니다. 결정은 데이터 볼륨 및 사용 가능한 컴퓨팅 리소스에 따라 달라집니다. 작은 데이터 세트의 경우 메모리 내 검색으로 모델 학습에 충분할 수 있습니다.

푸시 또는 풀 모드를 사용하는지 여부에 관계없이 부실 데이터에 대한 모델을 학습하지 않습니다. 데이터 업데이트 빈도는 워크로드 요구 사항에 맞춰야 합니다.

데이터 구분

워크로드별 요구 사항에 따라 데이터 구분이 필요할 수 있습니다. 몇 가지 잠재적인 사용 사례는 다음과 같습니다.

  • 보안 요구 사항은 종종 구분 결정을 내립니다. 예를 들어 규제 제약 조건으로 인해 지정학적 지역 간에 데이터를 내보내지 못할 수 있습니다. 애플리케이션 디자인에서 별도의 모델을 사용할 수 있는 경우 데이터 디자인은 각 모델에 대해 별도의 데이터 파이프라인을 통합합니다.

    그러나 단일 모델을 사용하는 경우 분할된 데이터 원본은 해당 모델에 공급됩니다. 두 지리적 위치의 데이터에 대해 모델을 학습해야 하므로 복잡성이 더해집니다.

    애플리케이션이 단일 모델 또는 여러 모델을 사용하는지 여부에 관계없이 원본의 데이터와 동일한 수준의 엄격한 수준으로 보호되도록 각 데이터 세그먼트에 대한 보안 조치를 유지합니다.

  • 데이터 새로 고침 속도 는 데이터를 구분하는 요인이 될 수 있습니다. 다른 원본의 데이터는 다양한 시간 간격으로 새로 고칠 수 있습니다. 데이터가 변경되면 재학습이 필요합니다. 분할을 사용하면 데이터 수명 주기를 세부적으로 제어할 수 있습니다. 다른 데이터 세그먼트에 별도의 테이블 또는 파이프라인을 사용하는 것이 좋습니다.

사용 사례에 관계없이 데이터가 분할되는 경우 액세스 제어가 핵심입니다. 데이터 엔지니어 및 데이터 과학자와 같은 데이터 전문가는 사용 가능한 원본 데이터를 탐색하여 패턴과 관계를 이해합니다. 이러한 인사이트는 결과를 예측하는 학습 모델에 기여합니다. 권한 있는 사용자만 특정 데이터 하위 집합과 상호 작용할 수 있도록 액세스 제어를 설정합니다. 관련된 것으로 간주되는 데이터에 최소 권한을 적용합니다. 데이터 소유자와 공동 작업하여 적절한 권한을 설정합니다.

데이터 전처리

실제 시나리오에서 원본 데이터는 단순히 AI 시나리오에 저장되지 않습니다. 학습을 위해 데이터를 준비하는 중간 프로세스가 있습니다. 이 단계에서는 데이터가 노이즈를 제거하여 소비에 유용합니다. 원본 데이터를 처리할 때 데이터 과학자는 탐색, 실험 및 의사 결정 프로세스에 참여합니다. 주요 목표는 예측 능력을 보유하는 원본 데이터의 일부를 식별하고 추출하는 것입니다.

전처리 논리는 문제, 데이터 형식 및 원하는 결과에 따라 달라집니다. 다음은 전처리를 위한 몇 가지 일반적인 기술입니다. 이 목록은 완전하지 않습니다. 워크로드의 실제 기준은 비즈니스 요구 사항에 따라 달라집니다.

  • 품질. 전처리를 사용하면 학습 데이터가 노이즈를 제거하도록 할 수 있습니다. 학습 데이터의 모든 행이 명확한 관찰 또는 사용 사례와 관련된 좋은 예를 나타내고 품질 또는 예측 능력이 부족한 관찰을 제거하는 것이 목표입니다. 예를 들어 제품 검토를 대조하는 경우 너무 짧은 데이터를 제거하도록 선택할 수 있습니다. 의미 있는 예측 결과를 생성하는 데이터 품질을 검색해야 합니다.

  • 범위 지정 너무 구체적인 원본 데이터 필드는 예측 능력을 제한할 수 있습니다. 예를 들어 주소 필드를 고려합니다. 전체 주소(주택 번호 및 거리 이름)에서 더 높은 수준(예: 도시, 주 또는 국가/지역)으로 범위를 확대하는 것이 더 관련성이 높을 수 있습니다.

  • 중복 제거. 중복성을 제거하면 학습 데이터가 정확하고 대표적인 상태를 유지할 수 있습니다. 경우에 따라 관찰이 이루어지는 빈도는 관련이 없습니다. 예를 들어 로그를 검색할 때 로그 항목이 1,000번 표시되면 해당 빈도를 나타냅니다. 한 번만 발생한 로그보다 더 심각한 오류라는 의미는 아닙니다. 이러한 유형의 중복성으로 인해 노이즈가 발생할 수 있습니다.

  • 중요한 데이터 처리. 익명화를 통해 달성할 수 없는 방식으로 모델의 예측 성능에 절대적으로 중요한 경우가 아니면 개인 데이터를 제거합니다. 학습 데이터는 개인 정보를 손상시키지 않고 효과적이어야 합니다. 데이터가 가치를 제공하는 경우 중요한 데이터 처리에 대한 윤리적 고려 사항을 알고 있어야 합니다. 자세한 내용은 책임 있는 AI를 참조하세요.

  • 표준화된 변환. 도메인 전문가들은 이전 기술을 기능 엔지니어링의 핵심 부분으로 간주합니다. 광범위한 범위 및 다양한 원본 데이터는 결국 학습 모델의 명시적 목적을 위해 기능이 구성되는 기능 저장소(예: 기능 테이블)로 병합해야 합니다. 학습을 위해 예측 데이터를 선택한 후 데이터를 표준화된 형식으로 변환합니다. 표준화는 학습 모델과의 호환성도 보장합니다.

    이미지를 텍스트 표현으로 변환하는 것은 변환의 한 형태입니다. 예를 들어 스캔한 문서 또는 이미지를 컴퓨터에서 읽을 수 있는 텍스트로 변환할 수 있습니다.

    모델과의 호환성을 보장하려면 모델의 기대에 맞게 이미지의 방향 또는 가로 세로 비율을 조정해야 할 수 있습니다.

참고 항목

많은 양의 구조적 데이터와 구조화되지 않은 데이터를 혼합하면 처리 시간이 늘어나게 됩니다. 워크로드 팀은 다양한 형식 처리의 영향을 측정해야 합니다. 재학습 작업 사이의 기간이 짧아지면 전처리에 소요되는 시간이 더 중요해집니다.

데이터 보존

모델을 학습한 후 학습에 사용된 데이터를 삭제할지 여부를 평가하고 다음 학습 창에 대한 모델을 다시 빌드합니다.

데이터가 상대적으로 변경되지 않은 경우 모델 드리프트가 발생하지 않는 한 재학습이 필요하지 않을 수 있습니다. 예측의 정확도가 낮아지면 모델을 다시 학습시켜야 합니다. 데이터를 다시 수집하고, 전처리하고, 모델을 빌드하도록 선택할 수 있습니다. 마지막 학습 기간 이후 데이터에 상당한 델타가 있는 경우 해당 작업 과정이 가장 좋습니다. 많은 양의 데이터가 있고 크게 변경되지 않은 경우 모델을 전처리하고 다시 빌드할 필요가 없을 수 있습니다. 이 경우 데이터를 보존하고, 현재 위치 업데이트를 수행하고, 모델을 다시 학습시킵니다. 학습 데이터를 보존할 기간을 결정합니다.

일반적으로 기능 저장소에서 데이터를 삭제하여 성능이 저하되고 현재 또는 미래의 모델과 더 이상 관련이 없는 기능에 대한 혼란과 스토리지 비용을 줄입니다. 데이터를 유지하는 경우 비용을 관리하고 데이터 중복의 일반적인 문제인 보안 문제를 해결해야 합니다.

계보 추적

데이터 계보 는 원본에서 모델 학습에 사용할 데이터 경로를 추적하는 것을 의미합니다. 데이터 계보를 추적하는 것은 설명에 필수적입니다. 사용자가 데이터 원본에 대한 자세한 정보가 필요하지는 않지만 해당 정보는 내부 데이터 거버넌스 팀에 매우 중요합니다. 계보 메타데이터는 모델에서 직접 사용되지 않더라도 투명성과 책임을 보장합니다. 디버깅 용도로 유용합니다. 또한 데이터 전처리 중에 바이어스가 도입되는지 여부를 확인하는 데 도움이 됩니다.

가능하면 계보 추적에 플랫폼 기능을 사용합니다. 예를 들어 Azure Machine Learning은 Microsoft Purview에 통합됩니다. 이 통합을 통해 MLOps 수명 주기의 일부로 데이터 검색, 계보 추적 및 거버넌스 기능에 액세스할 수 있습니다.

데이터 유지 관리

모든 모델은 시간이 지남에 따라 부실해질 수 있으므로 모델의 예측 능력 또는 관련성이 감소합니다. 사용자 동작, 시장 역학 또는 기타 요인의 변화를 포함하여 몇 가지 외부 변경으로 인해 붕괴가 발생할 수 있습니다. 얼마 전에 학습된 모델은 변화하는 상황 때문에 관련성이 낮을 수 있습니다. 더 나은 충실도로 예측을 하려면 최근 데이터가 필요합니다.

  • 최신 모델 채택. 관련성을 보장하려면 지속적으로 모델 성능을 평가하고 최신 모델을 고려하는 운영 루프가 필요합니다. 이 루프는 데이터 파이프라인의 중단을 최소화합니다. 또는 데이터 수명 주기 및 파이프라인을 다시 디자인하는 것과 관련된 더 큰 변경에 대비할 수 있습니다.

    새 모델을 선택할 때 반드시 새 데이터 집합으로 시작할 필요는 없습니다. 학습에 사용되는 기존 관찰은 모델 전환 중에도 유용하게 유지될 수 있습니다. 새 모델은 더 좁은 시나리오를 표시할 수 있지만 기본 프로세스는 유사합니다. 기능 저장소 및 데이터 메시와 같은 데이터 관리 접근 방식은 새로운 기계 학습 모델의 채택을 간소화할 수 있습니다.

  • 트리거 기반 작업과 루틴 작업 비교 특정 이벤트 또는 조건에 의해 모델 재학습을 트리거해야 하는지 여부를 고려합니다. 예를 들어 새로운 관련 데이터의 가용성 또는 설정된 기준 아래의 관련성 하락으로 인해 재학습이 트리거될 수 있습니다. 이 방법의 장점은 응답성과 시기 적절하게 업데이트된다는 것입니다.

    유지 관리는 매일 또는 매주와 같은 일정한 고정 간격으로 예약할 수도 있습니다. 장애 조치(fail-proof) 작업의 경우 두 가지 방법을 모두 고려합니다.

  • 데이터 제거. 더 이상 학습에 사용되지 않는 데이터를 제거하여 리소스 사용을 최적화하고 모델 학습에 오래되거나 관련이 없는 데이터를 사용할 위험을 최소화합니다.

    잊혀 질 권리는 온라인 플랫폼 또는 데이터베이스에서 개인 데이터를 제거할 수 있는 개인의 권리를 의미합니다. 학습에 사용되는 개인 데이터를 제거하는 정책이 있어야 합니다.

  • 데이터 보존. 경우에 따라 기존 모델을 다시 빌드해야 합니다. 예를 들어 재해 복구의 경우 모델은 치명적인 이벤트 이전과 정확히 동일하게 다시 생성되어야 합니다. 모델 감쇠 해결, 트리거 기반 또는 일상적인 작업을 통한 정기 업데이트 및 기타 유지 관리 작업과 같이 기본 파이프라인의 워크로드 요구 사항을 따르는 보조 데이터 파이프라인을 사용하는 것이 좋습니다.

거래. 데이터 유지 관리는 비용이 많이 듭니다. 여기에는 데이터 복사, 중복 파이프라인 빌드 및 일상적인 프로세스 실행이 포함됩니다. 정기적인 교육은 응답 품질을 향상시키지 못할 수 있습니다. 부실에 대한 보증만 제공합니다. 데이터 변경의 중요성을 신호로 평가하여 업데이트 빈도를 확인합니다.

데이터 유지 관리가 모델 작업의 일부로 수행되는지 확인합니다. 자동화를 통해 변경 내용을 최대한 처리하고 올바른 도구 집합을 사용하는 프로세스를 설정해야 합니다. 자세한 내용은 AzureAI 워크로드에 대한 MLOps 및 GenAIOps를 참조하세요.

다음 단계