다음을 통해 공유


AI 관리 – AI를 관리하는 프로세스

이 문서에서는 AI 워크로드를 관리하기 위한 조직 프로세스를 간략하게 설명합니다. 개발, 배포 및 운영에서 AI 워크로드를 관리하기 위한 권장 사항을 제공합니다. 효과적인 AI 관리에는 개발에서 배포 및 진행 중인 작업을 통한 구조적 접근 방식이 필요합니다. 기업은 데이터 및 모델 드리프트와 같은 문제를 방지하여 AI가 시간이 지남에 따라 정확하고 안정적으로 유지되도록 하기 위해 표준화된 관행과 정기적인 모니터링이 필요합니다.

AI 채택 프로세스를 보여 주는 다이어그램: AI 전략, AI 계획, AI Ready, Govern AI, Manage AI, Secure AI.

AI 작업 관리

AI 작업을 관리하면 AI 수명 주기 내내 가시성과 일관성이 보장됩니다. MLOps와 같은 운영 프레임워크를 채택하고, 샌드박스 환경을 만들고, CI/CD 파이프라인을 설정함으로써 개발, 테스트 및 배포를 감독할 수 있습니다.

  • AI 운영 프레임워크를 채택합니다. 기존 기계 학습 워크플로에 대한 MLOps(기계 학습 작업) 프레임워크를 구현하고 생성 AI 워크로드에 대한 GenAIOps를 구현합니다. 이러한 운영 프레임워크는 AI 개발을 위한 엔드 투 엔드 주기를 구성합니다. 각 프레임워크는 워크로드 팀의 접근 방식 및 도구에 영향을 줍니다. 자세한 내용은 MLOps 및 GenAIOps참조하세요.

  • AI 개발 도구를 표준화합니다. 개발 팀 전체에서 일관성을 위해 SDK 및 API 사용을 정의하고 표준화합니다. AI 워크로드용 Azure SDK와 같은 도구는 AI 모델의 크기를 조정하고 애플리케이션에 통합하는 데 최적화된 라이브러리 및 API를 제공합니다. 생성 AI의 경우 의미 체계 커널, LangChain 및 프롬프트 흐름과 같은 AI 플랫폼 및 오케스트레이터를 표준화합니다.

  • AI 실험에 샌드박스 환경을 사용합니다. AI 모델 실험에 샌드박스 환경을 사용합니다. 개발, 테스트 및 prod 환경에서 일관성을 유지하려고 합니다. 따라서 샌드박스 환경은 AI 개발 수명 주기의 개발, 테스트 및 프로덕션 환경과 구별되어야 합니다. 개발, 테스트 및 prod 환경 간에 배포 및 거버넌스 모델을 변경하는 경우 호환성이 손상되는 변경 내용을 숨기고 도입할 수 있습니다.

  • 배포를 위한 지속적인 통합 및 지속적인 업데이트 파이프라인을 설정합니다. 데이터 파이프라인이 Linting 및 정적 분석을 비롯한 코드 품질 검사를 포함하는지 확인합니다. 데이터 파이프라인에는 단위 및 통합 테스트뿐만 아니라 실험 및 평가 흐름도 포함되어야 합니다. 마지막으로, 수동 승인에 따라 릴리스를 테스트 및 프로덕션 환경으로 승격하는 것과 같은 프로덕션 배포 단계를 통합합니다. 한 구성 요소에 대한 업데이트가 다른 구성 요소에 영향을 주지 않도록 모델, 프롬프트 흐름 및 클라이언트 사용자 인터페이스 간에 분리를 유지합니다. 각 흐름에는 독립적인 승격을 위한 자체 수명 주기가 있어야 합니다.

AI 배포 관리

AI 배포 관리는 AI 리소스를 배포할 수 있는 사용자와 이러한 엔드포인트를 제어하는 사용자를 정의하는 것입니다. AI 센터가 주도하는 구조화된 접근 방식을 통해 기업은 워크로드 팀 또는 중앙 팀이 리소스를 관리할지 여부를 결정하고 개발 속도와 거버넌스 요구 사항의 균형을 맞추는 데 도움이 됩니다. AI CoE최상의 접근 방식을 결정하기 위한 노력을 주도해야 합니다.

  • 더 빠른 개발을 위해 AI 리소스의 워크로드 팀 관리를 사용합니다. 워크로드 팀은 AI 리소스를 관리할 때 거버넌스 정책의 범위 내에서 AI 리소스를 배포하고 관리할 수 있는 자율성을 갖습니다. Azure Policy를 사용하여 모든 워크로드 환경에서 일관되게 거버넌스를 적용합니다. 워크로드 팀이 거버넌스 격차를 해결하기 위해 따라야 하는 AI 정책을 만들고 전달합니다. 예를 들어 콘텐츠 필터 설정을 적용하고 허용되지 않는 모델의 사용을 방지하는 생성 AI 정책을 만듭니다. 이러한 정책을 워크로드 팀에 명확하게 알려서 정기적으로 감사합니다.

    AI 워크로드의 워크로드 팀 관리를 보여 주는 다이어그램 그림 1. AI 리소스의 워크로드 팀 관리.

  • AI 리소스의 공유 관리를 사용하여 AI 거버넌스를 강화합니다. 공유 AI 관리 접근 방식에서 중앙 팀은 모든 AI 워크로드에 대한 AI 리소스를 관리합니다. 이 팀은 핵심 AI 리소스를 배포하고 모든 워크로드 팀에서 사용하는 보안 및 거버넌스를 구성합니다. 단일 팀이 워크로드 전체에서 AI 배포 및 거버넌스를 제어하도록 하려면 이 방법을 사용합니다.

    AI 워크로드의 공유 관리를 보여 주는 다이어그램 그림 2. AI 리소스의 중앙 AI 팀 관리.

AI 엔드포인트 공유 관리

워크로드 간에 AI 엔드포인트를 공유하면 관리를 간소화할 수 있지만 거버넌스 및 모델 요구 사항을 신중하게 고려해야 합니다. 비즈니스는 일관된 요구 사항이 있는 단일 워크로드 내에서만 엔드포인트를 공유해야 합니다. 서로 다른 요구 사항 간에 공유된 사용은 거버넌스를 복잡하게 만들고 비용을 증가시킬 수 있기 때문에.

  • 거버넌스 및 모델 요구 사항이 다를 경우 AI 엔드포인트를 공유하지 않습니다. 입력 및 출력에 대한 거버넌스와 같이 다른 콘텐츠 필터 설정이 필요한 워크로드는 엔드포인트를 공유해서는 안 됩니다. 또한 다른 AI 모델이 워크로드 요구 사항을 충족하는 보다 비용 효율적인 방법을 제공하는 경우 단일 AI 엔드포인트를 공유하지 마세요.

  • 단일 워크로드 내에서만 AI 엔드포인트를 공유합니다. AI 엔드포인트 공유는 워크로드 팀에 동일한 워크로드의 일부로 여러 애플리케이션이 있는 경우에 가장 적합합니다. AI 엔드포인트 공유는 최소한의 관리 오버헤드를 제공하고 배포를 간소화합니다. 이러한 애플리케이션은 동일한 거버넌스 요구 사항과 AI 모델 요구 사항을 공유해야 합니다. 엔드포인트를 공유하면 속도 제한 및 할당량 제한에 도달할 수 있습니다. 대부분의 Azure 서비스에는 구독당 제한이 있습니다. 구독 내에서 각 지역에는 할당량 제한이 있습니다.

AI 모델 관리

AI 모델 관리에는 거버넌스 구조 설정, 지속적인 모니터링 및 시간이 지남에 따른 성능 유지를 위한 재학습이 포함됩니다. 이 프로세스를 통해 기업은 윤리적 표준에 따라 모델을 정렬하고, 모델 성능을 추적하고, AI 시스템이 효과적이고 비즈니스 목표에 부합하도록 할 수 있습니다.

  • AI 감독을 위한 거버넌스 구조를 설정합니다. AI CoE(탁월한 AI 센터)를 만들거나 AI 리더를 임명합니다. 책임 있는 AI 표준을 준수해야 합니다. 이러한 보고서에 따라 시스템을 조정해야 하는지 여부를 결정해야 합니다. 책임 있는 AI 대시보드 를 사용하여 모델 출력에 대한 보고서를 생성합니다.

  • AI 측정 기준을 정의합니다. AI 모델이 비즈니스 목표 및 윤리적 표준에 부합하도록 측정 기준을 설정합니다. 공정성, 투명성 및 정확도와 같은 책임 있는 AI 원칙과 관련된 KPI를 사용합니다. 이러한 KPI를 AI 워크로드에 매핑합니다. 예를 들어 고객 서비스 챗봇에서 모델이 다양한 인구 집단에서 얼마나 잘 수행되는지 평가하여 공정성을 측정합니다. 이러한 측정을 수행하려면 책임 있는 AI 대시보드에서 사용되는 도구로 시작합니다.

  • 연속 모니터링을 구현합니다. AI 워크로드는 진화하는 데이터, 모델 업데이트 또는 사용자 동작의 변화로 인해 시간이 지남에 따라 변경 될 수 있습니다. AI 모델, AI 리소스, AI 데이터를 모니터링하여 이러한 워크로드가 KPI에 맞게 유지되도록 합니다. 감사를 수행하여 정의된 책임 있는 AI 원칙 및 메트릭에 대해 AI 시스템을 평가합니다.

  • 성능 문제의 근본 원인을 식별합니다. AI를 모니터링하여 성능 또는 정확도 저하가 감지될 때 문제의 원인을 정확히 파악합니다. 문제를 격리하고 보다 신속하게 수정 작업을 구현하기 위해 상호 작용의 각 단계에 대한 가시성이 있는지 확인합니다. 예를 들어 고객 서비스 챗봇이 부정확한 응답을 생성하는 경우 모니터링을 통해 오류가 프롬프트 작성 중인지 아니면 모델의 컨텍스트 이해 여부를 결정하는 데 도움이 됩니다. Azure Monitor 및 Application Insights와 같은 기본 제공 도구를 사용하여 성능 병목 상태 및 변칙을 사전에 식별합니다.

  • 모델 사용 중지를 추적합니다. 공급업체 지원이 종료될 때 성능 문제를 방지하기 위해 미리 학습된 모델의 사용 중지를 추적합니다. 예를 들어 생성 AI 모델은 더 이상 사용되지 않을 수 있으므로 기능을 유지하기 위해 업데이트해야 합니다. Azure AI Foundry 포털에는 모든 배포에 대한 모델 사용 중지 날짜가 표시됩니다.

  • 필요에 따라 AI 모델을 다시 학습합니다. 데이터 변경으로 인해 시간이 지남에 따라 성능이 저하되는 모델을 고려합니다. 모델 성능 또는 비즈니스 요구 사항에 따라 정기적인 재학습을 예약하여 AI 시스템이 관련성을 유지할 수 있도록 합니다. 재학습은 비용이 많이 들 수 있으므로 초기 학습 비용을 평가하고 해당 비용을 사용하여 AI 모델을 재학습해야 하는 빈도를 평가합니다. 모델에 대한 버전 제어를 유지하고 성능이 저조한 버전에 대한 롤백 메커니즘을 확인합니다.

  • 모델 승격 프로세스를 설정합니다. 품질 게이트를 사용하여 성능 기준에 따라 학습되고, 미세 조정되고, 재학습된 모델을 더 높은 환경으로 승격합니다. 성능 조건은 각 애플리케이션에 고유합니다.

AI 비용 관리

AI 비용을 관리하려면 컴퓨팅, 스토리지 및 토큰 처리와 같은 리소스와 관련된 비용을 명확하게 이해해야 합니다. 예기치 않은 비용을 방지하고 리소스 효율성을 최적화하기 위해 비용 관리 모범 사례를 구현하고, 사용량을 모니터링하고, 자동화된 경고를 설정해야 합니다.

  • 각 서비스에 대한 비용 관리 모범 사례를 따릅니다. 각 Azure 서비스에는 비용 최적화를 최대화하는 특정 기능과 모범 사례가 있습니다. Azure AI Foundry, Azure OpenAI Service, Azure Machine Learning비용 계획 및 관리에 대한 다음 지침을 숙지하세요.

  • 청구 효율성을 모니터링하고 최대화합니다. 비용 중단점을 이해하여 불필요한 요금을 방지합니다. 예를 들어 이미지 생성 또는 시간별 미세 조정을 위해 고정 가격 임계값을 최대한 활용하는 것이 포함됩니다. TPM(분당 토큰) 및 분당 요청(RPM)을 비롯한 사용 패턴을 추적하고 그에 따라 모델 및 아키텍처를 조정합니다. 일관된 사용 패턴에 대한 약정 기반 청구 모델을 고려합니다.

  • 자동화된 비용 경고를 설정합니다. 예산 경고를 사용하여 예기치 않은 요금을 알리고 AI 비용을 제어하고 예측하는 예산 전략을 수립합니다.

Azure OpenAI를 사용하는 생성 AI 애플리케이션은 이러한 비용 최적화 권장 사항을 참조하세요.

AI 데이터 관리

효과적인 AI 데이터 관리는 AI 수명 주기 내내 데이터 정확도, 무결성 및 민감도를 유지하는 데 중점을 둡니다. 고품질 데이터 세트를 큐레이팅하고 데이터 파이프라인을 보호하는 경우 조직은 데이터가 변화하는 규정 요구 사항을 안정적으로 준수하도록 보장할 수 있습니다.

  • 데이터 정확도를 유지하고 골든 데이터 세트를 큐레이팅합니다. 두 AI 유형에서 정기적인 테스트 및 유효성 검사에 사용되는 신뢰할 수 있는 데이터 집합을 개발합니다. 이 데이터 세트를 지속적으로 큐레이팅하여 최신의 정확한 정보를 반영하도록 합니다.

  • 데이터 파이프라인 무결성을 보장합니다. 데이터 수집에서 전처리 및 스토리지에 이르는 데이터 무결성을 보장하기 위해 사용자 지정 데이터 파이프라인을 개발하고 유지 관리합니다. 두 가지 유형의 AI 애플리케이션에서 성능과 안정성을 유지하려면 파이프라인의 각 단계를 안전하게 유지해야 합니다.

  • 데이터 민감도 변경 내용을 관리합니다. 데이터의 민감도 분류는 시간이 지남에 따라 변경 될 수 있음을 이해합니다. 비즈니스 또는 규정 변경으로 인해 민감도가 낮은 데이터를 매우 중요한 데이터로 다시 분류할 수 있습니다. 다운스트림 시스템에서 중요한 데이터를 제거하거나 교체하기 위한 프로세스를 개발합니다. 클라우드용 Microsoft Defender 및 Microsoft Purview는 중요한 데이터의 레이블을 지정하고 관리하는 데 도움이 될 수 있습니다. 이 프로세스는 AI 수집 전에 좋은 데이터 카탈로그로 시작합니다. 변경이 발생하면 중요한 데이터를 사용하는 모든 모델 또는 시스템을 식별합니다. 가능하면 재분류된 중요한 데이터를 제외하는 데이터 세트를 사용하여 AI 모델을 다시 학습시킵니다.

AI 비즈니스 연속성 관리

AI에 대한 비즈니스 연속성 및 재해 복구에는 다중 지역 배포를 만들고 정기적으로 복구 계획을 테스트하는 작업이 포함됩니다. 이러한 전략은 중단 중에 AI 시스템이 계속 작동하도록 하고 장기간 중단 또는 데이터 손실의 위험을 최소화하는 데 도움이 됩니다.

  • AI에 대한 다중Region 배포를 사용합니다. 다중 리소스 배포를 구현하여 생성 및 비제전적 AI 시스템 모두에 대한 고가용성 및 복원력을 보장합니다. 이러한 전략은 가동 중지 시간을 최소화하고 지역 가동 중단 또는 인프라 오류 중에 중요한 AI 애플리케이션이 계속 작동하도록 합니다. 가동 중단 시 재학습이 필요하지 않도록 학습되고 미세 조정된 모델에 필요한 중복성을 구현해야 합니다.

  • 재해 복구 계획을 정기적으로 테스트하고 유효성을 검사합니다. 재해 복구 계획의 정기적인 테스트를 수행하여 생성 및 비제전적 AI 시스템을 효과적으로 복원할 수 있는지 확인합니다. 복구 후 모든 AI 구성 요소가 제대로 작동하는지 확인하기 위한 데이터 복원 프로세스 테스트 및 유효성 검사 절차를 포함합니다. 정기적으로 유효성을 검사하면 조직이 실제 인시던트에 대비하고 복구 중에 오류의 위험을 최소화할 수 있습니다.

  • AI 시스템의 변경 내용을 관리하고 추적합니다. 모델, 데이터 및 구성에 대한 모든 변경 내용이 Git과 같은 버전 제어 시스템을 통해 관리되는지 확인합니다. 이렇게 하는 것은 수정 사항을 추적하고 복구하는 동안 이전 버전을 복원하는 기능을 보장하는 데 중요합니다. 생성 및 비제전적 AI의 경우 계획되지 않은 변경을 신속하게 식별하고 되돌릴 수 있도록 모델 및 시스템 변경에 대한 자동화된 감사가 적용되어야 합니다.

다음 단계