다음을 통해 공유


Copilot+ PC 개발자 가이드

Copilot+ PC는 실시간 번역 및 이미지 생성과 같은 AI 집약적 프로세스를 위한 특수 컴퓨터 칩인 NPU(고성능 신경 처리 장치)를 통해 구동되는 Windows 11 하드웨어의 새로운 클래스로, TOPS(초당 40조 개 이상의 작업)를 수행할 수 있습니다. Copilot+ PC는 하루 종일 배터리 수명과 가장 고급 AI 기능 및 모델에 대한 액세스를 제공합니다. + PC 소개 Copilot- 공식 Microsoft 블로그에서 자세히 알아보세요.

다음 + PC 개발자 지침은 다음과 같습니다 Copilot.

  • 디바이스 필수 구성 요소
  • Arm 기반 스냅드래곤 엘리트 X+ 칩이란?
  • NPU 프로세서를 Copilot사용하는 + PC에서 지원하는 고유한 AI 기능
  • + PC에서 NPU에 액세스하는 Copilot방법
  • ONNX 런타임을 사용하여 + PC에서 NPU에 Copilot프로그래밍 방식으로 액세스하는 방법
  • 디바이스 NPU에서 로컬로 실행되는 AI 모델의 성능을 측정하는 방법

필수 조건

이 지침은 + PC에만 적용 Copilot됩니다.

대부분의 새로운 Windows AI 기능에는 다음을 포함하지만 제한되지 않는 40개 이상의 TOPS를 실행할 수 있는 NPU가 필요합니다.

  • Microsoft Surface 노트북 Copilot+ PC
  • 마이크로소프트 서피스 프로 모델 Copilot + PC
  • HP OmniBook X 14
  • Dell Latitude 7455, XPS 13 및 Inspiron 14
  • Acer Swift 14 AI
  • 레노버 요가 슬림 7x 및 ThinkPad T14s
  • 삼성 갤럭시 Book4 Edge
  • ASUS Vivobook S 15 및 ProArt PZ13
  • AMD Ryzen AI 300 시리즈Intel Core Ultra 200V 시리즈포함하여 새로운 AMD 및 Intel 실리콘+ PC.

Arm 기반 스냅드래곤 엘리트 X 칩이란?

퀄컴이 제작한 새로운 스냅드래곤 X 엘리트 암 기반 칩은 업계 최고의 NPU(신경 처리 장치)를 통한 AI 통합을 강조합니다. 이 NPU는 CPU 또는 GPU보다 AI 작업에 에너지를 더 효율적으로 사용하여 초당 수조 개의 작업을 수행하여 대량의 데이터를 병렬로 처리할 수 있으므로 디바이스 배터리 수명이 길어집니다. NPU는 CPU 및 GPU에 맞춰 작동합니다. Windows 11은 빠르고 효율적인 성능을 제공하기 위해 처리 작업을 가장 적절한 위치에 할당합니다. NPU를 사용하면 칩에서 클라우드로의 향상된 보호를 위해 엔터프라이즈급 보안을 통해 디바이스 내 AI 지능형 환경을 사용할 수 있습니다.

NPU를 Copilot사용하는 + PC에서 지원하는 고유한 AI 기능

Copilot+ PC는 최신 버전의 Windows 11과 함께 제공되는 고유한 AI 환경을 제공합니다. 디바이스 NPU에서 실행되도록 설계된 이러한 AI 기능은 Windows의 최신 릴리스에서 제공되며 Windows Copilot 런타임API를 통해 사용할 수 있습니다. NPU에서 추론을 실행하도록 최적화된 모델이 지원하는 Windows 런타임 Copilot API에 대해 자세히 알아봅니다. 이 API들은 곧 출시될 예정인 Windows 앱 SDK에 포함될 것입니다.

+ PC에서 NPU에 액세스하는 Copilot방법

NPU(신경 처리 장치)는 새로운 하드웨어 리소스입니다. PC의 다른 하드웨어 리소스와 마찬가지로 NPU는 소프트웨어가 제공하는 이점을 활용하도록 특별히 프로그래밍되어야 합니다. NPU는 AI 모델을 구성하는 딥 러닝 수학 작업을 실행하도록 특별히 설계되었습니다.

위에서 언급한 Windows 11 Copilot+ AI 기능은 NPU를 활용하도록 특별히 설계되었습니다. 사용자는 NPU를 대상으로 하는 AI 모델의 배터리 수명이 향상되고 유추 실행 시간이 빨라집니다. NPU에 대한 Windows 11 지원에는 Arm 기반 퀄컴 디바이스와 Intel 및 AMD 디바이스(출시 예정)가 포함됩니다.

NPU가 있는 디바이스의 경우 이제 작업 관리자사용하여 NPU 리소스 사용량을 볼 수 있습니다.

CPU, GPU, 메모리, 이더넷 및 디스크와 함께 NPU 성능을 표시하는 Windows 작업 관리자의 스크린샷

디바이스 NPU에서 유추(AI 작업 실행)하는 권장 방법은 ONNX 런타임을 사용하는 것입니다. ONNX 런타임은 사용자 고유의 AI 모델을 가져오거나 웹에 있는 오픈 소스 AI 모델을 사용할 수 있도록 NPU 및 GPU 및 CPU에 대해 프로그래밍할 수 있는 유연하고 성능이 뛰어난 스택입니다. ONNX 런타임을 사용하여 아래의 NPU에 액세스하는 방법에 대해 자세히 알아보거나 Windows 앱에서 Machine Learning 모델을 사용하는 방법에 대해 자세히 알아보세요.

참고 항목

PyTorch 또는 Tensorflow에 다른 런타임을 사용하는 것은 어떨까요? PyTorch, Tensorflow 및 기타 실리콘 공급업체에서 제공하는 SDK 유형에 대한 다른 런타임도 Windows에서 지원됩니다. 현재 유연한 ONNX 형식으로 변환하여 PyTorch, TensorFlow 및 기타 모델 형식을 실행할 수 있지만 기본 지원은 곧 제공될 예정입니다.

ONNX 런타임을 사용하여 + PC에서 NPU에 Copilot프로그래밍 방식으로 액세스하는 방법

Microsoft는 ONNX 런타임이라는 완전한 오픈 소스 추론 및 학습 프레임워크를 제공합니다. ONNX 런타임은 NPU에서 AI 모델을 실행하는 데 권장되는 오픈 소스 Microsoft 솔루션입니다. ONNX 런타임은 유연하며 AI 모델을 실행하는 다양한 옵션을 지원하므로 선택 사항이 혼동될 수 있습니다. 이 가이드는 Windows Copilot+ PC와 관련된 선택 항목을 선택하는 데 도움이 됩니다.

지원되는 모델 형식

AI 모델은 FP32와 같은 더 큰 데이터 형식으로 학습되고 사용할 수 있는 경우가 많습니다. 그러나 많은 NPU 디바이스는 성능 및 전력 효율성을 높이기 위해 INT8과 같은 하위 비트 형식의 정수 수학만 지원합니다. 따라서 NPU에서 실행하려면 AI 모델을 변환(또는 "양자화")해야 합니다. 이미 바로 사용할 수 있는 형식으로 변환된 여러 모델을 사용할 수 있습니다. BYOM(사용자 고유의 모델)을 가져와서 변환하거나 최적화할 수도 있습니다.

  • Qualcomm AI Hub(컴퓨팅): Qualcomm은 이 NPU에서 Copilot효율적으로 실행되도록 특별히 최적화된 사용 가능한 모델을 사용하여 Snapdragon X Elite가 있는 + PC에서 이미 사용하도록 검증된 AI 모델을 제공합니다. 자세한 정보: Qualcomm AI Hub를 사용하여 모델 배포 가속화 | Microsoft Build 2024.
  • ONNX 모델 동물원: 이 오픈 소스 리포지토리는 ONNX 형식으로 미리 학습된 최신 모델의 큐레이팅된 컬렉션을 제공합니다. 이러한 모델은 Intel 및 AMD 디바이스(출시 예정)를 비롯한 모든 Copilot+ PC에서 NPU와 함께 사용하는 것이 좋습니다.

고유한 모델을 가져오려는 사용자를 위해 하드웨어 인식 모델 최적화 도구 인 Olive를 사용하는 것이 좋습니다. Olive는 모델 압축, 최적화 및 컴파일을 통해 ONNX 런타임을 NPU 성능 최적화 솔루션으로 사용할 수 있습니다. 자세한 정보: AI가 더 쉽게 만들어집니다. ONNX 런타임 및 올리브 도구 체인이 Q&A에 어떻게 도움이 되는지 | 빌드 2023.

디바이스 NPU에서 로컬로 실행되는 AI 모델의 성능을 측정하는 방법

앱 및 관련 AI 모델 런타임에서 AI 기능 통합의 성능을 측정하려면 다음을 수행합니다.

  • 추적 기록: 일정 기간 동안 디바이스 활동을 기록하는 것을 시스템 추적이라고 합니다. 시스템 추적은 보고서를 생성하고 앱의 성능을 향상시키는 방법을 식별하는 데 사용할 수 있는 "추적" 파일을 생성합니다. 자세한 정보: 시스템 추적을 캡처하여 메모리 사용량을 분석합니다.

  • NPU 사용량 보기: NPU를 사용하는 프로세스와 작업을 제출하는 호출 스택을 검사합니다.

  • CPU에서 작업 및 호출 스택 보기: 사전 작업 공급 AI 모델 및 사후 작업 처리 AI 모델의 결과를 검사합니다.

  • 로드 및 런타임: AI 모델을 로드하고 ONNX 런타임 세션을 만드는 데 걸리는 시간을 검사합니다.

  • 런타임 매개 변수: 모델 런타임 성능 및 최적화에 영향을 주는 ONNX 런타임 구성 및 EP(실행 공급자) 매개 변수를 검사합니다.

  • 개별 유추 시간: NPU에서 유추 시간 및 하위 세부 정보를 추적합니다.

  • 프로파일러: AI 모델 작업을 프로파일러하여 각 연산자가 총 유추 시간에 기여하는 데 걸린 시간을 확인합니다.

  • NPU 관련: 하위 HW 메트릭, 메모리 대역폭 등과 같은 NPU 하위 세부 정보를 검사합니다.

Windows 성능 분석기 도구에 대한 일반적인 인상을 제공하는 스크린샷

이러한 측정을 수행하려면 다음 진단 및 추적 도구를 사용하는 것이 좋습니다.

  • 작업 관리자: 사용자가 프로세스, 성능, 앱 기록, 시작 앱, 사용자, 세부 정보 및 서비스를 포함하여 디바이스에 설치된 Windows 운영 체제의 성능을 볼 수 있습니다. 디바이스 CPU, 메모리, 스토리지 디스크, Wi-Fi, GPU에 대한 실시간 성능 데이터가 표시됩니다. 이제 NPU입니다. 데이터에는 사용률, 사용 가능한 메모리, 공유 메모리, 드라이버 버전, 물리적 위치 등이 포함됩니다.
  • WPR(Windows 성능 레코더): WPR은 이제 NPU 활동을 기록하기 위해 신경 처리 프로필과 함께 제공됩니다. 이 레코드는 NPU와의 MCDM(Microsoft Compute Driver Model) 상호 작용을 기록합니다. 개발자는 이제 NPU 사용량, NPU를 사용하는 프로세스 및 작업을 제출하는 호출 스택을 볼 수 있습니다.
  • WPA(Windows 성능 분석기) : WPA는 WPR(Windows 성능 레코더), Xperf 또는 평가 플랫폼에서 실행되는 평가에 의해 기록되는 ETW(Windows용 이벤트 추적) 이벤트의 그래프 및 데이터 테이블을 만듭니다. CPU, 디스크, 네트워크, ONNX 런타임 이벤트를 분석하기 위한 편리한 액세스 지점을 제공합니다. 및 NPU 분석을 위한 새 테이블이 모두 단일 타임라인에 있습니다. 이제 WPA는 사전 작업 공급 AI 모델 및 사후 작업 처리 AI 모델 결과와 관련된 CPU의 작업 및 호출 스택을 볼 수 있습니다. Microsoft Store에서 Windows 성능 분석기 다운로드합니다.
  • GPUView: GPUView는 이벤트 추적 로그(.etl) 파일에서 기록된 비디오 및 커널 이벤트를 읽고 사용자에게 데이터를 그래픽으로 표시하는 개발 도구입니다. 이제 이 도구에는 GPU 및 NPU 작업뿐만 아니라 NPU와 같은 MCDM 디바이스에 대한 DirectX 이벤트 보기 지원도 포함됩니다.
  • Windows 성능 분석기 ONNX 런타임 이벤트: ONNXRuntime 1.17(및 1.18.1에서 향상됨)부터 다음 사용 사례는 런타임에서 내보낸 이벤트와 함께 사용할 수 있습니다.
    • AI 모델을 로드하고 ONNX 런타임 세션을 만드는 데 걸린 시간을 확인합니다.
    • 모델 런타임 성능 및 최적화에 영향을 주는 ONNX 런타임 구성 및 EP(실행 공급자) 매개 변수를 참조하세요.
    • NPU(QNN)에서 유추 시간 및 하위 세부 정보를 추적합니다.
    • AI 모델 작업을 프로파일하여 각 연산자가 총 유추 시간에 기여하는 데 걸린 시간을 확인합니다.
    • ONNX EP(런타임 실행 공급자) 프로파일링에 대해 자세히 알아봅니다.

참고 항목

WPR UI(Windows에 포함된 명령줄 기반 WPR을 지원하는 데 사용할 수 있는 사용자 인터페이스), WPA 및 GPUView는 모두 2024년 5월 버전의 WPT(Windows Performance Toolkit) 버전에 포함됩니다. WPT를 사용하려면 Windows ADK 도구 키트를 다운로드해야 합니다.

WPA(Windows 성능 분석기)를 사용하여 ONNX 런타임 이벤트를 보는 빠른 시작은 다음 단계를 수행합니다.

  1. ort.wprpetw_provider.wprp를 다운로드합니다.

  2. 명령줄을 열고 다음을 입력합니다.

    wpr -start ort.wprp -start etw_provider.wprp -start NeuralProcessing -start CPU
    echo Repro the issue allowing ONNX to run 
    wpr -stop onnx_NPU.etl -compress
    
  3. WPR(Windows 성능 레코더) 프로필을 CPU, 디스크 등과 같은 다른 기본 제공 기록 프로필과 결합합니다 .

  4. Microsoft Store에서 WPA(Windows 성능 분석기)를 다운로드합니다.

  5. onnx_NPU.etl WPA에서 파일을 엽니다. 다음 그래프를 열려면 두 번 클릭합니다.

    • "신경망 처리 -> NPU 사용률
    • ONNX 이벤트에 대한 제네릭 이벤트

위에 나열된 Microsoft Windows 도구와 함께 사용할 수 있는 추가 성능 측정 도구는 다음과 같습니다.

  • Qualcomm Snapdragon Profiler (qprof): 시스템 성능을 시각화하고 Qualcomm SoC CPU, GPU, DSP 및 기타 IP 블록에서 최적화 및 애플리케이션 크기 조정 개선 기회를 식별하도록 설계된 GUI 및 시스템 차원의 성능 프로파일링 도구입니다. Snapdragon Profiler를 사용하면 하위 HW 메트릭, 메모리 대역폭 등과 같은 NPU 하위 세부 정보를 볼 수 있습니다.

추가 리소스