PyTorch 用 Azure コンテナー (ACPT)
PyTorch 用 Azure コンテナーは、Azure Machine Learning 上で大規模なモデルの最適化されたトレーニングを効果的に実行するために必要なコンポーネントを含む軽量のスタンドアロン環境です。 Azure Machine Learning キュレーション環境は、既定でユーザーのワークスペースで使用でき、最新バージョンの Azure Machine Learning SDK を使用するキャッシュされた Docker イメージによってバックアップされます。 これは、準備コストの削減とデプロイ時間の短縮に役立ちます。 ACPT を使用すると、Azure 上の PyTorch でさまざまなディープ ラーニング タスクをすばやく開始できます。
Note
環境とその依存関係の完全な一覧を取得するには、Python SDK、CLI、または Azure Machine Learning スタジオを使用してください。 詳細については、環境に関する記事を参照してください。
ACPT を使用すべき理由
- 柔軟性: プレインストールされたパッケージでそのまま使用するか、キュレーションされた環境上に構築します。
- 使いやすさ: セットアップ コストを削減し、価値を得る時間を短縮するために、すべてのコンポーネントがインストールされ、数十の Microsoft ワークロードに対して検証されます。
- 効率性: 不要なイメージ ビルドを回避し、イメージ/コンテナー内で直接アクセスできる必要な依存関係のみを持ちます。
- 最適化されたトレーニング フレームワーク: 大規模なワークロードで PyTorch モデルを設定、開発、高速化し、トレーニングとデプロイの成功率を向上させます。
- 最新のスタック: Ubuntu、Python、PyTorch、CUDA/RocM などの最新の互換性のあるバージョンにアクセスします。
- 最新のトレーニング最適化テクノロジ: ONNX Runtime 、 DeepSpeed、 MSCCL などを利用します。
- Azure Machine Learning との統合: Azure Machine Learning スタジオまたは SDK を使用して PyTorch 実験を追跡します。 Azure カスタマー サポートにより、トレーニングとデプロイの待機時間も短縮されます。
- DSVM としての可用性: このイメージは、 Data Science Virtual Machine (DSVM) としても使用できます。 Data Science Virtual Machine の詳細については、DSVM の概要に関するドキュメントをご覧ください。
重要
キュレートされた環境のパッケージとバージョンの詳細については、Azure Machine Learning スタジオの [環境] タブを参照してください。
PyTorch 用 Azure コンテナー (ACPT) でサポートされている構成
説明: Azure Curated Environment for PyTorch は、最新の PyTorch キュレーション環境です。 これは大規模で分散されたディープ ラーニング ワークロード用に最適化されており、高速トレーニング (Onnx Runtime Training (ORT)、DeepSpeed、MSCCL など) に最適な Microsoft テクノロジと共に事前にパッケージ化されています。
次の構成がサポートされています。
環境名 | OS | GPU バージョン | Python バージョン | PyTorch バージョン | ORT-training バージョン | DeepSpeed バージョン | torch-ort バージョン | Nebula バージョン |
---|---|---|---|---|---|---|---|---|
acpt-pytorch-2.2-cuda12.1 | Ubuntu 20.04 | cu121 | 3.10 | 2.2.2 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
acpt-pytorch-2.1-cuda12.1 | Ubuntu 20.04 | cu121 | 3.10 | 2.1.2 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
acpt-pytorch-2.0-cuda11.7 | Ubuntu 20.04 | cu117 | 3.10 | 2.0.1 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
acpt-pytorch-1.13-cuda11.7 | Ubuntu 20.04 | cu117 | 3.10 | 1.13.1 | 1.17.3 | 0.13.1 | 1.17.3 | 0.16.11 |
fairscale、horovod、msccl、protobuf、pyspark、pytest、pytorch-lightning、tensorboard、NebulaML、torchvision、torchmetrics などの他のパッケージは、すべてのトレーニング ニーズをサポートするために提供されています。
詳細については、カスタム ACPT キュレーション環境の作成に関するページをご覧ください。
サポート
参照される基本イメージを含む、サポートされている環境に対するバージョン更新は、30 日間以上経過していない脆弱性に対処するために 2 週間ごとにリリースされます。 一部の環境は、使用状況に応じて、より一般的な機械学習シナリオのサポートに対して非推奨 (製品では非表示ですが使用可能) とされている可能性があります。