転移学習用の特徴付け
この記事では、pandas UDF を使用した転移学習のために特徴量化を行う例を示します。
DL モデルでの転移学習のための特徴量化
Azure Databricks では、ディープ ラーニング モデルを使用した特徴付けをサポートしています。 事前トレーニングされたディープ ラーニング モデルを使用して、他の下流モデルで使用するための特徴量を計算できます。 Azure Databricks は大規模な特徴付けをサポートし、クラスター全体に計算を分散させることができます。 TensorFlow や PyTorch など、Databricks Runtime ML に含まれているディープ ラーニング ライブラリを使用して、特徴エンジニアリングを実行できます。
また Azure Databricks では、特徴付けに密接に関連する手法である転移学習もサポートしています。 転移学習を使用すると、関連するドメインの 1 つの問題ドメインからナレッジを再利用できます。 特徴付けは、それ自体がシンプルで強力な転移学習の手段です。事前トレーニング済みのディープ ラーニング モデルを使用した特性の計算により、元のドメインから適切な特性に関するナレッジを転移します。
転移学習のための特徴量を計算する手順
この記事では、次のワークフローを使用して、事前トレーニング済みの TensorFlow モデルを使用した転移学習用の特徴量を計算する方法について説明します。
- 事前トレーニング済みのディープ ラーニング モデル (この場合は
tensorflow.keras.applications
からの画像分類モデル) を使用して開始します。 - モデルの最後のレイヤーを切り詰めます。 この修正されたモデルでは、予測ではなく、出力としての特徴量の tensor が生成されます。
- このモデルを別の問題ドメインの新しい画像データセットに適用し、画像の特徴量を計算します。
- この特徴量を使用して、新しいモデルをトレーニングします。 次のノートブックでは、この最後の手順を省略しています。 ロジスティック回帰などの単純なモデルのトレーニングの例については、「AI モデルおよび ML モデルをトレーニングする」を参照してください。
例: 特徴量化に pandas UDF を使用する
次のノートブックでは、 pandas UDF を使用して特徴エンジニアリングの手順を実行しています。 pandas UDF と、その新しいバリエーション である Scalar Iterator pandas UDF は、柔軟な API を提供するとともに、あらゆるディープ ラーニング ライブラリをサポートし、高いパフォーマンスを実現します。