予測のためのデータ準備
この記事では、AutoML が予測トレーニング用にデータを準備する方法と、構成可能なデータ設定について説明します。 これらのオプションは、実験の設定中に AutoML UI で調整できます。
AutoML API を使用したこれらの設定の構成については、AutoML Python API リファレンスを参照してください。
サポートされているデータ機能の型
以下に示す機能の種類のみがサポートされています。 たとえば、イメージはサポート。
次の特徴量の型がサポートされています。
- Numeric (
ByteType
、ShortType
、IntegerType
、LongType
、FloatType
およびDoubleType
) - Boolean
- String (カテゴリまたは英語テキスト)
- Timestamps (
TimestampType
、DateType
) - ArrayType[Numeric] (Databricks Runtime 10.4 LTS ML 以降)
- DecimalType (Databricks Runtime 11.3 LTS ML 以降)
欠損値の補完
Databricks Runtime 10.4 LTS ML 以降では、null 値で補完する方法を指定できます。 UI で、テーブル スキーマの [次で補完] 列のドロップダウンからメソッドを選択します。 API で、imputers
パラメーターを使用します。 詳細については、「 AutoML Python API リファレンスを参照してください。
AutoML では既定で、列の型と内容に基づいて補完方法が選択されます。
注意
既定以外の補完方法を指定した場合、AutoML ではセマンティック型の検出は実行されません。
予測データをトレーニング、検証、テスト セットに分割する
AutoML では、データがトレーニング、検証、テストの 3 つに分割されます。
予測タスクの場合、AutoML では時系列クロス検証が使用されます。 このメソッドは、トレーニング データセットを時系列で段階的に拡張し、後続の時点に対して検証を実行します。 クロス検証を使用すると、時間の異なるセグメントにわたってモデルのパフォーマンスを堅牢に評価できます。 これにより、その予測モデルが未知の将来のデータに対して厳密にテストされ、予測の関連性と精度が維持されることを保証します。
クロス検証分割の数は、時系列の数、共変量の存在、時系列の長さなど、入力テーブルの特性によって異なります。
時系列集計
予測の問題では、時系列にタイムスタンプの値が複数ある場合、AutoML では値の平均が使用されます。
代わりに、合計を使用するには、試行によって生成されたソース コード ノートブックを編集します。 Aggregate data by … セルで、以下に示すように .agg(y=(target_col, "avg"))
を .agg(y=(target_col, "sum"))
に変更します。
group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
.groupby(group_cols) \
.agg(y=(target_col, "sum")) \
.reset_index() \
.rename(columns={ time_col : "ds" })