次の方法で共有


予測のためのデータ準備

この記事では、AutoML が予測トレーニング用にデータを準備する方法と、構成可能なデータ設定について説明します。 これらのオプションは、実験の設定中に AutoML UI で調整できます。

AutoML API を使用したこれらの設定の構成については、AutoML Python API リファレンスを参照してください。

サポートされているデータ機能の型

以下に示す機能の種類のみがサポートされています。 たとえば、イメージはサポート

次の特徴量の型がサポートされています。

  • Numeric (ByteTypeShortTypeIntegerTypeLongTypeFloatType および DoubleType)
  • Boolean
  • String (カテゴリまたは英語テキスト)
  • Timestamps (TimestampTypeDateType)
  • ArrayType[Numeric] (Databricks Runtime 10.4 LTS ML 以降)
  • DecimalType (Databricks Runtime 11.3 LTS ML 以降)

欠損値の補完

Databricks Runtime 10.4 LTS ML 以降では、null 値で補完する方法を指定できます。 UI で、テーブル スキーマの [次で補完] 列のドロップダウンからメソッドを選択します。 API で、imputers パラメーターを使用します。 詳細については、「 AutoML Python API リファレンスを参照してください。

AutoML では既定で、列の型と内容に基づいて補完方法が選択されます。

注意

既定以外の補完方法を指定した場合、AutoML ではセマンティック型の検出は実行されません。

予測データをトレーニング、検証、テスト セットに分割する

AutoML では、データがトレーニング、検証、テストの 3 つに分割されます。

予測タスクの場合、AutoML では時系列クロス検証が使用されます。 このメソッドは、トレーニング データセットを時系列で段階的に拡張し、後続の時点に対して検証を実行します。 クロス検証を使用すると、時間の異なるセグメントにわたってモデルのパフォーマンスを堅牢に評価できます。 これにより、その予測モデルが未知の将来のデータに対して厳密にテストされ、予測の関連性と精度が維持されることを保証します。

クロス検証分割の数は、時系列の数、共変量の存在、時系列の長さなど、入力テーブルの特性によって異なります。

時系列集計

予測の問題では、時系列にタイムスタンプの値が複数ある場合、AutoML では値の平均が使用されます。

代わりに、合計を使用するには、試行によって生成されたソース コード ノートブックを編集します。 Aggregate data by … セルで、以下に示すように .agg(y=(target_col, "avg")).agg(y=(target_col, "sum")) に変更します。

group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
  .groupby(group_cols) \
  .agg(y=(target_col, "sum")) \
  .reset_index() \
  .rename(columns={ time_col : "ds" })