PipelineOutputFileDataset クラス

リファレンス

Azure Machine Learning ファイルデータセットに昇格された中間パイプラインデータを表します。

中間データを Azure Machine Learning データセットに昇格すると、後続の手順で DataReference ではなく Dataset としても使用されます。

Azure Machine Learning データセットに昇格される中間データを作成します。

継承: PipelineOutputAbstractDataset

PipelineOutputFileDataset

コンストラクター

PipelineOutputFileDataset(pipeline_data)

パラメーター

名前	説明
pipeline_data 必須	PipelineData データセットに昇格される中間出力を表す PipelineData。
pipeline_data 必須	PipelineData データセットに昇格される中間出力を表す PipelineData。

メソッド

as_direct	データセットの入力の使用モードを "直接" に設定します。このモードでは、データセットの ID を取得し、スクリプトで Dataset.get_by_id を呼び出してデータセットを取得できます。 run.input_datasets['{dataset_name}'] はデータセットを返します。
as_download	データセットの使用モードを "ダウンロード" に設定します。
as_mount	データセットの使用モードを "マウント" に設定します。
parse_delimited_files	中間ファイルデータセットを表形式データセットに変換します。表形式データセットは、中間出力によってポイントされる区切りファイルを解析することで作成されます。
parse_parquet_files	中間ファイルデータセットを表形式データセットに変換します。表形式データセットは、中間出力によってポイントされる parquet ファイルを解析することで作成されます。

as_direct

データセットの入力の使用モードを "直接" に設定します。

このモードでは、データセットの ID を取得し、スクリプトで Dataset.get_by_id を呼び出してデータセットを取得できます。 run.input_datasets['{dataset_name}'] はデータセットを返します。

as_direct()

戻り値

型	説明
PipelineOutputFileDataset	変更された PipelineOutputDataset。

as_download

データセットの使用モードを "ダウンロード" に設定します。

as_download(path_on_compute=None)

パラメーター

名前	説明
path_on_compute	str データセットをダウンロードするコンピューティング上のパス。既定値は None です。つまり、Azure Machine Learning によってパスが選択されます。規定値: None

戻り値

型	説明
PipelineOutputFileDataset	変更された PipelineOutputDataset。

as_mount

データセットの使用モードを "マウント" に設定します。

as_mount(path_on_compute=None)

パラメーター

名前	説明
path_on_compute	str データセットをマウントするコンピューティング上のパス。既定値は None です。つまり、Azure Machine Learning によってパスが選択されます。規定値: None

戻り値

型	説明
PipelineOutputFileDataset	変更された PipelineOutputDataset。

parse_delimited_files

中間ファイルデータセットを表形式データセットに変換します。

表形式データセットは、中間出力によってポイントされる区切りファイルを解析することで作成されます。

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

パラメーター

名前	説明
include_path	bool パス情報をデータセットの列として保持するブール値。既定値は False です。これは、複数のファイルを読み取り、特定のレコードがどのファイルから生成されたかを把握したい場合や、ファイルパスに有用な情報を保持したい場合に便利です。規定値: False
separator	str 列を分割するために使用する区切り記号。規定値: ,
header	PromoteHeadersBehavior ファイルから読み取るときに列ヘッダーをどのように昇格するかを制御します。既定では、すべてのファイルのヘッダーが同じと想定されます。規定値: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS
partition_format	str パスのパーティション形式を指定します。既定値は None です。各パスのパーティション情報は、指定された形式に基づいて列に抽出されます。形式の '{column_name}' の部分では文字列の列が、'{column_name:yyyy/MM/dd/HH/mm/ss}' では datetime の列が作成されます。ここで、'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' は datetime 型の年、月、日、時、分、秒の抽出に使用されます。形式は、最初のパーティションキーの位置から始まり、ファイルパスの末尾までになります。たとえば、部署名と日時でパーティション分割されるパス '../Accounts/2019/01/01/data.csv' がある場合、partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' の 'Department' の値は 'Accounts' で、datetime 列 'PartitionDate' の値は '2019-01-01' になります。規定値: None
file_extension 必須	str 読み取るファイルのファイル拡張子。この拡張子を持つファイルのみがディレクトリから読み取られます。既定値は、区切り文字が "," の場合は ".csv"、区切り文字がタブの場合は ".tsv"、それ以外の場合は None です。 None が渡されると、拡張子の有無に関係なく、すべてのファイルが読み取られます。
set_column_types	dict[str, DataType] 列のデータ型を設定するための辞書。キーは列名、値は DataType です。ディクショナリ内に含まれていない列は、文字列型のままです。 None を渡すと、変換は行われなくなります。ソースデータに見つからない列を入力してもエラーは生じず、無視されます。規定値: None
quoted_line_breaks	bool 引用符で囲まれた改行文字を処理するかどうかを指定します。このオプションは、パフォーマンスに影響を与える可能性があります。規定値: False

戻り値

型	説明
PipelineOutputTabularDataset	表形式のデータセットとなる中間データを返します。

注釈

この変換は、中間データが後続のステップの入力として使用される場合にのみ適用されます。出力に渡された場合でも、出力には影響しません。

parse_parquet_files

中間ファイルデータセットを表形式データセットに変換します。

表形式データセットは、中間出力によってポイントされる parquet ファイルを解析することで作成されます。

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

パラメーター

名前	説明
include_path	bool パス情報をデータセットの列として保持するブール値。既定値は False です。これは、複数のファイルを読み取り、特定のレコードがどのファイルから生成されたかを把握したい場合や、ファイルパスに有用な情報を保持したい場合に便利です。規定値: False
partition_format	str パスのパーティション形式を指定します。既定値は None です。各パスのパーティション情報は、指定された形式に基づいて列に抽出されます。形式の '{column_name}' の部分では文字列の列が、'{column_name:yyyy/MM/dd/HH/mm/ss}' では datetime の列が作成されます。ここで、'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' は datetime 型の年、月、日、時、分、秒の抽出に使用されます。形式は、最初のパーティションキーの位置から始まり、ファイルパスの末尾までになります。たとえば、部署名と日時でパーティション分割されるパス '../Accounts/2019/01/01/data.parquet' がある場合、partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' によって、値 'Accounts' を持つ文字列の列 'Department' と、値 '2019-01-01' を持つ datetime 列 'PartitionDate' が作成されます。規定値: None
file_extension	str 読み取るファイルのファイル拡張子。この拡張子を持つファイルのみがディレクトリから読み取られます。既定値は ".parquet" です。この値が None に設定されている場合、拡張子の有無に関係なく、すべてのファイルが読み取られます。規定値: .parquet
set_column_types	dict[str, DataType] 列のデータ型を設定するための辞書。キーは列名、値は DataType です。ディクショナリ内に含まれていない列は、parquet ファイルから読み込まれた型のままです。 None を渡すと、変換は行われなくなります。ソースデータに見つからない列を入力してもエラーは生じず、無視されます。規定値: None

戻り値

型	説明
PipelineOutputTabularDataset	表形式のデータセットとなる中間データを返します。

注釈

この変換は、中間データが後続のステップの入力として使用される場合にのみ適用されます。出力に渡された場合でも、出力には影響しません。

次の方法で共有

PipelineOutputFileDataset クラス

コンストラクター

パラメーター

メソッド

as_direct

戻り値

as_download

パラメーター

戻り値

as_mount

パラメーター

戻り値

parse_delimited_files

パラメーター

戻り値

注釈

parse_parquet_files

パラメーター

戻り値

注釈

フィードバック

その他のリソース