다음을 통해 공유


TabularDatasetFactory 클래스

Azure Machine Learning에 대한 표 형식 데이터 세트를 만드는 메서드가 포함되어 있습니다.

TabularDataset는 이 클래스의 from_* 메서드(예: from_delimited_files 메서드)를 사용하여 만들어집니다.

표 형식 데이터 세트 작업에 대한 자세한 내용은 Notebook https://aka.ms/tabulardataset-samplenotebook을 참조하세요.

상속
builtins.object
TabularDatasetFactory

생성자

TabularDatasetFactory()

메서드

from_delimited_files

구분된 파일(예: CSV 및 TSV)에서 표 형식 데이터를 나타내는 TabularDataset을 만듭니다.

from_json_lines_files

JSON Lines 파일(http://jsonlines.org/)에서 표 형식 데이터를 나타내는 TabularDataset을 만듭니다.

from_parquet_files

Parquet 파일에서 표 형식 데이터를 나타내는 TabularDataset을 만듭니다.

from_sql_query

SQL 데이터베이스에서 표 형식 데이터를 나타내는 TabularDataset을 만듭니다.

register_dask_dataframe

참고

이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

dask 데이터 프레임에서 데이터 세트를 만듭니다.

register_pandas_dataframe

pandas DataFrame에서 데이터 세트를 만듭니다.

register_spark_dataframe

참고

이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

spark 데이터 프레임에서 데이터 세트를 만듭니다.

from_delimited_files

구분된 파일(예: CSV 및 TSV)에서 표 형식 데이터를 나타내는 TabularDataset을 만듭니다.

static from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')

매개 변수

Name Description
path
필수

단일 값 또는 URL 문자열 목록(http[s]|abfs[s]|wasb[s]), DataPath 개체 또는 및 상대 경로의 튜플일 수 있는 원본 파일의 Datastore 경로입니다. 경로 목록에는 URL과 데이터 저장소를 함께 포함할 수 없습니다.

validate
필수

반환된 데이터 세트에서 데이터를 로드할 수 있는지 유효성 검사하는 부울입니다. 기본값은 True입니다. 유효성을 검사하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다. 유효성 검사를 사용하지 않도록 설정하려면 "infer_column_types"도 False로 설정해야 합니다.

include_path
필수

경로 정보를 데이터 세트의 열로 유지하는 부울입니다. 기본값은 False입니다. 이는 여러 파일을 읽고 특정 레코드가 어떤 파일에서 발생했는지 알고 싶거나 파일 경로에 유용한 정보를 유지하려는 경우에 유용합니다.

infer_column_types
필수

열 데이터 형식을 유추하는 부울입니다. 기본값은 True입니다. 형식 유추를 사용하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다. 현재 형식 유추는 처음 200개 행만 가져옵니다. 데이터에 여러 형식의 값이 포함된 경우 set_column_types 인수를 통해 재정의로 원하는 형식을 제공하는 것이 좋습니다. set_column_types에 대한 코드 샘플은 비고 섹션을 확인합니다.

set_column_types
필수

키는 열 이름이고 값은 DataType인 열 데이터 형식을 설정하는 사전입니다.

separator
필수
str

열을 분할하는 데 사용되는 구분 기호입니다.

header
필수

파일에서 읽을 때 열 헤더가 승격되는 방식을 제어합니다. 동일한 헤더를 가진 모든 파일에 대해 기본값은 True입니다. header=False이면 파일은 헤더가 없는 것으로 읽습니다. 열거형 값 PromoteHeadersBehavior를 사용하여 더 많은 옵션을 지정할 수 있습니다.

partition_format
필수
str

경로의 파티션 형식을 지정합니다. 기본값은 None입니다. 각 경로의 파티션 정보는 지정된 형식에 따라 열로 추출됩니다. 형식 부분 '{column_name}'은 문자열 열을 만들고, '{column_name:yyyy/MM/dd/HH/mm/ss}'는 datetime 열을 만듭니다. 여기서 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 datetime 형식의 연도, 월, 일, 시, 분 및 초를 추출하는 데 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어 '../Accounts/2019/01/01/data.csv' 경로가 지정되면 파티션은 부서 이름 및 시간 기준, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.csv'은 값이 'Accounts'인 문자열 열 'Department'와 값이 '2019-01-01'인 날짜/시간 열 'PartitionDate'를 만듭니다.

support_multi_line
필수

기본적으로(support_multi_line=False) 따옴표로 묶인 필드 값을 포함한 모든 줄 바꿈은 레코드 중단으로 해석됩니다. 이러한 방식으로 데이터를 읽으면 더 빨리 읽을 수 있으며, 여러 CPU 코어에서 병렬 실행에 더욱 최적화됩니다. 그러나 이로 인해 잘못 정렬된 필드 값이 있는 레코드가 더 많이 자동으로 생성될 수 있습니다. 구분 기호로 분리된 파일이 따옴표로 묶인 줄 바꿈을 포함하는 것으로 알려진 경우 이를 True로 설정해야 합니다.

예를 들어 이 csv 파일이 지정되면 support_multi_line에 따라 데이터를 다르게 읽습니다.

A,B,C A1,B1,C1 A2,"B 2",C2


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # default behavior: support_multi_line=False
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path)
   print(dataset.to_pandas_dataframe())
   #      A   B     C
   #  0  A1  B1    C1
   #  1  A2   B  None
   #  2  2"  C2  None

   # to handle quoted line breaks
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path,
                                                  support_multi_line=True)
   print(dataset.to_pandas_dataframe())
   #      A       B   C
   #  0  A1      B1  C1
   #  1  A2  B\r\n2  C2
empty_as_string
필수

빈 필드 값을 빈 문자열로 로드해야 하는지 여부를 지정합니다. 기본값(False)은 빈 필드 값을 null로 읽습니다. 이를 True로 전달하면 빈 필드 값을 빈 문자열로 읽습니다. 값이 숫자 또는 날짜/시간으로 변환되면 비어 있는 값이 null로 변환되므로 아무 효과가 없습니다.

encoding
필수
str

파일 인코딩을 지정합니다. 지원되는 인코딩은 'utf8', 'iso88591', 'latin1', 'ascii', 'utf16', 'utf32', 'utf8bom' 및 'windows1252'입니다.

반환

형식 Description

TabularDataset 개체를 반환합니다.

설명

from_delimited_files는 구분된 파일에서 표 형식으로 데이터를 로드하는 작업을 정의하는 TabularDataset 클래스의 개체를 만듭니다.

Azure Machine Learning에서 데이터에 액세스할 수 있도록 하려면 경로 로 지정된 구분된 파일이 Blob, ADLS Gen1 및 ADLS Gen2의 공용 웹 URL 또는 URL 뒤에 있어야 Datastore 합니다. 사용자의 AAD 토큰은 Notebook 또는 로컬 Python 프로그램에서 FileDataset.mount FileDataset.download 함수 중 하나를 직접 호출하는 경우 사용됩니다. FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files 컴퓨팅 대상의 ID는 데이터 액세스 인증을 위해 Experiment.submit에서 제출한 작업에 사용됩니다. 자세한 정보: https://aka.ms/data-access

열 데이터 형식은 기본적으로 구분된 파일의 데이터에서 유추됩니다. set_column_types를 제공하면 반환된 TabularDataset에서 지정된 열의 데이터 형식이 재정의됩니다.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))

   # create tabular dataset from all csv files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
   tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.csv',
       'https://url/weather/2018/12.csv'
   ]
   tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)

from_json_lines_files

JSON Lines 파일(http://jsonlines.org/)에서 표 형식 데이터를 나타내는 TabularDataset을 만듭니다.

static from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')

매개 변수

Name Description
path
필수

단일 값 또는 URL 문자열 목록(http[s]|abfs[s]|wasb[s]), DataPath 개체 또는 및 상대 경로의 튜플일 수 있는 원본 파일의 Datastore 경로입니다. 경로 목록에는 URL과 데이터 저장소를 함께 포함할 수 없습니다.

validate
필수

반환된 데이터 세트에서 데이터를 로드할 수 있는지 유효성 검사하는 부울입니다. 기본값은 True입니다. 유효성을 검사하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.

include_path
필수

경로 정보를 데이터 세트의 열로 유지하는 부울입니다. 기본값은 False입니다. 이는 여러 파일을 읽고 특정 레코드가 어떤 파일에서 발생했는지 알고 싶거나 파일 경로에 유용한 정보를 유지하려는 경우에 유용합니다.

set_column_types
필수

키는 열 이름이고 값은 DataType인 열 데이터 형식을 설정하는 사전입니다.

partition_format
필수
str

경로의 파티션 형식을 지정합니다. 기본값은 None입니다. 각 경로의 파티션 정보는 지정된 형식에 따라 열로 추출됩니다. 형식 부분 '{column_name}'은 문자열 열을 만들고, '{column_name:yyyy/MM/dd/HH/mm/ss}'는 datetime 열을 만듭니다. 여기서 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 datetime 형식의 연도, 월, 일, 시, 분 및 초를 추출하는 데 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어 '../Accounts/2019/01/01/data.jsonl' 경로가 지정되면 파티션은 부서 이름 및 시간 기준, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.jsonl'은 값이 'Accounts'인 문자열 열 'Department'와 값이 '2019-01-01'인 날짜/시간 열 'PartitionDate'를 만듭니다.

invalid_lines
필수
str

유효하지 않은 JSON 라인을 처리하는 방법입니다. 지원되는 값은 'error' 및 'drop'입니다.

encoding
필수
str

파일 인코딩을 지정합니다. 지원되는 인코딩은 'utf8', 'iso88591', 'latin1', 'ascii', 'utf16', 'utf32', 'utf8bom' 및 'windows1252'입니다.

반환

형식 Description

TabularDataset 개체를 반환합니다.

설명

from_json_lines_files는 JSON Lines 파일에서 표 형식으로 데이터를 로드하는 작업을 정의하는 TabularDataset 클래스의 개체를 만듭니다.

Azure Machine Learning에서 데이터에 액세스할 수 있도록 하려면 경로 로 지정된 JSON 라인 파일이 Blob, ADLS Gen1 및 ADLS Gen2의 공용 웹 URL 또는 URL 뒤에 있어야 Datastore 합니다. 사용자의 AAD 토큰은 Notebook 또는 로컬 Python 프로그램에서 FileDataset.mount FileDataset.download 함수 중 하나를 직접 호출하는 경우 사용됩니다. FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files 컴퓨팅 대상의 ID는 데이터 액세스 인증을 위해 Experiment.submit에서 제출한 작업에 사용됩니다. 자세한 정보: https://aka.ms/data-access

열 데이터 형식은 JSON Lines 파일에 저장된 데이터 형식에서 읽습니다. set_column_types를 제공하면 반환된 TabularDataset에서 지정된 열의 데이터 형식이 재정의됩니다.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))

   # create tabular dataset from all jsonl files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
   tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.jsonl',
       'https://url/weather/2018/12.jsonl'
   ]
   tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)

from_parquet_files

Parquet 파일에서 표 형식 데이터를 나타내는 TabularDataset을 만듭니다.

static from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)

매개 변수

Name Description
path
필수

단일 값 또는 URL 문자열 목록(http[s]|abfs[s]|wasb[s]), DataPath 개체 또는 및 상대 경로의 튜플일 수 있는 원본 파일의 Datastore 경로입니다. 경로 목록에는 URL과 데이터 저장소를 함께 포함할 수 없습니다.

validate
필수

반환된 데이터 세트에서 데이터를 로드할 수 있는지 유효성 검사하는 부울입니다. 기본값은 True입니다. 유효성을 검사하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.

include_path
필수

경로 정보를 데이터 세트의 열로 유지하는 부울입니다. 기본값은 False입니다. 이는 여러 파일을 읽고 특정 레코드가 어떤 파일에서 발생했는지 알고 싶거나 파일 경로에 유용한 정보를 유지하려는 경우에 유용합니다.

set_column_types
필수

키는 열 이름이고 값은 DataType인 열 데이터 형식을 설정하는 사전입니다.

partition_format
필수
str

경로의 파티션 형식을 지정합니다. 기본값은 None입니다. 각 경로의 파티션 정보는 지정된 형식에 따라 열로 추출됩니다. 형식 부분 '{column_name}'은 문자열 열을 만들고, '{column_name:yyyy/MM/dd/HH/mm/ss}'는 datetime 열을 만듭니다. 여기서 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 datetime 형식의 연도, 월, 일, 시, 분 및 초를 추출하는 데 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어, 파티션이 부서 이름 및 시간 기준인 '../Accounts/2019/01/01/data.parquet' 경로가 지정되면 partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.parquet'는 값이 'Accounts'인 문자열 열 'Department'와 값이 '2019-01-01'인 날짜/시간 열 'PartitionDate'를 만듭니다.

반환

형식 Description

TabularDataset 개체를 반환합니다.

설명

from_parquet_files는 Parquet 파일에서 표 형식으로 데이터를 로드하는 작업을 정의하는 TabularDataset 클래스의 개체를 만듭니다.

Azure Machine Learning에서 데이터에 액세스할 수 있도록 하려면 경로 로 지정된 Parquet 파일이 Blob, ADLS Gen1 및 ADLS Gen2의 공용 웹 URL 또는 URL 뒤에 있어야 Datastore 합니다. 사용자의 AAD 토큰은 Notebook 또는 로컬 Python 프로그램에서 FileDataset.mount FileDataset.download 함수 중 하나를 직접 호출하는 경우 사용됩니다. FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files 컴퓨팅 대상의 ID는 데이터 액세스 인증을 위해 Experiment.submit에서 제출한 작업에 사용됩니다. 자세한 정보: https://aka.ms/data-access

열 데이터 형식은 Parquet 파일에 저장된 데이터 형식에서 읽습니다. set_column_types를 제공하면 반환된 TabularDataset에서 지정된 열의 데이터 형식이 재정의됩니다.


   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))

   # create tabular dataset from all parquet files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
   tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.parquet',
       'https://url/weather/2018/12.parquet'
   ]
   tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)

from_sql_query

SQL 데이터베이스에서 표 형식 데이터를 나타내는 TabularDataset을 만듭니다.

static from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)

매개 변수

Name Description
query
필수

SQL 종류의 데이터 저장소 및 쿼리입니다.

validate
필수

반환된 데이터 세트에서 데이터를 로드할 수 있는지 유효성 검사하는 부울입니다. 기본값은 True입니다. 유효성을 검사하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.

set_column_types
필수

키는 열 이름이고 값은 DataType인 열 데이터 형식을 설정하는 사전입니다.

query_timeout
필수

명령 실행을 종료하고 오류를 생성하기 전 대기 시간(초 단위)을 설정합니다. 기본값은 30초입니다.

반환

형식 Description

TabularDataset 개체를 반환합니다.

설명

from_sql_query는 SQL 데이터베이스에서 표 형식으로 데이터를 로드하는 작업을 정의하는 TabularDataset 클래스의 개체를 만듭니다. 현재 MSSQLDataSource만 지원합니다.

Azure Machine Learning에서 데이터에 액세스할 수 있으려면 query로 지정된 SQL 데이터베이스가 Datastore에 있어야 하고 데이터 저장소 형식이 SQL 종류여야 합니다.

열 데이터 형식은 SQL 쿼리 결과의 데이터 형식에서 읽습니다. set_column_types를 제공하면 반환된 TabularDataset의 지정된 열에 대한 데이터 형식이 재정의됩니다.


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # create tabular dataset from a SQL database in datastore
   datastore = Datastore.get(workspace, 'mssql')
   query = DataPath(datastore, 'SELECT * FROM my_table')
   tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
   df = tabular.to_pandas_dataframe()

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)

register_dask_dataframe

참고

이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

dask 데이터 프레임에서 데이터 세트를 만듭니다.

static register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

매개 변수

Name Description
dataframe
필수
<xref:dask.dataframe.core.DataFrame>

필수, 업로드할 dask 데이터 프레임입니다.

target
필수

필수, 데이터 프레임 parquet 데이터가 업로드될 데이터 저장소 경로입니다. 충돌을 피하기 위해 대상 경로 아래에 guid 폴더가 생성됩니다.

name
필수
str

필수, 등록된 데이터 세트의 이름입니다.

description
필수
str

선택 사항입니다. 이 데이터 세트에 대한 텍스트 설명입니다. 기본값은 None입니다.

tags
필수

선택 사항입니다. 데이터 세트에 제공할 키 값 태그의 사전입니다. 기본값은 None입니다.

show_progress
필수

선택 사항으로 콘솔에 업로드 진행률을 표시할지 여부를 나타냅니다. 기본값은 True입니다.

반환

형식 Description

등록된 데이터 세트입니다.

register_pandas_dataframe

pandas DataFrame에서 데이터 세트를 만듭니다.

static register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True, row_group_size=None, make_target_path_unique=True)

매개 변수

Name Description
dataframe
필수

업로드할 메모리 데이터 프레임에서 필수입니다.

target
필수

필수, 데이터 프레임 parquet 데이터가 업로드될 데이터 저장소 경로입니다. 충돌을 피하기 위해 대상 경로 아래에 guid 폴더가 생성됩니다.

name
필수
str

필수, 등록된 데이터 세트의 이름입니다.

description
필수
int

선택 사항입니다. 이 데이터 세트에 대한 텍스트 설명입니다. 기본값은 None입니다.

tags
필수

선택 사항입니다. 데이터 세트에 제공할 키 값 태그의 사전입니다. 기본값은 None입니다.

show_progress
필수

선택 사항으로 콘솔에 업로드 진행률을 표시할지 여부를 나타냅니다. 기본값은 True입니다.

row_group_size
필수

선택 사항입니다. parquet 파일을 작성할 때 사용할 행 그룹의 최대 크기입니다. 기본값은 None입니다.

make_target_path_unique
필수

선택 사항으로, 대상에 고유한 하위 폴더를 만들어야 하는지를 나타냅니다. 기본값은 True입니다.

반환

형식 Description

등록된 데이터 세트입니다.

register_spark_dataframe

참고

이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.

spark 데이터 프레임에서 데이터 세트를 만듭니다.

static register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

매개 변수

Name Description
dataframe
필수

업로드할 메모리 데이터 프레임에서 필수입니다.

target
필수

필수, 데이터 프레임 parquet 데이터가 업로드될 데이터 저장소 경로입니다. 충돌을 피하기 위해 대상 경로 아래에 guid 폴더가 생성됩니다.

name
필수
str

필수, 등록된 데이터 세트의 이름입니다.

description
필수
str

선택 사항입니다. 이 데이터 세트에 대한 텍스트 설명입니다. 기본값은 None입니다.

tags
필수

선택 사항입니다. 데이터 세트에 제공할 키 값 태그의 사전입니다. 기본값은 None입니다.

show_progress
필수

선택 사항으로 콘솔에 업로드 진행률을 표시할지 여부를 나타냅니다. 기본값은 True입니다.

반환

형식 Description

등록된 데이터 세트입니다.