TabularDatasetFactory 클래스
Azure Machine Learning에 대한 표 형식 데이터 세트를 만드는 메서드가 포함되어 있습니다.
TabularDataset는 이 클래스의 from_*
메서드(예: from_delimited_files 메서드)를 사용하여 만들어집니다.
표 형식 데이터 세트 작업에 대한 자세한 내용은 Notebook https://aka.ms/tabulardataset-samplenotebook을 참조하세요.
- 상속
-
builtins.objectTabularDatasetFactory
생성자
TabularDatasetFactory()
메서드
from_delimited_files |
구분된 파일(예: CSV 및 TSV)에서 표 형식 데이터를 나타내는 TabularDataset을 만듭니다. |
from_json_lines_files |
JSON Lines 파일(http://jsonlines.org/)에서 표 형식 데이터를 나타내는 TabularDataset을 만듭니다. |
from_parquet_files |
Parquet 파일에서 표 형식 데이터를 나타내는 TabularDataset을 만듭니다. |
from_sql_query |
SQL 데이터베이스에서 표 형식 데이터를 나타내는 TabularDataset을 만듭니다. |
register_dask_dataframe |
참고 이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요. dask 데이터 프레임에서 데이터 세트를 만듭니다. |
register_pandas_dataframe |
pandas DataFrame에서 데이터 세트를 만듭니다. |
register_spark_dataframe |
참고 이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요. spark 데이터 프레임에서 데이터 세트를 만듭니다. |
from_delimited_files
구분된 파일(예: CSV 및 TSV)에서 표 형식 데이터를 나타내는 TabularDataset을 만듭니다.
static from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')
매개 변수
Name | Description |
---|---|
path
필수
|
|
validate
필수
|
반환된 데이터 세트에서 데이터를 로드할 수 있는지 유효성 검사하는 부울입니다. 기본값은 True입니다. 유효성을 검사하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다. 유효성 검사를 사용하지 않도록 설정하려면 "infer_column_types"도 False로 설정해야 합니다. |
include_path
필수
|
경로 정보를 데이터 세트의 열로 유지하는 부울입니다. 기본값은 False입니다. 이는 여러 파일을 읽고 특정 레코드가 어떤 파일에서 발생했는지 알고 싶거나 파일 경로에 유용한 정보를 유지하려는 경우에 유용합니다. |
infer_column_types
필수
|
열 데이터 형식을 유추하는 부울입니다. 기본값은 True입니다. 형식 유추를 사용하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다. 현재 형식 유추는 처음 200개 행만 가져옵니다. 데이터에 여러 형식의 값이 포함된 경우 set_column_types 인수를 통해 재정의로 원하는 형식을 제공하는 것이 좋습니다. set_column_types에 대한 코드 샘플은 비고 섹션을 확인합니다. |
set_column_types
필수
|
키는 열 이름이고 값은 DataType인 열 데이터 형식을 설정하는 사전입니다. |
separator
필수
|
열을 분할하는 데 사용되는 구분 기호입니다. |
header
필수
|
파일에서 읽을 때 열 헤더가 승격되는 방식을 제어합니다. 동일한 헤더를 가진 모든 파일에 대해 기본값은 True입니다. header=False이면 파일은 헤더가 없는 것으로 읽습니다. 열거형 값 PromoteHeadersBehavior를 사용하여 더 많은 옵션을 지정할 수 있습니다. |
partition_format
필수
|
경로의 파티션 형식을 지정합니다. 기본값은 None입니다. 각 경로의 파티션 정보는 지정된 형식에 따라 열로 추출됩니다. 형식 부분 '{column_name}'은 문자열 열을 만들고, '{column_name:yyyy/MM/dd/HH/mm/ss}'는 datetime 열을 만듭니다. 여기서 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 datetime 형식의 연도, 월, 일, 시, 분 및 초를 추출하는 데 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어 '../Accounts/2019/01/01/data.csv' 경로가 지정되면 파티션은 부서 이름 및 시간 기준, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.csv'은 값이 'Accounts'인 문자열 열 'Department'와 값이 '2019-01-01'인 날짜/시간 열 'PartitionDate'를 만듭니다. |
support_multi_line
필수
|
기본적으로(support_multi_line=False) 따옴표로 묶인 필드 값을 포함한 모든 줄 바꿈은 레코드 중단으로 해석됩니다. 이러한 방식으로 데이터를 읽으면 더 빨리 읽을 수 있으며, 여러 CPU 코어에서 병렬 실행에 더욱 최적화됩니다. 그러나 이로 인해 잘못 정렬된 필드 값이 있는 레코드가 더 많이 자동으로 생성될 수 있습니다. 구분 기호로 분리된 파일이 따옴표로 묶인 줄 바꿈을 포함하는 것으로 알려진 경우 이를 True로 설정해야 합니다. 예를 들어 이 csv 파일이 지정되면 support_multi_line에 따라 데이터를 다르게 읽습니다. A,B,C A1,B1,C1 A2,"B 2",C2
|
empty_as_string
필수
|
빈 필드 값을 빈 문자열로 로드해야 하는지 여부를 지정합니다. 기본값(False)은 빈 필드 값을 null로 읽습니다. 이를 True로 전달하면 빈 필드 값을 빈 문자열로 읽습니다. 값이 숫자 또는 날짜/시간으로 변환되면 비어 있는 값이 null로 변환되므로 아무 효과가 없습니다. |
encoding
필수
|
파일 인코딩을 지정합니다. 지원되는 인코딩은 'utf8', 'iso88591', 'latin1', 'ascii', 'utf16', 'utf32', 'utf8bom' 및 'windows1252'입니다. |
반환
형식 | Description |
---|---|
TabularDataset 개체를 반환합니다. |
설명
from_delimited_files는 구분된 파일에서 표 형식으로 데이터를 로드하는 작업을 정의하는 TabularDataset 클래스의 개체를 만듭니다.
Azure Machine Learning에서 데이터에 액세스할 수 있도록 하려면 경로 로 지정된 구분된 파일이 Blob, ADLS Gen1 및 ADLS Gen2의 공용 웹 URL 또는 URL 뒤에 있어야 Datastore 합니다. 사용자의 AAD 토큰은 Notebook 또는 로컬 Python 프로그램에서 FileDataset.mount FileDataset.download 함수 중 하나를 직접 호출하는 경우 사용됩니다. FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files 컴퓨팅 대상의 ID는 데이터 액세스 인증을 위해 Experiment.submit에서 제출한 작업에 사용됩니다. 자세한 정보: https://aka.ms/data-access
열 데이터 형식은 기본적으로 구분된 파일의 데이터에서 유추됩니다. set_column_types를 제공하면 반환된 TabularDataset에서 지정된 열의 데이터 형식이 재정의됩니다.
from azureml.core import Dataset, Datastore
# create tabular dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))
# create tabular dataset from a single directory in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))
# create tabular dataset from all csv files in the directory
tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))
# create tabular dataset from multiple paths
data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)
# create tabular dataset from url
tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
web_path = [
'https://url/weather/2018/11.csv',
'https://url/weather/2018/12.csv'
]
tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)
from_json_lines_files
JSON Lines 파일(http://jsonlines.org/)에서 표 형식 데이터를 나타내는 TabularDataset을 만듭니다.
static from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')
매개 변수
Name | Description |
---|---|
path
필수
|
|
validate
필수
|
반환된 데이터 세트에서 데이터를 로드할 수 있는지 유효성 검사하는 부울입니다. 기본값은 True입니다. 유효성을 검사하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다. |
include_path
필수
|
경로 정보를 데이터 세트의 열로 유지하는 부울입니다. 기본값은 False입니다. 이는 여러 파일을 읽고 특정 레코드가 어떤 파일에서 발생했는지 알고 싶거나 파일 경로에 유용한 정보를 유지하려는 경우에 유용합니다. |
set_column_types
필수
|
키는 열 이름이고 값은 DataType인 열 데이터 형식을 설정하는 사전입니다. |
partition_format
필수
|
경로의 파티션 형식을 지정합니다. 기본값은 None입니다. 각 경로의 파티션 정보는 지정된 형식에 따라 열로 추출됩니다. 형식 부분 '{column_name}'은 문자열 열을 만들고, '{column_name:yyyy/MM/dd/HH/mm/ss}'는 datetime 열을 만듭니다. 여기서 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 datetime 형식의 연도, 월, 일, 시, 분 및 초를 추출하는 데 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어 '../Accounts/2019/01/01/data.jsonl' 경로가 지정되면 파티션은 부서 이름 및 시간 기준, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.jsonl'은 값이 'Accounts'인 문자열 열 'Department'와 값이 '2019-01-01'인 날짜/시간 열 'PartitionDate'를 만듭니다. |
invalid_lines
필수
|
유효하지 않은 JSON 라인을 처리하는 방법입니다. 지원되는 값은 'error' 및 'drop'입니다. |
encoding
필수
|
파일 인코딩을 지정합니다. 지원되는 인코딩은 'utf8', 'iso88591', 'latin1', 'ascii', 'utf16', 'utf32', 'utf8bom' 및 'windows1252'입니다. |
반환
형식 | Description |
---|---|
TabularDataset 개체를 반환합니다. |
설명
from_json_lines_files는 JSON Lines 파일에서 표 형식으로 데이터를 로드하는 작업을 정의하는 TabularDataset 클래스의 개체를 만듭니다.
Azure Machine Learning에서 데이터에 액세스할 수 있도록 하려면 경로 로 지정된 JSON 라인 파일이 Blob, ADLS Gen1 및 ADLS Gen2의 공용 웹 URL 또는 URL 뒤에 있어야 Datastore 합니다. 사용자의 AAD 토큰은 Notebook 또는 로컬 Python 프로그램에서 FileDataset.mount FileDataset.download 함수 중 하나를 직접 호출하는 경우 사용됩니다. FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files 컴퓨팅 대상의 ID는 데이터 액세스 인증을 위해 Experiment.submit에서 제출한 작업에 사용됩니다. 자세한 정보: https://aka.ms/data-access
열 데이터 형식은 JSON Lines 파일에 저장된 데이터 형식에서 읽습니다. set_column_types를 제공하면 반환된 TabularDataset에서 지정된 열의 데이터 형식이 재정의됩니다.
from azureml.core import Dataset, Datastore
# create tabular dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))
# create tabular dataset from a single directory in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))
# create tabular dataset from all jsonl files in the directory
tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))
# create tabular dataset from multiple paths
data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)
# create tabular dataset from url
tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
web_path = [
'https://url/weather/2018/11.jsonl',
'https://url/weather/2018/12.jsonl'
]
tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)
from_parquet_files
Parquet 파일에서 표 형식 데이터를 나타내는 TabularDataset을 만듭니다.
static from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)
매개 변수
Name | Description |
---|---|
path
필수
|
|
validate
필수
|
반환된 데이터 세트에서 데이터를 로드할 수 있는지 유효성 검사하는 부울입니다. 기본값은 True입니다. 유효성을 검사하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다. |
include_path
필수
|
경로 정보를 데이터 세트의 열로 유지하는 부울입니다. 기본값은 False입니다. 이는 여러 파일을 읽고 특정 레코드가 어떤 파일에서 발생했는지 알고 싶거나 파일 경로에 유용한 정보를 유지하려는 경우에 유용합니다. |
set_column_types
필수
|
키는 열 이름이고 값은 DataType인 열 데이터 형식을 설정하는 사전입니다. |
partition_format
필수
|
경로의 파티션 형식을 지정합니다. 기본값은 None입니다. 각 경로의 파티션 정보는 지정된 형식에 따라 열로 추출됩니다. 형식 부분 '{column_name}'은 문자열 열을 만들고, '{column_name:yyyy/MM/dd/HH/mm/ss}'는 datetime 열을 만듭니다. 여기서 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 datetime 형식의 연도, 월, 일, 시, 분 및 초를 추출하는 데 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어, 파티션이 부서 이름 및 시간 기준인 '../Accounts/2019/01/01/data.parquet' 경로가 지정되면 partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.parquet'는 값이 'Accounts'인 문자열 열 'Department'와 값이 '2019-01-01'인 날짜/시간 열 'PartitionDate'를 만듭니다. |
반환
형식 | Description |
---|---|
TabularDataset 개체를 반환합니다. |
설명
from_parquet_files는 Parquet 파일에서 표 형식으로 데이터를 로드하는 작업을 정의하는 TabularDataset 클래스의 개체를 만듭니다.
Azure Machine Learning에서 데이터에 액세스할 수 있도록 하려면 경로 로 지정된 Parquet 파일이 Blob, ADLS Gen1 및 ADLS Gen2의 공용 웹 URL 또는 URL 뒤에 있어야 Datastore 합니다. 사용자의 AAD 토큰은 Notebook 또는 로컬 Python 프로그램에서 FileDataset.mount FileDataset.download 함수 중 하나를 직접 호출하는 경우 사용됩니다. FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files 컴퓨팅 대상의 ID는 데이터 액세스 인증을 위해 Experiment.submit에서 제출한 작업에 사용됩니다. 자세한 정보: https://aka.ms/data-access
열 데이터 형식은 Parquet 파일에 저장된 데이터 형식에서 읽습니다. set_column_types를 제공하면 반환된 TabularDataset에서 지정된 열의 데이터 형식이 재정의됩니다.
# create tabular dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))
# create tabular dataset from a single directory in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))
# create tabular dataset from all parquet files in the directory
tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))
# create tabular dataset from multiple paths
data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)
# create tabular dataset from url
tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
web_path = [
'https://url/weather/2018/11.parquet',
'https://url/weather/2018/12.parquet'
]
tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)
from_sql_query
SQL 데이터베이스에서 표 형식 데이터를 나타내는 TabularDataset을 만듭니다.
static from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)
매개 변수
Name | Description |
---|---|
query
필수
|
SQL 종류의 데이터 저장소 및 쿼리입니다. |
validate
필수
|
반환된 데이터 세트에서 데이터를 로드할 수 있는지 유효성 검사하는 부울입니다. 기본값은 True입니다. 유효성을 검사하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다. |
set_column_types
필수
|
키는 열 이름이고 값은 DataType인 열 데이터 형식을 설정하는 사전입니다. |
query_timeout
필수
|
명령 실행을 종료하고 오류를 생성하기 전 대기 시간(초 단위)을 설정합니다. 기본값은 30초입니다. |
반환
형식 | Description |
---|---|
TabularDataset 개체를 반환합니다. |
설명
from_sql_query는 SQL 데이터베이스에서 표 형식으로 데이터를 로드하는 작업을 정의하는 TabularDataset 클래스의 개체를 만듭니다. 현재 MSSQLDataSource만 지원합니다.
Azure Machine Learning에서 데이터에 액세스할 수 있으려면 query
로 지정된 SQL 데이터베이스가 Datastore에 있어야 하고 데이터 저장소 형식이 SQL 종류여야 합니다.
열 데이터 형식은 SQL 쿼리 결과의 데이터 형식에서 읽습니다.
set_column_types
를 제공하면 반환된 TabularDataset의 지정된 열에 대한 데이터 형식이 재정의됩니다.
from azureml.core import Dataset, Datastore
from azureml.data.datapath import DataPath
# create tabular dataset from a SQL database in datastore
datastore = Datastore.get(workspace, 'mssql')
query = DataPath(datastore, 'SELECT * FROM my_table')
tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
df = tabular.to_pandas_dataframe()
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)
register_dask_dataframe
참고
이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.
dask 데이터 프레임에서 데이터 세트를 만듭니다.
static register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)
매개 변수
Name | Description |
---|---|
dataframe
필수
|
<xref:dask.dataframe.core.DataFrame>
필수, 업로드할 dask 데이터 프레임입니다. |
target
필수
|
필수, 데이터 프레임 parquet 데이터가 업로드될 데이터 저장소 경로입니다. 충돌을 피하기 위해 대상 경로 아래에 guid 폴더가 생성됩니다. |
name
필수
|
필수, 등록된 데이터 세트의 이름입니다. |
description
필수
|
선택 사항입니다. 이 데이터 세트에 대한 텍스트 설명입니다. 기본값은 None입니다. |
tags
필수
|
선택 사항입니다. 데이터 세트에 제공할 키 값 태그의 사전입니다. 기본값은 None입니다. |
show_progress
필수
|
선택 사항으로 콘솔에 업로드 진행률을 표시할지 여부를 나타냅니다. 기본값은 True입니다. |
반환
형식 | Description |
---|---|
등록된 데이터 세트입니다. |
register_pandas_dataframe
pandas DataFrame에서 데이터 세트를 만듭니다.
static register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True, row_group_size=None, make_target_path_unique=True)
매개 변수
Name | Description |
---|---|
dataframe
필수
|
업로드할 메모리 데이터 프레임에서 필수입니다. |
target
필수
|
필수, 데이터 프레임 parquet 데이터가 업로드될 데이터 저장소 경로입니다. 충돌을 피하기 위해 대상 경로 아래에 guid 폴더가 생성됩니다. |
name
필수
|
필수, 등록된 데이터 세트의 이름입니다. |
description
필수
|
선택 사항입니다. 이 데이터 세트에 대한 텍스트 설명입니다. 기본값은 None입니다. |
tags
필수
|
선택 사항입니다. 데이터 세트에 제공할 키 값 태그의 사전입니다. 기본값은 None입니다. |
show_progress
필수
|
선택 사항으로 콘솔에 업로드 진행률을 표시할지 여부를 나타냅니다. 기본값은 True입니다. |
row_group_size
필수
|
선택 사항입니다. parquet 파일을 작성할 때 사용할 행 그룹의 최대 크기입니다. 기본값은 None입니다. |
make_target_path_unique
필수
|
선택 사항으로, 대상에 고유한 하위 폴더를 만들어야 하는지를 나타냅니다. 기본값은 True입니다. |
반환
형식 | Description |
---|---|
등록된 데이터 세트입니다. |
register_spark_dataframe
참고
이는 실험적인 메서드이며 언제든지 변경될 수도 있습니다. 자세한 내용은 https://aka.ms/azuremlexperimental을 참조하세요.
spark 데이터 프레임에서 데이터 세트를 만듭니다.
static register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)
매개 변수
Name | Description |
---|---|
dataframe
필수
|
업로드할 메모리 데이터 프레임에서 필수입니다. |
target
필수
|
필수, 데이터 프레임 parquet 데이터가 업로드될 데이터 저장소 경로입니다. 충돌을 피하기 위해 대상 경로 아래에 guid 폴더가 생성됩니다. |
name
필수
|
필수, 등록된 데이터 세트의 이름입니다. |
description
필수
|
선택 사항입니다. 이 데이터 세트에 대한 텍스트 설명입니다. 기본값은 None입니다. |
tags
필수
|
선택 사항입니다. 데이터 세트에 제공할 키 값 태그의 사전입니다. 기본값은 None입니다. |
show_progress
필수
|
선택 사항으로 콘솔에 업로드 진행률을 표시할지 여부를 나타냅니다. 기본값은 True입니다. |
반환
형식 | Description |
---|---|
등록된 데이터 세트입니다. |