FileDatasetFactory Classe
Contém métodos para criar um conjunto de dados de arquivo para o Azure Machine Learning.
Um FileDataset é criado a partir do método from_files definido nesta classe.
Para obter mais informações sobre como trabalhar com conjuntos de dados de arquivos, consulte o notebook https://aka.ms/filedataset-samplenotebook.
- Herança
-
builtins.objectFileDatasetFactory
Construtor
FileDatasetFactory()
Métodos
from_files |
Criar um FileDataset para representar fluxos de arquivos. |
upload_directory |
Criar um conjunto de dados a partir do diretório de origem. |
from_files
Criar um FileDataset para representar fluxos de arquivos.
static from_files(path, validate=True, partition_format=None, is_file=False)
Parâmetros
Nome | Description |
---|---|
path
Obrigatório
|
|
validate
Obrigatório
|
Indica se é necessário validar se os dados podem ser carregados do conjunto de dados retornado. O padrão é True. A validação requer que a fonte de dados seja acessível a partir da computação atual. |
partition_format
Obrigatório
|
Especifica o formato de partição do caminho. Assume o valor padrão de Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. A parte do formato '{column_name}' cria uma coluna de cadeia de caracteres e '{column_name:yyyy/MM/dd/HH/mm/ss}' cria a coluna datetime, na qual 'yyyy', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extrair ano, mês, dia, hora, minuto e segundos para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, considerando o caminho '../Accounts/2019/01/01/data.jsonl' em que a partição é por hora e nome do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' cria uma coluna de cadeia de caracteres 'Department' com o valor 'Accounts' e uma coluna datetime 'PartitionDate' com o valor '2019-01-01'. |
is_file
Obrigatório
|
Indica se todos os caminhos de entrada apontam para arquivos. Por padrão, o mecanismo de conjunto de dados tenta verificar se os caminhos de entrada apontam para arquivos. Defina esse sinalizador como True quando todos os caminhos de entrada forem arquivos para acelerar a criação de conjuntos de dados. |
Retornos
Tipo | Description |
---|---|
Um objeto FileDataset. |
Comentários
from_files cria um objeto da classe FileDataset, que define as operações para carregar fluxos de arquivos do caminho fornecido.
Para que os dados sejam acessíveis pelo Azure Machine Learning, os arquivos especificados por path
devem estar localizados em um Datastore ou estar acessíveis com URLs da Web públicas ou url de Blob, ADLS Gen1 e ADLS Gen2.
O token do AAD dos usuários será usado no notebook ou no programa python local se ele chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados pelo Experiment.submit para autenticação de acesso a dados. Saiba mais: https://aka.ms/data-access
from azureml.core import Dataset, Datastore
# create file dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))
# create file dataset from a single directory in datastore
file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))
# create file dataset from all jpeg files in the directory
file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))
# create filedataset from multiple paths
data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
file_dataset_4 = Dataset.File.from_files(path=data_paths)
# create file dataset from url
file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')
upload_directory
Criar um conjunto de dados a partir do diretório de origem.
static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)
Parâmetros
Nome | Description |
---|---|
src_dir
Obrigatório
|
O diretório local para upload. |
target
Obrigatório
|
Obrigatório, o caminho do armazenamento de dados para o qual os arquivos serão carregados. |
pattern
Obrigatório
|
Opcional, se fornecido, filtrará todos os nomes de caminho correspondentes ao padrão fornecido, semelhante ao pacote Python glob, compatível com '*', '?' e intervalos de caracteres expressos com []. |
show_progress
Obrigatório
|
Opcional, indica se é preciso mostrar o progresso do upload no console. O padrão é True. |
Retornos
Tipo | Description |
---|---|
O conjunto de dados registrado. |