Condividi tramite


FileDatasetFactory Classe

Contiene metodi per creare un set di dati di file per Azure Machine Learning.

Viene FileDataset creato dal from_files metodo definito in questa classe.

Per altre informazioni sull'uso dei set di dati di file, vedere il notebook https://aka.ms/filedataset-samplenotebook.

Ereditarietà
builtins.object
FileDatasetFactory

Costruttore

FileDatasetFactory()

Metodi

from_files

Creare un FileDataset per rappresentare i flussi di file.

upload_directory

Creare un set di dati dalla directory di origine.

from_files

Creare un FileDataset per rappresentare i flussi di file.

static from_files(path, validate=True, partition_format=None, is_file=False)

Parametri

Nome Descrizione
path
Necessario

Percorso dei file di origine, che possono essere un singolo valore o un elenco di stringhe url (http[s]|abfs[s]|wasb[s]), DataPath oggetto o tuple di Datastore e percorso relativo. Si noti che l'elenco di percorsi non può includere sia url che archivi dati insieme.

validate
Necessario

Indica se è possibile convalidare se i dati possono essere caricati dal set di dati restituito. Impostazione predefinita su True. La convalida richiede che l'origine dati sia accessibile dal calcolo corrente.

partition_format
Necessario
str

Specificare il formato di partizione del percorso. Il valore predefinito è Nessuna. Le informazioni di partizione di ogni percorso verranno estratte in colonne in base al formato specificato. La parte di formato '{column_name}' crea una colonna stringa e '{column_name:y/MM/dd/HH/mm/ss}' crea una colonna datetime, dove 'y', 'MM', 'dd', 'HH', 'mm' e 'ss' vengono usati per estrarre anno, mese, giorno, ora e secondo per il tipo datetime. Il formato deve iniziare dalla posizione della prima chiave di partizione fino alla fine del percorso del file. Ad esempio, dato il percorso '.. /Accounts/2019/01/01/data.jsonl' in cui la partizione è in base al nome e all'ora del reparto, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' crea una colonna stringa 'Department' con il valore 'Accounts' e una colonna datetime 'PartitionDate' con il valore '2019-01-01'.

is_file
Necessario

Indica se tutti i percorsi di input puntano ai file. Il motore del set di dati per impostazione predefinita tenta di verificare se i percorsi di input puntano ai file. Impostare questo flag su True quando tutti i percorsi di input sono File per velocizzare la creazione del set di dati.

Restituisce

Tipo Descrizione

Un oggetto FileDataset.

Commenti

from_files crea un oggetto di classe, che definisce le operazioni per caricare i flussi di FileDataset file dal percorso specificato.

Affinché i dati siano accessibili da Azure Machine Learning, i file specificati path da devono trovarsi in un Datastore oggetto o essere accessibili con URL Web pubblici o URL di BLOB, ADLS Gen1 e ADLS Gen2.

Il token AAD degli utenti verrà usato nel notebook o nel programma Python locale se chiama direttamente una di queste funzioni: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l'identità della destinazione di calcolo verrà usata nei processi inviati da Experiment.submit per l'autenticazione di accesso ai dati. Ulteriori informazioni: https://aka.ms/data-access


   from azureml.core import Dataset, Datastore

   # create file dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))

   # create file dataset from a single directory in datastore
   file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))

   # create file dataset from all jpeg files in the directory
   file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))

   # create filedataset from multiple paths
   data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
   file_dataset_4 = Dataset.File.from_files(path=data_paths)

   # create file dataset from url
   file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')

upload_directory

Creare un set di dati dalla directory di origine.

static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)

Parametri

Nome Descrizione
src_dir
Necessario
str

Directory locale da caricare.

target
Necessario

Obbligatorio, il percorso dell'archivio dati in cui verranno caricati i file.

pattern
Necessario
str

Facoltativo, se specificato, filtra tutti i nomi di percorso corrispondenti al modello specificato, simile al pacchetto glob Python, che supporta '*', '?' e gli intervalli di caratteri espressi con [].

show_progress
Necessario

Facoltativo, indica se visualizzare lo stato di avanzamento del caricamento nella console. Le impostazioni predefinite sono True.

Restituisce

Tipo Descrizione

Set di dati registrato.