FileDatasetFactory Classe
Contiene metodi per creare un set di dati di file per Azure Machine Learning.
Viene FileDataset creato dal from_files metodo definito in questa classe.
Per altre informazioni sull'uso dei set di dati di file, vedere il notebook https://aka.ms/filedataset-samplenotebook.
- Ereditarietà
-
builtins.objectFileDatasetFactory
Costruttore
FileDatasetFactory()
Metodi
from_files |
Creare un FileDataset per rappresentare i flussi di file. |
upload_directory |
Creare un set di dati dalla directory di origine. |
from_files
Creare un FileDataset per rappresentare i flussi di file.
static from_files(path, validate=True, partition_format=None, is_file=False)
Parametri
Nome | Descrizione |
---|---|
path
Necessario
|
|
validate
Necessario
|
Indica se è possibile convalidare se i dati possono essere caricati dal set di dati restituito. Impostazione predefinita su True. La convalida richiede che l'origine dati sia accessibile dal calcolo corrente. |
partition_format
Necessario
|
Specificare il formato di partizione del percorso. Il valore predefinito è Nessuna. Le informazioni di partizione di ogni percorso verranno estratte in colonne in base al formato specificato. La parte di formato '{column_name}' crea una colonna stringa e '{column_name:y/MM/dd/HH/mm/ss}' crea una colonna datetime, dove 'y', 'MM', 'dd', 'HH', 'mm' e 'ss' vengono usati per estrarre anno, mese, giorno, ora e secondo per il tipo datetime. Il formato deve iniziare dalla posizione della prima chiave di partizione fino alla fine del percorso del file. Ad esempio, dato il percorso '.. /Accounts/2019/01/01/data.jsonl' in cui la partizione è in base al nome e all'ora del reparto, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' crea una colonna stringa 'Department' con il valore 'Accounts' e una colonna datetime 'PartitionDate' con il valore '2019-01-01'. |
is_file
Necessario
|
Indica se tutti i percorsi di input puntano ai file. Il motore del set di dati per impostazione predefinita tenta di verificare se i percorsi di input puntano ai file. Impostare questo flag su True quando tutti i percorsi di input sono File per velocizzare la creazione del set di dati. |
Restituisce
Tipo | Descrizione |
---|---|
Un oggetto FileDataset. |
Commenti
from_files crea un oggetto di classe, che definisce le operazioni per caricare i flussi di FileDataset file dal percorso specificato.
Affinché i dati siano accessibili da Azure Machine Learning, i file specificati path
da devono trovarsi in un Datastore oggetto o essere accessibili con URL Web pubblici o URL di BLOB, ADLS Gen1 e ADLS Gen2.
Il token AAD degli utenti verrà usato nel notebook o nel programma Python locale se chiama direttamente una di queste funzioni: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l'identità della destinazione di calcolo verrà usata nei processi inviati da Experiment.submit per l'autenticazione di accesso ai dati. Ulteriori informazioni: https://aka.ms/data-access
from azureml.core import Dataset, Datastore
# create file dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))
# create file dataset from a single directory in datastore
file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))
# create file dataset from all jpeg files in the directory
file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))
# create filedataset from multiple paths
data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
file_dataset_4 = Dataset.File.from_files(path=data_paths)
# create file dataset from url
file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')
upload_directory
Creare un set di dati dalla directory di origine.
static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)
Parametri
Nome | Descrizione |
---|---|
src_dir
Necessario
|
Directory locale da caricare. |
target
Necessario
|
Obbligatorio, il percorso dell'archivio dati in cui verranno caricati i file. |
pattern
Necessario
|
Facoltativo, se specificato, filtra tutti i nomi di percorso corrispondenti al modello specificato, simile al pacchetto glob Python, che supporta '*', '?' e gli intervalli di caratteri espressi con []. |
show_progress
Necessario
|
Facoltativo, indica se visualizzare lo stato di avanzamento del caricamento nella console. Le impostazioni predefinite sono True. |
Restituisce
Tipo | Descrizione |
---|---|
Set di dati registrato. |