TabularDataset Klasse

Referenz

Stellt ein tabellarisches Dataset dar, das in Azure Machine Learning verwendet werden soll.

Ein tabellarisches Dataset (TabularDataset) definiert eine Reihe von verzögert ausgewerteten, unveränderlichen Vorgängen, um Daten aus der Datenquelle in eine tabellarische Darstellung zu laden. Daten werden erst aus der Quelle geladen, wenn das TabularDataset zur Übermittlung von Daten aufgefordert wird.

Ein TabularDataset wird mit Methoden wie from_delimited_files aus der TabularDatasetFactory-Klasse erstellt.

Weitere Informationen finden Sie im Artikel Hinzufügen & Registrieren von Datasets. Informationen zu den ersten Schritten mit einem tabellarischen Dataset finden Sie unter https://aka.ms/tabulardataset-samplenotebook.

Initialisieren sie ein TabularDataset-Objekt.

Dieser Konstruktor sollte nicht direkt aufgerufen werden. Das Dataset soll mithilfe der TabularDatasetFactory -Klasse erstellt werden.

Vererbung: AbstractDataset

TabularDataset

Konstruktor

TabularDataset()

Hinweise

Ein TabularDataset kann mithilfe der from_*-Methoden der TabularDatasetFactory-Klasse aus CSV-, TSV- und Parquet-Dateien oder aus SQL-Abfragen erstellt werden. Sie können für ein TabularDataset Vorgänge für untergeordnete Einstellungen ausführen, z. B. Aufteilen, Überspringen und Filtern von Datensätzen. Eine untergeordnete Einstellung führt immer zu mindestens einem neuen TabularDataset-Objekt.

Sie können ein TabularDataset auch in andere Formate konvertieren – etwa in einen Pandas-DataFrame. Das tatsächliche Laden von Daten erfolgt, wenn das TabularDataset angewiesen wird, die Daten in einen anderen Speichermechanismus (z. B. einen Pandas-Datenrahmen oder eine CSV-Datei) zu übermitteln.

Ein TabularDataset kann als Eingabe für eine Experimentausführung verwendet werden. Es kann auch bei einem Arbeitsbereich mit einem angegebenen Namen registriert und später mit diesem Namen abgerufen werden.

Methoden

download	Hinweis Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen. Herunterladen von Dateistreams, die vom Dataset definiert werden, an einen lokalen Pfad.
drop_columns	Löschen der angegebenen Spalten aus dem Dataset. Wenn eine Zeitreihenspalte gelöscht wird, werden die entsprechenden Funktionen auch für das zurückgegebene Dataset gelöscht.
filter	Hinweis Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen. Filtern der Daten, sodass nur die Datensätze zurückbleiben, die mit dem angegebenen Ausdruck übereinstimmen.
get_profile	Hinweis Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen. Abrufen des Datenprofils aus der letzten Profilausführung, die für dieses oder das gleiche Dataset im Arbeitsbereich übermittelt wurde.
get_profile_runs	Hinweis Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen. Zurückgeben vorheriger Profilausführungen, die diesem oder dem gleichen Dataset im Arbeitsbereich zugeordnet sind.
keep_columns	Beibehalten der angegebenen Spalten und Löschen aller anderen Spalten aus dem Dataset. Wenn eine Zeitreihenspalte gelöscht wird, werden die entsprechenden Funktionen auch für das zurückgegebene Dataset gelöscht.
mount	Hinweis Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen. Erstellen eines Kontext-Managers zum Einbinden von Dateistreams, die vom Dataset als lokale Dateien definiert werden.
partition_by	Partitionierte Daten werden kopiert und an das mit „target“ angegebene Ziel ausgegeben. Erstellen des Datasets aus dem ausgegebenen Datenpfad im Partitionsformat, Registrieren des Datasets, wenn „name“ angegeben ist, und Zurückgeben des Datasets für den neuen Datenpfad mit Partitionen. `ds = Dataset.get_by_name('test') # indexed by country, state, partition_date # #1: call partition_by locally new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'], target=DataPath(datastore, "repartition")) partition_keys = newds.partition_keys # ['country'] # new_ds can be passed to PRS as input dataset`
random_split	Aufteilen von Datensätzen im Dataset in zwei Teile nach dem Zufallsprinzip und ungefähr nach dem angegebenen Prozentsatz. Das erste Dataset enthält ungefähr `percentage` der gesamten Datensätze und das zweite Dataset die verbleibenden Datensätze.
skip	Überspringen der angegebenen Anzahl von Datensätzen vom Anfang des Datasets.
submit_profile_run	Hinweis Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen. Übermitteln einer Experimentausführung, um das Datenprofil zu berechnen. Ein Datenprofil enthält nützliche Informationen zu den Daten (z. B. Spaltentyp, fehlende Werte usw.) und kann sehr hilfreich sein, um die Eingabedaten zu verstehen sowie Anomalien und fehlende Werte zu identifizieren.
take	Nehmen einer Stichprobe mit der angegebenen Anzahl von Datensätzen vom Anfang des Datasets.
take_sample	Nehmen einer zufälligen Stichprobe von Datensätzen im Dataset, ungefähr nach der angegebenen Wahrscheinlichkeit.
time_after	Filtern des TabularDataset mit Zeitstempelspalten nach einer angegebenen Startzeit.
time_before	Filtern des TabularDataset mit Zeitstempelspalten vor einer angegebenen Endzeit.
time_between	Filtern des TabularDataset zwischen einer angegebenen Start- und Endzeit.
time_recent	Filtern des TabularDataset, sodass es nur die angegebene Dauer (Menge) aktueller Daten enthält.
to_csv_files	Konvertieren des aktuellen Datasets in ein FileDataset mit CSV-Dateien. Das resultierende Dataset enthält mindestens eine CSV-Datei, die jeweils einer Partition von Daten aus dem aktuellen Dataset entspricht. Diese Dateien werden erst materialisiert, wenn sie heruntergeladen oder gelesen wurden.
to_dask_dataframe	Hinweis Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen. Zurückgeben eines Dask-Datenrahmens (DataFrame), der die Daten im Dataset verzögert lesen kann.
to_pandas_dataframe	Laden aller Datensätze aus dem Dataset in einen Pandas-DataFrame.
to_parquet_files	Konvertieren des aktuellen Datasets in ein FileDataset mit Parquet-Dateien. Das resultierende Dataset enthält mindestens eine Parquet-Datei, die jeweils einer Datenpartition aus dem aktuellen Dataset entspricht. Diese Dateien werden erst materialisiert, wenn sie heruntergeladen oder gelesen wurden.
to_spark_dataframe	Laden aller Datensätze aus dem Dataset in einen Spark-DataFrame.
with_timestamp_columns	Definieren von Zeitstempelspalten für das Dataset.

download

Hinweis

Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.

Herunterladen von Dateistreams, die vom Dataset definiert werden, an einen lokalen Pfad.

download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)

Parameter

Name	Beschreibung
stream_column Erforderlich	str Die herunterzuladende Streamspalte.
target_path Erforderlich	str Das lokale Verzeichnis, in das die Dateien heruntergeladen werden sollen. Bei „None“ (Keine) werden die Daten in ein temporäres Verzeichnis heruntergeladen.
overwrite Erforderlich	bool Gibt an, ob vorhandene Dateien überschrieben werden. Die Standardeinstellung lautet „false“. Vorhandene Dateien werden überschrieben, wenn „overwrite“ auf „True“ festgelegt ist. Andernfalls wird eine Ausnahme ausgelöst.
ignore_not_found Erforderlich	bool Gibt an, ob der Download fehlschlägt, wenn einige Dateien, auf die vom Dataset verwiesen wird, nicht gefunden werden. Der Standardwert ist True. Ist „ignore_not_found“ auf „False“ festgelegt, ist der Download nicht erfolgreich, falls bei einem Dateidownload ein beliebiger Fehler auftritt. Andernfalls wird eine Warnung für Fehler vom Typ „Nicht gefunden“ protokolliert, und der Download ist erfolgreich, solange keine anderen Fehlertypen gefunden werden.

Gibt zurück

Typ	Beschreibung
ndarray	Gibt ein Array von Dateipfaden für jede heruntergeladene Datei zurück.

drop_columns

Löschen der angegebenen Spalten aus dem Dataset.

Wenn eine Zeitreihenspalte gelöscht wird, werden die entsprechenden Funktionen auch für das zurückgegebene Dataset gelöscht.

drop_columns(columns)

Parameter

Name	Beschreibung
columns Erforderlich	Union[str, list[str]] Der Name oder eine Liste der Namen für die zu löschenden Spalten.

Gibt zurück

Typ	Beschreibung
TabularDataset	Dient zum Zurückgeben eines neuen TabularDataset-Objekts, in dem die angegebenen Spalten gelöscht wurden.

filter

Hinweis

Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.

Filtern der Daten, sodass nur die Datensätze zurückbleiben, die mit dem angegebenen Ausdruck übereinstimmen.

filter(expression)

Parameter

Name	Beschreibung
expression Erforderlich	any Der auszuwertende Ausdruck.

Gibt zurück

Typ	Beschreibung
TabularDataset	Das geänderte Dataset (nicht registriert).

Hinweise

Ausdrücke werden gestartet, indem das Dataset mit dem Namen einer Spalte indiziert wird. Sie unterstützen eine Vielzahl von Funktionen und Operatoren und können mithilfe von logischen Operatoren kombiniert werden. Der resultierende Ausdruck wird verzögert für jeden Datensatz ausgewertet, wenn ein Datenpullvorgang erfolgt, und nicht an der Stelle, an der er definiert ist.


   dataset['myColumn'] > dataset['columnToCompareAgainst']
   dataset['myColumn'].starts_with('prefix')

get_profile

Hinweis

Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.

Abrufen des Datenprofils aus der letzten Profilausführung, die für dieses oder das gleiche Dataset im Arbeitsbereich übermittelt wurde.

get_profile(workspace=None)

Parameter

Name	Beschreibung
workspace Erforderlich	Workspace Der Arbeitsbereich, an den die Profilausführung übermittelt wurde. Der Standardwert ist der Arbeitsbereich dieses Datasets. Ist erforderlich, wenn das Dataset keinem Arbeitsbereich zugeordnet ist. Weitere Informationen zu Arbeitsbereichen finden Sie unter https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace.

Gibt zurück

Typ	Beschreibung
DatasetProfile	Profilergebnis der letzten Profilausführung vom Typ „DatasetProfile“.

get_profile_runs

Hinweis

Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.

Zurückgeben vorheriger Profilausführungen, die diesem oder dem gleichen Dataset im Arbeitsbereich zugeordnet sind.

get_profile_runs(workspace=None)

Parameter

Name	Beschreibung
workspace Erforderlich	Workspace Der Arbeitsbereich, an den die Profilausführung übermittelt wurde. Der Standardwert ist der Arbeitsbereich dieses Datasets. Ist erforderlich, wenn das Dataset keinem Arbeitsbereich zugeordnet ist. Weitere Informationen zu Arbeitsbereichen finden Sie unter https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace.

Gibt zurück

Typ	Beschreibung
iter(Run)	Ein iterator-Objekt vom Typ „azureml.core.Run“.

keep_columns

Beibehalten der angegebenen Spalten und Löschen aller anderen Spalten aus dem Dataset.

Wenn eine Zeitreihenspalte gelöscht wird, werden die entsprechenden Funktionen auch für das zurückgegebene Dataset gelöscht.

keep_columns(columns, validate=False)

Parameter

Name	Beschreibung
columns Erforderlich	Union[str, list[str]] Der Name oder eine Liste der Namen für die Spalten, die beibehalten werden sollen.
validate Erforderlich	bool Gibt an, ob überprüft werden soll, ob Daten aus dem zurückgegebenen Dataset geladen werden können. Die Standardeinstellung lautet „false“. Die Überprüfung erfordert, dass über die aktuelle Computeressource auf die Datenquelle zugegriffen werden kann.

Gibt zurück

Typ	Beschreibung
TabularDataset	Gibt ein neues TabularDataset-Objekt zurück, bei dem nur die angegebenen Spalten beibehalten werden.

mount

Hinweis

Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.

Erstellen eines Kontext-Managers zum Einbinden von Dateistreams, die vom Dataset als lokale Dateien definiert werden.

mount(stream_column, mount_point=None)

Parameter

Name	Beschreibung
stream_column Erforderlich	str Die einzubindende Streamspalte.
mount_point Erforderlich	str Das lokale Verzeichnis, in das die Dateien eingebunden werden sollen. Bei „None“ werden die Daten in ein temporäres Verzeichnis eingebunden, das Sie durch Aufrufen der Instanzmethode MountContext.mount_point ermitteln können.

Gibt zurück

Typ	Beschreibung
<xref:azureml.dataprep.fuse.daemon.MountContext>	Gibt einen Kontext-Manager zum Verwalten des Lebenszyklus der Einbindung zurück.

partition_by

Partitionierte Daten werden kopiert und an das mit „target“ angegebene Ziel ausgegeben.

Erstellen des Datasets aus dem ausgegebenen Datenpfad im Partitionsformat, Registrieren des Datasets, wenn „name“ angegeben ist, und Zurückgeben des Datasets für den neuen Datenpfad mit Partitionen.


   ds = Dataset.get_by_name('test') # indexed by country, state, partition_date

   # #1: call partition_by locally
   new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
               target=DataPath(datastore, "repartition"))
   partition_keys = newds.partition_keys # ['country']

   # new_ds can be passed to PRS as input dataset

partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)

Parameter

Name	Beschreibung
partition_keys Erforderlich	list[str] Erforderlich. Partitionsschlüssel
target Erforderlich	DataPath, Datastore oder tuple(Datastore, str) object Erforderlich. Der Datenspeicherpfad, in den die Parquet-Daten des Datenrahmens hochgeladen werden. Ein GUID-Ordner wird unter dem Zielpfad generiert, um Konflikte zu vermeiden.
name Erforderlich	str Optional. Der Registrierungsname.
show_progress Erforderlich	bool Optional. Gibt an, ob der Fortschritt des Uploads in der Konsole angezeigt werden soll. Der Standardwert ist „True“.
partition_as_file_dataset Erforderlich	Optional. Gibt an, ob ein Dateidataset (FileDataset) zurückgegeben wird. Der Standardwert ist „False“.

Gibt zurück

Typ	Beschreibung
TabularDataset	Das gespeicherte oder registrierte Dataset.

random_split

Aufteilen von Datensätzen im Dataset in zwei Teile nach dem Zufallsprinzip und ungefähr nach dem angegebenen Prozentsatz.

Das erste Dataset enthält ungefähr percentage der gesamten Datensätze und das zweite Dataset die verbleibenden Datensätze.

random_split(percentage, seed=None)

Parameter

Name	Beschreibung
percentage Erforderlich	float Der ungefähre Prozentsatz, nach dem das Dataset aufgeteilt werden soll. Es muss eine Zahl zwischen 0,0 und 1,0 sein.
seed Erforderlich	int Ein optionaler Seed für den Zufallsgenerator.

Gibt zurück

Typ	Beschreibung
(TabularDataset, TabularDataset)	Gibt ein Tupel neuer TabularDataset-Objekte zurück, die die beiden Datasets nach der Teilung darstellen.

skip

Überspringen der angegebenen Anzahl von Datensätzen vom Anfang des Datasets.

skip(count)

Parameter

Name	Beschreibung
count Erforderlich	int Die Anzahl der zu überspringenden Datensätze.

Gibt zurück

Typ	Beschreibung
TabularDataset	Gibt ein neues TabularDataset-Objekt zurück, das ein Dataset mit übersprungenen Datensätzen darstellt.

submit_profile_run

Hinweis

Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.

Übermitteln einer Experimentausführung, um das Datenprofil zu berechnen.

Ein Datenprofil enthält nützliche Informationen zu den Daten (z. B. Spaltentyp, fehlende Werte usw.) und kann sehr hilfreich sein, um die Eingabedaten zu verstehen sowie Anomalien und fehlende Werte zu identifizieren.

submit_profile_run(compute_target, experiment, cache_datastore_name=None)

Parameter

Name	Beschreibung
compute_target Erforderlich	Union[str, ComputeTarget] Das Computeziel, auf dem das Profilberechnungsexperiment ausgeführt werden soll. Geben Sie „local“ an, um das lokale Computeziel zu verwenden. Weitere Informationen zu Computezielen finden Sie unter https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget.
experiment Erforderlich	Experiment Das Experimentobjekt. Weitere Informationen zu Experimenten finden Sie unter https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment.
cache_datastore_name Erforderlich	str Der Name des Datenspeichers zum Speichern des Profilcaches. Bei „None“ wird der Standarddatenspeicher verwendet.

Gibt zurück

Typ	Beschreibung
DatasetProfileRun	Ein Objekt vom Typ „DatasetProfileRun-Klasse“.

take

Nehmen einer Stichprobe mit der angegebenen Anzahl von Datensätzen vom Anfang des Datasets.

take(count)

Parameter

Name	Beschreibung
count Erforderlich	int Die Anzahl zu akzeptierender Datensätze.

Gibt zurück

Typ	Beschreibung
TabularDataset	Gibt ein neues TabularDataset-Objekt zurück, das das Stichprobendataset darstellt.

take_sample

Nehmen einer zufälligen Stichprobe von Datensätzen im Dataset, ungefähr nach der angegebenen Wahrscheinlichkeit.

take_sample(probability, seed=None)

Parameter

Name	Beschreibung
probability Erforderlich	float Die Wahrscheinlichkeit, dass ein Datensatz in die Stichprobe aufgenommen wird.
seed Erforderlich	int Ein optionaler Seed für den Zufallsgenerator.

Gibt zurück

Typ	Beschreibung
TabularDataset	Gibt ein neues TabularDataset-Objekt zurück, das das Stichprobendataset darstellt.

time_after

Filtern des TabularDataset mit Zeitstempelspalten nach einer angegebenen Startzeit.

time_after(start_time, include_boundary=True, validate=True)

Parameter

Name	Beschreibung
start_time Erforderlich	datetime Die untere Grenze zum Filtern von Daten.
include_boundary Erforderlich	bool Gibt an, ob die der Begrenzungszeit (`start_time`) zugeordnete Zeile eingeschlossen werden soll.
validate Erforderlich	bool Gibt an, ob überprüft werden soll, ob angegebene Spalten im Dataset vorhanden sind. Der Standardwert ist True. Die Überprüfung erfordert, dass über die aktuelle Computeressource auf die Datenquelle zugegriffen werden kann.

Gibt zurück

Typ	Beschreibung
TabularDataset	Ein TabularDataset mit dem neuen gefilterten Dataset.

time_before

Filtern des TabularDataset mit Zeitstempelspalten vor einer angegebenen Endzeit.

time_before(end_time, include_boundary=True, validate=True)

Parameter

Name	Beschreibung
end_time Erforderlich	datetime Die Obergrenze zum Filtern von Daten.
include_boundary Erforderlich	bool Gibt an, ob die der Begrenzungszeit (`end_time`) zugeordnete Zeile eingeschlossen werden soll.
validate Erforderlich	bool Gibt an, ob überprüft werden soll, ob angegebene Spalten im Dataset vorhanden sind. Der Standardwert ist True. Die Überprüfung erfordert, dass über die aktuelle Computeressource auf die Datenquelle zugegriffen werden kann.

Gibt zurück

Typ	Beschreibung
TabularDataset	Ein TabularDataset mit dem neuen gefilterten Dataset.

time_between

Filtern des TabularDataset zwischen einer angegebenen Start- und Endzeit.

time_between(start_time, end_time, include_boundary=True, validate=True)

Parameter

Name	Beschreibung
start_time Erforderlich	datetime Die Untergrenze zum Filtern von Daten.
end_time Erforderlich	datetime Die Obergrenze zum Filtern von Daten.
include_boundary Erforderlich	bool Gibt an, ob die der Begrenzungszeit (`start_end` und `end_time`) zugeordnete Zeile eingeschlossen werden soll.
validate Erforderlich	bool Gibt an, ob überprüft werden soll, ob angegebene Spalten im Dataset vorhanden sind. Der Standardwert ist True. Die Überprüfung erfordert, dass über die aktuelle Computeressource auf die Datenquelle zugegriffen werden kann.

Gibt zurück

Typ	Beschreibung
TabularDataset	Ein TabularDataset mit dem neuen gefilterten Dataset.

time_recent

Filtern des TabularDataset, sodass es nur die angegebene Dauer (Menge) aktueller Daten enthält.

time_recent(time_delta, include_boundary=True, validate=True)

Parameter

Name	Beschreibung
time_delta Erforderlich	timedelta Die Dauer (Menge) aktueller Daten, die abgerufen werden soll.
include_boundary Erforderlich	bool Gibt an, ob die der Begrenzungszeit (`time_delta`) zugeordnete Zeile eingeschlossen werden soll.
validate Erforderlich	bool Gibt an, ob überprüft werden soll, ob angegebene Spalten im Dataset vorhanden sind. Der Standardwert ist True. Die Überprüfung erfordert, dass über die aktuelle Computeressource auf die Datenquelle zugegriffen werden kann.

Gibt zurück

Typ	Beschreibung
TabularDataset	Ein TabularDataset mit dem neuen gefilterten Dataset.

to_csv_files

Konvertieren des aktuellen Datasets in ein FileDataset mit CSV-Dateien.

Das resultierende Dataset enthält mindestens eine CSV-Datei, die jeweils einer Partition von Daten aus dem aktuellen Dataset entspricht. Diese Dateien werden erst materialisiert, wenn sie heruntergeladen oder gelesen wurden.

to_csv_files(separator=',')

Parameter

Name	Beschreibung
separator Erforderlich	str Das Trennzeichen, das zum Trennen von Werten in der resultierenden Datei verwendet werden soll.

Gibt zurück

Typ	Beschreibung
FileDataset	Gibt ein neues FileDataset-Objekt mit einem Satz von CSV-Dateien zurück, die die Daten in diesem Dataset enthalten.

to_dask_dataframe

Hinweis

Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.

Zurückgeben eines Dask-Datenrahmens (DataFrame), der die Daten im Dataset verzögert lesen kann.

to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')

Parameter

Name	Beschreibung
sample_size Erforderlich	Die Anzahl von Datensätzen, die zum Bestimmen des Schemas und der Typen gelesen werden sollen.
dtypes Erforderlich	Ein optionales Wörterbuch, das die erwarteten Spalten und deren dtypes angibt. sample_size wird ignoriert, wenn dies angegeben ist.
on_error Erforderlich	Angeben, wie Fehlerwerte im Dataset behandelt werden, z. B. Fehlerwerte, die durch einen Fehler beim Analysieren von Werten entstehen. Gültige Werte sind „null“ (Ersetzen durch NULL) und „fail“ (Auslösen einer Ausnahme).
out_of_range_datetime Erforderlich	Angeben, wie Datums-/Uhrzeitwerte behandelt werden, die außerhalb des von Pandas unterstützten Bereichs liegen. Gültige Werte sind „null“ (Ersetzen durch NULL) und „fail“ (Auslösen einer Ausnahme).

Gibt zurück

Typ	Beschreibung
	dask.dataframe.core.DataFrame

to_pandas_dataframe

Laden aller Datensätze aus dem Dataset in einen Pandas-DataFrame.

to_pandas_dataframe(on_error='null', out_of_range_datetime='null')

Parameter

Name	Beschreibung
on_error Erforderlich	Angeben, wie Fehlerwerte im Dataset behandelt werden, z. B. Fehlerwerte, die durch einen Fehler beim Analysieren von Werten entstehen. Gültige Werte sind „null“ (Ersetzen durch NULL) und „fail“ (Auslösen einer Ausnahme).
out_of_range_datetime Erforderlich	Angeben, wie Datums-/Uhrzeitwerte behandelt werden, die außerhalb des von Pandas unterstützten Bereichs liegen. Gültige Werte sind „null“ (Ersetzen durch NULL) und „fail“ (Auslösen einer Ausnahme).

Gibt zurück

Typ	Beschreibung
DataFrame	Gibt einen Pandas-Datenrahmen (DataFrame) zurück.

to_parquet_files

Konvertieren des aktuellen Datasets in ein FileDataset mit Parquet-Dateien.

Das resultierende Dataset enthält mindestens eine Parquet-Datei, die jeweils einer Datenpartition aus dem aktuellen Dataset entspricht. Diese Dateien werden erst materialisiert, wenn sie heruntergeladen oder gelesen wurden.

to_parquet_files()

Gibt zurück

Typ	Beschreibung
FileDataset	Gibt ein neues FileDataset-Objekt mit einer Reihe von Parquet-Dateien zurück, die die Daten in diesem Dataset enthalten.

to_spark_dataframe

Laden aller Datensätze aus dem Dataset in einen Spark-DataFrame.

to_spark_dataframe()

Gibt zurück

Typ	Beschreibung
DataFrame	Gibt einen Spark-Datenrahmen (DataFrame) zurück.

with_timestamp_columns

Definieren von Zeitstempelspalten für das Dataset.

with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)

Parameter

Name	Beschreibung
timestamp Erforderlich	str Der Name der Spalte „timestamp“ (früher als „fine_grain_timestamp“ bezeichnet) (optional). Der Standardwert ist „None(clear)“.
partition_timestamp Erforderlich	str Der Name der Spalte „partition_timestamp“ (früher als „coarse_grain_timestamp“ bezeichnet) (optional). Der Standardwert ist „None(clear)“.
validate Erforderlich	bool Gibt an, ob überprüft werden soll, ob angegebene Spalten im Dataset vorhanden sind. Die Standardeinstellung lautet „false“. Die Überprüfung erfordert, dass über die aktuelle Computeressource auf die Datenquelle zugegriffen werden kann.

Gibt zurück

Typ	Beschreibung
TabularDataset	Gibt ein neues TabularDataset mit definierten Zeitstempelspalten zurück.

Hinweise

Die Methode definiert Spalten, die als Zeitstempel verwendet werden sollen. Zeitstempelspalten in einem Dataset ermöglichen es, die Daten als Zeitreihendaten zu behandeln, und bieten zusätzliche Funktionen. Wenn für ein Dataset sowohl timestamp (used to be referred as fine_grain_timestamp) als auch partition_timestamp (used to be referred as coarse grain timestamp) angegeben sind, sollten die beiden Spalten die gleiche Zeitachse darstellen.

Attribute

timestamp_columns

Dient zum Zurückgeben der Zeitstempelspalten.

Gibt zurück

Typ	Beschreibung
(str, str)	Die Spaltennamen für „timestamp“ (früher als „fine_grain_timestamp“ bezeichnet) und „partition_timestamp“ (früher als „coarse_grain_timestamp“ bezeichnet), die für das Dataset definiert sind.

Freigeben über

TabularDataset Klasse

Konstruktor

Hinweise

Methoden

download

Parameter

Gibt zurück

drop_columns

Parameter

Gibt zurück

filter

Parameter

Gibt zurück

Hinweise

get_profile

Parameter

Gibt zurück

get_profile_runs

Parameter

Gibt zurück

keep_columns

Parameter

Gibt zurück

mount

Parameter

Gibt zurück

partition_by

Parameter

Gibt zurück

random_split

Parameter

Gibt zurück

skip

Parameter

Gibt zurück

submit_profile_run

Parameter

Gibt zurück

take

Parameter

Gibt zurück

take_sample

Parameter

Gibt zurück

time_after

Parameter

Gibt zurück

time_before

Parameter

Gibt zurück

time_between

Parameter

Gibt zurück

time_recent

Parameter

Gibt zurück

to_csv_files

Parameter

Gibt zurück

to_dask_dataframe

Parameter

Gibt zurück

to_pandas_dataframe

Parameter

Gibt zurück

to_parquet_files

Gibt zurück

to_spark_dataframe

Gibt zurück

with_timestamp_columns

Parameter

Gibt zurück

Hinweise

Attribute

timestamp_columns

Gibt zurück

Feedback

Zusätzliche Ressourcen