Freigeben über


opendatasets Paket

Enthält Funktionen zum Nutzen von Azure Open Datasets als Dataframes und zum Anreichern von Kundendaten.

Öffentliche Azure-Datasets sind kuratierte öffentliche Datasets, mit denen Sie Lösungen mit maschinellem Lernen szenariospezifische Features hinzufügen können, um genauere Modelle zu erzielen. Sie können diese öffentlichen Datasets in Spark- und Pandas-Dataframes mit angewendeten Filtern konvertieren. Bei einigen Datasets können Sie eine Anreicherung verwenden, um die öffentlichen Daten mit Ihren Daten zu verknüpfen. Beispielsweise können Sie Ihre Daten mit Wetterdaten nach Längengrad und Breitengrad oder Postleitzahl und Uhrzeit verknüpfen.

Öffentlich verfügbare Daten für Wetter, Volkszählungen, Feiertage, öffentliche Sicherheit und Orte, mit denen Sie Machine Learning-Modelle trainieren und Vorhersagelösungen anreichern können, sind in Azure Open Datasets enthalten. Öffentliche Datasets (Open Datasets) befinden sich in der Cloud in Microsoft Azure und sind in Azure Machine Learning integriert. Weitere Informationen zur Verwendung von Azure Open Datasets finden Sie unter Erstellen von Azure Machine Learning-Datasets.

Allgemeine Informationen zu Azure Open Datasets finden Sie in der Dokumentation zu Azure Open Datasets.

Pakete

accessories

Enthält Funktionen zum Identifizieren von Spaltentypen in Daten, einschließlich Längen-/Breitengrad, Postleitzahl und Zeit.

aggregators

Enthält Funktionen zum Definieren, wie verknüpfte Daten aggregiert werden.

Aggregatoren definieren Vorgänge, die für das Ergebnis einer Verknüpfung von Daten aus zwei Datasets ausgeführt werden können. Wenn Sie beispielsweise eine der Klassen in enrichers verwenden, können Sie einen Aggregator als Teil des Vorgangs angeben. Wenn keine Aggregation erforderlich ist, verwenden Sie AggregatorAll.

data

Enthält die Init-Datei für Datenressourcen im publicholidays-Modul.

dataaccess

Enthält Funktionen, die Zugriffsmethoden für Blobdateien bereitstellen.

Wenn Sie eine Klasse aus dem opendatasets-Paket wie etwa die ChicagoSafety-Klasse verwenden, werden die DataAccess-Klassen und -Funktionen in diesem Paket intern verwendet. Im Allgemeinen müssen Sie die Funktionalität im DataAccess-Paket nicht direkt verwenden.

enrichers

Enthält Funktionalität zum Anreichern und Verknüpfen von Daten aus zwei Datasets.

Im Allgemeinen verknüpfen Anreicherer Daten aus verschiedenen Quellen. Insbesondere können Sie durch eine Anreicherung Ihre Daten (Kundendaten) mit Daten aus Azure Open Datasets oder anderen öffentlichen Datasets verknüpfen.

granularities

Enthält Funktionen zum Definieren von Zeit- und Entfernungskennzahlen, die von Anreicherungsfunktionen verwendet werden.

Granularitäten sind Zeit- oder Entfernungskennzahlen, die von enrichers beim Anreichern (Verknüpfen) von Daten verwendet werden. Es gibt Zeitgranularitäten, z. B. stündlich oder täglich, und als Granularität des Standorts beispielsweise die kürzeste Entfernung.

selectors

Enthält Funktionen zum Auswählen und Verknüpfen von Daten aus einem Kundendataset mit Daten aus einem öffentlichen Dataset.

Selektoren definieren Logik, mit der Sie Ihre Daten basierend auf Zeit- und Entfernungsmaßen mit öffentlichen Datasets anreichern können. Beispielsweise können Sie mit einem Selektor öffentliche Daten finden, die mit Ihren Daten basierend auf dem nächstgelegenen Standort oder durch Runden auf die gleiche Zeitgranularität verknüpft werden sollen.

Geben Sie Selektoren an, wenn Sie mit einer der Klassen im enrichers-Paket arbeiten.

Module

environ

Definiert Laufzeitumgebungsklassen, in denen Azure Open Datasets verwendet werden.

Die Klassen in diesem Modul stellen sicher, dass die Azure Open Datasets-Funktionalität für verschiedene Umgebungen optimiert ist. Im Allgemeinen müssen Sie diese Umgebungsklassen nicht instanziieren oder sich um deren Implementierung kümmern. Verwenden Sie stattdessen die get_environ-Modulfunktion, um die Umgebung zurückzugeben.

Klassen

BingCOVID19Data

Repräsentiert das Bing COVID-19-Dataset.

Dieses Dataset erfasst Bing COVID-19-Daten aus verschiedenen vertrauenswürdigen und zuverlässigen Quellen. Dazu zählen die Weltgesundheitsorganisation (World Health Organization, WHO), die Centers for Disease Control and Prevention (CDC), öffentliche Gesundheitsbehörden auf nationaler und bundesstaatlicher Ebene, BNO News, 24/7 Wall St. und Wikipedia. Weitere Informationen zu diesem Dataset, einschließlich Spaltenbeschreibungen, verschiedenen Möglichkeiten für den Zugriff auf das Dataset sowie Beispiele, finden Sie unter Bing COVID-19 Data im Microsoft Azure Open Datasets-Katalog.

Initialisieren sie Filterfelder.

BostonSafety

Repräsentiert das öffentliche Dataset „Boston Safety“.

Dieses Dataset enthält Daten zu Anrufe unter der Telefonnummer 311, die der Stadt Boston gemeldet wurden. Weitere Informationen zu diesem Dataset, einschließlich Spaltenbeschreibungen, verschiedenen Möglichkeiten für den Zugriff auf das Dataset sowie Beispiele, finden Sie unter Sicherheitsdaten zu Boston im Microsoft Azure Open Datasets-Katalog.

Initialisieren sie Filterfelder.

COVID19OpenResearch

Repräsentiert das Dataset „COVID-19 Open Research“.

Weitere Informationen zu diesem Dataset, einschließlich Spaltenbeschreibungen, verschiedenen Möglichkeiten für den Zugriff auf das Dataset sowie Beispiele, finden Sie unter COVID-19 Open Research Dataset im Microsoft Azure Open Datasets-Katalog.

COVIDTrackingProject

Repräsentiert das Dataset „COVID Tracking Project“.

Dieses Dataset mit Daten zur COVID-Nachverfolgung enthält aktuelle Zahlen zu Tests, bestätigten Fällen, in Krankenhäuser eingewiesenen Patienten und Patientenergebnissen aus allen US-Bundesstaaten und -Territorien. Weitere Informationen zu diesem Dataset, einschließlich Spaltenbeschreibungen, verschiedenen Möglichkeiten für den Zugriff auf das Dataset sowie Beispiele, finden Sie unter COVID Tracking Project Dataset im Microsoft Azure Open Datasets-Katalog.

Initialisieren sie Filterfelder.

ChicagoSafety

Stellt das öffentliche Dataset „Sicherheitsdaten zu Chicago“ dar.

Dieses Dataset enthält Serviceanfragen unter der Telefonnummer 311 der Stadt Chicago, einschließlich historischer Daten zu Beschwerden über sanitäre Einrichtungen, gemeldeten Schlaglöchern und Problemen mit der Straßenbeleuchtung. Weitere Informationen zu diesem Dataset, einschließlich Spaltenbeschreibungen und verschiedenen Möglichkeiten für den Zugriff auf das Dataset sowie Beispiele, finden Sie unter Sicherheitsdaten zu Chicago im Microsoft Azure Open Datasets-Katalog.

Initialisieren sie Filterfelder.

CitySafety

CitySafety-Klasse: Dies ist eine übergeordnete Klasse, die von jeder einzelnen Stadt geerbt werden kann.

Initialisieren sie Filterfelder.

Diabetes

Repräsentiert das öffentliche Dataset „Sample Diabetes“.

Das „Diabetes“-Dataset besitzt 442 Beispiele mit 10 Features, wodurch es einfach ist, mit Algorithmen für maschinelles Lernen zu beginnen. Weitere Informationen zu diesem Dataset, einschließlich Spaltenbeschreibungen, verschiedenen Möglichkeiten für den Zugriff auf das Dataset sowie Beispiele, finden Sie unter Beispiel: Diabetes im Microsoft Azure Open Datasets-Katalog.

EcdcCOVIDCases

Stellt Covid-19-Fälle des Europäischen Zentrums für die Prävention und die Kontrolle von Krankheiten l (ECDC) dar.

Diese Datasets stammen vom Europäischen Zentrum für die Prävention und die Kontrolle von Krankheiten (ECDC). Jede Zeile bzw. jeder Eintrag enthält die Anzahl der neu gemeldeten Fälle pro Tag und Land/Region. Weitere Informationen zu diesem Dataset, einschließlich Spaltenbeschreibungen, verschiedenen Möglichkeiten für den Zugriff auf das Dataset und Beispielen, finden Sie unter European Centre for Disease Prevention and Control (ECDC) Covid-19 Cases (Covid-19-Fälle des Europäischen Zentrums für die Prävention und die Kontrolle von Krankheiten l (ECDC)) im Microsoft Azure Open Datasets-Katalog.

Initialisieren sie Filterfelder.

MNIST

Repräsentiert das MNIST-Dataset handschriftlicher Ziffern.

Die MNIST-Datenbank handschriftlicher Ziffern verfügt über 60.000 Tranings- und 10.000 Testbeispiele. Die Größe der Ziffern wurde normalisiert, und die Ziffern wurden in einem Bild mit fester Größe zentriert. Weitere Informationen zu diesem Dataset, einschließlich Spaltenbeschreibungen und verschiedenen Möglichkeiten für den Zugriff auf das Dataset sowie Beispiele, finden Sie unter MNIST-Datenbank handschriftlicher Ziffern im Microsoft Azure Open Datasets-Katalog.

Ein Beispiel für die Verwendung des MNIST-Datasets finden Sie im Tutorial Trainieren von Bildklassifikationsmodellen mit MNIST-Daten und scikit-learn mithilfe von Azure Machine Learning.

NoParameterOpenDatasetBase

Basisklasse für US-Arbeitsmarktdaten.

Initialisieren.

NoaaGfsWeather

Repräsentiert das GFS-Dataset (Global Forecast System) der US-Wetter- und Ozeanografiebehörde (National Oceanic and Atmospheric Administration, NOAA).

Dieses Dataset enthält stundengenaue Daten zum Wetterbericht für die nächsten 15 Tage in den USA (Beispiel: Temperatur, Niederschlag und Wind), die vom GFS der NOAA erstellt werden. Informationen zu diesem Dataset, einschließlich Spaltenbeschreibungen, verschiedenen Möglichkeiten für den Zugriff auf das Dataset sowie Beispiele, finden Sie unter NOAA Global Forecast System im Microsoft Azure Open Datasets-Katalog.

Initialisieren sie Filterfelder.

NoaaIsdWeather

Stellt das Integrated Surface Dataset (ISD) der National Oceanic and Atmospheric Administration (NOAA) dar

Das Dataset enthält stündliche globale Wetterdaten (z. B. zur Temperatur, zum Niederschlag und Wind), die von der NOAA-Behörde stammen. Weitere Informationen zu diesem Dataset, einschließlich der Spaltenbeschreibungen, verschiedenen Möglichkeiten für den Zugriff auf das Dataset sowie Beispiele, finden Sie unter NOAA Integrated Surface Data im Microsoft Azure Open Datasets-Katalog.

Initialisieren sie Filterfelder.

NycSafety

Repräsentiert das öffentliche Dataset „New York City Safety“.

Dieses Dataset enthält alle Anforderungen des 311-Service in New York City von 2010 bis heute. Weitere Informationen zu diesem Dataset, einschließlich Spaltenbeschreibungen und verschiedenen Möglichkeiten für den Zugriff auf das Dataset sowie Beispiele, finden Sie unter Sicherheitsdaten zu New York City im Microsoft Azure Open Datasets-Katalog.

Initialisieren sie Filterfelder.

NycTaxiBase

New York Taxi-Klasse: Dies ist eine übergeordnete Klasse, die geerbt werden kann.

Initialisieren sie Filterfelder.

NycTlcFhv

Represents the NYC Taxi & Limousine Commission public dataset.

Dieses Dataset enthält Datensätze zu Fahrten mit Taxis und Limousinen und umfasst Felder für die jeweiligen Lizenznummern der Zentrale, das Datum und die Uhrzeit der Abholung und die Standort-ID der Taxizone (Shape-Datei unten). Diese Datensätze werden anhand der von der Zentrale übermittelten Informationen zu Fahrten mit Taxis und Limousinen erstellt. Weitere Informationen zu diesem Dataset, einschließlich Spaltenbeschreibungen, verschiedenen Zugriffsmöglichkeiten auf das Dataset und Beispiele, finden Sie unter NYC Taxi & Limousine Commission – For-Hire Vehicle (FHV)-Reisedatensätze im Microsoft Azure Open Datasets-Katalog.

Initialisieren sie Filterfelder.

NycTlcGreen

Represents the NYC Taxi & Limousine Commission green taxi trip public dataset.

Datensätze zu Fahrten mit grünen Taxis enthalten Felder mit Datum/Uhrzeit für Abholung und Ankunft, Start- und Zielort, zurückgelegten Entfernungen, Einzelkosten, Tarifarten, Zahlungsarten und vom Fahrer gemeldeten Fahrgastzahlen. Weitere Informationen zu diesem Dataset, einschließlich Spaltenbeschreibungen, verschiedenen Zugriffsmöglichkeiten auf das Dataset und Beispiele, finden Sie unter NYC Taxi & Limousine Commission – Green Taxi Trip Records im Microsoft Azure Open Datasets-Katalog.

Ein Beispiel für die Verwendung der NycTlcGreen-Klasse finden Sie im Tutorial Vorhersagen von Preisen für Taxifahrten mit automatisiertem maschinellem Lernen.

Initialisieren sie Filterfelder.

NycTlcYellow

Represents the NYC Taxi & Limousine Commission yellow taxi trip public dataset.

Datensätze zu Fahrten mit gelben Taxis enthalten Felder mit Datum/Uhrzeit für Abholung und Ankunft, Start- und Zielort, Fahrtentfernungen, Einzelkosten, Tarifarten, Zahlungsarten und vom Fahrer gemeldeten Fahrgastzahlen. Weitere Informationen zu diesem Dataset, einschließlich Spaltenbeschreibungen, verschiedenen Zugriffsmöglichkeiten auf das Dataset und Beispiele, finden Sie unter NYC Taxi & Limousine Commission – gelbe Taxifahrtendatensätze im Microsoft Azure Open Datasets-Katalog.

Initialisieren sie Filterfelder.

OjSalesSimulated

Repräsentiert das Dataset „Sample Orange Juice Sales Simulated Sales“.

Weitere Informationen zu diesem Dataset, einschließlich Spaltenbeschreibungen, verschiedenen Möglichkeiten für den Zugriff auf das Dataset sowie Beispiele, finden Sie unter Beispiel: Simulierte Daten zum Verkauf von Orangensaft im Microsoft Azure Open Datasets-Katalog.

PublicHolidays

Repräsentiert das öffentliche Dataset „Public Holidays“.

Das Dataset enthält Daten zu Feiertagen weltweit aus dem Feiertagspaket von PyPI und von Wikipedia (38 Länder oder Regionen von 1970–2099). Jede Zeile enthält bestimmte Informationen zu Feiertagen an einem bestimmten Datum und in einem bestimmten Land bzw. einer bestimmten Region sowie die Angabe, ob die Bewohner des Landes an dem Tag freihaben. Weitere Informationen zu diesem Dataset, einschließlich Spaltenbeschreibungen, verschiedenen Möglichkeiten für den Zugriff auf das Dataset sowie Beispiele, finden Sie unter Public Holidays (Feiertage) im Microsoft Azure Open Datasets-Katalog.

Initialisieren Sie Filterfelder.

PublicHolidaysOffline

Stellt das öffentliche Dataset „Public Holidays Offline“ dar.

Eine Beschreibung der Zeilen finden Sie im Microsoft Azure Open Datasets-Katalog unter Public Holidays.

Initialisieren Sie Filterfelder.

SampleDatasetBase

Repräsentiert die Basisklasse für das Beispieldataset.

SanFranciscoSafety

Repräsentiert das öffentliche Dataset „San Francisco Safety“.

Dieses Dataset enthält Daten zu Anrufen bei der Feuerwehrdienststelle und 311-Fällen in San Francisco. Weitere Informationen zu diesem Dataset, einschließlich Spaltenbeschreibungen, verschiedenen Möglichkeiten für den Zugriff auf das Dataset sowie Beispiele, finden Sie unter San Francisco Safety Data im Microsoft Azure Open Datasets-Katalog.

Initialisieren Sie Filterfelder.

SeattleSafety

Stellt das öffentliche Dataset „Sicherheitsdaten zu Seattle“ dar.

Dieses Dataset enthält Einsatzdaten des Seattle Fire Department 911. Weitere Informationen zu diesem Dataset, einschließlich Spaltenbeschreibungen, verschiedenen Möglichkeiten für den Zugriff auf das Dataset sowie Beispiele, finden Sie unter Sicherheitsdaten zu Seattle im Microsoft Azure Open Datasets-Katalog.

Initialisieren Sie Filterfelder.

UsLaborCPI

Repräsentiert das öffentliche Dataset „US Consumer Price Index“.

Der Verbraucherpreisindex zeigt die durchschnittliche Veränderung der Preise, die von Konsumenten in Städten für bestimmte Waren und Dienstleistungen bezahlt werden, im Laufe der Zeit. Weitere Informationen zu diesem Dataset, einschließlich Spaltenbeschreibungen, verschiedenen Möglichkeiten für den Zugriff auf das Dataset sowie Beispiele, finden Sie unter US-Verbraucherpreisindex im Microsoft Azure Open Datasets-Katalog.

Initialisieren.

UsLaborEHENational

Stellt das öffentliche Dataset „US National Employment Hours and Earnings“ (Nationale Beschäftigungszeit und Einnahmen in den USA) dar.

Dieses Dataset enthält Branchenschätzungen zu Beschäftigung, Arbeitsstunden und Verdienst von US-amerikanischen Arbeitnehmern, die nicht in der Landwirtschaft tätig sind. Weitere Informationen zu diesem Dataset, einschließlich Spaltenbeschreibungen, verschiedenen Möglichkeiten für den Zugriff auf das Dataset und Beispiele, finden Sie unter US National Employment Hours and Earning (Nationale Beschäftigungszeit und Einnahmen in den USA) im Microsoft Azure Open Datasets-Katalog.

Initialisieren.

UsLaborEHEState

Stellt das öffentliche Dataset „Beschäftigungszeit und Einnahmen in den USA nach Bundesstaat“ dar.

Dieses Dataset enthält Branchenschätzungen zu Beschäftigung, Arbeitsstunden und Verdienst von US-amerikanischen Arbeitnehmern, die nicht in der Landwirtschaft tätig sind. Weitere Informationen zu diesem Dataset, einschließlich Spaltenbeschreibungen, verschiedenen Möglichkeiten für den Zugriff auf das Dataset und Beispiele, finden Sie unter Beschäftigungszeit und Einnahmen in den USA nach Bundesstaat im Microsoft Azure Open Datasets-Katalog.

Initialisieren.

UsLaborLAUS

Repräsentiert das öffentliche Dataset „US Local Area Unemployment Statistics“.

Dieses Dataset enthält Monats- und Jahresdaten zu Beschäftigung, Arbeitslosigkeit und Arbeitskräften für die Erhebungsregionen und -bezirke, Bundesstaaten, Countys, Großstadtgebiete und zahlreiche Städte in den Vereinigten Staaten. Weitere Informationen zu diesem Dataset, einschließlich Spaltenbeschreibungen, verschiedenen Möglichkeiten für den Zugriff auf das Dataset und Beispiele, finden Sie unter Statistik zur Arbeitslosigkeit in den USA nach lokaler Umgebung im Microsoft Azure Open Datasets-Katalog.

Initialisieren.

UsLaborLFS

Stellt das öffentliche Dataset „US Labor Force Statistics“ dar.

Dieses Dataset enthält Daten über die Arbeitskraft in der USA, einschließlich der Arbeitsteilnahmeraten und der nicht-direktionalen Bevölkerung nach Alter, Geschlecht, ethnischer Herkunft und ethnischen Gruppen. Weitere Informationen zu diesem Dataset, einschließlich Spaltenbeschreibungen, verschiedenen Möglichkeiten für den Zugriff auf das Dataset und Beispiele, finden Sie unter US Labor Force Statistics im Microsoft Azure Open Datasets-Katalog.

Initialisieren.

UsLaborPPICommodity

Repräsentiert das öffentliche Dataset „US Producer Price Index (PPI) – Commodities“.

Der Erzeugerpreisindex (EPI) ist ein Maß für die durchschnittliche zeitliche Veränderung der Verkaufspreise, die inländische Erzeuger für ihre Leistungen erzielen. Die im EPI enthaltenen Preise stammen aus der ersten kommerziellen Transaktion für die erfassten Produkte und Dienstleistungen. Dieses Dataset enthält EPI-Daten für einzelne Produkte und Gruppen von Produkten, die monatlich veröffentlicht werden. Weitere Informationen zu diesem Dataset, einschließlich Spaltenbeschreibungen, verschiedenen Möglichkeiten für den Zugriff auf das Dataset sowie Beispiele, finden Sie unter US-Erzeugerpreisindex – Güter im Microsoft Azure Open Datasets-Katalog.

Initialisieren.

UsLaborPPIIndustry

Repräsentiert das öffentliche Dataset „US Producer Price Index (PPI) – Industry“.

Der Erzeugerpreisindex (EPI) ist ein Maß für die durchschnittliche zeitliche Veränderung der Verkaufspreise, die inländische Erzeuger für ihre Leistungen erzielen. Die im EPI enthaltenen Preise stammen aus der ersten kommerziellen Transaktion für die erfassten Produkte und Dienstleistungen. Dieses Dataset enthält EPI-Daten für eine Vielzahl von Industriezweigen der US-Wirtschaft. Weitere Informationen zu diesem Dataset, einschließlich Spaltenbeschreibungen, verschiedenen Möglichkeiten für den Zugriff auf das Dataset sowie Beispiele, finden Sie unter US-Erzeugerpreisindex – Industrie im Microsoft Azure Open Datasets-Katalog.

Allgemeine Informationen zu Azure Open Datasets finden Sie in der Dokumentation zu Azure Open Datasets.

Initialisieren.

UsPopulationCounty

Stellt das öffentliche Dataset „US Population by County“ dar.

Dieses Dataset enthält die US-Bevölkerung nach Geschlecht und ethnischer Gruppe für alle US-Countys nach den Volkszählungen von 2000 und 2010. Weitere Informationen zu diesem Dataset, einschließlich Spaltenbeschreibungen, verschiedenen Möglichkeiten für den Zugriff auf das Dataset sowie Beispiele, finden Sie unter US Population by County im Microsoft Azure Open Datasets-Katalog.

Initialisieren.

UsPopulationZip

Stellt das öffentliche Dataset US Population by Zip Code dar.

Dieses Dataset enthält die US-Bevölkerung nach Geschlecht und ethnischer Gruppe für alle US-Postleitzahlen, die aus dem 2010 Decennial Census stammt. Weitere Informationen zu diesem Dataset, einschließlich Spaltenbeschreibungen, verschiedenen Möglichkeiten für den Zugriff auf das Dataset sowie Beispiele, finden Sie unter US Population by ZIP Code im Microsoft Azure Open Datasets-Katalog.

Initialisieren.