Exemples de notebooks Jupyter montrant comment enrichir les données avec Open Datasets
Les exemples de notebooks Jupyter pour Azure Open Datasets expliquent comment charger des jeux de données ouverts et les utiliser pour enrichir les données de démonstration. Les techniques incluent l’utilisation d’Apache Spark et de Pandas à des fins de traitement des données.
Important
Dans un environnement autre que Spark, Azure Open Datasets permet de télécharger un seul mois de données à la fois avec certaines classes, afin d’éviter l’erreur MemoryError liée aux jeux de données volumineux.
Charger des données ISD (Integrated Surface Database) NOAA
Notebook | Description |
---|---|
Charger un mois récent de données météorologiques dans un dataframe Pandas | Découvrez comment charger des données météorologiques historiques dans votre dataframe Pandas favori. |
Charger un mois récent de données météorologiques dans un dataframe Spark | Découvrez comment charger des données météorologiques historiques dans votre dataframe Spark favori. |
Joindre des données de démonstration avec des données ISD NOAA
Notebook | Description |
---|---|
Joindre des données de démonstration avec des données météorologiques - Pandas | Joignez un jeu de données de démonstration d’un mois d’emplacements de capteur avec relevés météorologiques dans un DataFrame Pandas. |
Joindre des données de démonstration avec des données météorologiques - Spark | Joignez un jeu de données de démonstration d'emplacements de capteur avec relevés météorologiques dans un dataframe Spark. |
Joindre des données de taxi de New York avec des données ISD NOAA
Notebook | Description |
---|---|
Données de trajet des taxis enrichies avec des données météorologiques - Pandas | Chargez les données de trajet des taxis de New York (sur un mois) et enrichissez-les avec des données météorologiques dans un Dataframe Pandas. Cet exemple remplace la méthode get_pandas_limit et équilibre les performances de chargement des données avec la quantité de données. |
Données de trajet des taxis enrichies avec des données météorologiques - Spark | Chargez les données de trajet des taxis de New York et enrichissez-les avec des données météorologiques dans un DataFrame Spark. |