API Pandas in Spark

Articolo
12/27/2024

Nota

Questa funzionalità è disponibile nei cluster che eseguono Databricks Runtime 10.0 (EoS) e versioni successive. Per i cluster che eseguono Databricks Runtime 9.1 LTS e versioni precedenti, utilizzare invece Koalas.

Usato comunemente dagli scienziati dei dati, pandas è un pacchetto Python che offre strutture di dati e strumenti di analisi dei dati facili da usare per il linguaggio di programmazione Python. Tuttavia, pandas non aumenta il numero di istanze in Big Data. L'API Pandas in Spark colma questa lacuna fornendo API equivalenti a pandas che funzionano su Apache Spark. L'API Pandas in Spark è utile non solo per gli utenti pandas, ma anche per gli utenti di PySpark, perché supporta molte attività difficili da eseguire con PySpark, ad esempio tracciando i dati direttamente da un DataFrame PySpark.

Requisiti

L'API Pandas in Spark è disponibile a partire da Apache Spark 3.2 (inclusa a partire da Databricks Runtime 10.0 (EoS)) usando l'istruzione seguente import:

import pyspark.pandas as ps

Notebook

Il Notebook seguente illustra come eseguire la migrazione da pandas all'API Pandas in Spark.

da pandas all'API pandas nel notebook Spark

Get portatile

Condividi tramite

API Pandas in Spark

Requisiti

Notebook

da pandas all'API pandas nel notebook Spark

Risorse

Commenti e suggerimenti

Risorse aggiuntive