API Pandas in Spark
Nota
Questa funzionalità è disponibile nei cluster che eseguono Databricks Runtime 10.0 (EoS) e versioni successive. Per i cluster che eseguono Databricks Runtime 9.1 LTS e versioni precedenti, utilizzare invece Koalas.
Usato comunemente dagli scienziati dei dati, pandas è un pacchetto Python che offre strutture di dati e strumenti di analisi dei dati facili da usare per il linguaggio di programmazione Python. Tuttavia, pandas non aumenta il numero di istanze in Big Data. L'API Pandas in Spark colma questa lacuna fornendo API equivalenti a pandas che funzionano su Apache Spark. L'API Pandas in Spark è utile non solo per gli utenti pandas, ma anche per gli utenti di PySpark, perché supporta molte attività difficili da eseguire con PySpark, ad esempio tracciando i dati direttamente da un DataFrame PySpark.
Requisiti
L'API Pandas in Spark è disponibile a partire da Apache Spark 3.2 (inclusa a partire da Databricks Runtime 10.0 (EoS)) usando l'istruzione seguente import
:
import pyspark.pandas as ps
Notebook
Il Notebook seguente illustra come eseguire la migrazione da pandas all'API Pandas in Spark.