Referência para APIs do Apache Spark
O Azure Databricks foi criado com base no Apache Spark, um mecanismo de análise unificado para big data e aprendizado de máquina. Para obter mais informações, consulte Apache Spark no Azure Databricks.
O Apache Spark tem APIs DataFrame para operar em grandes conjuntos de dados, que incluem mais de 100 operadores, em vários idiomas.
-
APIs PySpark para desenvolvedores Python. Consulte Tutorial: Carregar e transformar dados usando o Apache Spark DataFrames. As classes principais incluem:
- SparkSession - O ponto de entrada para programar o Spark com o Dataset e a API DataFrame.
- DataFrame - Uma coleção distribuída de dados agrupados em columnscom nomes. Consulte DataFrames e MLlib baseado em DataFrame.
- (Preterido) APIs do SparkR para programadores de R. As classes principais incluem:
- SparkSession - SparkSession é o ponto de entrada no SparkR. Consulte Ponto de partida: SparkSession.
- SparkDataFrame - Uma coletânea distribuída de dados agrupados em componentes nomeados columns. Consulte Datasets e DataFrames, Criando DataFrames e Criando SparkDataFrames.
-
APIs Scala para desenvolvedores Scala. As classes principais incluem:
- SparkSession - O ponto de entrada para programar o Spark com o Dataset e a API DataFrame. Consulte Ponto de partida: SparkSession.
-
Dataset - Uma coleção fortemente tipada de objetos específicos do domínio que podem ser transformados em paralelo usando operações funcionais ou relacionais. Cada
Dataset
um também tem um modo de exibição não tipado chamado DataFrame, que é umDataset
de Row. Consulte Datasets e DataFrames, Criando conjuntos de dados, Criando DataFrames e funções DataFrame.
-
APIs Java para desenvolvedores Java. As classes principais incluem:
- SparkSession - O ponto de entrada para programar o Spark com o Dataset e a API DataFrame. Consulte Ponto de partida: SparkSession.
-
Dataset - Uma coleção fortemente tipada de objetos específicos do domínio que podem ser transformados em paralelo usando operações funcionais ou relacionais. Cada
Dataset
um também tem um modo de exibição não tipado chamado DataFrame, que é umDataset
de Row. Consulte Datasets e DataFrames, Criando conjuntos de dados, Criando DataFrames e funções DataFrame.
Para saber como usar as APIs do Apache Spark no Azure Databricks, consulte:
- PySpark no Azure Databricks
- Azure Databricks para desenvolvedores de R
- Azure Databricks para desenvolvedores do Scala
- Para Java, você pode executar código Java como um trabalho JAR.