Referência para APIs do Apache Spark
O Azure Databricks foi desenvolvido com base no Apache Spark, um mecanismo de análise unificado para big data e aprendizado de máquina. Para obter mais informações, confira Apache Spark no Azure Databricks.
O Apache Spark tem APIs de DataFrame para operar em grandes conjuntos de dados, os quais incluem mais de 100 operadores em diversas linguagens de programação.
- APIs do PySpark para desenvolvedores de Python. Veja Tutorial: Carregar e transformar dados usando Apache Spark DataFrames. As principais classes incluem:
- SparkSession – O ponto de entrada para a programação do Spark com o conjunto de dados e a API do DataFrame.
- DataFrame – Uma coleção distribuída de dados agrupados em colunas nomeadas. Confira DataFrames e MLlib baseado em DataFrame.
- APIs do SparkR para desenvolvedores de R. As principais classes incluem:
- SparkSession – O SparkSession é o ponto de entrada no SparkR. Veja Ponto de partida: SparkSession.
- SparkDataFrame – Uma coleção distribuída de dados agrupados em colunas nomeadas. Veja Conjuntos de dados e DataFrames, Criação de DataFrames e Criação de SparkDataFrames.
- APIs do Scala para desenvolvedores do Scala. As principais classes incluem:
- SparkSession – O ponto de entrada para a programação do Spark com o conjunto de dados e a API do DataFrame. Veja Ponto de partida: SparkSession.
- Conjunto de dados – Uma coleção fortemente tipada de objetos específicos de domínio que podem ser transformados em paralelo usando operações funcionais ou relacionais. Cada
Dataset
também tem uma exibição sem tipo chamada DataFrame, que é umDataset
de uma linha. Veja Conjuntos de dados e DataFrames, Criação de DataFrames, APIs do DataFrame e Funções do DataFrame.
- APIs do Java para desenvolvedores de Java. As principais classes incluem:
- SparkSession – O ponto de entrada para a programação do Spark com o conjunto de dados e a API do DataFrame. Veja Ponto de partida: SparkSession.
- Conjunto de dados – Uma coleção fortemente tipada de objetos específicos de domínio que podem ser transformados em paralelo usando operações funcionais ou relacionais. Cada
Dataset
também tem uma exibição sem tipo chamada DataFrame, que é umDataset
de uma linha. Veja Conjuntos de dados e DataFrames, Criação de DataFrames, APIs do DataFrame e Funções do DataFrame.
Para saber como usar as APIs do Apache Spark no Azure Databricks, confira o seguinte:
- PySpark no Azure Databricks
- Azure Databricks para desenvolvedores de R
- Azure Databricks para desenvolvedores do Scala
- Para Java, é possível executar o código Java como um trabalho JAR.