Integrar o Apache Zeppelin com o Hive Warehouse Connector no Azure HDInsight

Artigo
09/06/2024

Os clusters do HDInsight Spark incluem notebooks Apache Zeppelin com diferentes intérpretes. Neste artigo, nos concentramos apenas no interpretador Livy para acessar tabelas do Hive a partir do Spark usando o Hive Warehouse Connector.

Nota

Este artigo contém referências a um termo que a Microsoft já não utiliza. Quando o termo for removido do software, iremos removê-lo deste artigo.

Pré-requisito

Conclua as etapas de configuração do Hive Warehouse Connector.

Introdução

Use o comando ssh para se conectar ao cluster do Apache Spark. Edite o seguinte comando substituindo CLUSTERNAME pelo nome do cluster e digite o comando:
```
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
```
Na sessão ssh, execute o seguinte comando para anotar as versões de hive-warehouse-connector-assembly e pyspark_hwc:
```
ls /usr/hdp/current/hive_warehouse_connector
```
Salve a saída para uso posterior ao configurar o Apache Zeppelin.

Configurar o Livy

As configurações a seguir são necessárias para acessar as tabelas de hive do Zeppelin com o interpretador Livy.

Cluster de consulta interativo

Em um navegador da Web, navegue até https://LLAPCLUSTERNAME.azurehdinsight.net/#/main/services/HDFS/configs onde LLAPCLUSTERNAME é o nome do cluster de Consulta Interativa.
Navegue até >Advanced Custom core-site. Selecione Adicionar propriedade... para adicionar as seguintes configurações:

Configuração Value

hadoop.proxyuser.livy.groups *

hadoop.proxyuser.livy.hosts *
Salve as alterações e reinicie todos os componentes afetados.

Configuração	Value
hadoop.proxyuser.livy.groups	*
hadoop.proxyuser.livy.hosts	*

Aglomerado de faíscas

Em um navegador da Web, navegue até https://CLUSTERNAME.azurehdinsight.net/#/main/services/SPARK2/configs onde CLUSTERNAME é o nome do cluster do Apache Spark.
Expanda Custom livy2-conf. Selecione Adicionar propriedade... para adicionar a seguinte configuração:

Configuração Value

livy.file.local-dir-whitelist /usr/hdp/atual/hive_warehouse_connector/
Salve as alterações e reinicie todos os componentes afetados.

Configuração	Value
livy.file.local-dir-whitelist	/usr/hdp/atual/hive_warehouse_connector/

Configurar o Livy Interpreter na interface do usuário do Zeppelin (Spark Cluster)

Em um navegador da Web, navegue até https://CLUSTERNAME.azurehdinsight.net/zeppelin/#/interpreter, onde CLUSTERNAME é o nome do cluster do Apache Spark.
Navegue até livy2.

Adicione as seguintes configurações:

Configuração	Value
livy.spark.hadoop.hive.llap.daemon.service.hosts	@llap0
livy.spark.security.credentials.hiveserver2.enabled	verdadeiro
livy.spark.sql.hive.llap	verdadeiro
livy.spark.yarn.security.credentials.hiveserver2.enabled	verdadeiro
livy.superusuários	Lívio, Zeppelin
livy.spark.jars	`file:///usr/hdp/current/hive_warehouse_connector/hive-warehouse-connector-assembly-VERSION.jar`. Substitua VERSION pelo valor obtido em Introdução, anteriormente.
livy.spark.submit.pyArquivos	`file:///usr/hdp/current/hive_warehouse_connector/pyspark_hwc-VERSION.zip`. Substitua VERSION pelo valor obtido em Introdução, anteriormente.
livy.spark.sql.hive.hiveserver2.jdbc.url	Defina-o como a URL JDBC interativa do HiveServer2 do cluster de consulta interativa.
spark.security.credentials.hiveserver2.enabled	verdadeiro

Apenas para clusters ESP, adicione a seguinte configuração:

Configuração Value

livy.spark.sql.hive.hiveserver2.jdbc.url.principal hive/_HOST@<AAD-Domain>
- Use o comando ssh para se conectar ao cluster de Consulta Interativa. Procure default_realm o /etc/krb5.conf parâmetro no arquivo. Substitua <AAD-DOMAIN> por esse valor como uma cadeia de caracteres maiúscula, caso contrário, a credencial não poderá ser encontrada.
Salve as alterações e reinicie o intérprete Livy.

Configuração	Value
livy.spark.sql.hive.hiveserver2.jdbc.url.principal	`hive/_HOST@<AAD-Domain>`

Se o interpretador Livy não estiver acessível, modifique o shiro.ini arquivo presente no componente Zeppelin no Ambari. Para obter mais informações, consulte Configurando a segurança do Apache Zeppelin.

Executando consultas no Zeppelin

Inicie um bloco de anotações do Zeppelin usando o interpretador Livy e execute o seguinte

%livy2

import com.hortonworks.hwc.HiveWarehouseSession
import com.hortonworks.hwc.HiveWarehouseSession._
import org.apache.spark.sql.SaveMode

# Initialize the hive context
val hive = HiveWarehouseSession.session(spark).build()

# Create a database
hive.createDatabase("hwc_db",true)
hive.setDatabase("hwc_db")

# Create a Hive table
hive.createTable("testers").ifNotExists().column("id", "bigint").column("name", "string").create()

val dataDF = Seq( (1, "foo"), (2, "bar"), (8, "john")).toDF("id", "name")

# Validate writes to the table
dataDF.write.format("com.hortonworks.spark.sql.hive.llap.HiveWarehouseConnector").mode("append").option("table", "hwc_db.testers").save()

# Validate reads
hive.executeQuery("select * from testers").show()

Partilhar via