介绍
可使用不同语言(Java、Scala、Python),以 JDBC 或 Thrift 方式,操作 Spark SQL。
下面的示例项目展示了以JDBC 方式,通过 Spark Thrift Server 进行的基础操作。
项目包含多种语言的示例:Java、Scala、Python
注意
Python使用到了pyhs2、pyhive、impyla
可通过pip或easy_install安装
安装中需要c++环境,依赖thrift和thrift sasl
sasl可通过sasl-0.1.3-cp27-none-win_amd64.whl安装
参考:
- https://cwiki.apache.org/confluence/display/Hive/Setting+Up+HiveServer2
- https://github.com/BradRuderman/pyhs2
- https://github.com/dropbox/PyHive
- https://github.com/cloudera/impyla
示例
链接:
- Spark SQL: Distributed SQL Engine、
- HiveServer2 Clients、
- Setting Up HiveServer2、
- pyhs2、
- PyHive: Python interface to Hive and Presto.、
- impyla: Python DB API 2.0 client for Impala and Hive (HiveServer2 protocol)
- Author:HyperJ
- Source:HyperJ’s Blog
- Link:JDBC 操作 Spark Thrift Server