CDH-Spark/2环境搭建(pyspark测试)

1,CDH的搭建可以参考

https://blog.csdn.net/q1370992706/article/details/79578444

2,在CDH安装spark

没有在CDH集成环境安装spark

1)新建spark虚拟主机 :安装spark环境,

    1.1参考://blog.csdn.net/red_stone1/article/details/71330101

    1.2 ping 各个CDH节点

2)拷贝cdh下hive-site.xml 到spark主机conf下

3)启动spark-sql查看是否链接成功。

HIVE默认一个default库,可先用HUE创建一个表

show databases;

use default;

show tables;

slelect * from xxTable;

3,ubuntu16.04 python2/3,pip安装

        https://blog.csdn.net/qq_31307013/article/details/79668453

4,安装py4j,pyspark

    换源:

    pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ pyspark

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容