登录注册写文章

RDD编程

RDD编程

1.读取数据，将RDD持久化到内存中，并进行行动操作。

Paste_Image.png

2.一般常用的是从外部存储中读取来创建RDD，如SparkContext.textFile()。还可以用parallelize读取程序中已有的一个集合，例子如下：
lines=sc.parallelize(['pandas','i like pandas'])

Paste_Image.png

3.RDD操作-转化操作
union为合并操作，filter为过滤操作。

Paste_Image.png

4.RDD操作-行动操作
对错误计数，并显示前两个错误。

Paste_Image.png

行动操作中的collect（）可以获取整个数据集，但是不能用于大数据集，这时一般存储于分布式存储系统中,函数为saveAsTextFile(),saveAsSequenceFile()。
5.向spark传递函数
建立.py文件

Paste_Image.png

运行.py文件

Paste_Image.png

6.常见的转化操作和行动操作
map：

Paste_Image.png

Paste_Image.png

flatmap:

Paste_Image.png

Paste_Image.png

reduce:

Paste_Image.png

aggregate:

Paste_Image.png

最后编辑于：2017.12.04 10:40:33

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

spark RDD 编程
RDD可以通过两种方式创建： 1：读取一个外部数据接，比如从本地文件加载数据集，或者从HDFS文件系统，HBase...
起个什么呢称呢阅读 1,118评论 0赞 3
Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
Spark 编程指南概述 Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs)...
草里有只羊阅读 3,309评论 0赞 15
《spark快速大数据分析》学习笔记
学习笔记时间：2017年2月7日使用工具：1. 在办公电脑上安装的Ubuntu虚拟机编程语言：scala v...
485b1aca799e阅读 5,861评论 0赞 15
从零开始学习Spark（三）RDD编程
RDD编程 RDD (Resilient Distributed Dataset 弹性分布式数据集)是Spark中...
C就要毕业了阅读 1,335评论 0赞 4
Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
Spark 编程指南概述 Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs)...
Joyyx阅读 1,914评论 0赞 4

赞1赞

赞赏

手机看全文