RDD编程

1.读取数据,将RDD持久化到内存中,并进行行动操作。


Paste_Image.png

2.一般常用的是从外部存储中读取来创建RDD,如SparkContext.textFile()。还可以用parallelize读取程序中已有的一个集合,例子如下:
lines=sc.parallelize(['pandas','i like pandas'])


Paste_Image.png

3.RDD操作-转化操作
union为合并操作,filter为过滤操作。
Paste_Image.png

4.RDD操作-行动操作
对错误计数,并显示前两个错误。


Paste_Image.png

行动操作中的collect()可以获取整个数据集,但是不能用于大数据集,这时一般存储于分布式存储系统中,函数为saveAsTextFile(),saveAsSequenceFile()。
5.向spark传递函数
建立.py文件
Paste_Image.png

运行.py文件
Paste_Image.png

6.常见的转化操作和行动操作
map:
Paste_Image.png

Paste_Image.png

flatmap:

Paste_Image.png
Paste_Image.png

reduce:


Paste_Image.png

aggregate:


Paste_Image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容