spark mapreduce

spark:
1.需要重复读取同样数据进行迭代计算
2.流式实时
3.内存大，快内存换存储
4.scala，java
5.交互模式
6.可独立运行，不依托 yarn，hdfs(不是必须）
mapreduce
1.单次读取，类似ETL（抽取转换加载），跑批
2.JAVA
3.没有交互模式
4.磁盘io 存储换内存
5.基于hadoop生态圈，需要任务调度yarn mesos，高可用存储 hdfs alluxio等。

最后编辑于：2017.12.09 02:46:45

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

==[选型]HDFS上跑Impala/Drill/Presto,Tez/Spark/MapRe...
腾讯大数据http://data.qq.com/article?id=2331 一个数据仓库的构架了。底层HDFS...
葡萄喃喃呓语阅读 11,344评论 0赞 8
yarn应用场景基本架构和资源调度
YarnYarn产生背景：Yarn直接来自于MR1.0MR1.0 问题：采用的是master slave结构，ma...
时待吾阅读 11,176评论 2赞 23

一共81个，开源大数据处理工具汇总（上）
本文一共分为上下两部分。我们将针对大数据开源工具不同的用处来进行分类，并且附上了官网和部分下载链接，希望能给做大数...
零一间阅读 5,313评论 0赞 7
Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
Spark 编程指南概述 Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs)...
草里有只羊阅读 8,505评论 0赞 15
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 ...
Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingConte...
草里有只羊阅读 9,660评论 0赞 11

赞1赞

赞赏

手机看全文