spark:
1.需要重复读取同样数据进行迭代计算
2.流式实时
3.内存大,快 内存换存储
4.scala,java
5.交互模式
6.可独立运行,不依托 yarn,hdfs(不是必须)
mapreduce
1.单次读取,类似ETL(抽取转换加载),跑批
2.JAVA
3.没有交互模式
4.磁盘io 存储换内存
5.基于hadoop生态圈,需要任务调度yarn mesos,高可用存储 hdfs alluxio等。
spark mapreduce
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
推荐阅读更多精彩内容
- 腾讯大数据http://data.qq.com/article?id=2331 一个数据仓库的构架了。底层HDFS...
- Spark 编程指南 概述 Spark 依赖 初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs)...
- Spark Streaming 编程指南 概述 一个入门示例 基础概念 依赖 初始化 StreamingConte...
