黑猴子的家：数据倾斜&Distributedcache

如果是多张表的操作都是在reduce阶段完成，reduce端的处理压力太大，map节点的运算负载则很低，资源利用率不高，且在reduce阶段极易产生数据倾斜。

数据倾斜案例续写

在map端缓存多张表，提前处理业务逻辑，这样增加map端业务，减少reduce端数据的压力，尽可能的减少数据倾斜。

（1）在mapper的setup阶段，将文件读取到缓存集合中
（2）在驱动函数中加载缓存。
// 缓存普通文件到task运行
job.addCacheFile(new URI("file:/e:/mapjoincache/pd.txt"));节点

distributedcache案例续写..

##数据仓库中的SQL性能优化（Hive篇）
数据仓库中的SQL性能优化（Hive篇） - 简书 //www.greatytc.com/p/808a5...
葡萄喃喃呓语阅读 10,039评论 0赞 31
117道有关大数据面试题解析，希望对你有所帮助
一.简述如何安装配置apache 的一个开源的hadoop 1.使用root账户登陆 2.修改ip 3.修改hos...
栀子花_ef39阅读 10,382评论 0赞 52
致•未来
泪水模糊了双眼看不清你的身影在这些触摸不到你的日子里我的人生忽然感到了迷茫我不知道你在哪但我相信总有一天...
樱桃Cheery阅读 1,280评论 0赞 1
0819火车上所思
以前总想去大城市看看，想感受下大城市的生活。因为各种各样的原因始终没有去成，毕业后选择了在合肥就业，又因工作...
岸远_水声微阅读 1,163评论 0赞 0
新发现的开源之路
今天中午吃饭的时候和大姑子说了，准备帮她微信上卖茶叶，赚点儿零花钱，她倒是很爽快的答应了，不过和我说可以开个淘宝店...
凌波微步007阅读 1,345评论 0赞 0

8赞9赞

手机看全文