大数据方法论之优化Map-Reduce过程

以下内容已屏蔽图片优化访问速度
大家在写Map-Reduce程序的时候,有时候会发现任务执行时间太长了,可通过下面的方法进行优化。



在Map-Reduce过程中有Counter


[IMG]


首先可以优化Map任务的个数:


Map任务的个数是由Input Splits的个数确定的,每个Input Split对应于一个HDFS文件块。


可通过mapred.min.split.size修改map的个数。


如果一个HDFS文件块里面包含的任务数目太多,例如每一个url是一个视频的链接,但是url占不了几个字符,所以很可能一个HDFS块里面包含了所有的视频的url,则一个map任务处理所有的视频,显然并行不起来。这可以使用NLineInputFormat,几行形成一个map任务,而非整个HDFS文件块作为一个map任务。


如果每个源文件太小,例如每个文件1k,则每个文件一个map任务,这样并行的任务太多了,因而可以使用CombineFileInputFormat,减少并行的数目。


更多的map任务代表着更好的并行度,会使得任务执行速度加快。而且如果任务失败的时候,可以重新执行,代价也比较小。


然而更多的map任务,则map的结果汇集到reduce的时候,则需要更多的网络流量。


当然更多的任务也意味着更多的调度。


其次可以优化reduce任务的个数。


可以通过指定mapred.reduce.tasks指定reduce的个数。


数据传输的个数为Map的个数乘以Reduce的个数。


[IMG]


最好能够减少中间数据,可以通过combiner在map阶段减少输出。



[IMG]


而且在map阶段,尽量增加缓存的大小,从而不会让map的结果写到硬盘上。


而且在map阶段,最好通过压缩,从而减少网络传输的大小,但是会增加压缩和解压缩的过程。


在Reduce阶段,尽量增加缓存的大小,从而尽量减少merge的过程写到磁盘上。



[IMG]


可通过不断的调整这些参数,每次调整一个参数,然后通过Counter看运行的时间变长还是变短,从而不断的优化。
段永平投资箴言108条:2019年,不要再掉进这个坑里 2019重磅!世界顶级少儿科普杂志《Howitworks》中文版第一次开订!全球350万读者、爱迪生比尔盖茨都读! 人类的本质...就是六小龄童! 我把100个国家外币都塞进红包,隔壁小孩过年都羡慕哭了! 9次降价消费者仍不买账,无印良品还能在中国叫嚣多久?
好看吗?
总执行时间0.07533597946166992,文章查询时间0.048633575439453125,分类查询时间0.00983119010925293,其他脚本0.0002598762512207031,模板渲染0.016611337661743164