
20161109
do_what_you_can_do
大数据实习
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop集群调优及MR调优
一、操作系统调优 1、提高网络连接上限。以增加网络带宽的利用率,即修改内核net.core.somaxcon参数 2、关闭swap交换分区。以免内存不足时,数据会溢写到磁盘,读取时再从磁盘读取,增加数据读取时间 3、调整预读缓存区的大小。将数据预读,减少磁盘IO时间 二、HDFS调优 1、配置文件一:core-site.xml 1>hadoop.tmp.dir:原创 2016-11-09 09:33:07 · 3644 阅读 · 0 评论 -
Cloudera CDH与Apache Hadoop的比较
一、CDH的特点 1、运维方便。在大型分布式系统的部署和维护方面很有优势 2、应用Hadoop家族其它的应用比较方便 3、文档体系化,受大众支持 二、Hadoop的特点 1、容易部署,对系统的要求不高 2、能够比较容易的部署CDH中没有的模块 3、定制化 三、链接 1、hadoop:http://hadoop.apache.org/releases.html 2原创 2016-11-09 10:25:49 · 1640 阅读 · 0 评论 -
MR中的combiner问题
一、问题 1、如果我们有10亿个数据,Mapper会生成10亿个键值对在网络间进行传输,但如果我们只是对数据求最大值,那么很明显的Mapper只需要输出它所知道的最大值即可。这样做不仅可以减轻网络压力,同样也可以大幅度提高程序效率。 2、使用专利中的国家用数据倾斜这个定义。这样的数据远远不是一致性的或者说平衡分布的,由于大多数专利的国家都属于美国,这样不仅Mapper中的键值对、中间阶段(sh原创 2016-11-09 10:37:53 · 708 阅读 · 0 评论 -
Hive使用性能调优
一、简介 作为企业Hadoop应用的核心产品,Hive承载着FaceBook、淘宝等大佬 95%以上的离线统计,很多企业里的离线统计甚至全由Hive完成,如我所在的电商。Hive在企业云计算平台发挥的作用和影响愈来愈大,如何优化提速已经显得至关重要。 好的架构胜过任何优化,好的Hql同样会效率大增,修改Hive参数,有时也能起到很好的效果。 有了瓶颈才需要优化 1、Hado转载 2016-11-09 11:56:42 · 1169 阅读 · 0 评论