
分布式计算
文章平均质量分 83
唔系小老虎
这个作者很懒,什么都没留下…
展开
-
Kafka使用及开发概要
1.命令=========zookepper==========(kafka自带)单点启动zookeeperzookeeper-server-start.sh $KAFKA_HOME/config/zookeeper.propertieszookeeper集群启动zkServer.sh start /home/hadoop/hadoop_workspace/zook原创 2015-01-05 22:53:54 · 2058 阅读 · 0 评论 -
Hadoop平台优化
Hadoop 平台优化1. 概述随着企业要处理的数据量越来越大,MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现,由于其良好的扩展性和容错性,已得到越来越广泛的应用。Hadoop作为一个基础数据处理平台,虽然其应用价值已得到大家认可,但仍存在很多问题,以下是主要几个:(1) Namenode/jobtracker单点故障。 Hadoo原创 2015-01-24 13:16:10 · 1963 阅读 · 0 评论 -
hive压缩之小文件合并
Hive压缩之二 小文件合并 调研背景当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并。当然,在我们向一个表写数据时,也需要注意输出文件大小。输入合并合并输入小文原创 2015-01-24 12:07:06 · 6036 阅读 · 0 评论 -
hadoop远程调试所遇到的一些异常
zsc原创 2015-02-27 11:42:18 · 4977 阅读 · 1 评论 -
大数据SQL执行工具调研总结
下面是这几天来我对于hive on mr/hive on spark /impala / presto/ spark-sql 做的调研之后做的总结,见以下矩阵:武器库优点缺点Hive Sql支持度UDF支持hive on mr~慢全部支持原创 2016-06-08 14:14:18 · 777 阅读 · 0 评论