
Hadoop
文章平均质量分 91
zyj8170
在搜狐软件科技负责软件开发工作,主要研究方向:分布式和高并发以及大数据生态开发
展开
-
hue编译
执行:make desktop 期间如果报错则需要安装:/opt/hue-3.6.0-cdh5.1.0/Makefile.vars:42: *** "Error: must have python development packages for 2.6 or 2.7. Could not find Python.h. Please install python2.6-devel原创 2016-10-21 09:43:10 · 2899 阅读 · 0 评论 -
nginx按小时切割日志
有的日志比较大,一天的日志就有200g一台机器,如果按天切割日志,文件太大了,需要按小时切割日志。下面讲述一个按小时切割日志的方法,通过apache的cronolog来完成日志的切割。1、首先安装日志切割 yum install httpd2、配置nginx的日志落地文件名,比如/opt/log/accesslog。3、再启动nginx之前,先用mkfifo原创 2016-06-06 17:25:52 · 3638 阅读 · 0 评论 -
利用QJM搭建hadoop2.10.2集群
1、概述Hadoop2.X中的HDFS(Vsersion2.0)相比于Hadoop1.X增加了两个重要功能,HA和Federation。HA解决了Hadoop1.X Namenode中一直存在的单点故障问题,HA策略通过热备的方式为主NameNode提供一个备用者,并且这个备用者的状态一直和主Namenode的元数据保持一致,一旦主NameNode挂了,备用NameNode原创 2015-03-04 15:08:38 · 861 阅读 · 1 评论 -
tez0.8在hadoop2.7.1上的应用
一、配置1、tez的编译在我的另外一篇文章中,在这里不再叙述2、将生成的war包拷贝到hadoop的/apps/tez目录,这个目录自己定义3、在hadoop的conf目录新建一个tez-site.xml 配置文件,内容如下: tez.lib.uris ${fs.defaultFS}/apps/tez/tez-0.8.4.tar.gz原创 2016-11-14 17:41:08 · 1375 阅读 · 0 评论 -
Spark on YARN配置日志Web UI
Spark部署在YARN之后,从Standalone模式下的Spark Web UI直接无法看到执行过的application日志,不利于性能分析。得益于实验室师弟的帮忙,本文记录如何配置history UI。修改spark-defaults.confspark.eventLog.enabled=truespark.eventLog.compress=truespark.e原创 2017-02-27 17:42:26 · 5504 阅读 · 0 评论 -
使用flume1.6.0直接向hadoop2.5收集数据
1、搭建环境要安装jdk,hadoop2.5客户端,剩下的就直接是配置了,配置下就能搞定。2、配置a1.sources = r1a1.channels = c2a1.sinks = k2a1.sources.r1.type = execa1.sources.r1.command = tail -n +0 -F /opt/nginx/logs/link_pt.loga1.so原创 2015-07-23 11:58:24 · 2142 阅读 · 0 评论 -
hive的编译模块设计
解析器(Parser)解析器 由antlr生成, 文法定义在Hive.g文件中。它的功能是将查询字符串翻译成抽象语法树(Abstract Syntax Tree, 简称AST).语法分析器(Semantic Analyzer)语法分析器将AST转换成内部查询形式,此形式为查询块(Query Block), 而不是一棵操作符树(Opertator Tree).它还验证查询语句中的列名,原创 2011-11-23 15:06:24 · 1543 阅读 · 0 评论 -
hive之explain命令
EXPLAIN FROM src119 SELECT key , count(distinct value) group by key ABSTRACT SYNTAX TREE: (TOK_QUERY (TOK_FROM (TOK_TABREF src119)) (TOK_INSERT (TOK_DESTINATION (TOK_DIR TOK_TMP_FILE)) (TOK_SE原创 2011-11-22 11:46:59 · 4249 阅读 · 0 评论 -
hive执行源码分析
大体看了一下 Hive 源码,主要包括 客户 / 服务器通信 ,语法解析器,语义分析器,逻辑计划生成器,计划优化器,物理计划生成器,物理计划执行器等部分。分别由包 parse,plan, optimizer, Exec 中的代码来实现的。 Hive 是将 SQL 语句转换成 hadoop 的 MapReduce 程序,通常在客户端执行 hive 命令,然后输入 SQL 语句后,原创 2011-11-22 11:35:03 · 2878 阅读 · 0 评论 -
hadoop集群
我总好奇其他公司是如何安装Hadoop集群的。他们是如何使用微系统的。由于Hadoop仍然是新技术,还没有最佳实践。每个公司都是按照他们的想法实施Hadoop集群的最佳架构。 Hadoop NYC2010会议上,ebay展示了他们的生产环境中Hadoop集群的实施情况。下面是ebay实施Hadoop的要点。 1) JobTracker, Namenode, Zookeeper, HBase M原创 2011-11-21 11:46:25 · 846 阅读 · 0 评论 -
hadoop性能调优
hadoop集群调优分两个方面,map和reduce map调优: map 任务执行会产生中间数据,但这些中间结果并没有直接IO到磁盘上,而是先存储在缓存(buffer)中,并在缓存中进行一些预排序来优化整个map的性能,该存储map中间数据的缓存默认大小为100M,由io.sort.mb 参数指定.这个大小可以根据需要调整。当map任务产生了非常大的中间数据时可以适当调原创 2011-11-18 10:35:28 · 2001 阅读 · 0 评论 -
redis3.0.3集群安装详细步骤
Redis集群部署文档(redhat5系统)(要让集群正常工作至少需要3个主节点,在这里我们要创建6个redis节点,其中三个为主节点,三个为从节点,对应的redis节点的ip和端口对应关系如下)127.0.0.1:7000127.0.0.1:7001127.0.0.1:7002127.0.0.1:7003127.0.0.1:7004127.0.原创 2015-07-31 18:32:17 · 1222 阅读 · 0 评论 -
Hadoop常见问题及解决办法
Hadoop常见问题及解决办法原创 2010-11-26 17:26:00 · 5488 阅读 · 0 评论