
hadoop
liyonghui123
唐山人士
展开
-
海量Web日志分析 用Hadoop提取KPI统计指标
前言Web日志包含着网站最重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问人数最多,哪个网页最有价值等。一般中型的网站(10W的PV以上),每天会产生1G以上Web日志文件。大型或超大型的网站,可能每小时就会产生10G的数据量。对于日志的这种规模的数据,用Hadoop进行日志分析,是最适合不过的了。目录 Web日志分析概述 需求分析:KPI指标设计 算法模...原创 2014-06-10 13:47:38 · 205 阅读 · 0 评论 -
添加和删除hadoop集群中的节点
1:添加节点A:新节点中添加账户,设置无密码登陆B:Name节点中设置到新节点的无密码登陆C:在Name节点slaves文件中添加新节点D:在所有节点/etc/hosts文件中增加新节点(所有节点保持一致)E:在新节点中执行 ./bin/hadoop-daemon.sh start datanode./bin/hadoop-daemon.sh start tasktracker...原创 2014-09-24 14:58:19 · 122 阅读 · 0 评论 -
HiveQL介绍
Hive支持原子和复杂数据类型。原子数据类型包括数值型、布尔型和字符串类型,其中数值型有int / bigint / smallint / tinyint /double / float,布尔型为boolean,字符串类型为string。复杂数据类型包括数组(Array)、集合(Map)和结构(Struct)。Hive 还提供了大量的内置函数,诸如数学和统计函数、字符串函数、日期函数、条...原创 2014-09-14 19:02:31 · 306 阅读 · 0 评论 -
hadoop问题整合
1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer:程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。修改办法:修改2个文件。vi /etc/security/limits.conf加上:* soft no...原创 2014-09-09 14:54:57 · 139 阅读 · 0 评论 -
hadoop学习文档
http://www.cnblogs.com/lucius/p/3435296.html http://blog.youkuaiyun.com/jiutianhe/article/details/17679705原创 2014-08-31 20:31:23 · 113 阅读 · 0 评论 -
Hadoop2.2.0分布式集群配置
Hadoop 2.x和1.x已经大不相同了,应该说对于存储计算都更加通用了。Hadoop 2.x实现了用来管理集群资源的YARN框架,可以面向任何需要使用基于HDFS存储来计算的需要,当然MapReduce现在已经作为外围的插件式的计算框架,你可以根据需要开发或者选择合适的计算框架。目前,貌似对MapReduce支持还是比较好的,毕竟MapReduce框架已经还算成熟。其他一些基于YAR...原创 2014-08-30 21:27:27 · 136 阅读 · 0 评论 -
hadoop2.2.0遇到64位操作系统平台报错
遇到的问题 [hadoop@hadoop01 input]$ hadoop dfs -put ./in DEPRECATED: Use of this script to executehdfs command is deprecated. Instead use the hdfs command for it. Java HotSpot(TM...原创 2014-08-30 20:50:45 · 284 阅读 · 0 评论 -
Hadoop2.2.0单节点安装及MR测试
一:环境准备:ubuntu12.04-64server. 二:基础安装: 执行如下命令升级部分软件和把ssh安装好: (1) sudo apt-get update; (2) sudo apt-get upgrade; (3) sudo apt-get install openssh-server; 有两种方法可以安...原创 2014-08-29 16:10:35 · 134 阅读 · 0 评论 -
从hbase加载数据到hdfs
package example2; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoo...原创 2015-01-16 17:02:18 · 224 阅读 · 0 评论 -
shell判断hdfs文件目录是否存在
hadoop有提供相应的脚本去验证文件目录是否存在的: -bash-3.2$ hadoop fs -help ... -test -[defsz] <path>: Answer various questions about <path>, with result via exit status. -d retu...原创 2015-01-08 14:33:53 · 872 阅读 · 0 评论 -
hadoop 目录给某个用户授权
首先在hdfs上创建/flume目录:hadoop fs -mkdir /flume 给该目录授权给flume用户和组:hadoop fs -chown -R flume:flume /flume原创 2015-01-07 13:39:05 · 2795 阅读 · 0 评论 -
Flume监听文件目录sink至hdfs按照每天切割
采用的channels为file,sink为hdfs,此处往hdfs写的策略是当时间达到3600s或者文件大小达到128M。可以自己调整 agent1.sources = source1agent1.sinks = sink1agent1.channels = channel1# Describe/configure spooldir source1#a...原创 2015-01-06 17:24:10 · 940 阅读 · 0 评论 -
MapReduce的模式算法
一张图详细总结了几种网上或者论文中常见的MapReduce模式和算法,并系统化的解释了这些技术的不同之处。所有描述性的文字和代码都使用了标准hadoop的 MapReduce模型,包括Mappers, Reduces, Combiners, Partitioners,和 sorting。 如下图所示。 ...原创 2014-06-30 12:49:41 · 112 阅读 · 0 评论 -
Hadoop集群工具distcp
1. 环境描述两个集群:rock 和 stonerock无kerberos权限认证,stone有要求认证。1. 从rock复制到stone,采用hdfsHadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端,即源端问题:报版本不对的问题(的确该...原创 2015-06-29 14:47:16 · 245 阅读 · 0 评论