
大数据_Hadoop
AndyLizh
这个作者很懒,什么都没留下…
展开
-
用Hive分析Nginx日志
一、Nginx日志文件格式111.37.1.15|100.109.0.149|[28/Apr/2017:14:36:08 +0800]|GET /service/getCity.do?region=河北 HTTP/1.0|200|1292|0.002|-|Dalvik/1.6.0 (Linux; U; Android 4.4.2; Build/KOT49H)|MISS|127.0.0.1:8原创 2017-04-28 17:04:00 · 1927 阅读 · 0 评论 -
用Hive分析nginx日志——1
这里用到的nginx日志是网站的访问日志,比如:[java] view plain copy180.173.250.74 - - [08/Jan/2015:12:38:08 +0800] "GET /avatar/xxx.png HTTP/1.1" 200 968 "http://www.iteblog.com/archives/994"转载 2017-04-28 18:02:14 · 878 阅读 · 0 评论 -
Hive 使用RegexSerDe来处理标准格式Apache Web日志
我们以一个例子来介绍如何使用RegexSerDe来处理标准格式的Apache Web日志,并对其进行统计分析。我的Hive版本是apache-hive-2.1.1-bin一、在Hive中创建表apache_log[sql] view plain copyCREATE TABLE apache_log( host S转载 2017-04-28 18:19:09 · 927 阅读 · 0 评论 -
如何用Hive“傻瓜式”搭建数据仓库—Hive安装部署
一、前言:数据仓库主要用来用来存储公司或者企业的历史数据,即日积月累的数据。1、数据库与数据仓库区别:关系型数据库是基于事务性的,数据仓库是根据主题构建的。2、使用示例:l 用户使用天然气的大数据分析l 电影票房分析收视率等l 百度搜索关键词分析热词二、Hive简介:可爱的小蜜蜂1、Hive是建立在Hadoop之上的数据仓库基础架构工具,可以将结构化的数据文件映原创 2017-04-28 18:23:42 · 6866 阅读 · 0 评论 -
hive2.1.1安装部署
一、Hive 运行模式 与 Hadoop 类似,Hive 也有 3 种运行模式:1. 内嵌模式将元数据保存在本地内嵌的 Derby 数据库中,这是使用 Hive 最简单的方式。但是这种方式缺点也比较明显,因为一个内嵌的 Derby 数据库每次只能访问一个数据文件,这也就意味着它不支持多会话连接。2. 本地模式这种模式是将元数据保存在本地独立的数据库中(一转载 2017-04-24 11:07:50 · 1158 阅读 · 0 评论 -
Hadoop安装
Hadoop安装一、下载hadoop-2.7.3.tar.gzwget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz二、解压安装包:tar -zxvf hadoop-2.7.3.tar.gz 到/home/lizh/devtool/三、配置原创 2017-04-24 14:17:30 · 728 阅读 · 0 评论 -
hadoop2.7.3 搭建QA
Q:输入jps显示datenode没有启动A:到logs里面查看日志发现是namenode 与 datenode的clusterID不一致导致到/home/abc/hadoop_tmp底下,将name/current下的VERSION中的clusterID复制到data/current下的VERSION中,覆盖掉原来的clusterID让两个保持一致然后重启,启动后转载 2017-04-24 18:59:07 · 651 阅读 · 0 评论 -
Hadoop-2.7.2集群的搭建——集群学习日记
前言因为比赛的限制是使用Hadoop2.7.2,估在此文章下面的也是使用Hadoop2.7.2,具体下载地址为Hadoop2.7.2开始的准备目前在我的实验室上有三台Linux主机,因为需要参加一个关于spark数据分析的比赛,所以眼见那几台服务器没有人用,我们团队就拿来配置成集群。具体打算配置如下的集群主机名IP地址(内网)转载 2017-09-08 13:52:10 · 1015 阅读 · 1 评论