
hive
文章平均质量分 88
CoderBoom
on the way
展开
-
大数据----【Hive入门】
Hive入门1. 多彩缤纷的数据源由上图可以看出数据的来源有很多.业务系统数据 : 获取方式容易 , 成本低通过接口调用获取数据库dump获取爬虫数据 :爬虫 : 是按照一定的规则 , 自动的抓取万维网信息的脚本或者程序…2 . 数据的管理2.1 数据文件管理由于数据种类的越来越多 , 数据量的越来越大 , 企业中数据跨部门的存储和调用都推动了数据文件管理的...原创 2018-11-18 23:52:49 · 354 阅读 · 0 评论 -
网站流量日志系统----【ETL模块 、数据表创建、数据导入、宽表等模块】
1. 模块开发----数据仓库设计1.1 维度建模基本概念维度建模是专门用于分析型数据库、数据仓库、数据集市建模的方法 .专门适用于OLAP的设计模式存在着两种类型的表:事实表 维度表维度表(dimension) : 看问题分析问题的角度 信息精但是不全 可跟事实表关系事实表:主题的客观度量 能够以记录主题为准 信息多不精准事实表的设计是以能够正确记录历史信息为准则,维...原创 2018-11-22 18:04:15 · 1729 阅读 · 0 评论 -
网站日志流量系统----【数据采集模块、数据预处理模块】
1. 模块开发----数据采集1.1 需求在网站 web 流量日志分析这种场景中,对数据采集部分的可靠性、容错能力要求通常不会非常严苛,因此使用通用的 flume 日志采集框架完全可以满足需求。1. 2 Flume 日志采集系统1.2.1 Flume 采集Flume 采集系统的搭建相对简单:1、在服务器上部署 agent 节点,修改配置文件2、启动 agent 节点,将采集到的数据汇...原创 2018-11-22 17:59:27 · 2745 阅读 · 1 评论 -
SQL增强
SQL增强需求 : 统计今天每个小时分别有多个pv分组字段 : 天 小时 天恰好就是分区字段 通过分区字段即可过滤出 真正的分子字段就一个 hour编写sql的思路 :首先明确开始关键字 , 如select其次我们先跳过需要查询的东西 , 去关注查询的来源 , 即from , 若后面接的是一个真实存在的表 , 则直接写 , 若不是真实存在的 , 也是通过另外方式...原创 2018-11-22 17:53:22 · 1050 阅读 · 0 评论 -
大数据----【azkaban的部署及实战测试】
工作流程调度器1. 工作流程调度系统产生背景一个完整的数据分析系统通常都是由大量任务单元组成 : shell脚本程序 , java程序 , MapReduce程序 , hive脚本等各个任务单元之间存在时间先后依赖关系为了更好地组织起这样的复杂执行计划 , 需要一个工作流程调度系统来调度执行2. 工作流程调度实现方式简单的任务调度 : 直接使用linux的crontab来定义 ...原创 2018-11-22 17:51:49 · 1061 阅读 · 0 评论 -
网站流量日志系统知识详解----【点击流事件详解】
网站流量日志数据分析系统知识详解1. 点击流数据模型1.1 点击流概念点击流(Click Stream)是指用户在网站上持续访问的轨迹。可以通过对网站日志的分析可以获得用户的点击流数据。1.2 点击流模型生成点击流数据在具体操作上是由散点状的点击日志数据梳理所得。点击数据在数据建模时存在两张模型表 Pageviews和 visits,例如:原始访问日志表时间戳IPURL...原创 2018-11-21 23:18:28 · 3136 阅读 · 1 评论 -
Hive----【DML操作 、对数据表的查操作】
Hive–DML操作1. Load加载操作时间数据文件移动到与Hive表对应的位置的出复制/移动操作.语法结构 :load data [local] inpath 'filepath' [overwrite] into table tablename [partition (partcol1=val1, partcol2=val2 ...)]**说明 : **filepath :...原创 2018-11-20 23:24:06 · 645 阅读 · 0 评论 -
Hive----【DDL操作、对数据表的操作】
Hive–DDL基本操作Hive中错误分类 :Error while compiling statement hive编译器错误 sql语法问题Error while processing statement hive执行期错误 应用逻辑上的问题1. DDL操作1.1 创建表建表语法create [external] table [if not exists(判断有无表)] ...原创 2018-11-20 23:22:12 · 750 阅读 · 0 评论 -
Hive安装
Hive 安装部署首先需要先安装好JDK和Hadoop , 配置好环境变量 , 由于我们是在实际工作中使用Hive , 因此我们需要配置mysql版本 .安装Mysqlyum安装mysqlyum install mysql mysql-server mysql-devel完成后 , 用/etc/init.d/mysqld start 启动mysql启动mysql控制台:(首次登陆是没...原创 2018-11-18 23:54:25 · 582 阅读 · 0 评论 -
网站日志流量系统----【统计分析模块】
模块开发----统计分析每一种统计指标都可以跟各维度表进行钻取。分组条件判别技巧如果需求中出现 每xxx 各xxx 按xxx , 很大可能就是分组的字段条件设置智能本地模式 : set hive.exec.mode.local.auto=true;1. 流量分析1.1 多维度统计pv总量需求 : 计算该处理批次(一天)中各小时pvs处理数据所在的表 : ods_we...原创 2018-11-24 21:45:24 · 2276 阅读 · 0 评论