
日志流量项目
文章平均质量分 95
CoderBoom
on the way
展开
-
网站日志流量系统----【数据采集模块、数据预处理模块】
1. 模块开发----数据采集1.1 需求在网站 web 流量日志分析这种场景中,对数据采集部分的可靠性、容错能力要求通常不会非常严苛,因此使用通用的 flume 日志采集框架完全可以满足需求。1. 2 Flume 日志采集系统1.2.1 Flume 采集Flume 采集系统的搭建相对简单:1、在服务器上部署 agent 节点,修改配置文件2、启动 agent 节点,将采集到的数据汇...原创 2018-11-22 17:59:27 · 2745 阅读 · 1 评论 -
网站流量日志系统----【ETL模块 、数据表创建、数据导入、宽表等模块】
1. 模块开发----数据仓库设计1.1 维度建模基本概念维度建模是专门用于分析型数据库、数据仓库、数据集市建模的方法 .专门适用于OLAP的设计模式存在着两种类型的表:事实表 维度表维度表(dimension) : 看问题分析问题的角度 信息精但是不全 可跟事实表关系事实表:主题的客观度量 能够以记录主题为准 信息多不精准事实表的设计是以能够正确记录历史信息为准则,维...原创 2018-11-22 18:04:15 · 1729 阅读 · 0 评论 -
网站日志流量系统----【结果输出模块】
模块开发----结果导出1. Apache SqoopSqoop 是Hadoop 和关系数据库服务器之间传送数据的一种工具 .Sqoop:“SQL 到 Hadoop 和 Hadoop 到 SQL导入导出是站在Apache的角度来说的Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的 mapreduce 中主要是对 inputformat 和 outpu...原创 2018-11-25 17:52:06 · 454 阅读 · 0 评论 -
网站日志流量系统----【统计分析模块】
模块开发----统计分析每一种统计指标都可以跟各维度表进行钻取。分组条件判别技巧如果需求中出现 每xxx 各xxx 按xxx , 很大可能就是分组的字段条件设置智能本地模式 : set hive.exec.mode.local.auto=true;1. 流量分析1.1 多维度统计pv总量需求 : 计算该处理批次(一天)中各小时pvs处理数据所在的表 : ods_we...原创 2018-11-24 21:45:24 · 2276 阅读 · 0 评论