【1】大数据离线项目流程
1、数据的产生
tomcat服务器、业务数据、
nginx服务器(前端的点击行为,通过JS代码发送http请求到nginx服务区,nginx服务器将数据生成日志)
2、数据的收集
flume、sqoop(数据整合工具)
存储在哪儿里?
HDFS、hive、HBASE
3、数据的清洗
自有数据 name、age、address
买来的数据:uname,salary
ip:192.168.91.7 ===》北京市昌平区
清除爬虫等产生的数据
清洗后的数据存在哪儿里?
HDFS、hive、HBASE
4、数据的分析
MR、HIVE
分析之后的结果存在哪儿?
mysql(数据展示)、【hive、hbase、hdfs】一般作为辅助分析
5、数据应用
数据展示、数据挖掘、机器学习等
数据在哪儿产生?
我们要存储到哪儿?
HDFS、hive、HBASE
我们要分析什么?
业务,运营部门提出需求,我们协调产生数据,把产生的数据拉取过来进行分析
基于维度进行分析:
维度:不同的角度,观察的方向
分析这些的意义?(商业价值)
分析的结果显示:跳转率高、频繁的点击导航栏(导航不清晰)、
广告投放 分析导入了多少流量,转化了多少流量,形成购买的数量
3亿,1亿,0.001%,¥:111111
项目概览:
前端页面
鼠标悬停,页面停留时间,页面点击
将前端收集的数据通过JS代码发送到nginx服务器上(http请求nginx服务1像素的图片)
将要收集的收集拼接到url上(以参数的形式拼接)
nginx将获取到的url的信息生成在日志中,保存在nginx服务器上
http://192.168.91.7/index.html?pl=IOS&ver=1&.......
tt=%E6%B5%8B%E8%AF%95%E9%A1%B5%E9%9D%A23 进行过url编码
针对进行url编码我们处理时要进行转码
2、点击流本次电商项目流程
指标(kpi)的概念
维度(dimension)的概念
3、了解CDH
4、CDH的安装(hadoop,hive,hbase,flume,sqoop)
知识点:hive元数据的编码格式
常见错误:
1)hive的元数据库的权限问题
2)hive的启动方式不同(不能使用hive直接启动,要先启动hive的元数据服务)
5、熟悉数据的产生(必须知道数据来源,数据格式,数据内容)
6、jsSDK和javaSDK的介绍(了解javaSDK的开发原则)
7、安装idea及idea开发工具的使用
8、jsSDK及javaSDK的测试
知识点:单例模式(懒汉式,饿汉式)