0、项目介绍
数据类型
行为日志:由客户端上报、用户的行为,如点赞、收藏
内容日志:公司的产品,如一条新闻、一条商品
业务日志:服务器端日志、元数据,一般在表格中
行为日志与内容日志都采用HTTP接口,服务器端推送的模式
项目架构
架构图
架构层
1~4层:数据采集
5、6层:独立模块
7、8层:监控模块
采用技术
1、数据格式解析
- 行为数据:由客户端(服务器)向http接口提交。base64格式,对其反编码
- 需要规定一次发多少,多久发一次
- 新闻资讯数据:Flume Http接收,json
- 业务数据:元数据表,广告信息表,将表同步到HDFS,未实现元数据管理
2、行为数据采集
1、构建Nginx
·安装OpenResty:基于Nginx和Lua的高兴能web平台,继承Lua库等第三方模块。可以对Nginx进行编程。其类似Yarn,一个Master,若干个Worker
Sqoop
Sqoop是Hadoop生态与RDB数据导入与导出的辅助软件。应用于数据采集和迁移,可以理解为从RDB到Hadoop(导入),从Hadoop到RDB(导出)。
工作流程是将命令翻译成MR执行,主要是对InputFormat和OutputFormat进行定制
DB/Text [In|Out] putFormat