数据来源
互联网行业:网站、app、系统(交易系统)
传统行业:电信、上网、打电话、发短信等
数据源:网站、app,都会求后台发送请求,获取数据,app获取要展现的商品数据
发送请求到nginx,进行转发
服务器
后台服务器,采用nginx来接收请求,并且后端接入tomcat集群/weblogic集群,进行高并发下的负载均衡
所有的请求数据都封装为log存储起来,接收请求的后台系统按照规范,每接收一个请你去,或者执行一个业务逻辑,就往日志打印一条log
每天单独产生一份日志文件
日志文件
预定特殊格式,每天一份,会有多份日志文件,多个web服务器
如何处理这些日志文件
可以用linux的contab定时调度一个shell脚本,负责将每天所有日志数据,采集合并
可以采取flume串联agent 每个web服务日志对应一个flumeagent 用来采取每个web服务日志
然后取一台服务器安装flume进行数据的汇总来和其他几台flume的数据进行合并
这台flume sink可以到hdfs 还有hbase自定义sink实现
日志预处理
hdfs的原始日志数据,会经过数据清洗,过滤脏数据
把hdfs中清洗后端数据,导入到hive某个表中,使用动态分区,hive使用分区表,每个分区存放一天数据
数据分析
针对hive中的数据进行开发,数据源是hive中 的某些表
spark 处理数据