Spark离线日志采集流程2

本文探讨了互联网和传统行业中数据的来源,包括网站、APP和电信服务等,详细介绍了日志数据的生成、收集、预处理及分析过程。通过flume等工具实现日志数据的合并与汇总,利用HDFS进行数据存储,经数据清洗后导入hive进行高效查询。最后,运用Spark对hive中的数据进行深度分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据来源

互联网行业:网站、app、系统(交易系统)
传统行业:电信、上网、打电话、发短信等

数据源:网站、app,都会求后台发送请求,获取数据,app获取要展现的商品数据
发送请求到nginx,进行转发

服务器

后台服务器,采用nginx来接收请求,并且后端接入tomcat集群/weblogic集群,进行高并发下的负载均衡
所有的请求数据都封装为log存储起来,接收请求的后台系统按照规范,每接收一个请你去,或者执行一个业务逻辑,就往日志打印一条log

每天单独产生一份日志文件

日志文件

预定特殊格式,每天一份,会有多份日志文件,多个web服务器
如何处理这些日志文件
可以用linux的contab定时调度一个shell脚本,负责将每天所有日志数据,采集合并
可以采取flume串联agent 每个web服务日志对应一个flumeagent 用来采取每个web服务日志
然后取一台服务器安装flume进行数据的汇总来和其他几台flume的数据进行合并
这台flume sink可以到hdfs 还有hbase自定义sink实现

日志预处理
hdfs的原始日志数据,会经过数据清洗,过滤脏数据
把hdfs中清洗后端数据,导入到hive某个表中,使用动态分区,hive使用分区表,每个分区存放一天数据

数据分析

针对hive中的数据进行开发,数据源是hive中 的某些表
spark 处理数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值