Spark离线日志采集流程2

最新推荐文章于 2025-05-27 13:39:15 发布

原创最新推荐文章于 2025-05-27 13:39:15 发布 · 880 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

学习专栏收录该内容

10 篇文章

订阅专栏

本文探讨了互联网和传统行业中数据的来源，包括网站、APP和电信服务等，详细介绍了日志数据的生成、收集、预处理及分析过程。通过flume等工具实现日志数据的合并与汇总，利用HDFS进行数据存储，经数据清洗后导入hive进行高效查询。最后，运用Spark对hive中的数据进行深度分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据来源

互联网行业：网站、app、系统（交易系统）
传统行业：电信、上网、打电话、发短信等

数据源：网站、app,都会求后台发送请求，获取数据，app获取要展现的商品数据
发送请求到nginx，进行转发

服务器

后台服务器，采用nginx来接收请求，并且后端接入tomcat集群/weblogic集群，进行高并发下的负载均衡
所有的请求数据都封装为log存储起来，接收请求的后台系统按照规范，每接收一个请你去，或者执行一个业务逻辑，就往日志打印一条log

每天单独产生一份日志文件

日志文件

预定特殊格式，每天一份，会有多份日志文件，多个web服务器
如何处理这些日志文件
可以用linux的contab定时调度一个shell脚本，负责将每天所有日志数据，采集合并
可以采取flume串联agent 每个web服务日志对应一个flumeagent 用来采取每个web服务日志
然后取一台服务器安装flume进行数据的汇总来和其他几台flume的数据进行合并
这台flume sink可以到hdfs 还有hbase自定义sink实现

日志预处理
hdfs的原始日志数据，会经过数据清洗，过滤脏数据
把hdfs中清洗后端数据，导入到hive某个表中，使用动态分区，hive使用分区表，每个分区存放一天数据

数据分析

针对hive中的数据进行开发，数据源是hive中的某些表
spark 处理数据

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。