【数仓】日志采集-数据仓库的数据来源之一

本文介绍了日志数据在互联网大数据分析中的重要性,主要包括浏览器页面日志采集和无线客户端日志采集。页面日志采集涉及PV和UV统计,通过JavaScript脚本实现信息采集和发送。页面交互日志则记录用户行为。日志采集后需要经过清洗和预处理,包括流量识别、数据补全和无效数据剔除。无线客户端日志采集常使用SDK,并需处理设备标识问题。文章提到了Flume作为日志采集框架的数据流向。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  日志数据是互联网大数据的一个重要来源。在数据开发岗位的面试过程中,这一部分被问到的频率不高,但也绝非不会被问到,有点面试官会询问日志记录了哪些字段,如何埋点,所以仍然需要对日志采集有一个大概的了解。一下内容主要依据阿里的《大数据之路》。关注下方公众号回复 802 获取 pdf。其他章节更新中。可以点击这里查看其他章节。

1.浏览器的页面日志采集

  浏览器的页面型产品/服务的日志采集可以分为两大类:

  • 页面浏览(展现)日志采集。最基础的日志,是**页面浏览量(Page View,PV)访客数(Unique Visitors,UV)**的统计基础。
  • 页面交互日志采集。记录用户的操作。
1.1 页面浏览日志采集

  主要用于分析 PV 和 UV 。页面浏览日志采集的主要过程简介如下:

  • 采集:页面 HTML 文档内植入 JavaScript 脚本采集信息。
  • 发送:采集后立即发送或延迟发送。以 URL 参数形式放在 HTTP 日志请求的请求行。
  • 收集:由日志服务器完成。
  • 存档:日志服务器解析并存档。
1.2 页面交互日志采集

  采集用户的访问路径、具体行为。此时往往不会触发浏览器加载,所以无法使用 PV 日志的采集方法。

1.3 日志的清洗和预处理

  采集之后&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值