日志数据是互联网大数据的一个重要来源。在数据开发岗位的面试过程中,这一部分被问到的频率不高,但也绝非不会被问到,有点面试官会询问日志记录了哪些字段,如何埋点,所以仍然需要对日志采集有一个大概的了解。一下内容主要依据阿里的《大数据之路》。关注下方公众号回复 802 获取 pdf。其他章节更新中。可以点击这里查看其他章节。
1.浏览器的页面日志采集
浏览器的页面型产品/服务的日志采集可以分为两大类:
- 页面浏览(展现)日志采集。最基础的日志,是**页面浏览量(Page View,PV)和访客数(Unique Visitors,UV)**的统计基础。
- 页面交互日志采集。记录用户的操作。
1.1 页面浏览日志采集
主要用于分析 PV 和 UV 。页面浏览日志采集的主要过程简介如下:
- 采集:页面 HTML 文档内植入 JavaScript 脚本采集信息。
- 发送:采集后立即发送或延迟发送。以 URL 参数形式放在 HTTP 日志请求的请求行。
- 收集:由日志服务器完成。
- 存档:日志服务器解析并存档。
1.2 页面交互日志采集
采集用户的访问路径、具体行为。此时往往不会触发浏览器加载,所以无法使用 PV 日志的采集方法。
1.3 日志的清洗和预处理
采集之后&#x