说明
本次主要说的是网络流量日志的自定义采集,是大数据学习的入门第一步。文章分为上下两部分,上部分为背景介绍,原理分析,设计实现三部分,上部分主要是以文字和原理为主。下半部分主要讲解实际部署,日志和事件采集的实现。
知识背景–Web访问日志
访问日志指用户访问网站时的所有访问、浏览、点击行为数据。比如点击了哪一个链接,打开了哪一个页面,采用了哪个搜索项、总体会话时间等。而所有这些信息都可通过网站日志保存下来。通过分析这些数据,可以获知许多对网站运营至关重要的信息。采集的数据越全面,分析就能越精准。
数据的生成渠道主要:
- web 服务器软件( httpd、 nginx、 tomcat) 自带的日志记录功能,如 Nginx
的 access.log 日志; - 自定义采集用户行为数据, 通过在页面嵌入自定义的 javascript 代码来获取用户的访问行为(比如鼠标悬停的位置,点击的页面组件等),然后通过 ajax请求到后台记录日志,这种方式所能采集的信息会更加全面。
- web 服务器软件( httpd、 nginx、 tomcat) 自带的日志记录功能,如 Nginx
可以自定义采集的信息
- 系统特征: 比如所采用的操作系统、浏览器、域名和访问速度等。
- 访问特征: 包括停留时间、点击的 URL、所点击的“页面标签<\a>”及标签的
属性等。 - 来源特征: 包括来访 URL,来访 IP 等。
- 产品特征: 包括所访问的产品编号、产品类别、产品颜色、产品价格、产品
利润、产品数量和特价等级等。
以电商某东为例,其自定义采集的数据日志格式如下: