网站流量日志数据自定义采集(上)

本文介绍了网络流量日志自定义采集,作为大数据学习的起点。内容涉及访问日志背景、数据生成渠道,特别是通过JavaScript代码自定义采集用户行为数据的原理和设计实现。通过对电商网站日志格式的分析,阐述了埋点代码的工作流程,为实际部署和日志采集打下基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

说明

本次主要说的是网络流量日志的自定义采集,是大数据学习的入门第一步。文章分为上下两部分,上部分为背景介绍,原理分析,设计实现三部分,上部分主要是以文字和原理为主。下半部分主要讲解实际部署,日志和事件采集的实现。

知识背景–Web访问日志

  • 访问日志指用户访问网站时的所有访问、浏览、点击行为数据。比如点击了哪一个链接,打开了哪一个页面,采用了哪个搜索项、总体会话时间等。而所有这些信息都可通过网站日志保存下来。通过分析这些数据,可以获知许多对网站运营至关重要的信息。采集的数据越全面,分析就能越精准。

  • 数据的生成渠道主要:

    • web 服务器软件( httpd、 nginx、 tomcat) 自带的日志记录功能,如 Nginx
      的 access.log 日志;
    • 自定义采集用户行为数据, 通过在页面嵌入自定义的 javascript 代码来获取用户的访问行为(比如鼠标悬停的位置,点击的页面组件等),然后通过 ajax请求到后台记录日志,这种方式所能采集的信息会更加全面。
  • 可以自定义采集的信息

    • 系统特征: 比如所采用的操作系统、浏览器、域名和访问速度等。
    • 访问特征: 包括停留时间、点击的 URL、所点击的“页面标签<\a>”及标签的
      属性等。
    • 来源特征: 包括来访 URL,来访 IP 等。
    • 产品特征: 包括所访问的产品编号、产品类别、产品颜色、产品价格、产品
      利润、产品数量和特价等级等。
  • 以电商某东为例,其自定义采集的数据日志格式如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值