《大数据之路 阿里巴巴大数据实践》数据技术篇(阅读学习记录)

本文以作者学习记录为主,多数为文章自我理解总结,可能存在错误,仅供读者参考,欢迎留言纠错和交流。
另外,本书是阿里的技术分享,并非行业的严格规范。

日志采集

浏览器日志采集

  • 主要分为页面浏览日志和页面交互日志。
    页面浏览日志:以pv、uv为主
    页面交互日志:以用户行为日志为主,用于获取用户兴趣和体验优化点。(业务方会注册一个模板,获取需要的那部分日志)

  • 采集后的日志需要处理
    1.存在流量攻击、爬虫、作弊流量
    2.数据缺项补正
    3.存在无效数据

无线客户端日志采集

通过采集SDK采集日志
根据事件进行了分类,分为页面事件和控件点击事件,和浏览器采集的两种对应。

  • 页面事件
    日志记录分为三类信息:设备及用户基本信息、被访问页面的信息(业务参数)、访问路径。
    为了平衡采集、计算、分析成本,日志会采用透传。即上个页面的日志传到下个页面,甚至下下个。

  • 采集SDK提供了聚合功能
    减少发送的请求、减小日志大小。例如滚动页面的多条日志可以聚合起来。

  • H5和Native日志统一
    当今app大多为有Native又有H5嵌套,两者对应无线端和浏览器端日志,需要进行结合才能更好分析。

日志采集的挑战

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值