企业案例 | 以阿里巴巴为例,解析大数据采集中的日志采集

本文详细介绍了阿里巴巴大数据采集中的页面日志采集流程,重点关注浏览器的页面浏览日志,包括页面浏览日志和交互日志的采集。通过浏览器请求、服务器响应的HTTP交互,阐述了日志采集的时机和方法,以及阿里巴巴采用的页面浏览日志采集方案,包括客户端日志采集、发送、服务器端日志收集和解析存档四个步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

【导读】数据采集是大数据系统体系的第一环,如何全面、高效、规范地完成海量数据的采集 ,并将其传输到大数据平台,建立一套标准的数据采集体系方案尤为重要。

下面从浏览器的页面日志采集、无线客户端的日志采集以及我们遇到的日志采集挑战,三方面来阐述阿里大平台的日志采集经验。

浏览器的页面日志采集

浏览器的页面型产品/服务的日志采集可分为如下两大类:

页面浏览(展现)日志采集

顾名思义,页面浏览日志是指当一个页面被浏览器加载呈现时采集的日志。此类日志是最基础的互联网日志 ,也是目前所有互联网产品的两大基本指标∶页面浏览量(Page View,PV)和访客数(Unique Visitors,UV)的统计基础。页面浏览日志是目前成熟度和完备度最高 ,同时也是最具挑战性的日志采集任务 ,我们将重点讲述此类日志的采集。

页面交互日志采集

当页面加载和渲染完成之后,用户可以在页面上执行各类操作。随着互联网前端技术的不断发展 ,用户可在浏览器内与网页进行的互动已经丰富到只有想不到没有做不到的程度,互动设计都要求采集用户的互动行为数据 ,以便通过量化获知用户的兴趣点或者体验优化点。交互日志采集就是为此类业务场景而生的。

除此之外,还有一些专门针对某些特定统计场合的日志采集需求,如专门采集特定媒体在页面被曝光状态的曝光日志、用户在线状态的实时监测等,但在基本原理上都脱胎于上述两大类。限于篇幅 ,此内容在本书中就不予展开介绍了。

页面浏览日志采集流程

网站页面是互联网服务的基本载体 ,即使在如今传统互联网形态逐渐让位于移动互联网的背景下 ,HTML 页面依旧是最普遍的业务形态,对于以网页为基本展现形式的互联网产品和服务 ,衡量其业务水平的基本指标是网页浏览量(PV)和访客数(UV)。为此,我们需要采集页面被浏览器加载展现的记录,这是最原始的互联网日志采集需求 ,也是一切互联网数据分析得以展开的基础和前提。

目前典型的网页访问

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值