【导读】数据采集是大数据系统体系的第一环,如何全面、高效、规范地完成海量数据的采集 ,并将其传输到大数据平台,建立一套标准的数据采集体系方案尤为重要。
下面从浏览器的页面日志采集、无线客户端的日志采集以及我们遇到的日志采集挑战,三方面来阐述阿里大平台的日志采集经验。
浏览器的页面日志采集
浏览器的页面型产品/服务的日志采集可分为如下两大类:
页面浏览(展现)日志采集
顾名思义,页面浏览日志是指当一个页面被浏览器加载呈现时采集的日志。此类日志是最基础的互联网日志 ,也是目前所有互联网产品的两大基本指标∶页面浏览量(Page View,PV)和访客数(Unique Visitors,UV)的统计基础。页面浏览日志是目前成熟度和完备度最高 ,同时也是最具挑战性的日志采集任务 ,我们将重点讲述此类日志的采集。
页面交互日志采集
当页面加载和渲染完成之后,用户可以在页面上执行各类操作。随着互联网前端技术的不断发展 ,用户可在浏览器内与网页进行的互动已经丰富到只有想不到没有做不到的程度,互动设计都要求采集用户的互动行为数据 ,以便通过量化获知用户的兴趣点或者体验优化点。交互日志采集就是为此类业务场景而生的。
除此之外,还有一些专门针对某些特定统计场合的日志采集需求,如专门采集特定媒体在页面被曝光状态的曝光日志、用户在线状态的实时监测等,但在基本原理上都脱胎于上述两大类。限于篇幅 ,此内容在本书中就不予展开介绍了。
页面浏览日志采集流程
网站页面是互联网服务的基本载体 ,即使在如今传统互联网形态逐渐让位于移动互联网的背景下 ,HTML 页面依旧是最普遍的业务形态,对于以网页为基本展现形式的互联网产品和服务 ,衡量其业务水平的基本指标是网页浏览量(PV)和访客数(UV)。为此,我们需要采集页面被浏览器加载展现的记录,这是最原始的互联网日志采集需求 ,也是一切互联网数据分析得以展开的基础和前提。
目前典型的网页访问