阿里-大数据之路整理笔记

本文详细介绍了阿里巴巴大数据架构中的日志采集技术,包括Web端的Aplus.JS和UserTrack,以及无线客户端日志采集。此外,文章还探讨了数据同步的三种方式,强调了DataX在数据同步中的作用,以及离线数据开发中的MaxCompute平台。通过对日志采集和数据同步的深入理解,展示了大数据处理的关键环节。

此图片为实时
注:此为阿里架构,如有冒犯,多多包涵。

概述

1.数据采集层:
①.数据采集体系:Aplus.JS是Web端日期采集技术方案;UserTrack是APP端日期采集技术方案。
②.在传输方面采用TimeTunnel(TT),它既包括数据库的增量数据传输,也包括日志数据的传输,其作为数据传输服务的基础架构,既支持实时流式计算,也支持各种时间窗口的批量计算,通过数据库同步工具(DataX和同步中心,同步中心是基于DataX的易用性封装的)直连异构数据库来抽取各种时间窗口的数据。
2.数据计算层:
①.数据计算层两大体系:数据存储及计算云平台(离线计算平台MaxComputer和实时计算平台StreamComputer)和数据整合及管理体系(OneData)
②.离线计算平台(MaxComputer)是阿里巴巴自主研发的离线大数据平台:丰富的功能、强大的存储、强大的计算能力。
③.实时计算平台(StreamComputer)是阿里巴巴自主研发的流式大数据平台:支持流式计算。
④.数据整合及管理体系(OneData)是数据整合级管理的方法体系和工具的总称。
⑤.阿里数据仓库加工链路:数据层(Operational Data Store,ODS)、公共维度模型层(CDM)包含:明细数据层(Data Warehouse Detail,DWD)和汇总数据层(Data Warehouse Summary,DWS)、应用数据层(Application Data Store,ADS)。
⑥.ODS:存放几乎无处理的操作系统数据(源数据);CDM:存放明细事实数据、维表数据及公共指标汇总数据,其中明细事实数据、维表数据一般根据ODS层数据加工,公共指标汇总数据根据维表数据和DWD加工;ADS:存放数据产品个性化的统计指标。
3.数据服务层:
①.当数据被整合和计算好后,提供给产品和应用进行数据消费,源库为MySQL、HBase等,后续将迁移至阿里云云数据库(ApsaraDB for RDS,简称RDS)和表格存储(Table Store)等。
②.数据层对外提供数据服务主要通过统一服务平台(OneService),其以数据仓库整合好的数据作为数据源,提供简单数据查询服务、复杂数据查询服务(用户识别、用户画像等)、事实数据推送服务。
4.数据应用层:用户

第一章、日志采集

一、浏览器的页面采集
1.页面浏览日志采集:当一个页面被浏览器加载呈现时采集的日志。
两大基本指标:页面浏览量(Page View,PV)和访客数(Unique Visitors,UV)
2.页面交互日志采集:当页面加载和渲染完成后,用户可以在页面上执行各类操作。
3.1页面浏览日志采集流程:目前典型的网页访问过程时以浏览器请求-服务器响应并返回所请求的内容这种模式进行的,浏览器和服务器之间通信遵守HTTP协议(以HTTP1.1为主向2.0过渡),浏览器请求称为HTTP请求,服务器的返回称为HTTP响应。
3.2典型的请求-响应过程:①用户输入网址-②浏览器发送HTTP请求-③服务器接收并解析请求-④浏览器收到响应内容,解析展示。
3.3采集日志需要在第四步完成,在HTML文档中的适当位置添加日志采集点,当浏览器解析到这个节点,将自动触发一个特定的HTTP请求到日志采集服务器。
3.4植入日志采集脚本可以由业务服务器在响应业务请求时动态执行,也可以在页面开发时手动植入。
3.5日志采集和发送模块一般会集成在同一个JavaScript脚本中,通过HTTP协议与日志服务器通信,将采集到的日志信息以URL参数的形式放在HTTP请求的请求行内。
3.6标准的HTTP请求:
①.请求行:包含请求方法、所请求资源的URL、HTTP协议版本号。
②.请求报头:是浏览器在请求时向服务器提交的附加信息,一般会附加很多内容项(每项内容称为一个头域,Header Filed简称Header),如果之前已访问过或已登录会附加一个或多个Cookie(记录了用户上次访问时的状态或者身份信息,用于标明身份)。
③.请求正文:一般为空。
3.7标准的HTTP响应:
①.状态行:标识服务器对此次HTTP请求的处理结果,三位状态码,如200(OK)、404(Not Found)。
②.响应报头:通向可以附加数据项,最重要的一类Header为Cookie(可以记录用户的ID),可对浏览器的请求Cookie进行

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值