
大数据之路——阿里巴巴大数据实践
LUK流
大数据/java web
展开
-
大数据之路——阿里巴巴大数据实践:总述
阿里巴巴大数据系统架构图:Aplus.JS是web端日志采集技术UserTask是APP端日志采集技术TimeTunel(TT)是一个消息队列DataX是一个数据同步工具,将下层的不同的DB兼容在一起MaxCompute是离线计算平台StreamCompute是实时计算平台OneData是数据整理和管理的体系和工具,构建统一、规范、可共享的全栈数据体系,避免数据的冗余和重复建设,...原创 2019-01-20 21:46:03 · 2617 阅读 · 1 评论 -
大数据之路——阿里巴巴大数据实践:日志采集要点
1.基于UT(user visit)采集的“透传参数功能”透传参数功能,即把当前页面的某些信息,传到下个页面,甚至是下下个页面的日志中。比如:访问淘宝,搜索“连衣裙”->list页面->商品A,分析商品A的时候,顺带着,list页面和“连衣裙”关键字都会被放入A的日志中了,给以后数据分析带来了很大的方便。2.客户端日志聚合在客户访问页面时,我们提前在客户端进行日志聚合,减少...原创 2019-01-20 22:07:13 · 1160 阅读 · 0 评论 -
大数据之路——阿里巴巴大数据实践:数据同步要点
1.数据同步分为DB数据同步和日志数据同步:如下是DB数据同步机制:数据库按照规定的格式,将数据发给数据文件管理系统。日志同步解析:如下是日志文件,通过数据的日志解析模块,将有用的数据过滤出来,然后按照一定的格式发给数据文件管理系统。(数据的过滤是通过日志的方式,可能里面对user表某一行有增删改查等等,怎样保持其中的数据版本,方式与“从Hlog中恢复数据库”的方式如出一辙)2.离线...原创 2019-01-21 15:22:09 · 2420 阅读 · 2 评论 -
大数据之路——阿里巴巴大数据实践:离线数据开发
1.MaxCompute离线数据开发(1)在逻辑层有 Worker Sc heduler Executor 三个角色:Worker 处理所有的阻STful 请求,包括用户空间( Project )管理操作、资源( Resource 管理操作、作业管理等,对于 SQLDMLMR 等需要启动 MapReduce 的作业,会生成 MaxCompute Instance(类似于 Hive ...原创 2019-04-20 20:30:38 · 1505 阅读 · 0 评论