水槽实时采集,低延迟
kafaka消息队列,低延迟
风暴实时计算,低延迟
Redis的实时存储,低延迟
风暴用来实时处理数据,特点:低延迟,高可用,分布式,可扩展,数据不丢失提供简单理解的接口,便于开发。
海量数据?数据类型很多,产生数据的终端很多,处理数据能力增强。
风暴与Hadoop的的区别
风暴用于实时计算,Hadoop的用于离线计算
风暴处理的数据保存在内存中,源源不断; Hadoop的处理的数据保存在文件系统中,一批一批
风暴的数据通过网络传输进来; Hadoop的的的数据保存在磁盘中
风暴与Hadoop的的的编译模型相似
职位:任务名称
JobTracker的:项目经理
的TaskTracker:开发组长,产品经理
孩子:负责开发的人员
Mapper / Reduce:开发人员中的两种角色,一种是服务器开发,一种是客户端开发
拓扑:任务名称
雨云:项目经理
主管:开组长,产品经理
工人:开发人员
Spout / Bolt:开人员中的两种角色:一种是服务器开发,一种是客户端开发
3.Storm应用场景及行业案例
风暴用来实时计算源源不断产生的数据,如同流水线产生。
4.运用场景
1.日志分析
从海量日志分析出特定的数据,并将分析的结果存入外部存储器用来辅佐决策。
2.管道系统
将一个数据从一个系统传输到另一个系统,比如将数据库同步到的Hadoop的
3.消息转化器
将接受到的信息按照某种格式进行转化,存储到另个一个系统如消息中间件
-------------------------------------------------- -------------------------------------------------- --------------
5.典型案例
1.淘宝实时分析系统:实时,分析用户的属性,并反馈给搜索引擎
最初,用户属性分析是通过每天在元梯上定时的MR job来完成的。为了满足实时性的需要,希望能够实时分析用户的行为日志,将最新的用户属性反馈给搜索引擎,能够为用户展示最贴近其当前需要的结果。
2.携程---网站性能监控:实时分析系统监控携程网的网站性能
利用HTML5提供的性能标准获得可用的指标,并记录日志.Storm集群实时分析日志和入库。使用DRPC聚合成报表,通过历史数据对比等判断规则,触发预警事件。
3.阿里妈妈 - 用户画像:实时计算用户的兴趣数据
为了更加精准投放广告,阿里妈妈后台计算引擎需要维护每个用户的兴趣点(理想状态是,你对什么感兴趣,就问投放哪类广告)。用户兴趣主要基于用户的历史行为,用户的实时查询,用户的实时点击,用户的地理信息而得,其中实时查询,实时点击等用户行为都是实时数据。考虑到系统的实时性,阿里妈妈使用风暴维护用户兴趣数据,并在此基础上进行受众定向的广告投放。
6. storm核心组件
1.nimbus:负责资源分配和任务调度
2.supervisor:负责接受灵气分配的任务,启动和停止属于自己管理的工人进程通过配置文件设置当前主管上启动多少个工人。
3.工人:运行具体处理组件逻辑的进程工作运行的任务类型只有两种,一种是口任务,一种是博尔特任务
4.Task:worker中每一个spout / bolt的任务可能共享一个物理线程,该线程称为执行者。
7.storm编程模型(重要)
1.Topology:风暴中运行的一个实时应用程序的名称(拓扑)
2.喷口:在一个拓扑中获取源数据流的组件。
通常情况下嘴会从外部数据源中读取数据,然后转换为拓扑内部的源数据
3.Bolt:接受数据然后执行处理的组件,用户可以在其中执行自己想要的操作。
4.Tuple:一次消息传递的基本信息,理解为一组消息就是一个元组。
5. stream:表示数据的流向
8.流式计算一般架构图
-
其中水槽用来获取数据。
-
kafaka用来临时保存数据。
-
风暴用来计算数据。
-
Redis的的是个内存数据库,用来保存数据。