1、数据和业务的关系
在日常的生活中,用户在使用系统的时候会产生数据,此时产生的数据又会又会推动系统的决策,做出的决策又会去影响用户,形成一个闭环的链。
2、在大数据中,根据处理的时间分成实时计算、离线计算
实时计算:是一种低延迟,持续,事件触发的计算任务,数据实时处理,结果实时保存
离线计算:是一种批量,高延迟,主动发起的计算任务,数据延迟处理,结果是N+1的模式
在flink是事件触发,所谓的事件触发指的是数据来一条就会处理一条数据,延时低,但是spark不能事件触发的原因是与底层的框架有关是mapreduce模型的,导致spark不能做实时任务。
3、在大数据中,根据处理方式分成流式处理、批量处理
流式处理:数据是无穷的,一次处理一条数据或者一批数据,状态很小
批量处理:数据是有限的,可以处理大量的数据,并且数据处理完就可以返回结果
4、当前主流的实时的框架
1、storm:
是Twitter开源的分布式实时大数据处理框架
优点:
框架比较简单,学习的成本比较低