大数据
文章平均质量分 81
彭言书
多年互联网技术经验。主攻大数据开发、后端开发、人工智能。目标只有不断地向前。不给自己设限,坚持学习,坚持分享。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Flink分区和窗口操作
【代码】Flink分区和窗口操作。原创 2024-06-30 05:26:57 · 827 阅读 · 0 评论 -
Flink实现准确和高效流处理的关键问题
同时到达Flink的事件时间为900ms和1000ms,允许的乱序时间为100ms,如果不减去1ms,那么900ms的事件就会被任务是迟到数据,这就是边界问题。在实际应用中,事件时间戳可能会有微小的波动或不确定性。减去1ms提供了一个小的缓冲,以便更好地处理这些不确定性,避免因时间戳的微小误差而影响处理逻辑。比如同时到达Flink的事件时间为a, b, c。处理乱序和迟到数据是实现准确和高效流处理的关键。事件到达Flink的时间小于WaterMark。乱序时间: 容忍的最长迟到时间。设置周期性更新的时间。原创 2024-06-30 02:39:55 · 769 阅读 · 0 评论 -
Actor通信系统
无共享状态:每个actor都有自己的独立状态,actor之间不共享状态,从而避免了传统并发编程中的锁机制和竞争条件。高并发性:由于actor之间的通信是异步的,并且actor独立处理自己的消息,系统可以很好地处理大量并发任务。简化并发编程:Actor模型通过消息传递和无共享状态,避免了传统并发编程中的锁和竞争条件,简化了编程和调试。自治性:Actor是自主的实体,它们只对接收到的消息做出反应,并根据消息的内容改变自己的状态或行为。Actor:Actor是独立的计算单元,拥有自己的状态和行为。原创 2024-06-29 02:15:02 · 357 阅读 · 0 评论 -
大数据技术内容梳理(持续更新)
如果没有足够的可用slot,Slot Pool将向ResourceManager请求更多的资源,ResourceManager在收到请求后,会根据集群的资源可用性决定是否启动新的TaskManager实例,或者分配已有的空闲slot。一旦ResourceManager分配了新的slot,Slot Pool会将这些slot标记为可用,并根据JobMaster的请求将它们分配给具体的任务。的方式实现,不同组之间的任务是完全隔离的,必须分配到不同的slot上,防止很多任务堆积到一个slot上。原创 2024-06-29 01:54:35 · 839 阅读 · 0 评论 -
数仓建模理论
维度建模是面向分析场景而生,针对分析场景构建数仓模型,重点关注快速、灵活的解决分析需求,同时能够提供大规模数据的快速响应性能。ER模型常用于OLTP数据库建模,应用到构建数仓时更偏重数据整合,站在企业整体考虑,将各个系统的数据按相似性一致性进行合并处理,为数据分析、决策服务,但并不便于直接用来支持分析。一个业务流程中的多个关键业务过程联合处理而构建的事实表,比如含有多个日期字段的交易信息表。,更加倾向于整合企业总体的数据,不适合用作分析使用,更多的是后端在使用。分数字段的值依赖的是ID和科目字段决定。原创 2024-06-23 14:28:57 · 923 阅读 · 0 评论
分享