- 博客(32)
- 收藏
- 关注
原创 Flink实现准确和高效流处理的关键问题
同时到达Flink的事件时间为900ms和1000ms,允许的乱序时间为100ms,如果不减去1ms,那么900ms的事件就会被任务是迟到数据,这就是边界问题。在实际应用中,事件时间戳可能会有微小的波动或不确定性。减去1ms提供了一个小的缓冲,以便更好地处理这些不确定性,避免因时间戳的微小误差而影响处理逻辑。比如同时到达Flink的事件时间为a, b, c。处理乱序和迟到数据是实现准确和高效流处理的关键。事件到达Flink的时间小于WaterMark。乱序时间: 容忍的最长迟到时间。设置周期性更新的时间。
2024-06-30 02:39:55
732
原创 Actor通信系统
无共享状态:每个actor都有自己的独立状态,actor之间不共享状态,从而避免了传统并发编程中的锁机制和竞争条件。高并发性:由于actor之间的通信是异步的,并且actor独立处理自己的消息,系统可以很好地处理大量并发任务。简化并发编程:Actor模型通过消息传递和无共享状态,避免了传统并发编程中的锁和竞争条件,简化了编程和调试。自治性:Actor是自主的实体,它们只对接收到的消息做出反应,并根据消息的内容改变自己的状态或行为。Actor:Actor是独立的计算单元,拥有自己的状态和行为。
2024-06-29 02:15:02
260
原创 大数据技术内容梳理(持续更新)
如果没有足够的可用slot,Slot Pool将向ResourceManager请求更多的资源,ResourceManager在收到请求后,会根据集群的资源可用性决定是否启动新的TaskManager实例,或者分配已有的空闲slot。一旦ResourceManager分配了新的slot,Slot Pool会将这些slot标记为可用,并根据JobMaster的请求将它们分配给具体的任务。的方式实现,不同组之间的任务是完全隔离的,必须分配到不同的slot上,防止很多任务堆积到一个slot上。
2024-06-29 01:54:35
753
原创 数仓建模理论
维度建模是面向分析场景而生,针对分析场景构建数仓模型,重点关注快速、灵活的解决分析需求,同时能够提供大规模数据的快速响应性能。ER模型常用于OLTP数据库建模,应用到构建数仓时更偏重数据整合,站在企业整体考虑,将各个系统的数据按相似性一致性进行合并处理,为数据分析、决策服务,但并不便于直接用来支持分析。一个业务流程中的多个关键业务过程联合处理而构建的事实表,比如含有多个日期字段的交易信息表。,更加倾向于整合企业总体的数据,不适合用作分析使用,更多的是后端在使用。分数字段的值依赖的是ID和科目字段决定。
2024-06-23 14:28:57
877
原创 KafKa核心概念
传统的消息队列的概念Java中关于消息队列是有规范在的—JMS(Java Message Service)规范,概念如下图:KafKa有哪些自己的特性呢?
2024-06-11 03:02:53
1082
1
原创 python处理doc文档总结
使用python处理doc文档,生成内容和格式,并将doc转成pdf. 运行在Linux终端,不使用收费的服务。
2023-09-07 17:30:40
1895
原创 Django Lost connection to MySQL server during query
“Lost connection to MySQL server during query”引来的一些想法和分析,灵活配置解决这个问题。
2022-11-01 16:49:40
1036
原创 Golang连接kafka报错: Errorkafka: client has run out of available brokers to talk to
go连接kafka问题报错: panic: Error creating consumer group client: kafka: client has run out of available brokers to talk to: 3 errors occurred:
2022-10-31 09:38:14
7717
原创 Flink需要弄明白的问题(一)
如何实现流数据的处理管道?Flink如何实现管理状态以及为什么?如何使用事件时间一致性计算准确的分析。如何在持续的数据流上构建事件驱动型应用。FLink是如何实现故障容错机制、如何实现 精准一次的语义完成有状态的流数据处理。这五个问题就是接下来文章的方向,也是Flink的重要特性。...
2022-03-03 23:04:04
1368
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人