- 博客(12)
- 收藏
- 关注
原创 Kafka事务实战:这些场景必须动手写Java代码?从原子操作到祖传系统对接
这种时候现成的 Connector 肯定没有,只能自己用 Java 写个客户端,解析二进制协议再往 Kafka 里丢数据。这时候就得用 Java 代码 **显式开启 Kafka 事务**,把这两个操作绑在一起,确保要么都成,要么都回滚。- **买精装房**:直接用 Kafka Connect/Flink SQL,省事但没法改结构。- **自己敲代码**:相当于毛坯房自己设计,能搞智能家居、隐藏式灯光,但累秃头。比如用户注册后发欢迎邮件,用现成的消息队列模板配置就行,不需要自己造轮子。
2025-03-09 18:34:09
229
原创 最常用的HQL的参数优化问题
-设置Hive的执行引擎。推荐使用tez或spark来代替默认的mr(MapReduce),因为它们可以提供更好的性能。set: 推荐使用ORC或Parquet--设置是否压缩Hive写入的数据。将此设置为true可以节省存储空间并减少写入时间。set:true;--设置MapReduce作业的输出是否压缩。set--设置为true以启用查询的向量化执行,可以显著提高性能。set和--设置为true以启用表达式求值的缓存,可以减少重复计算。set--设置为true以启用查询执行的并行处理。set。
2024-04-04 07:26:55
762
1
原创 Flink的RocksDB的使用以及问题
在各个节点的磁盘上的,处理数据的时候,Flink 框架负责保证数据项与其对应键的状态之间的一致性匹配。但是当我们(non-key)属性进行数据关联,比如日期,而不是原始键(如 ID),这时就不能直接依赖 Flink 的 keyBy 分区机制来直接访问状态了,因为 keyBy 机制确保的是相同键的数据项会被路由到相同的并行实例。**:因为涉及磁盘IO,SSD是必要的,而且会有缓存,合并和压缩的时候也会对cpu有一定依赖。合并读取和压缩策略:通过智能的读取和压缩策略减少磁盘访问次数和优化存储空间使用。
2024-04-04 07:05:04
576
1
原创 Flink的状态编程和容错机制概念区分
状态(State)和状态后端(State Backend)在 Apache Flink 中是两个密切相关但不同的概念。状态是为了计算,状态后端是容错。确实,状态(State)和状态后端(State Backend)在 Apache Flink 中是两个密切相关但不同的概念。让我们更清晰地区分这两者,以及更详细地探讨状态本身的作用,以及状态后端在其中扮演的角色。
2024-04-04 06:30:06
312
1
原创 flink跨窗口不能join数据的解决方案
在 Apache Flink 中实现不同窗口之间的 join 并不一定要借助状态来实现,尽管状态是一种常见的实现方式。虽然状态是一种常见的用于处理跨窗口 join 的方法,但在某些情况下,上述方法可能更适合特定的需求或场景。通过在窗口函数中处理不同窗口的数据,你可以实现跨窗口的 join,而不需要显式地管理状态。如果需要同时处理两个输入流,并在其中一个流的事件到达时执行某些操作(例如 join),你可以使用。这个函数可以让你在处理两个流时维护自己的状态,并在需要时进行 join 操作。
2024-03-07 22:11:36
479
1
原创 交换分区的作用和实践
orig_vnpk_early_rcvd_box_qty_1d -- 原始截止日期供应商规格提前1天收货箱数。, orig_vnpk_late_rcvd_box_qty_1d -- 原始截止日期供应商规格超时1天收货箱数。, orig_vnpk_early_rcvd_box_qty -- 原始截止日期供应商规格提前收货箱数。, orig_vnpk_late_rcvd_box_qty -- 原始截止日期供应商规格超时收货箱数。
2024-03-07 22:09:46
907
2
大数据-常用组件原理-大数据培训
2024-06-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人