- 博客(30)
- 收藏
- 关注
原创 “我不会写代码“已经不是借口了,AI带你30分钟入门编程
在AI时代,编程正在变得越来越平民化。重要的不是你懂多少编程知识,而是你能否提出有价值的想法,能否准确描述你的需求。
2024-12-19 22:04:14
176
原创 浅议Flink lib包下的依赖项
要开始一个 Flink 作业,通常需要如下依赖项:1.Flink API,用来开发你的作业2.连接器和格式,以将你的作业与外部系统集成 比如kakfa,hbase模块3.若要开发自定义功能,还要添加必要的第三方依赖项比如fastjson等其中1所需要的依赖已经在安装包lib文件夹下的flink-dist_xx.jar中,在IDEA等中编译程序时需要将相关依赖置为 provied。
2024-12-15 22:36:17
433
原创 浅议Flink中的通讯工具: Akka
在Flink中,各个组件之间需要频繁交换数据和控制信息。Flink选择了基于Actor模型的Akka框架作为通信基础。
2024-11-16 22:24:01
592
原创 杂谈:业务说的场景金融是什么?
场景金融生态的建设是对银行数字化转型战略执行力的综合考验,需要从根本上提升为客户服务的能力,在场景中为客户带来价值,与客户分享利益,才能最终实现银行自身价值。
2024-11-09 18:24:15
1004
原创 实时离线融合计算的数据同步实践
综上所述,通过两个典型场景--累计场景与最新分区场景的数据同步的容错设计,最小化了人工干预需求,降低了运维复杂度,确保了数据服务的连续性。
2024-11-05 10:30:23
441
原创 布隆过滤器:极简存储,高效检索
布隆过滤器作为一种高效、低成本的空间优化方案,凭借其独特的“以小博大”能力,在大数据存储与查询场景中占据了重要地位。
2024-10-24 23:00:09
774
原创 数据波动中的阈值设定:绝对值or百分比
在数据量监控中,合理的阈值设定至关重要。虽然绝对值监控简单,但常常无法准确捕捉到数据的细微波动。采用百分比监控方法能够更好地反映数据的变化。
2024-10-19 22:06:55
681
原创 浅议Kafka中消息大小的设置
如果消息体过大,则一般调整max.request.size和max.message.bytes即可,batch.size则保持默认即可
2024-06-29 23:04:21
1739
1
原创 浅议Flink中TaskManager的内存模型
本文将初步探讨Flink作业中TaskManager(TM)的内存作用和使用情况,旨在了解TM的内存管理。
2024-05-22 22:14:54
439
1
原创 Flink SQL中decimal类型和varchar类型几点注意事项
传统数据库中表的字段有多种数据类型,Flink SQL API 也为表(动态表)中的字段提供了丰富的数据类型。在Flink sql中decimal类型和varchar类型是常用的两种数据类型。整理近期使用过程中的几点总结。
2024-05-07 22:28:38
937
1
原创 浅议Flink中的状态及存储
每个Flink状态都有自己的用途和作用范围。通过本地化存储和Checkpoint机制。Flink不仅优化了状态访问的速度,也增强了系统的容错能力
2024-04-13 19:21:11
947
原创 浅议 基于离线历史数据 结合Flink获得长周期聚合指标的实现方案
批量Hive计算[6个月前,T-2]的累计值并推至Hbase以供实时作为维表使用,实时Flink计算[T-1,T]的累计值
2024-03-19 22:32:02
438
1
原创 Flink sink端使用Upsert Kafka的案例
作为 sink端使用时,upsert-kafka 连接器可以消费 retract流。它会将 INSERT/UPDATE_AFTER 数据作为正常的 Kafka 消息写入,并将 DELETE 数据以 value 为空的 Kafka 消息写入(表示对应 key 的消息被删除)
2024-02-21 13:46:38
801
原创 Flink SQL中TopN和去重算子的SQL写法
在dedupilcation的sql写法中, 由于order by 后的时间字段有 处理时间和事件时间,依照升序或者降序的不同,加上可能出现的数据乱序情况,输出流可能分为回撤流Retract和追加流Append-only。如果如果order by 后的字段为时间属性字段,且sql 中有 rowNum = 1子句,则flink会将其解析为Deduplication 的查询。如果order by 后的字段不为时间属性字段,且sql 中有 rownum <= N 子句,则flink会将其解析为TopN的查询。
2024-02-19 15:19:02
493
1
原创 Hbase api中table类属于同步操作
向Hbase中执行插入单条数据时(即 table.put(put)),会经历 客户端Client发出写入请求 -> 服务端RegionSever写入WAL和MemStore的执行过程。Hbase 常用的java api中 常通过连接创建table对象,使用此table对象完成单条数据的插入。由于Client属于同步客户端类型,会等待RegionSever写入操作完成并返回反馈后进行下一条数据的插入。Hbase 2.0版中引入了异步客户端(对应着AsyncTable). 两类Table大致区别如下。
2024-01-28 22:25:40
509
原创 浅议Flink Window Join时Watermark的推进机制
在flink 双流 window Join时,整个Flink作业的Watermark是两条流watermark的最小值。只有当整个作业的Watermark超过了窗口的结束时候,此窗口内Join上的元素才会被输出。
2023-12-03 22:38:16
287
1
原创 浅议数据治理模块的几项重要内容
随着上线任务的积累,数据质量不高、重复开发、加工口径不一致等等问题也逐渐突出。良好的数据治理成为提升工作效率的合适途径。
2023-11-19 23:44:04
240
原创 浅议Atlas HiveMetaStoreBridge 运行机制
使用HiveMetaStoreBridge的方式来导入Hive的历史元数据,分析其运行过程
2023-11-18 00:01:39
147
1
原创 Flink作业资源本地化时的相关路径
YARN 利用资源本地化机制将相关的依赖从 HDFS 下载到各个容器所在的节点。这样,TaskManager在执行任务逻辑时可以直接使用本地的资源,无需再从远程 HDFS 上拉取文件,从而提高了作业的执行效率
2023-11-12 22:19:37
82
原创 浅议用FlinkKafkaProducer实现sink端的Exactly Once语义
整个flink处理链路大致分为 Source -> Transform -> Sink三个环节. 选用支持消息持久化和重置消费位点的kafka组件即可保证Source端的数据精确一次处理。依靠flink自身的checkpoint机制保证Transform阶段的数据精确一次处理。本文讨论选用支持事务的kafka实现Sink端的数据精确一次处理。
2023-11-12 22:09:00
360
原创 浅议Altas Hive Hook的运行机制
Atlas 通过自带的Hive Hook程序获取hive sql执行过程中的元数据变动。本文通过分析Hive Hook的相关代码来探究其运行机制。
2023-11-12 20:25:54
328
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人