自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 不再熬夜做PPT,免费神器帮你省一整天

告别PPT加班,让AI助手帮你事半功倍!

2025-01-04 17:16:38 226

原创 “我不会写代码“已经不是借口了,AI带你30分钟入门编程

在AI时代,编程正在变得越来越平民化。重要的不是你懂多少编程知识,而是你能否提出有价值的想法,能否准确描述你的需求。

2024-12-19 22:04:14 176

原创 浅议Flink lib包下的依赖项

要开始一个 Flink 作业,通常需要如下依赖项:1.Flink API,用来开发你的作业2.连接器和格式,以将你的作业与外部系统集成 比如kakfa,hbase模块3.若要开发自定义功能,还要添加必要的第三方依赖项比如fastjson等其中1所需要的依赖已经在安装包lib文件夹下的flink-dist_xx.jar中,在IDEA等中编译程序时需要将相关依赖置为 provied。

2024-12-15 22:36:17 433

原创 Flink如何基于数据版本使用最新离线数据

即使批量晚批,优化后的新方案中实时一直能使用数据表最新分区的数据,而且也没有"假"数据问题。

2024-12-07 17:02:33 540

原创 浅议Flink中的通讯工具: Akka

在Flink中,各个组件之间需要频繁交换数据和控制信息。Flink选择了基于Actor模型的Akka框架作为通信基础。

2024-11-16 22:24:01 592

原创 杂谈:业务说的场景金融是什么?

场景金融生态的建设是对银行数字化转型战略执行力的综合考验,需要从根本上提升为客户服务的能力,在场景中为客户带来价值,与客户分享利益,才能最终实现银行自身价值。

2024-11-09 18:24:15 1004

原创 实时离线融合计算的数据同步实践

综上所述,通过两个典型场景--累计场景与最新分区场景的数据同步的容错设计,最小化了人工干预需求,降低了运维复杂度,确保了数据服务的连续性。

2024-11-05 10:30:23 441

原创 初探Flink的序列化

Flink未直接使用Java序列化,而是自研了一套高效的序列化机制。

2024-11-02 18:10:11 1072

原创 布隆过滤器:极简存储,高效检索

布隆过滤器作为一种高效、低成本的空间优化方案,凭借其独特的“以小博大”能力,在大数据存储与查询场景中占据了重要地位。

2024-10-24 23:00:09 774

原创 数据波动中的阈值设定:绝对值or百分比

在数据量监控中,合理的阈值设定至关重要。虽然绝对值监控简单,但常常无法准确捕捉到数据的细微波动。采用百分比监控方法能够更好地反映数据的变化。

2024-10-19 22:06:55 681

原创 理解位运算:一个营销活动的实例

理解位运算:一个营销活动的实例

2024-09-21 15:39:28 872

原创 杂谈:支付领域管中窥豹

本文将简要介绍国内支付体系,以便对其有一个基本的了解。

2024-09-16 23:10:48 601

原创 杂谈:简易的信用卡交易支付流程

基于常见的四方模式(即持卡人、发卡行、商户、收单行 四方)详细介绍一下简单的交易支付的流程

2024-08-18 22:35:24 713

原创 浅议Kafka中消息大小的设置

如果消息体过大,则一般调整max.request.size和max.message.bytes即可,batch.size则保持默认即可

2024-06-29 23:04:21 1739 1

原创 浅议Flink中算子间的八种数据传输策略

Flink中为上下游subtask之间数据传输提供了九种传输策略。

2024-06-09 14:42:50 1454 2

原创 浅议Flink中TaskManager的内存模型

本文将初步探讨Flink作业中TaskManager(TM)的内存作用和使用情况,旨在了解TM的内存管理。

2024-05-22 22:14:54 439 1

原创 Flink SQL中decimal类型和varchar类型几点注意事项

传统数据库中表的字段有多种数据类型,Flink SQL API 也为表(动态表)中的字段提供了丰富的数据类型。在Flink sql中decimal类型和varchar类型是常用的两种数据类型。整理近期使用过程中的几点总结​。

2024-05-07 22:28:38 937 1

原创 浅议Flink中的状态及存储

每个Flink状态都有自己的用途和作用范围。通过本地化存储和Checkpoint机制。Flink不仅优化了状态访问的速度,也增强了系统的容错能力

2024-04-13 19:21:11 947

原创 浅议 基于离线历史数据 结合Flink获得长周期聚合指标的实现方案

批量Hive计算[6个月前,T-2]的累计值并推至Hbase以供实时作为维表使用,实时Flink计算[T-1,T]的累计值

2024-03-19 22:32:02 438 1

原创 StarRocks分区分桶及副本数概念

StarRocks 通过设置分区 + 分桶的方式来实现数据分布

2024-03-16 22:55:30 882 1

原创 Flink sink端使用Upsert Kafka的案例

作为 sink端使用时,upsert-kafka 连接器可以消费 retract流。它会将 INSERT/UPDATE_AFTER 数据作为正常的 Kafka 消息写入,并将 DELETE 数据以 value 为空的 Kafka 消息写入(表示对应 key 的消息被删除)

2024-02-21 13:46:38 801

原创 Flink SQL中TopN和去重算子的SQL写法

在dedupilcation的sql写法中, 由于order by 后的时间字段有 处理时间和事件时间,依照升序或者降序的不同,加上可能出现的数据乱序情况,输出流可能分为回撤流Retract和追加流Append-only。如果如果order by 后的字段为时间属性字段,且sql 中有 rowNum = 1子句,则flink会将其解析为Deduplication 的查询。如果order by 后的字段不为时间属性字段,且sql 中有 rownum <= N 子句,则flink会将其解析为TopN的查询。

2024-02-19 15:19:02 493 1

原创 Hbase api中table类属于同步操作

向Hbase中执行插入单条数据时(即 table.put(put)),会经历 客户端Client发出写入请求 -> 服务端RegionSever写入WAL和MemStore​的执行过程。Hbase 常用的java api中 常通过连接创建table对象,使用此table对象完成​单条数据的插入。由于Client属于同步客户端类型,会等待RegionSever写入操作完成并返回反馈后​进行下一条数据的插入。Hbase 2.0版中引入了异步客户端(对应着AsyncTable). 两类Table大致区别​如下。

2024-01-28 22:25:40 509

原创 Flink 中Join type及Interval Join

flink中的join类型

2023-12-10 23:32:19 217 1

原创 浅议Flink Window Join时Watermark的推进机制

在flink 双流 window Join时,整个Flink作业的Watermark是两条流​watermark的最小值。只有当整个作业的Watermark超过了窗口的结束时候,此窗口内Join上的元素才会​被输出。

2023-12-03 22:38:16 287 1

原创 浅议数据治理模块的几项重要内容

随着上线任务的积累,数据质量不高、重复开发、加工口径不一致等等问题也逐渐突出。良好的数据治理成为提升工作效率的合适途径。

2023-11-19 23:44:04 240

原创 浅议Atlas HiveMetaStoreBridge 运行机制

使用HiveMetaStoreBridge的方式来导入Hive的历史元数据,分析其运行过程

2023-11-18 00:01:39 147 1

原创 Flink作业资源本地化时的相关路径

YARN 利用资源本地化机制将相关的依赖从 HDFS 下载到各个容器所在的节点。这样,TaskManager在执行任务逻辑时可以直接使用本地的资源,无需再从远程 HDFS 上拉取文件,从而提高了作业的执行效率

2023-11-12 22:19:37 82

原创 浅议用FlinkKafkaProducer实现sink端的Exactly Once语义

整个flink处理链路大致分为 Source -> Transform -> Sink三个环节. 选用支持消息持久化和重置消费位点的kafka组件即可保证Source端的数据精确一次处理。依靠flink自身的checkpoint机制保证Transform阶段的数据精确一次处理。本文讨论选用支持事务的kafka实现Sink端的数据精确一次处理。

2023-11-12 22:09:00 360

原创 浅议Altas Hive Hook的运行机制

Atlas 通过自带的Hive Hook程序获取hive sql执行过程中的元数据变动。本文通过分析Hive Hook的相关代码来探究其运行机制。

2023-11-12 20:25:54 328

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除