- 博客(2088)
- 资源 (1)
- 收藏
- 关注
原创 Paimon生产环境问题小总结
此外,在很多云平台产品上都提供了Bucket Shuffle功能,原理是在开启Bucket Shuffle后,会根据Join Key进行Hash分组处理,每个分组中只要缓存对应Bucket 数据,可以极大减少内存用量,减少了缓存淘汰的概率,就可以支持更大规模的维表。我们以Flink写Paimon举例,在小文件场景中,产生小文件主要有两方面导致,一是进行Checkpoint的时候会强制把当前的WriteBuffer的数据刷到磁盘上,二是WriteBuffer本身满了也会刷到磁盘上。
2025-06-11 08:30:58
647
原创 增量计算+实时湖仓是怎么回事?
关于湖框架的技术选型,这里小红书选择了Iceberg作为基座,Paimon作为维度表,当然因为不同公司的技术栈不同,用户可以灵活选择自己公司当前在用的框架。其次,利用StarRocks作为查询引擎,直接查询结果数据进行聚合,这也是我们在数据开发上经常用到的使用StarPocks、Doris等直接读取离线数据进行加速查询的场景。在模型设计层面,设计了<分钟,user_id> 粒度的数据,把明细日志转化成了5分钟+用户粒度的DWS层数据,同时在分钟级调度任务中关联用户维表,整体数据规模大幅度缩小。
2025-06-10 08:30:14
583
转载 为什么Data Warebase是AI时代首选Data API?
作者 | 王绍翾 @ProtonBase本文内容整理自 ProtonBase CEO 王绍翾在 AICon 的主题演讲《Data Warebase: Instant Ingest-Transform-Explore-Retrieve for AI Applications》。作者的职业经历贯穿了 AI 1.0、2.0 和 3.0 的时代,从搜索推荐,到视觉 / 语音 / NLP 智能,再到当前正全力投入的大模型 AI 浪潮,本文将结合其多年来对数据基础设施的实践与反思,深入探讨生成式 AI 时代对数据系统提
2025-06-09 08:31:12
55
原创 阿里面试:Flink Web UI核心监控项有哪些?如何监控Flink任务端到端全链路延迟?
Checkpoint 相关:numCompletedCheckpoints(成功次数)、latestCheckpointDuration(耗时)、pendingCheckpoints(排队数),优化 Checkpoint 配置。全链路延迟指数据从进入Flink任务(Source)到离开任务(Sink)的端到端耗时,Web UI 未直接提供该指标,实现端到端全链路延迟的方法有多种,我们举两个例子。事件时间延迟(Event Time Lag):若启用事件时间,显示当前事件时间与处理时间的差值,衡量端到端延迟。
2025-06-05 08:30:36
1016
原创 Trae VS. Lingma,字节和阿里的AI编辑器来了!
在AI技术迅猛发展的2025年,AI IDE出现了cursor、trae、windsurf、Lingma,插件有我们熟知的copilot、cline等等。作为AI原生的开发环境工具,通义灵码AI IDE深度适配了最新的千问3大模型,并全面集成通义灵码插件能力,具备编程智能体、行间建议预测、行间会话等功能。在多模态交互上,Trae支持自然语言命令,用户可以用通俗易懂的语言告诉Trae要做的事情,如"添加登录功能",Trae会自动完成相关代码的编写。官方网站:https://docs.trae.ai/
2025-06-04 08:31:04
531
原创 大厂高频Paimon面试题:如何优化Paimon表的读取性能?
Paimon 支持 Bloom Filter,可以快速判断某个文件中是否包含某个字段值,显著提高对应列值在 Data File 中的 SCAN 效率,适用于等值查询(如WHERE id = 123),不适合范围查询(如WHERE age > 18),对高频过滤的字段(如主键、外键)效果显著。主键表的文件结构大致如下所示,表或分区包含多个桶(bucket),每个桶是一个独立的 LSM 树结构,包含多个文件。对于常规的分桶表(例如,bucket = 5),主键的过滤条件将大大加速查询并减少大量文件的读取。
2025-06-03 11:39:21
924
原创 我该用哪个框架入门AI应用开发领域?
其中Spring AI与 Spring 生态深度集成和企业级支持,适合已经使用Spring框架的企业级应用,如果你对 Spring 生态熟悉,那么可以拿 Spring AI 1.0当成你的第一个入门的开发框架。比如GPT-4o的图像能力,直接干翻了SD这种学习成本超高的应用,很多创业公司投入大量时间、人力资源去做的算法优化、工作流等随着大模型的一次发布就变得毫无价值。此外,在大模型高速发展的当下,学习任何东西都有可能在一夜之间变得没有价值,需要个体有强大的自我学习能力,跟上时代。这里不做过多赘述了。
2025-05-26 18:40:56
592
原创 Offer黄了?几个关键问题
对单个任务,基本的metrics例如lag、资源、消费情况,JVM的健康状况(GC、线程等),checkpoint的耗时、失败、大小等,此外还需要对单个Operator进行监控例如输入输出数据量、lookup的请求命中和延迟等,资源层面cpu和内存的使用率等;在大多数复杂的业务场景中,如果涉及到复杂的排序、关联等,我们可以从100-200Core,T级别的内存消耗,开始认为一个任务的资源消耗到了一个较大的程度,在这样的场景中我们开始会遇到复杂的反压、网络资源分配、关联/聚合热点等问题。
2025-05-21 08:31:20
935
原创 Apache Gravitino - AI和数据湖时代的新一代元数据管理平台!
在叶子节点上,可以是 Table、Fileset、Model、Topic,这些节点承载了进一步的元信息,如 Table 的列信息、分区信息,Fileset 的存储位置信息,Model 的版本信息和存储位置,Topic 的 Kafka 集群信息和 Schema 等等,用户还可以进一步扩展,以记录各种元信息。随着数据湖大规模应用、AI 数据大量增长、数据安全与数据治理被更加被重视,难以基于原有的架构或组件实现一套统一的元数据管理系统,进而解决数据孤岛、统一权限,多维度数据治理等问题。
2025-05-16 08:31:30
949
原创 美团发offer了!大数据面经复盘来了
有不止一个大数据提高班的小伙伴面试了美团的数据开发岗位,面经我做了整了,今天分享的是其中的一些有水平的面试问题,如何能够给出超出期望的回答,拿到更好的面试评价。决策支持:能为企业领导提供准确、及时的数据支持,帮助做出正确的决策,同时能为日常运营和业务问题分析提供有效帮助,发现问题并提供解决方案或思路。元数据管理:表有中文别名和详细的字段描述,方便其他人员理解和使用,且具备完善的元数据管理系统,可追溯数据的来源、加工过程等。这种问题没有标准答案,但是是最佳的体现一个人的积累和思考的问题。
2025-05-15 08:30:52
981
原创 DeepResearch+Github轻松阅读源码!
此外,像Cursor、Trae这样的具有 AI 功能的编辑器在辅助编程方面更是发展的无比迅速,一键改写,bug检测,性能优化等能力已经到了非常高的水平。这个功能使得ChatGPT可以分析Github上任意一个代码库,并且回答跟代码有关的问题,还会根据用户的指令生成详细报告。但是,我发现豆包也上线了类似功能,于是我尝试用豆包的AI编程能力分别尝试阅读了一下Flink的源代码,并且提示了一些问题。有相当一部分同学有阅读源码,了解实现原理的诉求,现在有了这样的神器会有很大的帮助。介绍一下Flink这个项目。
2025-05-14 08:30:58
337
原创 Redis8.0来袭,大数据点查询之王重磅发布!
由 Redis 的原始创建者 Salvatore Sanfilippo 开发,向量集借鉴了有序集(sorted set)的灵感,并扩展了有序集的概念,允许存储和查询高维向量嵌入,从而增强了 Redis 在涉及语义搜索和推荐系统等 AI 用例中的能力。Redis大家应该不陌生,Redis是一款高性能的内存数据库,具有丰富的数据结构和强大的功能,在整个软件开发领域,Redis在缓存、分布式锁、大数据处理等领域应用广泛。Redis 8.0 不仅带来了性能上的进一步提升,还带来一些实用的新特性与功能增强。
2025-05-08 08:30:22
983
转载 月薪已炒到6W?强烈建议数据人冲一冲这个新兴领域
是指运行一段具有特定功能的代码块的行为,以增强其处理能力,实现更复杂的任务,使大模型能够集成外部工具和资源,提升交互性和实用性。AI大模型技术实战—— Transformer 架构的 核心原理、应用 Fine-tuning 技术,精准微调AI大模型,随着DeepSeek爆火,超200+企业纷纷接入AI应用,腾讯、百度、阿里等一线大厂更是加速AI市场渗透,老师们将大模型技术原理讲透的同时,还将丰富的商业化AI应用项目无偿分享,帮大家快速打通。,还能将分析结果封装成AI工具,或直接参与开发数据驱动的AI产品,
2025-05-07 10:01:34
226
原创 小红书取消大小周?大数据面试攻略先冲一波!
这样,用户可以随时查询表在某个历史时间点的状态,实现数据的版本回溯和时间旅行查询。iceberg的元数据管理,元数据管理是分层的包含:表元数据文件(Table Metadata File)、快照(Snapshot)、数据文件清单(Manifest File)、数据文件(Data File),关于每个文件存放了什么内容可以简单说说,回答不上来也没关系。当然,有些人不愿意取消大小周,原因就是感觉大小周虽然取消了,但是,工作量还是那些,可是呢,加班费没有了,挣的钱也就少了,以前周六上班,还能领双倍工资。
2025-04-29 09:32:52
1118
原创 沉淀一下,冲一波京东外卖面试!
异步合并过程中,数据的写入和合并操作是分离的,数据写入操作不会受到合并操作的影响,保证了数据写入的及时性和一致性。同时,Paimon 通过原子性的元数据更新机制,确保在合并操作完成后,表的元数据能够准确反映数据的最新状态,进一步保证了数据的一致性。你需要从「具体的业务场景入手」,意思就是说你的表达最好从真实的业务场景入手,而不是机械的记忆这些「八股文」,告诉面试官你在什么业务场景遇到了什么问题?充分竞争的市场对打工人是有利的,两家都在招兵买马,期望有更多的公司参与进来,能够给就业市场带来充分的活力。
2025-04-28 08:31:56
636
原创 数据boy有福了,Java体系AI框架SpringAI来袭!
Spring AI 是从著名的 Python 项目LangChain和LlamaIndex中汲取灵感,它不是这些项目的直接移植,它的成立信念是,下一波生成式人工智能应用程序将不仅适用于Python开发人员,而且将在许多编程语言中无处不在。尤其是LangChain出现后,因为低廉的学习成本和较好的效果,深受大家喜爱,因此Python在大模型、AI领域显示出了无与伦比的先发优势。Spring AI项目的推出,不仅标志着Spring生态的进一步扩展,也在Java语言体系中开启了一个全新的编程领域。
2025-04-25 08:30:41
629
转载 好消息,大数据开发面试方式已经开始变了!
这里值得一提的是类似k8s这样资源管理平台具备这样的能力,例如:在 Flink on k8s 的配置文件中,可能会有相关参数来配置黑名单机制的行为,如黑名单检测的周期、节点异常的阈值等。当然我们还是要实事求是,不能吹的过分不合理,因为数据规模变大带来的问题很多,连环问容易露馅儿。其中关于大模型相关的问题是属于开放性的,听起来似乎有点离谱,不过时代在发展,跟上时代发展的脚步,这也是理所当然。尾任务一般指的是没有下游/使用方的那些任务,在成熟的平台中是可以从任务的血缘元数据中批量识别到这些任务。
2025-04-24 08:30:34
75
转载 RAG 实战|用 StarRocks + DeepSeek 构建智能问答与企业知识库
为提升效果,应引入 RAG 机制,使检索结果与生成模型深度融合,从而优化回答质量并减少幻觉问题。RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合外部知识检索与 AI 生成的技术,弥补了传统大模型知识静态、易编造信息的缺陷,使回答更加准确且基于实时信息。RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合外部知识检索与 AI 生成的技术,弥补了传统大模型知识静态、易编造信息的缺陷,使回答更加准确且基于实时信息。
2025-04-22 08:30:58
74
转载 赢麻了!全体大数据人彻底狂欢吧!这个好消息来得太及时!
是衡量大语言模型“从量变到质变”的关键,是针对特定场景的AI解决方案。是指运行一段具有特定功能的代码块的行为,以增强其处理能力,实现更复杂的任务,使大模型能够集成外部工具和资源,提升交互性和实用性。AI大模型技术实战—— Transformer 架构的 核心原理、应用 Fine-tuning 技术,精准微调AI大模型,2节直播课,为你展示如何利用RAG、Fine-tuning的技术来改善大语言模型的使用!老师们将大模型技术原理讲透的同时,还将丰富的商业化AI应用项目无偿分享,帮大家快速打通。
2025-04-18 10:01:13
144
转载 Data + AI 下的新一代智能数仓平台
而文本去重过程涉及大量数据计算。在架构设计上,我们采用了存算分离的架构,底层存储依赖于阿里云飞天盘古存储,同时还支持将数据存储在数据湖中,并支持基于数据湖的计算与分析。其次,在数据处理即 Data for AI 方面,数仓平台如何更好地支撑大模型预训练的数据处理需求,高效地处理大规模数据,包括量结构化、半结构化及非结构化数据,构成了另一个重要挑战。为了提升开发体验,提高开发敏捷度,我们还推出了一套交互式的开发环境,开箱即用,用户可以像开发本地 Notebook 程序一样进行开发,同时还提供诊断分析功能。
2025-04-17 08:30:28
146
原创 Doris x Paimon湖仓一体建设技术要点
另外,Iceberg,Hudi 等都提供了开放式的元数据管理能力,不管元数据是存储在 Doris 本身,还是存储在 Hive Meta store,或者存储在其它统一元数据中心,都可以通过一些对外公开的 API 对这些数据进行管理。「数据分层建模,ODS层在 LakeHouse 中,DWD,DWS,ADS 层的数据加工和数据服务在可以在Doris中,充分利用其性能优势,此外还可以将其加工好的数据再通过Write-Back的机制写回到LakeHouse中,实现备份归档或者供其他的数据系统继续处理使用。
2025-04-15 08:30:41
947
原创 Data Agent:Data + AI最典型的应用场景
另外,当有特定的数据提取需求时,它也能辅助生成相应的查询代码,展示结果,并支持可视化数据分析,进而高效地完成高质量的数据分析报告,助力企业更好地挖掘其数据资产潜力。在大模型领域,Agent是一种基于大模型技术,能自主感知环境信息、运用自身智能进行分析决策,并采取行动以达成特定目标的智能实体,具有自主性、智能性和交互性等特点,可应用于智能客服、机器人控制、数据分析决策等多个场景。:在客服场景中,Data Agent 可以理解用户的问题,从相关数据中获取答案,为用户提供准确、及时的服务,提高客服效率和满意度。
2025-04-09 08:30:41
2297
原创 大数据和大模型结合必须了解的几个核心技术点
"此时会先去访问一个大模型的服务,把这个问题通过一个大模型的嵌入 embedding 产生出一个问题向量,然后通过 Vector store,找到关联度比较高的那些论文片段,作为上下文返回给某个模型,让它再重新生成一个回答,这一过程就可以使用 RAG。所有的AI模型的底层原理都是基于数学概率,其模型输出实质上是一系列数值运算,大模型也不例外,所以它有时候会一本正经地胡说八道,尤其是在大模型自身不具备某一方面的知识或不擅长的场景。的区分是比较困难的,因为它要求使用者自身具备相应领域的知识。
2025-04-03 08:30:41
1088
原创 「精华版」Doris VS Elasticsearch全方位对比和落地实践指导
Doris 3.0 引入 存算分离架构,计算节点与存储节点独立扩展,支持冷热数据分层(热数据存 SSD,冷数据存 HDD / 对象存储),资源利用率提升 40%。MPP 分布式架构:无共享设计,Frontend 负责元数据与查询调度,Backend 并行处理计算任务,支持向量化执行引擎,单节点写入吞吐量达 550MB/s,是 Elasticsearch 的 5 倍(后者约 124MB/s)。然而,随着数据规模的爆炸式增长和分析需求的复杂化,其在复杂聚合、存储成本、SQL 生态兼容性等方面的短板逐渐显现。
2025-04-02 08:30:30
1422
原创 Apache Kafka 4.0重磅发布,核心特性速览!
然而,在某些特定场景下,如点对点的消息传递、任务分配等,传统的队列语义更具优势。2025年3月18日,Kafka 迎来了具有里程碑意义的 4.0 版本更新,这次更新不仅带来了性能的显著提升,更在功能和架构上实现了全面革新,为开发者和运维人员解锁了前所未有的技术可能性。:向 ProductionExceptionHandler 添加 "retry" 返回选项:解决了 Kafka Streams 中的持续错误问题,提供了可定制的错误处理,使得可以重试、优雅地失败或丢弃有问题的记录,从而继续高效地处理。
2025-03-24 08:30:55
1357
原创 Flink+Paimon/Hudi+Doris湖仓架构在各大公司落地的一些总结
Lambda 架构之痛:离线(Hive/Spark)与实时(Flink/Kafka)双链路并行,导致开发成本倍增(如阿里妈妈需维护两套代码)、存储冗余(腾讯视频实时数据需同步至 ClickHouse)、数据一致性差(字节跳动实时与离线口径对齐困难)。Lambda 架构导致流批存储分离,开发维护成本高,实时特征生产需秒级数据可见性,同时需支持 Spark/Flink/Presto 多引擎协同。Doris 直接查询 Hive/Hudi 数据,结合 Alluxio 分布式缓存,冷热数据命中率达 85%。
2025-03-17 08:30:19
1397
原创 数据开发方向经过15年的发展再一次走到了十字路口
这是一个简短的思考记录文章,在和朋友头脑风暴后得出来的结论。2025年随着DeepSeek的开源,AI/大模型从原来高不可攀一夜之间走进普通开发者的视线。这个浪潮发展之猛烈,行业内大多数人员还没有真正意识到他带来的改变。但是从去年下半年到今年年初行业内的变化我们已经可以管中窥豹。数据开发这个职业方向经过15年的发展再一次走到了十字路口。我们只是从感性上分析这个职业未来的发展变化。不管你是初窥门径的...
2025-03-03 08:30:25
929
原创 大数据大厂面经线上分享,内部脱敏版~
上面是周末组织的线上分享,内容做了脱敏处理,感兴趣的可以拿走~时间不长,内容上包含:项目背景介绍、内容思考、成果量化等三个方面,新的一年希望对你有帮助~...
2025-02-25 08:30:52
305
原创 Lookup Join显著增强,Paimon1.0版本如何做的?
Hi,大家好,我们又满血复活了。2025年开年更新频率不快,一方面是大模型如火如荼,也一直在补相关知识;另外一方面,新的一年里身体健康被我摆到了第一位,不会像前几年那么卷了。后续我们的更新会变得佛系,内容也偏向简单和科普,不会在像前两年更新的非常有深度,面向更广泛的受众(曲高和寡加上精力有限)。主要精力会放在大数据提高班上,内容上也会扩展到大模型和数据结合的领域。今天要更新的文章是Paimon1....
2025-02-18 08:30:15
851
原创 【大数据提高班】应届生爆肝5个月,拿下Top大厂Offer!我愿称你为最强!
下面是一位同学的分享,刚好站在2025年这个时间节点,编程开发红利完全褪去,AI浪潮滚滚而来。一个较高的起点是大家在行业内走的更远的最坚实的保障。下面是主人公第一人称自述。故事的起点数开/数仓方向对于应届或者是职业生涯初期的岗位并不算多,了解这类岗位的同学也比较少,学习资料也不多,对于刚刚要开启职业生涯的我来说,很纠结到底应该选择去从事数据开发,数据产品还是数据分析岗位。在学习和找工的过程中发现了...
2025-02-11 08:31:42
886
原创 DeepSeek和Cursor使用体感和未来判断
大家好,新年已经过去了。事实上,2025年已经过去1/6了。我们又见面了。过年期间被大模型DeepSeek刷屏,相信大家都看到了。今天的文章蹭下热度,我们提高班的一些同学也经常咨询我的关于AI/大模型对数据开发领域的一些影响。事实上我个人已经用这些大模型工具很久了。最常用的是Cursor(Claude3.5/GPT4),还有工作中已经深度依赖豆包和DeepSeek。此外开发平台本身也集成了一些自研...
2025-02-04 09:02:31
858
转载 抖音集团数据血缘深度应用与优化实践
导读本文简单介绍了“抖音集团数据资产管理平台”全貌,数据资产管理平台是抖音集团在复杂业务场景中思考的新方向,启发大家对于元数据以及数据资的全新思考。文章重点展开介绍了“抖音集团大数据血缘的演进和应用”部分,让大家以更宏观视角认识血缘,并在如何建设好数据血缘给出建设性的思路。首先整体介绍下抖音集团的一站式数据资产门户平台。在大数据领域,各大公司通常会开展元数据采集以及数据地图的建设工作,行业内的普...
2025-02-01 10:51:10
802
原创 【大数据提高班分享】双非二本+外包,天崩开局逆袭大厂offer!
前沿今天的文章是大数据提高班中的一个同学的真实分享。为什么我必须让这个同学分享个人经历,很重要的一个原因是,个人接触过非常多的前来咨询的同学,语言中充斥着不自信,没有作出改变的决心,那么没人帮得了你。我不明白,为什么大家都在谈论着我个人背景、履历不好,彷佛这个行业对你个人注定了凶多吉少。我经常反问对方的一个问题是,你个人为未来的改变作出过哪些努力和下定了哪些决心?我们小组的其他老师在这个过程中真是...
2025-01-15 08:30:56
1991
1
原创 Apache Paimon大厂面试必备-进阶篇(二)
Paimon面试必备系列参考:Apache Paimon面试必备系列-基础篇Apache Paimon大厂面试题必备-进阶篇(一)这是一个系列文章,包含基础篇、原理篇、进阶篇、实践篇等至少4+个系列。欢迎收藏、追更。本篇属于进阶篇。本系列内容在知识星球同步更新,同步答疑,冲刺中大公司、高阶岗位的同学随时在知识星球提问。Paimon是如何管理快照过期的?Paimon writer 每次提交时会生成1...
2025-01-13 08:30:16
1509
原创 Apache Paimon大厂面试题必备-进阶篇(一)
Paimon面试必备系列参考:Apache Paimon面试必备系列-基础篇本篇属于进阶篇。这是一个系列文章,包含基础篇、原理篇、进阶篇、实践篇等至少4+个系列。欢迎收藏、追更。本系列内容在知识星球持续更新,同步答疑。冲刺中大公司、高阶岗位的同学随时在知识星球提问。Paimon的时效性和一致性是如何保证的?提到Paimon的时效性与一致性,就必须要提到Paimon的快照文件,快照(snapshot...
2025-01-06 08:30:39
1635
原创 【全网首发】Apache Paimon大厂面试必备系列-基础篇
这是一个系列文章,包含基础篇、原理篇、进阶篇、实践篇等至少4+个系列。欢迎收藏、追更。本系列的文章非常「功利」,完全着眼于面试,当然读者完全可以把它当成学习完Paimon后的自我检验也是可以的。文章较长,推荐收藏。本篇文章是基础篇。基础篇是入门Paimon必须要掌握的部分。本系列内容在知识星球同步更新,知识星球内同步答疑,冲刺中大公司、高阶岗位的同学随时在知识星球提问。本文部分参考了Paimon官...
2025-01-02 08:30:10
2227
转载 请所有架构师立即拿下软考证书(政策风口)
????注意注意!????分享一个免费,又干货满满的2025软考最新通关备考群!进群听课免费领1⃣️2天软考大咖VIP公开课2⃣️软考2025新版通关资料包????3⃣️7天1V1备考指导+考试专业选择4⃣️历年真题库+命题趋势+核心必考点+万能通关技巧软考证书作为计算机行业公认的王牌证书,近几年每年都有上百万人报名。其中的软件架构设计师和软件设计师则是技术领域含金量最高的两个科目,对于研发、测试、产品、数据、运...
2025-01-01 09:04:38
1041
转载 Shuffle再见!Spark SPJ高效Join优化解密
随着 Spark >= 3.3(在 3.4 中更加成熟)中引入的存储分区连接(Storage Partition Join,SPJ)优化技术,您可以在不触发 Shuffle 的情况下对分区的数据源 V2 表执行连接操作(当然,需要满足一些条件)。Shuffle 是昂贵的,尤其是在 Spark 中的连接操作中,主要原因包括:•Shuffle 需要跨网络传输数据,这是 CPU 密集型的。•在 S...
2024-12-31 09:01:35
1073
原创 DWD三种事实表建模方法和注意事项
明细粒度事实层(DWD)通常分为三种:事务事实表、周期快照事实表和累积快照事实表。事务事实表用来描述业务过程,跟踪空间或时间上某点的度量事件,保存的是最原子的数据,也称为原子事实表。周期快照事实表以具有规律性的、可预见的时间间隔记录事实。累积快照事实表用来表述过程开始和结束之间的关键步骤事件,覆盖过程的整个生命周期,通常具有多个日期字段来记录关键时间点。当累积快照事实表随着生命周期不断变化时,记录...
2024-12-26 09:02:38
2036
原创 Flink2.0未来趋势中需要注意的一些问题
手机打字,篇幅不长,主要讲一下FFA中关于Flink2.0的未来趋势,直接看重点。Flink Forward Asia 2024主会场有一场关于Flink2.0的演讲,很精彩,官方也发布了一些关于Flink2.0的展望和要解决的问题。1.0时代和2.0时代避免不了一些兼容性改动,例如配置文件、状态兼容以及一些常见的API,当然这些问题都不是用户需要考虑的,平台要做好升级。那么作为普通的开发者应该注...
2024-12-18 09:30:33
2611
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人