- 博客(23)
- 收藏
- 关注
原创 独家干货!Apache Iceberg未来蓝图:Open Lakehouse闭门会核心洞察
【摘要】OpenLakehouseMiniSummit闭门会议聚集了ApacheSpark、DeltaLake等开源项目核心开发者,围绕数据架构未来展开深度讨论。会议重点探讨了IcebergV3的技术突破:通过跨社区协作实现DeltaLake、Parquet与Spark的深度互操作性,包括删除向量标准化、行级血缘兼容等创新。云器科技分享了参与Variant和地理空间类型标准制定的实践经验,强调开放治理的重要性。会议还前瞻性讨论了IcebergV4的元数据优化、增量计算增强及AI多模态支持,展现了从代码开源到
2025-12-02 18:57:14
266
原创 Databricks Data+AI Summit 2025 技术分享总结
再到Lakeflow和Lake bridge在数据集成和迁移⽅⾯的突破,以及Lake base在传统数据库领域的拓展,Databricks正致⼒于构建⼀个统⼀、开放、智能的数据与AI平台。而且即使部署成功,缺乏统一的评估和优化机制,导致AI应用的效果难以持续改进。Databricks Data+AI Summit 2025于6月9-12日在旧金山举行,作为数据和AI领域的年度重要会议,吸引了超过2万名现场参与者,共设置700多场技术分享,涵盖从数据工程到人工智能应用的各个技术领域。
2025-12-02 16:20:31
599
原创 云器Lakehouse2025年07月版本发布:全面升级,引领数据智能新纪元
LakehouseStudio 2025年上半年迎来重大升级,发布V1.8.1至V1.8.3三个版本,推出200多项核心功能优化。重点更新包括:实时同步支持动态感知源端表结构变化;新增组合任务实现复杂数据链路智能调度;推出交互式Notebook分析模块;强化运维监控能力,新增计算集群健康度检测;优化数据质量管理和同步功能;完善账户与成本管理体系。产品持续向智能化、高效化演进,致力于简化数据工程流程,为用户提供更优质的数据管理体验。
2025-11-25 15:51:32
642
原创 数据架构为何总卡在实时和成本的死结?云器CTO关涛详解增量计算如何掀起一场范式革命
摘要:云器科技CTO关涛指出传统Lambda架构存在成本高、复杂度大、数据一致性差等问题,提出"通用增量计算(GIC)"作为解决方案。该技术通过单引擎实现流批处理一体化,已在长安汽车、小红书等案例中实现成本降低75-80%、响应时间缩短至分钟级等显著效果。关涛认为大数据技术正从组合期迈向一体化阶段,增量计算将成为第四代计算范式,不仅能解决当前实时与成本的矛盾,还将为AI时代的数据处理提供统一框架。云器Lakehouse通过兼容现有语法、保留传统建模等方式实现平滑迁移,典型项目周期为1-2
2025-11-24 15:05:44
709
原创 通用增量计算:架构、原理与最佳实践介绍
本文探讨了AI时代数据架构面临的"不可能三角"挑战(效率、实时性、性能),提出以通用增量计算(GIC)为核心的新一代数据引擎解决方案。GIC通过统一计算范式,将增量概念系统化引入关系代数,实现批处理、流计算和交互查询的统一。文章详细阐述了GIC原理、关键技术及在小红书案例中的实践效果,展示了资源、开发和存储成本均降低2/3的显著优势。GIC技术为AI时代提供了统一高效的数据底座,有望成为下一代数据架构的核心引擎。
2025-11-20 19:25:04
556
原创 别再只看硬件成本:数据平台的成本真相是 TCO
数据平台选型需关注TCO(总拥有成本)而非单一硬件成本,建议采用一体化架构替代拼装式方案。TCO包含硬件、软件及人力成本,经验表明其通常是硬件成本的3倍以上。传统Lambda架构易导致技术债积累、运维成本飙升,而云器Lakehouse的一体化架构通过统一引擎、批流合一实现降本增效,特别适合数据密集型企业。该方案可减少冗余、简化协作,是成长型企业的优选方案。
2025-11-18 20:07:56
316
原创 小红书数据架构的演进——基于通用增量计算构建全增量实验数仓生产新范式
小红书数据架构演进历程:从1.0的ClickHouse即席分析到4.0的增量计算架构,实现三大突破。在300PB数据规模下,新一代架构通过通用增量计算替代Lambda架构,降低1/3复杂度与资源成本,开发效率提升3倍。核心创新包括动态表技术统一流批处理、智能Z-Order优化查询性能10倍、非结构化数据高效分析等,支撑社区/电商/算法等核心业务场景,使分钟级数据处理成本与T+1离线计算持平,为AI时代数据应用奠定基础。
2025-11-12 11:53:29
1050
原创 AI × Lakehouse:实现自然语言驱动的数据分析
摘要:云器Lakehouse MCPServer通过50+工具将自然语言交互引入数据分析,实现"业务语言→AI生成查询→Lakehouse执行→自然语言返回"的闭环。该方案采用MCP协议作为AI与数据系统的标准化接口,结合Lakehouse实时计算引擎,显著降低使用门槛:业务人员可直接提问获取洞察,分析迭代速度提升,结果保持秒级新鲜。技术架构支持HTTP/SSE/Stdio协议,提供Docker化部署方案,并可通过向量搜索构建智能知识库。典型场景包括数据查询、对象管理、流处理等,从技术驱
2025-11-10 19:57:00
961
原创 Apache Iceberg C++ 首个版本正式发布,为数据引擎提供原生 C++ 支持
Apache Iceberg C++ 0.1.0正式发布,填补了原生C++实现空白。该版本为ClickHouse、StarRocks等C++数据处理引擎和AI框架提供高效接口,消除JNI性能瓶颈。采用模块化双层架构设计(核心库+捆绑库),支持跨平台运行,遵循C++23标准。此次发布标志着Iceberg生态扩展至C++领域,为实时数据分析等高性能场景提供支持。云器科技作为项目重要贡献方,正推动开放湖仓生态发展。
2025-11-06 19:36:18
644
原创 传统Data Infra已失灵?共探Gen-AI时代下Data Infra的破局点
摘要:在外滩大会"Gen-AI时代下DataInfra重构与机遇"圆桌中,专家指出AI时代数据基础设施面临三大变革:从结构化到非结构化数据处理(90%数据)、计算范式从SQL转向智能检索、使用方式从专业工具转向自然语言交互。新一代Lakehouse架构需具备双引擎协同、非结构化存储和智能检索能力。平台方应构建"数据神经中枢",实现元数据统一管理与可插拔引擎。实践建议包括:聚焦细分领域价值、投资核心数据资产、快速落地应用场景。AI时代数据平台将催生百倍增长机遇,成为连接
2025-11-04 20:24:41
535
原创 AI × Lakehouse | Dify+云器Lakehouse实现一个配置搞定存储和检索
云器Lakehouse与Dify集成实现一站式AI开发解决方案。传统方案需分别配置存储、向量检索等多套系统,存在配置复杂、数据一致性难保障、混合检索性能差等问题。云器Lakehouse通过统一平台整合存储、向量检索和计算能力,提供单Provider配置、自动数据同步和一体化混合检索。该方案显著降低系统复杂度,提升性能表现(TPC-H测试性能达Trino的9.84倍),并具备多云兼容特性。这种集成模式让开发者更专注于产品创新而非架构维护,体现"用简洁架构实现复杂需求"的技术理念。
2025-10-29 11:39:46
836
原创 AI x Lakehouse | 云器 Lakehouse 集成 N8N:让 AI 驱动数据分析更自然、更高效
云器Lakehouse与N8N通过MCP协议实现深度集成,构建AI自动化数据分析工作流:用户用自然语言提问→AI生成调用→N8N编排流程→Lakehouse高效执行→AI反馈结果。该方案突破传统插件模式,实现认知层-编排层-执行层全链路自动化,显著降低技术门槛。实测表明,系统可流畅完成环境查询、切换等操作,响应时效达秒级,推动数据分析从"技术驱动"向"业务驱动"转型。云器Lakehouse作为高性能数据底座,结合N8N可视化编排和MCP协议标准化调用,为构建实时响应、
2025-10-29 11:39:28
633
原创 生成式AI搭台,Data+Analytics唱戏 - Snowflake、Databricks2023年度大会前瞻
每年仲夏之际,全球两大数据平台巨头Snowflake、Databricks均会召开各自的年度大会,成为数据圈的“超级碗”。随着竞争的加剧,Snowflake、Databricks把2023年度重磅市场大会放在相同日期(6.26-6.29),充满着火药味。
2023-06-26 17:05:36
517
1
转载 数据平台作业调度系统详解-理论篇
多数静态执行列表流派的系统,比如oozie,azkaban以及各种公有云的workflow服务,都会包含创建工作流Flow这样一个过程,用户需要定义一个具体的作业流程里面都包含哪些作业,他们的先后依赖关系如何。所不同的是,用户通过什么手段来定义和描述这个工作流:比如oozie要求用户提供XML文件(也可以通过API提交),按照规定的格式描述各个工作流的拓扑逻辑和Job的依赖关系,各种任务类型的细节配置等等。
2023-04-04 16:36:15
411
转载 如何写好项目规划和方案设计文档
所以,无论你的方案文档写的多么翔实,如果只是相关内容细节的罗列,只议不论,缺乏抽象总结,还需要阅读文档的同学再去揣摩项目意图,或者看完以后对项目所要做的工作为什么要做,重不重要,要做成什么样都不明确的话。为后续具体的实现方案,准备必要的输入信息,确定工作的优先级,重要性,项目迭代的步骤等等。再强调一下,做什么和怎么做就是手段,既然是手段,就要写得足够具体,具体到有明确的可落地实施的事情,有明确可以衡量的标准,或者针对当前存在的一个具体问题,不要在这个地方又写得像目标,没有明确的可执行的点。
2023-04-04 11:37:26
620
转载 关于服务,产品,项目开发的碎碎念
前排提示一下:下面的内容,是一篇鸡汤文章,鸡汤这玩意,知易行难,先贤们都总结了五千年了,道理说多了,难免让人觉得一切都是陈词滥调。所以时下毒鸡汤反倒成了一股“清流”。所以,为什么还要写鸡汤?大概还是因为自己的切身体会吧。
2023-04-04 11:04:13
128
转载 跪直了,别趴下!如何面对服务化过程中遇到的那些问题
只谈问题,不谈方案,都是耍流氓!在上一篇《》一文中,我耍流氓了,无耻的留下了一堆让致力于为人民服务的有志青年痛苦难熬的现实问题。(其实是文章篇幅太长,怕大家没耐心看,拆开两篇发)虽然如文中最后所说,真的勇士,抱着“世界辣么残酷,我要血债血还”的梦想,或许可以笑对惨淡的人生。然而,毕竟,追求快乐和幸福才是这个时代的主旋律~所以,这篇,我准备来谈谈如何在服务的过程中,尽可能过得不要那么惨。
2023-03-30 14:55:34
148
转载 论“跪舔式”构建“服务化”数据平台的崇高理想
在构建数据平台的过程中,我们要坚持四个现代化,其中平台服务化是关键指导思想之一,而用户满意是衡量服务水平的唯一标准。那么这篇,让我来具体谈谈如何为人民服务。
2023-03-30 14:50:17
236
1
转载 为建设四个现代化的大数据平台奋斗终身
不太谦虚的说,我们数据平台的技术水平在类似规模的公司中,还算过的去,从我们团队出去的同学多数也都能在新的环境里承担重任。但是在领导眼中,我们团队的产出价值,未必是令人满意的。不过,所谓知易行难。每隔一段时间,回头再看,都会发现自己之前所做的工作,还是和这个目标有不小差距。
2023-03-24 15:08:56
316
1
原创 企业案例 | 以阿里巴巴为例,解析大数据采集中的日志采集
数据采集是大数据系统体系的第一环,如何全面、高效、规范地完成海量数据的采集 ,并将其传输到大数据平台,建立一套标准的数据采集体系方案尤为重要。
2023-03-21 16:38:39
978
1
原创 数据湖的企业价值详解
起初,业内将数据湖定义为一个储存原始格式数据的系统,可以容纳结构化、半结构化、非结构,以及二进制的数据。可以把数据湖想象成一个大湖泊,方便集中存储各种异构数据的架构。随着大数据技术的融合发展,数据湖的边界不断扩展,相应地有内涵的变化。数据湖开始汇集各方面的技术,演进为多源异构数据统一存储、多范式计算分析及统一管理调用的大数据综合解决方案。
2023-03-21 11:15:33
237
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅