自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(315)
  • 收藏
  • 关注

原创 如何使用 Databend Cloud 化简大数据架构?| Data Infra NO.24 回顾

随着数据量的爆炸式增长和业务需求的多样化,许多企业的大数据平台在多年的演进中堆积了 Hadoop、Hive、Spark、Flink、Kafka 等数十种组件,复杂度的累积使架构演变为”难以维护的黑盒",企业用户不得不承受着传统数据架构的慢性疼痛。亚舟将在本次分享中,以用户行为分析场景为例,介绍 Databend Cloud 如何化繁为简,帮助企业摆脱复杂技术栈的束缚,快速构建端到端的数据管道,从而实现一套可扩展、灵活、低成本的用户行为数据分析架构。在 Data Infra 第 24 期活动中,我们邀请到。

2025-04-15 14:39:35 594

原创 下一代数据架构全景:云原生实践、行业解法与 AI 底座 | Databend Meetup 成都站回顾

一个通用的判别是,热数据是高频访问、时效性强、性能要求高的数据;冷数据是低频访问、长期存储、对性能要求低的数据。但各个企业、各个场景、各个行业,其实对冷热数据也有着自己的一些标签,因此不能概括来说。

2025-04-11 16:26:51 965

原创 Databend Cloud 如何给游戏行业数据分析带来 10 倍收益提升?

游戏业务需求非常多,如运营层、玩法层、经济层等。比如四五个人组成的一个流量小组,要投放 100 万流量,这个时间段内能否赚回这 100 万?这几天如何分析数据?对于这样的数据分析需求,如果还用传统的方法做成看板展示,基本上不太现实。这种时候,团队通常会直接使用 SQL 查询,再把数据导出到 Excel 表里。一个个灵活的需求都是这样去实现分析的,需求量极大。此外,游戏行业的数据工程师经常会面对堆积如山的需求量。很多在海外工作的朋友头衔叫"Data Engineer"(数据工程师)。

2025-04-11 11:22:13 372

原创 理解 Calvin 的架构设计与工作原理

Calvin 是一个针对分区式数据库系统设计的分布式 transaction 调度与复制层,其目标是在保证线性可扩展性和高可用性的同时提供完整的 ACID transaction。为了解决传统分布式 transaction 高开销、低性能的问题,Calvin 引入了确定性 transaction 调度的理念:在 transaction 执行前,先确定并记录 transaction 的全局顺序,这样各节点就可以按统一顺序执行 transaction ,从而避免了在执行过程中再进行跨节点协调。

2025-04-09 09:52:23 700

原创 Databend Cloud Dashboard 全新升级:直击痛点,释放数据价值

从分散的数据展示到统一的 Dashboard,从不稳定的配置到独立的展示逻辑,再到灵活的分享协作,Databend Cloud 的这次升级是我们与用户共同成长的见证。我们深知,一个优秀的数据平台离不开用户的反馈与支持。欢迎大家体验全新 Dashboard,提出宝贵建议,与我们一起打造更强大的 Databend Cloud!

2025-04-03 09:46:17 1060

原创 Databend 产品月报(2025年3月)

很高兴为您带来 Databend 2025 年 3 月的最新更新、新功能和改进!我们希望这些增强功能对您有所帮助,并期待您的反馈。

2025-03-31 17:03:41 259

原创 从 Snowflake 到 Databend Cloud:全球游戏平台借助 Databend 实现实时数据处理

导读:某全球游戏平台为全球数百万玩家提供实时的技能型游戏体验与无缝的实时互动。对该游戏平台而言,保持数据的实时更新和实时分析,对提升玩家互动和留存率至关重要。他们在使用 Snowflake 进行实时数据摄取和分析时遇到了重大挑战,且成本居高不下。为了更高效地实现实时数据分析,该平台从 Snowflake 迁移到 Databend Cloud,成本降低了 50%,实现了具有秒级任务支持的实时数据 ELT 过程,提供实时数据洞察。某游戏公司是一家全球游戏平台,擅长为全球数百万玩家提供实时的技能型游戏体验。

2025-03-19 16:47:59 740

原创 Databend 产品月报(2025年2月)

很高兴为您带来 Databend 2025 年 2 月的最新更新、新功能和改进!我们希望这些增强功能对您有所帮助,并期待您的反馈。

2025-03-07 14:56:57 635

原创 Databend 基于青云 DeepSeek-V3 服务拥抱技术创新

随着业务的飞速发展, 依托创新数据处理技术来为众多企业提供云原生湖仓解决方案的 Databend,面临着用户日益增长的复杂数据处理需求,从 2023 年起便开始探索将大模型能力引入湖仓,对算力和 API 稳定性提出了近乎苛刻的要求,青云科技旗下基石智算 CoresHub 提供 DeepSeek 稳定的 API 调用,为 Databend 的能力创新筑牢了坚实基础。

2025-02-12 09:59:00 863

原创 Databend 产品月报(2025年1月)

很高兴为您带来 Databend 2025 年 1 月的最新更新、新功能和改进!我们希望这些增强功能对您有所帮助,并期待您的反馈,祝您新春快乐!

2025-02-07 14:10:27 300

原创 Databend x 沉浸式翻译 | 基于 Databend Cloud 构建高效低成本的业务数据分析体系

通用埋点系统的查询模式并非标准 SQL 查询接口,当数据科学家希望构建复杂的 adhoc 查询时,由于缺少 SQL 能力,难以支持复杂的自定义查询;

2025-01-23 16:54:57 2034

原创 Databend 2024 年度总结:乘势而上,创新无止境

2024 年对 Databend Labs 来说是非凡的一年,也是具有里程碑意义的一年。这一年,Databend 不仅迎来了成立三周年,更迈入了商业化元年。Databend Labs 在过去一年里,以卓越的产品能力和社区贡献,推动了云数据仓库领域的变革,也让更多企业通过 Databend 实现了降本增效的目标。让我们一起回顾 Databend 的 2024 年,并展望更加值得期待的 2025 年!

2025-01-09 11:02:44 777

原创 信创、湖仓一体化、AI+DB,2024年数据库&湖仓发展总结与展望

2024年,数据库与湖仓领域面临着巨大机遇与挑战。信创自主可控已成基调,2025年将会加速这个市场的格局演变;AI 的势不可挡则蕴含了未来无限可能,要求从业者结合行业需求,最大化发挥 AI 的价值;湖仓一体时代已经到来,使高性能、易用性、稳定性和低成本的产品成为未来发展的关键词;此外,出海正成为国产创业公司生存和发展的必经之路。展望未来,竞争的核心不仅仅依赖于技术的速度和性能,更在于如何为用户提供更便捷、更稳定的解决方案。我们应以开放的心态,迎接 AI 和信创带来的新变革,努力开辟更广阔的市场空间。

2025-01-07 14:11:33 1225

原创 Databend 产品月报(2024年12月)

现在您可以使用 Python 和 JavaScript 定义自己的聚合函数。$$;

2025-01-03 09:25:23 760

原创 如何构建云原生时空大数据平台?

在现代企业中,随着对技术的依赖日益加深,的重要性愈发显著。它通过结合地理成分(如纬度、经度、地址、邮编等)与业务数据,成为解决复杂问题的重要工具。地理空间数据可从多种来源获取,例如卫星影像、传感器网络和现场调查,广泛应用于优化业务流程、提升效率及推进智慧城市建设。无论是优化门店选址、提升物流配送效率、推动智慧城市建设,地理空间数据的高效处理都能极大地提升数据价值。在 Data Infra 第 23 期活动中,我们邀请到和,共同解析如何基于 Databend 构建云上的时空大数据仓库分析平台。

2025-01-02 11:36:52 1177

原创 使用 Testcontainers 轻松集成 Databend 测试环境

作者:韩山杰 Databend Cloud 研发工程师是一个开源库,用于提供一次性的、轻量级的数据库实例、消息代理、网络浏览器,或者任何可以在 Docker 容器中运行的服务。

2024-12-19 10:06:46 783

原创 Databend 为什么使用 Rust 开发?

11 月 30 日,Rust China Tour 武汉站在武汉恺德光谷城际酒店举行。本次活动汇聚了来自 Databend、GreptimeDB、华中科技大学的多位 Rust 技术专家和研究者,共同探讨 Rust 语言在前沿技术中的创新应用。Databend 数据库研发工程师张祖前在活动中带来主题演讲《云原生数仓 Databend 的 Rust 开发实践》,重点探讨 Databend 的设计与开发过程,为何选择 Rust 进行开发,以及在使用 Rust 开发过程中的心得与经验。

2024-12-16 11:09:25 1144

原创 Databend 产品月报(2024年11月)

很高兴为您带来 Databend 2024 年 11 月的最新更新、新功能和改进!我们希望这些增强功能对您有所帮助,并期待您的反馈。

2024-12-16 10:08:20 1098

原创 告别 Kafka,拥抱 Databend:构建高效低成本的用户行为分析体系

用户行为数据埋点指标是数据仓库中不可或缺的重要数据源之一,同时也是企业最宝贵的资产之一。通常情况下,用户行为数据分析包含两大数据源:用户行为分析日志和上游关系型数据库(如 MySQL)。基于这些数据,企业可以进行用户增长分析、用户行为研究,甚至通过用户行为分析精准排查用户问题。

2024-11-27 14:50:12 1380

原创 存算分离的过去、现在和未来

存算分离架构,作为数据处理领域的一个重要概念,从其最初的雏形到如今广泛应用,经历了多次迭代和变革。雁飞老师在分享中从过去的存算架构,逐步讲述存算分离的演进,现今的存算分离架构的优势及其在 Databend 中的体现,直至未来存算分离的发展方向。在传统的数据处理架构中,计算和存储往往是紧密耦合在一起的。这种存算一体的架构虽然在早期的数据需求中表现优异,但随着业务复杂度和数据量的激增,逐渐显现出了一些无法克服的缺陷:存算分离架构的发展可以大致分为三个阶段,每个阶段都在逐步解决存算一体架构中的缺陷,并使数据处理系

2024-11-21 16:27:48 950

原创 Databend 产品月报(2024年10月)

很高兴为您带来 Databend 2024 年 10 月的最新更新、新功能和改进!我们希望这些增强功能对您有所帮助,并期待您的反馈。

2024-11-01 16:46:52 1222

原创 解锁低成本数据库归档方案,Databend 受邀参加 TiDB 杭州地区交流会精彩回顾

总结来说,结合 TiDB 和 Databend 的特性,我们可以构建一个高效、可靠、可扩展的数据归档解决方案。TiDB 用来处理实时的数据,而 Databend 则可以用于长期的数据存储和大规模的数据分析,如大范围的数据查询和分析,两者配合使用可以满足不同时间跨度的数据归档需求,同时保持成本是最低的。其实对于 Databend 来说,只用 Databend 来做数据归档的话,其实是有点大材小用的。当你把数据归档之后,还可以用 Databend 来做各种大规模的数据分析,它的计算能力也是非常强的。

2024-10-31 17:04:52 1027

原创 面向 Data+AI 的统一数据目录探索 | Data Infra NO.22 回顾(含资料发布)

随着生成式人工智能(Generative AI)的崛起,从图像生成、自然语言处理到个性化推荐系统,生成式 AI 技术正迅速改变着各行各业的面貌。而在这场变革背后,数据的管理和治理显得尤为重要。对于企业来说,数据不仅是基础资源,更是构建 AI 应用和增强业务能力的关键。Apache Gravitino(incubating) 与 Databend 作为数据领域两个知名的开源项目,正通过各自的创新技术和实践,为数据管理和 AI 应用的深度融合开辟了新的路径。

2024-10-29 10:11:45 874

原创 Databend 产品月报(2024年9月)

很高兴为您带来 Databend 2024 年 9 月的最新更新、新功能和改进!我们希望这些增强功能对您有所帮助,并期待您的反馈。

2024-10-17 16:32:48 678

原创 释放无限潜力:Databend 存算分离架构如何让企业数据管理焕然一新?

存算分离架构的出现为云原生数据库带来了新的可能性。通过计算与存储资源的解耦,Databend 实现了高扩展性、弹性使用和更高的资源利用率,解决了传统存算一体架构中存在的扩展性和成本问题。作为一款云原生数据仓库,Databend 的设计思路从一开始就围绕存算分离架构展开,最终为用户提供了一种高效灵活的数据处理解决方案。Databend 存算分离架构的设计与实现不仅是当前技术发展的体现,更为未来数据库系统的发展指明了方向。

2024-10-15 11:37:12 1124

原创 Databend 实现高效实时查询:深入解读 Dictionary 功能

在大型系统中,数据通常存储在多个不同的数据源中,例如 PostgreSQL、MySQL 和 Redis 负责存储在线数据,而 Databend 和 ClickHouse 则用于存储分析数据。数据变动导致不一致性在多源数据系统中,数据可能会在不同的系统中以不同的频率和时间点进行更新。例如,在线数据源如 MySQL 和 Redis 可能会实时更新,而分析系统如 Databend 更新频率较低。这种时间差异可能导致数据不一致,分析结果可能与实际在线数据不符。多表 join 操作性能低下。

2024-09-30 15:18:26 920

原创 探索 Snowflake 与 Databend 的云原生数仓技术与应用实践 | Data Infra NO.21 回顾

首先从架构图来简单了解一下 Snowflake。Snowflake 非常充分地利用了公有云本身的一些能力,总体上分为三层:最下层是数据存储层。Snowflake 的数据存储是基于 S3 对象存储实现的,所有数据摄入到 Snowflake 后,会以 Snowflake 自己的方式对数据进行优化、存储。比如说一张大表,有很多数据,Snowflake 会按照一种叫 micro partition 的方式做一个列式、压缩的存储。第二层是运算的执行层。

2024-09-26 17:20:33 1207

原创 Databend 为什么能帮用户降低 90% 成本?

Databend 的存算分离架构、基于对象存储的设计以及高效的数据压缩技术,是其帮助用户大幅降低成本的三大核心技术法宝。通过这些创新技术,用户可以在保证数据处理效率的前提下,大幅减少存储和计算资源的使用,从而实现显著的成本节约。Databend 不仅适用于中小型企业,也为大型企业在处理海量数据时提供了高性价比的解决方案,帮助他们在激烈的市场竞争中脱颖而出。

2024-09-25 15:52:07 798

原创 从 Greenplum 到 Databend,数据仓库的开源新选择

万全网络的迁移过程包括了数据库架构优化、迁移过程的集成与优化、查询优化和性能提升、测试与回退策略以及迁移中的挑战与解决方案。迁移完成后,万全网络在查询性能、数据导入/导出速度、存储效率、用户体验和成本效益等方面取得了显著成果。万全网络团队在 4 个月中,成功完成了整个业务系统的迁移工作,涵盖了 4 个业务线,共计近 500 张表和 600 个任务的迁移任务。万全网络的案例表明,Greenplum 的闭源虽然带来了挑战,但也为 Databend 等新兴数仓供应商提供了机遇。

2024-09-10 15:57:44 1635 1

原创 Databend 产品月报(2024年8月)

很高兴为您带来 Databend 2024 年 8 月的最新更新、新功能和改进!我们希望这些增强功能对您有所帮助,并期待您的反馈。

2024-09-05 16:48:39 1451

原创 Databend Meta-Service 架构概述

Databend 的 meta-service 采用基于 Raft 的分布式架构,实现了高可用性和数据一致性。其核心组件包括分布式日志和状态机,通过精心设计的写入和读取流程,确保了数据操作的可靠性。使用 Raft 日志中的时间戳来提供一致的时钟,解决了分布式系统中的时间同步问题。支持灵活的节点管理和数据更新操作,包括单条数据更新(upsert)和多条数据更新(transaction)。采用全局序列号机制,为实现可靠的比较并交换(CAS)操作提供了基础。

2024-09-03 09:24:42 1461

原创 Kafka 到数据仓库:使用 bend-ingest-kafka 将消息加载到 Databend

JSON模式:此模式解析 JSON 消息并将每个字段加载到目标表的相应列中。它将 Kafka 消息转换为与表模式直接映射的结构化格式。RAW模式:在此模式下,该工具会创建一个包含uuidkoffsetkpartitionraw_data和add_time等列的表。Kafka 消息存储在raw_data列中,并将其他元数据注入到其他列中,从而保留原始消息格式并提供有用的上下文。有关 bend-ingest-kafka 的更多详细信息,请查看README。

2024-08-29 17:19:59 1066

原创 解析云上实时数仓的挑战与实践 | Databend @DTCC 2024 演讲回顾

8 月 22 日 ~ 24 日,由 IT168 联合旗下 ITPUB、ChinaUnix 两大技术社区主办的第 15 届中国数据库技术大会(DTCC2024)在北京朗丽兹西山花园酒店成功召开。本次大会以“自研创新 数智未来”为主题,通过深度交流与探讨,推动数据库技术的自主创新和数智化转型。作为一家技术领先的数据仓库服务商,Databend 也在本次大会亮相。近年来,IT 技术迅猛发展,尤其是大数据领域更是日新月异。

2024-08-29 14:33:05 976

原创 Meetup 回顾:存算引擎一体化建设

在大数据与人工智能时代,数据的生成和存储量呈指数级增长。企业面临着如何高效处理和分析海量数据的巨大挑战。在面对如此规模的数据时,数据库究竟该选择存算一体,还是存算分离架构?如何才能提升资源利用率、扩展性,降低运维成本,这是数据从业者都在思考的问题。在第 20 期 Data Infra 研究社直播活动中,我们邀请到 Databend Labs 联合创始人-吴炳锡、OPPO 存储团队文件系统负责人, CubeFS Maintainer -常亮、OPPO 对象存储研发工程师, CubeFS ObjectSto

2024-08-19 17:30:47 571

原创 在 Confluent Cloud 上使用 Databend Kafka Connect 构建实时数据流同步

Confluent 提供了一个 connector hub,在这里可以找到所有已经内置到 Confluent Cloud 中的 Connector。对于没有内置的,Confluent 支持创建自定义 connector。通过以上步骤,我们就可以在 Confluent Cloud 与 Databend Cloud 之间,使用 Databend Kafka Connector 构建起二者之间的实时数据同步管道。

2024-08-07 09:43:47 809

原创 Databend 开源周报第 156 期

是一款现代云数仓。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。。

2024-08-06 10:23:13 562

原创 生成式 AI 时代的数据库:Databend 与大模型的融合探索

生成式 AI 时代的到来,为数据技术的发展带来了新的机遇和挑战。通过深入融合生成式AI技术,数据库可以在数据存储、处理和分析方面实现更高的性能和智能化。然而,面对数据质量、计算资源、模型解释性和隐私安全等问题,我们仍需不断探索和创新。未来,随着技术的不断进步和应用的广泛推广,生成式 AI 与数据库的融合必将带来更多的可能性和变革。以上就是 Databend 在与大模型融合探索中的一些经验和成果,希望对大家有所启发,欢迎提出问题和讨论。

2024-07-31 12:04:39 1187

原创 Databend 开源周报第 155 期

是一款现代云数仓。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。。

2024-07-30 10:35:19 395

原创 利用 Databend 生态构建现代数据湖工作流

现代数据湖的典型特征之一是能够灵活和高效地利用云上的基础设施,并且使用对象存储作为数据的存储方案。作为一款云原生、湖仓一体的数据管理系统,Databend 基于对象存储进行设计,存算分离的架构进一步匹配云上计算资源灵活调度的模式,现代 MPP 架构和充分的优化能够充分释放算力。

2024-07-25 12:10:32 1021

原创 Databend 开源周报第 154 期

是一款现代云数仓。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。。

2024-07-23 10:47:43 926

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除