基于 Databend 实现的海量日志实时查询服务 | 多点DMALL

Databend解决海量日志查询:高性能、低成本的替代方案
多点DMALL面临MongoDB存储和查询日志的限制,转向Databend以实现大规模数据的低成本、高性能查询。Databend以其面向云的架构、自动索引和兼容MySQL等特性,成为处理TB级别数据的理想选择,支持实时查询和大单表操作,降低IT成本。

作者:苏琳

多点DMALL 供应链补货团队负责人

多点DMALL 成立于 2015 年。从创立伊始,就致力于以大数据、云计算、AI 等数字技术改变零售业,是一站式全渠道数字零售解决方案服务商,数字化解构重构零售产业,提供端到端的商业 SaaS 解决方案。

多点DMALL 通过 DMALL OS 提供零售云一站式解决方案,帮助零售商和品牌商数字化转型,实现线上线下一体化;同时通过多点 App 等工具赋能全渠道经营能力,并提供各类增值服务。

需求概述

商家要求支持 4 个月的日志查询,目前线上只支持 1 个月。每天日志是 400 万行项,1 个月的日志量是 1.2 亿, 考虑到后续业务的增长,预计每月日志数据量会增长到 2.5亿;4 个月的日志量是 10 亿行项左右。

现采用的 MongoDB 集群因资源受限无法支持 10 亿行项存储及查询,急需寻找另外的解决方案。

Databend 的介绍及优势

Databend 是一个开源的、完全面向云架构的新式数仓,它提供快速的弹性扩展能力,并结合云的弹性、简单性和低成本,使 Data Cloud 构建变得更加容易。Databend 把数据存储在 AWS S3 ,Azure Blob 等这些云上的存储系统,可以使不同的计算节点挂载同一份数据,从而做到较高的弹性,实现对资源的精细化控制。Databend 在设计上专注以下能力:

  • 高性能且部署使用成本低: 在提供更高的性能的同时,部署成本不到传统数据库(MySQL、MongoDB)的 1/10;

  • 支持标准 sql 语法: 能兼容 Mybatits 等常用 ORM 框架,对于研发来说没有任何学习成本。

  • 支持自动索引: 系统会自动对所有字段建立索引;无需研发进行优化。

技术选型

由于 Databend 可以处理海量数据的查询,并且提供了实时查询和处理能力。恰好满足了多点现在所求。基于以上,我们选择 Databend 实现海量日志实时查询的原因包括有以下四点:

1️⃣ 基于对象存储,成本低

SSD 块设备的 1/10;按实际用量付费

2️⃣ 在线查询

无须从冷备中恢复;可接受的查询性能

3️⃣ 支持大单表

TB 级别;分批持续归档

4️⃣ 兼容 TiDB

MySQL 协议;数据类型兼容

使用 Databend 方案

目前使用 Databend 主要是用在计算日志查询场景。

计算任务会将计算日志保存到 MongoDB;然后会通过定时任务,将日志从 MongoDB 同步到 Databend 供页面查询。

图片

基于 Databend 的性能测试

👨🏻‍💻 测试环境

Databend 是计算、存储分离架构

计算节点: 1 * 4C16G100G (费用 70美元/月)

**存储:**使用对象存储,按需付费

👨🏻‍💻 测试表结构和数据样例

1️⃣ 表结构

CREATE TABLE `logs` (
  `tenant` VARCHAR COMMENT,
  `batch_seq` INT COMMENT,
  `order_situations` VARIANT COMMENT,
  `day` VARCHAR COMMENT,
  `shop_code` VARCHAR COMMENT,
  `goods_code` VARCHAR COMMENT,
  `supplier_code` VARCHAR COMMENT,
  `out_supplier_code` VARCHAR COMMENT,
  `out_supplier_type` VARCHAR COMMENT,
  `today_order` INT COMMENT,
  `category` VARCHAR COMMENT,
  `sec_category` VARCHAR COMMENT,
  `thi_category` VARCHAR COMMENT,
  `log_detail` JSON COMMENT
) ENGINE=FUSE

2️⃣ 查询性能

imagepng

👨🏻‍💻 测试总结

在10亿数据量级下,常用查询均可做到秒级响应。

海量日志实时查询服务通用化解决方案

图片

Databend 适用方案

  • 大规模数据查询: Databend 可以处理海量数据的查询。如果你需要对大规模数据进行复杂的查询和分析,Databend 可以作为一个高效的数据湖仓使用。

  • 数据仓库和数据湖: Databend 可以作为数据仓库或数据湖的核心组件,用于存储和管理结构化和半结构化数据。它支持标准的 SQL 查询语言,使得数据分析师和工程师可以方便地进行数据探索和分析。

  • 实时数据处理: Databend 提供了实时查询和处理能力,适用于对实时数据流进行查询和分析的场景。你可以将实时数据流导入到 Databend 中,并通过 SQL 查询语言实时分析数据。

基于遗传算法的新的异构分布式系统任务调度算法研究(Matlab代码实现)内容概要:本文档围绕基于遗传算法的异构分布式系统任务调度算法展开研究,重点介绍了一种结合遗传算法的新颖优化方法,并通过Matlab代码实现验证其在复杂调度问题中的有效性。文中还涵盖了多种智能优化算法在生产调度、经济调度、车间调度、无人机路径规划、微电网优化等领域的应用案例,展示了从理论建模到仿真实现的完整流程。此外,文档系统梳理了智能优化、机器学习、路径规划、电力系统管理等多个科研方向的技术体系与实际应用场景,强调“借力”工具与创新思维在科研中的重要性。; 适合人群:具备一定Matlab编程基础,从事智能优化、自动化、电力系统、控制工程等相关领域研究的研究生及科研人员,尤其适合正在开展调度优化、路径规划或算法改进类课题的研究者; 使用场景及目标:①学习遗传算法及其他智能优化算法(如粒子群、蜣螂优化、NSGA等)在任务调度中的设计与实现;②掌握Matlab/Simulink在科研仿真中的综合应用;③获取多领域(如微电网、无人机、车间调度)的算法复现与创新思路; 阅读建议:建议按目录顺序系统浏览,重点关注算法原理与代码实现的对应关系,结合提供的网盘资源下载完整代码进行调试与复现,同时注重从已有案例中提炼可迁移的科研方法与创新路径。
【微电网】【创新点】基于非支配排序的蜣螂优化算法NSDBO求解微电网多目标优化调度研究(Matlab代码实现)内容概要:本文提出了一种基于非支配排序的蜣螂优化算法(NSDBO),用于求解微电网多目标优化调度问题。该方法结合非支配排序机制,提升了传统蜣螂优化算法在处理多目标问题时的收敛性和分布性,有效解决了微电网调度中经济成本、碳排放、能源利用率等多个相互冲突目标的优化难题。研究构建了包含风、光、储能等多种分布式能源的微电网模型,并通过Matlab代码实现算法仿真,验证了NSDBO在寻找帕累托最优解集方面的优越性能,相较于其他多目标优化算法表现出更强的搜索能力和稳定性。; 适合人群:具备一定电力系统或优化算法基础,从事新能源、微电网、智能优化等相关领域研究的研究生、科研人员及工程技术人员。; 使用场景及目标:①应用于微电网能量管理系统的多目标优化调度设计;②作为新型智能优化算法的研究与改进基础,用于解决复杂的多目标工程优化问题;③帮助理解非支配排序机制在进化算法中的集成方法及其在实际系统中的仿真实现。; 阅读建议:建议读者结合Matlab代码深入理解算法实现细节,重点关注非支配排序、拥挤度计算和蜣螂行为模拟的结合方式,并可通过替换目标函数或系统参数进行扩展实验,以掌握算法的适应性与调参技巧。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值