- 博客(346)
- 收藏
- 关注
原创 中国大数据交易所:技术探索与应用模式解析
中国大数据交易所作为数据交易的重要平台,正在积极探索和应用新技术,推动数据交易市场的健康发展。数据交易2.0时代将更加注重数据的安全性和隐私保护,同时推动数据交易市场的规范化和规模化发展。在数据交易1.0时代,主要采用交易中介模式、数据分析结果交易模式和数据产品交易模式。例如,通过联邦学习技术,可以实现多方数据的汇聚和应用,而不会泄露数据隐私。中国大数据交易所V1.0提供了一站式交易服务,包括数据合法性鉴别、数据获取、数据商业化等,旨在助力政企打通数据链路,发掘数据商业价值。数据确权是数据交易的重要前提。
2025-05-30 16:17:37
333
原创 云上 ClickHouse 架构实践:弹性经济下的存算分离与性能优化
云上 ClickHouse 通过云原生技术的赋能,实现了存算分离和弹性扩展,有效解决了传统架构下的扩容难题,同时借助云资源的优势,提高了性能和成本效益。在数据接入和处理方面,通过一系列优化方案,使得 ClickHouse 能够更好地适应实时数据分析的需求。随着云计算和大数据技术的不断发展,云上 ClickHouse 有望在更多领域得到应用。未来,可以进一步探索与 AI 技术的结合,提升数据分析的智能化水平;同时,加强在多云环境下的兼容性和管理能力,为企业提供更灵活的部署选择。
2025-05-30 16:14:18
705
原创 网易云音乐实时数仓建设与任务治理实践解析
网易云音乐,作为国内领先的音乐平台,其背后强大的数据平台支撑着每日千亿级别的原始日志处理和1500+实时任务。网易云音乐覆盖了数仓、数据产品、算法、分析师、QA、应用开发等多个领域,服务音乐主站、心遇、直播等所有业务线。这一技术降低了使用门槛,统一了模型,降低了复用成本,同时简化了运维调整。总的来说,网易云音乐实时数仓的建设和任务治理实践,不仅解决了业务发展中的技术挑战,也为行业提供了宝贵的经验。通过这些规划,网易云音乐数据平台将进一步增强其数据处理能力,为用户提供更优质的服务。
2025-05-30 16:02:44
440
原创 网易湖仓一体系统Arctic:设计与实践解析
网易对Arctic的未来规划包括更强的管理能力(如数据湖权限管理、更多的监控项等)、更强的OLAP性能(如支持Sort key、Aggregate key、二级索引等)以及多数据中心、多云的管理。Arctic在开放的数据湖格式之上,提供了更多面向流和更新场景的优化,以及一套可插拔的数据自优化机制和管理服务。网易湖仓一体系统Arctic通过创新的设计和实用的特性,有效解决了大数据开发中的痛点问题。通过Arctic,网易实现了批量分析切换到实时生产,优化了报表响应时间,提高了生产流程的复用性。
2025-05-29 15:38:30
228
原创 基于 Rust 与对象存储构建实时云原生数仓:Databend 的实践与挑战
Databend 基于 Rust 语言和对象存储,构建了新一代实时云原生数仓,在解决大数据分析成本和复杂度问题上迈出了重要一步。尽管面临诸多技术挑战,但通过不断的技术创新和社区协作,Databend 正在成为大数据领域的一股重要力量。随着技术的不断完善和生态的持续扩展,Databend 有望在未来的大数据分析场景中发挥更加重要的作用。
2025-05-29 15:24:59
775
原创 快狗打车实时数仓演进:从痛点到智能化解决方案
快狗打车,作为一家领先的网约车平台,面临着业务复杂度高、流量大、应用场景多等挑战。这些特点使得快狗打车对实时数据的需求极大,同时也暴露出开发时长存在的问题。为了应对这些挑战,快狗打车在实时数仓的建设上进行了深入的探索和实践。
2025-05-29 15:18:54
207
原创 Apache Doris:日志存储与分析的高效解决方案
Apache Doris以其高性能、实时性和易用性,为日志存储与分析场景提供了高效的解决方案。其强大的数据处理能力和灵活的架构设计,使其成为企业在大数据时代不可或缺的数据分析工具。
2025-05-28 15:53:08
283
原创 B 站基于 Iceberg 的湖仓一体优化实践与智能化平台应用
在数据处理领域,湖仓一体架构正逐渐成为解决数据存储与计算难题的关键方案。B 站在这一领域进行了深入探索,基于 Iceberg 构建了高效的湖仓一体架构,并通过智能化管理平台 Magnus 进一步提升了数据处理效率,为企业的数据管理提供了新的思路和实践经验。
2025-05-28 15:42:41
682
原创 快手数据治理平台:元数据驱动的实践与洞察
快手数据平台通过大数据技术,对公司数据统一采集、存储、加工和挖掘,形成高质量的数据资产。本文将深入探讨快手如何通过元数据驱动的数据治理平台,实现数据资产的有效管理和应用。通过全链路元数据构建和查询,快手实现了数据资产的有效管理和应用。其核心在于通过元数据管理,实现数据资产的全链路血缘构建和查询,确保数据的准确性、及时性和安全性。快手数据治理平台的未来规划包括精细化治理价值模型的构建、智能数据质检规则的推荐、智能化任务调度等。快手的数据治理实践展示了如何通过元数据驱动,实现大规模数据资产的有效管理和应用。
2025-05-28 15:17:05
326
原创 字节跳动流批数据质量解决方案深度解析
在当今的大数据时代,数据质量对于企业的决策和运营至关重要。字节跳动作为全球领先的科技公司,其数据质量管理和解决方案具有重要的参考价值。本文将深入解析字节跳动在数据质量管理方面的实践,特别是其流批数据质量解决方案。
2025-05-27 14:43:12
377
原创 CnosDB 2.0:云原生时序数据库的技术实践与创新
CnosDB 2.0 作为一款云原生时序数据库,通过创新的技术架构和设计理念,为企业提供了高性能、高可用、低成本的时序数据解决方案。它在应对传统时序数据库面临的挑战时表现出色,在云原生特性和应用场景方面具有明显的优势。随着 AI 技术的不断融合和开源生态的不断完善,CnosDB 2.0 有望在未来的时序数据库市场中占据重要地位,为企业的数字化转型和智能化发展提供有力支持。
2025-05-27 14:34:21
597
原创 云原生可观测性:融合时序数据库的实践与洞察
在云原生时代,可观测性成为确保系统稳定性和性能的关键。高洪涛,作为Tetrate的创始工程师和Apache ShardingSphere及SkyWalking的核心贡献者,深入探讨了融合时序数据库在云原生可观测领域的实践。
2025-05-27 10:55:02
328
原创 TDengine 3.0:云原生架构的时序数据处理革命
TDengine 3.0以其创新的云原生架构和关键技术,为时序数据处理带来了革命性的变化。它不仅提高了数据处理的效率和性能,还降低了使用成本和复杂性。随着物联网和大数据时代的不断发展,TDengine 3.0必将在时序数据处理领域发挥越来越重要的作用。
2025-05-26 14:47:47
400
原创 快手大数据安全平台建设实践:从挑战到体系化解决方案
目前,快手大数据安全平台已取得显著成果:接入了 30 + 系统,管理千万级资源数,实现百万级授权数,千级日均申请量,覆盖了报表系统、BI 系统、APP 分析、AB 系统、数据同步、数据开发平台等众多应用场景,对 HIVE、DRUID、CK、KAFKA、HDFS 等数据引擎进行了安全管控至。
2025-05-26 14:35:25
948
原创 微盟数据安全落地方案:从账号治理到安全运维
在数字化转型的浪潮中,数据安全已成为企业发展的关键。微盟,作为领先的云服务提供商,其在数据安全方面的实践和策略具有显著的参考价值。本文将深入探讨微盟的数据安全落地方案,特别是其在数据库账号权限治理、数据分类分级与加密脱敏、数据库平台安全管控以及数据库安全运维方面的实践。
2025-05-26 11:31:25
297
原创 货拉拉大数据安全体系建设实践与思考
货拉拉的业务覆盖全国多个城市,拥有庞大的用户群体和复杂的业务线。面对如此庞大的数据量和高复杂度的业务场景,数据安全面临着严峻的挑战。货拉拉,作为一家领先的物流平台,其业务背后有着庞大的大数据支持。然而,随着数据量的增长,数据安全也成为了一个巨大的挑战。本文将深入探讨货拉拉在大数据安全体系建设方面的实践和思考。通过不断的努力,货拉拉希望为用户提供更加安全、可靠的服务。总之,货拉拉在大数据安全体系建设方面进行了深入的实践和思考,取得了一定的成果。为了应对这些挑战,货拉拉围绕数据生命周期构建了全面的安全能力。
2025-05-22 11:04:27
331
原创 分布式事务数据库性能优化:架构解析与实践策略
分布式事务数据库的性能优化需从架构设计、模块协同、监控体系等多维度切入。在选择技术方案时,需根据业务场景权衡模块拆分粒度:互联网高并发场景可优先考虑计算存储分离架构,而金融等对事务一致性要求严苛的场景,融合架构更具优势。未来,随着智能化监控与自动优化技术的发展,分布式数据库将在保证性能的同时,进一步降低运维复杂度,推动企业数字化转型。
2025-05-22 10:06:58
626
原创 Presto在B站的性能优化与实践
随着大数据时代的到来,Presto作为一款高性能的分布式SQL查询引擎,在B站得到了广泛的应用。本文将详细介绍Presto在B站的性能优化实践,包括Presto集群的现状、Local Cache的优化、Index的改进以及后续的工作计划。B站的Presto集群每天处理约30万次查询,每天处理约20PB的数据,拥有超过1200个Worker节点,分布在两个IDC的六个集群中。当前使用的Presto版本为330。总之,B站在Presto的性能优化方面取得了显著的成果,为用户提供更加稳定、高效的查询服务。
2025-05-22 10:01:01
268
原创 SQL优化技术:挑战与未来趋势
其次,编译时优化的限制,如参数化查询,可能导致优化器无法利用运行时的信息。此外,单一执行计划往往无法满足所有查询的需求,缺乏全局视角和计划生命周期管理,以及缺少对异构环境的支持,都是当前优化技术面临的难题。外部优化则涉及改写查询与应用,优化数据库设计(如索引、分区、分表等),及时收集统计信息,调整数据库及应用参数。此外,开务数据库还关注统计信息的收集和利用,以及执行计划的动态调整,以实现全局性能的提升。面对当前的技术挑战,我们需要采取内外结合的优化策略,不断探索新的优化技术,以应对未来数据库技术的发展。
2025-05-21 10:34:55
273
原创 PostgreSQL 性能优化实战:从 SQL 到架构的全维度指南
PostgreSQL 优化是一项系统性工程,需从 SQL 编写规范、索引设计、执行计划调优、架构扩展等多维度协同推进。通过实际案例中的性能对比可见,每一处细节优化均可能带来数量级的性能提升。建议建立常态化的慢查询监控机制,结合业务特性定制优化方案,确保数据库在不同负载下保持高效稳定运行。
2025-05-21 10:21:38
584
原创 广告实时数仓建设实践:从数据应用到未来展望
在数字广告领域,实时数据仓库(数仓)的建设对于提高广告效果和优化营销策略至关重要。本文将基于美团的实际案例,探讨广告实时数仓的建设实践,包括其应用价值、开发规范、质量保障,以及未来的发展趋势。总之,广告实时数仓的建设对于提升广告效果和优化营销策略具有重要意义。通过遵循开发规范、保障数据质量,并不断探索新技术,可以实现更高效、智能的广告投放。实时数仓的开发需要遵循一定的规范,以确保数据的一致性和可靠性。
2025-05-21 10:05:00
146
原创 阿里云数据湖架构解析:湖仓一体与实践应用
阿里云数据湖架构为企业提供了强大的数据处理和分析能力,助力企业实现数据驱动的发展。随着技术的不断进步,数据湖和湖仓一体架构将在更多领域发挥重要作用。
2025-05-20 16:34:07
389
原创 FastData DLink 实时湖仓引擎:架构设计与核心能力解析
在数据爆炸式增长的当下,以 MPP、Hadoop 为代表的传统数据处理方案暴露出显著弊端:技术栈复杂难运维、数据链路时效性差,面对 PB 级数据膨胀时性能大幅下滑,难以满足企业实时智能化需求。在此背景下,滴普科技推出的 F1astData DLink 实时湖仓引擎,通过云原生 + 流批一体 + 湖仓一体的架构创新,为企业构建统一数据底座提供了新范式。DLink 采用分层架构设计,实现存储、计算、服务的解耦与协同:DLink 在开源生态基础上进行深度优化,形成多项核心竞争力:DLink 团队披露未来技术路线图
2025-05-20 16:27:06
615
原创 华为云GaussDB(DWS) 3.0:云数仓的未来趋势与技术解析
GaussDB(DWS)经历了十年的技术沉淀,从行存储、HA机制到分布式框架、数据分区,再到列存储、向量化引擎和大集群通信技术,每一步都是技术上的重大突破。GaussDB(DWS) 3.0的发布,标志着实时数仓、云数仓和IoT数仓等新技术的加入,进一步增强了其市场竞争力。华为云的GaussDB(DWS) 3.0作为新一代全场景云数据仓库,不仅展现了云数仓的未来趋势,也提供了强大的技术支持。总之,华为云GaussDB(DWS) 3.0不仅是云数仓技术的典范,更是未来数据仓库发展趋势的引领者。
2025-05-20 16:18:56
334
原创 Redshift Serverless: 云原生实时数仓的新篇章
Redshift Serverless和基于Redshift的云原生实时数仓架构为企业提供了强大的数据分析能力,它们不仅性能卓越,而且易于使用和管理。随着数据量的增长和实时分析需求的增加,Redshift将继续为企业提供更多的价值。
2025-05-19 14:30:57
185
原创 同程旅行MySQL双中心构建实战:需求拆解到容灾演练的全流程解析
同程旅行 MySQL 双中心建设是一场 “目标驱动、分阶落地” 的技术实践。通过明确业务边界、解耦架构设计与自动化工具支撑,成功实现核心业务容灾能力从 “分钟级恢复” 到 “秒级切换” 的跨越。未来将持续优化底层架构,推动容灾体系向智能化、云原生方向演进,为业务高速发展提供更坚实的数据保障。
2025-05-19 11:24:28
533
原创 TafDB:百度云存储万亿级元数据底座的设计与实践
TafDB的设计和实践面临着多个挑战,包括如何在保证元数据ACID操作的同时避免2PC事务的高额开销,如何在大量删除场景下保证LSM-Tree范围操作的性能,以及如何消除数据流程的单点,提供极致的扩展性和可用性。云存储系统由元数据面和数据面构成,其中元数据面的扩展性直接影响整个存储系统的性能。百度云存储团队通过不断创新,推出了TafDB,一个能够支撑万亿级纪录存储的元数据底座。提升稳定性,打造零运维的存储系统;它的设计和实践不仅为百度云存储提供了强大的元数据底座,也为整个行业提供了宝贵的经验和启示。
2025-05-19 11:10:49
304
原创 FastCFS:百亿级分布式文件系统的架构与实现
FastCFS定位为通用分布式文件系统,适用于多种场景,如MySQL、PostgresSQL、Oracle等数据库,以及k8s、KVM、FTP、SMB和NFS等系统的后端存储。其架构结合了中心和 无中心的特点,采用分组方式,实现了简单高效的服务器分组和数据分组。FastCFS未来的工作计划包括支持集群在线扩容、实现分级存储和slice数据合并,以及支持S3、块设备、NBD等接口方式。FastCFS通过数据版本号、集群动态拓扑信息、多数派机制和特有的公共选举节点,以及幂等机制,确保了数据的强一致性。
2025-05-13 14:35:16
299
原创 可计算存储在数据库场景中的实践与优势剖析
从实际效果来看,随着数据压缩比增加,CSD 的写放大下降、寿命增加、随机读写性能提升,在顺序读写、随机读写和混合读写方面都展现出明显优势,顺序读写最大带宽更高,随机写和混合读写 IOPS 更高,随机写延时更低且更稳定。具体到 MySQL,CSD 透明压缩效率高于其自身的压缩降本方案,能有效降低实际存储成本,提升读写性能。它让企业在数据库应用中,既能享受更长的设备寿命、更高的性能,又能降低存储的总体拥有成本(TCO),无疑是数据库技术发展中的一项重要突破,值得企业在数据存储与计算领域深入探索和应用。
2025-05-13 11:31:35
313
原创 企业级数据存储:高可靠与高效的实现方法
数据量的爆炸式增长、数据类型的多样化以及数据访问需求的实时性,都对数据存储的可靠性和效率提出了更高的要求。本文将探讨企业级数据存储的高可靠与高效实现方法,包括分布式存储技术、数据存储容灾技术、数据存储容灾系统的删冗技术以及数据存储容冗余纠删码技术。通过采用分布式存储技术、数据存储容灾技术、数据存储容灾系统的删冗技术以及数据存储容冗余纠删码技术,企业可以构建一个高可靠、高效率的数据存储系统。同时,随着技术的不断发展,数据存储的未来之路将更加广阔,为企业的发展提供更多的可能性。三、数据存储容灾系统的删冗技术。
2025-05-13 11:22:12
171
原创 TiDB HTAP架构中Delta Tree存储引擎深度解析
TiDB的Delta Tree存储引擎为HTAP工作负载提供了强大的支持,通过创新的设计实现了高速的更新和查询。随着向云原生架构的演进,TiDB在扩展性、可用性和成本效益方面都将得到进一步提升。
2025-05-12 16:27:59
311
原创 探秘云原生数据库 PieCloudDB:eMPP 架构解析与实践优势
同时,它拥有完善的 Postgres 生态,提供友好的用户接口,支持完善的 SQL 标准,并且是云原生云中立的,具备 ACID 特性和完备的事务支持(隔离级别为 RR、RC)。PieCloudDB 致力于成为可靠、高效、简单、完备的 SQL 数据平台,尽管在存储、计算、生态和智能平台等方面仍面临挑战,但凭借其现有的技术优势,已经在金融、医疗等行业得到应用。在存储方面,PieCloudDB 支持公有云、私有云、混合云,支持对象存储(数据共享、存算分离)按需付费,也支持 HDFS、NAS 等。
2025-05-12 15:22:26
359
原创 AnalyticDB MySQL存储引擎深度解析:架构与性能优化
Build过程在AnalyticDB MySQL中扮演着核心角色。它是一种将实时数据合并到历史数据的过程,类似于LSM Compaction,并对数据进行面向查询的建模。Build流程在保证高吞吐写入的同时,也显著提升了查询性能。
2025-05-12 15:04:20
354
原创 Cloud Bigtable在广告技术中的应用与优势
此外,Cloud Bigtable专为大规模消费者互联网应用设计,已在Google的多个全球产品中证明了其卓越的吞吐量和存储能力。本文将探讨Cloud Bigtable在广告技术中的应用,并分析其优势。:Cloud Bigtable作为分布式低延迟用户画像存储,可以快速检索用户所属的细分市场,并根据用户与广告的互动、访问的网站或采取的行动频繁更新。:在广告服务器和容器引擎中,Cloud Bigtable通过其特征服务API提供低延迟、高频率的读写和持久存储,支持机器学习模型的实时预测。
2025-05-09 14:04:38
325
原创 Pigsty:开源RDS替代方案的技术解析
Pigsty是一个开源的数据库发行版,旨在提供开箱即用、自动驾驶的数据库服务。它基于PostgreSQL构建,通过集成现代可观测性技术栈,实现了从裸奔状态的PostgreSQL到全面可观测、高可用、可扩展的数据库服务的转变。Pigsty作为一个开源的RDS替代方案,通过集成现代可观测性技术栈和提供全面的功能,成为开源数据库领域的佼佼者。它不仅具有高可用性、可扩展性和可观测性等优势,还具有显著的成本优势。对于需要高性能、高可用性和低成本数据库服务的企业来说,Pigsty是一个值得考虑的选择。
2025-05-09 11:26:10
506
原创 RapidsDB:全内存分布式数据库助力产业数实融合
随着数字化转型的深入,数据已成为企业核心资产。传统磁盘数据库在面对海量数据和高并发场景时,往往显得力不从心。柏睿数据推出的全内存分布式数据库RapidsDB,以其高性能、实时处理和分布式架构,为企业提供了强大的数据处理能力,助力产业数实融合。RapidsDB的技术创新不仅体现在其高性能和实时处理能力上,更在于其推动产业数实融合的潜力。随着NVM技术的成熟和商用化,内存数据库将在推动产业“数实结合”的道路上,成为中坚力量。
2025-05-09 11:14:09
144
原创 探索多 region 分布式数据库:方案、原理与实践经验
在实现原理方面,YugabyteDB 采用分层架构。逐步上线与迁移过程中,先在重要性较低的服务进行测试上线,在联调环境充分测试通过后,按照开发、联调、演示、生产环境的顺序逐步上线,迁移前准备好详细步骤和注意事项,并在前期环境中确认和补充。持续迭代与应用实现上,要认识到分布式数据库仍在发展,需以发展眼光看待,例如 YugabyteDB 中的 smart driver 经完善后可替代现有 LB 功能,同时在使用分布式数据库时,要注意其与 PG 在架构、使用、SQL 优化等方面的差异。
2025-05-08 10:11:10
816
原创 程序员必备:深入解析数据库原理与实战
数据安全管理涉及备份、加密、脱敏和操作审计等方面,以保障数据的安全性和完整性。数据库的内部结构包括单机模式、分布式架构,以及存储引擎如HEAP、B+TREE、COLUMN-STORE和LSM-TREE。本文从数据库的基本概念出发,深入探讨了数据库的内部结构、设计原则、SQL优化技巧,以及数据传输与安全管理策略。数据库是操纵和管理数据的大型软件,用于建立、使用和维护数据库。通过深入了解数据库的内部结构、设计原则和优化技巧,程序员能够更有效地进行数据库管理和性能优化,从而在实际项目中发挥更大的作用。
2025-05-08 09:28:00
175
原创 MatrixOne 云原生 HTAP 数据库:架构剖析与技术创新
新架构包含 Computation layer、Transaction layer 等多个层次,支持多种功能,如用于分析、流处理、后台任务等的 CN 节点,以及 DN 节点、Log service、File service 等组件,适配多种存储介质,如 Local Disk、NFS、S3、HDFS 等。MatrixOne 由矩阵起源这家数据库创业公司打造,秉持 “超融合引擎、异构云原生、极致的性能” 理念,旨在打破数据边界,助力企业数字化和智能化转型,其开源特性也为开发者社区提供了广阔的探索空间。
2025-05-07 11:34:08
267
原创 开务数据库自治平台:架构解析与应用实践
为了解决这些问题,开务数据库自治平台应运而生,旨在通过自动化和智能化的手段,提升数据库的管理效率和性能。开务数据库自治平台的设计部署充分考虑了应用负载的特点,通过应用负载缓存、应用负载Pseudo Catalog等组件,实现了对应用负载的精细化管理。开务数据库自治平台的核心在于“自治”二字,这意味着平台能够自动地学习、优化和调整数据库的运行状态。通过持续的技术创新和优化,平台有望成为企业IT架构中不可或缺的一部分,为企业的数字化转型提供强有力的支持。
2025-05-07 11:16:42
326
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人