- 博客(112)
- 收藏
- 关注
原创 酷克数据HashData云端数据仓库蝉联2024年度技术卓越奖
酷克数据始终致力于产品创新研发,最新的 V4.0 版本产品基于全新的理念和代码基准,无论在核心性能、扩展性和弹性、批流一体、湖仓一体和 AI/ML 应用场景的支撑上,还是数据加密、高可用、业务连续性保障等方面,都迎来了诸多重要升级,进一步践行我们的公司理念——让更多用户,以更多方式,分析处理更多数据。此次获奖,是对酷克数据在产品创新能力与成果的高度认可与肯定。未来,酷克数据将继续以用户价值为引领,不懈创新,为用户带来更加高效、安全、可信的数据管理和分析解决方案,我们也期待更多企业与用户加入我们携手共进!
2024-12-26 16:01:00
209
原创 酷克数据携手江西移动入选“星河(Galaxy)”数据库潜力案例
通过与酷克数据的深度合作,江西移动成功实现了数据平台的全面升级,采用 HashData 数据库技术为其信息技术基础设施注入了强大的创新动力。此次升级不仅突破了数据处理、性能优化和业务敏捷性等多个领域的瓶颈,更为江西移动在大数据生态的深度整合和技术创新上奠定了坚实基础。尤其是在支持国产化替代的战略背景下,平台的高性能、高兼容性和良好的扩展性为江西移动的业务转型与发展提供了重要支撑。未来,酷克数据将继续与江西移动携手并肩,推动数据库应用创新发展,积极响应国产化替代的战略要求。
2024-12-20 18:09:27
1086
原创 内核探究 | Apache Cloudberry:如何利用物化视图进行查询改写
在Apache Cloudberry中,我们已经在利用物化视图优化查询方面取得了显著进展,支持了包括复杂计算、聚合和排序在内的多种操作,但仍存在多重功能限制,如复杂的 Join、Window Function 和 Sublink 等尚未实现。未来,我们将继续扩展物化视图优化查询的能力,引入更多高级功能,如聚合操作的开源支持、连接操作的优化、等价类的应用,以及物化视图的快速过滤和更灵活的数据选择能力,更好满足用户朋友们的分析需求。
2024-12-03 15:21:29
1006
原创 官宣:Cloudberry Database 正式加入 Apache 孵化器
Cloudberry 由 Greenplum Database 原始开发者创建,是一款领先且成熟的开源大规模并行处理(Massively Parallel Processing,MPP)数据库。它基于开源版的 Pivotal Greenplum Database® 衍生而来,但采用了更新的 PostgreSQL 内核,并具备更先进的企业级功能。Cloudberry 可以作为数据仓库使用,也可用于大规模分析和 AI/ML 工作负载。
2024-11-29 14:09:06
815
原创 正式开源:从 Greenplum 到 Cloudberry 迁移工具 cbcopy 发布
cbcopy 是一款功能强大的数据迁移工具,支持将 Greenplum 数据库集群(包括元数据和数据)迁移到 Cloudberry 数据库集群,并支持在不同 Cloudberry 数据库集群之间进行数据迁移,从而满足灾难恢复、数据迁移以及特定版本升级等多种需求。cbcopy 具备高度的可扩展性、灵活性和性能优化能力,通过简化迁移流程、缩短迁移时间,cbcopy 助力用户实现业务连续性的最大化,同时降低迁移过程中的风险和成本。
2024-10-31 18:19:31
687
原创 酷克数据参编《金融业数据库创新发展报告》(2024)正式发布
其旗舰产品HashData云端数据仓库作为国内最早实现存算分离的云原生产品,支持极高的横向拓展与并发上限,并具备准事务级的实时性支持能力,为密集数据驱动的金融业务场景提供了卓越的性能支持。报告构建数据库存算分离架构实施路线,并总结金融机构的探索实践经验,为推动金融业数据库架构创新发展贡献力量。因此,开放解耦的存算分离架构,不仅能够根据业务需求实现计算和存储资源的独立扩展,提供灵活的弹性扩缩容计算能力,还能利用存储的高可靠性优势,进一步提升整个集群处理海量数据的可靠性,重新成为数据库场景的架构选择。
2024-10-18 09:56:26
397
原创 酷克数据出席2024金融业数据库技术大会
该项目自2018年投入使用以来,稳定运行6年,期间消除了数据复制作业,减轻了作业压力,减少了数据冗余和硬件资源,缩短了数据使用链路,同时大幅简化了运维工作。同时,如何在确保数据安全的前提下,实现数据的共享与流通,以激发数据的潜在价值,也成为银行业亟需解决的问题。这一过程中,减少了数据的移动,降低了数据安全风险,同时提升了数据质量。针对数字银行4.0时代的挑战,酷克数据旗下HashData云端数据仓库,凭借其先进的数据架构与灵活的处理能力,为商业银行提供了全面的解决方案。
2024-10-17 22:45:45
773
原创 CloudberryDB内核分享:增量物化视图的原理与实现讲解
需要强调的是,CloudberryDB当前版本的增量物化视图(IVM)功能仍存在一定的限制,例如它不支持某些特定函数、复杂查询(例如公用表表达式CTE、子查询、窗口函数)、特定类型的连接(如左连接、外连接)以及分区表。我们期待能与CloudberryDB开源社区共同努力,不断完善这一功能,共同推动数据库技术的发展,相信在未来的版本中,这些限制将得到有效的解决和改进。
2024-10-17 10:41:04
687
原创 IDC 2024未来企业大奖:酷克数据携手中国联通打造湖仓一体平台
项目核心在于平台的自主性与开放性,重点实现湖与仓的融合。以数据湖作为统一存储,基于共享互通的数据组织、兼容开放的数据分析接口和高效的数据缓存能力,为联通各业务提供了高效、便捷的一体化数据加工和分析技术支撑,进一步提升了湖仓一体平台在异构数据复杂查询和超大规模数据处理方面的性能,为中国联通的数字化建设提供了强有力的支撑。展望未来,酷克数据将继续携手中国联通,深耕湖与仓的深度一体融合,打破数据孤岛,促进数据的自由流通与共享,为联通提供更高效、更智能的数据管理和分析服务,共同打造国央企数字化基础建设的先锋力量。
2024-09-18 11:28:00
471
原创 CloudberryDB 内核分享:Directory Table 底层逻辑与实现原理讲解
通过Directory Table我们可以将各式各样非结构化的数据统一纳管起来,并且可以结合酷克数据自主研发的下一代 In-Database 高级分析和数据科学工具 HashML,对存储在Directory Table中的数据进行挖掘学习,为用户提供更进一步的价值。QE拿到这个路径或URL后,会到Tablespace找到对应的Directory Table,然后找到对应的非结构化数据,紧接着给QD返回一个TupleTableSlot,而返回的数据通过Motion的UDP传输方式,保证了传输的可靠性。
2024-09-12 17:44:48
369
原创 活动回顾|首次 Cloudberry Database Meetup · 北京站成功举办
数据仓库解决了数据快速分析的需求,数据湖解决了数据的存储和管理的需求,而湖仓一体旨在无缝集成两者,促进数据自由流动,使用户能借数据仓库之力解数据湖分析之困,并依托数据湖管理能力提升数据价值。Cloudberry Database 通过其高效的 OLAP 查询引擎和 MPP 向量化分布式查询层,为湖上数据提供加速分析,并通过通过引入外部数据包装器(FDW)机制,支持多数据源联邦查询和数据整合,构建统一的数据分析平台,满足了企业对多样化数据处理和分析的需求,为构建企业级湖仓一体数据平台提供了强有力的支持。
2024-08-07 17:50:00
488
原创 首次 Cloudberry Database 社区聚会 · 北京站,8月3日,诚邀
近期 Greenplum源码归档及走向闭源在圈内讨论火热,原有开源用户面临断档风险。作为 Greenplum 衍生版和开源替代,Cloudberry Database 由原厂核心开发者打造,与其保持兼容,并且具备更新内核和更丰富功能。Cloudberry Database 逐渐引起大家的关注,当前越来越多的社区用户正在考虑并选型 Cloudberry Database 作为 Greenplum 开源替代。在和社区成员日常互动过程中发现,大家希望能够线下面对面做交流,这比线上互动更为高效和真实。
2024-07-23 18:22:16
429
1
原创 2024可信数据库发展大会|存算分离架构驱动电信数据平台革新
HashData 基于 In-Database AI 的理念,内置功能丰富的 AI 开发工具箱 HashML,在一套架构下同时提供了面向 SQL 查询分析任务的 MPP 计算引擎和面向机器学习和深度学习任务的 ML/DL 计算引擎,赋能用户在数据查询处理、高级分析、机器学习、深度学习等场景的一站式、多层次融合分析和 AI 能力,帮助企业快速开发大模型等 AI 应用。HashData 利用统一的元数据和存储服务,构建了具有权威性的企业级数据视图,使得多个计算集群能够无缝共享数据。
2024-07-18 17:04:29
1163
原创 HashData通过中国信通院可信数据库评测 入选中国数据库产业图谱
融合云计算技术,提供了自动化运维监控平台 CloudManager,通过对各类云平台资源的统一管理,整合数据库集群的监控、运维、管理等功能,建立统一的数字化管理运维平台,实现图形化、自动化操作,及时、高效应对数据库故障,大幅降低了数据仓库的运维管理成本。真正实现全部数据资产的统一数据平台纳管,建立企业级统一数据视图,融合各种数据平台、数据仓库与数据集市,大幅降低数据治理复杂度,缩短数据加工链路,避免数据冗余,避免数据孤岛,提升业务使用数据的敏捷性。在统一的元数据管理下,酷克数据旗下的企业版。
2024-07-17 14:29:27
723
原创 酷克数据亮相第13届PostgreSQL中国技术大会,获数据库杰出贡献奖
对于每个评估样本,分别执行 Ground-Truth SQL 和生成的 SQL,通过检验生成 SQL 的可执行度和比对查询结果的一致性,判断生成 SQL 的正确性,最终统计整个评估集的准确率。在《PostgreSQL 分布式数据库的开源新选择——CloudberryDB》的主题演讲中,酷克数据联合创始人马涛从技术发展与用户需求的角度,阐述了 CloudberryDB 作为 GP 的衍生版,在保持与 GP 原生兼容和无缝迁移的基础上,如何通过创新工程特性解决 GP 的痛点,并满足新型计算需求和架构下的挑战。
2024-07-13 23:01:17
699
2
原创 PostgreSQL 技术内幕(十七):FDW 实现原理与源码解析
首先,我们需要定义 FdwRoutine。前文提到了 FdwRoutine 主要负责定义外部数据扫描的接口,接口需要自定义实现外部扫描的方法。FdwRoutine 定义。
2024-07-05 09:48:57
1113
原创 PostgreSQL 17 Beta1 发布,酷克数据再次贡献核心力量
在全球开源社区的共同努力下,PostgreSQL已经发展成为一款功能强大、稳定可靠的开源数据库,广泛应用于各行各业。随着本次beta版本的发布,我们看到了PostgreSQL 17在性能优化、功能增强和安全提升等方面的显著进步。酷克数据HashData研发团队饮水思源,通过代码贡献、PG技术讲解等方式,不断以开源精神和技术实力回馈社区。凭借团队对技术创新的不懈追求,酷克数据打造了一款面向分析和AI场景的下一代统一型开源数据库产品CloudberryDB,搭载了PostgreSQL 14.4 内核。
2024-06-05 16:05:22
1161
原创 如何优雅实现存算分离:缓存及Tablespace讲解与演示
存算分离架构将存储与计算分离处理,解决了传统系统紧耦合带来的资源浪费问题,成为行业发展的新趋势。HashData云数仓通过引入缓存层和创新的Tablespace管理,不仅提高了数据访问速度,还实现了更灵活高效的数据存储与管理,为企业数据处理带来了革命性的提升。
2024-05-30 10:48:40
1418
原创 PostgreSQL技术内幕(十六)如何从0写一个执行器算子?
对于常规的查询语句,如简单的数据检索,执行器会生成匿名Portal来快速处理。更为重要的是,它与查询计划链表和查询完成结构紧密关联,这些结构进一步补充了查询执行的上下文,为用户和开发者提供了更为详尽的执行细节。执行器是数据库最重要的模块之一,作为连接查询计划和存储引擎的桥梁,负责从存储引擎读取数据,并基于查询计划树执行对应的算子,得到最终的查询结果。在SQL语句中,除了SELECT、FROM、WHERE、GROUP BY等关键字之外的部分,都可以被认为是某种表达式,例如:a列,a + 1,a * b等等。
2024-05-23 10:02:38
568
原创 携手鲲鹏昇腾 HashData展现云原生数仓创新力量
鲲鹏昇腾开发者大会2024在京举行,酷克数据受邀展示与鲲鹏联合开发的云数仓解决方案。HashData云数仓已完成信创适配,HashML提供一站式AI应用开发服务。酷克数据与国产生态共荣,将打造更智能的云数仓解决方案。
2024-05-10 15:52:54
274
原创 酷克数据启动鲲鹏原生应用开发合作
4月28日,酷克数据与华为签署鲲鹏原生开发合作协议。酷克数据将基于鲲鹏硬件底座开展原生应用开发,面向金融、政务、电信等行业打造云数仓产品解决方案,并发布性能更优的商用软件版本。酷克数据将利用鲲鹏高性能计算能力,提供个性化解决方案,满足各行业数据驱动发展需求。
2024-04-29 17:43:23
609
原创 数据统一高效管理 HashData支撑“数智石油”高质量发展
在2024中国石油石化企业信息技术交流大会上,酷克数据展示油气行业数据管理解决方案。基于HashData云端数据湖技术打造的“梦想云”数据湖,已经服务于中国石油60%以上的油田,为“数智中国石油”高质量发展提供了有力支撑。
2024-04-26 16:17:29
420
原创 HashData获得华为鲲鹏Validated认证 信创版图持续壮大
酷克数据自研企业级HashData云数仓通过华为鲲鹏高阶调优认证,获鲲鹏Validated技术认证书。该产品在TPC-DS测试中表现卓越,实现性能大幅提升。HashData云数仓已广泛应用于信创系统中,为信创场景提供可靠稳定的数据库支撑。
2024-04-23 10:24:03
728
原创 PostgreSQL技术内幕(十五):深度解析PG事务管理和分布式事务
因此,确保事务的原子性至关重要——若任何一个Segment上的数据写入操作失败,整个分布式事务中的其他Segment上的数据写入操作也必须回滚,以保持数据的一致性。然而,在其他尚未完成T1提交的Segment节点上,T2读取到的将是旧的数据值。但是,有一个特例:当前事务自己写入的数据对当前事务是可见的,而其他未完成的事务写入的数据是不可见的。如果事务日志持久化存储到了Wn记录,那么即便是数据库发生故障/断电,重启数据库后,都能从存储介质读取到事务日志,进行恢复记录的操作,确保数据的完整性和一致性。
2024-04-08 14:55:55
1124
原创 HashData的湖仓一体思考:非结构化数据支持(Directory Table等)讲解
接下来,我们来给大家简单讲解下基于Directory Table特性的语料管理技术方案及demo演示。该技术方案旨在为客户提供一个高效、灵活的语料处理平台,核心在于利用Directory Table的特性,实现对各种格式的文档、图片等原始语料的统一存储、处理与管理。以上图为例,首先,原始语料数据(如文档、pdf/docx/html等文件,图片如jpeg/png等格式,以及视频和音频文件如rav4/mp4等)通过Copy工具或dataX工具,被导入到HashData数据库的Directory Table中。
2024-03-26 14:53:50
922
原创 PostgreSQL技术内幕(十四)探索PG的进程与内存管理
PostgreSQL因性能卓越、运行稳定受到欢迎,其多进程架构和内存管理机制为性能和稳定性提供支撑。多进程架构包括守护进程和服务进程,内存管理采用内存上下文机制,避免内存泄漏,提高内存分配效率。
2024-03-15 10:13:18
1527
原创 酷克数据荣获粤港澳大湾区金融创新成果“特优解决方案”奖
酷克数据的HashData云原生金融信创数据仓库入选“第二届金融创新优秀应用案例与解决方案技术成果评定”特优解决方案,成为数据治理与数据平台类目唯一厂商方案。该方案在信创环境下实现云原生部署,解决传统MPP数据库难题,为金融机构提供稳定大数据平台,释放数据价值。服务众多金融机构,并获得多项荣誉。此次获奖验证了HashData方案的技术创新和经济效益优势。
2024-03-08 12:12:22
269
原创 HashData的湖仓一体思考:Iceberg、Hudi特性讲解与支持方案
Hudi、Iceberg作为当前主流的数据湖方案,被众多企业所采用。HashData“湖仓一体”技术方案,打通了数据仓库和数据湖,底层支持多种数据类型并存,能够实现数据间的相互共享,为企业进行数据治理带来了更多的便利性。
2024-03-05 16:09:22
1263
原创 PostgreSQL技术内幕(十三)探究MPP数据库分布式查询分发Dispatcher
Dispatcher(分布式查询分发器)是MPP数据库的核心组件,所有的查询任务都要经过其进行分发,起着沟通用户到协调者和执行调度的关键作用。
2024-02-20 11:56:38
1148
原创 数据访问效率百倍提升 HashData助力中国石油乘“数”而行
中国石油天然气集团公司下属某大型油田向HashData工程服务团队发来感谢信,对其在数字化转型中的表现予以高度肯定。信中提及了HashData在“梦想云”数据湖建设中的核心作用,并表示HashData已服务于中国石油60%以上的油田。
2024-01-29 15:20:06
392
原创 点赞!HashData连续三年获评数据猿“最具投资价值企业奖”
近日,由数据猿和上海大数据联盟共同主办的“第六届“金猿奖”正式揭晓,HashData连续三年荣获“最具投资价值企业奖”,体现了业界对HashData投资价值及发展潜力的持续认可。
2024-01-25 19:27:28
376
原创 HashData湖仓一体方案:方案概览与Hive数据同步
HashData研发的HMS异构数据的一站式查询方案,通过轻量级、简单化的技术架构,降低企业湖仓建设过程中产品选型、数据管理的难度和成本,高效发挥湖仓一体低成本、高可用、易拓展等优势,帮助企业建立统一治理、湖仓一体的云原生数据分析平台。
2024-01-16 15:32:26
1380
原创 Postgres 中文周报:Postgres Weekly 537 期
本周报汇总了关于Postgres的最新动态,包括其荣获DB-Engines网站2023年度DBMS冠军、Postgres17的新增功能、备份工具和开发者工具的更新等。同时,还提到了多个即将举办的Postgres相关活动。
2024-01-12 14:06:16
955
原创 Postgres 中文周报:PostgreSQL 2023 热门回顾
本文在Postgres Weekly 2023 年度回顾文章的基础上,对PostgreSQL过去一年重要活动和技术更新进行了总结,方便读者更全面了解PostgreSQL发展趋势。
2024-01-08 15:50:36
1154
原创 BDTC2023:CloudberryDB开源创新与实践
CloudberryDB支持丰富的数据类型和数仓/AI混合负载,可开展SQL分析、机器学习、全文检索、HTAP等任务,通过数据存储加密、联合⾝份验证等技术手段,帮助企业更方便地自建高效稳定的数据底座。
2023-12-28 16:50:07
1524
原创 喜报!酷克数据携手中移在线入选2023大数据“星河”数据库优秀案例
https://mmbiz.qpic.cn/sz_mmbiz_png/Cr1iaZxXwaHUiaC7CPOfByMLeicqCx0eaA24V9nrpIP6Fib6gzicqWuo3UlWEAlYdnWhsT3z5Nyf8BUKpricUetNgc6Q/640?wx_fmt=png&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1
2023-12-25 17:18:54
1014
原创 创新铸就卓越 HashData再度荣获 IT168技术卓越奖
近日,由 IT168 主办的“2023 技术卓越奖”评选结果揭晓, 酷克数据基于云原生架构打造的HashData云数仓,凭借创新的技术架构、强大的性能表现、行业领先的落地规模,连年斩获数据库行业“技术卓越奖”。
2023-12-21 19:04:14
433
原创 打造绿色计算数智动力 HashData 入选“绿色计算最具价值解决方案”
随着“双碳”战略的不断推进,绿色低碳技术的深度应用将成为各行业可持续发展的核心竞争力。HashData通过自主可控技术创新,赋能数据基础设施构建新范式,加速数据基础设施绿色低碳升级改造。
2023-12-14 18:49:40
137
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人