• 博客(230)
  • 收藏
  • 关注

原创 揭秘大数据 | 17、MPP 那些事儿

Greenplum是业界第一个开源的MPP数据库,对想要实现OLTP和OLAP一体化大数据分析与管理系统的人来说,这是个天大的好消息。例如在大数据分析和处理中,MPP 数据库可以将数据分布在多个节点上进行并行处理,从而提高处理速度和效率。和MapReduce类似,两者都采用大规模并行处理架构对海量数据进行以大数据分析为主的工作,不同之处在于MPP通常原生支持并行的关系型查询与应用(不过这一点,Hadoop阵营也在逐渐通过在HDFS之上提供SQL查询接口来支持查询,甚至包括关系型查询)​。

2025-04-03 18:02:37 223

原创 揭秘大数据 | 16、OLAP 那些事儿

第3个指的是Hadoop的HDFS适用于增加−读取−追加−处理(Create-Read-Append Process,CRAP)类型数据集操作,相对于RDBMS时代的增加−读取−更新−删除(Create Read-Update-Delete,CRUD)类型数据集操作而言,CRAP对已建立的数据集主要为读操作,以及在尾部的添加操作,而不是更新与删除操作,其主要原因是更新与删除操作在分布式系统中通常代价比较高。Hadoop MapReduce是用于分析存储在HDFS之上的大数据的编程框架,它包括库与运行时。

2025-04-02 14:36:05 842

原创 揭秘大数据 | 15、OLTP 的那些事儿

数据中的不同记录可能有不同的属性和格式。当插入数据时,并不需要预先定义它们的模式(如MongoDB,后文中将会介绍)​。NoSQL和传统的关系数据库的对比如图1所示。可以看出,NoSQL数据库无数据清洗,无数据转换,无数据加载,并且在数据存储处进行分析。

2025-04-01 12:15:23 882

原创 嬴图入围银行技术奖总决赛,推动金融科技审计创新​

极大提升了审计工作的效率与质量,精准回应了金融行业数字化转型中对审计服务高效、智能、可解释性的迫切需求,契合金融行业数字化转型中对智能、高效审计服务的需求。近日,金融科技领域再度聚焦于创新力量的角逐,北京/硅谷出身的图数据库领先企业——嬴图,凭借其卓越的技术实力与创新解决方案,成功入围。从英国的荣耀加冕到美国的总决赛入围,嬴图在金融科技奖项领域的持续突破,背后是其对技术研发的执着投入与对行业需求的深刻洞察。,证明了其在图数据库技术与人工智能融合应用方面的领先地位。,通过将复杂的金融交易网络以直观的。

2025-03-31 10:07:23 276

原创 揭秘大数据 | 14、大数据的五大问题 之 大数据应用

大数据所面临的五大问题中最后一个是,这也是大数据问题的具象(最终展现形式)​。如果高度概括大数据的生命周期,那么可以归纳为:大数据来源+大数据技术+大数据应用,如图1所示。三者缺一不可、彼此相承。

2025-03-26 10:29:39 607

原创 揭秘大数据 | 13、大数据的五大问题 之 数据科学

数据科学是一个热门的领域,而数据科学家是拥有特殊技能的专业人才,负责为复杂的业务建模,从海量数据中洞察先知并找到新的商业机遇。它们结合了统计分析、模式识别、机器学习、深度学习等技术,获取数据中的信息,形成推断及洞察力,所采用的相关方法包括回归分析、关联规则(如购物篮分析)​、优化技术和仿真(如用于构建场景结果的蒙特卡洛仿真)​。商业智能的组件及功能如下。图1描述了数据科学的典型流程,涉及原始数据的采集、清洗、基于规则或模型的数据处理与分析、建模+算法、汇总+可视化、决策、大数据产品(可选)等多个环节。

2025-03-25 11:58:08 647

原创 揭秘大数据 | 12、大数据的五大问题 之 大数据管理与大数据分析

以数据库交易为例,要实现ACID,最关键的部分是数据的一致性,通常的做法是通过加锁的方式,在一个读写方对某数据进行读写的时候,让其他读写方只能等待。或者对方没收到,而你的钱被扣掉了(被坑了的感觉)​。构建面向海量信息的大数据管理平台,其本质上是要实现一个可软件定义的数据中心来对下层的基础架构进行有效的管理(存储、网络、计算及相关资源的调度、分配、虚拟化、容器化等)​,以满足上层的业务与应用需求,并通过软件的灵活性与敏捷性实现高的总投资收益率(Return on Investment,ROI)。

2025-03-24 16:13:03 1047

原创 荐读 |《数智金融创新:技术和业务引领的优秀行业实践》——解码金融业数智化转型的实践指南

在数字经济与实体经济深度融合的新时代背景下,金融行业正经历以技术驱动为核心的深刻变革。为助力行业把握转型机遇正式出版。。由广东省粤港澳合作促进会金融专业委员会、粤港澳大湾区金融创新研究院、澳门电子金融产业贸易促进会联合策划,融创平台组编。

2025-03-21 16:47:26 784

原创 揭秘大数据 | 11、大数据的五大问题 之 大数据存储

在这样的背景下,一种新的存储管理模式开始出现,那就是软件定义存储。软件定义存储不同于存储虚拟化,软件定义存储的设计理念与软件定义网络(Software Defined Network,SDN)有着诸多相似之处。软件定义存储旨在开辟一个如下的新世界。(1)把数据中心中所有物理的存储设备转化为一个统一的、虚拟的、共享的存储资源池,其中存储设备包括专业的SAN/NAS存储产品,也包括内置存储设备和DAS。这些存储设备可以是同构的,也可以是异构的,还可以是来自不同厂商的。

2025-03-20 15:13:15 1080

原创 揭秘大数据 | 10、大数据不只是Hadoop

2020年以前这种论调在业界颇有市场,尤其是在国内市场(尽管美国市场在2019年就有人提出了“Hadoop已死”的论调)​。因为Hadoop真的很火爆,所以尽管许多人并不清楚Hadoop到底是什么、可以用来做什么,只是看到了行业的头部企业使用了基于Hadoop的系统,于是中小型企业也一窝蜂地要使用基于Hadoop的系统处理大数据相关业务。在这种跟风的市场氛围下,如果某种大数据技术和Hadoop不沾边儿,那么客户、投资人甚至企业自己的团队成员都有可能会对该技术的前景持迟疑态度。

2025-03-18 17:12:26 895

原创 揭秘大数据 | 9、大数据从何而来?

在科技发展史上,恐怕没有任何一种新生事物深入人心的速度堪比大数据。如果把2012年作为数据量爆发性增长的第一年,那么短短数年,大数据就红遍街头巷尾——从工业界到商业界、学术界,所有的行业都经受了大数据的洗礼。从技术的迭代到理念的更新,大数据无处不在。时至今日,在日常的生产生活中,每时每刻都有数以亿计的设备在产生巨大体量的数据……

2025-03-17 17:34:52 766

原创 专家观察 | AI价值链条:价值导向分析

应广大读者要求,现将在天奕TGES专题讲座金融人工智能发展、Deepseek应用与分享管理的内容进行全文分享。期待与大家进行更多的交流与探讨 。【全文整理如下】分享主题:AI价值链条:价值导向分析当下 AI 价值链条,其实是个倒三角形结构,见下图所示。底层是硬件提供商,在全球范围内,硬件提供商数量极少,由少数寡头掌控;第二层是云和基础设施的厂商,同样,这类厂商在全球的数量也相当有限;第三层是各类 AI 组件、工具、应用的开发商。这一层数量增多,众多 AI 创业公司以及大模型厂商都涵盖其中,部分厂商业务可横

2025-03-14 11:39:40 682

原创 揭秘云计算 | 8、云服务与产品的演进

了解云计算服务、产品与解决方案的演进历程可以从服务提供方或需求方入手。对于某些用户而言,提供远程桌面、瘦客户端(取代现有PC主机、笔记本电脑)是日常办公云化的第一步;而对于其他用户,特别是一些对于流程较注重的公司而言,他们可能会从购买SaaS化的办公自动化系统、CRM或ERP系统入手。研发型机构或IT公司接入云的方式则更有可能是直接购买虚拟化的IaaS资源,如云主机、云数据库服务等。

2025-03-12 17:37:26 1058

原创 图库 | 基于图增强的智慧审计系统革新

4、白盒化、可解释:区别于传统的复杂SQL代码查询的黑盒化问题,以及深度学习、人工智能算法中常见的黑盒化、不可解释性等问题,图数据库中的查询、算法整体的特点是计算(查询)的结果基本上是确定性的,每一步都是可解释、白盒化的。,三者相辅相成:在数据建模上,能够构建高维、可解释性强的图谱,清晰展现数据间复杂的关联关系;基于图增强技术的智慧审计系统通过对传统审计模式的革新,实现了算力的提升、效率的飞跃和准确性的增强,为金融机构在复杂多变的市场环境中提供了更为强大、精准的审计支持,助力其有效防范风险,实现稳健发展。

2025-03-07 10:27:43 1027

原创 图数据库 | 25、如何优化图系统?

在K邻查询中,有6个场景分别测试1、3、5层在无过滤和有过滤条件下查询操作的平均时延,因为测试数据集(alimama)属于连通度较高(E/V≥20,即点边数量比)的图集,在进行5度查询时,从每个顶点出发几乎会遍历全图,计算复杂度上升,这个时候Neo4j会骤然从3-Hop的平均400ms(无过滤)​、275ms(有过滤)时延到10~30min内无法返回结果,而Ultipa系统则从14~17ms的耗时增长到558~791ms(理论上从3-Hop到5-Hop的计算复杂度变化为O((E/V)2)≈400)​。

2025-03-04 12:29:53 639

原创 图数据库 | 24、如何进行正确性验证?

在更复杂(更深度)的查询中,可以用类似的逻辑,通过层层的抽丝剥茧来验证结果的正确性。在Twitter数据集中,任意两个顶点间的杰卡德相似度计算的复杂度和被查询顶点的1度邻居的个数直接相关,以顶点12、13为例,它们都是典型的有百万邻居的“超级节点”​,在这种情况下,手工验证结果的准确性并不现实。面向高维数据的操作:这也是本书关注的重点,例如面向全图或子图数据的查询结果返回多个顶点、边组合而成的高维数据结构,可能是多顶点的集合、点边构成的路径、子图(子网)甚至是全图遍历结果。

2025-02-27 17:41:15 795

原创 图数据库 | 23、如何评测图系统 — 评测内容?

图增强智能、白盒化与可解释性,建模过程完全可以透明化作为一种通用的底层系统,它向客户提供的应该是优越的算力、白盒化的算法,而不是黑盒化的模型和算法图系统评测内容并没有所谓的标准答案,但是会有一些典型的测试内容及流程,本节主要向读者介绍这些内容与具体步骤,以供借鉴。评测内容一般可分为9个部分:构图(建模)能力;数据的导入、导出能力;元数据处理能力;深度查询能力;图算法能力;二次开发支持;可视化支持;系统安全性;运维支持能力。图数据库建模能力、建模复杂度、灵活性等;

2025-02-26 18:33:54 987

原创 图数据库 | 22、如何评测图系统 — 评测环境?

图系统的评测是验证系统功能与能力很重要的一环。一般而言有三大评测途径:自评、偏学术(公益、标准化)类型组织的评测和工业界的内部评测。自评是每一个图系统构建者一定需要反复进行的工作,只有经过全面的自评才能查漏补缺、知己知彼,不过因为缺乏第三方的检验,很多自评结果容易受到质疑,如准确性、公平性、全面性等;学术类型组织的评测在海外有LDBC(Linked-Data Benchmark Council)​、加州大学伯克利分校的GAP Benchmark等机构,在国内有大数据信通院等机构;

2025-02-24 11:14:08 932

原创 札记分享 | 建模流水线的七道工序

知行合一致良知,终身学习实践,更新知识框架与认知范式,运用唯物辨证法等方法论持续提升,“苟日新,又日新,日日新”,人们的正确应对之道。逝者如斯夫,不舍昼夜。常有人将数据比做内燃机时代的“原油”,电气时代的“电力”,但是否有人想过:如果单位数据量的生产成本不能显著降低,就算质量得以保证,但仅靠实验室制备的涓滴汽油或电荷,是无法为算力与算法提供强大动力的;我的体会,“健识”就是要求我们知行合一致良知,终身学习实践,更新知识框架与认知范式,运用唯物辨证法等方法论持续提升,“苟日新,又日新,日日新”,方近乎道矣。

2025-02-17 11:11:12 930

原创 图观 | 马斯克追查资金流向难题,图技术究竟如何神助攻?

在大洋彼岸,马斯克领导的政府效率部团队(DOGE)利用先进技术对资金流向进行地毯式排查,从政治献金的数据关联,到游说活动的信息披露,从承包商企业的股权结构穿透,到政府支出明细与联邦采购数据的梳理,甚至对军商之间的可疑往来、上层隐秘的利益交换网络,都展开了深度调查。“图” 技术擅长处理复杂关系、深度挖掘穿透,突破传统追踪局限,实力非凡。此前在麦道夫庞氏骗局中,它协助银行找回隐匿 20 年的资金,揪出关键人物 Picower,迫使其遗孀归还 72 亿美元赃款,成金融反欺诈佳话。以下为图技术实现路径。

2025-02-17 10:37:47 927

原创 图数据库 | 21、无深度,不成图!

例如,100亿的数据是热数据,1000亿的数据是温数据,9000亿的数据是冷数据。简而言之,很多所谓的千亿、万亿规模图,实际上实体的规模仅有不到10亿,大量的实体都应该作为点、边的属性存在,并且大量的边都是“无效边”​(有的图数据库仅支持单边图模式,例如两个用户账户之间会存在多笔交易,但是每笔交易无法以边的形式存在,只能用顶点来表达交易,进而需要在交易顶点与账户顶点间形成2倍的边,这种单边图就会形成3倍数量的点边集合)​。容量规划的另一个误区,就是对于实际可能需要构建的图的规模的误判。

2025-02-10 15:20:54 603

原创 图数据库 | 20、如何规划、评测和优化图系统(上)

但需要指出的是,单边图是多边图的一种特例,用多边图可以实现单边图的效果,反之则不然。关于数据建模,老夫在前面的文章中多次提及,图系统的数据建模通常有不止一种方式,甚至可以说在多种建模方式中去探寻数据之间的关联关系,可以做到“条条大路通罗马”​,然而,每条路到罗马的时间、难度、消耗可能是千差万别的。很明显,工业界的图数据是动态的、异构的,数据实体间的关联性是多样的,哪些数据可以作为实体,哪些可以作为边,甚至哪些可以作为点或边属性都是可以随着业务的需求而变换建模的思路来更好地解决业务的挑战。

2025-02-08 11:15:21 1072

原创 揭秘云计算 | 7、云服务与产品的演进历程

了解云计算服务、产品与解决方案的演进历程可以从服务提供方或需求方入手。

2025-01-20 15:15:29 506

原创 图数据库 | 19、高可用分布式设计(下)

本篇文章对分布式图数据库系统中最复杂的一类系统架构设计进行探索,即水平分布式图数据库系统(这个挑战也可以泛化为水平分布式图数据仓库、图湖泊、图中台或任何其他依赖图存储、图计算及图查询组件而形成的系统)​。

2025-01-17 18:54:07 922

原创 图数据库 | 18、高可用分布式设计(中)

分布式共识系统,特别是分布式共识算法就由此应运而生,被用来保证即便在分布式系统中出现了各种各样的问题,但是整体服务依然可以保持在线。

2025-01-16 15:52:25 1481

原创 专访 | 图数据库市场的嬴图,“不可能三角”的六年闭环之路

嬴图的成绩单熠熠闪耀。嬴图创始人兼CEO孙宇熙向雷峰网(公众号:雷峰网)回顾嬴图的成长历程,感慨完成产品“不可能三角”的闭环并不容易。从0到1,嬴图如何在图数据库市场中打出自己的名声?已经是第四次创业的孙宇熙,这些年对数据库市场又有何观察?

2025-01-15 14:58:29 725

原创 沸点 | 聚焦嬴图Cloud V2.1:具备水平可扩展性+深度计算的云原生嬴图动力站!

​嬴图正式推出嬴图Cloud V2.1,此次发布专注于提供无与伦比的用户体验,包括具有水平可扩展性的嬴图Powerhouse的一键部署、具有灵活定制功能的管理控制台、VPC / 专用链接等,旨在满足用户不断变化需求的各项前沿功能!​

2025-01-13 14:57:53 690

原创 揭秘云计算 | 6、云计算最佳实践五原则

云计算是一门典型的实践主导的工程学,它是一直随着业务需求、应用场景、市场热点,甚至新老技术交替而不断变化的。形成良好的机制来重新评估现有云战略、战术,并及时调整和更正留存的问题是所有云计算的拥抱者应当具有的正确姿态。

2025-01-10 14:49:26 995

原创 图数据库 | 17、高可用分布式设计(上)

从某种程度上看,这样的系统进行了高度的冗余化设计,至少在写入操作的时候……

2025-01-03 18:24:34 1114

原创 图研院 | 掌握前沿图技术,从 “Graph XAI” 课程起航

“Graph XAI” 课程由国际图专家、学者及嬴图创始人孙宇熙教授亲授,含初、高级视频课程,适配多元人群,传授源自前沿图数据库企业的实战知识,助学员掌握图技术,开启进阶之旅。

2024-12-27 18:21:08 242

原创 图数据库 | 16、可扩展的图数据库设计(下)

上篇内容老夫着重介绍了垂直扩展的可能性,今儿咱们就重点聊聊水平扩展的意义和优劣吧。

2024-12-19 16:17:42 870

原创 图数据库 | 15、可扩展的图数据库设计(上)

和所有其他类型的数据库一样,可扩展的图数据库是图数据库发展的必然阶段。单机(单实例)所能承载的最大数据量、吞吐率、系统可用性显然是有限的,也正是这种限制,几乎所有的新型数据库系统都会把扩展能力,特别是通过多实例形成的水平集群扩展能力,作为一个重要的能力衡量指标。这也是分布式数据库方兴未艾的核心原因。在探讨可扩展的图数据库设计时须明确一点,只有在垂直扩展没有可能的时候,才开始追求水平可扩展系统的构建与迭代……

2024-12-16 11:38:40 801

原创 Connected Data London 2024 聚焦:嬴图如何重塑图数据库行业格局?

嬴图参加Connected Data London 2024

2024-12-13 10:29:59 289

原创 图数据库 | 14、图查询与分析框架设计

在图数据库的查询与分析框架中有两个重要组件:一个是图数据库的查询语言,另一个是可视化组件,例如通过查询语言便捷地表达面向数据的深度下钻能力。以上特性对图数据库的查询与分析框架的设计提出了新的挑战,也是关系型数据库SQL所难以实现的。

2024-12-10 15:44:25 819

原创 图数据库 | 13、图数据库架构设计——高性能计算架构再续

如何对大图分区(分片)?高可用性及可扩展性怎么搞? 故障与恢复怎么弄? 接续昨天的话题,咱们继续往下展开!

2024-12-05 18:24:58 1125

原创 图数据库 | 12、图数据库架构设计——高性能计算架构

老夫认为,图数据库所要解决的核心问题并非存储而是计算。

2024-12-04 18:43:53 1268

原创 揭秘云计算 | 6、如何建云?云计算最佳实践五原则

兵法云“知己知彼,百战不殆”​,今儿咱先聊聊云计算最佳实践的五个原则!

2024-12-03 18:54:19 1192

原创 文库 | 从嬴图的技术文档聊起

一份优秀的技术文档犹如精准的航海图。它是知识传承的载体,是团队协作的桥梁,更是产品成功的幕后英雄。然而,打造这样一份出色的技术文档并非易事。

2024-12-02 18:54:08 938 1

原创 图数据库 | 11、图数据库架构设计——高性能图存储架构(下)

本篇文章咱们着重聊聊高性能存储架构的设计思路!!

2024-12-02 14:58:01 1307

原创 图数据库 | 10、图数据库架构设计——高性能图存储架构(上)

今儿我们先聊高性能存储架构,严格意义上说任何数据库都需要存储引擎,它承载着数据持久化的职责。

2024-11-29 16:08:48 1301

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除