- 博客(220)
- 收藏
- 关注
原创 论文导读 | 基于学习的查询优化器,真有那么好吗?
查询优化是数据库系统中的核心问题。给定一个SQL查询,传统的基于代价的优化器(Cost-Based Optimizer, CBO)枚举所有可能的执行计划,并利用代价估计模型估计不同执行计划的代价,从中选出代价最小的计划,交给执行器执行。然而,在庞杂的计划空间中估计每个执行计划的代价绝非易事,传统方法往往产生巨大的误差,进而导致次优甚至灾难的计划被执行。Viktor Leis 等人的实验研究 [1] 表明,随着查询中连接数的增加,传统的基数估计算法的误差逐渐增大,甚至有若干数量级的误差(如下图)。
2025-06-24 14:29:43
412
原创 公开课程 | 大规模图数据管理与分析 开讲啦!
本书内容包含了邹磊教授在北京大学研究生相关课程中多年的教学实践和同学们对课程的反馈,我们特别希望读者能通过本书掌握用图模型抽象和解决实际问题的能力,从而应对真实场景中的数据管理与分析的挑战。在此背景下,《大规模图数据管理与分析》这本书从图数据的基础理论出发,系统梳理不同学科,包括数据库、机器学习、计算机系统等不同学科视角下图数据研究的核心问题。本讲在回顾图数据的基本概念的基础上,重点从数据管理与分析的角度阐述了图数据的重要性和难点问题;近年来,图数据研究已成为计算机和人工智能领域的共同关心的话题。
2025-06-24 14:25:53
364
原创 论文导读 | 动态图存储与事务处理系统总结
然而,随着图数据规模的不断扩大和更新频率的增加,如何高效地存储和更新图数据,同时支持复杂的事务处理,成为了一个亟待解决的问题。GTX的无锁图存储结构和自适应增量链锁定协议显著提高了事务的吞吐量,同时保持了较低的延迟。实验结果表明,Spruce在图更新和查询操作方面均表现出色,相比其他先进的动态图存储系统(如Sortledton和LiveGraph),Spruce在吞吐量和延迟方面均有显著提升。GTX通过设计一种无锁的图存储结构和自适应的增量链锁定协议,消除了顶点级锁定争用,适应了现实世界中的工作负载。
2025-06-04 15:34:20
682
原创 WWWJ 2025 | DySpec:基于动态令牌树结构的快速推测解码
北京大学数据管理实验室熊云帆硕士关于推测解码优化问题的论文《DySpec: Faster speculative decoding with dynamic token tree structure》的论文被WWWJ25接收。
2025-06-04 15:32:02
942
原创 论文导读 | 连续查询的自适应连接顺序选择
本次论文导读介绍深度强化学习的综述Deep Reinforcement Learning: A Survey,介绍深度强化学习的各种方案。
2025-06-04 15:28:16
441
原创 论文导读 | 子图匹配最新进展
子图匹配问题是图算法领域经久不衰的研究问题,它是图分析系统的基石。该问题定义为:给定数据图G和查询图Q,找到G中所有与Q匹配的子图。下图展示了一个子图匹配的例子。查询图Q存在两个匹配。子图匹配算法一般分为 3 个步骤,分别是过滤,搜索顺序生成以及匹配枚举。其中过滤过程会通过特定的过滤规则获得每个查询节点的候选集。接着算法会根据查询图拓扑结构以及一些估计技术生成搜索顺序,用于指导枚举过程。最终,枚举过程搜索出所有的匹配。
2025-06-04 15:26:24
1211
原创 DASAFAA | ShareDP: 为多个顶点对寻找 k 条不相交路径
北京大学数据管理实验室袁知秋关于多点对独立路径搜索问题的论文《ShareDP: Finding k Disjoint Paths for Multiple Vertex Pairs》的论文被DASFAA2025接收。
2025-06-04 15:21:57
818
原创 论文导读 | 区间数据管理
在很多应用场景下需要处理和管理区间数据(interval data)。一个区间由其起点start和终点endstartend(需要start≤end例如在时序数据库(temporal database)中,每条记录(tuple)除了记录其原有信息,还额外存储了其有效期(valid time),其有效期就可以用一个区间的集合表示。再例如有时为了保护隐私,也可以用区间来代替具体的数值。下面的介绍中,统一采用时序数据库场景,每个区间代表了一条元组的有效期。q。
2025-06-04 15:19:42
1030
原创 论文导读 | 向量数据库中的关键技术及代表性工作简介
目前,向量数据库市场正处于百家争鸣的发展阶段,各类从支持泛用场景和海量数据到针对特定领域应用优化的向量数据库产品层出不穷,而现存的传统关系型数据库和NoSQL数据库也摩拳擦掌,纷纷下场,推出了对向量检索的支持。因此,本章节将简要介绍目前常见的向量数据库解决方案。
2025-04-14 15:09:40
1368
原创 SIGMOD2025 | 连续查询的自适应连接顺序选择
北京大学数据管理实验室叶心怡博士关于连续多表连接查询的连接顺序选择的论文《AJOSC: Adaptive Join Order Selection for Continuous Queries》的论文被SIGMOD2025接收。随着互联网和社交网络的快速发展,出现了连续多表连接查询这种新的查询变体。它要求随着数据库以流式方式更新而持续监控查询结果。如下图所示。然而,现有的连续多表连接顺序选择方法大多基于启发式策略,可能无法选择出最高效的连接顺序。
2025-04-14 15:08:13
847
3
原创 论文导读 | 多模态大语言模型中的幻觉
背景多模态大语言模型(MLLM)以大语言模型(LLM)为基础,能同时处理图像与文本等多种模态的信息。凭借强大的语言推理能力,MLLM在视觉问答、图像描述等任务中展现出了卓越的性能。然而,现有模型经常会出现幻觉(hallucination),即生成看似合理却并不正确的回答或描述。现有的MLLM幻觉原因主要可以分为两类,其一是模态偏差(bias),指模型可能出现“只依赖文本”或“只依赖图像”的倾向,从而忽略了对另一模态关键信息的理解;其二是理解能力不足,指模型没能理解某模态的内容,导致做出错误推理。
2025-04-14 15:04:05
668
原创 论文导读 | 基于GPU的子图匹配算法
本文从不同策略角度对现有基于GPU的方案进行了深入的对比和总结。在每一类优化策略上对不同的技术方案进行了分析。本文旨在总结过往工作中的优点与不足,为后续工作提供研究方向的启示。
2025-04-14 15:03:07
913
原创 论文导读 | 时序链接预测
欢迎关注北京大学王选计算机研究所数据管理实验室微信公众号“图谱学苑“定理:函数正定(以及其他要求)->可以写成某随机变量的某期望。- 将和其他编码拼接起来(增加维度)代码实现中H含义略微不同,但是等价。时间编码方式在本节末尾介绍。同GraphMixer。
2025-04-14 14:58:48
559
原创 高被引论文 | 知识图谱质量控制综述
近年来的嵌入表示学习方法,如平移距离模型、张量分解模型、神经网络模型等,通过将知识图谱中的实体和关系映射到低维稠密向量并保持其结构和属性特征,可用于链接预测、实体分类、三元组分类等任务以解决知识图谱的完整性问题,是进行知识图谱质量控制的一种重要手段。这篇文章对知识图谱质量控制问题展开了广泛的综述,内容不仅包括质量控制的基本概念如问题、维度和指标,也涵盖了质量控制从评估、问题发现到质量提升的全流程,对不同工作中提出的方法,按照多个维度进行分类。因此,近年来有越来越多的工作研究专用于知识图谱的质量控制方法。
2025-04-14 14:56:33
907
原创 论文导读 | 异构图神经网络
近年来,图神经网络(Graph Neural Networks, GNNs)已成为图挖掘研究的核心,研究人员开始关注其在异构图方面的潜力。异构图由多种类型的节点和边构成,且带有不同的辅助信息,这将新颖有效的图学习算法与嘈杂复杂的工业场景(如推荐系统)联系起来。在异构信息网络中,各类节点的嵌入空间通常不同。不同节点对之间以及相同节点对之间,都存在着各种各样的关系。
2025-04-14 14:54:59
1354
转载 大规模图计算与智能系统——第十四期CCF秀湖会议报告 | CCCF精选
以下文章来源于中国计算机学会,作者中国计算机学会秀湖会议的与会专家围绕“大规模图计算与智能系统”主题,深入探讨了图数据管理、图机器学习算法及图计算系统的关键挑战和研究方向。图数据具有强大的建模能力,适合于描述复杂的关联关系。推动图技术与大模型的融合,将为多领域的科学发现和应用开辟新的机遇与挑战。背景与意义“图”作为支撑知识图谱、大数据融合、网络通信、金融风控等应用的基础数据模型,在越来越多的应用中被用来表达实体之间的复杂关联关系。工信部《“十四五”软件和信息
2025-01-08 17:10:45
282
原创 论文导读 | 大语言模型推理框架框架以及大语言模型幻觉的一些研究
本次分为两个部分。第一部分介绍一个目前很火的大语言模型新的推理框架SGLang。第二部分分享一些大模型推理幻觉的一些研究工作。
2025-01-08 17:08:38
1288
原创 论文导读 | 数据库中的连接操作
在关系型数据库中,我们通常面对以下问题: 给定一个数据库实例II,包含若干关系(表)RR1R2⋯RnRR1R2⋯Rn和属性集合Aa1a2⋯amAa1a2⋯am,如何高效地计算连接结果QR1⋈R2⋈⋯⋈RnQR1⋈R2⋈⋯⋈Rn?在这个问题中,我们仅考虑等值连接。
2025-01-08 17:07:38
821
原创 论文导读 | 可串行化事务机制
如图A是一个对数据A/B的操作序列。尽管一个事务内的操作顺序是固定的,但当有两个事务同时执行的时候,两个事务各自的线程(亦或是其他模型)的抢占调度不定,因此不同操作交叉的执行顺序是无法确定的。这种操作的执行顺序被我们称之为Schedule。例如图B和图C就分别是两个相同的图A事务的Schadule。由此,我们有了下面这些定义。可串行化隔离是指多个事务并发执行的结果等价于这些事务以某种顺序串行执行的结果。换句话说,即使事务并发执行,其最终效果也应与某个特定的串行调度相同。
2025-01-08 17:03:54
711
原创 论文导读 | 数据库系统中基于机器学习的基数估计方法
基数估计任务是在一个查询执行之前预测其基数,基于代价的查询优化器(Cost Based Optimizer)将枚举所有可能的执行计划,并利用估计的基数选出期望执行代价最小的计划,从而完成查询优化的任务。然而,传统的基数估计方法,例如PostgreSQL基于直方图(Histogram)的方法,往往采用简单的独立性假设、均匀假设,用有限的统计信息来预测查询的基数,导致了较大的基数估计误差。事实上,现实中的数据是复杂的、富有关联的,传统的基数估计方法往往不能刻画数据的复杂分布,产生巨大的基数估计误差从而诱发大量的
2025-01-08 17:01:10
1073
原创 论文导读 | 利用查询间信息优化子图匹配
通过查询之间的信息优化子图匹配有类似的模式:算法会检测查询的公共模式,并缓存这些公共模式的查询结果。当算法处理相似的查询结果时,就会复用缓存结果来加速查询。但是,这三篇工作的各个部分采取的方法基本上都不一样。我认为这是因为这三篇工作利用了不同的查询信息来进行查询优化。而我认为处理查询时还有更多值得挖掘的信息可以优化后续查询(例如:匹配顺序)。另一方面,通过查询之间的信息优化子图匹配涉及多个查询,在查询引擎中,处理多个查询往往会启动多个线程。
2025-01-08 16:57:41
1256
原创 论文导读 | 基于图机器学习的子图匹配算法研究
纵观使用图神经网络优化子图匹配方法的相关工作,本文作者发现其存在两点不足:其一,与传统方法的比较中,考虑的因素不够全面,比较不够公平。现有方法比较的传统方法绝大部分是运行在CPU端的方法,甚至是单线程实现的方法,而基于机器学习的方法需要使用GPU进行训练,同时在推理过程中有不同程度的并行计算优化,而这部分并发化带来的提升在实验中没有得到很好的体现。基于机器学习的方法投入了十倍的算力成本,但并不能保证带来十倍以上的性能收益。
2024-10-30 16:35:02
1848
原创 论文导读 | 关于最新子图匹配的综述和实验研究
子图匹配(Subgraph Matching)是图模式挖掘算法中的一个热点研究问题,其旨在一个数据图中挖掘出所有与给定查询图同构(或同态)的子图。目前大多数的子图匹配工作都是在顶点带标签的无向图上对子图同构进行研究。由于子图匹配问题是一个NP-hard的问题,因此当数据图的规模很大或查询图的顶点数目很多时,子图匹配算法的效率会大打折扣。为了提高子图匹配算法的效率,现存的子图匹配算法从过滤候选、生成有效的匹配顺序和加速枚举过程等多个角度对子图匹配进行优化设计,提出了许多行之有效的优化方法。
2024-10-30 16:30:10
2311
原创 论文导读 | 大模型幻觉的检测与消除
本次论文分享围绕大模型幻觉的检测与消除中的分类器、不确定性度量、模型的评价能力共三个方面进行了调研与整理。对于未来的研究方向,笔者认为,在训练中可以通过知识图谱等可信知识源批量生成高质量数据,以及设计相关算法排除低质、有害的数据,防止幻觉通过训练引入大模型。在推理过程中则应当研究更为鲁棒的推理机制,在检索生成、思维链、辅助代码等基础上提出更为复杂的融合策略,提升大模型的可信度。
2024-10-30 16:28:09
1777
原创 数据科学——一个系统的探讨
文末附M. Tamer Özsu教授《Introduction to Data Science》讲座视频本文的目的是提出一个内在一致和连贯的数据科学观点。在科学和社会领域,一场以数据驱动的革命正在进行,颠覆着各种形式的企业,因为我们收集和存储数据的速度比以往任何时候都要快。数据作为一个组织的核心资产的价值观已经被确立,并被普遍接受。《经济学人》()称数据是“世界上最有价值的资源”。世界经济论坛简报《数据业务新范式》()指出:“数字经济和社会的核心是洞察力、情报和信息数据的爆炸式增长。
2024-08-21 17:29:15
1245
原创 北京大学gStore团队入选《中国数据库产业图谱(2024年)》
7月16日,2024可信数据库发展大会主论坛在北京成功召开,并在会上正式发布《中国数据库产业图谱(2024年)》。在此次发布的产业图谱中,《中国数据库产业图谱(2024年)》是由中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)发布的数据库产业全景图,旨在全面客观展现我国数据库产业中的关键领域、环节和代表企业。
2024-08-21 17:26:32
511
原创 论文导读 | 合取正则路径查询
合取正则路径查询(Conjunctive Regular Path Query, CRPQ)是各种主流图数据库查询语言(如SPARQL、Cypher、GQL)中的核心组成部分之一。要介绍合取正则路径查询,需要从正则路径查询(Regular Path Query, RPQ)开始讲起。∣r∗∣。
2024-08-21 17:26:01
981
原创 图谱动态240709
不幸的是,现有解决方案未能满足这些要求。作者的广泛实证评估表明,在类似TPC-DS的查询上,GEqO带来了显著的性能提升——比自动验证器快多达200倍,并且发现的等价性比优化器和基于签名的等价性方法多出2倍。本周推荐的SIGMOD 2024上的论文:GEqO: ML-Accelerated Semantic Equivalence Detection,该文提出了一个名为GEqO的基于机器学习的框架,能够在大规模分析引擎中高效检测语义等价计算,从而提高集群资源利用率和减少作业执行时间。
2024-07-11 15:51:23
623
原创 喜报 | 邹磊老师指导博士生苟向阳入选首届 “中国计算机学会数据库专委会优秀博士学位论文激励计划”
中国计算机学会数据库专委会优秀博士学位论文激励计划” 由中国计算机学会数据库专委会按照《中国计算机学会数据库专委会优秀博士学位论文激励计划遴选办法》的文件要求启动和评选,目的在于积极贯彻落实国家科技强国、人才强国战略,发挥中国计算机学会数据库专委会在发现人才、培养人才、举荐人才方面的作用,推动计算机数据库领域的技术进步与创新。该论文从图流的近似存储算法入手,首先研究了支持简单的数据项查询的数据流摘要算法,之后又进一步研究了支持复杂的图结构查询的图流摘要算法。本篇论文围绕图流近似处理展开研究。
2024-07-11 15:48:27
722
原创 欢迎报名 | CCKS-IJCKG 2024 技术评测任务六“基于图数据库的自定义图分析算法评测”
知识图谱本质是基于图的语义网络,而图数据库又是以图模式存储管理数据,因此图数据库用于存储知识图谱数据具有得天独厚的优势。通过在知识图谱上进行查询、分析、推理是实现知识图谱应用的关键核心技术,而反映到图数据库上则是基于图数据库上的图查询与图分析。BFS和DFS是图数据库最核心的算法之一,基于此之上,众多学者针对不同需求设计了衍一系列的图查询与图分析算法,如Jaccard相似度算法、Louvain算法、直径估计算法等,且设计了不同变种算法。
2024-07-11 15:44:54
1156
原创 论文导读 | knowledge-based VQA
传统的视觉问答(Visual Question Answering, VQA)基准测试主要集中在简单计数、视觉属性和物体检测等问题上,这些问题不需要超出图像内容的推理或知识。然而,在knowledge-based VQA中,仅靠图像无法回答给定的问题,还需要有效利用外部知识资源。经典的知识基础VQA数据集包括OK-VQA和A-OKVQA。OK-VQA包含约14K个样本,分为9K/5K用于训练和测试,涵盖以下类别:车辆和交通;品牌、公司和产品;物品、材料和服装;体育和娱乐;烹饪和食品;
2024-07-04 16:28:27
1640
原创 PKUMOD同学又双叒获奖啦~
李彦增,北京大学智能学院2021级博士研究生,师从王选计算机研究所邹磊教授,主要研究方向包括知识图谱构建管理及应用等,在ACL、NAACL、CIKM、ISWC等国际会议发表论文20余篇,曾获IEEE DSC Best Paper Runner Up Award等奖励,常年担任ACL、EMNLP、NAACL、AAAI、MM、TKDE等会议期刊的程序委员会成员或期刊审稿人,作为主要参与人员或参与人员参与及完成国重研、国自然及企业合作等10余项重要科研任务。期待他们在未来的科研道路上。凭借在各自领域的卓越表现。
2024-07-04 16:26:59
602
原创 论文导读 | 独立路径多查询问题
独立路径:两条简单路径,如果除了端点外没有相同的顶点,则称这两条路径相互独立。k条路径两两相互独立则称这k条路径是k条独立路径。如图所示,红色和蓝色的两条路径是a和h之间的两条独立路径。k独立路径单查询:该问题有广泛的应用:网络安全。在网络流量中,机密信息通过路径从源发送到目的地。我们可以将信息分成几个部分,用不相交的路径发送,以降低隐私泄露的风险。网络容错。不相交的路径可以增强网络在路由方面的健壮性。
2024-06-07 16:20:18
1120
原创 论文导读 | 投机解码加速模型推理
投机解码(speculative decoding)最早在[1,2]中被提出。其方法可以概括为由一个小模型一次猜一批可能的结果,再由大模型并行地验证这些结果是否要接受。投机解码利用了上面两个观察,先用小模型猜后续的若干个tokens,如果当前的问题比较简单,则小模型有更大的可能猜对多个token。然后再用大模型并行的验证这一些token是否符合大模型的输出。由于现代计算机的并行能力,我们可以近似的认为大模型处理一个token和处理w个token的用时是几乎一样的。
2024-05-17 15:30:30
4107
原创 论文导读 | 增强大模型的数学能力
数学能力是人类智能的一项基础技能,在自然科学、计算机科学、医学、金融等不同领域都发挥重要作用。因此也是现在评价大模型能力的重要指标。现在评价大模型数学能力最常用的两个评测数据集分别是MATH和GSM8KMATH数据集是一个由加州大学伯克利分校的研究团队开发的新数据集,专门用于衡量机器学习模型解决数学问题的能力。该数据集包含12,500个来自高中数学竞赛的挑战性问题,每个问题都有一个完整的逐步解决方案,这使得模型可以学习如何生成答案推导和解释。MATH数据集的问题覆盖了七个主要的数学领域,包括代数、几何、数论
2024-05-17 15:26:23
2117
2
原创 论文导读 | 图对齐
图对齐问题是将两个图的节点进行匹配的问题。而半监督图对齐指的是已知小部分节点之间的对应关系,通过学习获得其他节点的匹配关系。问题定义如下:给定属性图G1A1X1G2A2X2和锚节点对,输出相似矩阵SSxa表示G1中结点a和G2中结点x的相似性。解决这个问题常见方法有以下3种:consistency-based、embedding-based和optimal transport。
2024-05-17 15:25:18
1313
原创 论文导读 | 漫谈编辑问题
本文围绕深度学习模型的编辑,介绍了针对一般分类器、图像生成模型、语言模型的编辑问题及一些相关方法,还对现有工作的优劣、一些可能的未来研究方向给出了简单的讨论。
2024-03-25 14:44:32
980
原创 图解李白的“朋友圈”
本次我们从互联网上搜集了有关《长安三万里》中的人物以及其他唐代著名诗人的基本信息,然后以诗人、诗歌为主要实体类型,梳理了诗人之间的关系,在gBuilder中用非结构化数据表单录入的方式,最终得到了唐朝诗人关系的RDF文件。节点可以表示实体和属性,边可以表示为实体-实体和实体-属性之间的关系,这种形式对处理复杂的关联关系有着天然的优势,也更接近人类认知世界的形式,为数据处理提供了一种更好的组织和管理能力。在实际项目中,也可以根据不同类型的数据选择不同的抽取方式,或多种方式结合的形式来构建知识图谱。
2024-02-23 16:21:30
1425
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人