嘉宾介绍:
苗东菁,哈尔滨工业大学教授、博士生导师,CCF数据库专委会委员、理论计算机科学专委会委员,黑龙江省大数据科学与工程重点实验室副主任。从事数据库系统、大数据计算与数据质量管理的基础理论研究。发表计算机领域国际顶级刊期、会议学术论文40余篇,包括The VLDB Journal, IEEE Transactions on Knowledge and Data Engineering, Theoretical Computer Science, SIGMOD, VLDB, ICDE, COCOON, COCOA, AAIM, ICFEM, IPCCC等。数据一致性管理基础理论和关键技术方面研究成果获得2018年中国计算学会优秀博士论文奖,2019年ACM SIGMOD CHINA RISING STAR AWARD奖。主持NSFC面上项目《面向跨模型分析型负载的数据存储方法》、CCF-华为胡杨林基金数据库专项项目《压缩态数据向量化执行引擎》,作为骨干成员参研了包括国家基础研发973项目、国家重点研发计划、国家自然科学基金重大、重点项目在内的多个国家级项目。担任COCOON、DASFAA、COCOA等多个知名国际会议程序委员会主席、委员等,国际顶级算法期刊Algorithmica Leading Guest Editor。
以下内容为哈尔滨工业大学教授苗东菁在中国计算机学会(CCF)、CCF CTO CLUB联合数新智能共同主办的“多模态数据融合技术创新与落地实战”活动中演讲全文

感谢主办方中国计算机学会的邀请,以下分享我们团队在相关领域的研究思考与成果。作为学界研究者,部分观点可能存在争议,期待与各位探讨交流。
我们团队早期研究聚焦数据管理领域基础问题,涵盖计算复杂性与严格算法设计等方向。我们曾承担数据质量管理相关国家课题,彼时主要基于逻辑规则及推理开展研究,未采用当前深度学习技术,核心探索如何构建质量管理系统——包括选择一阶逻辑或其子类等逻辑体系(逻辑系统的选择直接决定系统表达能力及对劣质问题的覆盖范围)。但研究发现,表达能力增强会导致计算复杂度上升;尽管我们通过证明问题复杂性、研究具有理论误差保证的算法为系统构建提供指导,但这类基于逻辑的严格方法存在高效实现条件苛刻、落地灵活性不足等问题,在复杂现实场景中应用受限。
当前,基于深度学习的 AI 模型作为启发式近似计算工具,展现出更强的落地可行性,尽管其效果误差的理论保障尚未明确,但近期借助数论与群论工具解释神经网络及大模型动力学的研究,已显现理论突破的可能。因此,我们开始关注此类方法的应用及与数据管理领域的关联。
今年被行业称为所谓 “智能体的一年”,智能体技术与应用的发展正与数据管理领域深度交织,这也是本次分享的核心议题。

今年 1 月,我看到一则产业新闻,称京东已投入运行的智能体数量已超过七千个,各类公司也都有类似应用。包括一些不为大众所熟知的中小企业,而今年常被提及的观点是,单人公司会越来越多,即一个人借助智能体开展工作。
这些智能体在工作过程中不断产生数据并进行数据检索,在多模态场景下,如何以更低成本、更快速的方式构建 “甩手掌柜式” 数据底座,这对我们而言是一个机会,至少可作为一个研究方向。这一趋势也让早年的多模数据库概念重新焕发生机,只不过其实现方式已有所不同,例如对象数据库、多引擎聚合、联邦数据库中间件等。
但是到了今天,在AI领域发展的推动下,我们的兴趣可能更趋向于去做原生的方式。

最低0.47元/天 解锁文章
704

被折叠的 条评论
为什么被折叠?



