合合信息大模型“加速器”亮相2024世界人工智能大会，助力大模型学好“专业课”

合合信息大模型“加速器”亮相WAIC

原创

于 2024-07-05 21:26:41 发布 · 990 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #语言模型 #文档解析

7月4日至7日，2024世界人工智能大会在上海拉开帷幕。现阶段，“百模大战”现象背后的中国大模型发展前景与堵点仍然是各界关注的焦点。如何帮助大模型在信息的海洋中快速找准航向，在数据的荒漠中找到高质量的“水源”？合合信息在本次大会上展示了大模型“加速器”解决方案。

据了解，在大模型训练的上游阶段，“加速器”中的文档解析引擎将助力大模型突破在书籍、论文、研报等文档中的版面解析障碍，从源头为模型训练与应用输送纯净的“燃料”，助力大模型跑得更快；“加速器”还加载了行业领先的acge文本向量化模型，助力大模型解决“已读乱回”的“幻觉”问题，让大模型在正确的航线上行驶得更远。

大模型发展需要“智慧燃料”

大模型技术的发展和应用，预示着更加智能化、个性化未来的到来。如果将大模型比喻为正在疾驰的科技列车，语料便是珍贵的“燃料”。对于中国的大模型企业而言，语料短缺问题更为严峻。当前大模型数据集主要为英文，中文语料占比较低；无线表、跨页表格、复杂公式等元素的处理仍是大模型语料处理中的另一个“拦路虎”。

文档解析技术是支撑大模型语料训练的关键技术之一，面临着从海量文档中高效提炼“智慧燃料”的艰巨任务。合合信息的文档解析引擎具备强大的“动能”，最快1.5秒可解析百页长文档中的文本、表格、图像等非结构化数据，也是当前市面上同类文档解析引擎中处理速度最快的产品之一；同时，引擎还具备优秀的文档“理解力”，可智能还原文档阅读顺序，加速了模型在预训练、开发、使用落地等多方面的流程。