🧑 博主简介:曾任某智慧城市类企业
算法总监
,目前在美国市场的物流公司从事高级算法工程师
一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。优快云人工智能领域的优质创作者,提供AI相关的技术咨询、项目开发和个性化解决方案等服务,如有需要请站内私信或者联系任意文章底部的的VX名片(ID:xf982831907
)
💬 博主粉丝群介绍:① 群内初中生、高中生、本科生、研究生、博士生遍布,可互相学习,交流困惑。② 热榜top10的常客也在群里,也有数不清的万粉大佬,可以交流写作技巧,上榜经验,涨粉秘籍。③ 群内也有职场精英,大厂大佬,可交流技术、面试、找工作的经验。④ 进群免费赠送写作秘籍一份,助你由写作小白晋升为创作大佬。⑤ 进群赠送优快云评论防封脚本,送真活跃粉丝,助你提升文章热度。有兴趣的加文末联系方式,备注自己的优快云昵称,拉你进群,互相学习共同进步。
合合信息TextIn大模型加速器2.0:图表解析能力的横向测评
一、引言
在当今数字化时代,大模型技术正逐渐改变着各个行业的运作方式。然而,随着大模型应用的普及,“AI幻觉”风险成为困扰广大应用者的主要问题之一。为了从数据源头降低这一风险,合合信息TextIn推出了“大模型加速器 2.0”,旨在通过领先的智能文档处理技术,为大模型提供更可靠、更可信的语料数据。
二、测评平台介绍
2.1 TextIn平台
● 简介:TextIn是合合信息旗下的一站式OCR服务平台,提供多种文档处理和图像识别服务,包括通用识别、票据识别、企业证照识别等。近期,TextIn上线了图表解析功能,能够智能解析多种图表类型,并以Excel格式输出。
● 图表解析能力:支持饼图、折线图、柱状图、雷达图、散点图等多种图表类型。能够准确提取图表中的关键数据点、坐标轴信息、图例说明等,并将其还原为结构化数据。
2.2 其他平台A
● 简介:基于流行的视觉-语言模型(VLM)架构,选择Vary-tiny模型,包含SAM-base视觉编码器和tiny OPT125M自回归解码器,通过线性层同步它们的通道维度。下图为架构示意图:
● 图表解析能力:支持多种图表类型的解析,包括饼图、柱状图、折线图等。利用流行的视觉-语言模型(VLM)算法,对图表进行智能分析,提取图表中的数据和结构信息,并以结构化的方式呈现给用户。
2.3 其他平台B
● 简介:该平台用来处理和理解自然语言,为用户提供帮助和解答问题。核心功能包括:文本理解与生成、知识检索、逻辑推理、多轮对话等
● 图表解析能力:通过prompt对话的方式支持多种图表类型的解析,包括饼图、柱状图、折线图等图表进行智能分析,提取图表中的数据和结构信息,并以结构化的方式呈现给用户。
三、图表解析横向测评
3.1 测评背景与目的
本次测评旨在全面评估合合信息TextIn大模型加速器 2.0在图表解析方面的能力,并与其他知名大模型A、B进行对比。通过实测,希望了解在处理图表解析上的差异。
3.2 测评对象与方法
选取了合合信息TextIn大模型加速器 2.0(以下简称“TextIn”)和另外两款主流大模型(代号为“Model A”和“Model B”)作为测评对象。测评方法包括:
● 使用相同的一组图表数据集,包含多种类型的图表(如柱状图、折线图、饼图、复合式图表等)
● 对各模型进行图表解析任务
3.3 测评维度与结果
3.3.1 单一表格
TextIn解析效果(左侧为原图,右侧为平台图表解析效果):完整解析出图表内容
A模型解析效果:效果较差,几乎未识别
B模型解析效果:效果存在缺陷,把申请人一栏识别成表头
3.3.2 折线图
TextIn解析效果:完整解析出图表内容
A模型解析效果:完整转换成json信息
B模型解析效果:星期六无法识别到具体数值
3.3.3 柱状图(1)
TextIn解析效果:完整解析出图表内容
A模型解析效果:广州/杭州等字段参杂了X轴名字的信息
B模型解析效果:完整解析出图表内容
3.3.3 柱状图(2)
TextIn解析效果:完整解析出图表内容
A模型解析效果:完整解析出图片表格,但是单位错误
B模型解析效果:完整解析出图表内容
3.3.4 饼状图
TextIn解析效果:完整解析出图表内容
A模型解析效果:完整解析出图表内容
B模型解析效果:完整解析出图表内容
3.3.5 复合图表
TextIn解析结果:完整解析出图表内容
A模型解析效果:数据符号解析错误
B模型解析效果:同比增速数据存在大量缺失
3.3.5数据提取准确性
TextIn: 基于大规模预训练的基座模型,通过生成式学习的方法,对图表的布局、线条、颜色、标记等多维度特征进行深度建模,提取图表中的关键数据点、坐标轴信息、图例说明等,数据提取准确率高。
Model A: 在数据提取方面表现较为稳定,但对于一些细节数据的识别可能会有遗漏,复杂图表中可能会出现误读现象。
Model B: 数据提取准确性与合合信息相当,但在某些复杂图表中可能会出现误读现象。
总的来说数据提取准确性:TextIn> Model B > Model A
3.3.6 操作的便捷度
TextIn: 登录即可可视化的上次图片,显示结果;并将结果直接保存,方便零基础的人使用。
Model A: 需要本地部署模型,并需要写程序去进行操作,适合有代码基础的专业人士使用。
Model B: 需要编写prompt去进行图表识别,需要对大模型有一定认识的人适用。
总的来说便捷度:TextIn> Model B > Model A
3.4 测评总结
通过本次横向测评,可以看出合合信息TextIn大模型加速器 2.0在图表解析方面具有明显优势。在数据提取的准确性和操作的便捷度上表现出色,更加人性化。相比之下,Model A和Model B虽然在某些方面也有不错的表现,但在整体性能上与TextIn仍存在一定差距。
四、优势与劣势分析
4.1 TextIn平台
优势:
● 支持的图表类型丰富,能够满足多样化的图表解析需求。
● 解析准确性高,能够深度理解图表的结构和数据逻辑。
● 操作便捷,无需复杂的预处理,通过简单的参数配置即可完成解析。
劣势:
● 在处理某些复杂图表时,可能需要进一步优化算法以提高解析精度。
4.2 平台A
优势:
● 在常见图表类型的解析上表现出色,能够提供稳定的解析结果。
● 支持多种输出格式,方便用户根据需求进行数据处理和分析。
劣势:
● 相比TextIn,支持的图表类型较少,对于一些特殊或复杂的图表可能无法准确解析。
● 操作流程相对繁琐,用户需要一定的学习成本。
4.3 平台B
优势:
● 图表解析功能集成于智能文档处理平台,整体体验流畅。
● 利用AI技术,在图表解析上有较高的智能化水平。
劣势:
● 对于某些图表类型的解析精度有待提高,可能会出现数据提取不准确的情况。
● 输出格式的灵活性不如TextIn和平台A,可能需要额外的数据转换步骤。
五、总结与展望
合合信息TextIn大模型加速器 2.0通过其卓越的文档解析和图表解析能力,为大模型的应用提供了更可靠的数据支持,有效降低了“AI幻觉”风险。在本次测评中,其在多个维度上均展现出色性能,成为企业和个人开发者构建个性化行业知识库的有力工具。随着技术的不断进步,期待合合信息在未来能够带来更多精彩的功能和更高效的解决方案,推动大模型在更多领域的落地应用。