CoSyn:开源工具实现GPT-4V级视觉AI技术突破
研究人员开发出一款突破性工具,使开源AI系统能够匹配或超越GPT-4V和Gemini 1.5 Flash等专有模型的视觉理解能力,可能重塑开源与闭源AI开发的竞争格局。
该工具名为CoSyn(代码引导合成),解决了AI开发中的关键瓶颈:缺乏高质量训练数据来教导机器理解科学图表、医疗图示和金融文档等复杂视觉信息。不同于从互联网抓取数百万图像(这种做法存在版权和伦理问题),CoSyn利用现有语言模型的编码能力生成合成训练数据。
"我们缺乏训练模型所需的数据,特别是带有丰富标注的文档和图表数据来训练视觉语言模型进行图像问答,"研究共同第一作者Yue Yang在接受独家采访时表示,“与自然照片相比,这些图像的标注工作更具挑战性。”
这一突破正值企业日益需要能够理解和推理复杂视觉信息的AI系统之际,这种能力对从自动化文档处理到能够自主导航数字界面的AI智能体都至关重要。
合成数据生成解决AI训练难题
训练AI理解文本丰富图像的挑战长期困扰着该领域。与自然照片不同,科学图形、图表和文档需要大量标注工作,既耗时又昂贵。传统方法依赖从互联网收集图像及其替代文本描述,但这种方法产生的训练数据往往表面化且存在法律问题。
CoSyn采用根本不同的方法:认识到大多数文本丰富图像最初都是通过代码创建的——Python脚本生成图表,LaTeX渲染数学公式,HTML创建网页界面。研究团队的洞见是逆转这个过程:利用语言模型经过验证的编码能力生成底层代码,然后执行该代码创建逼真的合成图像。
"我们的直觉是,这些图像如图表文档实际上是从程序代码渲染而来的,"Yang解释说,“所以我们反过来思考:既然纯文本语言模型已被证明擅长编写代码,何不通过生成代码来创建图像?”
CoSyn训练模型在关键基准测试中超越GPT-4V和Gemini
结果令人瞩目。使用包含40万张图像和270万指令对的合成数据集,CoSyn训练的模型在开源系统中实现了最先进的性能,并在七项测量文本丰富图像理解的基准测试中超越了专有模型。
平均而言,他们的70亿参数模型在基准测试套件中得分80.9%,比之前最好的开源模型(Llama 3.2 11B)高出3.9个百分点。更值得注意的是,即使是他们的"零样本"模型——在没有评估数据集任何示例的情况下训练——也超越了大多数开源和闭源模型,证明了从合成数据学习到的能力可迁移性。
在一个特别引人注目的演示中,研究人员创建了一个名为NutritionQA的新基准,包含100个关于营养标签照片的问题。仅使用7,000个合成生成的营养标签进行训练,他们的模型就超越了在数百万真实图像上训练的其他模型。
实际应用:从质量控到自动化
该技术已经在各行业找到实际应用。研究人员举例说明某公司使用视觉语言模型进行电缆安装质量保证:“现场工作人员拍摄安装过程的照片,系统自动验证每个步骤是否正确执行。”
这种专业化的视觉理解可以改变众多企业工作流程,从金融服务中的自动化文档处理到制造业的质量控制。使用合成数据在特定视觉任务上训练模型的能力意味着,公司可以开发适合其特定需求的AI系统,而无需传统所需的大规模数据收集工作。
人格驱动方法确保数据多样性
CoSyn的一个关键创新是其确保数据多样性的方法。为防止AI生成内容中常见的重复输出,该系统采用研究人员称为"人格驱动机制"的方法。每次CoSyn生成合成示例时,都会将请求与随机抽样的人格配对——如"不断构思新外星世界的科幻小说家"或"准备实验材料的化学老师"的简短描述。
"这种方法使我们生成的内容和风格多样化,"Yang解释说,“如果我提供博士学生的人格,它会生成更科学或更学术化的内容。”
这种方法使系统能够生成九种不同类别的内容:图表、文档、数学问题、表格、图示、矢量图形、乐谱、电路图和化学结构。研究人员使用了11种不同的渲染工具,从Python的Matplotlib到LaTeX数学表达式,得到20个专用生成管道的支持。
技术细节与实现方法
CoSyn系统通过以下技术流程实现合成数据生成:
- 代码生成:利用大型语言模型的编码能力生成创建特定图像类型所需的源代码
- 图像渲染:执行生成的代码以产生高质量的合成图像
- 标注自动化:自动生成与图像对应的精确标注和指令对
- 质量验证:通过多重验证确保合成数据的准确性和多样性
研究团队建立了专门的评估框架来验证合成数据的质量,包括:
- 视觉真实性评估
- 文本-图像对齐度测量
- 任务特定性能基准测试
对未来AI发展的影响
这项研究对更广泛的AI行业具有重要意义。某中心和某机构等主要技术公司已投入数十亿美元开发其专有视觉语言能力,创建了训练方法和数据源仍是商业机密的系统。CoSyn为开源替代方案提供了一条竞争途径,而不需要类似的资源投入。
"开源模型仍然落后于那些闭源模型,但随着开源社区每个人的所有努力和资源,我们拥有更多的能量。所以我认为最终我们能够迎头赶上,"Yang表示。
对开放性的承诺不仅限于发布模型。完整的CoSyn代码库、40万张图像数据集和所有训练脚本都是公开可用的,使全球研究人员和公司能够在此基础上进行构建。
这种透明度解决了人们对专有AI系统黑盒性质日益增长的担忧。"如果你只依赖某中心的API,这可能无法可靠地证明你的科学发现,因为后端可能有些你永远不知道的东西,"Yang指出。
技术局限性与未来方向
尽管前景广阔,但合成数据生成面临重要限制。"一个限制是它可能继承生成此类合成数据的模型的偏差,"Yang承认。系统也可能难以处理多样性:“如果你提示大型网络在不同运行中生成一些数据,它可能会生成类似的数据。”
当前研究专注于文本丰富图像而非自然照片,限制了其在某些领域的直接适用性。"像其他自然图像这样的真实照片呢?很难为那些生成合成数据,甚至是医学图像、胸部X光片,"Yang指出,不过她表示正在努力将该方法扩展到医学成像领域。
展望未来,Yang预计合成数据生成将成为标准实践:"在未来两三年内,合成数据将成为教导模型不同能力的非常重要组成部分。"然而,她强调最佳结果可能需要结合合成和真实世界数据:“真实世界数据将反映一些真实世界分布。合成数据可以大规模生成,更可控。”
行业采用与影响
早期采用信号表明该技术已经在影响行业实践。"我听说像某机构和某中心等公司的一些团队正在尝试使用我们的数据来训练他们的模型,"Yang在采访中透露。
对于初创公司和较小公司来说,成本优势可能特别显著。"对于一些初创公司来说,在自己的服务器上托管开源模型比调用API更便宜,也更可控,"Yang指出。
研究团队决定将一切开源反映了关于AI开发的更广泛理念。随着Yang在完成博士学位后准备全职加入某研究所,对开放科学的承诺仍然是他们使命的核心。
"目前,这些视觉语言模型相当脆弱。只需要正确的数据就能获得正确的能力,"她说,“如果你找到正确的数据,你可以提高模型的能力,这将造福社会。”
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

1105

被折叠的 条评论
为什么被折叠?



