IBM推出了其新的花岗岩3.2多模式和推理模型。 Granite 3.2具有实验性链的推理能力,可显着提高其前身的性能,一种新的视觉语言模型(VLM)优于几个基准上的较大模型,而较小的模型则较小。
IBM表示,其花岗岩3.2 8b指示和花岗岩3.2 2b指示大大优于其3.1前任,这要归功于推理能力的增强。 IBM没有像其他公司那样提供专门的推理模型,而是选择在其指示模型中包括推理作为一种选择,可以根据手头的特定任务进行切换。
IBM在花岗岩3.2中使用一种技术来构建其推理能力是推理缩放,这是由让LLM生成多个答案的想法的启发,然后根据某些奖励模型选择最佳,仅适用于推理过程。
在推理任务的背景下,选择多个答案以选择最佳答案的想法也可以应用于通常在答案生成之前的“思想链”。实际上,您无需等待整个推理完成,然后才能决定推理是否好。
IBM的方法推进了DeepSeek普及的方法,该方法使用一种推理模型通过还使用搜索模型来探索推理空间来衡量其自身的进步。因此,过程奖励模型有助于LLM检测并避免错误的推理转弯,而搜索算法使过程更加灵活。
根据IBM的说法,他们的推理缩放方法能够在MATH500和AIME2024数学评估基准上提高性能,而Granite 3.2的表现优于GPT-4O-0513和Claude3.5-Sonnet-1022,用于单件通用推断。
Granite 3.2还包括一个涉及文档理解的VLM,名为Granite Vision 3.2 2b。根据IBM的说法,这种轻巧的模型可与企业基准(例如DOCVQA和ChartQA)上的较大模型媲美,但不打算用作替代仅文本花岗岩模型的替代品。它是使用IBM建立在策划的企业数据上的特定数据集(包括一般文档图像,图表,流程图和图表)上的IBM培训的。
花岗岩家族的另一个组成部分是Granite Guardian 3.2,它是一种能够在提示和响应中检测风险的护栏模型。 IBM说,Guardian 3.2以更高的速度提供了与Guardian 3.1相似的性能,并且推理成本和记忆使用量较低。它引入了一项新功能,口头上的信心,以提供置信价值来以更细微的方式评估潜在的风险。
Guardian 3.2有两个变体,Guardian 3.2 5B(比花岗岩3.1的8B降低)和3.2 3b-A800m的Guardian,并在推理时增加了30亿个参数的优化,仅激活了8亿个参数。
作为花岗岩3.2的最后说明,值得一提的是,它带来了新的时间表模型(TTM)支持每周和每日预测,除了其前身已经支持的小时至小时决议外。
TTM-R2模型(包括新的TTM-R2.1变体)顶上所有模型,用于通过平均绝对缩放误差(MASE)测量的点预测精度。通过连续排名概率得分(CRP)衡量,TTM-R2在概率预测中也排名前5位。
在公告中,与Google的TTM型号相比,与Google的TIMEFM-2.0(500m参数)和Amazon的Chronos-Bolt-base(20500万参数)相比,IBM并未引起人们的注意,其TTM型号是“微小”的,该模型在Mase中排名第二和第三。
虽然IBM的公告对一些Reddit用户来说是一项令人印象深刻的壮举,但其他人则强调了这样一个事实,即他们所报告的性能看起来像是在忽略其他基准的同时看起来过于拟合一些基准。尽管如此,尽管认为这样的小型型号(8B和2B参数)可能是天真的,比大型模型更可取,或者对整体执行得更好或对编码等复杂的任务,但它们确实适合更适合更专业的任务。
其他人则推测IBM的发行专门针对企业的事实,如果事情出错或与用于培训的数据集有关的IP问题,则重要的是要有法律保证。
所有花岗岩型号均根据Apache 2.0许可获得许可,并在Huggingface,Watsonx.ai,Ollama和LM Studio上获得。