DeepSeek刚发的OCR模型有点小火,一方面是突出的性能,号称压缩10倍还有97%准确率,另一方面关于用分辨率来压缩信息和模拟遗忘机制的假想,恰巧AK在最近的访谈中说人的遗忘是一个feature而不是bug。
这个模型引起了很多人的关注,不少人惊呼太牛逼了,一张图只需要几十个token,有些人认为是最近最惊喜的模型,有些人认为DeepSeek团队思路清奇,堪称鬼才。AK昨天也发了一个长推,对DeepSeek使用视觉模型来处理和压缩文本信息的思路表示欣赏,他认为或许LLM的所有输入都应该是图像,因为文本输入的tokenizer有挺多问题。AK说他骨子里是搞视觉的,只是现在LLM大火也不得不参与。作为李飞飞的高徒和特斯拉自动驾驶AI负责人,AK确实骨子里是视觉派。
我认为,作为一个OCR模型,DeepSeek OCR的性能和思路可能不算很大的突破,但产品化的贡献值得肯定。
DeepSeek OCR模型很有意思的一点是提供了好多个“分辨率”选项,并且看起来用的token很少。最低的512 x 512一张图只需要64个token,稍大一点的1024 x 1024是256个token。复杂版面还组合使用多种分辨率,首先是整张图用i个1024 x 1024,此外重点区域可能用多个640 x 640。
其实至少在学术界,这样的视觉编码效率并不算很大的突破。效果上,AK的评价是DeepSeek OCR是一个不错的OCR模型,但感觉略弱于dots.ocr,这个是前段时间小红书搞的。
DeepSeek OCR多分辨率的搞法,和去年字节的那篇best paper的思路有相似(还记得去年字节有个实习生搞破坏被公司索赔800万吗,他就是paper的作者)。那篇paper是去年顶会NeurIPS的best paper,提出的Visual Autoregressive Modeling(VAR)方法就是采用"粗到细"的多尺度预测,逐步从低分辨率扩展到高分辨率。另外,去年豆包团队也有一篇paper,把512 x 512的图片也是编码到了64个token,和DeepSeek OCR一模一样。那篇paper还能把256 x 256的图片编码到更小的32个token。DeepSeek OCR模型毕竟是要做文字识别而不是场景理解的,可能因此舍去了不太实用的256 x 256尺寸。
所以有可能DeepSeek OCR也是受到了这两篇paper的启发,把它进一步工程化产品化了。从过往的记录看,DeepSeek团队特别把其它实验室的研究成果进一步做扎实,产品化。
但AK提到的用图像代替文本作为LLM输入的想法,我认为确实有可能成为一个有潜力的方向,因为如果技术能成熟的话,会很有用。大量的网页和文档都是图、文、表格等混排的,很多SaaS软件都有一堆有一堆的Dashboard,PPT也是非常典型的有很多版面布局。这些信息都是有效的视觉传达,如果强行转化成文本会有很多信息损失。但因为现在视觉大模型在处理这类图文表混排的场景时效果还不够好,成本还很高,导致应用还是只能采取转文本的方式。如果DeepSeek OCR这次引起业界对图文表混排场景优化的研究热潮,把这块的效果快速提上去,成本快速降下来,就已经非常有意义了。
(顺便打个广告,我们开发的remio应该拥有现在最方便的文档问答工作流,只要配置好桌面、文档、下载等几个常用的文件夹,所有文档都可以很方便的问答,再也不需要手动查找文档再上传给豆包、ima、Kimi之类的产品了,文末点击「阅读原文」可以访问remio官网下载)
至于DeepSeek团队用分辨率来模拟遗忘机制的假想,确实是个有点意思的想法,但也感觉有点不太对。越来越模糊的分辨率,感觉模拟的更像是越来越高度的近视,这是一种很好的遗忘机制吗?另外,人脑的遗忘机制可能适合人脑,未必适合数字的第二大脑。人脑要遗忘也可能是因为一个人的脑容量毕竟有限,数字系统容量可以一直扩,是不是一定要遗忘呢。这些都是问题。这得多想想。
DeepSeek OCR,不要只当作OCR模型看,可能是醉翁之意不在酒。
风轻扬
汪源,杭州久痕科技创始人&CEO,前网易副总裁、杭州研究院执行院长、网易数帆总经理,2024年6月创立久痕科技,研发首个全面记录个人办公数据的AI办公助手产品remio,点击文末「阅读原文 」可快速访问remio官网。
4202

被折叠的 条评论
为什么被折叠?



