不是我不更新,找到值得写的东西我还是会更新的
这个是我2024年年末的展望,基本都应验了
第二条不值得称道,但是2025年做通用模型的会越来越少,这也是没办法的事情
2025年开年的一大预测其实也是结合2024年年底的时间
强化学习的动作空间搜索(不一定非得是MCTS)会在2025年在更多的模型架构上启动
今天这不就来了吗
谢赛宁和Google一起整一个论文你,发现time test inference在diffusion model 一样很牛B
所以2025年的大基调都会味道这个,继续展开,在传统scaling law越来越只有一小部分人和公司能有钱来探索的情况下,inference scaling将接过大旗继续战斗,不同的事算法比较复杂,数据要求过高,这注定是比scaling law的玩家更少的赛道(不过做个原型玩玩还是可以的,o1刚出的时候我就拿qwen math自己做了一个math o1版本
)
交代了一下背景,下面写一些今天为什么选这个论文解读的原因
https://arxiv.org/pdf/2501.09732
比如你要是玩过sd类的模型,不管你是sd1.5 xl,还是flux或者啥,它都是生成的step越多,越费算力,但是效果相对好一点对吧(这个要是不明白就去看我之前的多模态文章)
https://mp.weixin.qq.com/s/InF1Bnug0thnPKSsOmFvhw?token=505458397&lang=en_US
但是你这个是什么行为呢?就是一个更多step的去噪声的过程
理论上,扩散过程是一个连续的过程。更多的离散步骤可以更好地近似这个连续过程,使得生成的图像更加自然和真实,减少伪影和不连续性,说白了你每次别去那么多,尽量去噪平滑
但是去噪平滑就是你想要的最终效果吗?
请注意,这个未必!,有时候你步骤一多就生成古神了。。。
有没有更好的办法
有,你之前step合理不合理全凭感觉,因为你也没法知道噪声这训练的时候加多少合适,去的时候去多少个step合适,这个很难算出来一个完美答案,而且是一个边界递减的操作
那我说有,是什么方法呢?
就是说有没有一种牛B的办法,能让你在对模型推理的时候就能分辨出来去什么样的噪声能有最好的结果?