关于 NeurIPS 2024 俺的一点小总结!

作者:meisah

链接:https://zhuanlan.zhihu.com/p/14053021617

来源:知乎

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

今年因为中了文章,签证也没有被卡,所以非常幸运的去线下参加了neurips。

本次nips还是亮点很多,后面会逐一分享总结一下。

注意!!!

这个总结有非常强的主观色彩,本人很多海报都没看,oral也没咋听,大家仅供参考即可。

  1. 大厂之间的视频生成模型之战

  2. 数据公司和算力平台大行其道

  3. agent创业公司的意外火爆

  4. benchmark paper再创新高

  5. world model 崭露头角

  6. 强化学习依然难找工作

  7. llm reasoning 方向令人难绷

  8. 游戏ai前途渺茫

  9. 星际不死,alphastar的问题仍未解决(私货)

视频生成模型大行其道

首先来看看大厂之间的视频生成模型较量。实际上在本次nips的时候,meta,openai,google,字节都发布了他们各自的视频生成大模型,各个公司展台的头号明星也是这些模型。不过竞争非常激烈,以前被资本吹爆的Sora,现在已经没人理了,这个方向相比llm会竞争更加激烈,而且数据要求更高。相信通过数据优势,Google,meta大概率还是会吊打openai了,中国公司的表现也非常不错,尤其是可灵。

数据与算力为王

nips今年的一大特点就是hpc计算平台非常多,起码有3家云计算平台都有他们自己的展台,而且都挺大,各个都宣称自己有海量廉价的h100 (好像是2刀/h,有错误请告诉我)。虽然说算力荒仍然在蔓延,不过那是对于超级大厂和高校穷鬼而言的,相信不久以后,大量的算力资源会提供给大家,不过对于中国学校,显然又是另一个故事了。

此外数据公司也是非常的多,国内外有不少数据公司都来了,让人感觉大模型带起的后续产业已经要比大模型本身赚钱多了

莫名其妙火了的llm agent

如果你参加过国内的这些hackathon,你就大概明白llm agent创业这条路在国内基本就是笑话,你今天展示的东西,别人大厂过几天,几周就上线了。而在nips,情况似乎有点变化,阿三在展台上对我们讲解Large Action Model(我泥马以为是超级gato),我问了半天才知道这玩意不就是llm 调api吗,这玩意也能来nips? 没想到nips确实有不少这样的企业和平台,为大家提供各种llm以及应用的api。感觉在国外,中小型的公司可能更多,这些平台的受众会更多,而在国内,大厂们显然会把所有的内容都打包到一个臃肿的软件或者app上。

到处都是benchmark

这次nips有17%(具体数字我忘了),从cv,nlp,rl都有,里面也有很多有意思的paper。比如unity模拟经济社会的benchmark,或者也可以叫环境,你可以在unity里面用他的框架来轻松构建自己的经济系统。还有隔壁小哥的视觉光影benchmark,一些神经科学的benchmark,数学的benchmark,反正很多,我也看不过来,只能说到处都是了。

genie 引发的巨变

genie的横空问世基本上是对openai的Sora宣布了死刑,一个可交互的生成式world model 相比于单纯的视频生成显然更有吸引力。国内的腾讯,巨人都推出了自己的genie,而minecraft,doom,以及csgo(也就是Oasis,diamond,Mario等)也有了较为成功的实践。我在会场还有一个小哥给我用他的电脑演示了一下Atari的world model,非常炫酷。相信2025年会有更多更好的world model放出来。当然热度最高的肯定还是李飞飞的空间智能,相比于在游戏内的尝试,空间智能显然更受大公司的青睐。

rl依旧工作不好找

点开会议软件whova,打开job openings开始搜索reinforcement learning,你会发现一共只有三个岗位,还都是phd和博后。

造成这个问题的原因有很多:

  1. rlhf已经没有多少岗位了。去年rlhf刚刚火爆的时候,基本上你只要懂rl的基础知识,扎实一点都可以拿到大厂的rlhf实习。而现在大模型逐步陷入瓶颈,大部分公司实际上都不太需要rlhf了,大模型公司的门槛也水涨船高,好几个同学都说,现在大模型公司的那些人,现在去面试实习,大概率也过不了。

  2. 机器人rl火爆,但仅限国内。nips上发现,国外似乎没有那么多的机器人初创,也自然不会像国内提供那么多机器人rl的岗位。

  3. rl发展严重脱节,产业界和学术界基本各玩各的。近年来marl占据了rl的主流赛道,各种marl方法层出不穷,在各个benchmark上刷点。然而实际应用里面似乎是无人问津,首当其冲的就是被大家诟病已久的ctde训练方法,这玩意和single rl的差别大家也是很难评判。其次是rl的benchmark也和实际应用差的太远,CV和nlp的任务和实际情况不算特别大,而我们还在用smac这样充满bug的环境在测,这必然带来问题。

  4. 大部分rl工作还是工程问题,或者to b 问题。大部分场景下rl解决的是decision making的问题,你可能得bc训一把,用运筹优化解决,或者写个行为树。单纯从0训练显然不合适,而且有时候环境就根本跑不起来,你的第一步可能是修环境。再加上每个问题都是自己的trick,我们很难说你解决这个问题的经验就能完美迁移到一个新的问题上。

让人摸不着头脑的llm reasoning

如果说llm agent只是工程量大,to b 性质非常强的话, llm reasoning可以说是纯纯的抽象了。在会议上看到了一些llm reasoning的论文,其中的一些idea和已经发布的llm agent区别不大,一般就是那套搜索或者问题拆解再组合。基于prompt的研究内容已经很难再说服大家了,相比之下以mcts为主的大算力搜索方法才是大家更喜欢的。这几天也和一些训大模型的朋友聊过,有些人认为prm,搜索都不是关键,暴力堆数据永远比算法要来的简洁直接,这也预示着一个能交互的llm 系统,一个真正的强化学习体系,一个可以得到真实世界反馈的llm reasoning才是有用的,如果只刷benchmark,那reasoning再强也是背题。

游戏ai销声匿迹

以往的ai会议,大家还是能够看到一些游戏ai的paper,然而随着rl逐步走向机器人,rlhf之后,从AlphaGo开始的游戏ai风潮看起来正在褪去。现在越来越多的游戏都使用到了游戏ai,但很显然,游戏ai也是一个经典的to b 问题,大家可能得用监督学习,行为树,llm agent,rl agent等等混合起来解决这个问题。随着游戏公司营收压力增加,我们常见的以game bot 为主的游戏ai慢慢在减少,取而代之的还是公司里比较喜欢的aigc那一套,毕竟老三样最赚钱,相比之下传统的对抗游戏可是很难爆到玩家的米。拳头公司也在workshop里面出现了,他们现在的游戏ai也是llm agent 和rl 两个部分,这与国内的架构基本一致,我估计也是以后的标配了。

回到rl的问题上来,rl现在已经可以训练得到superhuman的 agent,但这对玩家真的重要吗?看起来也没有那么重要,毕竟alphago让围棋变成了背棋谱的对抗,而玩家显然也不会花钱被rl 训练出来的ai一顿暴打。如何构建human in loop 的游戏ai,我认为这才是关键。

llm play StarCraft 广受好评(吹捧一下自己)

这次nips,我的llm play sc2终于中了,到了贴海报的那天,发现自己被分到了整个场馆的最里面,我自己走过去都懒得动了。不过即使如此,还是有很多人都过来看了我的海报,他们大多数是游戏玩家或者星际争霸2玩家,对星际ai本身就充满兴趣,也有充足的先验知识。很多人为llm 本身能够懂得星际争霸的决策感到震惊,也提出了非常多有意思的观点,比如能不能实现一个bi-level的 星际ai,上层是llm,下层是rl这种。期间我也和DeepMind genie团队的一个哥们聊了聊,他之前想做llm 和DOTA2相关尝试,但是效果非常差。我的观点是,llm pretrain的时候学到了太多普通人的知识,这在游戏中尤其明显,llm 在星际2中的表现说明了大模型本身只会学习到最常见的数据,即普通玩家的数据。DOTA2这种玩家数量庞大,菜鸡太多,游戏版本更新很快,信息化做的不是那么好的游戏,llm实际上很难做出比较合理的决策。最后的发现是,韩国人无论男女都对星际争霸挺感兴趣的,这毕竟是陪伴他们20多年的国民游戏,这次也有不少韩国人和我吹比。

而alphastar的问题也很明显,他有非常变态的微操,两队闪追同时跳,却在后期的时候不愿意多造几个单位来对空,也不愿意转型,甚至神族修地堡➕不朽的时候,alphastar的虫族在补防空。所以你能看到枪兵坦克/蟑螂火蟑螂打到底的alphastar,这证明它根本就没学会怎么战略决策。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值