开场
周伯文主席上台也是抛出了很多的问题呀,下面主流问题也是后面平行会议的内容主题。
1.自回归大模型在Scaling Law之外有其他选择吗?
2.具备Scale up潜力的模型架构演进方向在何方?
3.探索通往AGI的道路,评测能做什么?
4.我们需要什么样的AI4S基座模型?
5.公开高质量数据即将用尽了吗?如何未雨绸缪?
6.不同具身技术路线的能力边界在何处?
7.AI能力的提升是带来还是解决AI安全问题?
还有其他的问题也一并显示了,但是这七个是最高亮的,确实也可以说是当下最让人关心的问题罢。
马毅老师也讲解了通向通用人工智能,为了理解智能,个人需要知道如何从计算上实现:
- incomputable:Kolmogorov & Solomonoff:个人觉得这里应该是Kolmogorov复杂度和Solomonoff induction。后者恰好是体现了奥卡姆剃刀,Kolmogorov复杂度和贝叶斯推理思路的综合体。前者简单来说,就是描述这个字符串所需的最短信息量,后者的先验概率是2−K(M)2^{-K(M)}2−K(M),其中K(M)K(M)K(M)是程序M的Kolmogorov复杂度。在理论上,Solomonoff Induction被证明是渐进最优的,这就跟大数定律差不多了。
- computable:Turing & Shannon:图灵机,熵,应该就这两个。前者感觉延伸出好多东西,包括数学的不完备性,NLP的下推自动机,基本定义的NP-hard和co-NP等,也是量子计算理论的基础。Shannon的熵,交叉熵,条件熵也是AI,信工等都在用的。
- tractable:NP vs P:没啥好说的。
- scalable:DNN and BP:深度神经网络和反向传播算法下的神经网络,最近听说有液态神经网络了,也是十分的神奇,总之神经网络种类挺多的。
- natural:马毅老师认为闭环反馈的系统,能够通过自我纠错和知识的不断更新来推动智能进化,这个在圆桌会议上马毅老师又强调了一次。
马毅老师还认为机器智能的三步走是:
- Pretrain big models to memorize knowledge(like the DNA).
- Each System can autonomously learn new knowledge(like the animal’s brain).
- Abstraction,logic and causal reasoning,mathematics(like the human’s brain).
高中生物书有言人脑具有记忆、语言、思维、情绪等功能。情绪暂时放一边,记忆、语言、思维是目前具有智能的机器需要做到的事情。马毅老师认为目前的AI技术是在第一阶段到第二阶段的转折点。
过去马毅老师花了很多精力在Transformer这个黑盒模型用白盒数学可解释的项目上,也在23年发布了论文,模型叫CRATE,其学习一个增量映射序列来获得最压缩稀疏的的表征,后面没搞懂…但是增量映射也就是三种。
f:X×D→Yg:X→Yh:X→D×Y
f: X \times D \to Y \qquad g:X \to Y \qquad h:X \to D \times Y
f:X×D→Yg:X→Yh:X→D×Y
一种类似有监督,一种类似无监督,第三种大概是在线学习+无监督+分类变体(?)
陈宝权教授认为智能的定义可以很广泛,黑盒模型在当下的某些应用中足够,但白盒模型在理解人类的智能上可能有优势,也许黑盒和白盒的交叉使用或者混合是新阶段,相信未来有更多的创新出现。
另补充:
大模型与超级智能专题论坛:大模型复杂推理的相关思考:
o1复现几点认识:
1.据刘鹏飞教授所言,通过简单的蒸馏与监督微调(Supervised Fine-Tuning)就可以超过o1-preview
2.o1的thinking思考模式(im thinking about)这种内心独白的,最近的gemini-exp-1206在长输入token下也会有类似中期检查的ai继续判断是否满足相关信息再生成,不仅上下文连贯而且主题更符合user prompt(推测是认知工程的自我反思)。o1思考行为:RL多次迭代甚至iterative DPO (Direct Preference Optimization) (直接优化模型来符合人类对于不同模型输出偏好)就能学会。
3.o1技术路线中最耗时的是"search"+冷启动标注。
4.但是最重要的,不能只满足于基于蒸馏和简单RL的技术栈,这样只是培养了一波prompt engineering的工程师而非基于第一性原理开发新方案的研究者。
刘鹏飞教授也提到,目前的提示工程(Prompt Engineering)领域的一个新趋势是认知工程(Cognition Engineering),思维链(Chain of Thought)和思维树(Tree of Thought)是一个方面,前些天华为好像推出了思维森林(Forest of Thought),图搜索是自然的。
第二个方面是一些复杂问题确实需要分解到多个简单问题逐个击破,但有些问题不需要,只需要击破一个简单问题自然而然可以推广到复杂问题,这也是Least-to-Most Prompting想要解决的罢!将复杂任务分解成一系列更简单的子任务,并引导模型逐步解决这些子任务。
自我反思,Self-Refine。
现有大模型局限
“片汤话”:只定性、纯科普,不能完成具体的领域任务。
比如你询问GPT(刘鹏飞教授给出例子的可能是gpt-4):现在市场整体情况不太好,我需要找一些符合当前市场形势的股票和基金,有什么推荐吗?
人类所期望的回答应该是具体的解决措施,比如给出具体的网址查看股票基金,甚至是xx股近期换手率、振幅…市场形势分析如下…(落实到点)而非泛泛而谈,甚至难以实践。
视觉多模态发模型的推理局限也存在,比如识别PPT地text与title,VLM会在内容块上错误划分。
两个必要条件
输入例条件:大模型需要深度耦合行业实际数据。
输出侧条件:现有大模型注重多样性文本生成等“文科生”能力,在严肃场合下需要“理科生”式的精确定量能力。
在介绍一系列实现方法和多智能体协同的精准求解系统后,然后引出了教授的成果,TableGPT,一个严肃大模型。
周天下午的讲座没去emm没什么感兴趣的话题。周六下午听的AI4S,但说实话感觉当时应该去听一听具身智能的。有一个话题是agent+三维重建,在LLM输入system message(tokenizer),egocentric image(2D encoder),3D scene(3D encoder)和instruction of {{user}},de-tokenize后得到text response和action response(以上一系列作为task sequence)

被折叠的 条评论
为什么被折叠?



