今年浦江AI学术年会个人感想与少部分知识的见解-优快云博客

开场

周伯文主席上台也是抛出了很多的问题呀，下面主流问题也是后面平行会议的内容主题。
1.自回归大模型在Scaling Law之外有其他选择吗？
2.具备Scale up潜力的模型架构演进方向在何方？
3.探索通往AGI的道路，评测能做什么？
4.我们需要什么样的AI4S基座模型？
5.公开高质量数据即将用尽了吗？如何未雨绸缪？
6.不同具身技术路线的能力边界在何处？
7.AI能力的提升是带来还是解决AI安全问题？
还有其他的问题也一并显示了，但是这七个是最高亮的，确实也可以说是当下最让人关心的问题罢。

马毅老师也讲解了通向通用人工智能，为了理解智能，个人需要知道如何从计算上实现：

incomputable:Kolmogorov & Solomonoff：个人觉得这里应该是Kolmogorov复杂度和Solomonoff induction。后者恰好是体现了奥卡姆剃刀，Kolmogorov复杂度和贝叶斯推理思路的综合体。前者简单来说，就是描述这个字符串所需的最短信息量，后者的先验概率是 $2^{-K(M)}$ ，其中 $K (M)$ 是程序M的Kolmogorov复杂度。在理论上，Solomonoff Induction被证明是渐进最优的，这就跟大数定律差不多了。
computable:Turing & Shannon：图灵机，熵，应该就这两个。前者感觉延伸出好多东西，包括数学的不完备性，NLP的下推自动机，基本定义的NP-hard和co-NP等，也是量子计算理论的基础。Shannon的熵，交叉熵，条件熵也是AI，信工等都在用的。
tractable:NP vs P：没啥好说的。
scalable:DNN and BP：深度神经网络和反向传播算法下的神经网络，最近听说有液态神经网络了，也是十分的神奇，总之神经网络种类挺多的。
natural:马毅老师认为闭环反馈的系统，能够通过自我纠错和知识的不断更新来推动智能进化，这个在圆桌会议上马毅老师又强调了一次。

马毅老师还认为机器智能的三步走是：

Pretrain big models to memorize knowledge(like the DNA).
Each System can autonomously learn new knowledge(like the animal’s brain).
Abstraction,logic and causal reasoning,mathematics(like the human’s brain).

高中生物书有言人脑具有记忆、语言、思维、情绪等功能。情绪暂时放一边，记忆、语言、思维是目前具有智能的机器需要做到的事情。马毅老师认为目前的AI技术是在第一阶段到第二阶段的转折点。

过去马毅老师花了很多精力在Transformer这个黑盒模型用白盒数学可解释的项目上，也在23年发布了论文，模型叫CRATE，其学习一个增量映射序列来获得最压缩稀疏的的表征，后面没搞懂…但是增量映射也就是三种。
$\times D \to Y \qquad g:X \to Y \qquad h:X \to D \times Y$
一种类似有监督，一种类似无监督，第三种大概是在线学习+无监督+分类变体（？）

陈宝权教授认为智能的定义可以很广泛，黑盒模型在当下的某些应用中足够，但白盒模型在理解人类的智能上可能有优势，也许黑盒和白盒的交叉使用或者混合是新阶段，相信未来有更多的创新出现。

另补充：
大模型与超级智能专题论坛：大模型复杂推理的相关思考：
o1复现几点认识：
1.据刘鹏飞教授所言，通过简单的蒸馏与监督微调（Supervised Fine-Tuning)就可以超过o1-preview
2.o1的thinking思考模式（im thinking about）这种内心独白的，最近的gemini-exp-1206在长输入token下也会有类似中期检查的ai继续判断是否满足相关信息再生成，不仅上下文连贯而且主题更符合user prompt（推测是认知工程的自我反思）。o1思考行为：RL多次迭代甚至iterative DPO (Direct Preference Optimization) （直接优化模型来符合人类对于不同模型输出偏好）就能学会。
3.o1技术路线中最耗时的是"search"+冷启动标注。
4.但是最重要的，不能只满足于基于蒸馏和简单RL的技术栈，这样只是培养了一波prompt engineering的工程师而非基于第一性原理开发新方案的研究者。

刘鹏飞教授也提到，目前的提示工程（Prompt Engineering）领域的一个新趋势是认知工程（Cognition Engineering），思维链（Chain of Thought）和思维树（Tree of Thought）是一个方面，前些天华为好像推出了思维森林(Forest of Thought)，图搜索是自然的。
第二个方面是一些复杂问题确实需要分解到多个简单问题逐个击破，但有些问题不需要，只需要击破一个简单问题自然而然可以推广到复杂问题，这也是Least-to-Most Prompting想要解决的罢！将复杂任务分解成一系列更简单的子任务，并引导模型逐步解决这些子任务。
自我反思，Self-Refine。

现有大模型局限

“片汤话”：只定性、纯科普，不能完成具体的领域任务。
比如你询问GPT（刘鹏飞教授给出例子的可能是gpt-4）：现在市场整体情况不太好，我需要找一些符合当前市场形势的股票和基金，有什么推荐吗？
人类所期望的回答应该是具体的解决措施，比如给出具体的网址查看股票基金，甚至是xx股近期换手率、振幅…市场形势分析如下…（落实到点）而非泛泛而谈，甚至难以实践。

视觉多模态发模型的推理局限也存在，比如识别PPT地text与title，VLM会在内容块上错误划分。

两个必要条件

输入例条件：大模型需要深度耦合行业实际数据。
输出侧条件：现有大模型注重多样性文本生成等“文科生”能力，在严肃场合下需要“理科生”式的精确定量能力。
在介绍一系列实现方法和多智能体协同的精准求解系统后，然后引出了教授的成果，TableGPT，一个严肃大模型。

周天下午的讲座没去emm没什么感兴趣的话题。周六下午听的AI4S，但说实话感觉当时应该去听一听具身智能的。有一个话题是agent+三维重建，在LLM输入system message(tokenizer)，egocentric image(2D encoder)，3D scene(3D encoder)和instruction of {{user}}，de-tokenize后得到text response和action response（以上一系列作为task sequence)