问:
2024年大模型LLM还有哪些可研究的方向?
答:
前言
纯属brainstorm,欢迎大家一起探讨。想到哪里说到哪里,有遗漏的点欢迎大家在评论区中指出。
个人认为现在LLM能做的点还很多,这个行业距离饱和还有一段距离。这里通过“输入、模型/范式、输出、其他”几个方面来展开,个人觉得比较看好的方向加粗标出:
-
输入
-
- 数据优化
- RAG
-
模型/范式
-
- LLM + Robotics-Agent-统一模态生成-Vision-Language Models-架构设计
-
输出
-
生成内容安全问题
-
评测问题
-
其他
-
NLP经典任务
-
垂类大模型
-
交叉学科
输入
这一节就跟pre-training、instruction tuning、RLHF的经典三阶段比较相关了,其实也可以叫数据,而数据的重要性自然不用多说。
数据优化
目前的工作基本都是**“大规模语料 + 人工高质量数据集”** 的方式进行暴力求解,在输入上通过设计进行优化还是有一定可行之处的。
其实CV这边还是有很多类似做法可以参考的,尤其是做diffusion models的,同样也是做生成,有很多方面有一定共通之处。比方说最经典的Stable Diffusion,从最早的v1.4到v2.0,再到v2.1,也是通过在256×256、512×512、768×768分辨率上递进式的fine-tune完成的。
迁移到LLM这一块,对于pre-training的时候语料的处理,可以做ranking,包括fine-tune的时候做continual learning、active learning等等,理论上可做的事以及相应的效果应该也是相近的。
关于data augmentation方面,之前看过一篇在LLM训练过程中往intermediate feature加高斯噪声的工作,证明了能够带来性能提升。结论其实是比较有趣的,往intermediate feature加入噪声的做法可以理解为一种latent space上的data augmentation但如此简单的做法恰好证明了其有效性,说明在数据增强这一块可做的设计还有很多。
RAG
RAG这一块属于是去年比较火的一个点了,尤其是针对大模型“幻觉”的这个痛点,个人认为还可以做,但属于比较卷的方向,今年的研究应该会有数量上的骤增。可以看下RAG的近几年的文章情况:
可以看到,2023年RAG的工作已经出现了明显的大幅增加,而大多数还是集中在做推理,也就是说,预训练和微调还有研究空间。可以参考下图汇总目前RAG的研究范式展开:
另一方面可以考虑的是模态信息上的拓展。目前看来做Vision-Language Models(VLM)已经是一个必然趋势了,而RAG方法主要用于检索文本证据,检索其他模态信息来增强生成还是有研究空间的。
模型/范式
“模型/范式”这一方面是个人比较看好的方向。 目前AI巨头的动作也集中于这一块,预计2024年这一块可研究的方向比较多,当然估计也会快速地卷起来。
LLM + Robotics
前段时间OpenAI发布了Figure 01,虽然说热度可能没有Sora那么高,不过说明LLM在做planning这件事上已经有了初步的成果,想必这件事情的公布势必会带动很多的相关研究。
Agent
Figure 01的意义其实不仅限于robotics,其实也证明了agent的想法确实可行,agent势必会成为今年的一大热点。其实早在去年,各大厂商都纷纷开始入场agent了.
学术界也不例外,这里举一些比较经典的例子:比方说早期的HuggingGPT,出自《HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face》
ToolFormer,出自《Toolformer: Language Models Can Teach Themselves to Use Tools》,https://arxiv.org/pdf/2302.04761.pdf。
尤其是去年Stanford的西部小镇,出自《Generative Agents: Interactive Simulacra of Human Behavior》,https://arxiv.org/pdf/2304.03442.pdf,给人的印象非常深刻:
统一模态生成信息
这一点其实是长久以来CV和NLP研究者关注的问题, 也就是多模态大一统的问题。而在生成这个角度上其实已经有一些统一范式了,无论是Diffusion-Based还是LLM-Based。而LLM-Based的解决方案中,真正的难点在于如何通过token这个概念表征其他模态的数据。
目前统一文本、图像模态的工作已经有很多,解决方案也很自然,采用VQ-VAE系列的压缩模型将图像表征为image token,LLM只需要学会怎么预测image token即可。而下一步的生成面向的必然是视频和3D。如果能解决好video和3D的token representation问题,那么统一模态生成就能进一步拓展,这其中还是有较大难度的,非常值得深挖。另外结合我个人非常有感触的一张图,也同样能说明这个问题:
Vision-Language Models
对于VLM来说,图像相关的工作已经日趋饱和了,类似MiniGPT-4、LLaVA、mPlug-owl、CogVLM的经典工作已经有不少了,大多采用“Visual Encoder + LLM”的桥接形式,例如最经典的MiniGPT-4:
而前面说到,视频和3D必定是下一波热点的研究方向。将LLM与更多的模态信息“桥接”,肯定是可以做的,不过这样的idea也很容易想到,个人认为VLM应该会非常卷。加上还要面对OpenAI这个大魔王,应该会有一定的研究压力。
另外一个比较值得研究的问题是:跨模态信息对齐之后能做什么?其实去年一些工作已经证明,LLM除了常见的Visual QA、captioning这些任务,也能一定程度完成vision-oriented的任务,例如有些研究会用VLM在object detection上做验证,以此体现VLM的visual understanding能力,这其实说明LLM的应用并不局限于text-oriented的下游任务。
架构设计
架构设计方面,其实近段时间的一些工作动向也证明了目前LLM在架构设计上还有较大创新空间。比方说去年比较惊艳的Mistral-7b,包括前不久马斯克宣布开源的Grok-1等等,基本都采用MoE的架构在做,个人觉得这其实是一个比较好的开始。LLM的模型架构自2022年以来就雷打不动,绝大部分研究都在沿用前人的默认设定,而对于这些默认设定上存在的问题,绝对是有研究可做的。
其实反观diffusion models的发展也类似,从2020年DDPM推出以来,4年时间绝大部分的研究都在沿用U-Net的默认架构,今年的Sora,包括Stable Diffusion 3中首次不约而同用到了Diffusion Transformer,证明了模型架构上确实是有值得创新之处。类比到LLM上也同理。
另一方面,Scaling Law肯定是一个值得研究的方向。 类似的还有关于LLM的可解释性,目前LLM大部分研究都是靠数据和算力的堆积来暴力求解,如果能够摸索出一定的理论依据,对于工业界或者是学术界来说都会是非常难得的研究。类似的方向还有LLM幻觉问题上的相关研究。
输出
生成内容安全问题
生成内容的安全问题其实也在逐渐受到近期研究的关注了,比方说LLaMa 2中就有特别关注这个问题。其实生成内容的安全问题涉及很多其他的应用,比方说垂类应用。无论是金融、法律、医疗,这些特定领域在内容安全性上都会比general domain的要求要更高。能给出安全性问题的一定解决方案,对于整个社区来说肯定是有贡献的。
具体解决安全问题其实跟前面提到的几个点有一定交叉,例如从数据层面上做优化、微调阶段做优化、RAG,等等,这里就不再展开了。
评测问题
个人认为evaluation其实是LLM研究中最值得研究的一个点,但是同时也是很难的一点。无论是现在的打榜、human evaluation、GPT打分,其实都很难全面去评价LLM,导致LLM在实际应用过程中并没有指标体现出来的那样好用。
而如果能有一个自动化的评测指标,最好能够结合LLM的理论基础进行设计,我觉得是目前社区比较需要的一个方向。 当然,前面也说到,LLM的可解释性也是一个待解决的问题,相关指标的设计也同样具有挑战。
其他
NLP经典任务
这可能是一个比较小众的点。其实也是个人一直在思考的一个问题,LLM时代下究竟怎么样做NLP的经典任务? 比方说parsing、句法相关的任务,LLM的设计跟这些任务之间肯定是存在一些gap的,而怎样将language models在大规模数据上获得的能力迁移在这些经典任务上,其实相关的工作仍比较少。
垂类大模型
无论是工业界还是学术界,垂类大模型一直以来都是研究热点之一。垂类大模型中与前面说到的数据优化、内容安全、评测问题都高度耦合。对于不同的垂直领域,垂类大模型面临的最大问题还是domain gap。具体来说就包括很多方面了,例如特定领域数据上的问题,通常具有领域特性,但数据量有限;内容安全上,比方说金融、法律、医疗大模型,对安全性的需求都比通用大模型要高;评测问题,就拿医疗大模型举例,还需要跟专业的医疗知识结合才能有效评测,等等;技术上还涉及LLM fine-tuning、domain adaptation,等等,甚至一些领域对于context length、memory、continual learning、active learning等技术有特定需求。可做的点还是比较丰富的。
交叉学科
这点其实也是比较有“学术味道”的一类研究,文章工作本身更倾向于分析类而并非实验。通常将LLM与其他学科交叉进行分析,例如语言学、政治学、社会学、心理学,等等。这类分析文章实验代价通常相对较小,更侧重统计、可视化、消融实验等分析性质的实验,但同时也需要掌握相关学科的专业知识,有一定的门槛。
比较有代表性的工作在ACL 2023的best paper就有,例如《Do Androids Laugh at Electric Sheep? Humor “Understanding” Benchmarks from The New Yorker Caption Contest》,https://aclanthology.org/2023.acl-long.41.pdf.研究LLM是否能理解幽默:
ACL 2023 best paper的另一篇则是对LLM的政治偏见进行研究,出自《From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Leading to Unfair NLP Models》,虽然小众但是还挺有意思的:
值得一提的是,ACL 2023 best paper剩下一篇文章是对Stable Diffusion Cross-Attenion机制的研究。 包括Stanford西部小镇 《Generative Agents: Interactive Simulacra of Human Behavior》,pdf中也有关于AI agents交互与社会传播学的研究,例如下图中就是关于特定任务的一个case study:
如何学习AI大模型?
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费
】
一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模型商业化落地方案
作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。