去年初,我曾打算撰写一篇关于端到端自动驾驶的文章,发现大模型在自动驾驶领域的尝试案例并不多。遂把议题扩散了一点,即从大模型开始,逐渐向自动驾驶垂直领域靠近,最后落地到端到端。这样需要阐述的内容就变成LLM基础模型、LLM+自动驾驶以及端到端自动驾驶核心内容等三部分。
上图是我司总结的大模型经典论文拓扑图,欢迎各位拍砖帮助更新,使得最终能落地到端到端自动驾驶。
LLM基础模型核心论文
- InstructGPT: Training language models to follow instructions with human feedback;
- CLIP: Learning Transferable Visual Models From Natural Language Supervision;
- BLIP:用于统一视觉语言理解和生成的Pre-training;
- BLIP-2: 使用冻结图像编码器和大型语言模型的Pretraining;