- 博客(7)
- 收藏
- 关注
原创 阅读经典- Attention Is All You Need
论文《Attention Is All You Need》提出了 Transformer 模型,这是一种完全基于注意力机制的全新神经网络架构,摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),通过自注意力(Self-Attention)和多头注意力(Multi-Head Attention)机制实现高效的序列建模与转换,显著提升了机器翻译等任务的性能与训练效率。此架构通过完全去循环化、多头注意力并行与位置编码,解决了传统模型的长程依赖建模低效问题,为后续大模型(如 BERT、GPT)奠定基础。
2025-05-06 20:01:02
567
原创 重拾经典--CNN
短短十年,AI的进化仿佛按下快进键——从AlexNet在ImageNet石破天惊的一战,到ChatGPT以‘万亿参数’掀起对话革命;从卷积网络笨拙地识别手写数字,到多模态大模型从容解读世界。算力狂飙下,代码有了‘想象力’,数据炼成了‘通才’,曾经科幻的边界被一寸寸烧穿。我们站在算力与算法的风暴眼,目睹智能的边界以月为单位崩塌重建;在感叹技术革新的同时,偶尔也在思考之前的经典-CNN在当前任务中的作用和局限性,下面我简单回顾下CNN的技术演进历程,以及CNN对于当前大模型的重要贡献。
2025-04-28 14:36:40
1747
原创 论文阅读-关于多模态⼤型语⾔模型的综述
图 2:典型的多模态语⾔模型架构⽰意图。本文系统综述了多模态大型语言模型(MLLM)的发展背景、核心架构、技术特点及扩展应用,阐明其通过融合大型语言模型(LLM)与大型视觉模型(LVM)的优势,突破传统单模态模型的局限性,实现多模态信息的理解与生成,并探讨其在多领域应用的潜力与未来研究方向。本部分详细解析了多模态大型语言模型(MLLM)的核心架构设计,包括模态编码器、语言模型(LLM)和模态接口三大模块,阐述了各模块的功能实现、技术选型与优化策略,并对比了不同设计方案的性能差异及适用场景。
2025-04-24 17:59:22
1978
1
原创 论文阅读-多模态⼤型语⾔模型:综述
多模态模型的核心价值定义:整合图像、文本、音频等多模态数据,突破传统纯文本大模型(LLMs)的局限性。优势支持跨模态任务(如视觉推理、多模态生成),在常识推理中性能优于单模态模型。为通用人工智能(AGI)提供基础,增强与现实世界的交互能力。代表模型:GPT-4(支持图文输入,接近人类表现)、多模态机器人技术等。与传统LLM的对比传统LLM局限:仅基于文本训练,缺乏视觉、听觉等模态的感知能力。多模态LLM突破:通过跨模态数据融合,扩展至高价值领域(如文档智能、机器人控制)。应用潜力场景。
2025-04-17 20:24:56
2004
1
原创 论文笔记-HOLODECK:语⾔引导的 3D 具⾝⼈⼯智能环境⽣成系统
HOLODECK通过LLM与3D资源库的结合,实现了语言驱动的3D环境自动生成,为具身AI提供了低成本、高多样性的训练环境,是迈向通用具身智能的重要一步。其方法在生成质量、布局合理性和任务适应性上均优于现有技术该段文字系统解析了HOLODECK“语言解析→模块化生成→约束优化”的全链路技术方案,凸显其通过LLM语义控制+数学优化+海量资源库的三重创新,实现高定制化、物理合理且支持具身AI训练的3D环境生成能力。
2025-04-11 17:58:04
635
1
原创 论文笔记-通⽤视觉语⾔机器⼈交互模拟框架
研究背景与问题现有挑战资产分散:不同模拟平台的3D资产(场景、物体)格式不统一,复用性差。数据成本高:真实世界数据收集成本昂贵,且硬件泛化能力有限。交互任务单一:现有基准任务(如导航、操作)缺乏对复杂社交交互和协作的评估。核心贡献统一可扩展的模拟框架生成驱动的3D资产构建:整合语言驱动的场景生成(HOLODECK)、图像到3D物体重建(TripoSR)、可控关节物体生成(CAGE)等方法,支持无限扩展场景和物体。Real2Sim流程改进。
2025-04-09 17:53:02
724
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人