大模型论文整理

一、

文章主要提出基于认知科学的通用人工智能(AGI)测试框架 

1、框架核心维度:从晶体智力、流体智力、社会智力和具身智力四个维度评估模型。晶体智力是通过知识和经验积累形成的基础能力,LLMs 在语言理解和生成任务中已展现出这种能力;流体智力强调在新环境中的适应和灵活应变能力,涉及创造性思维、问题解决和逻辑推理等;社会智力关乎模型理解自身与他人、处理复杂社交场景的能力;具身智力则侧重于模型通过身体与环境的感知、适应和交互能力。

2、测试实施方式:将测试融入虚拟社区,利用虚拟现实技术模拟真实场景。在虚拟社区的日常对话和问答场景中,可评估模型的晶体智力,考察其知识掌握程度和回答的准确性、合理性;模拟火灾等紧急情况,能测试模型的流体智力,观察其应对未知复杂问题的策略和速度;通过组织小组讨论等复杂社交场景,评估模型的社会智力,判断其参与讨论和适应不同社交情境的能力;在需要模型实时感知和交互的场景,如消防场景中,评估具身智力,检验其环境感知、操作能力以及任务响应和结果。

3、结果解读要点:准确评估大模型能力,需确保测试方法与模型能力适配,避免出现假阴性和假阳性结果。假阴性是指模型实际具备某种能力,但因测试任务不匹配或输入信息处理不足等原因未被检测到;假阳性则是模型被错误地认为具备某种能力,可能是由于模型在某些记忆型任务中依靠强大记忆而非真正理解,或者盲目猜测正确答案。为减少这些误判,应设计与模型感知能力相符的测试任务,采用更精准的评估数据集。

文章创新点:多维度评估智能;融入认知科学理论,例如利用 n-back 任务评估工作记忆,以及通过理论心智(ToM)相关测试评估模型对他人心理状态的理解能力等1;采用虚拟社区测试环境;注重测试结果解读。

二、

这篇文章是一篇关于基于人工智能生成内容(AIGC)的脑条件多模态合成(AIGC-Brain)的综述。论文全面梳理了该领域的研究基础、模型方法、任务实施、结果评估,并探讨了面临的挑战与未来发展方向。

1、AIGC-Brain 方法分类:根据模型实现架构的特点,将 AIGC-Brain 解码模型分为 Map、Brain-Pretrain&Map(BPM)、Brain-Pretrain&Finetune&Align(BPFA)、Map&Train&Finetune(MTF)、End-to-End(E2E)和 Convolutional-Autoencoder&Align(CAEA)六种类型。

2、AIGC-Brain 任务与实现:详细介绍了 AIGC-Brain 的各种任务,包括 Image-Brain-Image(IBI)、Video-Brain-Video(VBV)、Sound-Brain-Sound(SBS)、Music-Brain-Music(MBM)、Image&Video&Speech-Brain-Text 等任务的具体实现策略和代表性模型其中,IImage-Brain-Image(IBI):指基于大脑信号进行图像合成的任务。在该任务中,先获取由图像刺激诱发的大脑信号,然后通过模型将这些信号解码,生成对应的图像。Video-Brain-Video(VBV):是基于大脑信号进行视频合成的任务。通过记录观看视频刺激时产生的大脑信号,运用特定的模型和算法,将这些信号转换为相应的视频内容。Music-Brain-Music(MBM):该任务利用大脑信号来重建音乐。Image&Video&Speech-Brain-Text:这是一个文本生成任务,包括从图像、视频或语音刺激诱发的大脑信号中生成文本描述。

3、AIGC-Brain 结果评估:从定性和定量两个方面评估 AIGC-Brain 的结果。定性结果通过展示生成内容与真实刺激的对比来评估,定量结果则使用多种视觉、听觉和文本评估指标,如 PixCorr、SSIM、CLIP 等,对模型性能进行量化比较。

三、

这篇论文(2024)提出了 EEGPT,即首个通过自回归预训练的通用脑电图基础模型

1、研究背景:脑电图(EEG)在神经科学研究中具有重要意义,但当前 EEG 模型多为针对单一数据集的专用模型,通用性差。构建通用 EEG 基础模型面临数据格式不一致、预训练范式过时、迁移学习方法有限等挑战。

2、EEGPT 模型:

  • 电极级建模策略:将每个电极作为基本单元处理 EEG 数据,统一不同数据集的信号格式,可支持多达 138 个电极及其任意组合,收集了 3750 万个预训练样本。
  • 自回归 EEG 预训练模型:提出首个自回归 EEG 预训练模型,以 “下一个信号预测” 任务替代传统的掩码自动编码器方法,有效捕捉 EEG 数据的序列和时间依赖性。探索了模型规模的缩放规律,EEGPT-Giant 参数达到 11 亿。
  • 多任务迁移学习范式:引入可学习的任务共享图网络,以电极作为节点,在多个任务间共享。通过多任务迁移学习,实现任务间的相互增强,验证了多任务兼容性和协同效应。

3、实验 :

  • 实验设置:开发了 EEGPT 的四种架构配置,采用 AdamW 优化器和 DeepSpeed Zero Optimization Stage 2 进行训练。对比了传统架构和前沿预训练模型等基线模型,使用 12 个数据集、5 个不同任务进行评估,采用跨主体范式和五折交叉验证。
  • 性能评估:EEGPT 在所有下游任务上均优于现有的专用模型,且随着模型规模增大,性能提升明显。研究还发现,当前主流的 EEG 预训练模型因域差异,在特定任务上微调效果不如从头训练的模型。
  • 消融研究:初步验证了模型大小和训练数据的缩放规律,发现自回归建模在 EEG 预训练中优于双向掩码预训练,多任务联合训练能实现任务间的相互增强,且模型在未见数据上具有良好的泛化表示能力。

4、研究结论:EEGPT 克服了现有 EEG 专用模型的局限性,在多个基准测试中表现出色,展示了其通用性和可扩展性,为通用 EEG 模型的研究和发展提供了新的思路和方向。

四、

这篇论文(2024)提出了 RealMind 框架,利用语义和几何一致性学习,增强基于 EEG 信号的视觉解码和语言交互能力在检索、重建和字幕生成任务中表现出色。

1、研究背景:从神经记录中解码视觉刺激是脑机接口(BCI)发展的关键挑战。EEG 虽有便携、成本低和时间分辨率高等优势,但在自然图像解码 / 重建任务中存在局限性。现有基于 EEG 的视觉解码研究取得了一定进展,但仍面临表示学习不稳定和缺乏可解释性等问题。利用视觉语言模型从 EEG 信号进行视觉解码具有潜力,但相关研究较少。

2、研究方法:

  • 模型架构:将原始 EEG 序列嵌入为令牌表示,应用通道注意力机制和时空卷积,提取相关特征,使 EEG 特征与 CLIP 提取的图像特征对齐,以适应下游任务。
  • 训练目标:引入语义一致性损失和几何一致性损失,结合对比损失和均方误差损失,通过凸组合训练模型,优化梯度下降方向,增强 EEG 与图像特征间的对齐。语义一致性损失衡量图像和 EEG 特征的余弦相似性矩阵差异,几何一致性损失通过高斯势能能量确保类内相似性。

3、实验: 

  • 实验设置:在 THINGS-EEG 数据集上进行实验,使用 AdamW 优化器,根据不同任务选择不同的损失函数和 CLIP 特征进行 EEG 特征对齐。测试集与训练集类别完全不同,确保零样本评估。
  • 检索结果:RealMind 在所有检索任务上的解码准确率显著优于现有方法,在 200 类零样本检索任务中 Top-1 准确率达到 27.58% ,Top-5 准确率达到 58.42%。消融实验表明,语义和几何一致性损失函数对提升性能有重要作用56。
  • 重建结果:在视觉重建任务中,RealMind 在 EEG 数据上的重建质量在多个指标上优于部分先进方法,如 SSIM 指标达到 0.373。
  • 字幕生成结果:RealMind 首次实现了基于 EEG 数据的零样本视觉字幕生成,在 200 类字幕生成任务中 BLEU-1 分数达到 26.59%。直接从 EEG 特征生成字幕的方式比先重建图像再生成字幕更准确。

4、研究结论:RealMind 通过语义和几何约束,有效提升了 EEG 视觉语义解码的精度和稳健性,在检索、重建和字幕生成任务中表现出色。未来研究将深化 EEG 与多模态数据的融合,开发统一框架,提升数据利用效率,推动基于 EEG 的 BCI 系统广泛应用。

 五、

这篇论文(NeurIPS 2024)提出 EEGPT 模型,通过创新方法提升 EEG 特征提取能力。

1、研究背景:EEG 在脑机接口等领域意义重大,但面临信噪比低、个体差异大、通道不匹配等问题,难以提取鲁棒通用的特征。现有基于 EEG 的自监督学习方法存在局限性,如难以学习抽象特征、对不同设备的适应性差等。

2、EEGPT模型:

3、实验过程: 

  • 实验准备:使用多个公共 EEG 数据集进行预训练和评估,涵盖多种任务范式。对数据进行裁剪、重参考、选通道、缩放和重采样等预处理,部分数据集还进行带通滤波。采用多种评估指标,对比多个基线模型。
  • 实验设置:实现 EEGPT 模型时,采用视觉 Transformer 并设置可学习的总结令牌。预训练使用 AdamW 优化器和 OneCycle 学习率策略,在多个 GPU 上进行 16 位混合精度训练。评估时,不同数据集采用不同的数据分割和验证方法,均使用线性探测法。

4、实验结果: 

  • 下游任务实验:在多个下游任务数据集上,EEGPT 相比其他模型表现更优,如在 TUEV 数据集上,平衡准确率提高了 9.5%,加权 F1 分数提高了 6.9%,证明其能有效提取高质量通用特征,适用于多种任务范式。
  • 消融实验:去除对齐损失、层归一化或跳跃连接会导致模型性能下降,表明双自监督方法有效,时空对齐可提升 EEG 表示质量。
  • 预训练实验:随着模型规模和总结令牌数量增加,重建损失减少,下游任务性能提升,呈现一定的缩放规律。大模型在下游任务中准确率更高。

5、结论: EEGPT 通过双自监督预训练,在多任务中表现出色,优于主流模型,具有良好的扩展性。未来将进一步丰富预训练数据集,扩大模型规模和应用范围。

[1] Qu Y, Wei C, Du P, et al. Integration of cognitive tasks into artificial general intelligence test for large models[J]. Iscience, 2024, 27(4).

[2] Mai W, Zhang J, Fang P, et al. Brain-conditional multimodal synthesis: A survey and taxonomy[J]. IEEE Transactions on Artificial Intelligence, 2024.

[3] Yue T, Xue S, Gao X, et al. EEGPT: Unleashing the Potential of EEG Generalist Foundation Model by Autoregressive Pre-training[J]. arXiv preprint arXiv:2410.19779, 2024.

[4] Li D, Qin H, Wu M, et al. RealMind: Advancing Visual Decoding and Language Interaction via EEG Signals[J]. arXiv preprint arXiv:2410.23754, 2024.

[5] Wang G, Liu W, He Y, et al. Eegpt: Pretrained transformer for universal and reliable representation of eeg signals[J]. Advances in Neural Information Processing Systems, 2024, 37: 39249-39280.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值