- 博客(20)
- 收藏
- 关注
原创 VideoMamba: State Space Model for Efficient Video Understanding
VideoMamba提出首个基于选择性状态空间模型(SSM)的纯视频理解框架,通过3D双向Mamba块和时空扫描策略实现高效长视频建模。该模型采用3D Patch嵌入将视频转为序列,结合自蒸馏训练和行遮盖预训练方法,在保持线性复杂度的同时兼具短期动作识别和长时序建模能力。实验表明VideoMamba在长短视频任务上均优于传统3D CNN和Transformer方法,尤其擅长处理高分辨率长序列,展现出作为下一代视频基础模型的潜力。
2025-11-16 21:23:19
1039
原创 Modeling Saliency Dataset Bias
论文链接: 核心问题: 显著性预测模型在跨数据集泛化时性能显著下降本文研究目标: 量化并消除这种“数据集偏差”导致的泛化鸿沟,提出一种仅需调整不到 20 个可解释参数的新架构,使得模型在新数据集上仅用 50 张图片就能恢复 75% 的泛化性能损失,并在 MIT300、CAT2000、COCO-Freeview 三大基准上刷新 SOTA。相对尺度:相对尺度将图像按像素维度缩放至不同大小,用于捕捉相对于整幅图像具有特定比例的视觉模式。绝对尺度:绝对尺度会把图像缩放到一个固定的 px/dva 值,例如 40 px
2025-10-14 22:07:07
658
原创 Cross-Attention:Multi-Modality Cross Attention Network for Image and Sentence Matching
论文链接: Multi-Modality Cross Attention Network for Image and Sentence Matching | IEEE Conference Publication | IEEE Xplore图像–句子匹配是视觉与语言之间的重要任务,能够为跨模态检索、图文理解、视觉问答等下游任务提供基础。现有方法分为两类:为解决这些问题,本文提出 多模态交叉注意力网络(MMCAN):MMCA 的框架流程如下——两路自注意力编码(图像/文本)→ 拼接做一次跨注意力 Transf
2025-09-01 17:25:43
845
原创 显著性预测:MDS-ViTNet
摘要:本文提出MDS-ViTNet模型,结合Vision Transformer与多解码器技术提升视觉显著性预测性能。该模型采用Swin Transformer编码器捕获长距离依赖关系,通过CNN解码器生成注意力图,有效减少信息损失。实验表明,该模型在多个基准测试中达到先进水平,验证了Transformer架构在眼动追踪任务中的优势。相关工作回顾了从传统特征方法到深度学习的演进历程,为模型设计提供理论基础。
2025-07-15 01:09:18
811
原创 M-LLM显著性预测:CaRDiff框架—CVPR2024
CaRDiff 框架的创新点多模态大型语言模型(MLLM):通过生成视频字幕,捕捉视频内容的高级语义信息。VSOR-CoT 方法:利用 MLLM 的推理能力,明确推导出显著目标的排名,而不仅仅是生成字幕。排名图:将显著目标的位置和排名信息编码为灰度值,为扩散模型提供明确的指导。
2025-05-13 00:40:01
1026
原创 眼动&医学: Shifts in Doctors’ Eye Movements Between Real and AI-Generated Medical Images
眼动与医学图像中的探究性研究
2025-04-28 01:32:37
672
原创 显著性预测论文:CASP-Net
本文提出了一种一致性感知音频-视觉显著性预测网络(CASP-Net),有效地解决了视频显著性预测中潜在的音频-视觉不一致性问题。
2025-04-19 22:22:33
853
原创 步骤0:Linux服务器按照Anaconda/Miniconda
创建虚拟环境: conda create -n LLMenv python=3.11 (3.11是最新的security)uname -m命令查询系统架构( x86架构: x86_64 或 amd64;ARM64架构: aarch64 )查看conda环境: conda info --envs 或者 conda env list。一路按Enter, 然后选Yes, 系统帮助自动配置Anaconda路径。
2025-04-08 00:52:14
192
原创 ACL-A论文,Character-LLM: A Trainable Agent for Role-Playing
本文提出 Character-LLM 的概念,专注于编辑特定角色的档案作为该角色的经历,并训练模型成为具有这些经历的个人模拟体。
2024-11-28 13:51:01
1777
原创 2024ACL顶会M-LLM论文分享:GroundingGPT: Language Enhanced Multi-modal Grounding Model
GroundingGPT是一个创新性的多模态大语言模型,旨在解决多模态理解问题。
2024-10-14 10:41:42
1311
1
原创 Llama3.1技术报告极简概况
Llama 3是一个具有405B参数的大模型, 在评估方面达到了GPT4的水平, 但在实用性等方面其实还并不能相比.Llama 3通过compositional这个方法添加了图片, 视频, 语音的能力.
2024-08-30 02:21:54
2067
原创 提示词工程综述: PROMPT DESIGN AND ENGINEERING: INTRODUCTION AND ADVANCED METHODS
为了能够最大程度上挖掘大语言模型的潜力, 提示词工程的设计现在至关重要.提示词工程在生成式AI模型中是一个迅速发展的新兴学科, 主要是通过设计最优prompt来帮助生成式模型实现特定目标.
2024-08-15 14:34:11
2606
1
原创 RAG综述性论文: Retrieval-Augmented Generation for Large Language Models: A Survey
近年来大语言模型(LLM)在NLP领域展现了强大的能力, 在多个评估基准上展现了卓越的语言掌握和知识理解能力; 但在处理特定领域, 知识密集型任务, 时代型知识时, 大语言模型可能无法提供准确答案, 产生严重的幻觉.
2024-07-17 18:19:18
3091
2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅