自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 VideoMamba: State Space Model for Efficient Video Understanding

VideoMamba提出首个基于选择性状态空间模型(SSM)的纯视频理解框架,通过3D双向Mamba块和时空扫描策略实现高效长视频建模。该模型采用3D Patch嵌入将视频转为序列,结合自蒸馏训练和行遮盖预训练方法,在保持线性复杂度的同时兼具短期动作识别和长时序建模能力。实验表明VideoMamba在长短视频任务上均优于传统3D CNN和Transformer方法,尤其擅长处理高分辨率长序列,展现出作为下一代视频基础模型的潜力。

2025-11-16 21:23:19 1039

原创 Modeling Saliency Dataset Bias

论文链接: 核心问题: 显著性预测模型在跨数据集泛化时性能显著下降本文研究目标: 量化并消除这种“数据集偏差”导致的泛化鸿沟,提出一种仅需调整不到 20 个可解释参数的新架构,使得模型在新数据集上仅用 50 张图片就能恢复 75% 的泛化性能损失,并在 MIT300、CAT2000、COCO-Freeview 三大基准上刷新 SOTA。相对尺度:相对尺度将图像按像素维度缩放至不同大小,用于捕捉相对于整幅图像具有特定比例的视觉模式。绝对尺度:绝对尺度会把图像缩放到一个固定的 px/dva 值,例如 40 px

2025-10-14 22:07:07 658

原创 Cross-Attention:Multi-Modality Cross Attention Network for Image and Sentence Matching

论文链接: Multi-Modality Cross Attention Network for Image and Sentence Matching | IEEE Conference Publication | IEEE Xplore图像–句子匹配是视觉与语言之间的重要任务,能够为跨模态检索、图文理解、视觉问答等下游任务提供基础。现有方法分为两类:为解决这些问题,本文提出 多模态交叉注意力网络(MMCAN):MMCA 的框架流程如下——两路自注意力编码(图像/文本)→ 拼接做一次跨注意力 Transf

2025-09-01 17:25:43 845

原创 显著性预测:MDS-ViTNet

摘要:本文提出MDS-ViTNet模型,结合Vision Transformer与多解码器技术提升视觉显著性预测性能。该模型采用Swin Transformer编码器捕获长距离依赖关系,通过CNN解码器生成注意力图,有效减少信息损失。实验表明,该模型在多个基准测试中达到先进水平,验证了Transformer架构在眼动追踪任务中的优势。相关工作回顾了从传统特征方法到深度学习的演进历程,为模型设计提供理论基础。

2025-07-15 01:09:18 811

原创 显著性预测 SUM

显著性预测

2025-06-30 23:00:58 974

原创 [RL工程论文] TORL: Scaling Tool-Integrated RL

关于训练大语言模型工具调用能力的RL方法

2025-06-11 19:39:04 1294

原创 M-LLM显著性预测:CaRDiff框架—CVPR2024

CaRDiff 框架的创新点多模态大型语言模型(MLLM):通过生成视频字幕,捕捉视频内容的高级语义信息。VSOR-CoT 方法:利用 MLLM 的推理能力,明确推导出显著目标的排名,而不仅仅是生成字幕。排名图:将显著目标的位置和排名信息编码为灰度值,为扩散模型提供明确的指导。

2025-05-13 00:40:01 1026

原创 眼动&医学: Shifts in Doctors’ Eye Movements Between Real and AI-Generated Medical Images

眼动与医学图像中的探究性研究

2025-04-28 01:32:37 672

原创 显著性预测论文:CASP-Net

本文提出了一种一致性感知音频-视觉显著性预测网络(CASP-Net),有效地解决了视频显著性预测中潜在的音频-视觉不一致性问题。

2025-04-19 22:22:33 853

原创 MySQL速成

速成MySQL

2025-04-17 21:39:25 334

原创 面向力扣的Python速成经验(随时更新ing)

速成python,适用于有其他语言基础(如C)的同学

2025-04-09 00:39:29 339

原创 大语言模型部署技术经验博客(阶段性持续更新ing......)

大模型部署

2025-04-08 01:29:28 579

原创 步骤0:Linux服务器按照Anaconda/Miniconda

创建虚拟环境: conda create -n LLMenv python=3.11 (3.11是最新的security)uname -m命令查询系统架构( x86架构: x86_64 或 amd64;ARM64架构: aarch64 )查看conda环境: conda info --envs 或者 conda env list。一路按Enter, 然后选Yes, 系统帮助自动配置Anaconda路径。

2025-04-08 00:52:14 192

原创 ACL-A论文,Character-LLM: A Trainable Agent for Role-Playing

本文提出 Character-LLM 的概念,专注于编辑特定角色的档案作为该角色的经历,并训练模型成为具有这些经历的个人模拟体。

2024-11-28 13:51:01 1777

原创 2024ACL顶会M-LLM论文分享:GroundingGPT: Language Enhanced Multi-modal Grounding Model

GroundingGPT是一个创新性的多模态大语言模型,旨在解决多模态理解问题。

2024-10-14 10:41:42 1311 1

原创 GraphRAG综述性文章解读

GraphRAG

2024-09-26 22:07:15 1144

原创 Llama3.1技术报告极简概况

Llama 3是一个具有405B参数的大模型, 在评估方面达到了GPT4的水平, 但在实用性等方面其实还并不能相比.Llama 3通过compositional这个方法添加了图片, 视频, 语音的能力.

2024-08-30 02:21:54 2067

原创 提示词工程综述: PROMPT DESIGN AND ENGINEERING: INTRODUCTION AND ADVANCED METHODS

为了能够最大程度上挖掘大语言模型的潜力, 提示词工程的设计现在至关重要.提示词工程在生成式AI模型中是一个迅速发展的新兴学科, 主要是通过设计最优prompt来帮助生成式模型实现特定目标.

2024-08-15 14:34:11 2606 1

原创 Zotero问题解决汇总(自用)

Zotero问题汇总(自用)

2024-08-07 16:15:26 1898 1

原创 RAG综述性论文: Retrieval-Augmented Generation for Large Language Models: A Survey

近年来大语言模型(LLM)在NLP领域展现了强大的能力, 在多个评估基准上展现了卓越的语言掌握和知识理解能力; 但在处理特定领域, 知识密集型任务, 时代型知识时, 大语言模型可能无法提供准确答案, 产生严重的幻觉.

2024-07-17 18:19:18 3091 2

计算机网络 自顶向下 中文版

计算机网络 自顶向下 中文版

2024-12-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除