- 博客(65)
- 收藏
- 关注
原创 【论文阅读】TrojVLM: Backdoor Attack Against Vision Language Models
多模态大模型后门注入方式
2025-09-10 21:15:10
452
原创 【论文阅读】Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift
视觉语言大模型后门注入泛化新方法
2025-09-09 20:44:16
722
原创 【论文阅读】Safety is Not Only About Refusal: Reasoning-Enhanced Fine-tuning for Interpretable LLM Safety
CMU大模型安全SFT方法论文详解
2025-09-03 17:49:41
854
原创 【论文阅读】UNDERSTANDING AND ENHANCING SAFETY MECHANISMS OF LLMS VIA SAFETY-SPECIFIC NEURON
大模型安全神经元论文详解
2025-09-01 18:21:17
638
原创 【论文阅读】How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective
大模型在检索过程中的可解释性论文详解
2025-08-12 15:59:39
753
原创 【论文阅读】Transformer Feed-Forward Layers Build Predictions by Promoting Concepts in the Vocabulary Spac
transformer中FFN层对于输出分布的作用论文详解
2025-08-07 18:11:14
973
原创 【论文阅读】Transformer Feed-Forward Layers Are Key-Value Memories
transformer中的FFN的作用分析——论文详解
2025-08-05 11:24:58
1239
原创 【论文阅读】KDProR: A Knowledge-Decoupling Probabilistic Framework for Video-Text Retrieva
开放知识的文本视频检索模型KDProR论文详解
2025-08-04 11:52:59
948
原创 【论文阅读】Editing Large Language Models: Problems, Methods, and Opportunities
大模型编辑技术的综述性论文详解
2025-08-03 00:05:18
730
原创 【论文阅读】Safety Alignment Should Be Made More Than Just a Few Tokens Deep
token级大模型安全深度论文详解
2025-07-28 19:23:41
1403
原创 【论文阅读】ON THE ROLE OF ATTENTION HEADS IN LARGE LANGUAGE MODEL SAFETY
注意力头在大模型安全中的作用分析--论文详解
2025-07-27 23:35:20
1206
2
原创 【论文阅读】How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States
大模型安全对齐以及越狱攻击原理论文讲解
2025-07-25 18:10:51
1159
原创 【论文阅读】REVISITING DEEP AUDIO-TEXT RETRIEVAL THROUGH THE LENS OF TRANSPORTATION
任务定义音频-文本检索的目标是学习音频与其对应文本描述之间的跨模态对齐关系系统要能理解某段音频应该对应哪段文本描述(反之亦然)。对齐方式学习一个联合嵌入空间,能将音频和文本映射到同一个空间中,使得它们之间的相似性可以直接比较。主流方法当前最有效的方法是对比学习,能训练出具有良好表现力的跨模态嵌入空间。给定训练数据Dxiyii1nD{(xiyii1n,m-LTM 目标是最小化 mini-batch 版本的 KL 散度:bbb。
2025-07-24 18:58:44
883
原创 【论文阅读】On Metric Learning for Audio-Text Cross-Modal Retrieval
给定一个音频-文本数据集Daitii1ND{(aitii1Naia_iai是音频片段tit_iti是配对的文本描述aiti(a_i, t_i)aiti是正样本对aitj≠iaitji是负样本对模型架构音频编码器fff:将音频映射到共享嵌入空间。文本编码器ggg:将文本映射到共享嵌入空间。相似度计算音频aia_iai和文本tjt_jtj的相似度s。
2025-07-24 11:44:30
1141
原创 【DEBUG】Debug日志001:RL项目记录
还是cuda越界,和cu93似乎略有区别。:wandb初始化超时,因为连不上网。:配置文件中,将其设置成离线模式。:调整参数传递顺序之后,成功运行。
2025-07-18 13:26:49
488
原创 【论文阅读】Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
下一尺度预测——视觉自回归方法VAR论文讲解
2025-07-05 12:17:19
819
1
原创 【论文阅读】DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning
小红书最新VLM--DeepEyes论文讲解
2025-07-02 12:31:24
1110
1
原创 【论文阅读】SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning
字节跳动最新自我反思强化学习机制--SRPO论文讲解
2025-06-29 18:09:11
1235
1
原创 【论文阅读】UniRL: Self-Improving Unified Multimodal Models via Supervised and Reinforcement Learning
Self- Improving的统一生成模型UniRL论文详解
2025-06-28 12:10:11
1185
1
原创 【论文阅读】Video-R1: Reinforcing Video Reasoning in MLLMs
MMlab最新视频推理模型 Video-R1论文讲解
2025-06-28 00:07:46
903
2
原创 【论文阅读】X-REASONER: Towards Generalizable Reasoning Across Modalities and Domains
微软研究院提出全新多模态大模型的强化学习和迁移学习新方法
2025-06-25 02:32:46
753
1
原创 【论文阅读】R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning
多模态奖励模型强化学习训练方法--R1-Reward论文详解
2025-06-24 01:51:53
756
1
原创 【论文阅读】VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning
视频方向强化学习模型--VideoChat-R1模型论文讲解
2025-06-02 16:04:14
1090
1
原创 【论文阅读】DanceGRPO: Unleashing GRPO on Visual Generation
DanceGRPO:第一个视觉生成大一统强化学习框架--论文详解
2025-05-30 18:13:45
2497
1
原创 【论文阅读】LLaVA-OneVision: Easy Visual Task Transfer
多模态大模型LLaVA- OneVision论文详解
2025-05-23 17:08:19
2803
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅