自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 VTimeLLM:Empower LLM to Grasp Video Moments

当前的video LLM只能针对整个视频提供粗糙的(coarse)描述,难以捕捉到某一特定场景的精确的起止。本作中,我们解决了这个问题。我们提出了一种新颖的Video LLM框架:针对细粒度动作理解和推理(从时间范围的角度)。具体来说,我们的模型采用了一种boundary-aware的三阶段训练框架,从以下三个角度有改进:1. 利用了图片-文本对来进行特征对齐;2. 多事件视频来增加模型的时间范围意识;3. 高质量的视频-指令ft来进一步提升时间理解能力(与人类意图对齐)。

2024-08-26 13:50:32 1060

原创 ViP-LLaVA:Making Large Multimodal Models Understand Arbitrary Visual Prompts

现存的VLLM关注整张图片的理解,与局部区域理解之间存在一个显著的(prominent)gap。近期的方法通过利用文本坐标系(textual coordinate)或者空间的编码(spatial encodings),然而往往推理过程中对用户不友好(写视觉prompt时)。为了解决这一挑战,我们提出了一种新的模型能解码任意的视觉提示词。它使用户可以凭直觉(intuitively)来标记图片,通过天然的提示(红色的框、箭头)来和模型交互。

2024-08-25 16:37:16 524

原创 Alpha-CLIP: A CLIP Model Focusing on Wherever You Want

为了。

2024-08-20 10:49:01 789

原创 基于群适应融合网络提高说话人验证的公平性

Index Terms:群speaker分布不均、embedding adaptation、score fusion

2023-01-11 15:29:44 134

原创 鲁棒SV--解纠缠的说话人embedding

Index Terms:域适应、自监督、triplet-loss

2023-01-11 14:59:53 159

原创 CS-REP: SV网络的交叉序列重参数化

Index Terms:推理加速、重参数化

2023-01-11 14:42:10 168

原创 用于改进说话人验证的对比混合学习

Index Terms:mixup、度量学习、prototypical loss

2023-01-11 14:20:14 277

原创 说话人识别中的跨域距离度量适应

Index Terms:域偏移、对距离分布、度量学习

2023-01-11 11:21:37 147

原创 多音频注册的注意力后端

Index Terms:自注意力机制,后端打分

2023-01-11 10:55:50 83

原创 用神经声码器进行说话人验证的对抗样本检测

Index Terms:对抗攻击

2023-01-11 10:14:58 163

原创 说话人确认中的大规模自监督语音表示学习

Index Terms:表示学习、自监督、预训练

2023-01-10 18:43:33 248

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除