自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_44543298的博客

原创 VTimeLLM：Empower LLM to Grasp Video Moments

当前的video LLM只能针对整个视频提供粗糙的（coarse）描述，难以捕捉到某一特定场景的精确的起止。本作中，我们解决了这个问题。我们提出了一种新颖的Video LLM框架：针对细粒度动作理解和推理（从时间范围的角度）。具体来说，我们的模型采用了一种boundary-aware的三阶段训练框架，从以下三个角度有改进：1. 利用了图片-文本对来进行特征对齐；2. 多事件视频来增加模型的时间范围意识；3. 高质量的视频-指令ft来进一步提升时间理解能力（与人类意图对齐）。

2024-08-26 13:50:32 1060

原创 ViP-LLaVA：Making Large Multimodal Models Understand Arbitrary Visual Prompts

现存的VLLM关注整张图片的理解，与局部区域理解之间存在一个显著的（prominent）gap。近期的方法通过利用文本坐标系（textual coordinate）或者空间的编码（spatial encodings），然而往往推理过程中对用户不友好（写视觉prompt时）。为了解决这一挑战，我们提出了一种新的模型能解码任意的视觉提示词。它使用户可以凭直觉（intuitively）来标记图片，通过天然的提示（红色的框、箭头）来和模型交互。

2024-08-25 16:37:16 524

原创 Alpha-CLIP: A CLIP Model Focusing on Wherever You Want

为了。

2024-08-20 10:49:01 789

原创基于群适应融合网络提高说话人验证的公平性

Index Terms：群speaker分布不均、embedding adaptation、score fusion

2023-01-11 15:29:44 134

原创鲁棒SV--解纠缠的说话人embedding

Index Terms：域适应、自监督、triplet-loss

2023-01-11 14:59:53 159

原创 CS-REP: SV网络的交叉序列重参数化

Index Terms：推理加速、重参数化

2023-01-11 14:42:10 168

原创用于改进说话人验证的对比混合学习

Index Terms：mixup、度量学习、prototypical loss

2023-01-11 14:20:14 277

原创说话人识别中的跨域距离度量适应

Index Terms：域偏移、对距离分布、度量学习

2023-01-11 11:21:37 147

原创多音频注册的注意力后端

Index Terms：自注意力机制，后端打分

2023-01-11 10:55:50 83

原创用神经声码器进行说话人验证的对抗样本检测

Index Terms：对抗攻击

2023-01-11 10:14:58 163

原创说话人确认中的大规模自监督语音表示学习

Index Terms：表示学习、自监督、预训练

2023-01-10 18:43:33 248

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除