【论文阅读笔记】SCR: Self-Critical Reasoning for Robust Visual Question Answering

本文介绍了一种新的VQA方法,通过引入自我批评训练目标,确保模型关注正确答案的最关键图像区域,避免过度依赖语言先验。研究了多种构建关键影响区域的方式,包括人工标注、文本解释和问题/答案中的对象。实验结果显示,这一策略在VQA-CP任务上实现了新的最佳性能。

论文地址:https://arxiv.org/pdf/1905.09998v3.pdf
项目地址:https://github.com/jialinwu17/Self_Critical_VQA

摘要

Visual Question Answering (VQA) deep-learning systems tend to capture superfi-cial statistical correlations in the training data because of strong language priors and fail to generalize to test data with a significantly different question-answer (QA) distribution [1]. To address this issue, we introduce a self-critical training objective that ensures that visual explanations of correct answers match the most influential image regions more than other competitive answer candidates. The
influential regions are either determined from human visual/textual explanations or automatically from just significant words in the question and answer. We evaluate our approach on the VQA generalization task using the VQA-CP dataset, achieving a new state-of-the-art i.e., 49.5% using textual explanations and 48.5% usingautomatically annotated regions.

目前的VQA任务依赖训练数据中的表面统计相关性,为解决这个问题,作者引入了一个自我批判的训练目标,确保正确答案的视觉解释比其他候选人给的答案更符合最有影响力的图像区域。影响区域要么由人类的视觉/文本解释决定,要么由问题和答案中的重要词自动决定。

1 贡献

作者发

在使用 `vLLM` 工具时,如果遇到 `error: unrecognized arguments --enable-reasoning` 错误,通常是因为命令行中使用的参数 `--enable-reasoning` 并不属于当前版本的 `vLLM` 支持的参数列表。这可能是由于以下原因导致的: 1. **参数已弃用或重命名**:某些版本的 `vLLM` 可能不再支持 `--enable-reasoning` 参数,或者该参数已经被重命名。例如,在某些版本中,推理功能可能默认启用,或者通过其他参数(如 `--enable-inference`)进行控制。 2. **版本不兼容**:如果参考的命令来自特定版本的 `vLLM` 文档,而当前安装的版本较旧或较新,则可能存在参数名称或功能的变更。因此,建议检查 `vLLM` 的官方文档或发布说明,以确认该参数是否仍然适用。 3. **拼写错误或格式问题**:命令行参数可能存在拼写错误,或者缺少必要的前缀(如 `--`)。确保参数名称与文档中的一致,并且没有多余的空格或符号。 ### 解决方案 - **检查当前版本支持的参数**:可以通过运行 `python3 -m vllm.entrypoints.openai.api_server --help` 来查看当前版本支持的所有参数,确认 `--enable-reasoning` 是否在列表中。 - **更新或降级 `vLLM` 版本**:如果确认 `--enable-reasoning` 是某个特定版本的功能,则可以通过更新或降级 `vLLM` 到兼容的版本来解决问题。例如,使用以下命令安装特定版本: ```bash pip install vllm==0.6.2 ``` - **查阅官方文档和社区支持**:如果仍然无法解决问题,建议查阅 `vLLM` 的官方文档或社区论坛,寻找与 `--enable-reasoning` 相关的说明或讨论。 - **使用替代参数**:如果 `--enable-reasoning` 已被弃用,可以尝试查找是否有替代的参数或配置方式。例如,某些功能可能通过配置文件或其他命令行参数实现。 ### 示例代码 如果需要运行 `vLLM` 服务并启用推理功能,可以尝试以下命令(假设 `--enable-reasoning` 已被弃用): ```bash python3 -m vllm.entrypoints.openai.api_server --model=/home/ppl/aicoder/share_models/DeepSeek-R1-Distill-Qwen-7B --dtype bfloat16 --trust-remote-code --device cuda --max-model-len=4096 --tensor-parallel-size=1 --gpu-memory-utilization=0.80 ``` 如果需要启用推理功能,请确保使用正确的参数或配置方式。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值