Assessing Image Quality Issues for Real-World Problem(论文翻译)

Assessing Image Quality Issues for Real-World Problem(论文翻译)

论文翻译

论文地址:Assessing Image Quality Issues for Real-World Problem
数据集和源码地址:https://vizwiz.org

Abstract

我们引入了一个新的大规模数据集,它将图像质量问题的评估与两个实际的视觉任务联系起来:图像字幕和视觉问题回答。
首先,我们针对39181张盲人拍摄的图片,从6个选项中确定每张图片的质量是否足以识别出内容,以及发现了哪些质量缺陷。这些标签是我们作出以下贡献的重要基础:
(1)一个新问题和算法,决定是否一个图像识别的内容和质量不足识别,所以不是不能配上字幕,
(2)一个新问题和算法,决定一幅图像包含6个质量缺陷中的哪一个,
(3)一个新问题和算法,用于判断一个视觉问题是由于无法识别的内容而无法回答,还是因为感兴趣的内容在视野中缺失而无法回答,
(4)一个新的应用,更有效地创建一个大规模的图像字幕数据集,自动决定一幅图像的质量是否不够,因此不应该字幕

1. Introduction

1.1 针对特定的视觉任务,提出了一个IQA数据集

标签分类从无质量问题题到6种缺陷:模糊、过度曝光(明亮)、曝光不足(黑暗)、取景不当、障碍物和旋转视图
在这里插入图片描述

1.2 将这个新数据集用于以下三个方面:

(1) 引入了一个新的问题和算法来预测一幅图像是否有足够的质量来加上标题;
(2) 证明该预测系统的另一个好处是,通过很少的人力就能创建大规模图像字幕数据集;
(3) 引入了一个新的问题和算法,告诉用户提交一个新的视觉问题,这个问题是可以回答的,还是因为图像内容无法识别而不能回答,或者因为图像内容缺失而不能回答。

2. Related Work

2.1 Image Quality Datasets

由于与通过模拟高质量图像的失真而发现的图像质量问题相比,在真实环境中出现的图像质量问题表现出截然不同的特征,因此,本文创建大规模的数据集,标志质量问题的自然图像。本文不是专注于为每幅图像分配一个质量分数,以捕获各种图像质量问题中的任何一个,相反,其工作重点是认识到每个不同的质量问题的存在,并评估质量问题对实际用户的实际应用需求的影响。

2.2 Image Quality Assessment

提出了一种新的NR-IQA算法

2.3 Efficient Creation of Large-Scale Vision Datasets

引入了一个新的问题和算法,当图像内容无法被人类识别,因此应该被丢弃,并展示了这些解决方案的好处,更有效地创建一个大规模图像字幕数据集。

2.4 Assistive Technology for Blind Photographers

作为之前工作的补充,我们引入了一套新的AI问题和解决方案,当提醒blind peopple拍照者观察到什么图像质量问题时,可以提供更细粒度的指导。特别的,我们引入了新的问题,(1)识别图像内容是否被识别(并加上标题),(2)解释当有关图像的问题可以回答,但由于图像内容无法识别而无法回答,或者由于图像中缺少感兴趣的内容而无法回答时的问题.

3. VizWiz-QualityIssues

本节描述作者创建一个大规模的人工标记数据集,以支持算法的发展,可以评估图像的质量。

3.1 Creati

“Deep Multiscale Spatiotemporal Network for assessing depression from facial dynamics”(用于从面部动态评估抑郁症的深度多尺度时空网络)是一种专门用于抑郁症评估的技术手段。 从名称上看,“深度”体现了该网络具有深度学习的特性,深度学习模型通常能够自动从大量数据中学习复杂的特征和模式,相比传统方法,可能在处理复杂的面部动态信息时具有更强的特征提取和表达能力。 “多尺度”意味着该网络可以在不同的尺度上对数据进行分析。面部动态包含了丰富的信息,不同尺度下的特征可能对抑郁症的评估具有不同的贡献。例如,微观尺度上的细微表情变化和宏观尺度上面部整体的运动模式都可能与抑郁症相关,多尺度分析可以综合利用这些不同层次的信息,提高评估的准确性。 “时空网络”强调了对时间和空间信息的综合处理。面部动态是一个随时间变化的过程,不仅包含了面部在空间上的结构信息,还包含了其随时间的动态变化信息。时空网络能够捕捉到这些时空特征,从而更全面地描述面部动态与抑郁症之间的关系。 在实际应用中,这种网络可能会利用摄像头等设备采集面部视频数据,然后通过网络对这些数据进行处理和分析,最终输出关于抑郁症的评估结果。这可能为抑郁症的早期诊断和监测提供一种客观、便捷的方法,减少传统诊断方法中主观因素的影响。 ```python # 以下是一个简单的伪代码示例,展示可能的模型构建思路 import torch import torch.nn as nn class DeepMultiscaleSpatiotemporalNetwork(nn.Module): def __init__(self): super(DeepMultiscaleSpatiotemporalNetwork, self).__init__() # 定义多尺度卷积层 self.multiscale_conv = nn.ModuleList([ nn.Conv3d(3, 64, kernel_size=(3, 3, 3), padding=(1, 1, 1)), nn.Conv3d(3, 64, kernel_size=(5, 5, 5), padding=(2, 2, 2)), nn.Conv3d(3, 64, kernel_size=(7, 7, 7), padding=(3, 3, 3)) ]) # 定义时空处理层 self.temporal_layer = nn.LSTM(64 * 3, 128) # 定义全连接层用于输出评估结果 self.fc = nn.Linear(128, 1) def forward(self, x): multi_scale_features = [] for conv in self.multiscale_conv: feature = conv(x) multi_scale_features.append(feature) combined_features = torch.cat(multi_scale_features, dim=1) # 处理时空信息 temporal_output, _ = self.temporal_layer(combined_features.permute(2, 0, 1, 3, 4).reshape(x.size(2), -1, 64 * 3)) output = self.fc(temporal_output[-1]) return output # 示例使用 model = DeepMultiscaleSpatiotemporalNetwork() input_tensor = torch.randn(1, 3, 10, 64, 64) # 假设输入为 1 个样本,3 个通道,10 帧,64x64 分辨率 output = model(input_tensor) print(output) ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值