torchvision.transforms.Compose三——再看一眼

本文继续探讨torchvision.transforms.Compose对象,关注其输入shape的重要性。通过实例,作者确认了input_shape通常为224,并探讨了模型输入的不确定性。尽管难以直观展示变换后的图像,但提到数据经过Norm等操作后可能不适用于直接绘图。文章预告将进一步研究TSM模块的数据处理流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

接上面Compose两篇:第一个第二个

不管如何,我依旧是你们最爱的小明哥。

我又看了个Compose对象,再看看,确定他的输入shape是什么,这个还是很重要的,这里有用

依旧以我哥为例:

>>> img.size
(575, 685)
>>> ximg[0].size
(224, 224)

试了另外一个,也是224

>>> img.size
(828, 828)

>>> ximg[0].size
(224, 224)

因此基本可以确定input_shape就是224了,

### 使用深度学习开发眼睛疾病检测应用程序的方法 #### 数据收集与预处理 构建有效的眼睛疾病检测系统的第一步是获取高质量的数据集。数据应包括不同类型的视网膜图像,这些图像是由眼底相机拍摄的,并且最好经过医学专家标注。常见的公开数据集有: - **DRISHTI-GS**: 提供了详细的视盘分割和血管结构标记。 - **IDRID**: 包含糖尿病视网膜病变分级以及黄斑水肿等疾病的标签。 为了提高模型性能,通常还需要对原始图片做标准化处理,比如调整大小、裁剪中心区域、增强对比度等操作[^1]。 #### 模型选择与训练 对于此类医疗影像分析任务,卷积神经网络(CNNs)是非常有效的工具之一。可以考虑采用迁移学习的方式,即使用已经在大规模自然场景下训练好的CNN作为基础架构,再针对特定的眼科问题微调参数。具体来说: - 利用ResNet、VGG或Inception系列预训练权重初始化新建立的分类器层; - 如果有足够的专用样本,则可以直接端到端地重新训练整个网络; - 对于某些特殊病症识别,还可以探索更复杂的架构设计,如U-Net用于语义分割,有助于精确定位病灶位置[^2]。 ```python import torch from torchvision import models, transforms model = models.resnet50(pretrained=True) num_ftrs = model.fc.in_features model.fc = nn.Linear(num_ftrs, num_classes) transform = transforms.Compose([ transforms.Resize((224, 224)), transforms.ToTensor(), ]) ``` #### 验证评估 完成初步建模之后,应当通过交叉验证方法仔细检验系统的泛化能力。这不仅涉及计算标准指标(准确率、召回率),还应该关注临床意义更大的统计量——AUC曲线下面积(Area Under Curve),因为它能更好地反映诊断测试的整体表现。此外,考虑到实际应用场景下的误诊成本差异,建议同时报告特异性(Specificity) 和敏感性(Sensitivity)[^3]。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小李飞刀李寻欢

您的欣赏将是我奋斗路上的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值