李宏毅2022机器学习hw4

本文是李宏毅机器学习课程的HW4,涉及VoxCeleb2语音识别任务。通过逐步改进模型,从简单线性模型到Boss Baseline,实现了超过0.8575的准确率,包括使用Conformer架构和Self-Attention Pooling等技术。

目录

Machine Learning HW4 

一、任务

二、数据集

三、结果

四、改进方法

        4.1 Simple line (acc>0.6082)

        运行课程上给的基础代码。

        4.2 Medium Baseline (acc>0.7037)

        调整transformer modules层的参数

        4.3 Strong Baseline (acc>0.7775)

        将transform改为conform架构

        4.4 Boss Baseline (acc>0.8575)

        加入Self-Attention Pooling和Additive Margin Softmax,并对conformer进行调参。


Machine Learning HW4 

一、任务

        对于一段语音判断它是哪一个人发出的。

二、数据集

         VoxCeleb2,数据集过大,可以在官网下载

 

三、结果

全过bossline。

 

四、改进方法

        4.1 Simple line (acc>0.6082)

                运行课程上给的基础代码。

        4.2 Medium Baseline (acc>0.7037)

### 李宏毅 2022 机器学习 HW3 的主要内容 #### 资料概述 李宏毅教授的《2022机器学习》课程中的第三次作业(HW3)主要围绕图像分类展开,涉及模型设计、数据增强以及优化策略等内容。以下是关于该次作业的一些核心要点: 1. **训练数据增强** 数据增强技术被广泛应用于提升模型性能。通过增加样本多样性来减少过拟合现象的发生,在本次作业中,采用数据增强方法后,private leaderboard得分达到了0.760562[^1]。 2. **交叉验证与集成学习 (Cross Validation & Ensemble)** 使用交叉验证和模型集成的方法可以进一步提高预测准确性。这种方法使得private leaderboard上的得分为0.816473[^1]。 3. **测试集数据增强 (Test Dataset Augmentation)** 测试阶段的数据增强同样重要,它能够帮助模型更好地泛化到未见过的数据上。应用此技巧之后,private score上升至0.82458[^1]。 4. **ResNet架构的应用** ResNet作为一种经典的卷积神经网络结构,因其残差连接机制而闻名。在本作业中选用ResNet50作为基础框架,并对其进行了自定义修改以适配特定任务需求。具体实现如下所示: ```python import torch.nn as nn from torchvision import models def ResNet1(): model = models.resnet50(weights=None) model.conv1.in_channels = 3 model.fc = nn.Sequential( nn.Flatten(), nn.Linear(2048, 512), nn.LeakyReLU(0.1), nn.BatchNorm1d(512), nn.Dropout(0.2), nn.Linear(512, 11) ) model.fc.out_features = 11 return model ``` 此外,利用ResNet并调整超参数可使private leaderboard成绩达到0.86555[^1]。 5. **图像标准化处理 (Image Normalization)** 对输入图片进行规范化操作有助于加速收敛过程并改善最终效果。实施这一措施后,private score升至0.87494[^1]。 6. **Batch Size的影响** 批量大小的选择对于梯度估计质量有着直接影响。适当减小batch size可能会带来更优的结果——在此案例下,相应分数为0.895[^1]。 7. **Label Smoothing的作用** Label smoothing是一种正则化手段,旨在缓解因硬标签带来的潜在问题。其引入对整体表现亦有正面贡献。 8. **强基线改进方案 (Strong Baseline Enhancement)** 针对比标准版更强力的基础解决方案而言,除了加深网络层数之外还增加了迭代轮数;与此同时配合Test Time Augmentation(TTA),即分别基于不同转换方式创建多个用于评估的加载器(testloader)并将它们按一定比例加权组合起来共同决定最后输出概率分布向量的形式。经由这些改动后的总评分为0.88247,距离顶级水平已然非常接近但仍需继续探索最佳配置选项[^3]。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

梦想的小鱼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值