隔离学习日志(4-9)

内容总结

java代码撸了11-25
论文具体实验啃下来
搞了计划表
背了单词

java代码部分展示

day11

在这里插入图片描述

day12

在这里插入图片描述

day21

在这里插入图片描述

假期计划表展示

星期一星期二星期三星期四星期五
9.00-10.00背单词背单词背单词背单词背单词
13.00-17.00撸代码复刻实验撸代码复刻实验撸代码
19.00-21.00看论文看论文看论文看论文做总结

论文(多标签主动学习:查询类型问题)的具体实验部分

对比评价(根据和5种多标签主动学习算法性能对比得出本论文提出算法的优越性),这些算法有:

1.MMC:该算法根据损失减少标准选择实例。在每一次迭代中只会查询一个实例的所有标签

2.Adaptive:该方法基于最大范围预测不确定性和标签基数不一致性来选择实例 ,在每一次迭代中只会查询一个实例的所有标签。

3.AUDI:该算法基于不确定性和多样性选择实例标签对,查询实例标签对的相关性

4.QUIRE:通过同时考虑信息性和代表性来选择实例标签对。查询实力标签对的相关性。

5.AURO-r:它查询随机选择的标签和实例的相关性排序。

6.AURO:该算法结合了提出的查询类型和选择策略,查询两个标签的相关性排序。

实验:

首先将数据划分为:50%实例的测试集、5%实例的初始标记集和剩余实例的未标记池。通过对初始集进行留一交叉验证来选择。在每5×所有候选标签的数量次的查询后,开始评估分类模型在测试集上的性能。如果所有数据都被标记或查询数量达到20,000,则停止查询过程。重复每个实验10次,并报告平均结果。

基准数据集的结果(验证本方法在分类性能上的优越性):

基准数据集为corel5K数据集,有20个,数据大小从593到5000不等,而标签数量从5到499不等,评估性能则使用了micro-F1,这是多标签学习中常用的性能度量。(这里不懂micro-F1,去学习了一波)

TP: true positive, 预测和实际相同;(预测和真实都是A)
FP: false positive, 预测为正,实际为负;(预测是A,真实不是A)
FN: false negative, 预测为负,实际为正;(真实是A,但没有预测成A)

在这里插入图片描述

TPi 是指第 i 类的 True Positive   正类判定为正类; FPi 是指第 i 类的 False Positive 
负类判定为正类; TNi 是指第 i 类的 True Negative  正类判定为负类; FNi 是指第 i 类的 False
Negative 负类判定为负类

AURO在所有数据集上都达到了最佳性能。总体而言,AUDI和QUIRE优于MMC和Adaptive。这表明查询实例标签对比查询一个实例的所有标签更有效。与本论文的方法AURO相比,这两种查询类型的性能都优于所提出的查询类型。值得注意的是,将我们的查询类型与随机选择相结合的AURO-r惊人地实现了与最先进的方法相当的性能,甚至在大多数情况下优于MMC和Adaptive。这些结果表明,使用简单甚至随机选择策略的有效查询类型可以获得优异的性能,并且验证了查询类型比选择标准对多标签主动学习的性能更重要。对于查询实例的所有标签的两种方法,Adaptive比MMC更有效,这可能是因为它自适应地使用多个条件来选择实例。AUDI和QUIRE的结果具有可比性,而AUDI在更多的数据集上更具优势。最后,当比较AURO和AUROr时,可以发现它们在image和reuters上取得了可比的结果;而在其他数据集上,AURO在大多数情况下都优于AURO-r。一般来说,AURO-r和AURO的性能与标签较少的数据集近,而为了检验结果的显著性,本论文会在每次查询后将AURO与每种竞争方法进行比较,然后在95%置信水平下基于t检验计算我们的赢/平/输次数。结果表明,与比较的方法相比,建议的AURO方法具有显著优势。

MSRA数据集(用于图像分类的多标签数据集)的结果(对相关标签进行排名的方法的有效性)

AURO在micro-F1和ProLoss上都取得了最佳性能,而在ProLoss上的优势相当显著。特别是,AURO-r在ProLoss上的性能优于所有其他方法。这些结果验证了我们的方法不仅很好地分离了相关和不相关的标签,而且提供了相关标签的准确排名。

结论

本论文首次揭示了查询类型对MLAL性能的影响大于选择标准。提出了一个新的框架AURO来查询特定实例上两个标签的相关性排序,并将其与新的选择策略结合起来,实现了一个有效的MLAL算法。所提出的方法一方面减少了注释者的标注工作,实现了优于现有方法的分类性能;另一方面,对于看不见的实例,可以准确地对相关标签进行排序。对20多个数据集的广泛研究验证了本方法的有效性。

深圳电信培训中心的徐海蛟博士教学用的真正的Corel-5K图像数据集5000张图片,标注词,训练数据,测试数据。特征提取说明。吐血奉献! 这是真正的Corel-5K图像集,共包含科雷尔(Corel)公司收集整理的5000幅图片,故名:Corel-5K,童鞋们可用于科学图像实验:分类、检索等。Corel-5k数据集是图像实验的事实标准数据集Corel图像库是科雷尔(Corel)公司收集整理的较为丰富的图像库涵盖多个主题。Corel图像库由若干个CD组成,每个CD包含100张大小相等的图像,可以转换成多种格式。每张CD代表一个语义主题,例如有公共汽车、恐龙、海滩等。 Corel-5k自从被提出用于图像标注实验后,已经成为图像实验的标准数据集,被广泛应用于标注算法性能的比较。Corel5k由50张CD组成,包含50个语义主题。 Corel-5k图像库通常被分成三个部分: 4000张图像作为训练集,500张图像作为验证集用来估计模型参数,其余500张作为测试集评价算法性能。使用验证集寻找到最优模型参数后4000张训练集和500张验证集混合起来组成新的训练集。 该图像库中的每张图片被标注1~5个标注词,训练集中总共有374个标注词,在测试集中总共使用了263个标注词。 童鞋们自己去提取相关低层视觉特征:Rgb Lab Hsv Sift Gist HOG等等。 童鞋们完成 svm knn adaboost 逻辑回归 随机森林 mimlsvm mimlknn mimlboost 自定义算法 等等多类与多标签实验吧。Go, ...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值