内容总结
1.学习安装了pytorch,包括首先安装anconda,下载安装与显卡对应的cuda与cudnn,通过anconda安装了pytorch
2.复习总结(逻辑回归,岭回归,决策树,特征提取方法,随机森林,聚类算法),并敲代码
3.背英语单词
4.看论文(摘要)
1.安装pytorch
1.安装anconda
2.下载安装cuda与cudnn
3.通过anconda下载pytorch(注意根据本机的cuda版本在pytorch官网查相对应的指令再下载),配置环境验证是否能使用pytorch与是否能用gpu加速。
2.复习机器学习知识,撸代码
欠拟合与过拟合
欠拟合:训练集表现不好,测试集表现不好。
解决方法:1.继续学习,2.添加其他特征项,3.添加多项式特征
过拟合:训练集表现很好,测试集表现不好
解决方法:1.重新清洗数据,2.增大数据训练量,3.正则化,4.减少特征维度
正则化
针对对象:主要为有参数方法,例如逻辑回归,神经网络,svm
目的:,数据提供的特征有那些影响模型复杂度或者这个特征的数据点异常比较多,所以算法在学习的时候尽量减少这个特征的影响,就是正则化。
归一化是为了消除不同数据之间的量纲,方便数据比较和共同处理,比如在神经网络中,归一化可以加快训练网络的收敛性;标准化是为了方便数据的下一步处理,而进行的数据缩放等变换,并不是为了方便与其他数据一同处理或比较,比如数据经过零-均值标准化后,更利于使用标准正态分布的性质,进行处理;正则化而是利用先验知识,在处理过程中引入正则化因子(regulator),增加引导约束的作用,比如在逻辑回归中使用正则化,可有效降低过拟合的现象。
类别:
1.L1正则化:使得其中一些参数直接为0,删除这个特征的影响。
2.L2正则化:使得一些参数接近0,削弱某个特征的影响
岭回归(L2)
逻辑回归(二分类问题)
绘制roc曲线,auc指标
roc曲线就是根据TPR(横轴),FPR(纵轴)绘制的,计算roc曲线的面积,面积就是auc值,越接近1越好。
决策树算法
决策树: 是一种树形结构,其中每个内部节点表示一个判断结果的输出,最后每个叶节点表示一种分类结果,本质是一颗由多个判断节点组成的树。
划分依据:
1.信息增益:
信息增益=entroy(前)-entroy(后),信息增益越大,优先选择这个属性。
2.信息增益率:
维持了一个分离信息度量,通过这个分离信息度量当分母,进行限制
3.基尼值 和基尼指数
基尼值:从数据集D中随机抽取两个样本,其类别不一致的概率。基尼值越小,数据集纯度越高。
基尼指数:一般,选择划分后基尼属性最小的属性作为最优化分属性。
cart剪枝(防止过拟合现象)
原因1:噪声,样本冲突,即错误的样本数据
原因2:特征即属性不能完全作为分类标准。
原因3:巧合的规律性,数据量不够大。
常用方法:
1.预剪枝
2.后剪枝
特征工程-特征提取
特征提取:
将任意数据转换为可用于机器学习的数字特征。
特征提取分类:
- 字典特征提取(特征离散化)
- 文本特征提取
- 图像特征提取(RGB三色原理)
集成学习
解决欠拟合问题:弱弱组合变强boosting
解决过拟合问题:互相遏制变大Bagging
Bagging过程:
- 采样,从样本中采样一部分
- 学习,训练弱学习器
- 集成,使用平权投票
随机森林
随机森林=Bagging+决策树
构造过程:
- 一次选取一个样本,有放回抽样,重复N次(有可能出现重复的样本)
- 随机去选出m个特征,m<<M,建立决策树。
聚类
k-means是一种无监督算法,主要用于将相似的东西归为一类。
3.背英语单词
4.看论文Multi-Label Active Learning Algorithms for ImageClassification: Overview and Future Promise(用于图像分类的多标签主动学习算法:综述与展望)的摘要部分
多标签图像分类的成功与训练集的构造方法密切相关。由于主动学习的目的是通过迭代选择信息量最大的示例来从注释器中查询标签,从而构造一个有效的训练集,因此它被引入到多标签图像分类中。因此,多标签主动学习成为一个重要的研究方向。现有的用于图像分类的多标签主动学习算法。可以分别从采样和注释两个方面分为两大类。多标签主动学习最重要的组成部分是设计一种有效的抽样策略,根据各种信息度量,从未标记的数据池中主动选择具有最高信息量的示例。因此,本论文调查强调了不同的信息量测量。此外,本论文还对多标签主动学习中存在的挑战性问题和未来前景进行了深入研究,重点关注四个核心方面:示例维度、标签维度、注释和应用扩展。