机器学习入门(一)

分类和回归:均为预测过程,其中分类是对离散值的预测,回归是对连续值的预测。
监督学习和无监督学习:就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习(聚类)。监督学习就是给输入的无标签数据添加标签的过程。
数据集的划分方法
1.留出法,即把数据集分为两部分 ,一般来说是8:2,8的那部分当训练集,2的那部分当测试集。
2.交叉验证法,即把数据集划分为10部分,每次拿9部分作为训练集,剩下一部分作为测试集,重复10次以保证每个部分都被当成过测试集。
3.自助法,即每次在数据集中抽取一个元素,完成拷贝,并且放回数据集,这样当次数足够多时,可由基本极限知道,大约有0.368的数据始终不被采集到。因此,可以把采集到的部分作为训练集,没采集到的作为测试集。
性能度量方式:
(回归)均方误差:即把预测的和真实的的值做差的平方和。
ROC和AUC
偏差和方差
线性模型
线性模型是最基本的模型,但是也可以有很多变化,例如可以两边取对数等。另外广义的线性模型还包括对数几率函数(用于分类任务)
线性判别法:LDA的思想相当简单,就是同类的尽量靠近,不同的尽量远离。
需要了解的方法:最小二乘法
多分类学习:将多分类拆解为二分类。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值