
机器学习
GISer_Lin
do what i love, love what i do
展开
-
机器学习1——线性回归
一、参考https://download.youkuaiyun.com/download/nominior/10759025http://open.163.com/movie/2008/1/B/O/M6SGF6VB4_M6SGHJ9BO.html二、线性回归基本表示:x:特征/输入变量/自变量y:目标变量/观测值h(x):假设/模型/函数对于特征x,xi表示该特征的第i个样...原创 2018-11-01 20:57:33 · 354 阅读 · 0 评论 -
机器学习2——逻辑回归
逻辑回归对于分类问题,线性回归无法较好拟合,需要逻辑回归拟合分类问题;模型表示:损失函数表示:MSE会产生多个局部最小值,不利于梯度下降,使用自定义损失函数 得出由于y只能取值0或1,使用此损失函数,损失值会随着对y的偏离变大。损失求优:梯度下降由原创 2018-11-13 22:59:35 · 253 阅读 · 0 评论 -
机器学习3——正则化
正则化模型过拟合:减少特征 保留特征,减少参数的高次项影响,系数减小变量的指数级与拟合能力正比,但是过高的指数会过拟合,使得模型的预测能力变差正则化参数:在代价函数中,对高次项加入惩罚(倍增系数),减少其影响;若正则化参数过大,模型会欠拟合 正则化的线性回归:正则化的逻辑回归:...原创 2018-11-14 21:09:49 · 442 阅读 · 0 评论 -
机器学习4——过拟合与欠拟合
常用假设评估:对已有数据集划分为训练集和测试集,其中,训练集用于训练参数、完成模型,测试集用于计算误差、验证模型拟合能力。多模型选择评估:对已有数据集划分为训练集、交叉验证集、测试集,其中,训练集用于训练参数、完成模型,交叉验证集用于计算不同模型交叉验证误差、评估选择模型,测试集用于计算选择模型的(推广)误差、验证模型拟合能力。过拟合与欠拟合:训练集在训练时误差很大,不能拟合训练集样本...原创 2018-12-02 23:01:46 · 245 阅读 · 0 评论 -
机器学习5——支持向量机
支持向量机支持向量机(svm)与逻辑回归(lr)类似,都是为了处理二分类问题。逻辑回归的结果是将样本分为某类别的概率,是可以连续的;svm的结果是根据样本与超平面的关系将样本分为对应类别,是离散的。svm的根本目的是找出能使两个类别分类的超平面,并且此超平面距离两个类别的间距最大,对于类别间距最大,起决定性作用的是在超平面附近的两个类别中相互不太容易区分的样本点,因此决定svm的局部的...原创 2019-02-18 09:38:58 · 612 阅读 · 0 评论 -
机器学习6——聚类,k-means算法
聚类无监督学习方法,对无人为处理的无标签样本,将相似样本提取特征并聚集k-means算法迭代算法,将无标签数据按潜在联系聚类基本原理:1.若要聚类生成k类,首先随机选取k个点,作为聚类中心,标记为k个类2.对所有数据点,计算到k个中心的距离,选择最近的中心点,标记为此类3.对k个类的每个类计算,重新选取中心点4.重复2、3,直到满足条件为止。聚类中心初始化方法:...原创 2019-03-06 15:47:06 · 704 阅读 · 0 评论 -
机器学习7——降维,主成分分析
降维无监督学习方法,减少数据量主成分分析/PCA:根本目的:降维,减少无关信息,减少总的特征变量,增加已有特征变量包含的信息。将n维数据降到n-1维,损失1维数据,损失数据用样本到拟合线垂直距离表示,最小化误差,即使得方差最大化与线性回归的区分:主成分分析主要原理是最小化投影误差,属于非监督学习中的降维,本质上是对输入特征的减少;线性回归的主要原理是最小化预测误差,属于监督学习...原创 2019-03-06 16:24:01 · 399 阅读 · 0 评论 -
机器学习8——异常检测、推荐算法
异常检测非监督学习,对于已知样本集,提取其中小部分样本 特征与其他大部分样本相差很大的,与聚类类似,不过异常样本多数不能重特征数归为一个类当样本特征分布近似拟合高斯分布时,其两边分布较少的样本即可视为异常样本对于异常检测算法检查,可以借鉴监督学习的二分类问题,将异常值作为负类进行分类推荐系统基于内容的推荐系统,对内容进行特征提取(人为),基于不同商品的不同特征及用户喜欢程度...原创 2019-03-06 17:15:16 · 475 阅读 · 0 评论