
机器学习
文章平均质量分 96
新的
petSym
这个作者很懒,什么都没留下…
展开
-
【机器学习】从房价预测问题看回归算法
关键词:机器学习 / 回归文章目录回归问题是什么生成数据最小二乘法学习一元线性回归模型最小二乘法学习多元线性回归模型梯度下降法学习回归模型回归问题是什么回归问题是除了分类问题以外,机器学习中另一个经典问题。本节我们以从房价预测为问题背景,逐步介绍分类问题及其相关算法。回归的目的是想拟合一组数据的输入x\boldsymbol{x}x和输出yyy之间的映射关系f(⋅)f(\cdot)f(⋅),进而用得到的拟合模型f(⋅)f(\cdot)f(⋅)对未知的样本xt\boldsymbol{x}_txt.原创 2021-01-27 22:15:30 · 1525 阅读 · 0 评论 -
百面机器学习 #3 经典算法:02 逻辑回归
参考:百面机器学习西瓜书02 逻辑回归Logistic Regression(对数几率回归)2.1 逻辑回归和线性回归二者都使用极大似然法来对训练样本进行建模。在求解超参数的过程中,都可以使用梯度下降的方法。逻辑回归处理的是分类问题,线性回归处理的是回归问题,这是两者的最本质的区别。逻辑回归给定自变量和超参数后,得到因变量的期望E[y∣x;θ]E[y|x;\theta]E[y∣x;θ],并基于此期望来处理预测分类问题;线性回归求解y=θTx+by=\theta^T x.原创 2020-06-29 19:05:10 · 829 阅读 · 0 评论 -
百面机器学习 #3 经典算法:01-3 核函数支撑向量机SVM
文章目录1.3 非线性SVM与核技巧1.3.1 核函数1.3.2 核技巧在支持向量机中的应用1.3.3 常用核函数1.4 其他问题1.4.1 是否存在一组参数使SVM训练误差为0:是1.4.2 训练误差为0的SVM分类器一定存在吗:是1.4.3 加入松弛变量的SVM的训练误差可以为0吗:不一定1.3 非线性SVM与核技巧非线性问题往往不好求解,所以希望能用解线性分类问题的方法解决这个问题。所采取的方法是进行一个非线性变换,将非线性问题变换为线性问题,通过解变换后的线性问题的方法求解原来的非线性问题。原创 2020-06-16 20:09:28 · 363 阅读 · 0 评论 -
百面机器学习 #3 经典算法:01-2 不完全线性可分(软间隔)支撑向量机SVM
文章目录①从原问题到对偶问题②对偶问题的解的形式化简③从对偶问题的解到原问题的解④从原问题的解到分离超平面、决策函数、支撑向量假设训练数据集不是线性可分的。通常情况是,训练数据中有一些特异点(outlier),将这些特异点除去后,剩下大部分的样本点组成的集合是线性可分的。①从原问题到对偶问题对每个样本点(xi,yi)(x_i,y_i)(xi,yi) 引进一个松弛变量,使函数间隔加上松弛变量大于等于1。约束条件变为yi(w⋅xi+b)≥1−ξi,i=1,2,...,Ny_i(w\cdot x原创 2020-06-13 17:36:20 · 321 阅读 · 0 评论 -
百面机器学习 #3 经典算法:01-1 线性可分(硬间隔)支撑向量机SVM
文章目录①从原始问题到对偶问题②对偶问题的解的形式化简③从对偶问题的解到原问题的解④从原问题的解到分离超平面和决策函数、支撑向量参考李航统计学习方法第7章。支持向量机学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。对训练数据集找到几何间隔最大的超平面意味着以充分大的确信度对训练数据进行分类。也就是说,不仅将正负实例点分开,而且对最难分的实例点(离超平面最近的点)也有足够大的确信度将它们分开。这样的超平面应该对未知的新实例有很好的分类预测能力。可以通过求解对偶问题而得到原始原创 2020-06-13 17:32:46 · 322 阅读 · 0 评论 -
百面机器学习 #2 模型评估:07 过拟合和欠拟合及其常用解决方法
如何有效地识别“过拟合”和“欠拟合”现象,并有针对性地进行模型调整,是不断改进机器学习模型的关键。过拟合模型对于训练数据拟合呈过当的情况反映到评估指标上,就是模型在训练集上的表现很好,但在测试集和新数据上的表现较差模型过于复杂,容易把噪声数据的特征也学习到模型中,导致模型泛化能力下降,在后期应用过程中很容易输出错误的预测结果欠拟合模型在训练和预测时表现都不好的情况没有很好地捕捉到数据的特征,不能够很好地拟合数据7.1 降低“过拟合”风险的方法(1)获得更多的训练数据使原创 2020-05-22 18:54:25 · 778 阅读 · 0 评论 -
百面机器学习 #2 模型评估:03 余弦距离和余弦相似度、欧氏距离
文章目录余弦相似度余弦相似度和余弦距离和欧式距离的比较和关系余弦距离不是一个严格定义的距离在模型训练过程中,我们也在不断地评估着样本间的距离,如何评估样本距离也是定义优化目标和训练方法的基础。在分析两个特征向量之间的相似性时,常使用余弦相似度来表示。余弦相似度的取值范围是[−1,1],相同的两个向量之间的相似度为1。余弦相似度两个向量夹角的余弦cos(A,B)=A⋅B∣∣A∣∣2∣∣B∣∣2cos(A,B)=\frac{A\cdot B}{||A||_2 ||B||_2} cos(A,B)原创 2020-05-19 22:52:21 · 1112 阅读 · 0 评论 -
百面机器学习 #2 模型评估:01&02 精确率与召回率,假阳性与真阳性率,PR曲线和ROC曲线
文章目录1. P-R(Precision-Recall)曲线F1 score2. 平方根误差的局限性3. ROC曲线ROC曲线绘制4. AUCpredict Positivepredict Negativereal PositiveTPFNnum of real positive=npn_pnpreal NegativeFPTNnum of real negative=nnn_nnnpredicted num of postitivepredicte原创 2020-05-18 23:47:05 · 2313 阅读 · 1 评论 -
机器学习中的损失函数(交叉熵损失、Hinge loss)
损失函数文章目录损失函数1 交叉熵损失1.1 从最大似然估计到交叉熵损失概率论中的MLE机器学习中的MLE交叉熵损失1.2 多分类的交叉熵损失函数1.3 比较1 交叉熵损失1.1 从最大似然估计到交叉熵损失概率论中的MLE最大似然估计用于估计能得到当前数据(分布)的最好的参数组合。对于最简单的x为一维的概率分布我们有θ^MLE=argmaxθ fX(x1,x2,...,xn;...原创 2020-05-01 21:07:53 · 2097 阅读 · 0 评论