
机器学习
文章平均质量分 58
lzw2016
年轻出来浪!
展开
-
(180904)Descending into ML:线性回归 和 训练与损失---- Google 机器学习速成课程笔记
线性回归模型视频和文章中分别描述了两个例子:通过房屋面积来预测房价,通过虫鸣声来预测温度通过虫鸣声来预测温度,如图线性关系很简单, 不难理解,这里的 y’ 使我们预测的值,b 是偏差,W1 是特征1的权重,X1 是特征1对于多个特征 Xi 而言,我们的目的就是得到理想的权重和偏差,使得预测标签尽可能趋近实际观察标签 ,这就是接下来要说到的训练,损失训练...原创 2018-09-04 20:21:32 · 178 阅读 · 0 评论 -
sklearn之模型评估指标总结归纳
文章目录机器学习模型评估分类模型回归模型聚类模型交叉验证中指定scoring参数网格搜索中应用机器学习模型评估以下方法,sklearn中都在sklearn.metrics类下,务必记住哪些指标适合分类,那些适合回归,不能混着用分类的模型大多是Classifier结尾,回归是Regression分类模型accuracy_score(准确率得分)是模型分类正确的数据除以样本总数 【模型的s...原创 2018-11-01 17:07:08 · 3370 阅读 · 0 评论 -
sklearn中的模型评估
文章目录1.介绍2. scoring参数2.1 预定义的值2.2 从metric函数定义你的scoring策略2.3 实现你自己的scoring对象3. 分类metrics3.1 二分类/多分类/多标签3.2 accuracy_score3.3 Cohen’s kappa3.4 混淆矩阵3.5 分类报告3.7 Jaccard相似度系数score3.8 准确率,召回率与F值3.8.1 二分类3.8....转载 2018-10-25 19:14:36 · 811 阅读 · 0 评论 -
sklearn之贝叶斯分类器使用
贝叶斯分类器原理:基于先验概率P(Y),利用贝叶斯公式计算后验概率P(Y/X)(该对象属于某一类的概率),选择具有最大后验概率的类作为该对象所属类特点:数据可离散可连续;对数据缺失、噪音不敏感;若属性相关性小,分类效果好,相关也不低于决策树朴素贝叶斯算法学习的内容是先验概率和条件概率(都使用极大似然估计这两种概率),公式很难敲,不敲了scikit-learn中根据条件概率不同的分布有多种...原创 2018-10-14 17:04:03 · 3942 阅读 · 0 评论 -
KNN分类和回归学习--sklearn
参考文章:《Python大战机器学习》(不好,就是官方文档的中文版再加上几个简单的例子)数据挖掘十大算法–K近邻算法机器学习笔记—KNN算法常用样本相似性和距离度量方法KNN(K近邻法)输入为实例的特征向量,计算新数据与训练数据之间的距离,选取K个距离最近的数据进行分类或回归判断对于分类问题:输出为实例的类别。分类时,对于新的实例,根据其k个最近邻的训练实例的类别,通过多数表决...原创 2018-10-14 17:02:13 · 5437 阅读 · 0 评论 -
(180923)通过正则化降低特征组合过度 模型过于复杂---机器学习速成
问题提出及正则化的引入正则化的提出同样是解决模型过拟合问题,之前提出的特征组合来训练模型,当训练次数足够多时,损失会降低到非常的低,但却会出现过拟合问题。如图迭代次数足够多,模型的复杂度也越高。可见一个好的模型和损失、模型的复杂度都有关。所以,训练优化算法是一个由两项内容组成的函数:一个是损失项,用于衡量模型与数据的拟合度,另一个是正则化项,用于衡量模型复杂度。所以,什么是正则化? 降低...原创 2018-09-23 19:11:36 · 1261 阅读 · 0 评论 -
(180909)泛化及解决模型过拟合问题---Google机器学习速成课程笔记
泛化 (Generalization) 是什么先解释什么是泛化。Generalization,一般化,泛化。就是把训练所得模型应用于新的样本数据进行预测的过程。在模型的训练过程中,存在一种现象:模型与训练样本数据过于符合(匹配),但未必对于新的数据也有非常OJBK的预测性。这种现象称为 过拟合过拟合定义像上文所介绍的一样。课程中提到了垃圾邮件分类,和果树好坏分类的案例如图所...原创 2018-09-09 21:07:55 · 259 阅读 · 0 评论 -
(180903)如何将问题构建成机器学习问题----Google 机器学习速成课程笔记
问题提出 如何创建模型 如何结合输入的数据(信息)进行合理的预测 课程中是以垃圾邮件分类为案例展开的在训练垃圾分类模型时,我们会提供大量的有标签样本进行创建、学习、预测模型,然后通过无标签样本来预测该样本的标签所属。整个流程大概是这样,然后,什么是样本?标签?模型?术语标签 (label)和特征(feature)标签是训练模型时提供的,比如邮...原创 2018-09-03 19:42:57 · 300 阅读 · 0 评论 -
(180905)如何通过梯度下降法降低损失----Google机器学习速成课程笔记
Google机器学习速成课程第三天,如何降低损失,梯度下降法,SGD,小批量SGD理论,以及个人对此的理解、笔记通过迭代减少损失梯度下降法个人对减小损失的理解理想的步长 α随机梯度下降法(SGD)小批量随机梯度下降法(小批量 SGD)通过迭代减少损失如图所示,机器学习算法通过不断地通过模型得出预测值,再检验损失进而调整模型的参数(使得损失更小的参数)更...原创 2018-09-05 19:44:00 · 281 阅读 · 0 评论 -
(180911)验证(validation):数据集的进一步划分 避免测试集过拟合---Google机器学习速成课程笔记
上次提到了通过划分数据集为训练集和测试集,并不断迭代训练模型,通过测试集对模型进行评估,进而不断调整超参数,来解决过拟合问题。但是还会出现问题 按数据集分成训练集和测试集不断迭代训练模型的方式,每次迭代时,我们都会对训练数据进行训练并评估测试数据,并以基于测试数据的评估结果为指导来选择和更改各种模型超参数。迭代次数越多,基于给定的该测试集的评估越多,可能会导致模型过拟合该测试集。...原创 2018-09-11 19:11:07 · 1969 阅读 · 0 评论 -
【推荐系统入门】推荐系统理论初探 及 豆瓣推荐应用举例分析
title: 推荐系统理论初探date: 2018-12-20 20:32:55tags: 推荐系统toc: truecategories: ML我的博客: Josonlee’s Blog推荐系统理论推荐系统所需的元数据要推荐物品或内容的元数据,例如关键字,基因描述等;系统用户的基本信息,例如性别,年龄等用户对物品或者信息的偏好,根据应用本身的不同,可能包括用户对物品的评...原创 2018-12-20 21:16:51 · 2756 阅读 · 1 评论