
机器学习
文章平均质量分 92
超级无敌吉士堡
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
softmax回归模型对Fashion-MNIST训练集中的图像数据进行分类
softmax函数的引入在多分类神经网络中直接使用输出层的输出有两个问题:1. 一方面,由于输出层的输出值的范围不确定,我们难以直观上判断这些值的意义。例如,刚才举的例子中的输出值10表示“很置信”图像类别为猫,因为该输出值是其他两类的输出值的100倍。但如果o1=o3=103o_1=o_3=10^3o1=o3=103,那么输出值10却又表示图像类别为猫的概率很低。2. 另一方面,由于真...原创 2020-02-14 19:05:38 · 709 阅读 · 0 评论 -
《机器学习实战》第14章——利用SVD简化数据完全解读
本章内容介绍奇异值分解(Singular Value Decomposition,SVD)常用来简化数据、去除噪声。在这章先介绍SVD的一些应用,再从其算法来分析它为什么有效,然后建立一个基于协同过滤的系统。奇异值分解的应用在隐性语义索引中(Latent Semantic Indexing,LSI),我们将一个文档用一个矩阵(term-document)表示,在这个矩阵的基础上运用SVD对其...原创 2019-12-28 15:14:43 · 622 阅读 · 1 评论 -
《机器学习实战》第13章——利用PCA来简化数据完全解读
降维技术做过数据竞赛的同学应该都知道,数据集一般是m×nm \times nm×n维。有时候n、mn、mn、m会非常大,这会让我们的算法运行地非常慢。在某些时候,可以通过减少nnn方向上的维度,以达到缩减数据、加快程序运行的效果。那常见的降维方法有:1、主成分分析(Principal Component Analysis,PCA)。PCA的原理就是将数据转换到了新的坐标系,这个新的坐标系是根...原创 2019-12-28 15:04:56 · 433 阅读 · 0 评论 -
《机器学习实战》第11章——利用K-均值聚类算法对未标注的数据分组完全解读
本章介绍本章将介绍如何利用K-均值算法进行聚类。在进行聚类之后,分析如何通过后处理手段来提高聚类性能。探讨二分K-均值是如何克服局部最小值问题。最后将使用地理坐标在地图上进行聚类。K-均值算法在讲K-均值算法前,我们需要对无监督学习的概念有所了解。无监督学习的特点是训练样本点标记信息未知,目标是通过对无标记样本数据的学习,解释数据的内在性质与规律。聚类是无监督学习算法中的一大分支。聚类将数据...原创 2019-12-28 14:39:38 · 786 阅读 · 1 评论 -
召回率、准确率、ROC曲线、AUC、PR曲线
评价指标混淆矩阵(confusion-matrix)召回率(recall rate)准确率(accuracy rate)ROC曲线AUC(Area Under ROC Curve)P-R曲线混淆矩阵(confusion-matrix)真阳性(True Positive,TP):样本的真实类别是正例,并且模型预测的结果也是正例真阴性(True Negative,TN):样本的真实类别是负例,并...原创 2019-08-07 20:15:10 · 1350 阅读 · 0 评论 -
KNN算法原理与实现
KNN算法全称是:K-NearestNeighbor顾名思义,KNN算法就是用离这个样本最近的K的个样本对这个样本进行预测算法流程:1. 设定参数K2.计算样本与所有样本之间的距离并将这距离进行排序3.取前K个样本4.回归:用这K个样本拟合一条直线(说法不是很准确,理解就好),然后将这个样本放进直线去预测分类:计算K个样本的类别数量,类别数目最多的即为预测的类别...原创 2019-05-15 10:11:01 · 475 阅读 · 0 评论 -
算法梳理Xgboost
XgboostXGBCART树算法原理损失函数分裂结点算法正则化对缺失值处理优缺点sklearn参数应用场景XGBXGBoost是专注于梯度提升算法的机器学习函数库,此函数库因其优良的学习效果以及高效的训练速度而获得广泛的关注。XGBoost 所应用的算法是梯度提升树(gradient boosting decision tree),既可以用于分类也可以用于回归问题中。CART树CART...原创 2018-12-24 19:18:08 · 226 阅读 · 0 评论 -
算法梳理GBDT篇
GBDTGBDT思想负梯度拟合损失函数回归分类多元分类正则化优缺点sklearn参数应用场景原创 2018-12-21 18:30:59 · 449 阅读 · 0 评论 -
线性回归小总结
代价函数(Cost Function)代价函数是定义在整个训练集上的,是所有样本误差的平均,也就是损失函数的平均。在线性回归中,最常用的是均方误差。对于hx=θTx=θ0x0+θ1x1+⋯+θnxn其中x0=1 给定m个属性集x=x1;x2;⋯;xn线性回归基于均方误差的代价函数为:Jθ0,θ1,…,θn=12mi=1mhxi-yi2m:训练样本的个数;...原创 2018-12-19 20:33:03 · 572 阅读 · 0 评论 -
算法梳理之集成学习
算法梳理之随机森林篇目录集成学习概念Boosting and BaggingBoostingBagging结合策略(平均法,投票法,学习法)平均法投票法学习法随机森林思想随机森林的推广优缺点目录集成学习概念集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。一般情况下,集成学习中的多个学习器都是同质的"弱学习器"。B...原创 2018-12-19 19:11:21 · 312 阅读 · 0 评论