
机器学习
文章平均质量分 93
Cerisier
这个作者很懒,什么都没留下…
展开
-
老妪能解PCA
大白话理解PCA算法原理现在的计算机计算能力越来越大,我们需要处理的数据也日趋复杂。复杂主要体现在数据量越来越多,而每组数据的维数也越来越高。这就出现了一种新的问题——维数灾难(Curse of Dimensionality)。人们开始寻求怎么用更少的维数来表示数据,却又不丢失重要信息。PCA(Principal Component Analysis)算法就是一种常用的降维方法。什么是PCA举一个例原创 2017-09-07 23:02:58 · 1251 阅读 · 0 评论 -
换个角度看回归——极大似然估计
极大似然估计与回归极大似然估计先简单说下似然(likelihood)和概率(probability)的区别,两者都是对可能性的表示。概率是在给定了一定参数值后,表示了一件事物发生的可能性;而似然则反其道而行之,是在给定了一系列结果后,表示了某一组参数值的可能性。那么最大似然估计的思想,就是在给定了一组结果后哪一组参数的可能性最大;反过来说,就是使用这样一组参数,出现给定结果的可能性最大原创 2017-09-18 10:31:27 · 4624 阅读 · 0 评论 -
谈谈对泛化误差的理解
个人对泛化误差的看法泛化误差与交叉验证误差这个词我们经常会遇到,在机器学习中,我们最终想要的结果实际上就是减小学习后的估计值和真实值的误差。比如在回归中,我们的 loss function 就表示一个误差。而我们需要做的,就是最小化这个误差,也就是对 object function 的处理。那么什么是泛化误差呢?刚刚说我们最小化了 loss function, 那是不是就一定说明我训练了一些样本后,原创 2017-09-28 13:35:01 · 20307 阅读 · 5 评论 -
初始R语言——决策树
初始R语言——决策树决策树是机器学习里很重要的分类算法, 网上也有很多博客进行细致地讲解,这里就不再叙述原理,而是直接运用 R 语言的程序包来进行数据处理。数据描述本文使用的数据是对乳腺癌肿瘤良性还是恶性的分类,使用 Breast Cancer Wisconsin (Original) Data Set 数据集。简单描述一下,数据集共有 699 个样本, 根据乳腺癌肿瘤的厚度,细胞大小,细胞形状,附原创 2017-11-06 23:54:33 · 2191 阅读 · 0 评论 -
初识R语言——PCA的实现
初识R语言 —— PCA的实现回顾PCA在之前的文章(老妪能解PCA)中曾经写过一些自己的PCA的看法,今天尝试用R语言来进行PCA的实现。回顾一下什么是PCA,总结来说就是基于对各个特征之间相关性的分析,从而找到主要成分并选取一定个数的特征向量作为新的基,从而得到样本在以新的基所构成的空间中的映射作为新的样本值,也就达到了降维的目的。数据描述这次数据使用的是真实数据,数据的描述如下: Huma原创 2017-10-22 15:42:37 · 12510 阅读 · 0 评论 -
谈谈对CNN在NLP中可行性的理解
谈谈对CNN在NLP中可行性的理解谈到CNN,人们的直观感受还是其在图像处理领域取得的巨大成就,虽然近几年越来越多的论文使用到CNN与RNN的模型来探索卷积网络在自然语言处理中的应用,但始终还是无法取代CNN在图像中的地位,或是RNN之于NLP的地位。所以想谈谈自己对于CNN在NLP中可行性的一点个人理解。CNN到底在干什么提起CNN的作用,或者是原理,所有博客,教程等等,都会使用...原创 2018-05-17 16:26:57 · 5746 阅读 · 1 评论