
机器学习
林林同學
要得到你想要的某样东西,最好的办法是让你自己配得上它。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
学习笔记:自编码和稀疏自编码(TensorFlow代码)
自编码和稀疏自编码原创 2017-04-25 21:58:07 · 1673 阅读 · 4 评论 -
势函数法
理论基础 势函数法是非线性分类器中常用到的一种方法,它借用电场的概念,来解决模式分类问题。用势函数的概念来确定判别函数和划分类别界面。在势函数法中,把属于一类的样品看做正电荷,而属于另一类的样品看作负电荷,从而把模式的分类转变为正负电荷的转移,电位为0 的等位线即为判别界限。 基本思想假设要划分属于两种类别w1w_{1}和w2w_2的模式样本,这些样本可堪称是分布在nn维模式空间中的点x原创 2018-01-13 11:58:03 · 5429 阅读 · 0 评论 -
sklearn学习记录
from sklearn.datasets import fetch_20newsgroupscategories = ['alt.atheism','soc.religion.christian','comp.graphics','sci.med']twenty_train = fetch_20newsgroups(subset ='train',categories = categories原创 2017-09-17 16:34:37 · 592 阅读 · 0 评论 -
Kaggle:Bag of Words Meets Bags of Popcorn 学习记录
*Kaggle案例分析:Bag of Words Meets Bags of Popcorn-part1项目表述: 这是一个关于情感分析的话题。Google的Word2Vec(文本深度表示模型)是一个由深度学习驱动的方法。旨在获取words内部的含义。Word2Vec试图理解单词之间的含义与语义关系, 它类似于recurrent neural nets(递归神经网络)或者深度神经网络, 但是计算效率原创 2017-08-25 20:54:55 · 135326 阅读 · 5 评论 -
N-gram的原理、用途和研究
转载自:这里写链接内容N-gram的基本原理N-gram是计算机语言学和概率论范畴内的概念,是指给定的一段文本或语音中N个项目(item)的序列。项目(item)可以是音节、字母、单词或碱基对。通常N-grams取自文本或语料库。 N=1时称为unigram,N=2称为bigram,N=3称为trigram,以此类推。 举例来说:将“informationretrieval”视为一段文本,它的5转载 2017-07-17 11:15:03 · 3101 阅读 · 1 评论 -
集成学习之bagging与随机森林
Bagging 算法原理和Boosting 不同,它的弱学习器之间没有依赖关系,可以并行生成,原理图如下: 从图中可以看出,Bagging的个体弱学习器的训练集是通过随机采样得到的,通过T次的随机采样,我们就可以得到T个采样集,对于这T个采样集,我们可以分别独立的训练出T个弱学习器,再对这T个弱学习器通过集合策略来的到最终的强学习器。 随机采样: 这里采用的是自助采样法,即对于m个样本的原始训原创 2017-06-11 11:03:20 · 2798 阅读 · 0 评论 -
长短记忆型递归神经网络LSTM
长短记忆型递归神经网络LSTM 原文链接http://www.youkuaiyun.com/article/2015-11-25/2826323?ref=myread摘要:作者早前提到了人们使用RNNs取得的显著成效,基本上这些都是使用了LSTMs。对于大多数任务,它们真的可以达到更好的效果!写了一堆方程式,LSTMs看起来很吓人。希望通过这篇文章中一转载 2017-07-11 17:17:30 · 732 阅读 · 0 评论 -
循环神经网络(RNN)介绍
循环神经网络(Recurrent Neural Networks)RNNs的目的是用来处理序列数据,在传统的神经网络模型中,网络结构是从输入层到隐含层再到输出层,层与层之间是全连接的,每层之间的节点是无连接的,但是这种网络对很多问题搜无能为力,例如,预测句子的下一个单词是什么,一般需要用到前面的单词,因为一个句子中的单词不是独立存在的,RNNs之所以称为循环神经网络,即一个序列当前的输入和前面的输出原创 2017-07-11 15:10:26 · 1174 阅读 · 0 评论 -
集成学习
集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任 务,有时也被称为多分类器系统(multi-classifier system) 、基于委员会的学 习(committee-based learning) 等. 集成学习的一般结构: 先产生一组“个体学习 器”(individual learner),再用某种策略将它们结合起来。 个体学习器通常 由一个现原创 2017-06-07 16:04:17 · 661 阅读 · 0 评论 -
集成学习之Boosting
Boosting是集成算法之一,通过整合多个弱分类器,从而形成一个强分类器。任一弱学习算法可以通过加强提升到一个任意正确率的强学习算法,并通过构造一种多项式级的算法来实现这一加强过程,这就是最初的Boosting算法的原型。Boosting是一种将弱分类器通过某种方式结合起来得到一个分类性能大大提高的强分类器的分类方法。该方法可以把一些粗略的经验规则转变为高度准确的预测法则。强分类器对数据进行分类,原创 2017-06-07 15:45:15 · 657 阅读 · 0 评论 -
主成分分析(PCA)
主成分分析(PCA)的原理就是将一个高维向量X,通过一个特殊向量矩阵U,投影到一个低维的向量空间中,表征为一个低维向量Y,并且仅仅损失了一些次要信息,也就是说,通过低维表征的向量和特征向量矩阵,可以基本重构出所对应的原始高维特征。 降维的必要性:预测变量相互关联,多重共线性会导致空间的不稳定,从而导致结果的不连贯。高维空间本身具有稀疏性。过多的变量会妨碍查找规律的建立。 降维的目的:减少原创 2017-06-01 16:55:36 · 817 阅读 · 0 评论 -
机器学习中的误差(Error)、偏差(Bias)与方差(Variance)
误差=偏差+方差 误差反映的是整个模型的准确度,偏差反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精确度,方差反映的是模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性。 在一个系统中,偏差和方差往往是不可兼得的,如果要降低模型的偏差,就会一定程度上提高模型的方差,反之亦然。造成这种现象的根本原因是,我们总是希望试图用有限训练样本去估计无限的真实数据。当我们更加相信这些数据原创 2018-01-25 17:19:34 · 1355 阅读 · 0 评论