
机器学习
Rachel_nana
学习R语言、python中……
展开
-
pca代码中遇到的问题及知识点
问题1:今天在做作业的时,读取文本testSet.txt后,运用map函数将其转换为float型,结果返回迭代器如下def loadDataSet(fileName, delim='\t'): fr = open(fileName) stringArr = [line.strip().split(delim) for line in fr.readlines()] ...原创 2019-07-01 16:42:16 · 1121 阅读 · 0 评论 -
支持向量机SVM原理及推导
本周内容总结1.间隔与支持向量分类学习的基本思想:基于训练集在样本空间找到一个划分超平面,将不同类别的样本划分开。特点:寻找位于两类训练样本“正中间”的划分超平面原因:该超平面对训练样本局部扰动的“容忍”性最好,所产生的分类结果最鲁棒,对未见示例的泛化能力最强。在样本空间,划分超平面可通过方程来描述,其中为法向量,决定了超平面的方向。b为位移项,决定了超平面与原点的距离。样...原创 2019-07-14 10:10:42 · 5257 阅读 · 2 评论 -
贝叶斯分类器
1.贝叶斯决策论贝叶斯决策论(Bayesian decision theory)是概率框架下实施决策的基本方法。对于分类任务,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。贝叶斯判定准则(Bayes decision rule):为最小化总体风险,只需在每个样本上选择那个能使条件风险最小的类别标记,即此时,称为贝叶斯最...原创 2019-07-21 12:04:06 · 1369 阅读 · 0 评论 -
EM算法
EM算法是一种迭代算法,由Dempster等人于1977年总结提出,主要用于解决含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计。EM算法的每次迭代主要由两步组成:E步,求期望;M步,求极大。所以这一算法称为期望极大算法,简称EM算法。1.EM算法的引入概率模型有时既含有观测变量,又含有隐变量或潜在变量。如果概率模型的变量都是观测变量,那么给定数据,可以直接用极大似然估计法,...原创 2019-07-21 12:03:58 · 1258 阅读 · 0 评论 -
神经网络
这周主要学习了感知机、BP神经网络以及简单地对卷积神经网络的初探。1.感知机感知机(perceptron)是二分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。感知机旨在求出将训练数据进行线性划分的分离超平面,为此,导入基于误分类的损失函数,利用梯度下降法对对损失函数进行纪晓...原创 2019-07-28 20:24:46 · 636 阅读 · 0 评论 -
模型评估与选择
1.经验误差与过拟合错误率(error rate):分类错误的样本占样本总数的比例如果在个样本中有个样本分类错误,则错误率为,相应地,称为“精度”(accuracy),即“精度= 1-错误率”。误差(error):我们把学习器的实际预测输出与样本的真实输出之间的差异训练误差(training error)或经验误差(empirical error):学习器在训练集上的误差泛化误...原创 2019-08-04 22:26:05 · 573 阅读 · 0 评论 -
管道(Pipeline)和特征融合(FeatureUnion)
Pipeline:chaining(链接)estimatorsPipeline可以用于把多个estimators级联合成一个estimator。这么做的原因是考虑了数据处理过程的一系列前后相继的固定流程,比如:feature selection --> normalization --> classification。在这里,Pipeline提供了两种服务:Convenie...转载 2019-08-16 14:20:12 · 1408 阅读 · 0 评论 -
集成与堆叠
一、集成学习介绍基础集成技术:最大投票法(max voting)、平均法(averaging)、加权平均法(weighted average)高级集成技术:堆叠(stacking)、混合(Blending)1.例子买车:1.问别人哪种车好2.上网查询其价格3.4S店去问4.综合各种信息买到自己想要的车最大投票方法通常用于分类问题。这种技术中使用多个模型来预...原创 2019-09-12 18:00:24 · 1842 阅读 · 0 评论