
机器学习
文章平均质量分 50
xueli1991
这个作者很懒,什么都没留下…
展开
-
机器学习入门
这是一篇很难写的文章,因为我希望这篇文章能对学习者有所启发。我在空白页前坐下,并且问自己了一个很难的问题:什么样的库、课程、论文和书籍对于机器学习的初学者来说是最好的。文章里到底写什么、不写什么,这个问题真的让我很烦恼。我必须把自己当做一个程序员和一个机器学习的初学者,站在这个角度去考虑最合适的资源。我找出了每个类型中最适合的资源。如果你是一个真正的初学者,并且乐意于开始了解机器学转载 2016-07-15 09:27:26 · 289 阅读 · 0 评论 -
混淆矩阵
在机器学习(人工智能领域),混淆矩阵(confusionmatrix)是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。矩阵的列表示预测类的实例,行表示实际类的实例,这样通过混淆矩阵的一些指标可以衡量算法的精度。 Predicted Negative Positive转载 2017-07-07 17:46:30 · 1670 阅读 · 0 评论 -
监督算法大比拼之BP、SVM、adaboost非线性多分类实验
写在之前:前些文章曾经细数过从决策树、贝叶斯算法等一些简单的算法到神经网络(BP)、支持向量机(SVM)、adaboost等一些较为复杂的机器学习算法(对其中感兴趣的朋友可以往前的博客看看),各种算法各有优缺点,基本上都能处理线性与非线性样本集,然通观这些算法来看,个人感觉对于数据(无论线性还是非线性)的分类上来说,里面比较好的当数BP、SVM、adaboost元算法这三种了,由于前面在介转载 2017-05-21 16:36:27 · 1042 阅读 · 0 评论 -
matalb k-means函数使用方法(附一个很好的k-means参考博客)
这是我看到的一篇良心文章啦~有问题可以直接去请教博主~http://blog.youkuaiyun.com/u010451580/article/details/52249195首先得说,虽然matlab提供了KMeans函数,但是matlab的KMeans聚类好慢,真的好慢! K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优转载 2017-04-04 16:50:42 · 597 阅读 · 0 评论 -
数据归一化方法
本文主要介绍两种基本的数据归一化方法。归一化方法有两种形式,一种是把数变为【0,1】之间的小数,一种是把有量纲表达式变为无量纲表达式。数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一转载 2017-04-11 15:36:05 · 1131 阅读 · 0 评论 -
分类之性能评估指标ROC&AUC
本文主要介绍几种常用的分类评估指标,同时介绍如何绘制ROC曲线以及AUC值的便捷的计算方法。最后再附上一个绘制ROC曲线和计算AUC的源码实现。Precision和Recall首先我们来看看下面这个混淆矩阵:pred_label/true_labelPositiveNegativePositiveTPFP转载 2017-04-11 15:28:33 · 895 阅读 · 0 评论 -
CrossValidation十字交叉验证的Python实现
1.原理1.1 概念交叉验证(Cross-validation)主要用于模型训练或建模应用中,如分类预测、PCR、PLS回归建模等。在给定的样本空间中,拿出大部分样本作为训练集来训练模型,剩余的小部分样本使用刚建立的模型进行预测,并求这小部分样本的预测误差或者预测精度,同时记录它们的加和平均值。这个过程迭代K次,即K折交叉。其中,把每个样本的预测误差平方加和,称为PRESS(pre转载 2017-04-11 09:32:40 · 10769 阅读 · 0 评论 -
KNN从原理到实现
引文:决策树和基于规则的分类器都是积极学习方法(eager learner)的例子,因为一旦训练数据可用,他们就开始学习从输入属性到类标号的映射模型。一个相反的策略是推迟对训练数据的建模,直到需要分类测试样例时再进行。采用这种策略的技术被称为消极学习法(lazy learner)。最近邻分类器就是这样的一种方法。注:KNN既可以用于分类,也可以用于回归。1.K最近邻分类器原理转载 2017-04-09 22:17:24 · 444 阅读 · 0 评论 -
PCA主成分分析Python实现
Github源码:https://github.com/csuldw/MachineLearning/tree/master/PCAPCA(principle component analysis) ,主成分分析,主要是用来降低数据集的维度,然后挑选出主要的特征。原理简单,实现也简单。关于原理公式的推导,本文不会涉及,你可以参考下面的参考文献,也可以去Wikipedia,这里主要关注实转载 2017-04-08 11:01:13 · 11032 阅读 · 2 评论 -
Stanford机器学习---第八讲. 支持向量机SVM
本栏目(Machine learning)包括单参数的线性回归、多参数的线性回归、Octave Tutorial、Logistic Regression、Regularization、神经网络、机器学习系统设计、SVM(Support Vector Machines 支持向量机)、聚类、降维、异常检测、大规模机器学习等章节。所有内容均来自Standford公开课machine learning转载 2017-03-21 21:51:08 · 291 阅读 · 0 评论 -
随机梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent )的公式对比、实现对比
梯度下降(GD)是最小化风险函数、损失函数的一种常用方法,随机梯度下降和批量梯度下降是两种迭代求解思路,下面从公式和实现的角度对两者进行分析,如有哪个方面写的不对,希望网友纠正。下面的h(x)是要拟合的函数,J(theta)损失函数,theta是参数,要迭代求解的值,theta求解出来了那最终要拟合的函数h(theta)就出来了。其中m是训练集的记录条数,j是参数的个数。转载 2017-03-11 16:43:40 · 2338 阅读 · 1 评论 -
安装python,python下的机器学习包
1.目前为止,python版本有2.x和3.x版本,至于该选择那个版本,请自己按照自己的需求进行选择。下面有两个版本的详细解析。https://wiki.python.org/moin/Python2orPython32.在Linux上安装Python如果你正在使用Linux,那我可以假定你有Linux系统管理经验,我的debian系统里自带python2.x和python原创 2016-07-15 10:21:57 · 4887 阅读 · 0 评论 -
k-means
转载 2017-02-20 14:56:11 · 269 阅读 · 0 评论 -
决策树
字典字典类似于你通过联系人名字查找地址和联系人详细情况的地址簿,即,我们把键(名字)和值(详细情况)联系在一起。注意,键必须是唯一的,就像如果有两个人恰巧同名的话,你无法找到正确的信息。注意,你只能使用不可变的对象(比如字符串)来作为字典的键,但是你可以不可变或可变的对象作为字典的值。基本说来就是,你应该只使用简单的对象作为键。键值对在字典中以这样的方式标记:d = {key1 :转载 2016-07-27 22:33:56 · 1107 阅读 · 0 评论 -
k-近邻算法(k-Nearest Neighbor)
工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般只选择样本训练集中前k个最相似的数据。这也是k-近邻算法中k的来源原创 2016-07-26 22:37:21 · 1412 阅读 · 0 评论 -
'pip' 不是内部或外部命令,也不是可运行的程序或批处理文件。
过程中,需要去通过pip安装Django,结果出错了:E:\Dev_Tools\webserver\django>pip install Django'pip' 不是内部或外部命令,也不是可运行的程序或批处理文件。E:\Dev_Tools\webserver\django>python pip install Djangopython: can't open file 'pip': [原创 2016-07-15 09:46:21 · 131288 阅读 · 10 评论 -
机器入门学习
1、去Coursera上Andrew Ng的《机器学习》,完成所有作业,最好能全部拿满分。这是相当入门的课程,老师是机器学习领域的专家,而且也是目前比较火热的深度学习的专家之一。关于老师的详细信息大家可以去谷歌。这门课程我是从课程上了一半开始注册的,所以最后没有拿到高分。不过真心收获很大,使我在看论文的时候轻松了好多。老师讲的是深入浅出,不用太担心数学方面的东西。而且作业也非常适合入门者,都是设计转载 2016-07-15 09:38:27 · 379 阅读 · 0 评论 -
机器学习入门
(写在前面)昨天说写个机器学习书单,那今天就写一个吧。这个书单主要是入门用的,很基础,适合大二、大三的孩子们看看;当然你要是大四或者大四以上没看过机器学习也适用。无论是研究智能还是做其他事情,机器学习都是必须的。你看GFW都用机器学习了,咱是不是也得科普一下。(全文结构)其实,我想了想,学一门学科,列出一堆书,评论来评论去的,其实对初学者用处不大;他都不知道这些是啥,你就开始一顿评论,只能转载 2016-07-15 09:29:18 · 314 阅读 · 0 评论 -
遗传算法
遗传算法 ( GA , Genetic Algorithm ) ,也称进化算法 。 遗传算法是受达尔文的进化论的启发,借鉴生物进化过程而提出的一种启发式搜索算法。因此在介绍遗传算法前有必要简单的介绍生物进化知识。 一.进化论知识 作为遗传算法生物背景的介绍,下面内容了解即可: 种群(Population):生物的进化以群体的形式进行,这样的一个群体称转载 2017-08-18 20:56:15 · 1101 阅读 · 0 评论