
机器学习
钱塘小甲子
不懂控制的歌手不是好的投资者,不会TCM的coder不是好的FRM
展开
-
SVM通俗讲解
转自:http://www.blogjava.net/zhenandaci/archive/2009/02/13/254519.html作者:Jasper出自:http://www.blogjava.net/zhenandaci/(一)SVM的八股简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首转载 2015-11-03 21:01:12 · 1080 阅读 · 0 评论 -
重回机器学习-《python机器学习及实践》读书笔记二
一.三个率 机器学习模型训练好之后,会在样本外进行测试,然后我们可以得到三个“率”:准确率 召回率 精确率 其实这些也没有什么大不了的,大家如果学习过基本的统计学的话就会知道,这就是所谓的一类错误、二类错误的一个变体。 首先是准确率,这个最好理解,就是你的模型在样本外测试中正确的次数。当然,我们讨论的前提都是一个二分类问题。这三个“率”是...原创 2018-10-09 22:18:46 · 922 阅读 · 1 评论 -
重回机器学习-《python机器学习及实践》读书笔记一
以前也算比较系统接触过机器学习吧,记得最早的时候是大二,机器学习才刚开始提起,更多的是说统计学习。那个时候,深度学习似乎都还没有听过,看的第一本书也是一本外国人写的,一直拿鸢尾花数据集当例子的书。当时看完也没觉得什么,毕竟年轻,何况那个时候很多东西就是觉得好奇好玩而去学一下。 后来也慢慢接触到,也编程实践过,不过一直都不怎么成体系。最近觉得,还是得再跟一下潮流,所...原创 2018-09-26 22:21:31 · 1773 阅读 · 0 评论 -
ARI聚类效果评价指标
聚类效果有一个评价指标,ARI(Adjusted Rand Index)。这个指标不考虑你使用的聚类方法,把你的方法当做一个黑箱,只注重结果。可以说,是一个十分“功利”的指标。1.Rand index在讲ARI之前呢,先讲述一下RI,也就是rand index,从两者的名字也可以看出来,这是ARI的祖宗版。这里,我们解释一下a,b,c,d分别代表什么。a呢就是说应该在一类,你最原创 2016-09-27 15:03:09 · 33598 阅读 · 12 评论 -
KL散度及其python实现
KL散度又是一个从信息论、熵的角度考量距离的一个量。但是,这里说他是距离有点不妥,因为距离需要满足4个条件:1) d(x,x) = 0 反身性2) d(x,y) >= 0 非负性3) d(x,y) = d(y,x) 对称性4) d(x,k)+ d(k,y) >= d(x,y) 三原创 2016-07-05 21:31:57 · 20684 阅读 · 2 评论 -
大话机器学习之数据预处理与数据筛选
数据挖掘和机器学习这事,其实大部分时间不是在做算法,而是在弄数据,毕竟算法往往是现成的,改变的余地很小。 数据预处理的目的就是把数据组织成一个标准的形式。1.归一化 归一化通常采用两种方法。 a.最简单的归一化,最大最小值映射法 P_New=(P-MI)/(MA-MI) P是原始数据,MI是这一属性中的最小值,MA是这一原创 2016-06-14 21:04:46 · 5493 阅读 · 0 评论 -
大话机器学习之决策树(DS)
什么是决策树呢?其实很直观,这样的就是 不说了,先看数据: 这是一个医疗检测的数据,前面六个是指标,具体是什么其实没有意义,说的好像化验单上的那些医学术语你都知道似得。最后一个就是结果。我们就是要构建一颗决策树,根据前面六个指标,预测最后结果是消极还是积极。当然,码代码之前我们先要对数据做一点处理。 对于后面这一行,我们当然是把消极变为0,积极变为原创 2016-06-12 15:20:06 · 1714 阅读 · 0 评论 -
PyBrain-Python的人工神经网络
python有一个很好用的神经网络库。虽然sklearn很强大,但是好像对神经网络的支持并不是那么那好。1.安装安装很方便,项目是一个开源的,托管在github上。如果你用的也是Anconda平台,那么在Anconda Prompt的命令行中敲下pip install git+https://github.com/pybrain/pybrain.git@0.3.3等一会儿就会装原创 2016-06-08 19:56:37 · 9981 阅读 · 2 评论 -
最大信息系数(MIC)
童鞋们觉得文章不错,就麻烦点一下下面人工智能的教程链接吧,然后随便翻阅一下https://www.captainbed.net/qtlyxMIC(Maximal information coefficient)一个很神奇的东西,源自于2011年发在sicence上的一个论文。学过统计的都知道,有相关系数这么一个东西,通常叫做r。但是其实应该叫做线性相关系数,应用领域还是很窄的。而...原创 2016-03-02 16:21:19 · 47276 阅读 · 49 评论 -
我理解的信息论——自信息、熵、互信息
原文:http://blog.sina.com.cn/s/blog_5fc770cd0100ia5k.html信息论 信息是关于事物的运动状态和规律的认识,它可以脱离具体的事物而被摄取、传输、存贮、处理和变换。 信息论,就是用数理统计方法研究信息的基本性质以及度量方法,研究最佳解决信息的摄取、传输、存贮、处理和变换的一般规律的科学。它的成果将为人们广泛而有效地利用信息提供转载 2016-03-07 14:30:44 · 8106 阅读 · 0 评论 -
大话机器学习(一)--Go for it!
本系列教程适合对机器学习一无所知,甚至文科森哦。反正不会有数学公式,I promise!教程基于sklearn的python机器学习库。打开机器学习的面纱,就是这样。首先要有利器。工欲善其事必先利其器。看我下面这个文章吧,下载一下这个软件,然后我们就可以开始了。http://blog.youkuaiyun.com/qtlyx/article/details/497424831.什么是机器学习?原创 2016-01-22 11:25:26 · 3101 阅读 · 0 评论 -
大话机器学习(二)--KNN
一、有监督与无监督学习总体来说讲呢,机器学习又两种学习方法,一个叫有监督学习(Supervised),一种叫无监督学习(Unsupervised)。顾名思义啊,一个就是有人看着,一个就是没有。在机器学习中呢,就是有监督学习,会先告诉学习算法,我有200本书,这些是我喜欢的,那些是我觉得一般的,那些是我讨厌的。好,现在又给你一本书,请你告诉我,我对这本书的态度。这样的学习过程就是有监督的。原创 2016-02-01 16:37:51 · 1746 阅读 · 0 评论 -
kNN算法概要
一、算法概述1、kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。最简单平凡的分类器也许是那种死记硬背式的分类器,记住所有的训练数据,对于新的数据则直接和训练数据匹配,如果存在相同属性的训练数据,则直接用它的分类来作为新数据的分类。这种方式有一个明显的缺点,那就是很可能无法找到完全匹配的训练记录。kNN算法则是从训练集中找转载 2016-02-01 14:54:51 · 992 阅读 · 0 评论 -
公交车到站预测2----数据后处理
之前从csv获取了数据,但是我们的目的是用机器学习的方式对其分类。目测使用sklearn的机器学习库,所以要把数据处理成符合要求的格式。import time import numpy as np from sklearn import cluster,datasets首先是我们需要的一些模块,time就是时间处理的模块,这里的作用就是把表示时间的字符原创 2016-01-18 22:48:33 · 2881 阅读 · 0 评论 -
Anaconda使用入门
开始接触数据挖掘和机器学习的东西,选定在Python上做。有一本书《利用Python进行数据分析》,书中用的最主要的包就是numpy和pandas,找这两个包的时候,发现了Anaconda这样一个科学数据分析平台,当然也可以用来做别的事情啦。只是集成了numpy,pandas等包,用起来特别方便。用的过程中走了些许弯路,特别是下载,用学校“华东第一教育网节点”的网才下下来。原创 2015-11-09 18:50:23 · 16798 阅读 · 0 评论 -
SVM通俗讲解
转自:http://www.blogjava.net/zhenandaci/archive/2009/02/13/254519.html作者:Jasper出自:http://www.blogjava.net/zhenandaci/(一)SVM的八股简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首转载 2015-11-03 20:58:57 · 1156 阅读 · 0 评论 -
重回机器学习----(1、机器学习的一些基本问题)
1.样本偏差问题 所谓样本偏差问题,以二分类问题来说,就是两个类别的样本个数存在很大的区别。比如,我们识别违约的问题,我们知道,一般违约都是小概率的,要不然放贷款的就都玩完了。那么这个时候,训练模型就会有样本偏差的问题,可能一百个样本中只有一个是违约的,如果不做处理,模型肯定更加习惯于判定不违约,因为随便来一个样本,判断不违约的准确率都是99%。 这个问题要分情...原创 2019-04-11 20:12:50 · 488 阅读 · 0 评论