
机器学习
文章平均质量分 87
之前积累的机器学习知识,包括案例代码。你可以留言说明你的需求,时刻保持交流
优惠券已抵扣
余额抵扣
还需支付
¥29.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
bboyzqh
时刻保持好奇心~
展开
-
xgboost代码示例
之前写过很久了,怕新更新的xgboost不再适用,重新调试了一下代码,可运行,但数据得换成自己的,xgboost,都应该知道它的威力了,这里不再多说,欢迎一起讨论!# coding=utf-8import pandas as pdimport xgboost as xgbfrom sklearn import metricsimport matplotlib.pylab as plt原创 2017-05-20 19:28:05 · 3604 阅读 · 1 评论 -
遗传算法之基因型与表现型的相互转换
思想从生物上讲:基因型:性状染色体的内部表现。表现型:染色体决定性状的外部表现,或者说,根据基因型形成的个体。也即,基因型决定表现型。在遗传算法中,整个流程操作的对象都是基因(即0和1的情况),所以第一步要做从表现型到基因型的转换,转换需要分成几种情况:自变量是离散整数值的情况自变量是连续值的情况情况一:当要优化的自变量是离散整数值的原创 2017-05-20 01:24:20 · 5418 阅读 · 2 评论 -
遗传算法应用于随机森林的调参过程
背景其实不管调参的对象的是随机森林,还是其他分类器,遗传算法都是作为分类器对其超参数进行调优的工具,当然,遗传算法是一个贪心算法,只能接近于最优解,类似的算法还有比如退火算法、蚁群算法等等,关于遗传算法的详解这里不再多说,网上参考有很多:http://blog.youkuaiyun.com/b2b160/article/details/4680853/ (非常好的理解遗传算法的例子)原创 2017-05-19 18:32:03 · 11050 阅读 · 24 评论 -
条件随机场
http://wenku.baidu.com/view/9986ed28bd64783e09122b23.html?re=view转载 2014-12-05 16:47:34 · 473 阅读 · 0 评论 -
隐马尔可夫模型(HMM)攻略
隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触到涉及 HMM 的相关文章,一直没有仔细研究过,都是蜻蜓点水,因此,想花一点时间梳理下,加深理解,在此特别感谢 52nlp 对 HMM 的详细介绍。 考虑下面交通灯的转载 2014-12-05 16:46:39 · 778 阅读 · 0 评论 -
粒子滤波
粒子滤波(PF:Particle Filter)&与卡尔曼滤波(Kalman Filter)相比较 粒子滤波(PF: Particle Filter)的思想基于蒙特卡洛方法(Monte Carlo methods),它是利用粒子集来表示概率,可以用在任何形式的状态空间模型上。其核心思想是通过从后验概率(观测方程)中抽取的随机状态粒子来表达其分布,是一种顺序重要性采样法(Sequent转载 2014-12-05 16:44:59 · 6316 阅读 · 0 评论 -
粒子滤波
之前一直在做移动机器人定位算法。查来查去,发觉粒子滤波算法(又叫MC算法)应该算是最流行的了。因此开始学习使用之。入手的是本英文书叫 “probalistic robotic” 很不错,我所见到的讲得最好的一本书。花了大量时间去研读。在这里我想谈谈我对粒子滤波的一点认识。因为在这一领域算是个新手。希望有前辈或者达人来指正 我的想法。也希望我的这篇文章对新手有理解他有所帮助(当初我就很是苦于它难于理转载 2014-12-05 16:42:23 · 1133 阅读 · 0 评论 -
粒子滤波网络信息读后感
粒子滤波 粒子指什么?是指目标状态的一种可能性(一个粒子),滤波就是滤出目标最可能的状态。在估计理论中指由当前和以前的观测值来估计目标当前的状态。粒子滤波的含义是目标状态传播的后验概率可以由若干个粒子近似表示。http://www.cnblogs.com/yangyangcv/archive/2010/05/23/1742263.html一直都觉得粒子滤波是个挺牛的东西,每次试图看转载 2014-12-04 09:18:55 · 830 阅读 · 0 评论 -
关于卡尔曼滤波和粒子滤波最直白的解释
卡尔曼滤波本来是控制系统课上学的,当时就没学明白,也蒙混过关了,以为以后也不用再见到它了,可惜没这么容易,后来学计算机视觉和图像处理,发现用它的地方更多了,没办法的时候只好耐心学习和理解了。一直很想把学习的过程记录一下,让大家少走弯路,可惜总也没时间和机会,直到今天。。。我一直有一个愿望,就是把抽象的理论具体化,用最直白的方式告诉大家--不提一个生涩的词,不写一个数学公式,像讲故事一样先把转载 2014-12-04 09:17:39 · 643 阅读 · 1 评论 -
马尔科夫随机场和马尔科夫链
1.什么是随机过程?在当代科学与社会的广阔天地里,人们都可以看到一种叫作随机过程的数学模型:从银河亮度的起伏到星系空间的物质分布、从分子的布朗运动到原子的蜕变过程,从化学反应动力学到电话通讯理论、从谣言的传播到传染病的流行、从市场预测到密码破译,随机过程理论及其应用几乎无所不在。人类历史上第一个从理论上提出并加以研究的过程模型是马尔科夫链,它是马尔科夫对概率论乃至人类思想发展作出的又一伟大转载 2014-11-19 15:29:38 · 1324 阅读 · 0 评论 -
Newton差分插值性质证明(均差与差分的关系证明)
Newton差分插值性质证明(均差与差分的关系证明)原创 2014-10-13 14:54:11 · 5023 阅读 · 2 评论 -
Newton均差插值性质证明
Newton均差插值性质证明原创 2014-10-13 14:52:20 · 2705 阅读 · 1 评论 -
交叉验证方法思想简介
交叉验证方法思想简介以下简称交叉验证(Cross Validation)为CV.CV是用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set),首先用训练集对分类器进行训练,在利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标.常见CV原创 2014-10-07 10:24:09 · 1173 阅读 · 0 评论 -
xgboost入门以及windows下安装及使用一
听说xgboost不仅运行速度快,而且集成了一系列算法,关于入门简介,可参考如下网址:http://cos.name/2015/03/xgboost/?replytocom=6610http://www.tuicool.com/articles/FNzI3aZ本文只是简介一下如何在windows下python下安装及运行(1)首先配置好python环境,这个不多说了原创 2016-01-03 12:40:17 · 11346 阅读 · 11 评论 -
遗传算法应用于XGBoost的调参过程
众所周知,XGBoost参数众多,便写了用遗传算法对XGBoost的调参代码,可同时结合本人写过的遗传算法应用于随机森林的调参过程 这一篇博客,不明白留言。该代码用遗传算法对xgboost代码,与数据结合比较深,慎用!#coding=utf-8from __future__ import divisionimport numpy as npimport pandas as pdim原创 2018-01-06 15:14:20 · 7434 阅读 · 17 评论 -
先验概率与后验概率的区别(老迷惑了)
先验(A priori;又译:先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。它通常与后验知识相比较,后验意指“在经验之后”,需要经验。这一区分来自于中世纪逻辑所区分的两种论证,从原因到结果的论证称为“先验的”,而从结果到原因的论证称为“后验的”。 先验概率是指根据以往经验和分析得到的概率,如全概率公式转载 2015-01-21 14:46:19 · 1029 阅读 · 0 评论 -
马尔可夫网络,(马尔可夫随机场、无向图模型)(Markov Random Field)
马尔可夫网络,(马尔可夫随机场、无向图模型)是关于一组有马尔可夫性质随机变量Random Field)" style="margin:0px; padding:0px; border:0px none; list-style:none; font-family:sans-serif; line-height:1.5em; vertical-align:middle">的全联合概率分布模型。转载 2015-01-29 10:32:00 · 4543 阅读 · 0 评论 -
xgboost入门以及windows下安装及使用二
如果看到上篇,xgboost没有安装成功的可以提问我,本文主要讲xgboost的测试例子,例子模仿别人的,但补充了很多,希望能帮到更多人!import sys,ossys.path.append('E:\\xgboost-master\\xgboost-master\\wrapper')import numpy as npimport scipy.sparseimport xgboo原创 2016-01-03 16:04:18 · 2358 阅读 · 0 评论 -
Logistic regression (逻辑回归)详解
2011.6.23.通知:考试时间改为,2011.6.29.下午2:30,A405教室 参考资料1、陈峰等,医用多元统计分析方法,中国统计出版社,2000年12月第1版2、张尧庭,定性数据的统计分析,广西师范大学出版社,1991年11月第1版3、阮敬,SAS统计分析—从入门到精通,人民邮电出版社,2009年4月第1版,39.00元类型分类(因翻译 2014-09-24 09:34:38 · 998 阅读 · 0 评论 -
非常好的理解遗传算法的例子
遗传算法的手工模拟计算示例为更好地理解遗传算法的运算过程,下面用手工计算来简单地模拟遗传算法的各 个主要执行步骤。 例:求下述二元函数的最大值: (1) 个体编码 遗传算法的运算对象是表示个体的符号串,所以必须把变量 x1, x2 编码为一种 符号串。本题中,用无符号二进制整数来表示。转载 2014-10-07 15:24:42 · 677 阅读 · 0 评论 -
分类算法之朴素贝叶斯分类(Naive Bayesian classification)
0、写在前面的话 我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中,并解决了实际问题后,那种快感更是我在其它地方体会不到的。 一直想写关于算法的博文,也曾写过零散的两篇,但也许是相比于工程性文章来说太小众,并没有引起大家的兴趣。最近面临毕业找工作,为了能给自己增加筹码,决定再次复习算法方面的知转载 2014-10-07 09:25:34 · 722 阅读 · 0 评论 -
分类算法之贝叶斯网络(Bayesian networks)
2.1、摘要 在上一篇文章中我们讨论了朴素贝叶斯分类。朴素贝叶斯分类有一个限制条件,就是特征属性必须有条件独立或基本独立(实际上在现实应用中几乎不可能做到完全独立)。当这个条件成立时,朴素贝叶斯分类法的准确率是最高的,但不幸的是,现实中各个特征属性间往往并不条件独立,而是具有较强的相关性,这样就限制了朴素贝叶斯分类的能力。这一篇文章中,我们接着上一篇文章的例子,讨论贝叶斯分类中更转载 2014-10-07 09:37:16 · 1228 阅读 · 0 评论 -
Z-score模型
纽约大学斯特恩商学院教授爱德华·阿特曼(Edward Altman)在1968年就对美国破产和非破产生产企业进行观察,采用了22个财务比率经过数理统计筛选建立了著名的5变量Z-score模型。Z-score模型是以多变量的统计方法为基础,以破产企业为样本,通过大量的实验,对企业的运行状况、破产与否进行分析、判别的系统。 Z-score模型的内容模型A公开上市交易的制造业公司的原创 2014-10-02 16:12:23 · 16590 阅读 · 0 评论 -
聚类分析之基于密度的聚类算法OPTICS
聚类分析(五)——基于密度的聚类算法OPTICS原创 2014-11-05 12:48:37 · 1850 阅读 · 1 评论 -
聚类分析之初步理解
将一群物理对象或者抽象对象的划分成相似的对象类的过程。其中类簇是数据对象的集合,在类簇中所有的对象都彼此相似,而类簇与类簇之间的对象是彼此相异。聚类除了可以用于数据分割(data segmentation),也可以用于离群点检测(outlier detection),所谓的离群点指的是与“普通”点相对应的“异常”点,而这些“异常”点往往值的注意。 很多人在学习聚类之初,容易将原创 2014-11-05 11:39:35 · 1980 阅读 · 0 评论 -
聚类分析之K中心点算法(k-mediods)
前面介绍了k-means算法,并列举了该算法的缺点。而K中心点算法(K-medoids)正好能解决k-means算法中的 “噪声”敏感这个问题。如何解决的呢?首先,我们得介绍下k-means算法为什么会对“噪声”敏感。还记得K-means寻找质点的过程吗?对某类簇中所有的样本点维度求平均值,即获得该类簇质点的维度。当聚类的样本点中有“噪声”(离群点)时,在计算类簇质点的过程中会受到原创 2014-11-05 11:56:38 · 17520 阅读 · 1 评论 -
聚类分析之基于密度的聚类算法(DBSCAN)
一 什么是基于密度的聚类算法由于层次聚类算法和划分式聚类算往往只能发现凸形的聚类簇。为了弥补这一缺陷,发现各种任意形状的聚类簇,开发出基于密度的聚类算法。这类算法认为,在整个样本空间点中,各目标类簇是由一群的稠密样本点组成的,而这些稠密样本点被低密度区域(噪声)分割,而算法的目的就是要过滤低密度区域,发现稠密样本点。二 DBSCAN(Density-based Spatial原创 2014-11-05 12:46:34 · 2140 阅读 · 0 评论 -
Mean Average Precision(MAP)平均精度均值
MAP(Mean Average Precision):单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。 MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高),MAP就可能越高。如果系统没有返回相关文档,则准确率默认为0。例如:假设有两个主题,主题1有4个相关网页,主题2有5原创 2014-11-06 15:14:02 · 26828 阅读 · 0 评论 -
聚类分析之层次聚类算法
层次聚类算法:前面介绍的K-means算法和K中心点算法都属于划分式(partitional)聚类算法。层次聚类算法是将所有的样本点自底向上合并组成一棵树或者自顶向下分裂成一棵树的过程,这两种方式分别称为凝聚和分裂。凝聚层次算法:初始阶段,将每个样本点分别当做其类簇,然后合并这些原子类簇直至达到预期的类簇数或者其他终止条件。分裂层次算法:初始阶段,将所有的样本点当做同一类簇,然原创 2014-11-05 12:43:51 · 5186 阅读 · 0 评论 -
数据预处理之独热编码(One-Hot Encoding)
问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。例如,考虑一下的三个特征:["male", "female"]["from Europe", "from US", "from Asia"]["uses Firefox", "uses Chrome", "uses Safari", "uses Internet Explorer"]转载 2016-01-15 20:03:15 · 3756 阅读 · 0 评论 -
变量
Logistic regression (逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。原创 2014-09-23 17:11:44 · 816 阅读 · 0 评论