
机器学习
CopperDong
纯属巧合
展开
-
EM算法原理和python简单实现
目录第一章最大似然估计1第二章最大似然估计到EM2第三章 EM算法推导3第四章 EM例子和python代码7参考文献8最大似然估计这篇文章主要是在我后续添加的参考文献中总结和概括出来的,如有雷同,肯定是我抄他。谢谢。先看个例子:你妈妈给你提了一篮子"好"鸡蛋,假设里面有100个"独立的"鸡蛋,你从里面挑出10个,...转载 2019-11-19 11:12:37 · 303 阅读 · 1 评论 -
机器学习项目
Minimal and clean examples of machine learning algorithms implementations 自制机器学习算法库机器学习算法python实现 算法/数据结构/Python/剑指offer/机器学习/leetcode 机器学习算法项目 用python实现机器学习各种经典算法 100-Days-Of-ML-Code中文版 ...原创 2019-10-17 11:59:49 · 232 阅读 · 0 评论 -
机器学习经典书籍
前面有一篇机器学习经典论文/survey合集811。本文总结了机器学习105的经典书籍,包括数学基础和算法理论的书籍。本文会保持更新,欢迎推荐。入门书单《数学之美》 PDF2.3K作者吴军大家都很熟悉。以极为通俗的语言讲述了数学在机器学习和自然语言处理等领域的应用。《Programming Collective Intelligence》(《集体智慧编程》)PDF1转载 2017-10-01 19:19:26 · 660 阅读 · 0 评论 -
最近收集的中科院研究生教学视频
[?][-]eD2k链接 帮助 | eMule官方 | eMule Fans 电骡爱好者 | eMule-Mods.de | 插件主页小波与滤波器组-28-中科院.iso 查源2.27GB[面向对象程序设计CPP]-29-中科院.iso 查源2.53GB[算法设计与分析-30讲]-中科院转载 2017-10-08 16:47:20 · 3175 阅读 · 1 评论 -
EM算法及其应用(代码)
最近上模式识别的课需要做EM算法的作业,看了机器学习公开课及网上的一些例子,总结如下:(中间部分公式比较多,不能直接粘贴上去,为了方便用了截图,请见谅)概要适用问题EM算法是一种迭代算法,主要用于计算后验分布的众数或极大似然估计,广泛地应用于缺损数据、截尾数据、成群数据、带有讨厌参数的数据等所谓不完全数据的统计推断问题。优缺点优点:EM算法简单且稳定,迭代能保证观察数据对数后验转载 2017-10-08 16:45:30 · 2418 阅读 · 0 评论 -
常用采样方法
常用采样方法最近在学习 MCMC,一种特殊的采样方法,顺便把其他常用的方法了解了一下。为什么要采样?很多问题,我们只需要使用数学解析的方法即可解决。例如对 f(x)做积分,如果 f(x) = x^2,那么直接积分就行,很简单。若f(x)是标准正态分布的概率密度函数(pdf),求[a,b]之间的定积分,那么直接用数学解析方法就搞不定了,因为我们知道正态分布的积分是转载 2017-10-08 15:26:59 · 1128 阅读 · 0 评论 -
决策树ID3分类算法的C++实现
数据挖掘课上面老师介绍了下决策树ID3算法,我抽空余时间把这个算法用C++实现了一遍。决策树算法是非常常用的分类算法,是逼近离散目标函数的方法,学习得到的函数以决策树的形式表示。其基本思路是不断选取产生信息增益最大的属性来划分样例集和,构造决策树。信息增益定义为结点与其子结点的信息熵之差。信息熵是香农提出的,用于描述信息不纯度(不稳定性),其计算公式是Pi为子集合中不同性(而二元分转载 2017-09-10 20:47:05 · 944 阅读 · 0 评论 -
机器学习开源算法库
C++计算机视觉CCV —基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库OpenCV—它提供C++, C, Python, Java 以及 MATLAB接口,并支持Windows, Linux, Android and Mac OS操作系统。通用机器学习MLPackDLibecoggsharkClosure通用机器学习Closure Toolbox转载 2017-09-10 15:26:54 · 1336 阅读 · 0 评论 -
HMM学习最佳范例
http://www.52nlp.cn/hmm-learn-best-practices-one-introduction原创 2017-08-15 15:56:43 · 659 阅读 · 1 评论 -
PCA用SVD来实现
SVD(奇异值分解)是线性代数中一个常见的decomposition;PCA也是dimension reduction领域中的经典之作。初学者在学习PCA的时候可能会对PCA的算法步骤有那么一些“繁琐”的感觉。结合svd分解,会让你在编写PCA算法的时候达到一种什么样的得心应手的程度呢?且听说慢慢道来 先简单描述一下PCA的算法步骤(当然,你要对PCA有所理解啦,不甚理解也行,仅从程序员的角转载 2017-09-08 16:06:40 · 3829 阅读 · 0 评论 -
强大的矩阵奇异值分解(SVD)及其应用
本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com。也可以加我的微博:@leftnoteasy前言: 上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。在上篇文章中转载 2017-09-08 15:46:45 · 314 阅读 · 0 评论 -
特征向量的物理意义
什么是特征向量,特征值,矩阵分解[1.特征的数学意义] 我们先考察一种线性变化,例如x,y坐标系的椭圆方程可以写为x^2/a^2+y^2/b^2=1,那么坐标系关于原点做旋转以后,椭圆方程就要发生变换。我们可以把原坐标系的(x,y)乘以一个矩阵,得到一个新的(x',y')的表示形式,写为算子的形式就是(x,y)*M=(x',y')。这里的矩阵M代表一种线性变换:拉伸,平转载 2017-09-08 14:59:38 · 1095 阅读 · 0 评论 -
统计数据归一化与标准化
归一化:1)把数据变成(0,1)之间的小数2)把有量纲表达式变成无量纲表达式 归一化算法有:1.线性转换 y=(x-MinValue)/(MaxValue-MinValue2.对数函数转换: y=log10(x) 3.反余切函数转换 y=atan(x)*2/PI 4.线性也与对数函数结合 式(1)将输入值换算为[-1转载 2017-09-08 14:58:22 · 767 阅读 · 0 评论 -
分解机(Factorization Machines)推荐算法
转载 2017-08-28 09:18:08 · 1952 阅读 · 0 评论 -
SVM由浅入深的详细讲解(遇到最易懂的)
支持向量机通俗导论(理解SVM的三层境界)作者:July ;致谢:pluskid、白石、JerryLead。出处:结构之法算法之道blog。前言 动笔写这个支持向量机(support vector machine)是费了不少劲和困难的,原因很简单,一者这个东西本身就并不好懂,要深入学习和研究下去需花费不少时间和精力,二者这个东西也不好讲清楚,尽管网转载 2017-08-10 09:33:01 · 917 阅读 · 0 评论 -
牛顿法与拟牛顿法学习笔记(一)牛顿法
机器学习算法中经常碰到非线性优化问题,如 Sparse Filtering 算法,其主要工作在于求解一个非线性极小化问题。在具体实现中,大多调用的是成熟的软件包做支撑,其中最常用的一个算法是 L-BFGS。为了解这个算法的数学机理,这几天做了一些调研,现把学习过程中理解的一些东西整理出来。目录链接(1) 牛顿法(2) 拟牛顿条件(3) DFP 算法(4) BF转载 2017-08-10 15:02:55 · 301 阅读 · 0 评论 -
SVM -支持向量机原理与实践之实践篇
SVM -支持向量机原理与实践之实践篇前言最近太忙,这几天还是抽空完成实践篇,毕竟所有理论都是为实践服务的,上一篇花了很大篇幅从小白的角度详细的分析了SVM支持向量积的原理,当然还有很多内容没有涉及到,例如支持向量回归,不敏感损失函数等内容,但是也不妨碍我们用支持向量机去实现一个分类系统,因为有了对前面说讲述知识的一定的了解,就可以很好的为我们这一篇的实践内容服务。转载 2017-10-06 11:28:25 · 487 阅读 · 0 评论 -
机器学习算法与Python实践之支持向量机(SVM)初级
机器学习算法与Python实践之支持向量机(SVM)初级 机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍,所以就参考这本书的过程来学习了。 在这一节我们主要是对支转载 2017-10-06 11:32:39 · 539 阅读 · 0 评论 -
集成学习实战
如果你随机想几千个人询问一个复杂问题,然后汇总他们的回答。在许多情况下,你会发现,这个汇总的回答比专家的回答还要好。这被称为群体智慧。同样,如果你聚合一组预测器(比如分类器或回归器)的预测,得到的预测结果也比最好的单个预测要好。这样的一组预测器,我们称为集成,所以这种技术,也被称为集成学习,而一个集成学习的算法则被称为集成方法。 目前最流行的几种集成方法,包括bagg...转载 2019-05-08 16:09:28 · 1599 阅读 · 0 评论 -
解决多标签分类问题(包括案例研究)
原文由于某些原因,回归和分类问题总会引起机器学习领域的大部分关注。多标签分类在数据科学中是一个比较令人头疼的问题。在这篇文章中,我将给你一个直观的解释,说明什么是多标签分类,以及如何解决这个问题。1.多标签分类是什么?让我们来看看下面的图片。如果我问你这幅图中有一栋房子,你会怎样回答?选项为“Yes”或“No”。或者这样问,所有的东西(或标签)与这幅图有什么关系?...转载 2019-04-10 18:26:24 · 1412 阅读 · 0 评论 -
论文笔记:多标签学习综述(A review on multi-label learning algorithms)
2014 TKDE(IEEE Transactions on Knowledge and Data Engineering)张敏灵,周志华简单介绍传统监督学习主要是单标签学习,而现实生活中目标样本往往比较复杂,具有多个语义,含有多个标签。本综述主要介绍了多标签学习的一些相关内容,包括相关定义,评价指标,8个多标签学习算法,相关的其它任务。论文大纲相关定义:学习任务,三种策略 评价指...转载 2019-04-10 17:42:25 · 2062 阅读 · 0 评论 -
条件随机场CRF总结和实现
https://applenob.github.io/crf.htmlhttps://github.com/heshenghuan/linear_chain_crf 实例条件随机场 CRF总结和实现目录概率无向图模型 条件随机场 参数化形式 简化形式 矩阵形式 三个问题 概率计算问题 改进的迭代尺度法 BFGS算法 学习方法 预测算法 ...转载 2019-01-09 15:43:44 · 2455 阅读 · 0 评论 -
最大熵用于文本分类
https://blog.youkuaiyun.com/golden1314521/article/details/45576089https://github.com/doubleEN/Maxent一个实例原始数据集和完整的代码见 http://download.youkuaiyun.com/detail/u012176591/8675665一个相关的论文《使用最大熵模型进行中文文本分类》1.改进的迭代...转载 2019-01-18 15:14:07 · 1346 阅读 · 0 评论 -
广义线性模型的理解
http://www.cnblogs.com/tsreaper/p/glm.html世界中(大部分的)各种现象背后,都存在着可以解释这些现象的规律。机器学习要做的,就是通过训练模型,发现数据背后隐藏的规律,从而对新的数据做出合理的判断。虽然机器学习能够自动地帮我们完成很多事情(比如训练模型的参数),但有一些基本的事情还是需要我们自己完成的,例如概率分布模型的选择。比如我们需要判断一封邮件是...转载 2018-12-06 13:51:19 · 2187 阅读 · 0 评论 -
指数分布族
从标题上看,是“指数分布族(exponential family)”,不是“指数分布(exponential distribution)”,这是两个不同的概念,不要弄混了。指数分布族在上世纪30年代中期被提出,在概率论和统计学中,它是一些有着特殊形式的概率分布的集合,包括许多常用的分布,如正态分布、指数分布、伯努利分布、泊松分布、gamma分布、beta分布等等。指数分布族为很多重要而常用的概率分...转载 2018-12-06 13:48:45 · 1118 阅读 · 0 评论 -
隐马尔科夫模型python实现简单拼音输入法
在网上看到一篇关于隐马尔科夫模型的介绍,觉得简直不能再神奇,又在网上找到大神的一篇关于如何用隐马尔可夫模型实现中文拼音输入的博客,无奈大神没给可以运行的代码,只能纯手动网上找到了结巴分词的词库,根据此训练得出隐马尔科夫模型,用维特比算法实现了一个简单的拼音输入法。githuh地址:https://github.com/LiuRoy/Pinyin_Demo原理简介隐马尔科夫模型转载 2017-12-11 10:29:34 · 667 阅读 · 1 评论 -
大数据竞赛平台——Kaggle 入门篇
大数据竞赛平台——Kaggle 入门篇这篇文章适合那些刚接触Kaggle、想尽快熟悉Kaggle并且独立完成一个竞赛项目的网友,对于已经在Kaggle上参赛过的网友来说,大可不必耗费时间阅读本文。本文分为两部分介绍Kaggle,第一部分简单介绍Kaggle,第二部分将展示解决一个竞赛项目的全过程。如有错误,请指正!1、Kaggle简介转载 2017-11-04 19:20:04 · 717 阅读 · 0 评论 -
逻辑回归应用之Kaggle泰坦尼克之灾
作者: 寒小阳 时间:2015年11月。 出处:http://blog.youkuaiyun.com/han_xiaoyang/article/details/49797143 声明:版权所有,转载请注明出处,谢谢。1.引言先说一句,年末双十一什么的一来,真是非(mang)常(cheng)欢(gou)乐(le)!然后push自己抽出时间来写这篇blog的原因也非常简单:写完转载 2017-11-04 19:15:01 · 644 阅读 · 0 评论 -
[python] LDA处理文档主题分布及分词、词频、tfidf计算
这篇文章主要是讲述如何通过LDA处理文本内容TXT,并计算其文档主题分布,主要是核心代码为主。其中LDA入门知识介绍参考这篇文章,包括安装及用法: [python] LDA处理文档主题分布代码入门笔记 1.输入输出 输入是test.txt文件,它是使用Jieba分词之后的文本内容,通常每行代表一篇文档。 该文本内容转载 2017-11-07 20:05:39 · 10392 阅读 · 3 评论 -
gensim
作为自然语言处理爱好者,大家都应该听说过或使用过大名鼎鼎的Gensim吧,这个一款具备多种功能的神器,为了深入了解该工具的使用方法,本人将使用该工具进行一系列实战。 该系列博客共分为以下几章: (一)Gensim简介及使用环境搭建 (二)工具自带教程分析 (三)实战演练案例之文档分类 (四)后记转载 2017-11-07 20:02:26 · 464 阅读 · 0 评论 -
[python] LDA处理文档主题分布代码入门笔记
以前只知道LDA是个好东西,但自己并没有真正去使用过。同时,关于它的文章也非常之多,推荐大家阅读书籍《LDA漫游指南》,最近自己在学习文档主题分布和实体对齐中也尝试使用LDA进行简单的实验。这篇文章主要是讲述Python下LDA的基础用法,希望对大家有所帮助。如果文章中有错误或不足之处,还请海涵~一. 下载安装LDA推荐下载地址包括:其中前三个比较常用。转载 2017-11-07 19:46:57 · 2956 阅读 · 1 评论 -
20 个顶尖的 Python 机器学习开源项目
1. Scikit-learnwww.github.com/scikit-learn/scikit-learnScikit-learn 是基于Scipy为机器学习建造的的一个Python模块,他的特色就是多样化的分类,回归和聚类的算法包括支持向量机,逻辑回归,朴素贝叶斯分类器,随机森林,Gradient Boosting,聚类算法和DBSCAN。而且也设计出了Python nu转载 2017-10-06 11:36:17 · 573 阅读 · 0 评论 -
深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件
在求取有约束条件的优化问题时,拉格朗日乘子法(Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法,对于等式约束的优化问题,可以应用拉格朗日乘子法去求取最优值;如果含有不等式约束,可以应用KKT条件去求取。当然,这两个方法求得的结果只是必要条件,只有当是凸函数的情况下,才能保证是充分必要条件。KKT条件是拉格朗日乘子法的泛化。之前学习的时候,只知道直接应用两个方法,但是却转载 2017-08-10 15:11:40 · 404 阅读 · 0 评论 -
牛顿法与拟牛顿法学习笔记(二)拟牛顿条件
机器学习算法中经常碰到非线性优化问题,如 Sparse Filtering 算法,其主要工作在于求解一个非线性极小化问题。在具体实现中,大多调用的是成熟的软件包做支撑,其中最常用的一个算法是 L-BFGS。为了解这个算法的数学机理,这几天做了一些调研,现把学习过程中理解的一些东西整理出来。目录链接(1) 牛顿法(2) 拟牛顿条件(3) DFP 算法(4) BF转载 2017-08-10 15:14:24 · 321 阅读 · 0 评论 -
从最大似然到EM算法浅解
从最大似然到EM算法浅解zouxy09@qq.comhttp://blog.youkuaiyun.com/zouxy09 机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的事。那么EM算法能解决什么问题呢?或者说EM算法是因为什么而来到这个转载 2017-08-16 16:38:24 · 266 阅读 · 0 评论 -
Adaboost
Adaboost也是一种原理简单,但很实用的有监督机器学习算法,它是daptive boosting的简称。说到boosting算法,就不得提一提bagging算法,他们两个都是把一些弱分类器组合起来来进行分类的方法,统称为集成方法(ensemble method),类似于投资,“不把鸡蛋放在一个篮子”,虽然每个弱分类器分类的不那么准确,但是如果把多个弱分类器组合起来可以得到相当不错的结果,另转载 2017-08-17 09:12:30 · 459 阅读 · 0 评论 -
使用python实现HMM
一直想用隐马可夫模型做图像识别,但是python的scikit-learn组件包的hmm module已经不再支持了,需要安装hmmlearn的组件,不过hmmlearn的多项式hmm每次出来的结果都不一样,= =||,难道是我用错了??后来又只能去参考网上C语言的组件,模仿着把向前向后算法“复制”到python里了,废了好大功夫,总算结果一样了o(╯□╰)o。。把代码贴出来把,省的自己不小心转载 2017-08-17 19:43:47 · 1581 阅读 · 0 评论 -
主成分分析(PCA)原理详解
转载请声明出处:http://blog.youkuaiyun.com/zhongkelee/article/details/44064401一、PCA简介1. 相关背景 上完陈恩红老师的《机器学习与知识发现》和季海波老师的《矩阵代数》两门课之后,颇有体会。最近在做主成分分析和奇异值分解方面的项目,所以记录一下心得体会。 在许多领域的研究与应用中,往往需要对反映事物的多个变量转载 2017-08-17 21:33:18 · 388 阅读 · 0 评论 -
奇异值分解(SVD)原理详解及推导
转载请声明出处http://blog.youkuaiyun.com/zhongkejingwang/article/details/43053513 在网上看到有很多文章介绍SVD的,讲的也都不错,但是感觉还是有需要补充的,特别是关于矩阵和映射之间的对应关系。前段时间看了国外的一篇文章,叫A Singularly Valuable Decomposition The SVD of a Matrix,转载 2017-08-17 21:35:17 · 525 阅读 · 0 评论 -
机器学习界大牛林达华推荐的书籍
Recommended BooksHere is a list of books which I have read and feel it is worth recommending to friends who are interested in computer science.Machine LearningPattern Recognition and M转载 2017-08-21 10:26:55 · 624 阅读 · 0 评论