
数据挖掘
小白的学习笔记
这个作者很懒,什么都没留下…
展开
-
中文分词之Java实现使用IK Analyzer实现
IK Analyzer是基于lucene实现的分词开源框架,下载路径:http://code.google.com/p/ik-analyzer/downloads/list需要在项目中引入:IKAnalyzer.cfg.xmlIKAnalyzer2012.jarlucene-core-3.6.0.jarstopword.dic什么都不用改示例代码如下(使用IK转载 2014-09-21 17:34:04 · 1823 阅读 · 0 评论 -
贝叶斯分类器
1、条件概率P(A|B)=P(AB)P(B)P(A|B)=\frac{P(AB)}{P(B)}即:在事件B发生的条件下事件A发生的频率,等于事件A、B同时发生的频率处于事件B发生的频率,可以通过文氏图来理解条件概率。由条件概率可以得到乘法公式:P(AB)=P(A|B)P(B)P(AB)=P(A|B)P(B),同理:P(AB)=P(B|A)P(A)P(AB)=P(B|A)P(A)2、全概率公式设B1,原创 2015-08-24 17:00:15 · 1073 阅读 · 0 评论 -
K-近邻算法(KNN)
KNN:k-Nearest Neighbor假设训练集有记录:r1,r2,...,rnr_1,r_2,...,r_n共n条,训练集的特征向量及其对应的类别都是已知的,每个记录的特征向量为:t1,t2,...,tkt_1,t_2,...,t_k共k个特征,待测试的记录为rur_u,1、计算rur_u的特征向量与训练集的每条记录(即r1,r2,...,rnr_1,r_2,...,r_n)的特征向量的欧式原创 2015-08-30 22:10:14 · 933 阅读 · 0 评论 -
Python抓取网页&批量下载文件方法初探(正则表达式+BeautifulSoup)
最近两周都在学习Python抓取网页方法,任务是批量下载网站上的文件。对于一个刚刚入门python的人来说,在很多细节上都有需要注意的地方,以下就分享一下我在初学python过程中遇到的问题及解决方法。一、用Python抓取网页基本方法:[python] view plaincopyprint?"font-size转载 2014-12-27 20:17:58 · 2129 阅读 · 0 评论 -
机器学习实战
花了一段时间,总算把《机器学习实战》粗读了一遍,重点就在这个粗读上。这本书的确不错,机器学习的几个经典算法都涉及了,每个算法都有1、2个实际例子进行说明,都有实实在在的代码,让我想起了linus的“talk is cheap, show me the code”那句名言。但多年来养成的习惯,从来都是喜欢粗读一遍,然后再找一些其它书和材料对照着细读。这本书也不例外,反而觉得挺适合自己的这种粗转载 2014-12-02 21:48:01 · 791 阅读 · 0 评论 -
AdaBoost算法原理
3.1.2 AdaBoost算法原理AdaBoost算法针对不同的训练集训练同一个基本分类器(弱分类器),然后把这些在不同训练集上得到的分类器集合起来,构成一个更强的最终的分类器(强分类器)。理论证明,只要每个弱分类器分类能力比随机猜测要好,当其个数趋向于无穷个数时,强分类器的错误率将趋向于零。AdaBoost算法中不同的训练集是通过调整每个样本对应的权重实现的。最开始的时候,每个样本对应的权转载 2014-11-24 22:27:47 · 647 阅读 · 0 评论 -
线性回归分析中的哑变量
最近偶尔在重温统计学,发现自己工作后用了各种高级的统计分析方法,各种统计模型,却忽视了统计学中一些最基础的知识,而这些知识是所有这些高级方法的基础,基础不扎实,高级方法用起来真觉得底气不足,今天看到哑变量在回归分析中的应用,总结如下:哑变量(Dummy Variable),也叫虚拟变量,引入哑变量的目的是,将不能够定量处理的变量量化,如职业、性别对收入的影响,战争、自然灾害对GDP的影转载 2014-09-29 20:28:17 · 4896 阅读 · 0 评论 -
从决策树学习谈到贝叶斯分类算法、EM、HMM
第一篇:从决策树学习谈到贝叶斯分类算法、EM、HMM (Machine Learning & Data Mining交流群:8986884)引言 最近在面试中,除了基础 & 算法 & 项目之外,经常被问到或被要求介绍和描述下自己所知道的几种分类或聚类算法(当然,这完全不转载 2014-09-26 08:18:45 · 1459 阅读 · 0 评论 -
java金融与数学
1、commons-math/commons-lang-math以上两个包是apache下的,前者比后者的功能强大,后者有的功能前都有,后者主要解决平时程序中的一些基本的数学计算,主要是范围判断(*Range),随机数生成(JVMRandom,RandomUtils),分数处理(Fraction),数字转化、大小判断(NumberUtils)等。前者可以处理更复杂的数据转载 2014-09-22 18:53:21 · 1025 阅读 · 0 评论 -
对于熵和信息增益的理解
ID3是利用训练集构建决策树的算法,训练集是一些已知类别的实例(instance)的集合,假设训练集为S={x1,x2,...,xn},每个实例的特征向量为s1=[a1,a2,a3,...,am]。那么就有一个问题:在某个节点,算法如何选择一个特征来将训练集划分为两个集合分别作为两个子树?ID3是采用信息增益的方法,如果使用某个特征划分之后得到的信息增益最大,就取这个特征划分。在介绍信原创 2015-10-27 11:01:02 · 2246 阅读 · 0 评论