
数据挖掘与机器学习
nuoline
关注NLP,ML,云计算,大数据,hadoop
微博:http://weibo.com/nuoline
个人博客网站:http://www.zhaizhouwei.cn/
展开
-
贝叶斯相关理论
贝叶斯(1702-1763) ThomasBayes,英国数学家.1702年出生于伦敦,做过神甫。1742年成为英国皇家学会会员。1763年4月7日逝世。贝叶斯在数学方面主要研究概率论。他首先将归纳推理法用于概率论基础理论,并创立了贝叶斯统计理论,对于统计决策函数、统计推断、统计的估算等做出了贡献.1763年发表了这方面的论著,对于现代概率论和数理统计都有很重要的作用。贝叶斯的另一著作《机会的学原创 2013-02-25 18:37:50 · 782 阅读 · 0 评论 -
K-NN分类器简介
最近邻分类器的学习与分类过程融为一起,在分类过程中需要保护所有训练集样本,对于未知样本X,首先需要利用某种相似度评价标准,从训练集中获取与其最相似的K个样本,再利用k个样本的类别预测预测样本X的类别,因此K-NN算法没有单独的学习阶段,是一种在分类过程中实现学习的监督分类方法。有两点需要注意:1,在设计最近邻分类器时需要一个衡量样本之间距离的度量函数,这个函数必须能够给出两个样本之间的距离大原创 2013-02-25 18:37:39 · 4736 阅读 · 0 评论 -
向量空间模型(VSM:Vector Space M…
向量空间模型(VSM:Vector SpaceModel)由Salton等人于20世纪70年代提出,并成功地应用于著名的SMART文本检索系统。 VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。 M原创 2013-02-25 18:37:41 · 1154 阅读 · 0 评论 -
朴素贝叶斯分类器
分类是将一个未知样本分到几个预先已知类的过程。数据分类问题的解决是一个两步过程:第一步,建立一个模型,描述预先的数据集或概念集。通过分析由属性描述的样本(或实例,对象等)来构造模型。假定每一个样本都有一个预先定义的类,由一个被称为类标签的属性确定。为建立模型而被分析的数据元组形成训练数据集,该步也称作有指导的学习。 在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型(Decision原创 2013-02-25 18:37:48 · 897 阅读 · 0 评论 -
动态规划算法
在数学与计算机科学领域,动态规划用于解决那些可分解为重复子问题(overlappingsubproblems,想想递归求阶乘吧)并具有最优子结构(optimalsubstructure,想想最短路径算法)(如下所述)的问题,动态规划比通常算法花费更少时间。上世纪40年代,RichardBellman最早使用动态规划这一概念表述通过遍历寻找最优决策解问题的求解过程。1953年,Richard原创 2013-02-25 18:38:01 · 2206 阅读 · 0 评论 -
贪心算法
一.贪心算法的基本概念 当一个问题具有最优子结构性质时,我们会想到用动态规划法去解它。但有时会有更简单有效的算法。我们来看一个找硬币的例子。假设有四种硬币,它们的面值分别为二角五分、一角、五分和一分。现在要找给某顾客六角三分钱。这时,我们会不假思索地拿出2个二角五分的硬币,1个一角的硬币和3个一分的硬币交给顾客。这种找硬币方法与其他原创 2013-02-25 18:38:03 · 591 阅读 · 0 评论 -
复杂网络分析工具及其比较(…
原文地址:复杂网络分析工具及其比较(转)作者:zhengw789转自:http://bbs.sciencenet.cn/home.php?mod=space&uid=404069&do=blog&id=297233&page=3#comment 刚加入复杂网络圈子,暂时还没有成熟的研究内容,先发个资料性的东西占坑:作复杂网络研究离不开对各种实际或模拟网络的统计、计算、绘图等工作。对于一般性的转载 2013-02-25 18:40:03 · 21044 阅读 · 3 评论 -
数据挖掘数据集下载资源
1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b2、几个实用的测试数据集下载的网站http://www.fs.fed.us/fire/fuelman/http://www.cs.toronto.edu/~roweis/data.htmlhttp://www.cs.toronto.edu/~roweis/data.htmlhttp://kdd.i原创 2013-02-25 18:37:28 · 5301 阅读 · 0 评论