
数据挖掘技术
tarim
这个作者很懒,什么都没留下…
展开
-
R语言与数据挖掘学习笔记
投稿人/作者: @商业分析-数据挖掘 发布时间:2013-04-24 06:20:59 投稿到ChinaKDD今天发现一个很不错的博客(http://www.RDataMining.com), 博主致力于研究R语言在数据挖掘方面的应用,正好近期很想系统的学习一下R语言和数据挖掘的整个流程,看了这个博客的内容,心里久久不能平静。决定从今天 开始,只要晚上能在11点之前把碗洗好,就花一个转载 2013-10-26 07:27:20 · 1164 阅读 · 0 评论 -
ID3 C4.5 C5.0
ID3算法是决策树的一个经典的构造算法,在一段时期内曾是同类研究工作的比较对象,但通过近些年国内外学者的研究,ID3算法也暴露出一些问题,具体如下: (1)信息增益的计算依赖于特征数目较多的特征,而属性取值最多的属性并不一定最优。 (2)ID3是非递增算法。 (3)ID3是单变量决策树(在分枝节点上只考虑单个属性),许多复杂概念的表达困难,属性相互关系强调转载 2014-12-22 00:59:43 · 2283 阅读 · 0 评论 -
EM算法介绍
EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式 回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函数。当x是向量时,如果转载 2015-01-29 00:09:59 · 483 阅读 · 0 评论 -
TF-IDF及其算法
TF-IDF及其算法概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-ID转载 2014-12-24 22:30:50 · 441 阅读 · 0 评论 -
主成分分析(Principal components analysis)-最大方差解释
在这一篇之前的内容是《Factor Analysis》,由于非常理论,打算学完整个课程后再写。在写这篇之前,我阅读了PCA、SVD和LDA。这几个模型相近,却都有自己的特点。本篇打算先介绍PCA,至于他们之间的关系,只能是边学边体会了。PCA以前也叫做Principal factor analysis。1. 问题 真实的训练数据总是存在各种各样的问题:1、 比如拿到一个汽车的样转载 2015-02-04 01:06:28 · 707 阅读 · 0 评论 -
matlab与神经网络
本文以Fisher的Iris数据集作为神经网络程序的测试数据集。Iris数据集可以在http://en.wikipedia.org/wiki/Iris_flower_data_set 找到。这里简要介绍一下Iris数据集:有一批Iris花,已知这批Iris花可分为3个品种,现需要对其进行分类。不同品种的Iris花的花萼长度、花萼宽度、花瓣长度、花瓣宽度会有差异。我们现有一批已知品种的转载 2015-05-13 11:33:19 · 1969 阅读 · 0 评论 -
指标权重确定方法之熵权法
一、熵权法介绍 熵最先由申农引入信息论,目前已经在工程技术、社会经济等领域得到了非常广泛的应用。 熵权法的基本思路是根据指标变异性的大小来确定客观权重。 一般来说,若某个指标的信息熵越小,表明指标值得变异程度越大,提供的信息量越多,在综合评价中所能起到的作用也越大,其权重也就越大。相反,某个指标的信息熵越大,表明指标值得变异程度越小,提供的信息量也越少,在转载 2015-06-29 17:20:56 · 27137 阅读 · 2 评论 -
Matlab提供的两种聚类分析方法
一种是利用 clusterdata函数对样本数据进行一次聚类,其缺点为可供用户选择的面较窄,不能更改距离的计算方法; 另一种是分步聚类:(1)找到数据集合中变量两两之间的相似性和非相似性,用pdist函数计算变量之间的距离;(2)用 linkage函数定义变量之间的连接;(3)用 cophenetic函数评价聚类信息;(4)用cluster函数创建聚类。 1.Matla转载 2015-07-08 16:22:39 · 2022 阅读 · 0 评论 -
Frontier4.1简介
Frontier是一款专门用于完成随机前沿分析的软件,它可以用最大似然法估计随机前沿成本模型(Stochastic Frontier Cost Model)和随机前沿生产模型(Stochastic Frontier Production Model)。 在这里,我们主要简单介绍一下Frontier的使用方法,暂时不对随机前沿这个方法做详细的展开。 程序解包后,最主要的是4个文件,F转载 2015-11-14 20:35:08 · 10878 阅读 · 2 评论 -
遥感数据下载地址
1 AVHRR、DEM、EO-1数据下载地址http://earthexplorer.usgs.gov/2 ASTER、MOIDS、EO-1数据下载地址http://glovis.usgs.gov/3 EO-1 Hyperion 数据介绍网址http://eo1.gsfc.nasa.gov/new/extended/sensorWeb/general.html4 室内的高光转载 2015-12-17 20:21:27 · 1605 阅读 · 0 评论 -
SVM算法介绍
又有很长的一段时间没有更新博客了,距离上次更新已经有两个月的时间了。其中一个很大的原因是,不知道写什么好-_-,最近一段时间看了看关于SVM(Support Vector Machine)的文章,觉得SVM是一个非常有趣,而且自成一派的方向,所以今天准备写一篇关于关于SVM的文章。关于SVM的论文、书籍都非常的多,引用强哥的话“SVM是让应用数学家真正得到应用的一种算法”。SVM对于大部分的普转载 2015-01-29 00:07:47 · 700 阅读 · 0 评论 -
离群点检测方法综述
离群点检测方法综述异常对象被称作离群点。异常检测也称偏差检测和例外挖掘。常见的异常成因:数据来源于不同的类(异常对象来自于一个与大多数数据对象源(类)不同的源(类)的思想),自然变异,以及数据测量或收集误差。异常检测的方法:(1)基于模型的技术:首先建立一个数据模型,异常是那些同模型不能完美拟合的对象;如果模型是簇的集合,则异常是不显著属于任何簇的对象;在使用回归模型时,异常是相对远离转载 2013-11-04 04:27:00 · 4088 阅读 · 0 评论 -
9本优秀的R语言教程
本文向你推荐 9 本优秀的 R 语言相关的免费电子书:1. The R Inferno网址:www.burns-stat.com/documents/books/the-r-inferno/作者:Patrick Burns格式:PDF页数:126 2. Introduction to Probability and Statistics Using R网址:转载 2013-11-18 09:05:17 · 1416 阅读 · 0 评论 -
永久修改R语言工作目录
默认情况下R语言工作目录每次启动都需要重新设定,为了省事,我们可以把它用命令方式写入到配置文件中,这样每次启动时可以自动设置。具体方法:Setting the working directory in R permanently1)The getwd() command gives the current working directory for R. The setwd()原创 2013-11-19 04:27:19 · 15468 阅读 · 3 评论 -
R绘图
一、直方图绘制直方图函数:hist()对x1进行直方图分析> hist(x$x1)>二、散点图散点图绘制函数:plot()探索各科成绩的关联关系> plot(x1,x2)> plot(x$x1,x$x2)>三、柱状图列联表分析列联函数table():统计每个分数的人数;柱状图绘制函数:barplot()转载 2013-11-20 14:41:39 · 1733 阅读 · 0 评论 -
发现了一个数据挖掘用Applet
今天浏览数据挖掘相关的网站时,想起2周前老师提起过Jason( Department of Computer Science,Johns Hopkins University )的一个ASVMApplet,似乎是个好东东,不过折腾了了一回,没弄明白具体有什么优势,但感觉数据分类和可视化分析方面是个值得参考的好工具。地址http://cs.jhu.edu/~jason/tutorials/SVM原创 2013-10-26 10:28:49 · 628 阅读 · 0 评论 -
ID3算法
ID3算法是J. RossQuinlan在1975提出的分类预测算法,当时还没有数据挖掘吧,哈哈哈。该算法的核心是“信息熵”,属于数学问题,我也是从这里起发现数据挖掘最底层最根本的不再是编程了,而是数学,编程只是一种实现方式而已,数学才是基础,如:朴素贝叶斯分类,小波聚类,尤其是我正在搞的支持向量机,它就是高等代数,空间解析几何,概率统计的综合应用。记得读本科时,朱琛学姐说过,数学学得再好也不为过转载 2014-09-22 13:38:09 · 651 阅读 · 0 评论 -
R语言为Hadoop注入统计血脉
R语言为Hadoop注入统计血脉RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处理大数据1G, 10G, 100G, TB, PB。 由于大数据所带来的单机性能问题,可能会一去不复转载 2014-11-20 12:23:00 · 537 阅读 · 0 评论 -
从决策树学习谈到贝叶斯分类算法、EM、HMM
目录(?)[+]从决策树学习谈到贝叶斯分类算法EMHMM引言分类与聚类监督学习与无监督学习第一部分决策树学习什么是决策树ID3算法决策树学习之ID3算法哪个属性是最佳的分类属性ID3算法决策树的形成C45算法读者点评第二部分贝叶斯分类什么是贝叶斯分类拼写纠正贝叶斯的应用newsgroup文档集介绍与预处理特征词的选取贝叶斯算法描述及实现朴素贝叶斯算法对new转载 2014-11-21 10:40:13 · 2784 阅读 · 0 评论 -
如何用SPSS对数据进行标准化处理?
SPSS统计分析软件是我最早接触的数据分析工具,我的博客将陆续介绍SPSS统计分析软件的相关内容,这类文章将统一按照在标题或者正文第一段出现 SPSS案例分析 + 编号 的形式组织,便于读者朋友们快速查询、收集,今天是第一篇,即 SPSS案例分析1,后文将不再说明。 -------------------------------------------------------转载 2014-11-07 10:54:15 · 66886 阅读 · 2 评论 -
数据标准化方法
http://blog.sina.com.cn/s/blog_6b1c9ed50101byeu.html数据规范中的归一化与标准化:A.归一化 vs. 标准化 归一化:要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。首先归一化是为了后面数据处理的方便,其次是保正程序运行时收敛加快。一般指将数据限制在[01]之间。 》把数变为(0,1)之间的转载 2016-04-26 17:41:29 · 1167 阅读 · 0 评论