
数据挖掘
文章平均质量分 73
cowboy_wz
My main reasearch interests are on data mining and machine learning.Email: chenhuiling.jlu AT gmail DOT com
展开
-
A Tutorial on Clustering Algorithms-聚类小知识
俗话说:“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。所谓类,通俗地说,就是指相似元素的集合。聚类分析又称群分析,它是研 究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定 量的分类。随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验原创 2010-05-17 13:01:00 · 3020 阅读 · 0 评论 -
数据预处理
现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。为了提前数据挖掘的质量产生了数据预处理技术。 数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。 一、数据清理 首先是处理空缺值,如:要分析某市场的销售和顾客数据,但顾客的income项转载 2009-03-23 20:37:00 · 2658 阅读 · 0 评论 -
关于svm
名词解释:(1) SVM(Support Vector Machine)是从瓦普尼克(Vapnik)的统计学习理论发展而来的,主要针对小样本数据进行学习、分类和预测(有时也叫回归)的一种方法,能解决神经网络不能解决的过学习问题。作者以为,类似的根据样本进行学习的方法还有基于案例的推理(Case-Based Reasoning),决策树归纳算法C4.5等,以后将详细阐述这两种方法。(2)过学转载 2009-02-21 19:17:00 · 4585 阅读 · 2 评论 -
关于时空挖掘方面的期刊和会议
Journals:· ACM Transactions on Database Systems· VLDB Journal· IEEE Transactions on Knowledge and Data Engineering· Information Systems· Data and Knowledge Engineering· Knowledge and Information Syste原创 2009-02-09 11:27:00 · 1617 阅读 · 0 评论 -
Google视角的地理信息科学家
Google Scholar可以查询一些学者的发表和引用情况,它是基于检索的,相对于SCI,可能不那么严格,但是因为SCI只包括论文,不包括书,另外,查询引文的范围也有限,这使得不能全面反映一个学者的贡献。所以相对而言,Google Scholar尽管不太成熟,但是方向是好的。 近来查询了几位地理信息科学领域“牛人”的发表和引用情况,还是比较有趣。 第一个,M.F. Goodchi转载 2009-01-23 12:36:00 · 1486 阅读 · 0 评论 -
数据挖掘实验报告-关联规则算法实验
【摘要】计算机技术和通信技术的迅猛发展将人类社会带入到了信息时代。在最近十几年里,数据库中存储的数据急剧增大。例如,NASA轨道卫星上的地球观测系统EOS每小时会向地面发回50GB的图像数据;世界上最大的数据仓库之一,美国零售商系统Wal-Mart每天会产生2亿左右的交易数据;人类基因组数据库项目已经搜集了数以GB计的人类基因编码数据;大型天文望远镜每年会产生不少于10TB的数据,等等。大转载 2008-11-18 09:54:00 · 17662 阅读 · 0 评论 -
数据挖掘实验报告-决策树程序实验
【摘要】众所周知,数据库技术从20世纪80年代开始,已经得到广泛的普及和应用。随着数据库容量的膨胀,特别是数据仓库以及web等新型数据源的日益普及,人们面临的主要问题不再是缺乏足够的信息可以使用,而是面对浩瀚的数据海洋如何有效地利用这些数据。从数据中生成分类器的一个特别有效的方法是生成一个决策树(Decision Tree)。决策树表示方法是应用最广泛的逻辑方法之一,它从一组无次序、无转载 2008-11-18 09:49:00 · 15464 阅读 · 1 评论 -
基于空间数据库的空间数据管理
GIS空间数据管理已经走出了文件管理的模式(龚健雅,2004)。最初的GIS 软件一般采用文件方法管理矢量图形数据,利用关系数据库管理系统管理属性数据。目前主要的GIS软件都采用了商用关系数据库管理系统同时管理图形和属性数据。如SuperMAP、MapGIS、Geostar 、ArcGIS、Geomedia等。利用商用关系数据库管理系统管理空间数据存在两种模式,一种是GIS软件商在纯关系数据库管理转载 2008-11-15 10:15:00 · 2538 阅读 · 0 评论 -
数据挖掘讲座:我所知道的一点Data Mining
赵民德 2003/01/24 市场竞争的激烈迫使企业高层寻找更为科学、系统、有效的辅助决策技术和整体解决方案来处理日益复杂的公司事务。毫无疑问,数据挖掘就是很好的选择之一。数据挖掘到底是什么?数据挖掘作为一个过程,是否有章可循、有规可依?企业应该在哪些领域应用数据挖掘技术?目前,数据挖掘的技术咨询、系统集成、工具软件的状况究竟怎样?新年伊始,我们和中国人民大学数据挖掘中心一起精心组织推出这个专题转载 2008-11-18 09:39:00 · 1691 阅读 · 0 评论 -
什么是GML?GML例子
从GIS公园网站上转贴。 GML是基于XML的空间信息编码标准,由OpenGIS Consortium (OGC)提出,得到了许多公司的大力支持,如Oracle、Galdos、MapInfo、CubeWerx等。 运用GML,封装的地理数据和图形解释是清楚分离的。如前所述,图形解释格式包括SVG、VML和X3D等。 GML基于文本表示地理信息文本比较简单、直观,容易转载 2008-11-15 10:25:00 · 4095 阅读 · 0 评论 -
Gis 热点技术分析
GIS是一项和众多IT技术相关,而又有着浓厚测绘、制图、地理等各类地学学科背景的技术。它是科学家手中的显微镜,也是百姓出行的指南针;它是将军运筹帷幄的沙盘,也是出租车司机的导航仪;它上能助神六飞天,下能监测印度洋海啸;它大能纵观全球,小能观察办公室布局。2005年中,GIS行业的资深公司仍在不断寻找新的技术突破点;怀抱利器的小公司欲挺身而入一展宏图;IT行业的巨人跻身GIS领域大象起舞。在不断拓展转载 2008-11-14 16:18:00 · 3281 阅读 · 0 评论 -
SVM算法学习笔记
SVM算法学习笔记: SVM算法是用于机器学习和机器训练的一个有效算法。Support Vector Machine 第一章:学习方法1.1 监督学习学到的概念有:监督学习:当样例是由输入/输出对给出时,成为监督学习. 有关输入输出关系的样例称为训练数据. 输入/输出对通常反映了把输入映射到输出的一种函数关系.当输入到输出存在内在函数时,该函原创 2009-01-08 16:14:00 · 2134 阅读 · 1 评论 -
粗糙集理论介绍(概念入门)
面对日益增长的数据库,人们将如何从这些浩瀚的数据中找出有用的知识?我们如何将所学到的知识去粗取精?什么是对事物的粗线条描述什么是细线条描述? 粗糙集合论回答了上面的这些问题。要想了解粗糙集合论的思想,我们先要了解一下什么叫做知识?假设有8个积木构成了一个集合A,我们记:A={x1,x2,x3,x4,x5,x6,x7,x8},每个积木块都有颜色属性,按照颜色的不同,我们能够把这堆转载 2008-11-18 11:13:00 · 9636 阅读 · 4 评论 -
关于地理信息系统(GIS)的几个问题
进入21 世纪以后,地理信息系统主要的基础理论和技术研究热点有了新的变化,代表了地理信息系统研究的新进展,主要归纳如下:3.1 稳定、快速的GIS 数据采集和数据更新体系 GIS 数据的来源可以包括:野外数字化采集系统、地图扫描矢量化采集系统、局域和广域差分GPS 数据采集系统、遥感数据采集和更新系统、数字摄影测量数据采集系统等。对于每一种数据采集系统的研究都将设计许多具体内容,数据源转载 2008-11-15 10:40:00 · 3354 阅读 · 0 评论 -
十大数据挖掘算法
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.不仅仅是选中的十大算法,其实参加评选的18种算法,实际转载 2009-07-28 11:09:00 · 4053 阅读 · 0 评论 -
数据挖掘与数据抽样
前段时间在做一个挖掘模型时,模型的特征决定了选择的数据是严重有偏的,怎样在这样的数据上进行抽样,得到能比较好地反映真实情况的数据样本是很关键的。自己对统计学仅仅限于大学课程的学习,很少做过实验,在做数据预处理走了一些弯路。下面对数据挖掘中的抽样发表一点浅见。谢谢苦瓜兄弟解答,希望和大家多多交流:) 在数据挖掘的数据预处理过程中,宽表数据往往是几十万,上百万级记录的。要对所有数据进行训转载 2009-09-26 17:25:00 · 4052 阅读 · 1 评论 -
数据挖掘领域的主要会议
数据挖掘领域的主要会议 【转载】 http://blogger.org.cn/blog/more.asp?原创 2010-05-03 22:07:00 · 2353 阅读 · 0 评论 -
Social network & Social computing(社会网络和社会计算)
社会计算,英文为Social Computing,中文也译为社会性计算、社交计算、社交性计算等。 什么是社会计算?目前对 此还没有一个明确和公认的定义。笼统而言,社会计算是一门现代计算技术与社会科学之间的交叉学科。不妨从两个方面看这种学科的交叉原创 2010-04-03 13:42:00 · 6512 阅读 · 0 评论 -
灰系统和模糊数学
灰系统和模糊数学原创 2009-12-05 17:18:00 · 3227 阅读 · 1 评论 -
流行的开源数据挖掘tool
IDMer说道:本文只对几种流行的开源数据挖掘平台进行了检视,比如Weka和R等。如果您想找寻更多的开源数据挖掘软件,可以到KDnuggets和Open Directory上查看。为了评测这些软件,我们用了UCI Machine Learning Repository上的心脏病诊断数据集。 R R (http://www.r-project.org) 是用于统计分析和图形化的计算原创 2010-01-20 18:27:00 · 2872 阅读 · 0 评论 -
数据集-用于数据挖掘、信息检索、知识发现等
1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b 2、几个实用的测试数据集下载的网站 http://www.cs.toronto.edu/~roweis/data.html http://www.cs.toronto.edu/~roweis/data.html http://kdd.ics.uci.edu/summary.task.type.h原创 2009-11-22 13:09:00 · 5730 阅读 · 3 评论 -
洗衣机,数据挖掘的物理模型
洗衣机,数据挖掘的物理模型 昨天整洗衣机。看着大大小小新新旧旧,机身多赫然印一大字: Fuzzy Fuzzy Logic,模糊逻辑控制, 大概说"只需按下启动键,从选择程序到漂洗、脱水,实现了全自动的控制。这种模糊逻辑控制的洗衣机可以自动检测洗衣内的衣物重量,从而自动选择水位和洗涤程序,这样不但大大简化了操作步骤,而且可以比较准确的配置水位和洗涤时间,节约了能源。" 看了这些就乐了。原创 2009-11-10 20:28:00 · 3193 阅读 · 0 评论 -
数据挖掘——我们能从股市数据得出什么,以及一些算法
数据挖掘——我们能从股市数据得出什么,以及一些算法 //一个备忘录了,写给我们金融信息系统项目小组的同学。没有列出参考文献,因为都是大白话。有些删节。 数据挖掘/机器学习大概处理以下几个问题: 分类 ,这是有很多非常成熟的算法,非常直观,按照一个分类属性,把样本分为不同的类别。 聚类 ,聚类与分类的差别在于,分类分析有一个分类属性作为输出,比如“好”、“坏”之类,但聚类没有。聚类原创 2009-11-10 19:20:00 · 4231 阅读 · 0 评论 -
数据采集策略:数据挖掘与统计学的一个区别
数据采集策略:数据挖掘与统计学的一个区别 这个观点来自Hand等人的《数据挖掘原理》(机工,2003)。 说数据挖掘是对已经存在的数据进行分析(比如说“[原有]数据库中的知识发现”,KDD),而统计会为了回答某一个特定问题而专门去采集数据。也就是说,数据挖掘所分析处理的数据,不是为挖掘本身而收集的。 企业为了别的目的建立数据库,为了挖掘,它再从数据库的基础上建立起为分析服务的数据仓库。 转原创 2009-11-10 19:04:00 · 2998 阅读 · 0 评论 -
核聚类与支持向量聚类
核聚类与支持向量聚类 聚类是数据挖掘中用来发现数据分布和隐含模式的一项重要技术[1]。作为一种常见的数据分析工具和无监督机器学习方法,聚类的目的是把数据集合分成若干类(或簇),使得每个类中的数据之间最大限度地相似,而不同类中的数据最大程度地不同。根据聚类算法所采用的基本思想,大致可以将它们分为五种[2],即划分聚类、层次聚类、基于密度的聚类、基于网格的聚类和基于模型的聚类。转载 2009-11-02 17:30:00 · 14434 阅读 · 2 评论 -
复杂网络社区结构划分方法
复杂网络社区结构划分方法 随着对网络性质的物理意义和数学特性的深入研究,人们发现许多实际网络都具有一个共同性质,即社区结构。也就是说,整个网络是由若干个“社区”或“组”构成的。每个社区内部的结点间的连接相对非常紧密,但是各个社区之间的连接相对来说却比较稀疏[1][2]。揭示网络的社区结构,对于深入了解网络结构与分析网络特性是很重要的。如社会网络中的社区代表根据兴趣和背景而形成的真转载 2009-11-02 17:46:00 · 7328 阅读 · 0 评论 -
聚类分析(Clustering Analysis)
聚类分析(Clustering Analysis) 聚类作为数据挖掘与统计分析的一个重要的研究领域,近年来倍受关注。从机器学习的角度看,聚类是一种无监督的机器学习方法,即事先对数据集的分布没有任何的了解,它是将物理或抽象对象的集合组成为由类似的对象组成的多个类的过程。聚类方法作为一类非常重要的数据挖掘技术,其主要是依据样本间相似性的度量标准将数据集自动分成几个群组,且使同一个群组内转载 2009-11-02 17:03:00 · 8653 阅读 · 0 评论 -
Weka数据挖掘
1. 简介 WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到。同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。 详见 http://www.china-pub.com/computers/common/in转载 2009-11-03 20:34:00 · 9541 阅读 · 0 评论 -
weka决策树实验
首先举出打网球的例子。 数据集中包含14个样本,其中9个正样本(yes),5个负样本(no)。则这些元组的期望信息(即熵)为: Info(D) = - 9/14 * log2(9/14) - 5/14 * log2(5/14) = 0.940 现在观察每个属性的期望信息需求。在属性Outlook中,对于sunny,正样本数为2,负样本数为3;对于overcast,正样本数为4,负样本数原创 2009-11-03 18:15:00 · 14418 阅读 · 1 评论 -
[转]GIS开发平台的未来 —— .NET还是J2EE?
在GIS开发领域,从底层开发到应用系统,从数据采集到空间分析,从单机应用到网络发布,我们是否真的需要.NET或J2EE?尽管四周一片鼓噪之声,尽管已经有了转换平台的成功先例,我们依然需要冷静的考虑,慎重地抉择。因为GIS作为一类跨数据库和图形显示两大计算机科学研究领域的专业软件,应用领域太广,我们开发者需要考虑的东西太多。 我们可以把GIS的开发分成几个层次:数据、基础软件平台、应转载 2008-11-14 16:03:00 · 933 阅读 · 0 评论 -
地理信息系统(GIS)
地理信息系统又称GIS(Geographic information system)系统。 GIS 是一门综合性学科,已经广泛的应用在不同的领域,是用于输入、存储、查询、分析和显示地理数据的计算机系统,可以分为以下五部分: o 人员,是GIS中最重要的组成部分。开发人员必须定义GIS中被执行的各种任务,开发处理程序。 熟练的操作人员通常可以克服GIS软件功能的不足,但是相反的情况就不成立。转载 2008-11-01 17:00:00 · 3000 阅读 · 1 评论 -
一位数据挖掘成功人士给数据挖掘在读研究生的建议
关于数据挖掘方面的研究,我原来也走过一些弯路。其实从数据挖掘的起源可以发现,它并不是一门崭新的科学,而是综合了统计分析、机器学习、人工智能、数据库等诸多方面的研究成果而成,同时与专家系统、知识管理等研究方向不同的是,数据挖掘更侧重于应用的层面。 因此来说,数据挖掘融合了相当多的内容,试图全面了解所有的细节会花费很长的时间。因此我建议你的第一步是用大概三个月的时间了解数据挖掘的几个常用技术:分类转载 2008-10-19 12:55:00 · 3674 阅读 · 1 评论 -
商务智能
商务智能的定义不说多如牛毛,也是众说纷纭。人们对商务智能的理解如同那七个印度盲人对大象的理解:有人认为它是高级管理人员信息系统(EIS),有人认为它是管理信息系统(MIS),有人认为它是决策支持系统(DSS); 有人说它是数据库技术,有人说它是数据仓库,有人说它是数据集市,有人说它是数据整合与清洗工具,有人说它是查询和报告工具,有人说它是在线分析处理工具,有人说它是数据挖掘,有人说它是统计分析;转载 2008-10-18 11:46:00 · 1215 阅读 · 0 评论 -
数据库闯新世纪----施伯乐、周傲英、朱杨勇
自1969年美国的ibm公司开发出第一个dbms系统ims以来,数据库系统便在计算机的发展过程中扮演举足轻重的角色。从层次型数据库系统到网络型数据库系统,再到现在成为数据库主流的关系型数据库系统,无不是受到业界的广泛关注。进入80年代以后,随着计算机硬件技术的提高,计算机应用不断深入,产生了许多新的应用领域,如:计算机辅助设计、计算机集成制造、地理信息系统、办公自动化等等。这些新的应用领转载 2008-09-29 09:03:00 · 4669 阅读 · 0 评论 -
数据挖掘网络资源集合
JournalsACM TKDD http://tkdd.cs.uiuc.edu/DMKD http://www.springerlink.com/content/1573-756X/?p=859c3e83455d41679ef1be783e923d1d&pi=0IEEE TKDE http://www.ieee.org/organizations/pubs/transactio转载 2008-10-15 13:50:00 · 1409 阅读 · 0 评论 -
国外博士论文下载
http://search.ohiolink.edu/etd/index.cgi美国电子图书馆(绝对可下)http://digital.library.okstate.edu/search.htmthe university of Nottinghamhttp://etheses.nottingham.ac.uk/ Washington Universityhttp://libra转载 2008-08-04 12:42:00 · 6200 阅读 · 0 评论 -
AI conference
tier-1:IJCAI (1+): International Joint Conference on Artificial IntelligenceAAAI (1): National Conference on Artificial IntelligenceCOLT (1): Annual Conference on Computational Learning TheoryCVPR转载 2008-08-02 11:12:00 · 1502 阅读 · 0 评论 -
数据挖掘的一个完整过程
在现代社会中,公司大多数商务流程的核心部分是数据。而数据挖掘的任务就是在如此海量的数据中发现有用的数据。但是仅仅发现数据那是不够的。我们必须对这种模型做出一定的反应,并采取行动,最后将有用的数据转换成信息,信息变成行动,行动转换成价值。这个就是数据挖掘在商业应用上的一个完整的流程。下面给出一个完整数据挖掘过程的四个步骤:鉴别商业问题 使用数据挖掘技术将数据转换成可以采原创 2008-07-29 10:58:00 · 1903 阅读 · 0 评论 -
DM中一个热门问题的解惑
宇宙之大,万事万物概莫变化无常。模型作为一种抽象的工具,远在几千年前我们的老祖宗就已经意识到其作用,人们制造瓷器、陶器、铜器、金器、银器等等,都要首先制作各种“模子”。进而推广之,自古以来,人们就提出了各种非实物的形式模型。中国古代人们提出的“阴阳互补模式”、“五行生克模式”、“天人合一模式”、“易经卦象模式”等等,用这些思维模式去尝试解决多种多样的问题。 数据挖掘作为近年来新兴的转载 2008-07-29 16:43:00 · 1145 阅读 · 0 评论 -
Data Mining的十种分析方法
1.记忆基础推理法(Memory-Based Reasoning;MBR) 记忆基础推理法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较。 记忆基础推理法中有两个主要的要素,分别为距离函数(distance function)与结合函数(combination function)。距离函数的用意在找出最相似的案例;结合函翻译 2008-07-29 16:33:00 · 2012 阅读 · 0 评论