UCI数据集和源代码

最新推荐文章于 2025-04-25 12:07:24 发布

转载最新推荐文章于 2025-04-25 12:07:24 发布 · 7.6k 阅读

文章标签：

#数据 #机器学习 #WEKA #UCI #DM

数据挖掘专栏收录该内容

18 篇文章

订阅专栏

UCI数据集是一个常用的标准测试数据集，下载地址在
http://www.ics.uci.edu/~mlearn/MLRepository.html
我的主页上也有整理好的一些UCI数据集：
http://lamda.nju.edu.cn/yuy/files/download/UCI_arff.zip

在看别人的论文时，别人使用的数据集会给出数据集的出处或下载地址（除非是很机密的数据，例如与国家安全有关）。如果你看的论文没有给出数据集的出处，请立即停止看这篇论文，并且停止看刊发这篇论文的期刊上的所有文章。因为可以断定这些文章质量很差。

关于源代码，网上有很多公开源码的算法包，例如最为著名的Weka，MLC++等。Weka还在不断的更新其算法，下载地址：
http://www.cs.waikato.ac.nz/ml/weka/
很多的机器学习的经典算法都在里面。而且公布源程序，易于修改。

如果作者没有公布源程序，可以到作者主页找找，也可以写信给作者要，一般论文开头都会有作者的email地址。写信的时候要注意要很有礼貌，否则作者，尤其是著名学者，很有可能不会理睬。如果算法简单，可以自己实现。

关于论文的下载，如果能够访问电子图书馆是最好的，很多学校都买了IEEE, Elsevier, Kluwer等，上面的期刊都不错。有一些很好的期刊是免费的，像JAIR和JMLR，分别在：
http://www.cs.washington.edu/research/jair/home.html
http://www.jmlr.org/
如果能访问的免费期刊太少，可以到CiteSeer上搜索(http://citeseer.ist.psu.edu/)，上面搜集了很多免费论文（但是要注意，论文的质量参差不齐），或者用Googlewww.google.com)搜索。

再嘱咐两点，要做研究，首先要打好基础，例如数学基础和程序设计能力，要学会熟练使用google等搜索引擎，还有一定要看高质量的论文。

quote：http://hi.baidu.com/oxinga/item/777af81d9e985cffdceecac5