
基于开源软件的机器学习平台
zc02051126
这个作者很懒,什么都没留下…
展开
-
Mahout0.6-数据格式转换
在运行Mahout中的算法之前需要将文本数据(数字或者字符串)转化为SequenceFile格式作为Mahout中算法的输入,待Mahout中的算法执行完成后结果文件也是SequenceFile格式的,SequenceFile格式是Hadoop特有的二进制格式,所以需要将其转化为人可以读懂的文本格式。以上的这一数据转化过程,在上面几章中可见一斑。 本章中将对Mahout中存在的输入、输出格式转化原创 2013-08-14 15:18:57 · 2673 阅读 · 0 评论 -
Mahout0.6-PrepareTwentyNewsgroups bug修复
PrepareTwentyNewsgroups(Mahout0.6) 在第三部分的1.1.2中执行如下命令对20Newsgroups预处理 $MAHOUT0P6_HOME/bin/mahoutprepare20newsgroups –p 20_newsgroups -o 20news-train -aorg.apache.lucene.analysis.standard.StandardAna原创 2013-08-14 15:21:54 · 810 阅读 · 0 评论 -
Mahout0.6-VectorDumper bug修复
Mahout0.6中VectorDumper bug修复原创 2013-08-14 15:41:37 · 1375 阅读 · 0 评论 -
Mahout0.6-贝叶斯分类器对文本分类
1.1.1 数据描述 此处使用朴素的贝叶斯对20Newsgroup文本数据进行分类,20Newsgroup是路透社的新闻预料库,其包括了近20000篇新闻文档,被划分为20类。在文本挖掘和机器学习领域,常常使用20Newsgroup作为文本分类和文本聚类的标准测试预料库。下面将介绍 如何使用Mahout的朴素贝叶斯模型训练一个分类模型,并使用这个分类模型对测试数据进行分类。 1.1.2 20原创 2013-08-14 15:04:49 · 2294 阅读 · 0 评论 -
Mahout0.8中贝叶斯分类器的使用方法
1.1 Mahout0.8中贝叶斯分类器的使用方法 在《京东大数据计算平台-Mahout0.6应用开发》文档的第三部分第一节中介绍了贝叶斯分类器对文本的分类,即Twenty Newsgroups例子;实际上还存在另一种运行方式,在0.6版本的安装目录下./examples/bin下有个脚本文件classifu-20newsgroups.sh,这个脚本中的逻辑和《京东大数据计算平台-Mahout0原创 2013-08-14 15:15:13 · 4248 阅读 · 0 评论 -
Xgboost安装
1 基本环境配置 Xgboost安装需要基本的环境支持,gcc,cmake,Python,它们的版本要求如下 gcc>=4.8,因为需要C++11支持 cmake,安装最新的即可 Python,安装2.7版本 2 各个环境安装 gcc安装 从https://gcc.gnu.org/mirrors.html下载>=4.8版的源码,解压,进入到源码所在的文件夹,编译,安...原创 2018-02-11 15:55:33 · 2141 阅读 · 0 评论