
data mining
mdlyyh
Stay hungry,stay foolish
展开
-
R软件读取中文编码的数据错误解决方法
今天下载了一个csv文件,用vim打开后发现乱码,编码出现了问题,vim中文编码是UTF-8,我觉得这个文件可能是GBK,所以出现了问题,所以需要设置vim,打开家目录下的.vimrc文件,如果没有就新建一个,在里面添加set encoding=utf-8set fileencodings=ucs-bom,utf-8,cp936set fileencoding=gb2312set terme原创 2014-03-12 11:53:15 · 4136 阅读 · 0 评论 -
Fedora17下MPI的安装及配置
linux下MPI的版本为openmpi,在fedora下安装很容易,执行:yum install openmpi openmpi-devel一句命令就安装完毕,但是安装完之后输入mpi+Tab会发现命令没有自动不全,说明openmpi没有被安装到系统默认的搜索路径中,需要配置一下,执行:whereis openmpi输出为openmpi: /lib/openmpi /usr/原创 2014-03-17 20:37:46 · 2308 阅读 · 0 评论 -
fedora17中hadoop2.2.0在eclipse下运行wordcount
hadoop2.2.0的eclipse插件在http://download.youkuaiyun.com/detail/acm_er6/6964345原创 2014-03-17 15:30:34 · 1390 阅读 · 2 评论 -
大数据之起步搭开发环境
上个星期电脑被我搞坏了之后很多软件就没再安装了,昨天看到阿里宣传的大数据比赛,于是连夜开始重新安装数据挖掘的各种软件,下面就记录一下,也算是记下我比赛的进程吧:系统:3.9.10-100.fc17.i686.PAE包管理软件为Yum,有了Yum,再也不担心软件安装的依赖性问题,首先安装Java,由于之前安装Textlive中依赖Java,所以这里就没必要再安装了,有了Java后就安装Mah原创 2014-03-11 08:41:29 · 1237 阅读 · 0 评论 -
logistic regression与R
logistic regression可以用在CTR(Click Through Rate)预估上,即通常所说的点击率预估。点击率预估的意义在于,在电子商务中,可以通过把点击率高的商品放在首页或者重点推荐给用户,这样用户可以有更大的机会看见这些易受欢迎的商品,这样就可以促进销量,提高商家的利润。logistic函数也成sigmoid函数是在logistic回归中使用的函数,其形式为$35*d_原创 2014-03-17 21:25:04 · 2046 阅读 · 0 评论 -
Mahout安装并测试Parallel FP Growth Algorithm
为了开题,最近一直在看论文,从中科院的论文Balanced Parallel FP-Growth with MapReduce中看到了mahout,于是google了一下,发现mahout里面实现了PFP,具体可以参见https://cwiki.apache.org/confluence/display/MAHOUT/Parallel+Frequent+Pattern+Mining。于是就开始安装原创 2013-11-02 18:39:39 · 3529 阅读 · 0 评论 -
R语言的数据转换: split – apply – combine 模式
在数据分析中,有许多问题可以由类似的类型和方法步骤解决,可称之为模式,设计模式或者分析模式。下面要讨论的是数据转换的一个常用模式:split – apply – combine。其解决之道,在R语言中,有3种方式:(1) for 显式循环,但是这种方式的缺点也很明显,代码长,易出错,也难以并行化;(2) 拜R语言的向量计算特点所赐,在R当中,大多数问题不需要用显示循环方式,而代之以base转载 2014-03-16 12:00:15 · 1800 阅读 · 0 评论 -
机器学习之K-近邻算法
基于实例的学习方法中最基本的是k-近邻算法,这个算法假定所有的实例对应于n维空间原创 2014-03-09 12:30:44 · 1097 阅读 · 0 评论 -
R中安装rgl时“configure: error: missing required library GL”错误的解决方法
今天使用R时需要画一张3D图,于是在R中安装rgl包,由于依赖关系,安装过程中会提示如下的错误,根据提示可以看到是因为没有GL库,所以就需要安装gl的包,在Fedora17中开源的gl包为mesa,所以在root下需要执行yum install mesa*就可以把相关的包以及开发包下载并安装。安装好之后在R下继续执行install.pakages("rgl"),系统还是会报一样的错误,这时原创 2014-03-15 23:50:22 · 4351 阅读 · 1 评论 -
Fedora17安装 rhabse时Thrift安装错误解决方法
thrift安装后就可以安装thbase,在R中,执行R CMD INSTALL rhbase_1.1.1.tar.gz会出现如下的错误:找不到TProcess.h执行pkg-config –cflags thrift如果没有任何输出,则需要执行export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig/这样再安装rhbase时可能还是会出现原创 2014-03-20 10:19:23 · 1177 阅读 · 0 评论