- 博客(22)
- 资源 (7)
- 收藏
- 关注
原创 使用python进行文本分类
#coding:utf-8__author__ = 'lishuai'import numpydef loadDataSet(): postingList=[ ['my','dog','has','flea','problems','help','please'], ['maybe','not','take','him','to','dog','park','stu
2015-09-18 10:55:29
827
原创 spark1.4版本与CDH5.1.3版本hive整合
环境说明:hadoop集群安装的是CDH5.1.3;spark是1.4版本,安装方式为standlone。场景介绍:在spark-sql中,读取hive的数据配置步骤如下:1、找到hive的 hive-site.xml 文件和 hive-log4j.properties 文件 放入spark的 conf 目录下。注:hive的配置文件目录位置为:/alidata/cloudera/
2015-08-26 09:59:24
1408
原创 hadoop提交任务后日志存放问题
hadoop提交任务后,会有日志记录此次执行的情况。目前这些日志都保留在hdfs文件系统中,生成了大量的小文件,从而耗费了大量的磁盘空间。如果每天提交的任务多且频繁,磁盘空间消耗的速率是比较惊人的。可清理的日志路径:/user/history /tmp /user/root/.Trash如下图所示,上面的部分是清除日志后磁盘的使用率与block块的数量,下图是没清理的。
2015-08-21 12:59:35
763
原创 java实现两个向量的相关系数算法
有两个向量V1和V2V1={1:3,2:2,3:1,5:0},V2={1:3,3:1,4:2,5:0}以表格的形式展现:将向量V1和V2带入相关系数公式并展开展开,结果为:n值(n = 4):从表格可以看出,向量V1和V2 的第五位元素上都是0,因此该位置可忽略。向量V1第四位元素上值为0,但向量V2第四位元素有值,因此位置4上的元素不能忽略
2015-03-13 13:47:44
5153
原创 mahout推荐引擎总结
GenericUserBasedRecommender和GenericItemBasedRecommender处理有偏好值的数据。GenericBooleanPrefUserBasedRecommender:处理偏好值为布尔类型或没有偏好值的数据。SlopeOneRecommender:基于新物品与用户评估过的物品之间平均偏好值差异来预测用户对新物品的偏好值。处理有偏好值的数据
2014-12-30 14:18:06
774
原创 GenericUserBasedRecommender推荐引擎源码分析
推荐程序中,用户需要根据数据类型构建适当的推荐引擎,例如:Recommender recommender = new GenericUserBasedRecommender(dataModel, neighborhood, usersimilarity); 其中dataModel为数据模型,neighborhood为用户领域模型,usersimilarity为相似度模型,在此不详述。构建好
2014-12-25 13:41:09
1789
原创 用户相似性度量
PearsonCorrelationSimilarity(皮尔逊相关系数)原理:度量两个意义对应数列之间的线性相关程度,即度量两个数列中数字一起增大或一起减小的可能性。场景:用于度量两个用户之间的相似性,度量两个用户针对同一物品的偏好值变化趋势的一致性。优点:结果直观。缺点:没有考虑到两个用户同时给出偏好值的数目。解决办法:引入权重,即加权。 例如,两个用户如
2014-12-24 15:48:26
3495
原创 storm集群环境搭建
集群节点:hadoop1,hadoop2,hadoop3将hadoop1设置成主节点,部署nimbus,nimbus负责分发代码,分配任务。hadoop2、hadoop3作为从节点部署supervisor,supervisor负责产生worker,执行代码。1.解压tar包apache-storm-0.9.3.tar.gz2.修改conf/storm.yaml文件(注意 -
2014-12-22 09:52:17
760
原创 Mahout推荐引擎测评及源码分析
评估一个推荐程序:利用平均值来评分:AverageAbsoluteDifferenceRecommenderEvaluator利用均方根来评分:RMSRecommenderEvaluatorpublic void recommenderEvaluator() throws Exception{ DataModel dataModel = new FileDataModel(
2014-12-19 18:27:38
1022
转载 SVM算法入门
转自:http://www.blogjava.net/zhenandaci/category/31868.html(一)SVM的简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学
2014-08-07 15:47:24
571
原创 RPC远程过程调用
RPC——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。 RPC采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务器。首先
2014-08-03 18:25:28
609
原创 将本地文件读成sequenceFile文件
HDFS在存储文件时,会将文件break them into chunks,默认inputSplit的大小与block块的大小一致,为128M,如果单个文件的大小小于block块的大小则不会切分,直接将改小文件存储到一个block块中。因此如果不对栅格数据文件做处理,将导致占据大量的block块;由于namenode中会存储为元数据信息,因此也将导致namenode节点记录大量小文件的位置等元数据
2014-07-31 16:56:26
4690
原创 使用MapReduce读取SequenceFile文件,批量导入HBase
上次将小文件写成sequenceFile文件后,采用的是本地读取文件,然后写入HBase,这里
2014-07-30 18:26:24
1005
原创 小文件解决方案
SequenceFile通常对于“the small files problem”的回应会是:使用SequenceFile。这种方法是说,使用filename作为key,并且file contents作为value。实践中这种方式非常管用。回到10000个100KB的文件,可以写一个程序来将这些小文件写入到一个单独的 SequenceFile中去,然后就可以在一个streaming fashi
2014-07-28 18:24:20
460
原创 hadoop1集群环境搭建
一直以来都没有将自己的一些知识以文档的形式记录下来,时间长了容易淡忘。在此以文档的方式记录,当做归纳总结,方便阅读查看。 假设集群中已经安装好jdk和实现了集群间的免密码登http://blog.youkuaiyun.com/ls386239766/article/details/38169259 集群环境:hadoop0、hadoop1、hado
2014-07-27 14:09:02
565
原创 实现SSH免密码登陆
1.创建公钥信息: 执行命令:ssh-keygen -trsa ,然后一直按回车键。可以在目录/root/.ssh中找到新创建的文件id_rsa id_rsa.pub
2014-07-27 12:51:12
595
原创 虚拟机设置固定上网地址
在学习hadoop时,使用自己的机器配置了四台虚拟机。在家里时由于是自行分配的ip,机器之间可以互相通讯。但到公司后,由于公司不提供网络,每次需要手动设定ip,回家后还需要再次修改ip,实在麻烦。因此通过修改Linux中的配置文件,一劳永逸,下面是设置过程:
2014-07-25 20:41:38
500
原创 HBase简单API操作
package com.ls.hbase;import java.io.IOException;import java.io.InterruptedIOException;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseCo
2014-07-24 17:30:10
385
hive解析json格式数据所需jar包
2015-05-05
mahout in action中的源码
2014-12-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人