- 博客(36)
- 资源 (3)
- 收藏
- 关注
原创 【Spark Java API】Action(6)—saveAsTextFile、saveAsObjectFile
spark java api...
2016-08-22 12:15:09
3590
原创 【Spark Java API】Action(4)—sortBy、takeOrdered、takeSample
spark java api...
2016-08-20 12:07:06
5207
原创 【Spark Java API】Action(3)—foreach、foreachPartition、lookup
spark java api...
2016-08-20 11:49:27
4827
原创 【Spark Java API】Transformation(13)—zipWithIndex、zipWithUniqueId
spark java api...
2016-08-20 11:37:23
1759
原创 【Spark Java API】Transformation(11)—reduceByKey、foldByKey
spark java api...
2016-08-20 11:30:59
2893
原创 【Spark Java API】Transformation(10)—combineByKey、groupByKey
spark java api...
2016-08-20 11:07:17
1803
原创 【Spark Java API】Transformation(9)—sortByKey、repartitionAndSortWithinPartitions
spark java api...
2016-08-20 11:01:09
2304
原创 【Spark Java API】Transformation(8)—fullOuterJoin、leftOuterJoin、rightOuterJoin
spark java api...
2016-08-20 10:57:35
1675
原创 【Spark Java API】Transformation(6)—aggregate、aggregateByKey
spark java api...
2016-08-20 10:47:11
768
原创 【Spark Java API】Transformation(1)—mapPartitions、mapPartitionsWithIndex
spark java api...
2016-08-19 17:37:18
1207
原创 linux下python安装 nose lapack atlas numpy scipy sklearn
自己走了很多弯路,总结下:各个安装包版本:scipy-0.16.1numpy-1.9.2nose-1.3.7lapack-3.5.0atlas-3.10.2sklearn-0.16.1安装步骤:1、安装nose这个安装比较简单,解压缩nose的安装文件,进入nose的目录,直接运行setup.py即可:tar -zxvf nose-1.3.7.tar.g
2015-07-21 20:59:30
7591
转载 SVD分解的理解
SVD分解(奇异值分解),本应是本科生就掌握的方法,然而却经常被忽视。实际上,SVD分解不但很直观,而且极其有用。SVD分解提供了一种方法将一个矩阵拆分成简单的,并且有意义的几块。它的几何解释可以看做将一个空间进行旋转,尺度拉伸,再旋转三步过程。首先来看一个对角矩阵,几何上, 我们将一个矩阵理解为对于点 (x, y) 从一个平面到另一个平面的映射:
2014-07-08 19:02:13
771
转载 SVD奇异值分解
SVD分解SVD分解是LSA的数学基础,本文是我的LSA学习笔记的一部分,之所以单独拿出来,是因为SVD可以说是LSA的基础,要理解LSA必须了解SVD,因此将LSA笔记的SVD一节单独作为一篇文章。本节讨论SVD分解相关数学问题,一个分为3个部分,第一部分讨论线性代数中的一些基础知识,第二部分讨论SVD矩阵分解,第三部分讨论低阶近似。本节讨论的矩阵都是实数矩阵。基础知识1
2014-07-04 18:11:31
536
转载 推荐引擎初探
随着 Web 技术的发展,使得内容的创建和分享变得越来越容易。每天都有大量的图片、博客、视频发布到网上。信息的极度爆炸使得人们找到他们需要的信息将变得越来越难。传统的搜索技术是一个相对简单的帮助人们找到信息的工具,也广泛的被人们所使用,但搜索引擎并不能完全满足用户对信息发现的需求,原因一是用户很难用恰当的关键词描述自己的需求,二是基于关键词的信息检索在很多情况下是不够的。而推荐引擎的出现,使用户获
2014-05-07 21:32:51
653
转载 基于用户行为分析建立用户偏好模型
基于用户行为分析建立用户偏好模型2013-09-08 18:23 2736转载:http://zisong.me/post/ji-zhu/ji-yu-yong-hu-xing-wei-fen-xi-jian-li-yong-hu-pian-hao-mo-xing我们经常将个性化推荐的思想简单地抽象为:通过用户的行为推测出用户的兴趣,从而给用户推荐满足他们兴趣的物品
2014-05-05 11:11:51
36933
3
转载 使用FileSystem类进行文件读写及查看文件信息
在这一节我们要深入了解Hadoop的FileSystem类——这是与与hadoop的文件系统交互的重要接口。虽然我们只是着重于HDFS的实现,但我们在编码时一般也要注意代码在FileSystem不同子类文件系统之间的可移植性。这是非常有用的,比如说你可以非常方便的直接用同样的代码在你的本地文件系统上进行测试。使用hadoop URL读数据 从hadoop文件系统中读取文件的最简单
2014-04-21 12:27:58
919
原创 利用hadoop二次排序进行用户行为分析
1、应用场景说明在对用户行为进行分析之前,需要对用户行为按session进行关联,或记录每个用户的访问某个页面的时间。原始日志:用户 \t 访问时间 \t 访问页面1111 20140416 05:55 page11111 20140416 06:0
2014-04-19 13:08:14
1350
转载 使用MapReduce进行排序
之前在工作中使用到过MapReduce的排序,当时对于这个平台的理解还比较浅显,选择的是一个最为简单的方式,就是只用一个Recude来做。因为Map之后到Reduce阶段,为了Merge的方便,MapReduce的实现会自己依据key值进行排序,这样得出的结果就是一个整体排序的结果。而如果使用超过一个Reduce任务的话,所得的结果是每个part内部有序,但是整体是需要进行merge才可以得到最终
2014-02-19 21:24:46
2025
转载 Mapreduce-Partition分析
Partition所处的位置Partition位置Partition主要作用就是将map的结果发送到相应的reduce。这就对partition有两个要求:1)均衡负载,尽量的将工作均匀的分配给不同的reduce。2)效率,分配速度一定要快。Mapreduce提供的PartitionerMapreduce默认的partitio
2014-02-19 20:38:22
1857
转载 利用采样器实现mapreduce任务输出全排序
采样器是hadoop内自带的一个可以对目标文件部分数据进行提取的工具类,以方便我们对这些采样的数据做一些参考或者处理。hadoop提供了多种采样器供我们使用,以满足不同的需求。另外,采样器不同于普通mapreduce操作。它是直接在客户端机器上运行的。 常见采样器 IntervalSampler 以一定的间隔定期从划分中选择key,对有排序的数据来说更好RandomSamele
2014-02-19 20:35:37
1228
原创 ICTCLAS错误问题
1、 测试的时候报错: Exception in thread "main" java.lang.UnsatisfiedLinkError: noICTCLAS50 in java.library.path 这个简单,没找到ICTCLAS50动态库文件 代码修改为:System.load(System.getProperty(“user.dir”)+”/路径/”+”libIC
2013-11-22 15:52:43
1068
转载 Hadoop入门之HDFS与MapReduce
转http://blog.youkuaiyun.com/perfumekristy/article/details/7182323Hadoop的核心就是HDFS与MapReduceHDFS(Hadoop Distributed File System)由GFS(Google File System)演变而来,用于管理数据存储。MapReduce 是一个分布式计算框架,用于数据分析处理。
2013-07-11 16:40:35
975
原创 linux 的 scp 命令
1.scp命令简介不同的Linux之间copy文件常用有3种方法:第一种就是ftp,也就是其中一台Linux安装ftp Server,这样可以另外一台使用ftp的client程序来进行文件的copy。第二种方法就是采用samba服务,类似Windows文件copy 的方式来操作,比较简洁方便。第三种就是利用scp命令来进行文件复制。 scp是有Sec
2013-04-23 13:41:47
842
原创 ssh命令使用技巧
1、查看SSH客户端版本有的时候需要确认一下SSH客户端及其相应的版本号。使用ssh -V命令可以得到版本号。需要注意的是,Linux一般自带的是OpenSSH: 下面的例子即表明该系统正在使用OpenSSH:$ ssh -V OpenSSH_3.9p1, OpenSSL 0.9.7a Feb 19 2003下面的例子表明该系统正在使用SSH2:$ ssh -V
2013-04-23 12:30:14
732
Building_iPhone_and_iPod_touch_Applications
2012-03-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人