
Mahout in action
文章平均质量分 52
iteye_14058
这个作者很懒,什么都没留下…
展开
-
【译】mahout in action 1 初识Mahout
本章内容:.什么是mahout.初识推荐引擎,聚类,分类在现实生活.建立mahout你们可能已经从标题中猜出,这本书是关于一个特定的工具Mahout,在现实生活中使用。那么什么是mahout?Mahout是一个Apache的开源机器学习项目。该算法属于广阔的 “机器学习”,或“集体智慧的伞形结构。这就可以代表很多东西,但此时此刻,我们关心Mahout的主要部分是...原创 2011-02-22 11:50:40 · 96 阅读 · 0 评论 -
【译】mahout in action 2.2 运行首个推荐引擎
Mahout包含一个推荐引擎的几种类型,事实上包含传统的基于用户(user-based),基于项目(item-based)推荐算法,也包括基于“slope-one”技术的实现(这一个新的有效的方法)。你将根据实验,基于单机版的(SVD)初步实现。在下面的章节里,我们将会在Mahout的背景下和一些现实生活中的例子,来回顾上面的观察结果。我们将会考虑如何代表数据,如何进行有效的推荐算法,如何评估...2011-02-25 16:51:51 · 117 阅读 · 0 评论 -
【译】mahout in action 2.3 推荐器考核
这是一个推荐引擎的工作,用来解释下面的问题:“对用户来说,怎么的推荐数据才是最好的”。在搞清楚这个的答案之前,我们首先应该解决这个问题。一个好的推荐数据精度指的是什么?我们需要知道产出一个怎么样的推荐器来产生他们?本节的下面部分将会探讨对一个推荐器的考核。因为它是一个工具,当我们开始思考特殊的推荐系统时,它将会是很有用的。最优秀的推荐器,能够感知你的心灵。它以某种方式知道你可能很喜欢某个的...2011-02-25 18:00:12 · 108 阅读 · 0 评论 -
【译】mahout in action 2.4 评估的精确和调用
我们也可以得到一个关于recommender问题的更宽广的看法:对生产recommendations我们不用必须估计首选项值。没必要总是对用户提供估计的首选项值。在很多情况下,我们所想要的是一个recommendations的从最好到最差的排序列表。事实上,在有些情况下,我们不是很关心列表的精确排序:一组有点好的recommendations是好的。用更一般的看法,我们也可以把经典的信息检...2011-03-01 21:33:24 · 72 阅读 · 0 评论 -
【译】mahout in action 2.5 评估GroupLens数据集合
用这些在进行中的工具,我们将可能不仅讨论速度,也讨论我们创造和修改的推荐引擎的质量。虽然大量真实数据的例子仍然要过几章才能讲到,我们将花一些时间在一个小型数据集合上去快速评估性能。[size=large]2.5.1 提取推荐器输入数据[/size]GroupLens (http://grouplens.org/)是一个研究项目,它提供几个不同型号的数据集合,每一个都来自于真实的用户...原创 2011-03-01 22:02:07 · 166 阅读 · 0 评论 -
【译】mahout in action 2.6 小结
在这章里,我们介绍了推荐引擎的概念。通过一个少量输入,创建一个简单的Mahout recommender,通过一个简单的计算来运行并解释了这个结果。2011-03-01 22:05:29 · 94 阅读 · 0 评论 -
【译】mahout in action 3 数据展现
这章主要讲述:。Mahout如何展现recommender data。DataModel的实现及其用法。没有评分数据Recommendations的质量主要是由数据的数量和质量决定的。“无用输出,无用输入” 在这里是最真实的。同样,推荐器算法都是集中数据,运行的性能主要受数据的数量和展现的影响。这一章介绍Mahout的一些关键class,和访问推荐器相关的数据。...2011-03-01 22:17:24 · 76 阅读 · 0 评论 -
【译】mahout in action 3.1 Preference对象
一个推荐引擎的输入数据是评分数据:它喜欢什么以及多少。所以,Mahout recommenders的输入数据是一组简单的“userID”,“itemID”,和“评分数据”元组,当然,这是一个大的集合。评分数据有时候会被省略。[size=large]3.1.1 Preference对象[/size]Preference是一个最基础的概念,它表现一个单一的userID,itemID和一...2011-03-01 22:28:33 · 110 阅读 · 0 评论 -
【译】mahout in action 3.2 加速聚集
非常高兴的是,Mahout已经重新创造了“java数组对象”。这只是万里长征的第一步。我们提及到规模是重要的吗?可能,你已经被说服,我们将会面对处理巨大数量的数据,和不寻常响应。这个reduced的内存需求,由PreferenceArray和它的实现,带来的复杂性是值得的。削减内存需求的百分之七十五不只是节约一对M字节。在一个合理的规模上,它节约了10分之一G内存。这可能是在你现存的硬盘上...2011-03-13 20:51:25 · 100 阅读 · 0 评论 -
【译】mahout in action 2.1 什么是推荐器?
因为某种原因你从书架上取到这本书。也许你是在知道的其他书本,看到了这本书, 并觉的它有用。或者觉得书店把它放在这个位置,是因为喜欢这些书的人也喜欢这本书。也或许你在一个同事的书架上看到这本书,这位同事与你一样对机器学习很有兴趣。也有可能他可能直接推荐你看这本书。在这一章,我们将会深入研究人们产生推荐,发现新事物的一些方法。当然还有这些进程,在软件中如何利用mahout实施.我们已经设计了一...2011-02-25 16:23:24 · 143 阅读 · 0 评论 -
【译】mahout in action 2 推荐器介绍
本章包括:。介绍第一个Recommender。推荐引擎的精确度评估。评估一个引擎的准确度和召回。在一个现实的例子Grouplens上评估一个Recommender每天我们都形成对许多事情的看法,这些事情有我们喜欢的,不喜欢的,甚至不关心的。这是在不知不觉中发生的。当你在收音机上听到一首歌,你注意它,要么因为它引人注意,要么因为它听起来很糟糕,要么可能完全没有...2011-02-25 15:48:22 · 98 阅读 · 0 评论 -
【译】mahout in action 1.7 总结
Mahout是apache的一个年前的,开源的,研究机器学习项目。2011-02-25 14:01:57 · 117 阅读 · 0 评论 -
【译】mahout in action 6 分布式计算推荐器(Distributing Recommendation Computations)
本章包括:。从维基百科统计分析大量的数据。编写在hadoop上使用的推荐器和分布式算法。伪分布式存在非分布式的推荐器我们越来越关注日益增长的数据,自从开始这本书:从10个选择,到100,000到1千万,和现在1.7千万。这里仍旧只有半成品在推荐领域。本章,我们将再次处理大量的数据,超过1.3亿的“偏好”在提交维基百科的文章到文章的连接选择。在这个数据集合,用户和项目都是条件约束...2011-02-24 17:41:31 · 77 阅读 · 0 评论 -
【译】mahout in action 6.1从维基百科统计分析大量的数据
维基百科(http://wikipedia.org)众所周知的在线百科全书,它的内容可以被用户编辑和维护。到2010年5月它的报导,仅仅用英语写的文章超过了3.2M。估计Freebase Wikipedia Extraction项目(http://download.freebase.com/wex/)的大小,仅仅英语文章超过4.2GB。作为web站点,维基百科的文章可以使用和被连接到另外的文章里面...2011-02-24 18:15:31 · 110 阅读 · 0 评论 -
【译】mahout in action 1.1 Mahout是否适合我
大家可能想知道,这个项目,这本身是否适合我?如果你想找一本机器学习的教科书,那就不适合你。本书不是用来完全解释理论,算法的各种来历和技术展现。熟悉这些机器学习的方法和相关的概念,如matrix and vector math,这些知识在读这本书时都是很有用的。如果你正在开发现代化的智能应用程序,这本书适合你。随着解决方法的完整示例,这本书提供了一个实用的而非理论的方式来处理这些技术。它...2011-02-25 09:46:42 · 96 阅读 · 0 评论 -
【译】mahout in action 1.2 推荐引擎Recommender Engines
推荐引擎是当今使用中最直接的,可辨别的机器学习技术。我们已经都看到了,试图推荐基于我们过去行为的书本、影视或文章的服务或网站。它们努力推断出爱好和首选项,以及辨认有兴趣的未知项目:。亚马逊网站在部署推荐上可能是最著名的商业网站。基于购买和用户浏览,亚马逊推荐可能有兴趣的书本或其他项目。看图 1.2. 。Netflix同样推荐可能有兴趣的DVD,而且它之所以著名,是因为提供1000000...2011-02-25 09:57:55 · 140 阅读 · 0 评论 -
【译】mahout in action 1.3 聚类Clustering
聚类的出现不太出名,但同样是重要的内容。正如它的名字意味着聚类技术试图把大量的事情聚集起来形成群集以便来分享它们的相似点。这是一种在大型的或者很难理解的数据集合中发现层次结构和规则的方法,用这种方法可以揭示有趣的模式或形成易于理解的数据集合。谷歌新闻中心为了使介绍的新闻需要按逻辑模式来分类,而不是按一个包含所有文章的未加工的列表。因此他们运用聚类技术,根据文章主题来分组各类新闻。图1.3将...2011-02-25 10:11:17 · 95 阅读 · 0 评论 -
【译】mahout in action 1.4 分类Classification
分类技术决定一个东西是不是某个类型或种类的一部分,或者有没有某些属性。分类同样是普遍存在的,虽然这是更多的幕后工作。这种系统问题通常是通过对目录中的项目,很多例子的回顾来了解,从而推断出分类的规则。这里大致可以发现很多应用程序:雅虎邮件,决定收到的消息是否是垃圾邮件,这基于用户之前的电子邮件和垃圾邮件报告,和电子邮件本身的特性一样。一些被分类为垃圾邮件的信息将会在图1.4中显示。P...2011-02-25 13:31:33 · 127 阅读 · 0 评论 -
【译】mahout in action 1.4 扩展性Scaling up
当提供大量的优良的输入数据时,这些技术中的那一个才可以最好的操作。有时候,这些技术不仅必须在大量的输入数据上操作,而且必须很快的产生结果。可扩展性,很快成为这些因素的一个主要问题。根据粗略的估计,Picasa甚至在三年前可能已经服务器托管了5亿的图片。这意味着每日成千上万的新的图片必须被分析。通过它自己来分析一张图片没有很大的问题,虽然它重复成千上万次。但是,学习阶段需要同时地数以亿计的每...2011-02-25 13:41:08 · 74 阅读 · 0 评论 -
【译】mahout in action 1.6 安装Mahout
闲话少说,现在我们将一起来揭开Mahout的面纱。在这个过程中,你可能提前需要准备一些工具,来处理在本节即将介绍的一些代码。2011-02-25 13:59:06 · 90 阅读 · 0 评论 -
【译】mahout in action 3.3 内存中的DataModel
这是个抽象概念,在Mahout中,recommender的输入数据是DataModel。DataModel的实现为各种推荐器算法需要的数据提供了有效的使用。例如,一个DataModel可以在输入数据中,提供一个包括所有user IDs的列表,或提供与一个item相关联的所有分值,或者提供一个为一系列item IDs打分的所有用户的列表。我们将会集中研究一些highlights;一个关于DataMo...2011-03-14 10:04:21 · 274 阅读 · 0 评论