mahout中Taste提交job的流程：

最新推荐文章于 2021-02-26 14:22:10 发布

java的一天

最新推荐文章于 2021-02-26 14:22:10 发布

阅读量906

点赞数

分类专栏： mahout

mahout 专栏收录该内容

21 篇文章

订阅专栏

本文详细阐述了Taste推荐系统在分布式环境下的工作流程，包括数据获取、样本下载、本地构建推荐引擎及分布式计算过程。特别强调了在Map任务中使用NLineFileFormat或Reduce端通过用户ID的hash进行列表划分，以提高计算效率。实例展示在对大量记录进行笛卡尔积计算时，通过优化策略，将计算时间从数小时压缩到10分钟内。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Taste提交job的流程：

1. 获得job处理所需要的样本信息；推荐引擎定义的有几种文件格式，有从数据库读取，有从文件系统里读取，我觉得从文件系统里最方便，可能是我现在使用Hadoop的缘故吧。不同的数据来源会由不同的DataModel来进行数据读取。例如文件系统的是FileDataModel，文件系统内的文件格式是 userID ItemID value,中间通过”\t”或者”,”进行分割。数据库系统的读取也是通过指定userID ItemID value相对于的数据表字段就可以了。这些熟悉Taste的人应该都了解。

2. 获取需要得到相似对象的userID队列，这个队列应该是每行一个用户ID

3. 将第一个获取到的样本信息全部下载到本地

4. 在本地构建一个推荐引擎

5. 对map中的每一个userID，通过推荐引擎给其推荐相似对象

看到这个流程后，大家也就明白了，所谓的分布式，其实只是对需要计算相似对象的userID进行了分布运算而已，而计算相似度的本身还是在本地构建推荐引擎，然后计算。

这里最要注意的问题是，这个userIDS列表，我们一定不要再Map中就直接做计算，因为默认的通过TextFileFormat中，Hadoop按照文件的大小来划分Map，所以如果在Map做计算的话，很有可能所有的userID寻找相似对象的工作都在一个Map或者少量的几个Map中做了（笔者就犯了这个错误，结果Map就启动了两个，计算速度并没有比单机快多少）。