实验报告
一、实验目的
1.学习利用hadoop处理大数据。
2. 通过实验加强mapreduce编程能力。
3. 在掌握协同过滤算法基础上通过mapreduce实现。
二、实验内容
1.使用给定的数据集,随机从数据集中抽取119条数据作为测试数据。
2.利用Pearson correlation作为相似度计算方法计算movie-movie相似度。
3.使用RMSE算出预测误差。
三、实验环境
centos操作系统、eclipse
四、实验原理
4.1 推荐系统分类
目前推荐系统主要分为两大类:
1、基于内容的系统。此类系统主要考查的是推荐项的性质。比如,如果优酷的某用户喜欢看武侠电影,系统就会将数据库中属于“武侠电影”类的电影推荐给该用户。(基于内容的系统需要一定的领域知识。)
2、协同过滤系统。这类系统通过计算用户或/和项之间的相似度来推荐项。与某用户相似的用户所喜欢的项会推荐给该用户。
4.2协同过滤
协同过滤推荐(Collaborative Filtering recommendation)是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同,协同过滤分析用户兴趣,在用户群中找到指