个性推荐实战案例--基于协同过滤的电影推荐（附数据集）

最新推荐文章于 2024-09-03 18:15:49 发布

lucky-zhao

最新推荐文章于 2024-09-03 18:15:49 发布

阅读量571

点赞数

CC 4.0 BY-SA版权

分类专栏：人工智能文章标签： python mysql hadoop hdfs kafka

本文链接：https://blog.youkuaiyun.com/qq_41810183/article/details/128544907

人工智能专栏收录该内容

12 篇文章

订阅专栏

该文介绍了如何运用协同过滤算法，包括User-Based和Item-Based两种方法，对MovieLens数据集进行电影评分预测及推荐。通过加载和处理ml-latest-small数据集，计算用户和电影之间的皮尔逊相似度，构建推荐系统。虽然示例适用于小规模数据，但在实际工业环境中，由于数据量大，通常会采用Spark等分布式计算工具。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

案例--基于协同过滤的电影推荐

已经基本掌握了协同过滤推荐算法，以及其中两种最基本的实现方案：User-Based CF和Item-Based CF，下面我们将利用真是的数据来进行实战演练。

案例需求演示效果

分析案例

数据集下载

MovieLens Latest Datasets Small

建议下载ml-latest-small.zip，数据量小，便于我们单机使用和运行

目标：根据ml-latest-small/ratings.csv（用户-电影评分数据），分别实现User-Based CF和Item-Based CF，并进行电影评分的预测，然后为用户实现电影推荐

数据集加载

加载ratings.csv，并转换为用户-电影评分矩阵

import osimport pandas as pdimport numpy as npDATA_PATH = "./datasets/ml-latest-small/ratings.csv"CACHE_DIR = "./datasets/cache/"def load_data(data_path):    '''    加载数据    :param data_path: 数据集路径    :param cache_path: 数据集缓存路径    :return: 用户-物品评分矩阵    '''    # 数据集缓存地址    cache_path = os.path.join(CACHE_DIR, "ratings_matrix.cache")    print("开始加载数据集...")    if os.path.exists(cache_path):    # 判断是否存在缓存文件        print("加载缓存中...")        ratings_matrix = pd.read_pickle(cache_path)        print("从缓存加载数据集完毕")    else:        print("加载新数据中...")        # 设置要加载的数据字段的类型        dtype = {"userId": np.int32, "movieId": np.int32, "rating": np.float32}        # 加载数据，我们只用前三列数据，分别是用户ID，电影ID，已经用户对电影的对应评分        ratings = pd.read_csv(data_path, dtype=dtype, usecols=range(3))        # 透视表，将电影ID转换为列名称，转换成为一个User-Movie的评分矩阵        ratings_matrix = ratings.pivot_table(index=["userId"], columns=["movieId"], values="rating")        # 存入缓存文件        ratings_matrix.to_pickle(cache_path)        print("数据集加载完毕")    return  ratings_matrixif __name__ == '__main__':    ratings_matrix = load_data(DATA_PATH)    print(ratings_matrix)

相似度计算

计算用户或物品两两相似度：

# ......def compute_pearson_similarity(ratings_matrix, based="user"):    '''    计算皮尔逊相关系数    :param ratings_matrix: 用户-物品评分矩阵    :param based: "user" or "item"    :return: 相似度矩阵    '''    user_similarity_cache_path = os.path.join(CACHE_DIR, "user_similarity.cache")    item_similarity_cache_path = os.path.join(CACHE_DIR, "item_similarity.cache")    # 基于皮尔逊相关系数计算相似度    # 用户相似度    if based == "user":        if os.path.exists(user_similarity_cache_path):            print("正从缓存加载用户相似度矩阵")            similarity = pd.read_pickle(user_similarity_cache_path)        else:            print("开始计算用户相似度矩阵")            similarity = ratings_matrix.T.corr()            similarity.to_pickle(user_similarity_cache_path)    elif based == "item":        if os.path.exists(item_similarity_cache_path):            print("正从缓存加载物品相似度矩阵")            similarity = pd.read_pickle(item_similarity_cache_path)        else:            print("开始计算物品相似度矩阵")            similarity = ratings_matrix.corr()            similarity.to_pickle(item_similarity_cache_path)    else:        raise Exception("Unhandled 'based' Value: %s"%based)    print("相似度矩阵计算/加载完毕")    return similarityif __name__ == '__main__':    ratings_matrix = load_data(DATA_PATH)    user_similar = compute_pearson_similarity(ratings_matrix, based="user")    print(user_similar)    item_similar = compute_pearson_similarity(ratings_matrix, based="item")    print(item_similar)