Python基于机器学习方法实现的电影推荐系统

最新推荐文章于 2025-04-28 08:53:23 发布

程序员阿城

最新推荐文章于 2025-04-28 08:53:23 发布

阅读量3.4k

点赞数

分类专栏： python 文章标签：互联网程序员 python

本文链接：https://blog.youkuaiyun.com/zhoulei124/article/details/93482289

版权

本文介绍了使用Python构建的电影推荐系统，通过内容相似度和FM、LR模型进行召回与精排。系统涵盖前端、后端、爬虫和数据处理模块，采用增量处理用户评分数据，利用余弦相似度和libFM进行推荐。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

推荐算法在互联网行业的应用非常广泛，今日头条、美团点评等都有个性化推荐，推荐算法抽象来讲，是一种对于内容满意度的拟合函数，涉及到用户特征和内容特征，作为模型训练所需维度的两大来源，而点击率，页面停留时间，评论或下单等都可以作为一个量化的 Y 值，这样就可以进行特征工程，构建出一个数据集，然后选择一个合适的监督学习算法进行训练，得到模型后，为客户推荐偏好的内容，如头条的话，就是咨询和文章，美团的就是生活服务内容。

可选择的模型很多，如协同过滤，逻辑斯蒂回归，基于DNN的模型，FM等。我们使用的方式是，基于内容相似度计算进行召回，之后通过FM模型和逻辑斯蒂回归模型进行精排推荐，下面就分别说一下，我们做这个电影推荐系统过程中，从数据准备，特征工程，到模型训练和应用的整个过程。

我们实现的这个电影推荐系统，爬取的数据实际上维度是相对少的，特别是用户这一侧的维度，正常推荐系统涉及的维度，诸如页面停留时间，点击频次，收藏等这些维度都是没有的，以及用户本身的维度也相对要少，没有地址、年龄、性别等这些基本的维度，这样我们爬取的数据只有打分和评论这些信息，所以之后我们又从这些信息里再拿出一些统计维度来用。我们爬取的电影数据(除电影详情和图片信息外)是如下这样的形式：

这里的数据是有冗余的，又通过如下的代码，对数据进行按维度合并，去除冗余数据条目：

# 处理主函数，负责将多个冗余数据合并为一条电影数据，将地区，导演，主演，类型，特色等维度数据合并
def mainfunc():
    try:
        unable_list = []
        with connection.cursor() as cursor:
            sql='select id,name from movie'
            cout=cursor.execute(sql)
            print("数量： "+str(cout))

            for row in cursor.fetchall():
                #print(row[1])
                movieinfo = df[df['电影名'] == row[1]]
                if movieinfo.shape[0] == 0:
                    disable_movie(row[0])
                    print('disable movie ' + str(row[1]))
                else:

最低0.47元/天解锁文章