Python基于机器学习方法实现的电影推荐系统

最新推荐文章于 2023-06-14 08:33:34 发布

原创

最新推荐文章于 2023-06-14 08:33:34 发布 · 4k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#python学习方法

本文介绍了使用Python实现的电影推荐系统，结合内容相似度和FM、LR模型进行推荐。系统首先进行数据爬取和处理，然后进行特征工程，最后通过余弦相似度和模型预测生成推荐。前端采用HTML5和JavaScript，后端使用Java和SpringBoot，数据处理使用SQL和Python，模型训练使用libFM和sklearn。

推荐算法在互联网行业的应用非常广泛，今日头条、美团点评等都有个性化推荐，推荐算法抽象来讲，是一种对于内容满意度的拟合函数，涉及到用户特征和内容特征，作为模型训练所需维度的两大来源，而点击率，页面停留时间，评论或下单等都可以作为一个量化的 Y 值，这样就可以进行特征工程，构建出一个数据集，然后选择一个合适的监督学习算法进行训练，得到模型后，为客户推荐偏好的内容，如头条的话，就是咨询和文章，美团的就是生活服务内容。

可选择的模型很多，如协同过滤，逻辑斯蒂回归，基于DNN的模型，FM等。我们使用的方式是，基于内容相似度计算进行召回，之后通过FM模型和逻辑斯蒂回归模型进行精排推荐，下面就分别说一下，我们做这个电影推荐系统过程中，从数据准备，特征工程，到模型训练和应用的整个过程。

我们实现的这个电影推荐系统，爬取的数据实际上维度是相对少的，特别是用户这一侧的维度，正常推荐系统涉及的维度，诸如页面停留时间，点击频次，收藏等这些维度都是没有的，以及用户本身的维度也相对要少，没有地址、年龄、性别等这些基本的维度，这样我们爬取的数据只有打分和评论这些信息，所以之后我们又从这些信息里再拿出一些统计维度来用。我们爬取的电影数据(除电影详情和图片信息外)是如下这样的形式：

这里的数据是有冗余的，又通过如下的代码，对数据进行按维度合并，去除冗余数据条目：

# 处理主函数，负责将多个冗余数据合并为一条电影数据，将地区，导演，主演，类型，特色等维度数据合并

def mainfunc():
    try:
        unable_list = []
        with connection.cursor() as cursor:
            sql='select id,name from movie'
            cout=cursor.execute(sql)
            print("数量： "+str(cout))

            for row in cursor.fetchall():
                #print(row[1])
                movieinfo = df[df['电影名'] == row[1]]
                if movieinfo.shape[0] == 0:
                    disable_movie(row[0])
                    print('disable movie ' + str(row[1]))
                else:
                    g = lambda x:movieinfo[x].iloc[0]
                    types = movieinfo['类型'].tolist()
                    types = reduce(lambda x,y:x+'|'+y,list(set(types)))
                    traits = movieinfo['特色'].tolist()
                    traits = reduce(lambda x,y:x+'|'+y,list(set(trai

最低0.47元/天解锁文章