个性化阅读中的推荐系统(一)

本文介绍了在资讯类项目中实现个性化推荐的过程,特别是基于内容的推荐算法。通过建立文章特征向量,计算用户模型,以及利用TF-IDF和余弦相似度进行文章相似度计算,为用户推荐与其阅读历史相似的文章。在实践中,为解决大量文章的计算复杂度问题,采用离线计算相似结果并存储,同时针对文章数量不足的情况,采取限制计算时间范围的策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近要为一个资讯类的项目加入个性化推荐的逻辑,以给用户展示更加符合其阅读偏好的文章,提高点击率。之前研究过相关理论,这次在工程中应用上,也属于一边摸索一边实践的过程。

概述

推荐系统中常用的推荐算法有:
- 基于内容的推荐content-based
- 协同过滤collaborative filtering
- 基于模型的推荐,隐语义模型(LFM, latent factor model)推荐,机器学习的模型等

不同的推荐算法有着不同的效果、优点、缺点,适合不同的场景,这个系列的文章用于记录这几种算法的实现过程。

基于内容的推荐

基于内容的推荐算法主要思想是为用户推荐与过去喜欢的item类似的item,比如一个用户看过绝地求生98K好用吗的的文章,那么就可以给他推荐绝地求生98k怎么好用的文章。
基于内容的推荐可以分为以下三步:

  1. 建立文章的特征向量,用来描述这篇文章的关键信息,这里可以使用TF-IDF模型建立一个特征矩阵来描述文章的特征
  2. 建立用户模型,用来描述用户具有哪些偏好,可以通过计算用户浏览过的文章的TF-IDF矩阵的均值作为用户模型
  3. 在推荐过程中,根据用户模型检索类似的文章,可以通过检索Top N个与用户模型特征向量相似的文章向量,作为用户的推荐

但是在这个流程中有一个问题,第3步在工程实现中,如果文章的数量很大,需要计算每篇文章与用户模型的相似度,时间和空间复杂度会很高,所以这里进行了简化,取用户当前浏览的文章作为用户模型,这样可以通过离线计算的方式,提前计算出每篇文章的相似结果。

准备阶段

无论是在构建TF-IDF矩阵还是为文章打标签的过程中,分词都是一个重要的阶段,而目前的数据中大部分是游戏相关的文章,多数主流的分词工具都是基于人民日报语料进行训练得到的词典,所以第一步需要对词典进行完善。也就是从这些语料中提取王者荣耀、绝地求生、阴阳师、天美工作室这样的领域化的词语。

这里参考了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值