推荐系统项目整理

本文详细介绍了推荐系统的实现过程,包括数据基础、推荐算法、机器学习模型、用户访问处理、新发布物品推荐以及热门物品的滑动统计。数据源包括用户行为、用户画像和物品元数据,利用Hadoop、Spark、Hbase、Redis等工具进行处理和存储。推荐算法涉及基于内容和协同过滤的方式,而精准排序模型则采用逻辑回归训练。此外,还涵盖了新发布物品的实时推荐和用户标签生成策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一. 数据基础:
主要包括:

  1. 用户行为数据:来源于用户行为日志,通过flume采集至HDFS
  2. 用户画像数据:来源于用户注册,保存至Hbase用户表
  3. 物品元数据:来源于内容管理系统,通过flume采集至HDFS

二. 推荐算法(粗排)

  1. 基于内容的推荐(简称CB):
    (1)将HDFS中的物品元数据写入Hbase倒排表
    (2)读取Hbase倒排表中数据20w+索引数据,以token(关键词)为rowkey,每个itemID为column,score为value
    (3)通过spark进行基于内容的离线相似度计算,得到每个物品的相关推荐物品列表,按score排序后取TOP20,(itemA–>itemB:score,itemC:score)
    (4)将推荐结果写入redis中,格式为(key:CB_8001909117 value:"1668409118:0.645192_4669809161:0.46545_7937409115:0.318916_6241409345:0.279611”)

  2. 基于协同的推荐(简称CF):
    (1)读取HDFS中32w+用户行为数据,通过spark进行基于协同的离线相似度计算,得到每个商品的相关推荐商品品列表,按score排序后取TOP20,(itemA–>itemB:score,itemC:sc

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值