本文是对七月在线关于用户画像构建与协同过滤的一个随堂笔记。用户画像部分主要围绕用户画像的核心-文本挖掘、需要哪些用户画像信息、怎么构建这些基本用户画像信息以及倒排索引的案例简单描述展开,协同过滤部分主要是实训内容,需要消化基于用户和基于item的协同过滤改进算法实现。
目录
推荐系统中最核心的数据之一是 user profile 数据。需要从大量用户历史行为中分析和挖掘各种维度的特征,来刻画用户的兴趣偏好。
需要怎么的用户画像?
• 人口学
• 性别、年龄、地域etc
• 内容特征(标签):类别category、主题topic、关键字keyword、实体词entity(属于keyword里更具代表性更细的名词)
• 喜欢、不喜欢
• 长期、短期
• 协同特征 (主要通过协同过滤算法来找到)
相似用户
用户画像如何构建
用户人口学属性:
性别/年龄:(推测依据)
账号注册
人工标注数据+规则+ 模型
用户app安装列表/用户行为
手机品牌
地域:
GPS定位
主要是kaggle的一个用户画像例子。
用户画像: 核心是做文本挖掘
• 信息检索
• 文本分类
• 关键词提取
• 文本主题模型
信息检索中的案例:
倒排索引(可以用作召回)

本文探讨了构建用户画像的关键步骤,包括文本挖掘、信息检索、关键词提取和权重计算,并强调了人口学、内容特征和协同特征在用户画像中的重要性。此外,还介绍了基于用户和物品的协同过滤算法在推荐系统中的改进应用,涉及时间衰减和权重调整策略。
最低0.47元/天 解锁文章
1448

被折叠的 条评论
为什么被折叠?



