用户画像构建与协同过滤笔记

本文探讨了构建用户画像的关键步骤,包括文本挖掘、信息检索、关键词提取和权重计算,并强调了人口学、内容特征和协同特征在用户画像中的重要性。此外,还介绍了基于用户和物品的协同过滤算法在推荐系统中的改进应用,涉及时间衰减和权重调整策略。

本文是对七月在线关于用户画像构建与协同过滤的一个随堂笔记。用户画像部分主要围绕用户画像的核心-文本挖掘、需要哪些用户画像信息、怎么构建这些基本用户画像信息以及倒排索引的案例简单描述展开,协同过滤部分主要是实训内容,需要消化基于用户和基于item的协同过滤改进算法实现。 

目录

需要怎么的用户画像? 

用户画像如何构建

用户画像: 核心是做文本挖掘

关键词keywords提取 的做法

用户画像中的权重计算: 

todo 待总结概括成文字 


推荐系统中最核心的数据之一是 user profile 数据。需要从大量用户历史行为中分析和挖掘各种维度的特征,来刻画用户的兴趣偏好。 

需要怎么的用户画像? 

• 人口学
        •   性别、年龄、地域etc 

内容特征(标签):类别category、主题topic、关键字keyword、实体词entity(属于keyword里更具代表性更细的名词)

        • 喜欢、不喜欢 

        • 长期、短期

 • 协同特征 (主要通过协同过滤算法来找到)

        相似用户 

用户画像如何构建

用户人口学属性: 

        性别/年龄:(推测依据)

                账号注册

                人工标注数据+规则+ 模型

                用户app安装列表/用户行为

                手机品牌

        地域: 

                GPS定位

主要是kaggle的一个用户画像例子。 

用户画像: 核心是做文本挖掘

• 信息检索
• 文本分类
• 关键词提取
• 文本主题模型 

信息检索中的案例:

倒排索引(可以用作召回)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值