用户用标签描述对物品的看法,所以用户生成标签(UGC)是联系用户和物品的纽带,也是反应用户兴趣的重要数据源。
一个用户标签行为的数据集一般有一个三元组(用户,物品,标签)的集合组成,其中一条记录(a,b,c)表示用户a给物品b打上了标签c
一个简单的算法:
统计每隔用户最常用的标签
对于每隔标签,统计被打过这个标签次数最多的物品
对于一个用户,首先找到他常用的标签,然后找到具有这些标签的最热门的物品,推荐给他
所以用户对物品的兴趣公式

其中,n a.c是用户a打了多少c标签,n c.b是物品b被打过标签c的次数
简单算法中 直接将用户打出标签的次数和物品得到的标签次数相剩,可以简单地表现处用户对物品某个特征的兴趣
这种办法倾向于给热门标签(谁都会给的标签,如“大片”,“搞笑”等),热门物品(打标签人数最多)比较大的权重,如果一个热门物品同时对应着热门标签,那么它就是“霸榜”,推荐的个性化,新颖度就会降低
类似的问题,出现在新闻内容关键字提取中,比如以下新闻中,那个关键字应该获得更高的权重??
采用TF-IDF算法
推荐系统-------------基于UGC的推荐
基于用户标签的物品推荐算法
最新推荐文章于 2023-05-17 20:29:37 发布
用户生成标签(UGC)是联系用户和物品的纽带,用户标签行为数据集由三元组集合组成。介绍了一个简单推荐算法,通过统计用户常用标签和热门物品进行推荐,但该算法倾向给热门标签和物品较大权重,会降低推荐个性化和新颖度,还提及新闻关键字提取可采用TF - IDF算法。
7380

被折叠的 条评论
为什么被折叠?



