用户用标签描述对物品的看法,所以用户生成标签(UGC)是联系用户和物品的纽带,也是反应用户兴趣的重要数据源。
一个用户标签行为的数据集一般有一个三元组(用户,物品,标签)的集合组成,其中一条记录(a,b,c)表示用户a给物品b打上了标签c
一个简单的算法:
统计每隔用户最常用的标签
对于每隔标签,统计被打过这个标签次数最多的物品
对于一个用户,首先找到他常用的标签,然后找到具有这些标签的最热门的物品,推荐给他
所以用户对物品的兴趣公式
其中,n a.c是用户a打了多少c标签,n c.b是物品b被打过标签c的次数
简单算法中 直接将用户打出标签的次数和物品得到的标签次数相剩,可以简单地表现处用户对物品某个特征的兴趣
这种办法倾向于给热门标签(谁都会给的标签,如“大片”,“搞笑”等),热门物品(打标签人数最多)比较大的权重,如果一个热门物品同时对应着热门标签,那么它就是“霸榜”,推荐的个性化,新颖度就会降低
类似的问题,出现在新闻内容关键字提取中,比如以下新闻中,那个关键字应该获得更高的权重??
采用TF-IDF算法