利用少量关联改进标签推荐
1. 引言
在线协作标签平台允许用户自由地为资源分配标签,例如 Delicious(书签)、Flickr(照片)、LastFM(音乐)和 YouTube(视频)等。标签可以是通用的,也可以是非常具体的,这使得标签成为资源聚类和索引的强大工具。
然而,标签系统也存在一些问题。除了语言上的歧义等问题外,最明显的问题是大多数用户只为资源分配很少的标签。例如,在照片分享平台 Flickr 上,64% 的带标签照片仅使用了 3 个或更少的标签,这严重限制了标签在大多数资源上的可用性。
为了解决这个问题,人们提出了各种标签推荐方法。Sigurbjörnsson 和 Van Zwol 首次提出了基于成对标签共现的推荐方法,利用之前分配给资源的标签集(集体知识)生成候选标签,并通过条件概率对其进行排序。Menezes 等人引入的 LATRE 方法在此基础上,使用更大的共现标签集(关联规则)进行推荐,以提高推荐准确性。但这两种方法都存在问题,前者改进较少,后者虽然能提高准确性,但在线挖掘关联规则的计算成本很高,可扩展性较差。
本文的目标是通过精心选择少量关联来改善准确性和计算复杂度之间的平衡,具体展示模式选择如何对基于关联的推荐产生积极影响。
2. 标签推荐
我们考虑资源集合 S 和标签集合 T 之间的二元关系(S × T),即每个标签可以分配给任意数量的资源,每个资源可以有任意数量的标签。每个资源用其关联的标签集(事务)表示,数据库 D 是事务的集合。
-
标签集相关定义
- 标签集 X 是标签
超级会员免费看
订阅专栏 解锁全文
2318

被折叠的 条评论
为什么被折叠?



