跨领域上下文感知推荐系统(CD - CARS)全解析
1. 上下文特征模型
上下文特征的所有可能组合可通过各属性可能取值的笛卡尔积获得,初始约有二十亿种可能的上下文。不过,CD - CARS 能够剔除语义无效的组合,例如在时间维度中,“Sunday, Weekend” 是有效的,而 “Sunday, Week” 则无效。经过筛选,可能的组合会大幅减少,如上述例子可减至十六万种有效上下文。
这里的上下文特征模型采用 “Key - Value” 表示法。在这种设定下,与推荐上下文的匹配(即 “上下文标准”)是线性进行的。也就是说,当上下文维度与评分的上下文细节相同时,上下文标准会作为查询词使用。
在上下文参数和上下文信息中,缺失的上下文信息(即 “Unknown”)有不同定义。在上下文参数方面,“Unknown”(V1)是应被忽略的部分,CD - CARS 仅考虑与 V1 不同的值,这一机制对文中提到的 CD - CARS 算法是必要的。
获取和选择相关上下文信息时,CD - CARS 推荐的相关性依赖于收集合适的上下文信息。若某些特征存在冗余,算法应只考虑其中一个。而且,不同领域中,某些上下文知识的重要性可能不同,比如在音乐领域,“地点” 这一上下文知识可能比其他的更关键。
可使用标准特征选择方法为每个目标领域单独选择最相关的上下文维度或属性。在 CD - CARS 中,采用信息增益度量,仅选择信息增益最高的上下文属性,每个维度只能选择一个上下文。例如,若 “Day” 的信息增益最高,“DayType” 次之,算法会选择 “Day” 属性,因为它包含了 “DayType” 的相同信息。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



