基于协同过滤轮廓的群体典型偏好提取
1. 引言
协同过滤系统存在一些问题。一是稀疏性问题,由于两个用户偏好相同物品的概率较低,难以做出准确推荐;二是即使两个用户偏好相关性不高,但他们的偏好信息对预测仍可能有用,然而因相关性低而无法用于推荐;三是仅计算两个用户间的相关性,若其中一个用户随意评价物品,可能会给另一个用户推荐出意外的物品。
为解决稀疏性问题,有研究采用了EM算法、Kmeans算法、熵加权和SVD等方法,通过群体特征选择对用户进行分组。但这些方法仍存在不足,即仅依据两个用户的相关性匹配进行推荐,在偏好相关性较低时无法推荐。
这里提出关联词挖掘方法,该方法不仅能反映物品的偏好评分,还能体现物品信息。利用此方法创建协同用户的轮廓,并根据向量空间模型和Kmeans算法对用户进行分组。此外,使用熵来解决系统中仅依据组内两个最相似用户的相关性推荐物品的缺点,从而提取群体的典型偏好。该方法还能减少基于未经证实的用户偏好进行推荐的不准确性,实现动态推荐,并且已在存储用户网络偏好的数据库上进行评估,被证明比现有方法更高效。
2. 生成加权用户轮廓
为了基于协同用户轮廓自动进行偏好评分,这里生成了基于内容的用户轮廓和协同用户轮廓。协同用户轮廓基于{用户 - 物品}矩阵生成,在生成协同用户轮廓前,需要先进行特征提取,这里以网页文档作为物品。
2.1 物品的特征提取
为了将文档的特征表示为词袋或关联词袋,需要对文档进行形态分析预处理。形态分析系统与以用户为中心的智能信息检索系统相同。使用Apriori算法从形态分析提取的词中挖掘相关数据,该算法用于从交易集中找出物品的关联规则。挖掘得到的数据,即每个文档的关
超级会员免费看
订阅专栏 解锁全文
1172

被折叠的 条评论
为什么被折叠?



