不确定得分下的Top-k查询研究
1. 引言
现代推荐系统通常依赖于用户协作或众包收集的信息。例如,TripAdvisor通过用户生成的评分和评论来推荐旅行计划和酒店,Airbnb和HungryGoWhere分别依靠用户内容来描述、排名和推荐度假租赁和餐厅。但这种独立收集的信息存在多样性和质量差异,导致信息具有不确定性。像酒店、度假租赁和餐厅等对象,其各种特征的得分并不确定。
在这种情况下,不确定数据的排名就成了关键问题。已有多种不确定数据模型和概率Top-k查询语义被提出。本文考虑的是对象不确定得分以概率分布形式呈现的模型,以及Soliman、Hyas和Ben-David提出的语义。目的是探索Metropolis-Hastings马尔可夫链蒙特卡罗算法,以回答不确定得分对象数据库中的概率Top-k查询,并设计出性能更优的算法。
2. 相关工作
- 不确定性与众包 :如今内容多由终端用户生成,信息收集也常外包,这使得现代数据库内容可能存在错误、噪声和不确定性。不过,解决这种不确定性的问题也可外包给众包。例如,有人提出用众包来回答Top-k和分组查询,并提出可变误差模型控制众包错误答案;还有人对众包解决Top-k问题的方法进行了详细调查,讨论了基于比较、基于评分和混合算法如何容忍众包误差,并给出不同场景下选择合适算法的经验准则。
- 不确定数据库中的排名和Top-k查询 :概率Top-k查询最早被提出时,不确定数据模型包含对象在数据库中的成员概率和由布尔约束定义的可能世界。不同学者提出了多种Top-k查询语义和算法:
超级会员免费看
订阅专栏 解锁全文
1442

被折叠的 条评论
为什么被折叠?



