协作标签系统与知识收集任务的研究洞察
在当今信息爆炸的时代,无论是发现热门话题趋势,还是高效地进行知识收集,都成为了众多领域的关键需求。本文将深入探讨协作标签系统(CTS)中的话题趋势发现,以及信息系统中知识收集任务的相关研究。
协作标签系统中的话题趋势发现
在许多应用场景中,如研究、商业和政策制定等,识别“热门”话题和新兴趋势至关重要。近年来,协作标签系统(CTS)作为社交计算和社交软件的重要应用,因其独特的信息重组方式和促进在线社区形成的能力而备受关注。
相关研究回顾
对时间数据的分析一直是研究的热点领域。在话题检测与跟踪(TDT)方面,众多学者进行了相关研究。R. Swan和J. Allan提出了χ2方法来提取新闻文章中随时间变化的重要特征;Vlachos等人研究了MSN搜索引擎查询,识别出其中的突发情况和语义相似的查询;E. Amitay等人则探讨了利用网页时间戳来检测重大事件和趋势。同时,CTS在TDT中的潜在价值也逐渐被认识到,S. Golder和B. Huberman对Del.icio.us的结构和动态方面进行了系统研究,A. Hotho等人提出了类似PageRank的算法来发现和排名Del.icio.us中用户 - 标签 - 资源网络环境下的热门话题。
数据集收集
研究团队于2007年11月10日至11月15日从Del.icio.us收集数据。首先选择了如“game”“movie”“music”“book”等多种主题关键词,针对每个关键词下载了被其标记的完整网页资源列表,并收集了它们的标记历史。最终获得了涵盖20个类别的数据集,共记录了62,263,783次标记活动。每个标记活动包含用户/注释者I
超级会员免费看
订阅专栏 解锁全文
967

被折叠的 条评论
为什么被折叠?



