基于规则的留言板主题分类方法
1. 引言
随着人们在工作或学习环境中与同事分享知识和交流疑问的需求不断增加,网络讨论板的重要性日益凸显。然而,讨论板面临着组织结构、导航便利性和信息有效提取等挑战。讨论板中的消息层次结构通常由参与讨论的用户手动组织,可能会不受控制地增长,导致用户导航困难。因此,需要一种技术来自动对留言板中的消息进行分类和标注,以引导用户找到与他们导航目标相关的讨论片段。
传统的文本挖掘技术在讨论记录中的应用效果不佳,因为讨论记录之间存在微妙且往往隐含的依赖关系。单个帖子携带的信息有限,而相关帖子集合形成的上下文能携带更多信息,但需要正确识别。此外,标准的文本挖掘技术和索引解决方案不适用于动态变化的消息集合。
2. 相关工作
留言板消息分类和索引问题与网页文档分类和索引问题密切相关,但留言板帖子内容更加异构,信息结构不清晰,难以提取关键词和检测结构,用户通常更关注帖子间的概念关系。
- Murakami 等人的工作 :通过分析消息中文本片段的关系计算引用文本的距离,以发现不同帖子间的相互关联。在此基础上,我们尝试超越简单的引用文本比较,捕捉更多元素来识别帖子间的关系,并使用图作为数据结构来表示知识。
- [KCD05] 的工作 :将主题分割问题定义为在动态演变的网页内容层次结构中搜索特殊节点,核心是分析帖子的关键词向量来识别主题边界并发现帖子间的专业化/泛化关系。我们的改进在于引入自动离线系统,结合额外的结构方面来突出主题边界及其内部组织。
- [AK04] 的工作
超级会员免费看
订阅专栏 解锁全文
7123

被折叠的 条评论
为什么被折叠?



