基于元数据的聚类多任务学习用于线程挖掘
1. 相关工作
许多研究人员从对讨论线程和帖子的语义理解角度,研究了在网络社区中寻找有价值帖子或领域专家等挖掘任务。在语义模型方面,不同的研究有不同的侧重点:
- Cong等人旨在对网络论坛中给定问题的答案进行排名。
- 一些研究基于主题和语义的相似性重建了帖子和线程之间的关系。
- Lin等人提出了一种同时建模线程讨论语义和结构的组合方法,用于垃圾检测和专家发现。
然而,这些研究几乎都在整个特征空间中考虑分离的学习任务,存在两个常见问题:
- 整个特征空间的维度高,有效的策略是将空间划分为子区域,并根据数据的不同特征降低维度。
- 尽管整个网络中有大量数据,但网络社区中挖掘任务的数据样本稀疏且不足。
此前有研究引入了元数据的概念:
- 从生物特征中提取大量质量度量,构建生物特征专家融合的统一框架,这里的质量度量可视为一种元数据。
- 另一种元数据描述原始数据的几何特征,质量度量也用于网络数据分类。
- 提出了混合线性支持向量机(SVM)的学习模型来处理非线性分类问题,但简单地根据元数据将数据集划分为子组并为不同组学习不同模型,很大程度上忽略了每组的连通性,且会使语义分析的数据样本更加不足。
在多任务学习(MTL)方面,由于在某些情况下多个相关分类任务的数据样本稀疏和不足,MTL通过提取任务间的适当共享信息来同时学习多个相关任务,其有效性已在理论上得到验证。不同的MTL方法根据不同任务的相关性建模方式提出:
- 均值正则化MTL假设所有任务的参数向量彼此接近,但在实际应用中并不总是成立。
- 任务的相关性还可以建模为聚类、
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



