文献摘要总结
Lifelong Learning Augmented Short Text Stream Clustering Method
遇到的问题
通过长期学习来增强短文本聚类的方法。
首先根据扫描的方式的不同,可以对现存的短文本聚类算法划分成两种类别的方法:
one-pass-based and batch-based.
1、
- 批处理方法的优点: 有更好的结果(性能优越)
- 缺点: 效率很低
2、
- 单程处理方法的优点: 效率很高
- 缺点: 对于处理稀疏性问题并不友好
解决方案
LAST结合上述两种方法优势,方法是“合并了长期学习的情景记忆模块和分散经验回放模块并应用到聚类处理的过程中”“虽然LAST也是对于每一个文本只处理一次,但是在一个确定间隙内它随机抽样一些之前遇见过的情景记忆,通过运用分散经验的回放来更新聚类特征”
结论
总结:基于两个公共数据集的经验主义的学习,表明基于LAST的方法性能跟批处理的性能类似,同时运行起来的速度跟基于单次处理的方法十分接近,也就是性能上跟批处理相媲美,在处理速度上又结合了one-pass-based的优势。
An Online Semantic-enhanced Dirichlet Model for Short Text Stream Clustering
针对于短文本流聚类的在线语义提升的狄利克雷模型
遇到问题
短文本流聚类目前遇到的挑战以及问题:
- 无法确定最优的批处理大小
- 在图模型中的传统独立的词表示,趋向于导致 “term歧义性”问题
解决方法
An Online Semantic-enhanced Dirichlet Model for Short Text Stream Clustering(OSDM模型)
OSDM模型被用来解决上述的问题,模型给出的解决方案:
该模型结合了词共现的语义信息到一个新的图模型中,同时以在线的方式自动聚集每一个到达的短文本.
结论:
广泛的结果表明,相比较于许多先进算法在人工和真实数据集而言,OSDM表现出了更好的性能
Dynamic clustering for short text stream based on Dirichlet process
针对短文本流的基于狄利克雷处理的动态聚类
引出问题
引出短文本流聚类,同时指出短文本流的特征,并且指出目前的方法不能够同时解决“推断出主题个数和主题漂移”这两个问题.
解决方案
Dynamic clustering for short text stream based on Dirichlet process(DCSS)
DCSS的功能:
自动学习文档中的主题、解决短文本流的主题漂移问题。
为了解决短文本的分散性问题,DCSS考虑了在临近时间点上的主题分布之间的联系。在当前时刻,使用之前文档推导出来的主题分布作为一个先验主题分布。并且同时允许新的流文档来改变主题的后验分布。
结果
结论,作者通过在两个广泛使用的数据集上进行实验,该实验结果表明DCSS的性能优于现存的方法以及具有更好的稳定性。
Short Text Stream Clustering via Frequent Word Pairs and Reassignment of Outliers to Clusters
通过常见的术语对以及异常值到群簇的在再分配来实现短文聚类
解决的问题
由于在不同社交媒体上的的大量文本被生成,从而导致短文流聚类是一个有挑战性的工作。文中主要提出短文流聚类的一种方法。
解决方案
本文中给出的方案:
对于一个给定的文本流,本文中提出的方法,基于频繁出现的词对(并不一定是连续的),聚集文本流。
该算法探测出群簇中的异常值,并且使用基于动态计算出来的相似性阈值,使用异常值和群簇的相似性信息,重新分配异常值到适当的群簇中。
结论:
结论,该方法有效的解决了概念漂移问题,实验结果表明该方法优于先进的短文本流聚类算法,通过统计一些短文数据集上的重要差额来得出上述结论.
An Ensemble Classification Algorithm for Short Text Data Stream with Concept Drifts
针对于短文本流的概念漂移集成分类算法
解决的问题
提出短文本数据流的特点,同时提出由于这些特点的存在从而导致我们的现存的数据流分类算法很难进行很好的适配,同时会降低性能。
解决方案
- 本文中提出了一种新的短文本数据流分类算法来解决上面的传统的数据流分类算法效果不理想的问题。
具体做法:
1、从短文本中选择具有区别性的特征来形成特征空间,同时 使用特征空间中相似的特征进行拓展。
2、基于主题分布的概念漂移检测方法被用来进行检测以及适配在此短文数据流上概念漂移
3、集成分类算法将根据概念漂移的的发生与否来进行是否更新
结论
结果表明,本文中提到的短文本数据流集成分类算法的分类性能要比其他的算法更加优越。
Generation of topic evolution graphs from short text streams
从短文本流中生成主题演变图模型
解决的问题
提出问题,引出“主题演化”,指出现存的方法,要么是关注普通文档的主题演化,要么是关注沿着一个时间线的主题演化.
解决方案
本文中主要关注从短文本中生成主题演变图,这种方法不仅捕捉了主要的主题时间线,同时可以揭示关联子主题之间的联系。
实现方式:
1、作者提出了ETLM来量化词与词之间的关系,
- Encoder-only Transformer Language Model (ETLM)
2、作者提出了一种新型的主题模型,被认为是权重条件随机领域的正规化关联主题模型(CCTM),这种模型充分利用了语义关联来发掘有意义的主题以及主题之间的关联,
- Conditional random field regularized Correlated Topic Model (CCTM)
3、主题演变图由CCTM的一种在线版本生成,OCCTM捕捉了主要主题的演变模式以及相关的子主题。
- Online version of CCTM (OCCTM)
结论:
结论:在现实数据集上的实验表明,文中提到的主题演变模型优于主题质量的基线,同时表现出了对于主题演变挖掘的积极模式
A Dirichlet process biterm-based mixture model for short text stream clustering
针对短文流聚类的狄利克雷处理的双项混合模型
解决的问题
- 首先说明短文本流聚类遇到的挑战,同时指出现存的聚类算法(LDA以及PLDA)都是基于长文本的静态语料库的假设之上发展起来的,而对于短文本流的关注度相对较少。
- 不同于长文本的是,由于短文本的词共现模式很容易受到离散性问题的影响,所以短文本聚类问题具有更大的挑战性
解决方案
本文中,作者提出了一种基于狄利克雷的双项处理过程的混合模型,这种模型可以解决主题漂移问题以及短文本聚类中的稀疏性问题,这种模型的优势包括:
1、可以很明确的探索出每一个文档中的词对从而提升短文本的词共现模式
2、可以很自然的解决短文本流的主题漂移问题。除了上面所述之外,作者还提出了一个DP-BMM的提升算法,叫做DP-BMM-FP,这种算法可以很高效的删除过期文档的双项,通过删除过期批次的群簇。
3、为了进行性能推断,我们使用一种在线的Gibbs抽样评估方法进行参数评估。
结论
结论:作者在现实数据集上的实验表明DP-BMM以及DP-BMM-FP这两个算法可以比现在的先进算法实现一个更加好的性能