
图1 本文方法示意图
一.基于Doc2Vec 的句子向量训练
Doc2Vec 模型能很好地结合上下文语境, 挖掘语义、语法和传统统计语言模型不能提取的诸多其他特征。本文引入该方法, 用以生成句子的向量模型。
Doc2Vec 是 Mikolov 等[8]在 2014 年提出的一种较新颖的可将句子或段落直接转化为固定维度向量的文档分布式表达的方法。该方法利用无监督的训练方法获得任意长度的文本向量, 主要通过两种模型进行训练: DM(Distributed Memory Model)和 DBOW(Distributed Bag Of Words), 两种模型均以神经网络语言模型为基础, 去掉隐含层, 利用上下文和段落特征来预测某词语出现的概率分布。段落向量与词向量是其训练过程的副产物。
在 Doc2Vec 的两种模型中, DBOW与DM训练方法基本一致, 在仅给定段落向量的情况下预测段落中一组随机单词出现的概率。但是, 与DM不同的是,DBOW的输入层仅为一个段落向量, 而输出层为多个词向量的概率分布 , 且 在训练过程中只需存储Softmax 参数, 相比DM模型还需要存储词向量来说,节省了存储空间。
二.基于密度最大距离最远原则优化初始聚类中心的K-means聚类
选出的初始聚类中心点应具有较高的密度, 即在一定的距离半径内, 应具有相对较多的邻居节点; 同时, 选出的初始聚类中心点间应具有相对较远的距离, 这样选出的初始聚类中心点能在有效代表类簇的同时, 也能保证类簇与类簇间的独立性。
1.相关概念
(1)期望密度:

本文研究了结合Doc2Vec的句子向量训练与优化的K-means聚类方法在中文单文档自动摘要中的应用。通过Doc2Vec模型获取句子向量,然后基于密度最大和距离最远原则优化初始聚类中心,最后使用最大信息熵选择摘要句子,以提高摘要质量。
最低0.47元/天 解锁文章
1028

被折叠的 条评论
为什么被折叠?



