Unsupervised Abstractive Meeting Summarization...论文笔记

本文介绍了一种基于无监督抽象式会议摘要生成方法,利用多句压缩和子模组预算最大化技术,通过TF-IDF聚类检测发言社区,构建词图进行摘要生成。实验在AMI和ICSI数据集上进行,评估了摘要的质量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 论文信息

Unsupervised Abstractive Meeting Summarization with Multi-Sentence Compression and Budgeted Submodular Maximization

ACL 2018

2. 相关工作(本文使用到了以下工作内容)

•Multi-Sentence Compression Graph (MSCG) (Filippova, 2010)

•More informative MSCG (Boudin and Morin, 2013)

•Graph-based wordimportancescoring (Tixieret al., 2016a)

•Fluency-aware, more abstractive MSCG (Mehdadet al., 2013)

•Submodularityfor summarization(Lin and Bilmes, 2010; Lin, 2012)

2.1 Multi-Sentence Compression Graph (MSCG) (Filippova, 2010)

•描述: 具有特殊权重(link frequency)的词图,找到K个最短的加权边,使用一个scoring function重新排序,得到的最好的路径即为多句压缩的结果。

•局限性: 丢失了重要信息,语法不完美

•下一步: 提升重要信息与语法,结合2.2所描述的内容。

2.2 More informative MSCG (Boudin and Morin, 2013)

•描述: 任务和方法与Filippova(2010)相同,构建词共现网络,使用Mihalceaand Tarau(2004)的方法计算节点的PageRank,将此分数加入对路径重新排序的函数之中,用来为路径加入信息。

•局限: PageRank并不是找到文档里word的重要性的最好的方式,且没有提升语法。

•下一步: 语法 ,使用最近的(Tixieret al., 2016a),其与“keywordedness”相关联的spreading influence比PageRank scores好。

2.3 Graph-based word importance scoring (Tixieret al., 2016a)

•描述: 使用固定大小的滑动窗口构建词共现网络(word co-occurrence network)为一个无向加权图,边权重表示共现次数。 

•局限: 生成的句子依旧丢失重要信息且语法也不完美。

•下一步:  Boudin and Morin (2013) 和 Mehdadet al. (2013).

 

3. 本文方法

本文方法:

1). 文本预处理

•ASR语音转文字

•过滤拟声词,间隔词,重复词,uh-huh, okay, well, by the way等等;

•频率低于阈值3多非停止词nonstopword被剪掉; 

2). 发言社区检测(TFIDF聚类)

3). 多句压缩

•词的重要性排序 -> 构建词图 -> 边的权重分配 -> 边的重排

4). 子模块预算最大化

 

具体描述:

2). 发言社区检测(TFIDF聚类)

使用k-means,将同一个主题的发言聚类到不同的社区,每一句发言都被映射到向量空间,使用标准TF-IDF分配权重。

其中utterance-term matrix使用Latent Semantic Analysis (LSA)来约减维度。

注意:

•We think word embeddings was not effective, because in meeting speech, participants tend to use the same term to refer to the same thing throughout the entire conversation.

•This is probably why, for clustering utterances, capturing synonymy is counterproductive, as it artificially reduces the distance between every pair of utterances and blurs the picture.

3). 多句压缩

•词的重要性排序 -> 

构建无向加权图,计算节点的CoreRank值,重新分配CoreRank分数,表示词在该簇内的重要程度,a term在不同簇出现的数量非常少。

•-> 构建词图 -> 

 

•-> 边的权重分配 ->

 

•-> 边的重排

 

4). 子模块预算最大化

 

5 Experimental setup

5.1 Datasets

  • AMI (McCowan et al., 2005) (widely-used )
  • ICSI (Janin et al., 2003)
  • test sets of 20 and 6 meetings respectively for the AMI and ICSI corpora (Riedhammer et al.,2008).
  • Each meeting in the AMI test set is associated with a human abstractive summary of 290 words on average,
  • each meeting in the ICSI test set is associated with 3 human abstractive summaries of respective average sizes 220, 220 and 670 words.
  • 下载地址: https://bitbucket.org/dascim/acl2018_abssumm  

For parameter tuning, we constructed development sets of 47(AMI) and 25(ICSI), by randomly sampling from the training sets.

The word error rate of the ASR transcriptions is respectively of 36% and 37% for AMI and ICSI.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

持续更新

 

 

### Gensim.summarization 模块未找到的错误解决方案 `ModuleNotFoundError: No module named 'gensim.summarization'` 错误通常是由于版本兼容性问题引起的。从 Gensim 4.0 开始,`summarization` 功能已被移除或重构到其他模块中[^4]。因此,在较新的 Gensim 版本中直接调用 `gensim.summarization` 将会引发此错误。 #### 解决方法 为了修复这个问题,可以采取以下两种主要方式之一: 1. **降级至旧版 Gensim** 如果项目的功能依赖于 `gensim.summarization` 并且不希望更改代码逻辑,则可以选择安装较低版本的 Gensim(例如 3.x)。可以通过以下命令完成: ```bash pip install gensim==3.8.3 ``` 2. **使用替代库或其他实现** 对于更高版本的 Gensim 用户,官方建议寻找外部工具来代替被删除的功能。例如,可以考虑使用 Python 的自然语言处理生态系统中的其他库,比如 NLTK 或者 Hugging Face Transformers 来实现类似的摘要生成功能[^4]。 下面提供一段基于早期支持 summarization 方法的例子供参考: ```python from gensim.summarization import summarize text = ("Gensim is a library designed to process raw, unstructured digital texts " "using unsupervised machine learning algorithms.") print(summarize(text)) ``` 注意这段代码仅适用于 Gensim 3.x 及其之前的版本[^4]。 对于现代应用需求而言,推荐探索更先进的模型和技术栈以满足文本摘要的任务目标。 --- ### 示例代码片段 (针对低版本环境) 如果决定继续沿用老版本特性,这里给出一个简单的例子展示如何利用 `gensim.summarization` 进行自动摘录操作: ```python # Ensure you have installed an older version of Gensim first. from gensim.summarization import keywords document = """Your long document text goes here.""" summary_keywords = keywords(document).split('\n') for keyword in summary_keywords[:5]: print(keyword) ``` 以上脚本需运行在兼容 `summarization` 子包的老式发行版之上才能正常工作。 ---
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值