自然语言处理中的文本摘要与不协调文本分析
1. 指针生成网络
指针生成网络紧密结合了四个理念:
1. 源文档词汇选择 :通过对输入词汇的注意力分布来选择源文档中的词汇。
2. 词汇表词汇选择 :基于上下文向量计算的概率分布,选择可能未在输入文档中出现的词汇表中的词汇。
3. 覆盖向量 :确保摘要中包含的观点具有多样性。
4. 生成与复制的微调 :利用生成概率以及源文档内外词汇选择的相对权重,对生成和复制过程进行微调。
指针生成网络和其他用于摘要的序列到序列模型可在HuggingFace仓库中获取,其中包括管道模型。
2. 文本摘要评估
2.1 评估数据集
为了对文本摘要进行实证评估,基准数据集非常有用。用于评估摘要的数据集由参考文本和摘要对组成。参考文本可以是网页、新闻文章、研究论文等。每个参考文本都关联着一个摘要,这些摘要可能是人工编写的。在创建此类数据集时,人类专家会阅读参考文本并进行总结。标注人员需遵循以下准则:
|准则|详情|
| ---- | ---- |
|风格要求|摘要应采用非正式还是正式风格?是否应尽可能包含文本中的准确短语?|
|长度限制|摘要是否有字数限制?|
|评论要求|摘要是否应包含对文档超出文档内容的评价性词汇?|
|视角要求|摘要是否是针对特定受众(如主题专家与外行)撰写的?|
另一种创建评估数据集的替代方法是使用远程监督。例如,许多评论
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



