文本挖掘:关键词提取、问答与对话系统实践
1. 关键词提取与总结相关任务
在文本挖掘中,关键词提取和文本总结是重要的任务,下面介绍相关的操作和实践。
1.1 生成图14.9的条形图
要生成图14.9的条形图,可按以下步骤操作:
1. 收集句子 :为表14.1中描述的九个情节分别收集对应的句子集合,可采用(14.22)中的方法。
2. 生成总结 :使用LexRank和Text Rank提取方法为九个情节分别生成总结,每个提取的总结长度(句子数量)要与对应的参考总结相同,可参考(14.23)的步骤。
3. 生成随机总结 :为每个情节生成100个随机总结,可按照(14.25)的方法。
4. 计算ROUGE分数 :计算所有生成总结的ROUGE分数,并计算同一情节的随机总结分数的平均值。
5. 生成条形图 :利用上述结果生成图14.9中的条形图。
1.2 研究mmrScores函数
mmrScores函数可根据最大边际相关性算法对文档与给定查询的相关性进行评分。操作步骤如下:
1. 检索相关句子 :为表14.1中描述的每个情节检索最相关的句子集合。
2. 评分句子 :使用(14.20)中的总结作为查询,对(14.1)中data.text的所有句子使用mmrScores函数进行评分,将lambda参数设置为1,因为
超级会员免费看
订阅专栏 解锁全文
1026

被折叠的 条评论
为什么被折叠?



