文本摘要就是对原始文档的要点进行总结。比如新闻关键词的提炼,百度搜索引擎等。
自动文本摘要一般有两种方法: 提取式与抽象式。
提取式顾名思义,就是按照一定的权重,从原文中寻找跟中心思想最接近的一条或几条句子。
而抽象式则是计算机通读原文后,在理解整篇文章意思的基础上,按自己的话生成流畅的翻译。
从网页中抽取数据步骤:
1:导入相关库/包
-
Beautiful Soup(bs)是一个能从HTML和XML文件中抽出数据的Python库。
-
Urllib是一个程序包,里面含有处理URL的多个模块。
-
re 这个模块提供了各种正则表达式匹配操作。
-
nltk是一个基于Python的类库,是一个领先的自然语言处理的编程与开发平台。它为50多个语料和词库资源提供了易用的交互接口,比如WordNet。它同时也提供了一整套来对文本进行分类、分词、词干提取、标签化、解析、语义推理的文本处理库。
-
heapq 这个模块提供了堆队列算法(优先队列算法)的一种实现。
2:抽取数据
3:数据清洗
4:建立直方图
5: 计算句子分值
6:找出最适合的句
import bs4 as bs
import urllib.request
import re
import nltk
import heapq
nltk.download('stopwords')
nltk.download('punkt')
#将网页内容抽取下来,选取的是