前面我们已经把文章的标题和超链接都提取出来了,看上去我们已经有能力把这些文章的内容全部提取出来了。但路要一步一步走,饭要一口一口吃,我们还是先来看一篇文章的内容是怎么提取和保存的吧。
首先还是先来看看文章的内容在哪里?依旧采用之前所说的办法,找到第一篇文章的链接, 可以看到链接是http://greenfinance.xinhua08.com/a/20200511/1935984.shtml
我们拿到这篇文章的文本
url='http://greenfinance.xinhua08.com/a/20200511/1935984.shtml'
req=requests.get(url)
req.encoding=requests.utils.get_encodings_from_content(req.text)
req.text
可以看到,文章的主要内容全部在红线标注的标签内:
我们利用正则表达式将内容从标签内取出