爬取pubmed标题页面,然后统计词频,生成词云可以更直观的让我们了解到某个方向研究的热点或者趋势是什么,上效果图:

需要输入的网址是在pubmed里搜索后生成的网址,可以是左侧进行各种过滤后的。

1 爬取标题:
import requests
from bs4 import BeautifulSoup
import re
import lxml
#生成网址
start_url = input('输入网址:')
page = input('输入你想搜索前多少页:')
for i in range(int(page)):
url = start_url + "&page=" + str(int(i)+1)
#爬取网页
r = requests.get(url, headers= {
'user-agent':'Mozilla/5.0'})
r.raise_for_status()
r.encoding = r.apparent_encoding
html = r.text
#提取信息
soup = BeautifulSoup(html, 'lxml')
for paper in soup.find_all('a'):
if "docsum-title" in str(paper):
name = str

最低0.47元/天 解锁文章
1017

被折叠的 条评论
为什么被折叠?



