python爬取pubmed文章标题，进行词频统计、生成词云

最新推荐文章于 2024-12-09 13:21:18 发布

原创

最新推荐文章于 2024-12-09 13:21:18 发布 · 置顶 · 4.3k 阅读

36 ·

CC 4.0 BY-SA版权

文章标签：

#python

爬取pubmed标题页面，然后统计词频，生成词云可以更直观的让我们了解到某个方向研究的热点或者趋势是什么，上效果图：

在这里插入图片描述

需要输入的网址是在pubmed里搜索后生成的网址，可以是左侧进行各种过滤后的。

在这里插入图片描述

1 爬取标题：

import requests
from bs4 import BeautifulSoup
import re
import lxml
#生成网址
start_url = input('输入网址：')
page = input('输入你想搜索前多少页：')
for i in range(int(page)):
	url = start_url + "&page=" + str(int(i)+1)
#爬取网页
	r = requests.get(url, headers= {
   
   'user-agent':'Mozilla/5.0'})
	r.raise_for_status()
	r.encoding = r.apparent_encoding
	html = r.text
#提取信息
	soup = BeautifulSoup(html, 'lxml')
	for paper in soup.find_all('a'):
		if "docsum-title" in str(paper):
			name = str