获取维基百科主页所有词条及链接

最新推荐文章于 2025-07-26 11:02:39 发布

原创

最新推荐文章于 2025-07-26 11:02:39 发布 · 3.3k 阅读

2 ·

CC 4.0 BY-SA版权

本文介绍如何使用Python爬虫获取维基百科主页上的所有词条标题及其对应的链接，涉及网络请求和HTML解析技术。

wiki.py

from urllib.request import urlopen
from bs4 import BeautifulSoup
import  re
# 获取维基百科主页所有词条及链接

#请求url并把结果用utf-8编码
resp = urlopen("https://en.wikipedia.org/wiki/Main_Page").read().decode("utf-8")
#使用beautifulsoup去解析
soup=BeautifulSoup(resp,'html.parser')
#获取所有以/wiki/开头的a标签的Href属性
listUrls = soup.findAll("a",href=re.compile("^/wiki/"))
#输出所有的词条对应的名称和url
for url in</