爬取wikipedia词条

最新推荐文章于 2025-08-13 09:00:00 发布

jolingcome

最新推荐文章于 2025-08-13 09:00:00 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

分类专栏：爬虫

本文链接：https://blog.youkuaiyun.com/u012474716/article/details/64437895

爬虫专栏收录该内容

5 篇文章

订阅专栏

本文介绍了一种使用Python中的BeautifulSoup库从Wikipedia主页抓取链接的方法。通过正则表达式筛选出所有以/wiki开头的链接，并排除了图片链接。

#导入Beautifulsoup包
from bs4 import BeautifulSoup as bs
from urllib.request import urlopen
import re

# 请求URL并把结果用utf-8编码
resp=urlopen("https://en.wikipedia.org/wiki/Main_page").read().decode("utf-8")
# 使用BeautifulSoup去解析
soup=bs(resp,"html.parser")
# 获取所有以/wiki开头的a 标签的href属性
listUrls=soup.findAll("a",href=re.compile("^/wiki/"))
# 打印出url
for url in listUrls:
    # print(url) #打印出来是整条a标签
    if not re.search("\.(jpg|JPG)$",url["href"]): #上面取的有包含.jpg的图片，故要在href属性中排除
        #将url的名字+"https://en.wikipedia.org"+url中的href属性合并打印出来
        print(url.get_text(),"<---->","https://en.wikipedia.org"+url["href"])