python的【爬虫】:使用urllib爬取wiki文章,使用beautifulSoup解析html

本文档介绍了如何使用Python的urllib库抓取wiki文章,并通过BeautifulSoup进行HTML解析。首先,文章提及了学习正则表达式和BeautifulSoup的基础知识,然后分享了一个爬取糗事百科的实例。接着,详细分析了wiki页面结构,指出在爬取过程中需要注意的干扰元素及解决方法。最后,展示了爬虫代码中提取网页内容的关键部分,主要涉及定位div和p标签内的文本内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


之所以写这个,是因为搜不到关于wiki爬取方面的教程。



先学习:

正则表达式,http://python.jobbole.com/81346/

BeautifulSoup(html文档解析器),http://python.jobbole.com/81349/

爬取糗事百科实例,http://python.jobbole.com/81351/




现在开始爬取wiki数据:


分析页面,F12,找到要的内容,如下:



但有一点,注意:


解决这个干扰的方法是:

ps=div.find_all(name='p', limit=3, recursive=False) #only direct children<
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值