通过Python构建爬虫下载网页以及抽取网页中的数据(前篇)

本文是针对Python爬虫初学者的一篇教程,分享作者在学习过程中遇到的问题及解决经验。文章通过实战案例,详细解释了使用BeautifulSoup和requests库进行网页抓取和数据抽取的基本步骤,并分析了常见错误及其解决方案。后续将探讨正则表达式、lxml以及CSS和Xpath选择器等其他数据抽取方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

写之前想说的话:
新手码文,近来学习Python爬虫技术(level 0.0),我疯狂踩各种坑,用实战得到的经验,填码于此,与诸君共勉!图文并茂,尤其适合小白阅读。
学有余力的博友们,可以加入中国大学MOOC嵩天老师主讲的课程,十分有趣,或阅读下(人民邮电出版社、 Python Web Scraping)等(无利益相关,就不贴链接了),为以防小白从入门到放弃,本人注重实践第一,我对书中部分案例做了大幅度的修改,修改后的代码,适合反复观看并练习,具体如下:(超详细,附解说,附报错分析,纯手打,请勿随意搬运哈)

tips:如果你同样学爬虫,遇到代码报错的时候不要慌~~ 静下心来研究下发生了什么?【故作镇定.JPG】

正文:
< Python Web Scraping>案例如下:
添加链接描述
在这里插入图片描述
输出如下:(删减了printInfoList 打印输出控制模块,不影响效果)
在这里插入图片描述
代码区域:

from bs4 import BeautifulSoup
import requests
import bs4
#以上是需要导入的库,没有的话,需要pip 指令安装下,pass。

#1、获取网页内容的模块,参数为自定义的url,此代码建议反复记忆,小白必备。
出现这个错误的原因是在导入seaborn包时,无法从typing模块中导入名为'Protocol'的对象。 解决这个问题的方法有以下几种: 1. 检查你的Python版本是否符合seaborn包的要求,如果不符合,尝试更新Python版本。 2. 检查你的环境中是否安装了typing_extensions包,如果没有安装,可以使用以下命令安装:pip install typing_extensions。 3. 如果你使用的是Python 3.8版本以下的版本,你可以尝试使用typing_extensions包来代替typing模块来解决该问题。 4. 检查你的代码是否正确导入了seaborn包,并且没有其他导入错误。 5. 如果以上方法都无法解决问题,可以尝试在你的代码中使用其他的可替代包或者更新seaborn包的版本来解决该问题。 总结: 出现ImportError: cannot import name 'Protocol' from 'typing'错误的原因可能是由于Python版本不兼容、缺少typing_extensions包或者导入错误等原因造成的。可以根据具体情况尝试上述方法来解决该问题。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [ImportError: cannot import name ‘Literal‘ from ‘typing‘ (D:\Anaconda\envs\tensorflow\lib\typing....](https://blog.youkuaiyun.com/yuhaix/article/details/124528628)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值