- 博客(3)
- 收藏
- 关注
原创 关于使用Beautifulsoup解析网页标签属性丢失的解决方案
今天在使用Beautifulsoup解析某宝的网页代码时出现了这样的一幕:通过标签提取不到我想要的数据,然而我标签及其属性都没有写错。之后我对返回的源码进行了检查。相应的解决方案就是在获取网络源码后,使用Beautifulsoup解析时需要在函数里加上from_encoding='utf-8’这个参数。可以看到文本值为2023的span标签中的class值解析出来直接就没有了,而且解析的结果也很乱。这是通过Beautifulsoup解析源码后得到的与上图对应部分的结果。这是我通过检查元素看到的源码。
2023-04-23 18:06:53
497
2
原创 python爬虫学习日志 使用selenium爬取动态网页数据
什么是动态网页?动态网页是指在用户访问时,在服务器端动态生成网页内容的网页。与静态网页不同,静态网页是指在服务器上提前生成并存储的网页,无法根据用户的需求和操作进行实时更新。动态网页可以根据用户的请求和输入生成数据,并可以包含交互式元素,如表单、按钮等。对此,我们如果想要获取网页中会更新的内容,只依赖requests库是获取不到相应数据的,这里我们就可以使用selenium来帮助我们获取网页数据。Selenium是一种用于测试Web应用程序的自动化工具,支持多种浏览器和多种编程语言。
2023-03-30 14:53:16
1748
3
空空如也
Beautifulsoup解析网页获取到的标签属性缺失
2023-04-23
TA创建的收藏夹 TA关注的收藏夹
TA关注的人