栀子枝头盛-优快云博客

原创关于使用Beautifulsoup解析网页标签属性丢失的解决方案

今天在使用Beautifulsoup解析某宝的网页代码时出现了这样的一幕：通过标签提取不到我想要的数据，然而我标签及其属性都没有写错。之后我对返回的源码进行了检查。相应的解决方案就是在获取网络源码后，使用Beautifulsoup解析时需要在函数里加上from_encoding='utf-8’这个参数。可以看到文本值为2023的span标签中的class值解析出来直接就没有了，而且解析的结果也很乱。这是通过Beautifulsoup解析源码后得到的与上图对应部分的结果。这是我通过检查元素看到的源码。

2023-04-23 18:06:53 497 2

原创 python爬虫实战 scrapy+selenium爬取动态网页

使用scrapy对接selenium完成对动态网站的爬取

2023-04-16 15:15:15 6985 2

原创 python爬虫学习日志使用selenium爬取动态网页数据

什么是动态网页？动态网页是指在用户访问时，在服务器端动态生成网页内容的网页。与静态网页不同，静态网页是指在服务器上提前生成并存储的网页，无法根据用户的需求和操作进行实时更新。动态网页可以根据用户的请求和输入生成数据，并可以包含交互式元素，如表单、按钮等。对此，我们如果想要获取网页中会更新的内容，只依赖requests库是获取不到相应数据的，这里我们就可以使用selenium来帮助我们获取网页数据。Selenium是一种用于测试Web应用程序的自动化工具，支持多种浏览器和多种编程语言。

2023-03-30 14:53:16 1748 3

空空如也

Beautifulsoup解析网页获取到的标签属性缺失

2023-04-23

TA创建的收藏夹 TA关注的收藏夹

TA关注的人