- 博客(2)
- 收藏
- 关注
原创 利用python传统网络爬虫包爬取Ajax网站数据
所谓Ajax网站,就是内容动态生成的网站,Ajax网站的最大特征就是翻页时url没有变化,因此如果用selenium的get方法是无法获得网站的信息的,因为使用selenium时网站的源码在翻页或刷新后仍然是前一页的源码,我们想要的新信息在新的一页,所以webdriver.find_elements()方法是无法获得新信息的。爬取Ajax网站的网站最重要的步骤就是获取真正的从服务器获取信息的url,而不是网址的url。我的系统是mac,大家注意要把代码转换成自己的系统。
2025-02-21 10:36:22
211
原创 Python爬虫爬取知网文献标题和摘要
3. 以上两种浏览器必须安装插件,firefox需要安装geckodriver,chrome需要安装chromedriver,安装方法请参考:优快云 《MAC如何安装和配置chromedriver》。大家好,我是代码新人。如图所示,这是我用python爬取知网文献,得到了文献的标题和摘要。我的代码可以:1.自动点开知网,并在知网首页搜索框以“人工智能”(或任意其他)为主题进行搜索;我的代码一共仅有43行,第12行的txt.send_keys()是搜索主题,我搜索的是“人工智能”,可以换任意的主题搜索。
2025-01-20 19:14:34
433
7
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人