Liu_P.L.-优快云博客

原创利用python传统网络爬虫包爬取Ajax网站数据

所谓Ajax网站，就是内容动态生成的网站，Ajax网站的最大特征就是翻页时url没有变化，因此如果用selenium的get方法是无法获得网站的信息的，因为使用selenium时网站的源码在翻页或刷新后仍然是前一页的源码，我们想要的新信息在新的一页，所以webdriver.find_elements()方法是无法获得新信息的。爬取Ajax网站的网站最重要的步骤就是获取真正的从服务器获取信息的url，而不是网址的url。我的系统是mac，大家注意要把代码转换成自己的系统。

2025-02-21 10:36:22 328

原创 Python爬虫爬取知网文献标题和摘要

3. 以上两种浏览器必须安装插件，firefox需要安装geckodriver,chrome需要安装chromedriver，安装方法请参考：优快云《MAC如何安装和配置chromedriver》。大家好，我是代码新人。如图所示，这是我用python爬取知网文献，得到了文献的标题和摘要。我的代码可以：1.自动点开知网，并在知网首页搜索框以“人工智能”（或任意其他）为主题进行搜索；我的代码一共仅有43行，第12行的txt.send_keys()是搜索主题，我搜索的是“人工智能”，可以换任意的主题搜索。

2025-01-20 19:14:34 1064 7

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 利用python传统网络爬虫包爬取Ajax网站数据

原创 Python爬虫爬取知网文献标题和摘要

空空如也

空空如也

原创利用python传统网络爬虫包爬取Ajax网站数据