自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 利用python传统网络爬虫包爬取Ajax网站数据

所谓Ajax网站,就是内容动态生成的网站,Ajax网站的最大特征就是翻页时url没有变化,因此如果用selenium的get方法是无法获得网站的信息的,因为使用selenium时网站的源码在翻页或刷新后仍然是前一页的源码,我们想要的新信息在新的一页,所以webdriver.find_elements()方法是无法获得新信息的。爬取Ajax网站的网站最重要的步骤就是获取真正的从服务器获取信息的url,而不是网址的url。我的系统是mac,大家注意要把代码转换成自己的系统。

2025-02-21 10:36:22 211

原创 Python爬虫爬取知网文献标题和摘要

3. 以上两种浏览器必须安装插件,firefox需要安装geckodriver,chrome需要安装chromedriver,安装方法请参考:优快云 《MAC如何安装和配置chromedriver》。大家好,我是代码新人。如图所示,这是我用python爬取知网文献,得到了文献的标题和摘要。我的代码可以:1.自动点开知网,并在知网首页搜索框以“人工智能”(或任意其他)为主题进行搜索;我的代码一共仅有43行,第12行的txt.send_keys()是搜索主题,我搜索的是“人工智能”,可以换任意的主题搜索。

2025-01-20 19:14:34 433 7

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除