python爬虫,requests+beautifulsoup+selenium+phantomJS

本文介绍爬虫的基础概念及工具使用,包括Chrome调试工具RESTclient、快捷键应用、DOM/CSS/JS理解,以及requests、BeautifulSoup、selenium、phantomJS等依赖库,并探讨静态html与javascript动态加载网页的抓取技巧。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

对爬虫理解不多,以前也没接触过,只是最近有个朋友让帮忙爬点东西,解放繁重的重复操作,才开始看,本篇文章仅用于自己记录。


一个测试工具:Chrome下的REST client(网页调试工具,可以修改headers、cookies进行post和get网页url)

两个快捷键:crtl+u打开网页源码,F12打开调试(或在页面某个想查看的元素上右键,然后点击审查元素(360),检查(chrome))

三个概念:DOM,CSS,JS(类比成骨骼、肌肉、衣服的关系)

四个依赖库:requests,BeautifulSoup,selenium,phantomJS(获取源码,正则化匹配,模拟器)


针对网页的编写格式分类:1、静态html;2、javascript动态加载。

1、静态html

静态html的网页源码里直接有想爬的东西,通过requests+BeautifulSoup就能解决,把正则表达式用好就行。

2、动态JS

(1)打开“调试”界面,刷新网页,在Network-XHR或JS里会出现网页请求,点开某个请求在preview里查看是否有想要的东西,如果有那么在headers里复制request url、headers、cookies,用这个request url替代网页的总url进行爬取。



(2)selenium+phantomPS

通过模拟器的方式,模仿人访问网页然后爬取信息,可以进行翻页、点击等,缺点是速度慢。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值