
爬虫
achiv
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
利用selenium进行Python爬虫时,遇到href=#,获取真正网址的办法
今天,在利用selenium进行Python爬虫时,我遇到了下面的问题,我想得到图片中a标签中href的网址,却发现href = #,这可怎么搞哦!经过一番思索,查阅资料,网上有说抓包get获取网址的,但我比较菜鸡,就没用这种方法(以后可以研究研究)。最终,我居然发现!a标签里还有一个属性onclick,里面居然就是我想获取的网址的子路径!嗷嗷嗷嗷嗷!炒鸡兴奋的,然后方法如下:没错,在图片中可以...原创 2019-04-17 19:32:03 · 7730 阅读 · 6 评论 -
selenium保存网页html文件的几种方法
一、利用selenium + pywin32实现网页另存为参考网址:https://www.cnblogs.com/Mrtree/p/7601211.html这个最后会保存一个html文件 + 一个资源文件夹(离线情况下也可以看)。记得在保存的时候进行延时处理,避免还未保存完就进行下一步操作。time.sleep(5) #下载时间二、利用selenium 直接写入html文件这个最后...原创 2019-04-17 19:58:16 · 24076 阅读 · 2 评论