爬虫
qq_24311495
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
selenium抓取页面表格
抓取的网站是 吉林水文信息网,都是公开数据。本文主要讲的是如何使用selenium提取页面表格,下面***号间的代码就是提取表格的代码,只需要在开头的地方获取tr和td两个元素就可以了。原理是通过tr元素个数获知表格行数,td元素中的colspan、rowspan属性获知单元格总个数,从而计算出表格的列数。然后构建值为0的对应行列数表格,逐一将td元素中的文本填入表格,即可得到页面的表格。 from selenium.webdriver.common.keys import Keys from seleni原创 2020-07-23 13:14:56 · 4043 阅读 · 1 评论 -
Python selenium爬虫抓取船舶网站数据(动态页面)
很早之前就开始学习爬虫了,一直想学习爬取动态页面,正巧工作中需要用到一个船舶信息的网站,每次都是手动查询太麻烦了,昨天下午研究了一下午,总算搞透彻了,基本步骤如下: 1、启动浏览器 2、打开网页 3、模拟输入,模拟点击 4、稍等一会(很重要) 5、获取网页数据 6、清洗数据 代码分两部分,一部分保存为函数(Chrome_shipxy.py),另一部分作为程序调用函数,这样方便扩展多进...原创 2018-03-02 21:11:47 · 4712 阅读 · 4 评论
分享