
#爬虫
suvieu
这个作者很懒,什么都没留下…
展开
-
Selenium入门
第一步 安装Selenium在终端 输入pip install selenium第二步 下载Chromedriver查询自己的Chrome浏览器的版本找到对应版本的Chromedriver,chromedriver与chrome版本映射表如下https://blog.youkuaiyun.com/huilan_same/article/details/51896672下载地址:http:/...原创 2019-09-07 15:29:01 · 406 阅读 · 0 评论 -
用正则表达式爬取猫眼电影TOP100排行榜
要求爬取猫眼电影TOP100排行榜电影信息(排名/影片名称/上映时间/评分)爬取过程1.找出每一页url的变化规律是参数offset,写for循环for i in range(2): url = 'https://maoyan.com/board/4?offset={}'.format(i*10) response = requests.get(url,headers).t...原创 2019-08-15 22:23:58 · 942 阅读 · 0 评论 -
爬取HKSTP入驻企业的信息
要求:HKSTP企业目录:点进HKSTP入驻的每一个公司中查看并获取企业的信息,包括企业名称/邮箱/网址/电话/联系人/公司介绍企业目录页面:企业信息页面:第一步 导入相关模块这里要注意一开始我直接通过from lxml import etree 会有报错,网上查了下似乎从python3.5开始就无法直接导入etree模块了解决方法是先引入html模块,通过html模块引入etr...原创 2019-09-24 21:35:48 · 929 阅读 · 0 评论 -
爬取时光网电影信息
要求:通过时光网爬取每年评分在7-10分之间的电影信息(电影名/链接/评分)第一步 寻找URL时光网的分类查询页面:http://movie.mtime.com/movie/search/section/#时光网的页面是通过AJAX异步加载的,在浏览器上关闭JAVASCRPIT 会发现网页变成如下的样子(图1),如果直接用reques对上面的URL进行请求,只能得到这个页面的HTML代码,...原创 2019-10-03 21:44:56 · 2927 阅读 · 1 评论