disuoshao7625-优快云博客

转载爬取电影天堂最新电影的名称和下载链接(增量爬取mysql存储版)

这次的程序是在上次的基础上进行修改,把持久化储存方式改成mysql,并增加了断点续爬功能.import requestsimport refrom fake_useragent import UserAgentimport randomimport timeimport pymysqlfrom hashlib import md5from lxml i...

2019-09-25 16:33:00 1535

转载爬取电影天堂最新电影的名称和下载链接

此次的目标是爬取电影天堂最新200页的最新电影的电影名称和下载链接,电影的下载链接在二级页面,所以需要先匹配一级页面的所有链接,然后逐个请求二级页面,代码如下:""" 爬取电影天堂2019年的电影名称和链接"""import requestsimport csvfrom fake_useragent import UserAgentfrom lxml...

2019-09-24 19:56:00 4308

转载爬取安居客指定市的所有小区信息

在爬取的过程中发现,访问频率太快会导致网站弹出滑动验证,所以设定了时间随机时间延迟,这样子就能保证爬取的信息完整,我选的是青岛市的小区,后续也可以添加输入市名爬取相关内容,二级页面的房子的平均价格是动态生成的,需要发送一个请求得到一个json,请求的url比较复杂,而且还要再发送一次请求,因此直接在一级页面取平均价格,然后传入解析二级页面的函数,这样可以提高效率.代码如下:"""...

2019-09-24 11:36:00 2481

转载 selenium自动化测试工具模拟登陆爬取当当网top500畅销书单

selenium自动化测试工具可谓是爬虫的利器,基本动态加载的网页都能抓取,当然随着大型网站的更新,也出现针对selenium的反爬,有些网站可以识别你是否用的是selenium访问,然后对你加以限制.当当网目前还没有对这方面加以限制,所以今天就用这个练习熟悉一下selenium操作,我们可以试一下爬取一下当当网top500的畅销书单的相关信息,页面如下:虽然这个...

2019-09-24 10:09:00 533

转载 python内置函数简单归纳

做python小项目的时候发现熟练运用python内置函数,可以节省很多的时间,在这里整理一下,便于以后学习或者工作的时候查看.函数的参数可以在pycharm中ctrl+p查看。1.abs(x):返回数字的绝对值print ("abs(-40) : ", abs(-40))print ("abs(100.10) : ", abs(100.10))"""结果:a...

2019-09-24 01:02:00 119

转载爬取快代理的免费IP并测试

各大免费IP的网站的反爬手段往往是封掉在一定时间内访问过于频繁的IP，因此在爬取的时候需要设定一定的时间间隔，不过说实话，免费代理很多时候基本都不能用，可能一千个下来只有十几个可以用，而且几分钟之后估计也扑街了。虽然有那种付费的大量代理IP，但是也不见得好，测试过，里面优质的也很少。目前体验比较好的还是私密代理，当然还有其他。贵有贵的道理。import requestsimp...

2019-09-24 00:49:00 283

转载爬取股吧指定时间段的文章标题

这个可以作为xpath的练手项目,爬取股吧2016年6月份到2016年12月份的文章标题和发帖时间代码如下:import requestsfrom requests.exceptions import RequestExceptionfrom lxml import etreeimport csvdef get_one_index_page(url):...

2019-09-05 19:29:00 444

转载使用xpath爬取猫眼电影排行榜

最近在学习xpath,在网上找资料的时候,发现一个新手经常拿来练手的项目,爬取猫眼电影前一百名排行的信息,很多都是跟崔庆才的很雷同,基本照抄.这里就用xpath自己写了一个程序,同样也是爬取猫眼电影,获取的信息是一样的,这里提供一个另外的解法.说实话,对于网页信息的匹配,还是推荐用xpath,虽然正则确实也能达到效果,但是语句过于繁琐,一不注意就匹配不出东西,特别对于新手,本身就不熟...

2019-09-05 10:09:00 729

disuoshao7625的博客