
爬虫
文章平均质量分 61
Leo-Woo
这个作者很懒,什么都没留下…
展开
-
urllib异常处理中HTTPError和URLError混用的注意事项
运行环境:Python 3.6、Pycharm 2017.2Python中写爬虫程序时,可以使用urllib.error来接收urllib.request产生的异常。urllib.error有两个方法,URLError和HTTPError。注意事项如果在urllib.request产生异常时,用HTTPError和URLError一起捕获异常,那么需要将HTTPError放在URLError的前面原创 2017-09-25 00:22:19 · 3685 阅读 · 0 评论 -
Python爬虫(三):爬取猫眼电影网经典电影TOP100信息并存入本地Markdown文件(上)
运行环境:Python3.6.2、Pycharm2017.2 附此爬虫代码GitHub地址:https://github.com/IMWoolei/MaoYanMovies ==>【效果链接】正文分析需要获取的信息进入到猫眼网经典电影TOP100页面【链接】 需要抓取的数据有名次,海报,影片名、主演、上映时间以及评分。网页信息分析 从中可以看到,每一步影片的信息都分别存在于<原创 2017-11-26 16:28:37 · 5108 阅读 · 0 评论 -
Python爬虫(三):爬取猫眼电影网经典电影TOP100信息并存入本地Markdown文件(下)
运行环境:Python3.6.2、Pycharm2017.2 附此爬虫代码GitHub地址:https://github.com/IMWoolei/MaoYanMovies上一篇博客【链接】正文Markdown作为一个易上手的标记书写语言,能够提供高效清晰的书写板是,一直是我很喜欢的书写工具。 Python的第三方库中提供了Markdown模块,用于Markdown的书写,以及提供转htm原创 2017-11-26 16:53:39 · 1526 阅读 · 0 评论 -
利用Flask写了一个代理IP提取接口,并附上电影下载站点刷分程序用于测试代理IP可用性
热烈庆祝失踪人口回归代理IP获取接口接口地址:http://api.faceme.site/proxy/请求方法:GET接口参数:limit 单次代理IP提取数量,默认提取全部,int类型scheme 代理方式 http或https,默认不限oversea 境内代理0或境外代理1,默认不限type 返回文本格式,json或lines,默认以json形式...原创 2019-03-16 17:58:30 · 5209 阅读 · 3 评论 -
我的反爬解决方案(1)—— 怼代理IP
我的反爬解决方案(1)——怼代理IP项目地址免费代理IP池地址(长期维护):https://github.com/IMWoolei/FreeProxyPool前言在常见的反爬手段中,最常见的是针对访问频度反爬,频度反爬中最常用的又是针对出口IP访问频率的限制。遇到封IP时的解决办法就是降低请求频率或更换请求出口IP,其中更换出口代理IP的方式最常使用的则是设置代理IP。代理IP来源...原创 2019-08-11 23:23:16 · 1838 阅读 · 0 评论 -
我的反爬解决方案(2)—— 模拟登陆
项目地址常见站点模拟登陆(长期维护):https://github.com/IMWoolei/fuck-login前言爬虫的任务不仅仅是采集数据,自动刷访问量、自动发布内容等都属于爬虫所涉及的范围。而完成自动刷访问量、发布这些功能往往都需要在登陆状态下进行,另外HTTP是无连接\无状态的,所以实现登陆的目的是在本地生成Cookies,以记录本次会话状态。另外携带Cookies的请求,可以...原创 2019-08-11 23:26:34 · 1419 阅读 · 1 评论 -
爬取猫眼电影网经典电影TOP100信息Markdown效果展示
No:1霸王别姬主演:张国荣,张丰毅,巩俐上映时间:1993-01-01(中国香港)评分:9.6了解更多…No:2肖申克的救赎主演:蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿上映时间:1994-10-14(美国)评分:9.5了解更多…No:3罗马假日主演:格利高利·派克,奥黛丽·赫本,埃迪·艾伯特上映时间:1953-09-02(美国)评分:9.1了解更多…No:4这个杀手不太冷主演:让·雷诺,加里·奥德原创 2017-11-26 17:00:34 · 150442 阅读 · 0 评论 -
Python获取网页编码的两种方法——requests、chardet
方法一:使用requests模块In[2]: import requestsIn[3]: res = requests.get('http://baidu.com')In[4]: resOut[4]: <Response [200]>In[5]: res.encodingOut[5]: 'ISO-8859-1'方法二:使用chardet模块import chardetfrom urlli原创 2017-12-12 16:57:22 · 9748 阅读 · 0 评论 -
常用正则表达式汇总—(数字匹配/字符匹配/特殊匹配)
来源于知乎专栏:https://zhuanlan.zhihu.com/p/29619457 这个是我在知乎上看到前辈的专题,里面的专栏帮助了我很多,推荐大家去看看。 - 文章底部有很熟悉的一张正则表附图1. 校验数字的表达式 2.校验字符表达式 3.特殊需求表达式转载 2017-12-03 23:17:19 · 81195 阅读 · 3 评论 -
使用Python3批量保存贴吧图片-附爬虫程序
Python3做的一个简易爬虫程序原创 2017-08-10 19:01:07 · 2759 阅读 · 0 评论 -
BeautifulSoup中的HTML解析器对比
参考来源: http://cuiqingcai.com/1319.html关于BeautifulSoup简单来说,Beautiful Soup是Python的一个库,最主要的功能是从网页抓取数据。 官方解释如下: BeautifulSoup提供一些简单的、Python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多转载 2017-10-12 23:11:19 · 1391 阅读 · 0 评论 -
Python爬虫:异步数据抓取并保存到Excel
Python爬虫:异步数据抓取并保存到Excel标签(空格分隔): Python 爬虫 异步 环境:Python 3.6、Pycharm 2017.2.3、Chrome 61.0.3163.100======> 2018年3月3号 更新整理了一下代码 <======修改了post请求中的form-data没有生效的错误修改为可直接从程序外部传入参数,可...原创 2017-10-11 20:35:58 · 19524 阅读 · 13 评论 -
使用BeautifulSoup中的find()和findAll()函数时关键字参数的注意事项
BeautifulSoup是Python里最受欢迎的HTML解析库之一。它可以提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。find()和findAll()在BeautifulSoup中的定义为:findAll(tag, attributes, recursiv原创 2017-09-27 09:21:50 · 13513 阅读 · 0 评论 -
(已更新)获取优快云访问量、排名等信息存入JSON文件并绘图进行分析
运行环境: Python3.6、Pycharm2017.2、Windows10 RS4前言我的优快云博客是今年八月份才开始写的,写博客的主要目的是对近期学习的知识点进行总结。在写博客的过程中也开始关注博客访问量、排名等等信息。 因为正在练习爬虫技巧,所以我写了一个爬虫程序来获取我的优快云博客访问量、排名、原创文章数、评论数这四个信息。初级目标是将其存入json或csv文件中最终目标是通过原创 2017-12-01 11:45:21 · 887 阅读 · 0 评论 -
Python爬虫(四):新增纵横中文网爬虫Demo--爬取136书屋小说,并保存至本地文本文件中,单进程多进程对比效率(以三生三世十里桃花为例)
运行环境:Python3.6、Pycharm2017.3、Windows10 RS3、requests2.18.4、BeautifulSoup4.6.0简介小说网址:http://www.136book.com/通过修改136book小说网中具体小说的url来爬取不同小说的分章节批量下载该代码以三生三世十里桃花为例(链接)–>http://www.136book.com/sanshengs原创 2017-12-12 00:03:08 · 3030 阅读 · 5 评论