
爬虫
YonminMa
微信同名
展开
-
Python爬虫小白教程(五)—— 多线程爬虫
文章目录并发和并行同步和异步单线程爬虫在爬取许多网页或者爬取图片的时候,我们的爬虫会遇到一个严重的问题,爬取速度太慢。解决速度太慢的方法主要有三个,多线程,多进程和多协程,下面我们先学习多线程爬虫。并发和并行要学习多线程爬虫,首先我们应该理解为什么多线程爬虫可以增加爬取的速度。要理解为什么多线程能够增加爬取的速度,要先理解并发和并行的概念。如果某个系统支持两个或者多个动作(Action)...原创 2020-01-13 16:18:47 · 14888 阅读 · 4 评论 -
Python爬虫小白教程(四)—— 反反爬之IP代理池
文章目录代理(Proxy)获取代理IP网站分析获取页面页面分析筛选代理IP代理(Proxy)代理(Proxy)是一种特殊的网络服务,你可以把它当成一个中转站。例如当我们访问某个网站特别慢或者无法访问的时候,那么就可以使用合适的代理来访问。首先代理服务器访问网站,然后代理服务器再将访问到的数据传给我们。在爬虫中可以使用IP代理来隐藏自己的真实IP地址,以达到反爬或者其他的目的。获取代理IP网...原创 2019-12-21 22:53:48 · 6727 阅读 · 13 评论 -
Python爬虫小白教程(三)——使用正则表达式分析网页
文章目录正则表达式基本方法re.match 方法re.search 方法re.findall 方法获取自己的IP地址正则表达式正则表达式是对字符串操作的逻辑公式,在某些情况下通过使用正则表达式我们可以轻易地获取到我们想要的结果,下面先学习简单的正则表达式后就开始实战练习。模式概述模式概述.匹配任意字符,除了换行符\s匹配空白字符*匹配前一个字符 0 次或...原创 2019-12-19 18:05:05 · 4956 阅读 · 9 评论 -
Python爬虫小白教程(二)—— 爬取豆瓣评分TOP250电影
Python爬虫小白教程(二)—— 爬取豆瓣评分TOP250电影前言安装bs4库网站分析获取页面爬取页面页面分析其他页面前言经过上篇博客Python爬虫小白教程(一)—— 静态网页抓取后我们已经知道如何抓取一个静态的页面了,现在就让我们爬取豆瓣评分TOP250的电影实战一下。安装bs4库除了Requests库之外,我们还需要BeautifulSoup库来解析爬取到的页面。在cmd中输入:...原创 2019-12-13 22:05:11 · 7773 阅读 · 20 评论 -
Python爬虫小白教程(一)—— 静态网页抓取
Python爬虫小白教程(一)—— 静态网页抓取安装Requests库获取响应内容定制Requests传递URL参数定制请求头发送 POST 请求超时安装Requests库Requests库是Python中抓取网页的一个开源库,功能极为强大。我们可以通过pip安装,如果使用Anaconda的话也可以使用conda安装。如使用pip安装,打开cmd,输入:pip install reques...原创 2019-12-13 19:19:14 · 6052 阅读 · 0 评论