
爬虫
小小花生酱
星光不问赶路人,时光不负有心人
展开
-
scrapy爬虫的一个实例
一:建立一个Scrapy爬虫工程打开cmd:输人scrapy startproject python123,如下截图:这里输入的意思是定义一个工程,它的名字叫python123.: headers = {'User-Agent': 'Mozilla/5.0 (Windows NT ...原创 2019-10-29 20:56:44 · 3545 阅读 · 5 评论 -
BeautifulSoup库中信息提取的实例
对最好中国大学排名网站进行信息的提取,提取当中的前20条信息:代码实现import requests #首先引入requests库和BeautifulSoup库from bs4 import BeautifulSoupimport bs4#定义三个函数分别对应三个步骤,将三个函数写进来import requests#首先定义三个函数,然后分别定义...原创 2019-10-29 15:00:25 · 720 阅读 · 0 评论 -
python爬虫中BeautifulSoup库信息的提取
我们还是举上一个例子为例我们如果想提取demo中a标签的链接信息,需要使用以下方法:>>> for link in soup.findAll('a'): print(link.get('href'))这样就可以获取a标签的href的信息了输出结果:soup.findAll(‘a’)这段是查找该网页中所有的a标签。findAll的使用,有下列几个参数:...原创 2019-10-29 14:06:39 · 476 阅读 · 0 评论 -
python中beautifulSoup库的安装和使用
1.安装管理员方式运行cmd,输入pip install beautifulsoup42.使用>>> import requests>>> r=requests.get("https://python123.io/ws/demo.html")>>> r.text此时没有运用到beautifulsoup库,输出结果‘This i...原创 2019-10-27 21:14:20 · 885 阅读 · 0 评论 -
爬虫中request库的爬取实例
1.亚马逊网站的爬取实例(对来源进行了审查)#亚马逊会检测来源import requestsurl="https://www.amazon.cn/gp/product/B01M8L5Z3Y"try: kv={'user-agent':'Mozilla/5.0'} r=requests.get(url,headers=kv) r.raise_for_status()...原创 2019-10-27 19:31:34 · 997 阅读 · 0 评论 -
了解网络爬虫的尺寸及限制方法
网络爬虫的尺寸爬取网页:小规模、数据量小,爬取速度不敏感(requests库),使用率占据大于 90%爬取网站:中规模,数据量较大,爬取速度敏感(scrapy库)爬取全网:大规模,搜索引擎,爬取速度关键(定制开发)网路爬虫的限制:为什么有时要限制网络爬虫?1、服务器上的数据有产权的归属,2,、泄露隐私限制的方法:1、来源审查:检查来访的HTTP协议的User-Agent域,只响应...原创 2019-10-27 16:59:07 · 960 阅读 · 0 评论