
爬虫
心总要想你
这个作者很懒,什么都没留下…
展开
-
0_beautiful_soup库的安装
以管理员身份运行命令提示符输入pip install beautifulsoup4就可以安装测试from bs4 import BeautifulSoup` soup = BeautifulSoup('<p>data</p>','html.parser')原创 2020-05-26 22:45:38 · 156 阅读 · 0 评论 -
示例3_百度360搜索关键词提交
百度搜索import requestskeyword = "python"try: kv = {'wd':keyword} r = requests.get("http://www.baidu.com/s",params = kv) print(r.request.url) r.raise_for_status() print(len (r.text))except: print("爬取失败")360搜索import requestskeyword原创 2020-05-25 23:35:32 · 236 阅读 · 0 评论 -
示例2_亚马逊商品页面爬取
import requestsurl = "http://www.amazon.cn/gp/product/B01M8L5Z3Y"try : kv = {'user-agent':'Mozilla/5.0'} r = requests.get(url,headers=kv) r.raise_for_status() r.encoding = r.apparent_encoding print (r.text[1000:2000])except: pri原创 2020-05-24 22:42:44 · 276 阅读 · 0 评论 -
示例1_京东商品页面爬取
import requestsurl = "http://item.jd.com/2967929.html"try : r = requests.get(url) r.raise_for_status() r.encoding = r.apparent_encoding print (r.text[:1000])except: print("爬取失败")测试完成,能够爬取原创 2020-05-23 22:54:10 · 413 阅读 · 2 评论 -
2_Robots协议的使用
Robots协议的使用网络爬虫 : 自动或人工识别robots.txt, 再进行内容爬取约束性: Robots协议是建议但非约束性,网络爬虫可以不遵守,但是存在法律风险原创 2020-05-22 08:19:34 · 157 阅读 · 0 评论 -
1_Robots协议
Robots 协议Robots Exclusion Standard 网络爬虫排除标准作用:网站告知网络爬虫哪些页面可以抓取,哪些不行形式:在网站根目录下的robots.txt文件Robots 基本语法# 注释 *代表所有 /代表根目录User - agent : *Disallow : /类人类行为可不参考案例http://www.jd.com/robots.txthttp://news.sina.com.cn/robots.txthttp://www.qq.com/robots原创 2020-05-22 08:19:03 · 127 阅读 · 0 评论 -
1_requests库的get()方法
requests库的get()方法r = request.get(url)r表示response 返回一个包含服务器资源的Response对象request 构造一个向服务器请求资源的Request对象具体方式request.get(url,params=None,**kwaargs)url 拟获取页面的url链接params url中的额外控制参数,字典或字节流格式,可选**kwargs 12个控制访问的参数Respnse 对象包含爬虫返回的全部内容示例代码段import reque原创 2020-05-20 08:35:50 · 506 阅读 · 0 评论 -
0_requests库的安装
request库的安装用管理员身份运行命令提示符pip install requests 就可以安装测试安装效果1、首先打开idle或者cmd中 输入python2、然后输入测试代码import requestsr = requests.get("http://www.baidu.com")r.status_code #状态码 200代表正确,404代表错误r.encoding = 'utf-8' #状态编码r.text #打印出来如果requests安装不成功pip install原创 2020-05-20 07:53:50 · 124 阅读 · 0 评论 -
4_Requests库主要方法解析
requests.request(method,url,**kwargs)method : 请求方式,对应put/get/post等7种r=requests.request('GET',url,**kwargs)r=requests.request('HEAD',url,**kwargs)r=requests.request('POST',url,**kwargs)r=requests.request('PUT',url,**kwargs)r=requests.request('PATCH',u原创 2020-05-22 07:32:23 · 196 阅读 · 0 评论 -
3_HTTP协议及request库的方法
HTTP协议Http Hypertext Transfer Protocol 超文本传输协议Http 是一个基于“请求和响应”模式的、无状态的应用层协议,就是在tcp协议之上的Http 协议采用URL 作为定位网络资源的标识URL 格式:http://host[:port][path]host :合法的Internet主机域名或者IP地址port :端口号,缺省端口为80path :请求资源的路径http://www.bit.com.cmhttp://220.118.111.111/dut原创 2020-05-21 09:53:56 · 230 阅读 · 0 评论 -
2_爬取网页的通用代码框架
写在前面网络连接有风险异常处理需谨慎理解Requests库的异常requests.ConnectionError 网络连接错误异常,如DNS查询失败、拒绝连接等requests.HTTPError HTTP错误异常requests.URLRequired URL缺失异常requests.TooManyRedirects 超过最大重定向次数,产生重定向异常requests.ConnectTimeout 连接远程服务器时异常requests.Timeout 请求URL超时,产生超时异常r原创 2020-05-20 09:28:13 · 133 阅读 · 0 评论