爬虫
xuptwgl
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python处理csv文件
Python读取csv文件 1、使用列表的方式读取 import csv with open('1.csv', 'r', encoding='utf-8') as fp: # reader是一个迭代器 reader = csv.reader(fp) next(reader) # next(reader) for x in reader: p...原创 2019-11-29 22:59:08 · 270 阅读 · 1 评论 -
BeautifulSoup的使用
1、初始化BeautifulSoup对象 url = 'https://hr.163.com/position/list.do?workPlaceStr=1¤tPage=1' resp = requests.get(url, headers=HEADERS) html = resp.text soup = BeautifulSoup(html, 'lxml') 在初始化Bea...原创 2019-11-14 21:20:13 · 316 阅读 · 0 评论 -
Python_爬虫_四(XPath)
XPath 什么是XPath xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可以用来在XML和HTML文档中对元素和属性进行遍历。 XPath开发工具 chrome插件XPath Helper firefox插件Try XPath ...原创 2019-10-28 23:23:47 · 163 阅读 · 0 评论 -
Python_爬虫_1
1、urlopen函数 在python3的urlib库中,所有和网络请求相关的方法,都在urlib.request模块下,urlopen函数的基本使用: from urllib import request resp = request.urlopen('https://www.baidu.com') print(resp.read()) urlopen的返回值是一个http.client.HT...原创 2019-08-14 22:50:47 · 201 阅读 · 0 评论 -
Python_爬虫_二
代理 ProxyHandler处理器(代理) 1、代理的原理:在请求目的网站之前,先请求代理服务器,然后让代理服务器去请求目的网站,代理服务器拿到目的服务器的网站数据后,再转发给我们的代码。 2、http://httpbin.org/ip这个网站可以方便我们查看一些http请求参数 3、使用代理的方法: ProxyHandle这个方法需要传入一个字典,key:请求schema,value:代理服务...原创 2019-08-21 23:51:57 · 206 阅读 · 0 评论 -
Python_爬虫_三
Request 使用request库比urllib更加的方便 response.context 和 response.text的区别: response.context返回bytes,未解码 response.text返回str,由requests 解码,解码结果可能为乱码,因此我们通常需要使用response.context.decode(‘utf-8’)选择合适的编码方式来手动解码 req...原创 2019-09-18 21:43:03 · 171 阅读 · 0 评论
分享