
爬虫
似水灬流年
学到新东西,看到不一样的世界
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python爬虫系列------Scrapy框架爬取西刺代理IP
scrapy list 查看当前存在的爬虫文件 scrapy crawl xxx 执行目标爬虫文件 scrapy crawl xxx -o data.json 执行目标爬虫文件并将结果保存在 data.json 文件中 ...原创 2020-02-18 19:47:07 · 348 阅读 · 0 评论 -
Python爬虫系列-------Scrapy框架爬取校花网校花图片
1.简述上篇博客是 scrapy框架与 xpath抽取技术的结合这次使用 正则抽取目标:爬取校花网校花图片并保存在指定目录2.配置为防止触发反爬虫,依旧设置 爬取延迟 和 User-Agent 伪装浏览器并规定不遵守目标网站的 robots 协议3.上代码因为没有使用 xpath ,所以 items 文件不写入内容直接在爬虫文件 xiaohua.py 内写入 # -*- ...原创 2020-02-18 19:46:52 · 439 阅读 · 0 评论 -
Python爬虫Ajax异步处理-----头条街拍
直接上代码 import requests from urllib.parse import urlencode import os from hashlib import md5 from multiprocessing.pool import Pool def get_page(offset): params = { 'aid': '24', '...原创 2020-02-18 19:46:30 · 176 阅读 · 0 评论 -
Xpath抽取技术
1.xpath常用规则 表达式 描述 nodename 选取此节点的所有子节点 / ...原创 2020-02-18 19:45:08 · 212 阅读 · 0 评论 -
BS4
###BS4会将html文档对象转换为python可以识别的4种对象:。。。 Tag:标签对象。。。 NavigableString : 字符内容操作对象。。。 BeautifulSoup: 文档对象这是文件名称为westos.html的html内容1.获取标签内容从这里可以看到这是属于bs4类soup.p则是获取p标签的内容2.获取标签的属性分别获取标签的...原创 2018-10-19 11:52:51 · 212 阅读 · 0 评论 -
python之正则表达式
1.通配符的使用[0-9]:0到9中的任一个[a-z]:小写字母中的任一个[A-Z]:大写字母中的任一个[a-zA-Z]:小写或大写字母中的任一个glob.glob:返回所有匹配正则的路径(返回的是一个列表)这里的 * 可以代表任意东西?代表的是一个任意字符glob.iglob:返回所有匹配正则的路径(返回的是一个生成器)结果如下2.正则表达式常用逻辑和方法re: ...原创 2018-10-10 18:01:09 · 432 阅读 · 0 评论 -
python之爬虫简概
1.爬取单个图片from urllib.request import urlopenurl=‘http://imgsrc.baidu.com/forum/w%3D580/sign=e23a670db9b7d0a27bc90495fbee760d/38292df5e0fe9925f33f62ef3fa85edf8db17159.jpg’1.获取图片内容content=urlopen(...原创 2018-10-16 19:07:14 · 211 阅读 · 0 评论 -
Python之爬虫(精要)
1.爬虫最大的爬虫网站就是百度1.浏览网站时经历的过程浏览器(请求request)->输入URL地址(http://www.baidu.com/index.html file:///mnt ftp://172.25.254.31/pub->http协议确定,www.baidu.com访问的域名确定 ->原创 2018-10-18 18:06:04 · 242 阅读 · 0 评论 -
Python爬虫系列解决编码格式问题
1.显示编码问题有时候当我们使用爬虫爬取网页源代码时,因为编码格式的不同导致乱码例如 www.4399.com网页源代码我们可以看出4399的编码格式指定为 gb2312而 Pycharm 默认的编码格式是 utf-8所以当我们获取源代码时,汉字就会出现乱码 import requests url='http://www.4399.com' respon...原创 2019-05-13 00:05:48 · 4914 阅读 · 0 评论 -
爬虫------12306
1.解密验证码图片大家都知道, 12306 登陆需要输入验证码 ,验证码是选中图片即定位图片坐标, 通过坐标判断验证码是否正确首先在 12306 登陆界面获取验证码图片 url 如下 Request URL: data:image/jpg;base64,/9j/4AAQSkZJRgABAgAAAQABAAD/2wBDAAgGBgcGBQgHBwcJCQgKDBQNDAsLDBkSEw...原创 2019-08-06 17:13:51 · 10205 阅读 · 0 评论