
爬虫
文章平均质量分 51
squabLi
这个作者很懒,什么都没留下…
展开
-
python 爬虫 访问网页之request与requests:
标签(空格分隔): 9.23一、访问获取网页的基本方法:准备头部和代理user_agent = [ #准备头部,列表 "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50", "Mo...原创 2018-09-23 13:19:20 · 4493 阅读 · 0 评论 -
python 爬虫 浏览器头部
浏览器头部列表:user_agent = [ #准备头部,列表 "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50", "Mozilla/5.0 (Windows; U; Window...原创 2018-10-11 23:56:38 · 821 阅读 · 0 评论 -
python 爬虫 scrapy框架的详细使用
scrapy框架爬取内容详细介绍:scrapy: python开发的一个快速、高层次的屏幕抓取和web抓取框架,简单,方便,易上手一、scrapy 的工作流程1、引擎从调度器中取出一个URL链接(url)用来接下来的爬取2、引擎把URL封装成一个Request请求传给下载器,下载器把资源下下来,并封装成应答包Response3、爬虫解析Response4、若是解析出实体(Item),...原创 2018-09-27 22:33:08 · 19474 阅读 · 2 评论 -
起点 字数 反 反爬虫
起点 字数 反 反爬虫如何 获取这5个数字呢???字数对应的源代码如下:说明一下:这是起点的一种反爬措施,起点有自己的数字库,在每次打开网页或刷新网页时,这一串数字都会改变,想要去和数字一 一对应都不可能,但是这一串数字和与之解析的数字库是对应的,只要找到对应的数字库,解析一下,就可以形成映射关系:提取 5串 字符串和对应的数字库注意:不要用解析器去解析,直接用正则表达式去提取:...原创 2018-10-19 12:59:03 · 1866 阅读 · 4 评论 -
Python 爬虫 scrapy 利用splash爬取动态网页
转载自 https://blog.youkuaiyun.com/mouday/article/details/81625830依赖库:pip install scrapy-splash配置settings.py# splash服务器地址SPLASH_URL = 'http://localhost:8050'# 支持cache_args(可选)SPIDER_MIDDLEWARES = { ...转载 2018-10-19 20:22:21 · 518 阅读 · 1 评论 -
Python 爬虫 scrapy 定时运行的脚本
转载: https://blog.youkuaiyun.com/mouday/article/details/81514569原理:1个进程 -> 多个子进程 -> scrapy进程代码示例将以下代码文件放入scrapy项目中任意位置即可# -*- coding: utf-8 -*-from multiprocessing import Processfrom scrapy im...转载 2018-10-19 20:28:15 · 908 阅读 · 1 评论 -
Python 爬虫 selenium 打开新窗口 和 多窗口切换
转载自:https://blog.youkuaiyun.com/mouday/article/details/81240257使用 js 代码实例:# -*- coding: utf-8 -*-import timefrom selenium import webdriverbrowser = webdriver.Chrome()# 在当前浏览器中访问百度browser.get('https:...转载 2018-10-19 20:43:54 · 4832 阅读 · 1 评论 -
Python 爬虫 scrapy 反 反爬虫策略
转载自https://blog.youkuaiyun.com/mouday/article/details/80777256爬虫策略:1、动态User-Agent(随机切换User-Agent,模拟不同用户的浏览器信息),使用中间件class RandomUserAgentMiddleware(object): def process_request(self, request, spider...转载 2018-10-19 21:49:01 · 1242 阅读 · 2 评论 -
Python 爬虫 关于 scrapy 模块的请求头
转自https://blog.youkuaiyun.com/mouday/article/details/80776030内容简介:使用scrapy写爬虫的时候,会莫名其妙的被目标网站拒绝,很大部分是浏览器请求头的原因。现在一起来看看scrapy的请求头,并探究设置方式工具准备开发环境python2.7 + scrapy 1.1.2测试请求头网站:https://httpbin.org/get?s...转载 2018-10-20 09:14:20 · 624 阅读 · 2 评论 -
python 爬虫 新建一个文件夹
1.需要导入模块:import os2.判断文件夹是否存在存在则打开,不存在新建文件夹在本目录内if os.path.exists('myfolder'): os.chdir('myfolder')else: os.mkdir('myfolder') os.chdir('myfolder')3.路径也可以使用绝对路径...原创 2018-10-11 23:05:52 · 1391 阅读 · 0 评论 -
python 爬虫 获取一个图片
1.获取一个图片网址:url='http://pic.netbian.com/uploads/allimg/181010/204910-153917575036da.jpg'2.导入模块:from urllib import request3.获取图片request.urlretrieve(url,'1.jpg')代码实例:图片实例:也可以存到新的文件夹里...原创 2018-10-11 22:59:32 · 183 阅读 · 1 评论 -
python 爬虫 正则表达式的详细使用
提取 网页内容 四大基本方法之1.正则表达式 re模块表达式说明[abc]abc中的一个[a-z]a-z中的一个[0-9]0-9中的一个[af0-9]a-f,0-9中的一个[ab][cd][12]三个中分别选出一个来.任意字符\.表示真实意义的.\d表示一个数字,相当于[0-9]\D一个非数字\w一个...原创 2018-09-23 14:26:03 · 2087 阅读 · 1 评论 -
python 爬虫 提取文本之BeautifulSoup详细用法
提取 网页内容 四大基本方法之2.beautifulsoup的使用 bs4模块准备代码信息,用来练习获取内容:from bs4 import BeautifulSoup#准备代码信息,用来练习获取内容html ='''<html><head><title>The Dormouse's story</title&原创 2018-09-23 20:24:20 · 33334 阅读 · 2 评论 -
python爬虫 selector xpath提取网页内容
提取 网页内容 四大基本方法之3.xpath提取网页内容 selector模块XML 节点选择表达式描述nodename选取此节点的所有子节点。/从根节点选取。//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。.选取当前节点。..选取当前节点的父节点。@选取属性。bookstore选取 bookstore 元...原创 2018-09-24 09:05:46 · 18072 阅读 · 0 评论 -
python 爬虫 css提取网页内容
四大提取网页内容的基本方法之4.css提取网页内容 语法简单一览CSS选择器用于选择你想要的元素的样式的模式。"CSS"列表示在CSS版本的属性定义(CSS1,CSS2,或对CSS3)。在使用css之前需要把文本转换成一个对象如:from scrapy.selector import Selectorselector = Selector(text=html) #转换成一个对象...原创 2018-09-24 10:18:55 · 6136 阅读 · 1 评论 -
python 爬虫 txt文档的读取和写入
python爬虫的各种存储方式之txt简单下载一个图片:from urllib import requesturl="http://pic.netbian.com/uploads/allimg/180912/221007-15367614072cc2.jpg"request.urlretrieve(url,"冰岛瀑布.jpg") #下载和存放存入txt判断目录,有则打开,没有新建i...原创 2018-09-24 13:04:02 · 3848 阅读 · 2 评论 -
python 爬虫 csv文档的存储和读取
python爬虫的各种存储方式之csv2.csv的存储和读取判断目录,有则打开,没有新建import csvimport os#判断目录,有则打开,没有新建if os.path.exists('D:\Python\代码\数据爬取'): os.chdir('D:\Python\代码\数据爬取')else: os.mkdir('D:\Python\代码\数据爬取') ...原创 2018-09-24 13:22:25 · 1478 阅读 · 1 评论 -
python 爬虫 excel的各种存储和读取方法
python爬虫的各种存储方式之3.Excel文档的存储和读取判断目录,有则打开,没有新建import osif os.path.exists('D:\Python\代码\数据爬取'): os.chdir('D:\Python\代码\数据爬取')else: os.mkdir('D:\Python\代码\数据爬取') os.chdir('D:\Python\代码\数...原创 2018-09-24 23:38:44 · 2718 阅读 · 1 评论 -
爬虫 scrapy 翻页和递归之豆瓣top250案例
用scrapy的翻页和递归 获取豆瓣top250,任务:获取排名,电影名称,评分,导演,评价人数,上映时间,简评以及剧情简介等字段,获取每个电影的图片,名字以电影名和排名来命名,保存到新文件夹里这里只介绍爬虫文件和管道文件,访问豆瓣一般要加浏览器头部的scrapy各个模块的作用请查看:https://blog.youkuaiyun.com/IT_arookie/article/details/828...原创 2018-10-10 23:57:53 · 1885 阅读 · 3 评论