
爬虫
MuNian123
这个作者很懒,什么都没留下…
展开
-
requess模块处理cookie相关的请求
1 使用requests处理cookie相关的请求1.1 回顾cookie和session的区别cookie数据存放在客户的浏览器上,session数据放在服务器上。 cookie不是很安全,别人可以分析存放在本地的cookie并进行cookie欺骗。 session会在一定时间内保存在服务器上。当访问增多,会比较占用你服务器的性能。 单个cookie保存的数据不能超过4K,很多浏览...转载 2019-06-05 13:14:00 · 220 阅读 · 0 评论 -
Scrapy设计思想
分析scrapy爬虫流程(掌握)分析目标:a. 分析各个组件的功能和作用b. 分析各个组件之间的协作关系c. 对组件进行大致的分类(核心和次要)scrapy爬虫流程分析结果(掌握)Scrapy流程分析图 三个内置对象: 请求对象(Request) 响应对象(Response) 数据对象(Item) 五个核心组件: ...原创 2019-06-15 15:10:23 · 333 阅读 · 0 评论 -
xpath
XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。使用chrome插件选择标签时候,选中时,选中的标签会添加属性class="xh-highlight"下面列出了最有用的表达式:表达式 描述 nodename 选中该元素。 / 从根节点选取、或者是元素和元素间的过渡。 // ...原创 2019-06-15 15:13:47 · 320 阅读 · 0 评论 -
通过线程池实现更快的爬虫
1. 线程池使用方法介绍 实例化线程池对象 from multiprocessing.dummy import Pool pool = Pool(process=5) #默认大小是cup的个数 把从发送请求,提取数据,到保存合并成一个函数,交给线程池异步执行 使用方法pool.apply_async(func) def exetute_requests_it...原创 2019-06-15 15:16:26 · 262 阅读 · 0 评论 -
抓取新浪军事新闻热点
from pyquery import PyQuery as pqfrom lxml import etreeimport requestsurl = 'http://mil.news.sina.com.cn/roll/index.d.html?cid=57918'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0...原创 2019-06-10 13:38:46 · 543 阅读 · 1 评论 -
抓取发表情网全网表情包
import requestsfrom lxml import etreecount = 1def The_url(page): global count url = 'https://fabiaoqing.com/bqb/lists/type/liaomei/page/{}.html'.format(page) response = requests.get...原创 2019-06-10 13:41:59 · 3098 阅读 · 0 评论 -
腾讯招聘抓取
import requestsimport timeimport jsonurl = ' https://careers.tencent.com/tencentcareer/api/post/Query?'page = input('输入页码: ')for i in range(1, int(page)+1): params = { 'timestamp'...原创 2019-06-21 13:59:02 · 505 阅读 · 0 评论 -
2019最新去抖音水印python源码
import hashlibimport base64import timeimport requestsimport jsonimport lxml.htmldef base64encode(text: str, reverse_map: bool = False) -> str: if reverse_map is False: return b...原创 2019-06-18 13:41:24 · 3445 阅读 · 2 评论 -
短信验证发送-调用聚合第三方数据平台
import jsonimport requestsfrom urllib import parse# 创建一个接口的函数def sebdsms(appkey, mobile, tpl_id, tpl_value): ''' :param appkey: 申请的短信接口的key值 :param mobile: 接收短信的手机号码 :param tpl_...原创 2019-07-05 21:00:14 · 424 阅读 · 0 评论 -
Python网络爬虫:伪装浏览器
添加超时跳过功能首先, 我简单地将urlop = urllib.request.urlopen(url)改为urlop = urllib.request.urlopen(url, timeout = 2)运行后发现, 当发生超时, 程序因为exception中断. 于是我把这一句也放在try .. except 结构里, 问题解决.支持自动跳转在爬 http:/...原创 2019-09-29 13:43:22 · 1084 阅读 · 0 评论 -
scrapy的入门
1. scrapy项目实现流程 创建一个scrapy项目:scrapy startproject mySpider 生成一个爬虫:scrapy genspider itcast "itcast.cn 提取数据:完善spider,使用xpath等方法 保存数据:pipeline中保存数据 2. 创建scrapy项目下面以抓取传智师资库来学习scrapy的入...原创 2019-06-15 15:05:12 · 135 阅读 · 0 评论 -
scrapy的基础概念和流程
2. 什么是scrapyScrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能够快速的抓取。Scrapy 使用了Twisted['twɪstɪd]异步网络框架,可以加快我们的下载速度。文档地址:http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html3. 异步和非阻塞的区...原创 2019-06-15 14:53:24 · 275 阅读 · 0 评论 -
钓鱼网站-python
import osimport platformclass Chm: def __init__(self, payload, payload2): self.payload = payload self.payload2 = payload2 def remed(self): systems = platform.syst...转载 2019-06-03 16:16:18 · 1779 阅读 · 0 评论 -
数据提取之Xpath
5. xpath中节点选择的工具Chrome插件 XPath Helper 下载地址:https://pan.baidu.com/s/1UM94dcwgus4SgECuoJ-Jcg密码:337b Firefox插件 XPath Checker注意: 这些工具是用来学习xpath语法的,他们都是从elements中匹配数据,elements中的数据和url地址对应的响应不相同,所以在...转载 2019-06-05 13:15:46 · 367 阅读 · 0 评论 -
selenium的使用
1. 什么是seleniumSelenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏2. PhantomJS的介绍PhantomJS 是一个基于Webkit的“无界面”(headless)浏览...转载 2019-06-05 13:18:28 · 176 阅读 · 0 评论 -
下载中间件和模拟登陆
1. scrapy中下载中间件的使用 使用方法: 编写一个Downloader Middlewares和我们编写一个pipeline一样,定义一个类,然后在setting中开启 Downloader Middlewares默认的方法: process_request(self, request, spider): 当每个request通过下载中间件时,该方法被调...转载 2019-06-05 13:42:13 · 188 阅读 · 0 评论 -
python抓取百度妹子图
from pyquery import PyQuery as pqfrom lxml import etree# 请求库import requestscount = 1def Download_image(page): global count # 请求网页的url # https://i.meizitu.net/2019/05/02a02.jpg ...原创 2019-06-05 17:34:42 · 750 阅读 · 0 评论 -
多进程抓取B站小视频
downloads.pyimport timefrom fake_useragent import UserAgentimport requestsua = UserAgent()def downloader(url, path): start = time.time() # 开始时间 size = 0 headers = { 'User-...原创 2019-06-05 17:37:46 · 442 阅读 · 0 评论 -
智联招聘抓取
import requests# 获取到json数据请求的urlurl = 'https://fe-api.zhaopin.com/c/i/sou?pageSize=90&cityId=489&workExperience=-1&education=-1&companyType=-1&employmentType=-1&jobWelfareT...原创 2019-06-05 17:38:44 · 480 阅读 · 0 评论 -
python爬虫-抓取写真网
import requestsfrom lxml import etreefrom pyquery import PyQuery as pqheaders = { 'Referer': 'http://www.xiezhenww.com/', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) ...原创 2019-06-01 16:35:57 · 692 阅读 · 0 评论 -
携带cookie爬虫和使用session类处理cookie
知识点预习cookie的作用:实现状态保持,就是说你登录一次后,下次登录就不需要输入账号密码了,直接登录,这就是cookie的作用cookie的实现过程:第一次登录是需要你输入账号密码的,登陆成功后,服务器根据你的身份信息就会设置生成属于你的cookie,c,服务器生成cookie后返回给浏览器,浏览器会将Cookie保存,下次请求同一网站时浏览器就发送该Cookie给服务器,服务器根据c...原创 2019-06-13 17:23:44 · 569 阅读 · 0 评论 -
王者荣耀全网皮肤小助手 -- 使用Python爬虫采集全网皮肤
import requestsimport lxml.htmlurl = 'https://pvp.qq.com/web201605/herolist.shtml'urls = lxml.html.etree.HTML(requests.get(url).content.decode('gbk')).xpath( "//div[@class='herolist-content'...原创 2019-06-19 15:08:21 · 915 阅读 · 0 评论 -
Python网络爬虫:登录
第一步: 使用 Fiddler 观察浏览器行为在开着 Fiddler 的条件下运行浏览器, 输入知乎网的网址 http://www.zhihu.com 回车后到 Fiddler 中就能看到捕捉到的连接信息. 在左边选中一条 200 连接, 在右边打开 Inspactors 透视图, 上方是该条连接的请求报文信息, 下方是响应报文信息.其中 Raw 标签是显示报文的原文. 下方的响应报文很有...原创 2019-09-29 13:44:26 · 255 阅读 · 0 评论