
网络爬虫笔记
jayvee_
互联网是有记忆的。
展开
-
网络爬虫之寻找登陆的post地址
寻找登陆的post地址在from表单中寻找action对应的url地址– post的数据是input标签中name的值作为键,真正的用户名作为值的字典,post的url地址就是action对应的url地址抓包,寻找登陆的url地址–勾选perserve log按钮,防止页面跳转找不到url–寻找post数据,确定参数参数会变,参数则在当前响应中,通过js生成不会变,直接用,比如密码...翻译 2018-11-27 16:47:53 · 1216 阅读 · 0 评论 -
scrapy基础爬虫笔记
创建项目和爬虫创建项目:scrapy startproject myspider(名称自己定义)创建爬虫:进入到项目myspider所在的路径,在命令行中执行:scrapy genspider [爬虫名字] [爬虫的域名] 如:scrapy genspider baidu baidu.com注意爬虫名字要唯一,不能与项目名及其中的文件名重复项目结构items.py: 用来存放爬...翻译 2019-01-30 16:36:19 · 221 阅读 · 0 评论 -
多线程爬虫(一)
多线程简单介绍多线程是为了同步完成多项任务,通过提高资源使用效率提高系统的效率。线程是在同一时间需要完成多项任务时候实现的。多多线程就像火车的每一节车厢,而进程则是火车。车厢离开火车是无法跑动的,同理火车也可以有多节车厢。threading模块threading模块是支持python实现多线程这样的一个功能模块实例import threadingimport time # 用于更好...翻译 2018-12-15 14:38:11 · 305 阅读 · 0 评论 -
爬虫验证码的识别
验证码的识别tesseract-ocr 也是个比较好的,但我还是选择借用云打码,会方便不少url不变,验证码不变(例如豆瓣登陆)请求验证码的地址,获得响应,识别url不变,验证会变思路:对方服务器返回验证码的时候,会和每个用户的信息和验证码进行一个对应,之后在用户发送post请求的时候, 会对比post请求中发的验证码和当前用户真正存储在服务器端的验证码是否相同– 1. 实...翻译 2018-12-31 20:08:14 · 223 阅读 · 0 评论