
Python爬虫
文章平均质量分 63
面向监狱编程
mapyking
多面体
展开
-
字体反爬破解
通过观察可以得出:网页显示后四位与xml中的code值后四位一样,对应的name值看起来也是unicode编码,也是拿后四位去验证。xml中的name值:uni5DE5 uni7A0B uni5E08。一般常见的为:ttf、eot、otf、woff、svg,可以使用。xml中的code值:0xed53 0xea63 0xe4e5。这里判断正确无误,底层通过css转换就是这个文件的文字。关闭对应的css样式可以看到,确实是做了字体反爬。例如 这里python工程师。网页显示: 。原创 2023-07-18 00:23:09 · 1767 阅读 · 0 评论 -
requests 模块详解
由于HTTP是一个无状态的协议,这个无状态就会导致浏览器第二次请求服务的时候,服务器不清楚它第一次请求时的身份,为了能让服务器区分发起请求的是谁,在第一次请求成功后,服务器会给浏览器生成一个值(存储在用户的本地计算机上),这个值就叫cookie,浏览器每一次请求,都会在请求头中携带这个值让服务器判断,有 则为“老用户”,没有 则为“新用户”当用户第一次访问应用程序时,服务器会为该用户创建一个唯一的会话标识符,并将该标识符存储在 Cookie 中,然后将其发送回客户端。使用cookie进行提交。原创 2023-07-10 18:46:43 · 243 阅读 · 0 评论 -
tesserocr安装
tesserocr是Python的一个OCR识别库,核心为tesseract安装tesseract,他为tesserocr提供支持安装exe https://digi.bib.uni-mannheim.de/tesseract/加入环境变量:D:\tesseract识别图片:安装pillow 和 tesserocrhttps://github.com/simonfluec...原创 2020-03-29 14:41:08 · 389 阅读 · 0 评论 -
python模拟登陆——去哪儿网
1. 无痕模式下打开 https://user.qunar.com/passport/login.jsp发现需要QN1 QN25等最基本的cookie2. 查看错误登陆抓包查看登陆接口,发现并没有js加密,使用明文,并且某些参数一看就是固定值这里大概就能可以尝试:(1)首先访问网页拿到QN1 QN25,再加上面参数等固定值(2)其次拿到验证码 (服务器需要验证用户,服务器存储该图片...原创 2019-03-02 20:20:38 · 1658 阅读 · 1 评论 -
解析库-xpath
官方文档:https://www.w3.org/TR/xpath/all/通过lxml库利用XPath进行HTML的解析pip install lxml规则表达式描述*所有节点/从当前节点选取直接子节点//从当前节点选择子孙节点.选取当前节点. .选取当前节点的父节点@选取属性范例:<html><bo...原创 2019-10-28 22:17:38 · 156 阅读 · 0 评论 -
解析库-pyquery
首先安装好pyquery库pip install pyquery创建对象方法:result = PyQuery(‘text’)result = PyQuery(url=‘URL’)result = PyQuery(filename=‘file’)范例:<html><body><div id="container"><ul clas...原创 2019-10-31 21:04:57 · 126 阅读 · 0 评论 -
Scrapy入门
安装Scrapy(Windows)pip install scrapy下载缺少依赖包 www.lfd.uci.edupip install "依赖包"创建项目scrapy startproject projectName其中项目名为 projectName创建SpiderSpider用来从网页抓取内容并解析抓取结果,继承Scrapy提供的Spider类scrapy.S...原创 2020-01-07 20:44:47 · 134 阅读 · 0 评论 -
Scrapy入门-爬取books.toscrape.com
创建项目与爬虫查看网页源码并分析分析须爬取内容内容位于网页中的位置封装Item根据分析需要爬取内容建立Item对象查看内容位于网页中的位置,并用scrapy shell测试是否能正常获取所需要的值获取成功 LinkExtractor方法可以成功获取链接以此方法建立解析函数 prase根据第二、第三点步骤分析得出单一书本页面需爬取内容与页面位置如:书名...原创 2020-03-27 23:20:59 · 2321 阅读 · 0 评论 -
Scrapy入门-下载文件
目标:爬取并下载https://matplotlib.org/examples/index.html上所有的python文件下载文件需启动FilesPipelineITEM_PIPELINES = {'scrapy.pipelines.files.FilesPipeline': 1,}定义下载位置FILES_STORE = './DownLoadPY'LinkExtract...原创 2020-03-28 17:49:08 · 187 阅读 · 0 评论 -
使用Scrapy爬取360图片
创建项目请求网址加载观察发现每一页步数为30,sn=30包含1-30张图片,sn=60则是31-60张图片,以此类推由此构造请求测试,前提在settings.py中关闭机器人协议,并设置爬取最大页数为10,最大爬取量为300张图片ROBOTSTXT_OBEY = FalseMAX_PAGE = 10测试结果:status=200(硬核修改url,成功)提取图片id值、头名...原创 2020-03-12 23:21:11 · 374 阅读 · 0 评论 -
爬取微博
Ajax(Asynchronous JavaScript and XML)Request Headers里面x-requested-with: XMLHttpRequest标记此请求为Ajax请求分析:浏览器关闭JavaScriptRequest Headers里面x-requested-with: XMLHttpRequest标记此请求为Ajax请求筛选出XHR并观察响应内容,内容为...原创 2019-11-07 20:17:15 · 518 阅读 · 0 评论