
爬虫-从入坑到脱坑
记录所学的爬虫以及一些有意思的东西
小僵尸打字员
以解决问题为驱动力
展开
-
ADSL拨号代理的搭建
前言动态拨号vps获取代理, 这里主要是把代理服务器搭建那一步写成shell脚本封边后面搭建, 参考了崔庆才老师的文章, 写的非常详细 https://cloud.tencent.com/developer/article/1151781开始搭建首先是进入vps主机, 用ssh命令进入ssh root@127.0.0.1 -p 22 进入主机后找到拨号初始化的shell脚本, 一般...原创 2019-07-17 15:44:49 · 777 阅读 · 1 评论 -
pyppeteer 抓取网页
前言Pyppeteer 是谷歌chrome官方无头框架puppeteer的python版本, 基于Chrome/Chromium浏览器自动化库,可以用于对渲染网页的抓取, 效果跟selenium+chromedrive一样熟悉的代码环节"""@author xiaofei@email zhengxiaofei@zhuge.com@date 2019-07-03@desc""...原创 2019-07-04 20:11:24 · 3481 阅读 · 0 评论 -
python 随机获取UA(User-Agent)
之前发现了一个特别好用的获取UA的方法, 在这记录下from faker import Factoryf = Factory.create()ua = f.user_agent()这样就可以随机获取ua了, 测试了一下跑1W个重复了1594个, 证明有8400+的ua可以用, 很舒服...原创 2019-05-16 11:00:00 · 4502 阅读 · 2 评论 -
快乐的抓取弹幕
发现了一个特别快乐的包, 据说支持各大直播网站的弹幕抓取(亲测斗鱼有效)"""@author xiaofei@date 2019-05-22@desc 抓取弹幕"""from danmu import DanMuClientdmc = DanMuClient("直播间url")if not dmc.isValid(): print('Url not valid')...原创 2019-05-22 16:04:13 · 603 阅读 · 2 评论 -
windows下curl的下载和使用
下载curl在cmd窗口进行使用https://curl.haxx.se/dlwiz/ 这是curl的下载导航,可以根据他来进行需求的确认然后进行下载 windows下载zip压缩包的,然后进行解压,运行的话有两种方式1 通过exe文件进行使用 下载完进行解压,打开cmd窗口,进入到解压后的src目录,直接curl --help就可以使用了2 全局...原创 2018-03-03 16:54:07 · 9092 阅读 · 0 评论 -
scrapyd的安装和部署
windows下scrapyd的安装和部署1 安装环境要求: python 2.6 以上 Twisted 8.0 以上 scrapy setuptools scrapyd-client 直接 pip install scrapyd 就可以 在cmd输出scrapyd,然后在浏览器端访问 http://localhost:6800/ ...原创 2018-03-03 17:36:29 · 1166 阅读 · 0 评论 -
python 爬虫之字体(@font-face)防爬
python 爬虫 字体(@font-face)防爬字体防爬就是该网站在源码上的字体不是正常字体编码, 可能是自定义的一种字体, 然后通过对应关系在页面上进行展示, 这就是所谓的字体防爬, 但是他们想要在页面上进行展示的话还是需要导入字体包的, 所以咱们只需要把字体包下载下来进行对应关系转换就可以获得正确的内容了一 主要是找到该网站导入的字体包的路径这就是一般网站的字体路径, 后面的那个...原创 2018-11-05 19:33:17 · 4800 阅读 · 0 评论 -
selenium+chromedrive 添加代理
selenium+chromedrive 添加代理, 有一个问题就是说不能在无头模式下使用,也就是说只能在本地使用, 我感觉应该是因为谷歌插件的问题, 在网上也没有找到比较好的方法, 下面是一套可以使用的代码, 其实本来phantomjs对代理的兼容性是最好的, 可惜不更新维护了, 所以只能等谷歌那边插件更新了from selenium import webdriverimport stri...原创 2018-10-20 11:07:04 · 5445 阅读 · 16 评论 -
使用pyocr和tesseract 来解析数字图片
获取图片中的数字因为最近要抓取的网站中有参数是在图片里面, 所以就需要来解析图片来获取参数, 图片清楚的话识别率是100%, 发出来工大家参考一下 前期准备 1 pip install pyocr 2 brew install tesseract 安装参考博客 https://www.jianshu.com/p/719c053f170b ...原创 2018-08-20 19:19:41 · 2236 阅读 · 0 评论 -
Requests 和 Scrapy 添加动态IP代理
requestsimport requests要访问的目标页面targetUrl = “http://test.abuyun.com/proxy.php”targetUrl = “http://proxy.abuyun.com/switch-ip”targetUrl = “http://proxy.abuyun.com/current-ip”代理服务器p...原创 2018-08-09 21:02:43 · 2591 阅读 · 0 评论 -
单字段测试 xpath+jpath+re+requests+phantomjs
xpath+jpath+re单字段测试最近测试发现这三个每次用都要重复写的东西太多了,然后封装了一下,做了一个单字段测试的类和接口,方便以后测试使用,只需要把类和包导入然后就可以直接使用了,简单方便class Spiders(object): def jpath(self, html,regex): body = str(html) # 可能有乱码问题 ...原创 2018-03-28 13:05:59 · 686 阅读 · 1 评论 -
python jpath的使用
jsonpath一种跟xpath语法差不多的,专门用来解析json格式的提取方法from jsonpath_rw import jsonpath, parsehtml = {"rating":{"max":10,"numRaters":79,"average":"9.1","min":0},"subtitle":"","au原创 2018-03-09 18:32:05 · 2508 阅读 · 0 评论 -
关于scrapyd-deploy项目部署时出现environment can only contain strings的解决方法
在进行scrapyd学习的时候,用scrapyd-deploy进行项目部署,出现了一个错误 显示是环境只能包含字符串,然后我就在网上进行搜索,发现好多人都碰到过这个问题,没什么有效答案,然后我就找大神进行一波问题解决 根据错误找原因,在scrapyd源码中有一个utils.py文件,打开这个文件 在126行和130行进行一点改动 将这两个参数改为str类型,问题...原创 2018-03-03 14:57:17 · 2547 阅读 · 4 评论 -
selenium+PhantomJS
selenium+PhantomJS一直没时间写,今天有时间来写一下selenium+phantomjs是一个非常强大的工具,requests,urllib2是模拟请求发送参数获取页面,这个是直接用浏览器获取页面,很硬很强大的,不过他也有一个致命的bug,速度!速度贼慢,所以说他只适合爬取某些特别困难而且数据量不大的网站,然后浏览器我一般都用pahntomjds,毕竟无界面,感觉比谷歌...原创 2018-02-02 12:52:30 · 811 阅读 · 0 评论 -
Scrapy中加入selenium+PhantomJS
人生不如意之事十有八九,最近遇到了一个棘手的网站,防爬贼硬,所以喽,就想到了把phantomjs加入到公司的框架中,然后种子利用框架进行爬取,详情一就用scrapy; 不说废话,直接上代码,不多在中间键中,加入一个phantomjs的类from selenium import webdriverfrom scrapy.http import HtmlResponsec原创 2018-01-26 16:31:30 · 1337 阅读 · 0 评论 -
爬虫笔记
e1.HTTP和HTTPSHTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP下加入SSL层。SSL(Secure Sockets Layer 安全套接层)主要转载 2018-01-12 15:25:49 · 3682 阅读 · 0 评论 -
http协议
http协议http是一个属于应用层面的面向对象的协议,由于其简捷,快速的方式,适用于分布式超媒体信息系统。主要特点:1.支持客户/服务器模式2.简捷快速:客户向服务器请求服务时,只需传送请求方法和路径。请求方法常用的有get,post,head.每种方法规定了客户与服务器联系的类型不同。由于http协议简单,使得http服务器的程序规模小,通信数度快。3.灵活:http允许传输任转载 2018-01-11 11:59:59 · 464 阅读 · 0 评论 -
Scrapy的基础学习
初始安装1 装载虚拟环境 pip virtualenv 可以在任意位置创建虚拟环境 virtualenv 文件夹名2 装载scrapy 进入虚拟环境中, pip install scrapy pip install pypiwin32插件pip install Pillow (图片保存)pip instal原创 2018-01-08 14:19:43 · 1665 阅读 · 0 评论