- 博客(17)
- 资源 (2)
- 收藏
- 关注
原创 scray中设置动态ip
在scray写入一个脚本文件思路:1、建立def crawl_ips():方法获取爬取免费的西刺ip。2、将获取的ip存放在数据库中,对其进行判断分析,剔除无效ip3、在middleware文件进行获取保存好的有效ip爬取ip代理脚本import requestsfrom scrapy.selector import Selectorimport MySQLdbconn...
2018-10-31 16:50:25
529
原创 scrapy框架中在middleware中进行配置user-agent,将user-agent进行随机
在scrapy中进行user-agent配置,将其进行随机更换。下面所写为学习笔记使用scrapy进行爬虫的时候,一些针对爬虫设置了一些反爬措施,最明显的是user-agent。一、在setting文件中ctrl+f找到 DOWNLOADER_MIDDLEWARES,将其注释的部分取消掉,为了激活中间件。这部分在scrapy文档中可以阅读到。二、打开middlewares文...
2018-10-30 09:09:52
612
原创 scrapy shell 调试报错TypeError: module.__init__() takes at most 2 arguments (3 g iven)
1、使用scrapy shell的时候本人之前安装了ipython,使用shell调式格式从>>>变成了【1】这种带有ipython的格式,结果整齐度看起来比较舒服。2、现在创建了crawl spider,同时进入到项目目录,使用scrapy shell xxxxxxxx在cmd或者cmder中进行调式的报错TypeError: module.__init__() takes...
2018-10-25 15:14:34
2265
原创 使用scrapy框架进行抓取伯乐在线所有文章(一)
这是跟着相关视频学习进行的代码,(一)学习思路的代码在整个完整代码中存在一部分,如果看到这些内容或思路有不懂的给我下面博客留言。完整代码github地址:https://github.com/spider-liu/jobbole-,主要是作为学习交流之用。一、scrapy框架简介scrapy框架是爬取网站、抓取网站、提取结构数据框架上图为scrapy的结构图scrapy eng...
2018-10-11 19:44:03
731
原创 python在Windows上使用的库---万能库
https://www.lfd.uci.edu/~gohlke/pythonlibs/这里面包含大部分python在Windows系统使用的库
2018-09-17 14:39:33
1793
原创 踩坑记:xshell连接虚拟机下的centos
没事简单了解一下centos,既然了解了,走到xshell连接虚拟机下的centos陷坑了。不太了解linux陷坑了,就想这么简单的问题解决掉它。查看防火墙,将其开启查看ssh的安装情况,没有将其安装以上都是其它文章可以找到命令的,弄完基本可以连接。...
2018-08-24 10:59:22
288
翻译 黑客攻击概要
一:应用程序黑客攻击技术1、消息钩取使用user32.dll中的setwindowhookexa()方法,例如窃取用户键盘输入的消息2、API钩取利用操作系统提供的调试进程,首先使用调试器,在应用程序特定的命令位置设置断点,注册特定的方法以便执行。应用程序运行过程中,遇到断点就会执行之前执行的注册的方法即回调方法,黑客只要在回调方法中植入黑客攻击代码即可执行响应的动作。3、DL...
2018-08-21 17:41:35
550
原创 虚拟机下ubuntu的vmware tools安装
首先你已经确定自己安装好ubuntu,对于为什么安装vmware tool,它可以将ubuntu适应虚拟机屏幕,同时可以将你真正系统的文件等直接拖进vmware系统中第一:对于开始适应ubuntu的系统的人来说,我建议你可以先设置外观里面的桌面(右击桌面选择更改桌面背景里面一项显示桌面即可),让其显示在左边显示栏中。第二:在虚拟机中ubuntu右击找到安装vmware tools一...
2018-08-15 20:57:11
480
原创 算法图解中的二分查找
对于一种有序的元素列表,很多人的第一反应会是将元素一个一个的进行查找形成简单查找二分查找是针对有序元素列表进行的查找性算法,举例说明,如果1-100数字,二分查找就是对半进行,判断数字在1-50还是51-100,如果在1-50范围内,在1-25和26-50进行查找判断。使用python代码实例def binary_search(list,item): #这是根据索引开始 ...
2018-08-14 18:46:28
266
原创 fiddler与charles抓包工具在进行抓包的出现404或unknown
fiddler与charles抓包工具在进行抓包的出现404或unknown的情况基本是进行https的,ca证书在安装配置的时候出现了问题,这个问题多指向没有将ca证书放置在受信任证书机构中,所以将证书进行重新安装,注意一定要放置爱受信任证书机构中,使用抓包工具的时候才会避免404和unknown的情况。...
2018-08-08 21:02:03
6839
原创 Charles安装与安卓手机同步配置
一:Charles的下载安装(https://www.charlesproxy.com/latest-release/download.do)选择合适pc端的版本,一步步的进行安装即可二:安装完成以后直接在搜索文件点击charles即可,进入软件页面(此软件试用期30天,试用期完后还可以每次使用30分钟。)三:找到help-ssl proxying-install charle...
2018-08-07 11:33:04
21563
4
原创 pyspider基本使用和项目删除
PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。一: 在cmd中使用pysider all启动pyspider及其组 二:输入链接http://localhost:5000,进入pyspide...
2018-08-06 18:39:06
6448
转载 mysql、redis、MongoDB的区别
NoSQL 的全称是 Not Only SQL,也可以理解非关系型的数据库,是一种新型的革命式的数据库设计方式,不过它不是为了取代传统的关系型数据库而被设计的,它们分别代表了不同的数据库设计思路。MongoDB:它是一个内存数据库,数据都是放在内存里面的。对数据的操作大部分...
2018-07-24 09:18:42
263
原创 windows下tesserocr的安装问题
如果使用Windows系统在cmd中进行pip install tesserocr安装或者下载tesserocr.exe(下载特别慢,因为国外网站的问题,加上tesserocr里面内置很多语言识别包例如中文、英文、阿拉伯文等等)验证是否安装成功的时候都会报错。其实感觉蛮让人觉得苦恼的。但是Windows系统在cmd中可以用过whl文件进行安装(话外题:学的不是很多,但是使用过python2.7.5...
2018-07-23 17:34:33
1246
8
原创 wordpress本地速度搭建教程(使用xampp)
本人在看崔庆才的个人博客的时候,在下面评论上面看到别人与他交流的评论,提到了wordpress搭建网站,一开始我也不是很清楚这是什么东东,感觉应该是web加某个后台进行的搭建的网站,仔细了解相关资料并非如此,wordpress可以专注小白20年的节奏。大神可以对此不屑一顾,但是对于自己有自主网站或博客梦的小白来说,这个wordpress很是人性化。说了那么多下面就是开始快速搭建的节奏。前语:本...
2018-07-23 10:47:17
1316
原创 vmware虚拟机下的Windows7
本人暂时不太重装系统,又想学习使用一下liunx系统,所以决定先尝试安装vmware虚拟机加Windows7。一:去vmware官网进行下载,下载的时候可以选择最新版14,或者12,但是14有可能出现开机黑屏的现象,所以12最为稳妥。本想免费使用,尝试找教程破解vmware,但是看看没找到合适的就去找了万能的某宝的激活码,12和14价格不一样,在几块钱的下前提下,12比14便宜1-2。vmwa...
2018-07-23 09:15:08
343
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人