
python
Rambo.Fan
眼中有阳光,风雨不阻行
展开
-
Tushare接口获取shibor利率
Shibor利率数据接口:shibor描述:shibor利率限量:单次最大2000,总量不限制,可通过设置开始和结束日期分段获取积分:用户积累120积分可以调取,具体请参阅积分获取办法Shibor利率介绍上海银行间同业拆放利率(Shanghai Interbank Offered Rate,简称Shibor),以位于上海的全国银行间同业拆借中心为技术平台计算、发布并命名,...原创 2019-07-30 23:31:53 · 1970 阅读 · 0 评论 -
GlidedSKY-之六:CSS
挑战网址:http://glidedsky.com/level/crawler-css-puzzle-1题目介绍CSS可以排版出精美的页面;CSS也可以通过各种操作,使得用户最终看到的内容和HTML源码的内容千差万别。正所谓每天一道反爬题,轻轻松松学前端。让我们通过一些基本的CSS防爬手段,来巩固下大家的前端基础知识。这里有一个网站,分了1000页,求所有数字的和。注意,是人看到的数字哦~...原创 2019-06-21 12:00:18 · 524 阅读 · 0 评论 -
python中英文输出对齐
Q: 在python中经常会使用到打印,但是在打印表格时经常遇到中英文对齐问题,怎么解决呢?A: 其实这不仅仅是在python中,在Mysql,dos等其他语言中也经常碰到这种问题,打印出来层次不齐。出现这种问题的原因是不同的字符集可能所占的字节长度是不同的,在屏幕上显示是所占的空间也不一样。一个ASCII码所占的字节是1个字节,一个中文所占的字节数是2个字节,相当于两个英文字符。那么只要让字符...原创 2019-06-19 22:08:15 · 8219 阅读 · 1 评论 -
GlidedSKY-之三:IP屏蔽1
挑战网址:http://glidedsky.com/level/crawler-ip-block-1题目介绍大家说,页面做分页是因为单页内容太多。但分页还有一个不为人知的好处——用来反爬。当一个爬虫尝试不断翻页爬取所有内容的时候,行为特征会非常容易识别。比如说,对高频率访问的IP进行封禁。因为这是一个硬核的爬取攻防练习,常规高频封禁太弱了,所以这里的策略是:你的每个IP,只能访问一次,之后...原创 2019-06-21 12:00:45 · 532 阅读 · 0 评论 -
GlidedSKY-之五:字体1
挑战网址:http://glidedsky.com/level/web/crawler-font-puzzle-1题目介绍字体文件本质上是从字符到图像的一个映射。比如字符0,浏览器会从字体文件当中找到0这个字符对应的图像,然后展示出来。如果字符0展示并不是0的图像是1的图像呢?这也就意味着爬虫拿到的是字符0,但是人看到的却是图像1。而我们知道,一切从字符到图像的映射,都可以用来反爬。这里...原创 2019-06-21 12:01:22 · 766 阅读 · 1 评论 -
GlidedSKY-之四:IP屏蔽2
挑战网址:http://glidedsky.com/level/crawler-ip-block-1题目介绍大家说,页面做分页是因为单页内容太多。但分页还有一个不为人知的好处——用来反爬。当一个爬虫尝试不断翻页爬取所有内容的时候,行为特征会非常容易识别。比如说,对高频率访问的IP进行封禁。因为这是一个硬核的爬取攻防练习,常规高频封禁太弱了,所以这里的策略是:你的每个IP,只能访问一次,之后...原创 2019-06-21 12:01:58 · 436 阅读 · 0 评论 -
GlidedSKY-之二:基础2
挑战网址:http://glidedsky.com/level/crawler-basic-2题目介绍挑战难度:★★★☆☆☆☆☆☆☆爬取的网页变成里1000页:http://glidedsky.com/level/web/crawler-basic-2?page=1需要注意点:本题没有什么难点,只需要注意需要登陆使用cookie以及网址变换规律,跟第一关比只是多了一个循环。思路:先对...原创 2019-06-21 12:02:35 · 404 阅读 · 0 评论 -
Django框架基础之一
Django系统环境python3.6django1.8+参考资料django中文教程django架站的16堂课环境搭建anaconda+pycharmconda list:显示当前环境安装的包conda env list:显示当前安装的虚拟环境列表conda create -n env_name python=3.6激活conda虚拟环境(Linu...原创 2019-05-27 23:49:30 · 169 阅读 · 0 评论 -
python3算法合集
1.排序时间空间复杂度kind speed worst case work space stable 快速排序 1 O(n^2) 0 no 堆排序 3 O(n*log(n)) 0 no 合并排序 2 O(n*log(n)) ~n/2 yes ‘timsort’ 2 O(n...原创 2019-04-17 23:35:00 · 914 阅读 · 0 评论 -
python3怎么将函数的用法通过help导出到文件
在编程中经常要用到某个函数,需要知道他的用法,经常用help去查看又不太方便,我们可以将该函数的用法保存到文件中。我们知道sys.stdout指向控制台,如果我们将sys.stdout重定向一个文件流,那么我们就可以实现控制台输入的文件写到文件中,这有点类似dos中 echo content>file.txt实现代码:import sysimport osimport p...原创 2019-04-26 00:06:48 · 849 阅读 · 0 评论 -
python3爬外汇交易中心数据存入数据库
外汇交易中心代码:#coding:utf-8import requestsimport jsonimport pymysqlimport timedef dataDeal(content): # 打开数据库连接 db = pymysql.connect(host = 'localhost',user = 'root',passwd ='123456',d...原创 2018-11-15 23:55:36 · 2962 阅读 · 0 评论 -
fiddler4结合python3抓包
(记一次花费三天时间解决的问题)有许多网站是有反爬虫机制的,这个时候就需要模拟浏览器发送请求,一般发送请求的时候有许多步骤。用fiddler4可以分析请求过程,通过重发成功可以知道需要的参数(请求头和cookies)结合代码...原创 2018-11-12 00:41:08 · 781 阅读 · 0 评论 -
GlidedSKY-之七:验证码
博主还在研究,等做出来再来分析喜欢折腾代码的加群(群号:822286811)一起交流学习【python、VBA、Shell、Linux、dos、爬虫、拆机、装系统技术交流群】,点击链接加入群聊【计算机技术交流】:https://jq.qq.com/?_wv=1027&k=5V7RB2c...原创 2019-07-20 13:20:03 · 703 阅读 · 0 评论 -
GlidedSKY-之八:JS1
挑战网址:http://glidedsky.com/level/crawler-javascript-obfuscation-1哦,之前是网站JS加密源数据中数据是乱的,现在正常了,这教程没法写了啊挑战难度:★★★★★★★☆☆☆喜欢折腾代码的加群(群号:822286811)一起交流学习【python、VBA、Shell、Linux、dos、爬虫、拆机、装系统技术交流群】,点击链接加入群聊...原创 2019-07-20 13:20:27 · 491 阅读 · 2 评论 -
python数据结构与算法之冒泡排序
冒泡算法是一种非常常见的算法#coding:utf-8import timedef bobbleSort(L,count=10000): if type(L) == list: length = len(L) start = time.time() while count: count-=1 ...原创 2019-06-27 12:50:22 · 310 阅读 · 0 评论 -
python解析ini文件
新建一个config.ini文件[LocalDB]ip=127.0.0.1prot=3306user=rootpasswd=123456db=proxypython中解析ini文件的库为 `configparser`解析该ini文件#coding=utf-8import configparserif __name__ == '__main__': co...原创 2019-06-24 00:04:39 · 3435 阅读 · 0 评论 -
python爬虫设置代理
在反爬虫策略中经常用到代理proxy = { 'http': 'http://' + ip, 'https': 'https://' + ip}print(proxy)p = requests.get('http://myip.ipip.net/', headers=head, proxies=proxy,timeout = 3)ip为ip+端口,类似于:127.0.0...原创 2019-06-19 12:38:29 · 6607 阅读 · 0 评论 -
你真的了解print函数吗
最近看闲来无事看看函数的定义,突然重新认识到print函数这里的value,…是指可以有多个参数,sep是参数之间的分割符,end是结束的字符,flile是一个文件类对象或流(默认是标准输出,也就是屏幕设备),flush参数是个布尔值(是否刷新缓存)这里着重要讲的是file参数。如果我们将file参数给一个文件对象就可以输出到文件中,而不是输出到屏幕print('你好,世界',file=o...原创 2019-07-20 13:24:46 · 470 阅读 · 0 评论 -
黑板客闯关的第四关
挑战地址:http://www.heibanke.com/lesson/crawler_ex03/挑战难度:★★★★☆☆☆☆☆☆题目介绍:密码在http://www.heibanke.com/lesson/crawler_ex03/pw_list/?page=1中,一页页进行爬取,可能一次爬完没有100个,多爬几次就好了代码:#coding:utf-8import requestsf...原创 2019-07-20 13:24:10 · 312 阅读 · 0 评论 -
黑板课闯关的第二关
挑战地址:http://www.heibanke.com/lesson/crawler_ex01/这一关是猜密码挑战难度:★★☆☆☆☆☆☆☆☆难度不大,穷举:上代码:#coding:utf-8import requestsfrom bs4 import BeautifulSoup as bfimport reimport timeheader = {'Host':...原创 2019-07-20 13:21:24 · 357 阅读 · 0 评论 -
黑板客闯关的第一关
挑战地址:http://www.heibanke.com/lesson/crawler_ex00/挑战难度:★☆☆☆☆☆☆☆☆☆截图:这个难度不大:问题分析:先拿到页面的数字,可以通过正则表达式匹配,然后重新组织url。直接上代码:#coding:utf-8import requestsfrom bs4 import BeautifulSoup as bf...原创 2019-07-20 13:21:00 · 455 阅读 · 0 评论 -
GlidedSKY挑战之十一:微信公众号
这是一道送分题。http://glidedsky.com/level/wechat-subscription-accountGlidedSky是一个以题会友的社区。但用户做题和题目的更新,是一个低频的行为,而低频的应用,会被用户慢慢遗忘。所以我们需要一个高频应用作为入口,可以持续引导用户来到这个低频应用。在中国,最高频的应用是微信,所以我们使用微信公众号来作为入口。关注微信公众号镀金的天空,...原创 2019-07-20 13:23:36 · 605 阅读 · 8 评论 -
GlidedSKY-之九:字体2
挑战网址:http://glidedsky.com/level/web/crawler-font-puzzle-2题目介绍字体文件的本质是,给定字符、字号等参数,输出一组像素点信息,用于在设备上展示。常见的解决方案是,对于每个字符,储存一组曲线或者程序,把字号等参数代入进去,得到曲线或者程序到像素点的映射。当用来反爬的字体变得更加复杂的时候,就需要你具备阅读字体文件底层描述规则的能力了。这里有...原创 2019-07-20 13:23:07 · 768 阅读 · 0 评论 -
第三方库pymysql
python在操作mysql数据库最常用的第三方库是pymysql,使用该模块需要使用pip工具进行安装。pip install PyMySQL 如果已经安装就会显示已经安装,也可以通过pip list命令来是否安装安装以后,安装mysql数据库服务器,可在该页面根据相应的操作系统https://dev.mysql.com/downloads/下载安装包进行安装,安装过程请自...原创 2018-09-19 00:13:18 · 3401 阅读 · 0 评论 -
Django-部署一个简单的博客网站
1、安装Django库pip list原创 2018-07-22 23:56:19 · 394 阅读 · 0 评论 -
python3对接mysql数据库
Python3 MySQL数据库连接,假设MySQL数据库已经安装好了,并创建好了数据库(后面抽点时间将数据库的安装总结下)。 PyMySQL是Python3中用于连接MySQL服务器的一个库,Python2中则使用mysqldb。因此你在编码之前一定要看清楚自己使用的是哪个版本,博主刚开始没有意识到这个导致后面运行时报错,花了好久才定位出原因,大家在用的时候一定要引以为戒。 这里再回顾下查看...原创 2018-06-12 04:12:36 · 19808 阅读 · 0 评论 -
python3爬虫之二:爬取网页图片
本节主要内容是怎么通过python获取网页上的图片,预计完成时间5.3-5.5原创 2018-05-03 12:50:48 · 23924 阅读 · 0 评论 -
Python3爬取豆瓣网站奇幻小说信息
目的:爬取豆瓣网站的奇幻小说信息 **分析:**URL=https://book.douban.com/tag/%E5%A5%87%E5%B9%BB?start=0&type=T,通过手动翻页知道,这个信息是每20本小说为一页,这里的迭代变量是start变量,第一页是start=0,第二页是start=20,其他以此类推。 这里可看到小说名,作家,出版社,出版年,价格,豆瓣评分等以...原创 2018-05-14 01:27:44 · 24788 阅读 · 0 评论 -
Python3数据挖掘之五:获取网站数据并写入excel
本文主要讲解如何将网页上的数据写入到excel表中,因为我比较喜欢看小说,我们就以笔趣阁的小说数据为例,来说明怎么把笔趣阁的小说关键信息统计出来,比如:小说名、字数、作者、网址等。 根据之前的几次爬虫实例分析笔趣网源代码知道,小说名在唯一的标签h1中,因此可以通过h1.get_txt()得到小说名,作者在meta标签,property=”og:novel:author”中,可以通过html.fi...原创 2019-06-21 12:03:45 · 50324 阅读 · 19 评论 -
python3.6.5爬虫之四:多线程同时爬取笔趣阁小说
之前爬取笔趣阁小说都是单一的一本小说,爬取多本一般也是一本爬取爬取完成再爬取下一本,本节主要是消除这个弊端,利用多线程同时爬取多本小说,这种方式比较适合,用高性能服务器来爬取数据,这个主要技巧是在之前的爬取单本小说的基础上加上多线程技术,废话不多说,来点干货。 第一步:下载单本小说这部分就不详细讲解了,具体查看我之前写的博客python3.6.5爬虫之一:笔趣阁小说爬取(首页爬取法)第二...原创 2018-05-06 19:52:25 · 30804 阅读 · 5 评论 -
python3.6.5爬虫之一:笔趣阁小说爬取(首页爬取法)
前面几次笔趣阁小说爬取法是根据每一章的地址找到下一章的地址,这种方法有个缺点,如果中间断了话,或者找不到下一章网址就会报错,这种类似串联的方法效率太低,通过研究笔趣阁每篇小说的设计架构让我找到其中的特点,这让我找到更加高效的爬取小说的方法。列表下载法第一步:分析小说设计的结构 打开笔趣阁小说的目录界面,例如:龙符,可以看到,所有章节都有链接,我们可以将这些链接爬取下来,放到列表中,然后逐一...原创 2018-05-06 19:09:56 · 31612 阅读 · 2 评论 -
python爬虫之一:爬取网页小说(魂破九天)
近期做一个项目需要用到python,只懂皮毛的我花了三天时间将python重新拾起啃一啃,总算对python有了一定的认识。 然后有根据爬虫基本原理爬取了一本小说,其他爬取小说的方法类似,结果见个人资源下载(本想下载分设置为0,结果优快云设置最低为2分,没有积分的可以加我qq要该小说)。 **爬虫原理:1、模拟人打开一页小说网页 2、将网页保存下来 ...原创 2018-04-28 02:52:27 · 30629 阅读 · 3 评论 -
WIN 7 python 3.6.5 安装pip
Windows 7 下Python 3.6.5 安装pip第一步:下载并安装安装Python3.6.5第二步:将Python安装后运行的.exe的路径加入到Windows的环境变量中,安装成功标准,在命令行直接敲python不报错第三步:python运行get-pip.py点击获取pip,文件执行成功:Successfully installed pip-10.0.1 安装成...原创 2018-05-05 02:18:40 · 25191 阅读 · 0 评论 -
Python通过发邮件通知自己电脑被入侵
我对IT技术有着狂热的追求,虽然现在很渣,但是我有颗钻研的心,例外我还比较喜欢看小说,相信看过http://www.biquge.info/11_11851/‘>最强黑客的人对里面的黑客的技术佩服得无以复加,黑客一般对自己的电脑数据都比较在意,一般都会设置些密码等并在被破解密码后做相应的补救措施,那么我们如何知道自己的电脑被人动过或者被盗呢(假设电脑开始是关机了的),根据我最近的学习找到了实...原创 2018-05-11 02:45:19 · 26224 阅读 · 5 评论 -
python爬虫之一(2):爬取网页小说(圣墟)
强化: 爬取最新的小说圣墟 代码:#coding=utf-8import osimport sysreload(sys)sys.setdefaultencoding('utf8')from Spider import getHtmlCode from bs4 import BeautifulSoupimport re#第一章的地址url = 'https://w...原创 2018-05-04 02:09:15 · 24403 阅读 · 0 评论 -
Python3-list(列表)去重和排序
python中对list去重操作list(set(list)) --先将列表转化为set,再转化为list就可以实现去重操作排序函数list.sort() --用sort即可实现排序原创 2018-06-25 00:27:00 · 43169 阅读 · 2 评论 -
python包管理工具pip的常见用法
python之所以简单好用,得益于的插件包,需要用到就是包管理工具pip 一般安装了python后会自带安装pip工具 是否安装可以通过命令行输入pip 如果没有报错,说明已经安装了pip工具,如下图: 否则就需要自己安装pip工具了(自行百度) 下面讲讲pip常见的用法pip install beautifulsoup(包名)安装第三方包pip list查看...原创 2018-06-10 01:47:29 · 24095 阅读 · 0 评论 -
【Language】解释性语言和编译型语言的区别和不同
解释性语言和编译型语言的区别和不同解释性语言编译型语言概念计算机不能直接的理解高级语言,只能直接理解机器语言,所以必须要把高级语言翻译成机器语言,计算机才能执行高级语言的编写的程序。翻译的方式有两种,一个是编译,一个是解释。两种方式只是翻译的时间不同。特征解释性语言的程序不要编译,省了道工序,解释性语言在运行程序的时候才翻译,比如解释性Java语言,专门有一个解释器可以直接执行Java程序,每一个...转载 2018-07-14 11:48:21 · 1039 阅读 · 0 评论 -
Django框架全面讲解 -- Django流程介绍
Python的WEB框架有Django、Tornado、Flask 、Zope TurboGears、Web2py(Webpy)、Pylons等多种,Django相较与其他WEB框架其优势为:大而全,框架本身集成了ORM、模型绑定、模板引擎、缓存、Session等诸多功能。流程基本配置路由系统视图view模板Model中间件Form认证系统CSRF分页CookieSeesi...转载 2018-07-13 10:34:23 · 3197 阅读 · 0 评论 -
浅析Beautiful Soup库和Lxml库
众所周知,Beautiful Sou和Lxml是两个非常流行的python模块,他们常被用来对抓取到的网页进行解析,以便进一步抓取的进行。作为一个爬虫爱好者,今天我来简单讲讲这两个库各自的优点和不足,不对的地方还请各位大神斧正。 Beautiful Soup模块可以用来解析网页,并提供定位内容的便捷接口,可以用下面的命令安装其最新版本。>>>pip install ...转载 2018-07-12 17:47:18 · 821 阅读 · 0 评论