
python和爬虫
文章平均质量分 51
脱缰的哈士奇
个人博客:http://gohusky.cn
展开
-
关于python readline:
想从text文本中每次读取一行,形成一个列表:list=[]flag=1fp=open('c:/python/proxy.txt', 'r')while flag: new=fp.readline() if new!='': new=new.strip('\n') list.append(new) else: f原创 2018-02-06 23:10:49 · 299 阅读 · 0 评论 -
python模拟登陆川农大教务系统----requests库
人生苦短,我用python,学了段时间爬虫,该应用下了,不如就拿我们学校教务处开刀呗,心疼我教3秒。废话不多说,首先先分析下教务系统登陆机制:先打开谷歌浏览器,登陆川农教务处,按F12,记得把preserve log(保留日志)打上勾,后面分析数据要用到怎么找验证密码的网站呢?提交网站后一般都会重定向(跳转到其他网站),所以找到状态码为302并且请求方式是post的即可接下来我...原创 2018-02-23 15:10:38 · 2594 阅读 · 4 评论 -
爬虫小技巧,不定期更新
1.爬虫进度条写爬虫要是知道当前进度心里就有底了,心动不如行动,let's go:进度条要解决三个问题:1.在固定区域内显示,2.始终在同一行显示(不换行),3.还要随时更新问题1:1.在固定区域内显示, 办法:加\r问题2:始终在同一行显示(不换行) 办法:用sys.stdout解决,因为 sys.stdout不会像print在行末加\n问题3;还要随时更新 办法: sys.st...原创 2018-02-25 14:37:39 · 416 阅读 · 0 评论 -
python登陆川农教务网之代码简化
之前写了篇模拟登陆川农的文章,后来发现代码可以大大减少:先上代码:import requestsimport redef log_scau(id,pwd): #本代码共分为2部分 session=requests.Session() index = session.get('http://jiaowu.sicau.edu.cn/web/web/web/index.asp...原创 2018-02-23 23:53:52 · 1688 阅读 · 0 评论 -
模拟登陆改版后的川农教务网------requests库
今天模拟登陆了下川农教务网,发现改版了,改的更简单了!改版后提交表单时密码不再需要加密,也就是密码直接明文传输,真不知道学校管理员怎么想的!改版后多了个sign选项,是个变化值,在网页中找到其对于的sign的值即可,以下是代码: import requestsimport refrom lxml import etreedef log_scau(id,pwd): #本代码共...原创 2018-09-25 23:25:58 · 1311 阅读 · 1 评论 -
验证码分割-完全分开那种,不解释
def pic_location(start_width,all_width,height,pixel): x0_list=[] y0_list=[] x1_list=[] y1_list=[] for w in range(start_width,all_width): for h in range(height): ...原创 2018-03-31 17:31:53 · 2293 阅读 · 0 评论 -
selenium自动登陆校园网wifi(含验证码处理)
每次登陆川农wifi都要输入密码,账号,验证码。好麻烦有木有,作为一个伪技术工作者,本着装逼的原则,准备自己写个脚本自动登陆wifi,川农校园wifi验证码简单,随便处理下识别率几乎百分百,脚本实用性相当高! 原理:使用自动化测试库selenuim操作谷歌浏览器输入账号,密码,验证码,点击登录。本脚本难点在验证码的识别. 安装和配置selenuim这里有很多坑,这里...原创 2018-04-04 13:03:25 · 2030 阅读 · 0 评论