爬虫闯关 - 第二关

阳光洒落你窗前

于 2016-06-03 16:27:02 发布

阅读量851

点赞数

分类专栏： python 文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/zrc199021/article/details/51579435

版权

python 专栏收录该内容

6 篇文章

订阅专栏

这是第二关的实现.

题目描述:

如图,要求就是找出对应的密码

分析:

随便输入,然后用开发者工具查看,有一条post的请求:

点进去:

可以看到表单数据(Form Data)包含了cookie和用户名,密码,点击 view source,得到编码的字符串(虽然此post请求包含cookies，但服务器实际上用不着，只是cookies机制的问题)

csrfmiddlewaretoken=QkxgqDeP31SuohDsx63vU0zZP7fIIcCv&username=1&password=1

知道了原理,就明白,我们要用urllib模块,在urlopen里添加data参数,这样就会以post方法请求url.接着用这则抓取返回的html中密码错误 字样,如果抓取失败,那说明当前页面就是验证成功的页面.

实现:

import urllib.parse
import urllib.request
import re

data={'username':'hailong'}
url='http://www.heibanke.com/lesson/crawler_ex01/'
for num in range(1,31):
        data['password']=num
        post_data=urllib.parse.urlencode(data).encode('utf-8')
        print(post_data)
        response=urllib.request.urlopen(url,post_data)
        html=response.read().decode('utf-8')
        result=re.findall('密码错误',html)
        if not result:
                print(html)
                break

阳光洒落你窗前

博客等级

码龄17年

45
原创

150
点赞

464
收藏

48
粉丝

关注

私信

热门文章

分类专栏

数据库 1篇
打鸡血 4篇
参与的题目 2篇
扩展 3篇
书目 1篇
scala 16篇
算法 1篇
python 6篇
统计 2篇
数据挖掘 4篇
机器学习 5篇
Linux 4篇
前端 5篇
设计模式 1篇
sbt 2篇
spark 10篇
java 2篇
IDE 2篇
数据分析 2篇
git 1篇
效率 3篇

最新评论

数据挖掘竞赛题目 -- 电影推荐
m0_75052371: 你好，这个电影推荐的项目有具体流程，代码之类的么
数据挖掘竞赛题目 -- 文本分类
阿白_大攀: 你好该数据集测试集没有标签，能不能找到完整数据集
Markdown中公式的写法(Latex)
mileszhaof: 正态分布好像缺个负号
TF-IDF原理及使用
黑眼圈@~@: 我的数据计算出来TF-IDF的数值都是大于1的。用模拟数据大部分都是0<X<1之间的。好烦。实在不明白什么原因。
Spark集群中使用spark-submit提交jar任务包实战经验
lmw0320: 请教下，如果我是用pyspark交互环境下进入yarn模式，可以正常连接hbase获取数据。而如果用spark-submit提交完整的py代码，则会报这个资源不足的提示：WARN scheduler.TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources 进入pyspark的时候命令是pyspark --master yarn，我并没有指定相应的worker内存。。同样的，我用spark-submit提交的时候，也是没有指定： spark-submit --master yarn test.py 结果却一直无法获取到数据。RM的UI页面上，我也没有看到相应的任务在执行。。而我强制结束该spark-submit任务时，在Spark的 History Server的提交记录中却看到了该任务。。求指点下，如何解决。。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。