
爬虫
xiaozhanger
这个作者很懒,什么都没留下…
展开
-
静态网页抓取,动态网页抓取,模拟登陆的注意事项和心得
最近更新:2013-07-03背景之前,对于折腾,静态或动态的网页抓取,模拟登陆,也算有些时日了。在此期间,遇到很多问题,也都基本上靠自己慢慢的解决了。此处,把其中相对常见和通用的问题或者是注意事项,再加上一些心得,在此整理出来,供参考:网页抓取和模拟登陆的注意事项和心得如果不加User-Agent,则有些网址的访问,会被禁止的此点,之前别的很多人已总结过了。此转载 2017-09-14 15:47:23 · 1048 阅读 · 0 评论 -
python 用已登录的cookie发送请求
如题,比如现在已经手动用ie登录了csdn,然后可以在ie的缓存里面找到对应的cookie,能否用这个cookie请求我的博客等需要登录的页面呢?网络上找了很多中方法,但是没有一种尝试成功的。Python code?1234567891011121314#coding=utf-8impo转载 2017-09-14 15:48:27 · 1149 阅读 · 0 评论 -
python利用cookie登录网站进行访问
在写爬虫的时候遇到需要登录才能访问的网站往往很令人头疼,伪装成浏览器访问神马的也许又会遇到网站采取的加密措施,不胜麻烦!然而,如果换一种思路,先用浏览器登录你想访问的网站,再在浏览器的控制台里找到该网站的cookie,然后利用这个cookie进行带cookie的访问,无疑是短时间内解决此问题的好办法。但是我们都知道cookie的有效期并不长,所以可能第二天你就必须重新查看新的cookie。下面转载 2017-09-14 15:49:42 · 4550 阅读 · 0 评论 -
http调用打码兔 的文档
http://wiki.dama2.com/index.php?n=ApiDoc.Http转载 2017-09-14 15:51:59 · 677 阅读 · 0 评论 -
Python模拟登录(一) requests.Session应用
最近由于某些原因,需要用到Python模拟登录网站,但是以前对这块并不了解,而且目标网站的登录方法较为复杂, 所以一下卡在这里了,于是我决定从简单的模拟开始,逐渐深入地研究下这块。注:本文仅为交流学习所用。登录特点:明文传输,有特殊标志数据 会话对象requests.Session能够跨请求地保持某些参数,比如cookies,即在同一个Session实例发出的所有请求转载 2017-09-19 20:08:19 · 35863 阅读 · 1 评论 -
python爬虫解决验证码的思路
如果直接从生成验证码的页面把验证码下载到本地后识别,再构造表单数据发送的话,会有一个验证码同步的问题,即请求了两次验证码,而识别出来的验证码并不是实际需要发送的验证码。有如下几种方法解决。法1:用session:mysession = requests.Session()login_url = 'http://xxx.com'checkcode_url='http://yy转载 2017-09-19 20:21:38 · 1082 阅读 · 0 评论