
python
xiaozhanger
这个作者很懒,什么都没留下…
展开
-
python安装及下载
python的安装视频 https://python.freelycode.com/train/start0 python的下载 https://python.freelycode.com/fcode/downloadinstall原创 2017-04-28 22:12:45 · 351 阅读 · 0 评论 -
py开发环境
原创 2017-09-07 10:49:18 · 292 阅读 · 0 评论 -
第7章 Scrapy突破反爬虫的限制
第7章 Scrapy突破反爬虫的限制阅读目录7-1 爬虫和反爬的对抗过程以及策略7-2 scrapy架构源码分析7-3 Requests和Response介绍7-4~5 通过downloadmiddleware随机更换user-agent7-6~8 scrapy实现ip代理池7-9 云打码实现验证码识别7-10 cookie禁用、自动限速、自定义转载 2017-09-07 12:48:26 · 1146 阅读 · 0 评论 -
Scrapy爬取美女图片第四集 突破反爬虫(上)
本周又和大家见面了,首先说一下我最近正在做和将要做的一些事情。(我的新书《Python爬虫开发与项目实战》发布了,大家在这里可以看到样章)技术方面的事情:本次端午假期没有休息,正在使用flask开发自己的个人博客框架,之后我的技术教程将会陆续更新flask方面的内容,尽可能的形成一套完整的flask开发教程。之后打算再开通一个微信公众号,自己使用python开发微信公众号后台,给大家提供一些生转载 2017-09-07 12:52:58 · 629 阅读 · 0 评论 -
爬虫的基本框架
最近看过不少讲爬虫的教程[1][2],基本都是一个模式:开始先来拿正则、lxml、jquery/pyquery等等教大家从页面上抠出一个一个的值来然后深入一些在讲讲http 协议,讲讲怎么拿出 cookie 来模拟登录之类的,讲讲基本的反爬虫和反反爬虫的方法最后在上一个 简单地 scrapy 教程,似乎就皆大欢喜了。具体地采集一个一个的数据的确让人产生成就感,然而这些教程却都忽略了转载 2017-09-07 13:43:23 · 700 阅读 · 0 评论 -
scrapy: 使用HTTP代理绕过网站反爬虫机制
下面的链接是我在python3.4 和Scarpy1.2上的实现的代理中间件http://blog.youkuaiyun.com/letunihao/article/details/52350437Table of Contents1. 简介2. 设计3. 实现抓免费代理的脚本HttpProxyMiddleware4. 坑5. 想法1 简介最转载 2017-09-07 15:00:27 · 795 阅读 · 0 评论 -
requests 和 scrapy 在不同的爬虫应用中,各自有什么优势?
equests 是一个http框架,可以用来做爬虫scrapy 是一个专业的爬虫框架我是个python新手,研究怎么爬人家网站,朋友推荐我学requests,果然看了下文档,几分钟就能开始爬了但是我看scrapy 这个爬虫框架,被很多人喜欢,我想这个东西一定有他的独特之处,我目前使用requests爬的时候,先用其他方法得到cookies,然后把cookies共享给转载 2017-09-07 15:05:21 · 8159 阅读 · 1 评论 -
Anti-Anti-Spider 反反爬
https://github.com/luyishisi/Anti-Anti-Spider越来越多的网站具有反爬虫特性,有的用图片隐藏关键数据,有的使用反人类的验证码,建立反反爬虫的代码仓库,通过与不同特性的网站做斗争(无恶意)提高技术。(欢迎提交难以采集的网站)(因工作原因去TX写验证码了,项目暂停)转载 2017-09-07 15:06:28 · 767 阅读 · 0 评论 -
如何应对网站反爬虫策略?如何高效地爬大量数据?
如何应对网站反爬虫策略?如何高效地爬大量数据?像一些大型的网站会有反爬虫策略…比如我之前在爬淘宝评论后很快就会被封,大概是短时间爬太多…有什么好的策略吗?比如代理?不过感觉代理也不能稳定吧…请点击:https://www.zhihu.com/question/28168585转载 2017-09-07 15:11:12 · 1719 阅读 · 0 评论 -
Python模拟登录(一) requests.Session应用
最近由于某些原因,需要用到Python模拟登录网站,但是以前对这块并不了解,而且目标网站的登录方法较为复杂, 所以一下卡在这里了,于是我决定从简单的模拟开始,逐渐深入地研究下这块。注:本文仅为交流学习所用。登录特点:明文传输,有特殊标志数据 会话对象requests.Session能够跨请求地保持某些参数,比如cookies,即在同一个Session实例发出的所有请求转载 2017-09-19 20:08:19 · 35863 阅读 · 1 评论 -
python爬虫解决验证码的思路
如果直接从生成验证码的页面把验证码下载到本地后识别,再构造表单数据发送的话,会有一个验证码同步的问题,即请求了两次验证码,而识别出来的验证码并不是实际需要发送的验证码。有如下几种方法解决。法1:用session:mysession = requests.Session()login_url = 'http://xxx.com'checkcode_url='http://yy转载 2017-09-19 20:21:38 · 1082 阅读 · 0 评论 -
Python打开文件,将list、numpy数组内容写入txt文件中
python保存numpy数据:[python] view plain copynumpy.savetxt("result.txt", numpy_data); 保存list数据:[python] view plain copyfile=open('data.txt','w')转载 2017-09-07 09:34:51 · 9417 阅读 · 0 评论 -
http调用打码兔 的文档
http://wiki.dama2.com/index.php?n=ApiDoc.Http转载 2017-09-14 15:51:59 · 677 阅读 · 0 评论 -
python利用cookie登录网站进行访问
在写爬虫的时候遇到需要登录才能访问的网站往往很令人头疼,伪装成浏览器访问神马的也许又会遇到网站采取的加密措施,不胜麻烦!然而,如果换一种思路,先用浏览器登录你想访问的网站,再在浏览器的控制台里找到该网站的cookie,然后利用这个cookie进行带cookie的访问,无疑是短时间内解决此问题的好办法。但是我们都知道cookie的有效期并不长,所以可能第二天你就必须重新查看新的cookie。下面转载 2017-09-14 15:49:42 · 4550 阅读 · 0 评论 -
同时装了Python3和Python2,怎么用pip?
作者:匿名用户链接:https://www.zhihu.com/question/21653286/answer/95532074来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。转帖-[官解]Windows上Python2和3如何兼容想学习Python3,但是暂时又离不开Python2。在Windows上如何让它们共存呢?目前国内网转载 2017-04-28 22:15:17 · 391 阅读 · 0 评论 -
python如何查看一个软件包的信息,版本,位置,属性等等
拿bs4举例子pythonimport bs4bs4.__file__:查看包的位置(双下划线)bs4.__version__:查看版本信息(双下划线)dir(bs4):查看这个包的属性。原创 2017-05-03 18:01:28 · 4659 阅读 · 3 评论 -
Visual Studio Code debug Python 代码很牛逼。
https://zhuanlan.zhihu.com/p/21615429下载安装,真的很牛逼的原创 2017-05-03 21:31:09 · 1124 阅读 · 0 评论 -
py3 下安装bs4的方法
py3.5下安装bs41:这里要下载BS4.4版本 因为4.4以下的不兼容Python 3.5 Index of /software/BeautifulSoup/bs4/download/42:解压3:cd 到解压的目录,;y -3 setup.py install4:打开py -3 执行 from bs4 import BeautifulSoup测试。原创 2017-04-28 22:50:08 · 1559 阅读 · 0 评论 -
python selenium firefox
1:pip install selenium2:如果想在selenium中使用 firefox(selenium默认就是firefox),对于新版的firefox,需要下载geckodriver,http://download.youkuaiyun.com/detail/ztzy520/9725887,3:如果运行报错,browser = webdriver.Firefox()bro原创 2017-07-21 21:22:56 · 538 阅读 · 0 评论 -
我看Python代码缩进
这两天python-cn邮件列表有一条thread发展的特别长,题目是《python的代码缩进真是坑爹》(地址),楼主在一台电脑上用KOMODO写的代码到另一台电脑上就不能运行了,调试后才发现是代码缩进的问题,为此楼主表示“真是火大”!而之后的回复,可想而知,批判楼主、教育楼主、鄙视楼主等的人绝不是少数(毕竟是python邮件列表,都是python开发者、爱好者嘛)。要求严格的代码缩进是p转载 2017-09-05 17:42:03 · 403 阅读 · 0 评论 -
垂直爬虫
垂直爬虫的代码实现比较简单,主要是两方面:1. 限定url,一般是通过正则匹配2.限定内容,比如列表页面只要抓取详细页面的url,详细页面只要抓取特定内容,一般都是用css 选择器或者xpath的库取匹配内容垂直爬虫的技术难点没有全网爬出那么多,主要要解决的是反爬的问题.针对性的做几个项目的垂直爬虫,你就慢慢形成了你自己的垂直爬虫框架,有了自己的任务管理,数据集存储,基本的数据处理转载 2017-09-14 11:24:20 · 1835 阅读 · 0 评论 -
网络爬虫-使用Cookie登陆
我们经常有这样的上网经历,就是如果你采用用户名密码登陆一个网站之后,如果在一段不长的时间内,再次访问这个本来需要你登陆的网站,你会很轻易地访问,而不需要再次输入用户名密码。这种“免登陆”的体验无疑给用户带来了非常好的体验,那为什么会“免登陆”呢?是什么在起作用呢?答案就是Cookie。当我们在浏览器内输入url,浏览器会向服务器发送一个HTTP请求,相应的,服务器会响应这个请求,向浏览器返回响转载 2017-09-14 13:16:23 · 433 阅读 · 0 评论 -
静态网页抓取,动态网页抓取,模拟登陆的注意事项和心得
最近更新:2013-07-03背景之前,对于折腾,静态或动态的网页抓取,模拟登陆,也算有些时日了。在此期间,遇到很多问题,也都基本上靠自己慢慢的解决了。此处,把其中相对常见和通用的问题或者是注意事项,再加上一些心得,在此整理出来,供参考:网页抓取和模拟登陆的注意事项和心得如果不加User-Agent,则有些网址的访问,会被禁止的此点,之前别的很多人已总结过了。此转载 2017-09-14 15:47:23 · 1048 阅读 · 0 评论 -
python 用已登录的cookie发送请求
如题,比如现在已经手动用ie登录了csdn,然后可以在ie的缓存里面找到对应的cookie,能否用这个cookie请求我的博客等需要登录的页面呢?网络上找了很多中方法,但是没有一种尝试成功的。Python code?1234567891011121314#coding=utf-8impo转载 2017-09-14 15:48:27 · 1149 阅读 · 0 评论 -
在Ubuntu 16.10 安装 git 并上传代码至 git.oschina.net
https://www.cnblogs.com/wghao/p/6082657.html这篇文章讲的很全面。转载 2018-11-26 17:12:14 · 252 阅读 · 0 评论