
python
文章平均质量分 56
软猫克鲁
这个作者很懒,什么都没留下…
展开
-
用Python 的 Scrapy 爬取 网站
用Python 的 Scrapy 爬取网站说到制作蜘蛛爬取网站听起来挺简单的,其实深究起来是个蛮综合的应用,有不少技能点需要点亮。比如:基本的Request/ResponseHTML,CSS,XPath,JavaScript等前端技能点 即便你有这些技能点加成,不管你是Newbee还是老鸟,如果你坚持不懈的要制造自己的轮子,很多坑估计你死多少遍也填不平。这时候我适时的推荐你用Scrapy这个框原创 2017-12-14 16:58:21 · 1697 阅读 · 0 评论 -
Scrapy 通过代理(Proxy)爬取外部网站
Scrapy 通过代理(Proxy)爬取外部网站通常我们不需要特殊处理就能直接的访问WWW。但当你处于内部网络通过代理访问外部的时候,或者一些特殊的情况下,你会需要这个技能。默认你已经会用Scrapy制作蜘蛛了。你可以参考我的另一个介绍页面,或者其他更详尽的教程。最简单直接的办法就是在蜘蛛的开头设置系统环境变量像这样:import os# 设置相应的代理用户名密码,主机和端口号os.enviro原创 2017-12-20 13:58:56 · 8622 阅读 · 1 评论 -
用Scrapy爬取Domain认证的内网数据比如SharePoint
用Scrapy爬取Domain认证的内网数据只要是浏览器里面能够访问的东西,理论上都可以被爬虫爬取。有了这个信念,基本上所有问题就解决一半啦,笑~公司内部网络通常都是由域控制器统一做安全登录认证,这对于window系的公司尤为常见。通常爬取内网Domain服务器认证的内部网站,基本都会返回401错误,这就是告诉我们没有通过服务器的认证检验。 那么怎么做呢?安装requests-ntlm认证组件你需原创 2017-12-18 17:08:50 · 4033 阅读 · 0 评论