
python爬虫
whime_sakura
分享记录一些学习笔记,写的很不好的请见谅。
展开
-
爬虫背景调研
来自用pathon写网络爬虫 在深入讨论爬取一个网站 之前,我们首先需要对目标站点的规模和结构进行一定程度的了解。 网站自身的robots.txt 和Sitemap文件都可以为我 们提供一定的帮助,此外还有一些能提供更详细信息的外部工具,比如Goog le 搜索和WHOIS。robots.txtRobot.txt规定了网站对于爬虫的限制。Section1:禁止用户代理...原创 2018-11-01 09:08:35 · 5888 阅读 · 0 评论 -
编写第一个网络爬虫
3 种爬取网站的常见方法:下载网页首先需要把网页下载下来,使用Python 的urllib 2 模块下载URL。不过这样子的无法处理一些异常情况,如网页不存在,可以加入异常处理机制。有时候服务器过载返回503 Service Unavailable错误是临时性的,我们可以尝试重新下载,并设置重试下载次数。实验结果。。。 ...原创 2018-11-01 09:08:20 · 944 阅读 · 0 评论 -
python socket初步
来自计算机网络(自顶向下方法)一书UDP 通信UDPclient.pyfrom socket import *#指定服务器地址,端口servername='172.21.213.177'#这里使用的是本机ip,实际使用需要改一下serverport=12000#socket第一个参数指定使用IPV4协议,第二个参数指定这是一个UDP套接字clientSocket=socket(AF...原创 2018-11-06 23:10:37 · 264 阅读 · 0 评论 -
使用代理ip进行反反爬虫——爬取句子迷网站,获取小说龙族经典句子
这个爬虫项目做了好久了,不定期更新,遭遇了反爬虫,记录一下反反爬过程。爬取不到一会就会被封ip,网站返回403,换个ip就好了,但一样会被封,来不及爬取所有句子。参照网上代理ip的方式不过这个方法爬去下来的proxy拿来访问别的网站可行,但是访问句子迷就403了。在此引用代码,感谢作者。import requestsimport osfrom bs4 import B...原创 2019-05-02 19:16:40 · 761 阅读 · 0 评论