
网络爬虫
杜冰林
记笔记用的,要是曾经在网上搜的资料触犯作者权益,请及时告知
展开
-
爬虫--Python资料页
背景调研:robots.txt sitemap详见www.robots.org#section1 对用户BadCrawler禁止爬取User-agent:BadCrawlerDisallow:/#section2 两次请求要在五秒上,否则额封禁ip1分钟User-agent:*Crawl-delay:5Disallow:/trap#s原创 2017-03-23 11:35:54 · 305 阅读 · 0 评论 -
selenium + PhantomJS 浏览器后台抓取
PhantomJs是一个‘无头’’=浏览器,下载地址:http://phantomjs.org/download.html下载之后最好把bin目录设置成环境变量他会把网站加载到内存并执行页面上的JavaScript,但是他不会向用户展示网页的图形界面(后台运行浏览器),可以处理cookie,JavaScript,header以及任何你需要做的事情注意:部分公司内网阉割,会报出转载 2017-11-15 11:39:18 · 854 阅读 · 0 评论