
爬虫
leoe_
这个作者很懒,什么都没留下…
展开
-
爬虫 解决网页ip限制的问题的八种方法
方法1.之前由于公司项目需要,采集过google地图数据,还有一些大型网站数据。 经验如下:1.IP必须需要,像@alswl 说的非常正确,ADSL。如果有条件,其实可以跟机房多申请外网IP。2.在有外网IP的机器上,部署代理服务器。3.你的程序,使用轮训替换代理服务器来访问想要采集的网站。好处: - 1.程序逻辑变化小,只需要代理功能。 - 2.根据对方网站屏蔽规则不同,你只需要添转载 2017-03-27 15:06:24 · 13658 阅读 · 1 评论 -
Webmagic 爬虫之通过cookie进行页面登录
介绍:首先先来介绍下webmagic这个爬虫框架,这个框架是大佬黄义华开源的爬虫框架,用起来非常的顺手, 跟之前用python中的scrapy框架一样,层次非常清晰,可扩展性也是非常的好。文档也比较齐全,并且现在还在一直更新。优点就说这些,但是也有一些不足,在我学习的过程中,遇到了一些问题,比如就是没有关于登录的例子,并且没有google出相关的内容,这里是自己摸索的出的一种方法。在使用爬虫的过程中原创 2017-06-08 19:59:17 · 16899 阅读 · 8 评论 -
HtmlUnit、Httpclient、Jsoup爬取网页信息并解析
爬取页面效果图点击”百度一下”按钮前页面点击”百度一下”按钮后页面天涯社区登录页面登录进去之后个人主页具体的实现代码pom.xml文件<!-- https://mvnrepository.com/artifact/net.sourceforge.htmlunit/htmlunit --> <dependency> <groupId>net.sourceforge.htmlun转载 2017-05-19 20:12:40 · 3979 阅读 · 0 评论 -
《自己动手写爬虫》笔记
《自己动手写爬虫》这本书总体介绍了整个网络爬虫由浅入深的知识体系,将爬虫中每个部分分割开来具体的细讲,非常适合新手来入门,由于之前只知道使用爬虫框架,所以一遇到一些错误或者想调整一些爬架内容就无从下手,所以还是将一些基础知识弄明白之后再去使用框架就会得心应手了。书中关于当前的分布式爬虫的内容感觉有点少,感觉随着数据爬取的增大,这部分的使用频率应该会越来越多,还需要多向这个方面了解下。代码的部分占据...原创 2018-03-26 20:38:42 · 1397 阅读 · 0 评论