利用httpclient编写网页数据爬取有一段时间了,一直苦恼于重复的编码以及cookie的处理,一直希望有一个好用的java框架或者自己搞一个框架。可惜水平还不够格,而且也没时间安静下来抽象框架。
今天无意中看到网上有人推荐webmagic,百度了一下,发现这个框架的人气还是可以的,文档也比较具体。下面我也重头来体验下这个框架。
git项目地址:https://github.com/code4craft/webmagic
本文介绍了作者在使用HTTPClient进行网页爬取时遇到的问题,并分享了发现WebMagic框架后的初步体验,该框架能够简化爬虫开发流程。
利用httpclient编写网页数据爬取有一段时间了,一直苦恼于重复的编码以及cookie的处理,一直希望有一个好用的java框架或者自己搞一个框架。可惜水平还不够格,而且也没时间安静下来抽象框架。
今天无意中看到网上有人推荐webmagic,百度了一下,发现这个框架的人气还是可以的,文档也比较具体。下面我也重头来体验下这个框架。
git项目地址:https://github.com/code4craft/webmagic
2659

被折叠的 条评论
为什么被折叠?