利用HTMLPARSER和HTTPCLIENT制作的网络爬虫,还不是很完善,过程是先输入网站及关键词,从google取得每页结果的内容,然后分析每个结果中的链接的网站的内容,取得其中的标题及head中的内容显示,以后可以增加智能分析的模块,软件使用java开发,需要安装java虚拟机,图形界面反应有点缓慢,请耐心等待。
使用HTMLPARSER和HTTPCLIENT制作网络爬虫,附赠相关技术文档。
介绍了一款使用Java开发的网络爬虫应用,该应用利用HTMLParser和HttpClient从Google搜索结果中抓取网页,并分析页面内容。未来计划增加智能分析功能。

被折叠的 条评论
为什么被折叠?



