
网络爬虫
iteye_18539
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
HttpClient入门
2005 年 11 月 10 日 HttpClient 是 Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient,然后根据作者实际工作经验给出了一些常见问题的解决方法。HttpClient简介HTTP 协议可能...原创 2009-12-09 13:42:11 · 99 阅读 · 0 评论 -
運用Apache HttpClient實作Get與Post動作
HttpClient 簡介 :HTTP 協定是現在 Internet 上使用得最多、最重要的協定,越來越多的 Java 應用程序需要直接通過 HTTP 協定來訪問網路資源。雖然在 JDK 的 java.net 包中已經提供了訪問 HTTP 協定的基本功能,但是對於大部分應用程序來說,JDK 類別庫本身提供的功能還不夠豐富和靈活。 HttpClient 是 Apache Jakarta Co...原创 2009-12-10 10:31:52 · 100 阅读 · 0 评论 -
使用 HttpClient 和 HtmlParser 实现简易爬虫
这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包的使用,在此基础上实现了一个简易的网络爬虫 (Crawler),来说明如何使用 HtmlParser 根据需要处理 Internet 上的网页,以及如何使用 HttpClient 来简化 Get 和 Post 请求操作,构建强大的网络应用程序。使用 HttpClient 和 HtmlParser 实现简易爬虫这...原创 2009-12-15 16:42:55 · 93 阅读 · 0 评论 -
使用HttpClient+Jericho HTML Parser 实现网页抓取
核心提示:Jericho HTML Parser是一个简单而功能强大的Java HTML解析器库,可以分析和处理HTML文档的一部分,包括一些通用的服务器端标签,同时也可以重新生成无法识别的或无效的HTML。它也提供了一个有用的HTML表单分析器。 下载地址:http://sourceforge.net/project/ Jericho HTML Parser是一个简单而功能强大的Java H...原创 2009-12-15 16:45:03 · 176 阅读 · 0 评论 -
HtmlParser初步研究
HtmlParser初步研究 by lostfire这两天准备做一些网站编程的工作,于是对HtmlParse小研究了一下,目的是快速入手,而不是深入研究,做了一下整理,和大家共同讨论一下。 一,数据组织分析:HtmlParser主要靠Node、AbstractNode和Tag来表达Html,因为Remark和Text相对简单,此处就将其忽略了。Node是形成树结构表...原创 2009-12-15 16:57:13 · 108 阅读 · 0 评论 -
htmlparser使用指南
需要做一个垂直搜索引擎,比较了nekohtml和htmlparser 的功能,尽管nekohtml在容错性、性能等方面的口碑好像比htmlparser好(htmlunit也用的是nekohtml),但感觉 nekohtml的测试用例和文档都比htmlparser都少,而且htmlparser基本上能够满足垂直搜索引擎页面处理分析的需求,因此先研究一 下htmlparser的使用,有空再研究neko...原创 2009-12-16 09:41:34 · 161 阅读 · 0 评论 -
htmlparser的研究
[url]http://htmlparser.com.cn/catalog.asp?page=2[/url]原创 2009-12-16 10:27:08 · 109 阅读 · 0 评论