
具体应用
文章平均质量分 86
xeh
这个作者很懒,什么都没留下…
展开
-
HTTP/1.1 RFC2616中文
官方RFC2616文档: http://www.w3.org/Protocols/rfc2616/rfc2616.html Network Working Group(网络工作组) R. FieldingRequest for Comments: 2616 UC Irvi...2008-06-25 14:27:10 · 771 阅读 · 0 评论 -
分布式Web爬虫的设计
URL管理服务器(URL-Server):负责url的集中管理,不详细讨论爬虫(Crawler): 从Server中取得一个url后,下载页面,提取链接,提取文本后保存。 爬虫的设计:两个producer-consumer队列:URL的本地存取队列(CrawlURLQueue)和新产生的url缓存队列(NewURLQueue). 爬虫监控CrawlURLQueue队列当前的容量,当u...2008-08-20 11:55:55 · 116 阅读 · 0 评论 -
Http的一些编码
HTTP HeadersThe headers of a HTTP request or response must be in US-ASCII format. It is not possible to use non US-ASCII characters in the header of a request or response. Generall...原创 2008-09-01 15:43:47 · 142 阅读 · 0 评论 -
关于http的Last-Modified和ETag
1) 什么是”Last-Modified”? 在浏览器第一次请求某一个URL时,服务器端的返回状态会是200,内容是你请求的资源,同时有一个Last-Modified的属性标记此文件在服务期端最后被修改的时间,格式类似这样: Last-Modified: Fri, 12 May 2006 18:53:33 GMT 客户端第二次请求此U...2008-09-02 17:05:27 · 138 阅读 · 0 评论 -
编译Google浏览器
Google一直传言要做自己的浏览器,上周三终于出了Windows环境下的Beta版。Google总是提供免费的午餐,这次也不例外,不是指免费使用google浏览器,而是指代码完全开源。 本来还没开始编译,先Copy在这:http://sites.google.com/a/chromium.org/dev/developers/how-tos/getting-started...2008-09-09 09:51:08 · 682 阅读 · 0 评论 -
暂时存记录:spring乱码过滤器
<filter> <filter-name>encodingFilter</filter-name> <filter-class> org.springframework.web.filter.CharacterEncodingFilter </filter-class&g...原创 2008-11-05 22:59:24 · 115 阅读 · 0 评论 -
Heritrix QueueAssignmentPolicy问题
Re: [archive-crawler] Extend QueueAssignmentPolicy Mr.Mohr, From your response,NicknameQueueAssignmentPolicy will be problematic,And I understand why the download speed initially-fast and then v...2008-04-30 17:51:06 · 134 阅读 · 0 评论 -
Java局部线程变量---ThreadLocal
ThreadLocal是什么 早在JDK 1.2的版本中就提供java.lang.ThreadLocal,ThreadLocal为解决多线程程序的并发问题提供了一种新的思路。使用这个工具类可以很简洁地编写出优美的多线程程序。ThreadLocal很容易让人望文生义,想当然地认为是一个“本地线程”。其实,ThreadLocal并不是一个Thread,而是Thread的局部变量,也许把它命名为...2008-05-15 16:02:33 · 114 阅读 · 0 评论 -
Commons 命令行接口使用(未翻译)
暂未翻译,链接主页http://commons.apache.org/cli/describe some example scenarios on how to use CLI in applications. Using a boolean optionA boolean option is represented on a command line by the presence of...2008-05-15 16:12:06 · 335 阅读 · 0 评论 -
Java 5.0的多线程类或接口
ExecutorExecutorServiceCallable<V>Future<V>CompletionService 同步器:CountDownLatchFutureTask<V>SemaphoreCyclicBarrier 并发容器:ConcurrentHashMapCopyOnWriteArrayListBlocking...2008-08-19 17:49:28 · 137 阅读 · 0 评论 -
JDK5.0 Excutor创建线程池
import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;public class ThreadPoolTest { public static void main(String[] args) { final ExecutorService exec = Executors.n...2008-08-19 16:11:22 · 110 阅读 · 0 评论 -
Java正则表达式
两个问题 a. 如何知道一个url是新浪论坛的帖子页 b. 如何提取这些页面的发帖时间 分析: 新浪论坛的帖子页url实例: http://bbs.2008.sina.com.cn/tableforum/App/view.php?bbsid=274&subid=0&fid=...2008-08-10 13:21:34 · 113 阅读 · 0 评论 -
HTTP 1.0 与 1.1比较
一个WEB站点每天可能要接收到上百万的用户请求,为了提高系统的效率,HTTP 1.0规定浏览器与服务器只保持短暂的连接,浏览器的每次请求都需要与服务器建立一个TCP连接,服务器完成请求处理后立即断开TCP连接,服务器不跟踪每个客户也不记录过去的请求。但是,这也造成了一些性能上的缺陷,例如,一个包含有许多图像的网页文件中并没有包含真正的图像数据内容,而只是指明了这些图像的URL地址,当WEB浏览器...2008-06-25 14:32:58 · 125 阅读 · 0 评论 -
HTTP Cookie & Session
COOKIECOOKIE是大家都非常熟悉的了,通过它可以在客户端保存用户状态,即使用户关闭浏览器也能继续保存。那么客户端与服务器端是如何交换COOKIE信息的呢?没错,也是通过HTTP消息头。首先写一个简单的ASP网页:<%Dim ii = Request.Cookies("key")Response.Write iResponse.Cookies("key") = "haha"Resp...2008-06-25 15:50:45 · 112 阅读 · 0 评论 -
HTTP头信息
HTTP的头域包括通用头,请求头,响应头和实体头四个部分。每个头域由一个域名,冒号(:)和域值三部分组成。域名是大小写无关的,域值前可以添加任何数量的空格符,头域可以被扩展为多行,在每行开始处,使用至少一个空格或制表符 通用头域通用头域包含请求和响应消息都支持的头域,通用头域包含Cache-Control、 Connection、Date、Pragma、Transfer-Enco...2008-06-25 16:24:24 · 104 阅读 · 0 评论 -
Cookie的格式及组成
Cookie由变量名和值组成,类似Javascript变量。其属性里既有标准的Cookie变量,也有用户自己创建的变量,属性中变量是用“变量=值”形式来保存。 根据Netscape公司的规定,Cookie格式如下: Set-Cookie: NAME=VALUE;Expires=DATE;Path=PATH;Domain=DOMAIN_NAME;SECURE NAME=VALUE: 这是每...2008-06-26 10:49:01 · 1579 阅读 · 1 评论 -
Watij - Web Application Testing in Java
发现一个抓取动态网页的好东东: Watij (pronounced wattage) stands for Web Application Testing in Java. Watij is a pure Java API created to allow for the automation of web applications. Based on the simplicity of...2008-05-29 16:54:07 · 106 阅读 · 0 评论 -
总结Embedding Brower JAVA API
总结一些找到的嵌入浏览器: WebRenderer 对IE和Mozilla内核的Java封装,API调用十分方便。可惜收费;JRex Mozilla 开源 似乎已经停止更新维护了WebClient Mozilla 开源SWT browser widget IE and Mozilla 开源mozswing Mozilla 开源JExplorer IE 收费watij IE ,内...2008-07-10 11:32:30 · 229 阅读 · 0 评论 -
Swing HTML显示组件
Java Swing本身没有提供好的html显示组件,而且也不能像SWT那样嵌入本地浏览器。但有很多的项目是试着去解决这个问题: The ListProductLicenseFeaturesFailingsHTMLEditorKit built in this is built into swing, so it requires no download, it has ...2008-07-17 10:33:40 · 1300 阅读 · 0 评论 -
Java theory and practice: Dealing with Interrupte
Many Java™ language methods, such as Thread.sleep() and Object.wait(), throw InterruptedException. You can't ignore it because it's a checked exception, but what should you do with it? In this month's...原创 2008-07-29 15:07:15 · 151 阅读 · 0 评论 -
ant start stop tomcat
<target name="tomcat.start"> <java jar="${tomcat.home}/bin/bootstrap.jar" fork="true"> <jvmarg value="-Dcatalina.home=${tomcat.home}" /> &a原创 2009-05-30 11:55:39 · 162 阅读 · 0 评论