- 博客(46)
- 资源 (1)
- 收藏
- 关注
mongo数据库的安装
一直想用一个面向文档型的数据库来存放实验室的数据。NoSQL数据库的概念炒了很多年了,现在也出现了很多比较成熟的NoSQL数据库的产品,并且开始大量应用起来,包括Amazon, Facebook,Twitter等等公司都在用。之前想用Berkeley DB(一个key-value的嵌入式数据库,无Sever端),发现并不好用,主要是没有客户端,查看数据不直观,这样自己还要写个客户端,麻烦...
2011-01-07 15:59:12
209
原创 李开复先生给中国学生的公开信
零和竞争 vs 共同进步 在当代大学生的成长过程中, 父母和老师从小就在我们的脑海里灌输竞争意识. 在家里,很多父母将考试名次放到教育孩子的核心地位,提醒自己的孩子要在名次竞争中努力靠前;在学校里,名次更是衡量一名学生优劣的重要指标,名列前茅的人往往是学校和老师的宠儿,名次不好的人则经常受到冷落.... 脱离全面, 均衡的标准而片面强调竞争给孩子带来了非常...
2010-12-23 00:22:20
296
原创 Emacs学习笔记
1.移动C-x C-c 退出C-v 移动到下一屏; M-v 移动到下一屏C-l 光标所在行置于屏幕的中央 上一行 C-p (previous) ...
2010-12-03 11:36:22
197
原创 (转载)戏说论文、技术文档与网络文字的区别
面是系主任对我们论文的指导,这样的老师现在很少了。非常精彩、生动的文章,不过大多数人论文的风格可能是文章中提到的三种(至少三种)的混合体....戏说论文、技术文档与网络文字的区别 作者:王仲民我们每年都会看到有很多毕业班的同学将毕业论文写成软件开发文档或者某种技术文档。当指导教师要求学生按照论文的方式来写毕业论文时,经常会遇到这样的问题:技术文档与论文...
2010-11-26 09:24:51
221
原创 机器学习相关概念
机器学习从大量的数据中自动或半自动地寻找有用的模式的过程。机器学习在构建数学模型是利用了统计学理论,其核心任务是从样本中推理学习:当事物以其自身在将来表现更好为标准来改变其行为,它学到了东西。 监督学习与非监督学习 在监督学习中,我们的目标是学习从输入到输出的映射关系,其中输出的正确值已经由指导者提高。而非监督学习没这样的指导者,只有输入数据。我们的目标...
2010-11-02 09:12:06
154
原创 ( 转载)让专家门大跌眼镜的中文分词算法的诞生
特别声明:该篇文章并非个人原创,是从新浪博客http://blog.sina.com.cn/s/blog_4a95553b010005z0.html转载过来的。 转载的原因是由于文章所表现出的作者对技术如此有激情所感染,深深地佩服作者的执着与热情。看完这篇文章后顿时热血沸腾,要是能遇到这样的牛人做朋友,人生之莫大幸事。虽我的技术能力还不能与作者相提并论,但立志向作者学习! 前天晚上...
2010-10-16 21:26:13
147
非递归的快速排序实现
快速排序法 (quick sort)是运用分治思想(divide and conquer)对一个数组进行排序的比较排序算法。它主要思想是:以某个数为轴,将这个数组划分成两部分:不大于这个轴的一部分和大于这个轴的一部分;然后在分别对剩下的两部分进行同样的操作;一直分下去,直到每部分只有一个元素位置为止。 如何划分成两部分?严蔚敏的《数据结构》和《算法导论》有两种不同的具体实现...
2010-10-06 20:11:22
160
原创 可怕可恨的腾讯
腾讯收购了康盛创想。作为中国最专业的社区软件平台开发商之一,康盛创想旗下的Discuz!是全球范围内用户量最大、覆盖面最广的社区软件平台,拥有超过140万家网站用户,也是企业和网站主首选的社区与网站建设平台。在Alexa中国排名前1500家网站中,超过70%的网站选择第三方社区平台时采用了 Discuz!的解决方案。 这样,腾讯的用户群越来越稳定可靠。垄断实力越来越强大。 ...
2010-09-15 22:36:55
141
原创 记录一些Linux命令
time [option] command [argments] 或 /usr/bin/time计算程序运行时间 wc [option] filename 计算文件字数,行数等等 find [path] -name "*name*"查找文件 chown -R user file改变文件拥有者. -R包含所有子目录 chmode -R xxx file ...
2010-07-30 14:24:50
136
记录一些VIM命令
Copy(y) Y(=yy) , 10Y, yG ; // one line, ten line, to the end of file :/ forward模式查询:/? backword模式查询n 下一个匹配 :g/ pattern1/s//patttern2/g 用pattern2替换pattern1:s/str1/str2 st...
2010-07-30 12:53:07
150
原创 Berkeley DB介绍
Berkeley DB是一个提供了丰富的数据管理服务的嵌入式数据库引擎。它能够管理T Bytes数量级的数据。它不是一个关系型数据库,不能通过SQL语言接口访问,而是通过API编程接口读写数据,管理数据库,也能执行一些如事务管理的高级功能。 由于它是嵌入式的,而且提供了非常高效的内存缓存机制,因此它的速度异常快。使用时将它直接链接嵌入到你应用程序中,与你的应用在一个进程中,避免了...
2010-06-08 22:41:18
222
Oracle SQL 查找,删除重复行,有则更新,无则插入
MERGE INTO CRPROPTREND T1 USING DUAL T2 ON (T1.URIMD5="abc") WHEN MATCHED THEN INSERT VALUES(...) WHEN NOT MATCHED THEN UPDATE SET ...; -- This query is not ed...
2009-06-02 13:11:35
137
原创 ant start stop tomcat
<target name="tomcat.start"> <java jar="${tomcat.home}/bin/bootstrap.jar" fork="true"> <jvmarg value="-Dcatalina.home=${tomcat.home}" /> &a
2009-05-30 11:55:39
163
计数排序
计数排序, 基数排序, 桶排序等非比较排序算法,平均时间复杂度都是O(n). 这些排序因为其待排序元素本身就含有了定位特征,因而不需要比较就可以确定其前后位置,从而可以突破比较排序算法时间复杂度O(nlgn)的理论下限.计数排序是最简单的特例,它要求待排序元素是位于0到k之间的正整数, 因而它是很特殊的情况,基本上没有特别的应用价值; 但是另一方面, 它又是基数排序的基础,或者说是一部分...
2009-01-22 11:30:02
123
原创 聪明的以色列人(上):LZ77压缩算法
第五章 聪明的以色列人(上):LZ77 第四章 第六章 全新的思路 我们在第三和第四章中讨论的压缩模型都是基于对信息中单个字符出现频率的统计 而设计的,直到 70 年代末期,这种思路在数据压缩领域一直占据着统治地位。在 我们今天看来,这种情形在某种程度上显得有些可笑,但事情就是这样,一旦某项 技术在某一领域形成了惯例,人们就很难创造出在思路上与其大相径庭的哪怕是更 简单更...
2008-12-11 16:29:25
466
动态规划算法练习
【问题描述】 某国度的人,喜欢玩这样一个游戏,在一块板上写着一行数,共n个。两个游戏者,轮流从最右或最左取一个数。刚开始,每个游戏者的得分均为20。如果一个游戏者取下一个数,则将该数的值加到该游戏者的得分上,最后谁的得分最高谁就赢了游戏。给出这n个数( 从左往右), 假设游戏者都是非常聪明的,问最后两个人的得分(假设第一个人首先取数)。 【输入】 输入格式:第一行为n(2<=n&l...
2008-11-28 22:43:08
253
原创 暂时存记录:spring乱码过滤器
<filter> <filter-name>encodingFilter</filter-name> <filter-class> org.springframework.web.filter.CharacterEncodingFilter </filter-class&g...
2008-11-05 22:59:24
115
记录几个国外编程技术网站
Apache最权威最正规的开源项目社区: apache.org SourceForge最大的开源项目: SourceForge.net CodeProject一些有用的代码片段: codeproject.com IBM DevelopWorks最新技术的介绍文章:http://www.ibm.com/developerworks/cn/为其中文的站点 JavaWorld 最强大Ja...
2008-10-23 10:35:21
784
原创 透视MySQL数据库之更新语句
用于操作数据库的SQL一般分为两种,一种是查询语句,也就是我们所说的SELECT语句,另外一种就是更新语句,也叫做数据操作语句。言外之意,就是对数据进行修改。在标准的SQL中有3个语句,它们是INSERT、UPDATE以及DELETE。在MySQL中又多了一个REPLACE语句,因此,本文以MySQL为背景来讨论如何使有SQL中的更新语句。 一、INSERT和REPLACE INSE...
2008-10-10 11:09:22
129
原创 Select Top在不同数据库中的使用用法
Select Top在不同数据库中的使用用法: 1. oracle数据库 Select * FROM TABLE1 Where ROWNUM<=N2. Infomix数据库 Select FIRST N * FROM TABLE1 3. DB2数据库 Select * ROW_NUMBER() OVER(ORDER BY COL1 DESC) AS ROWNUM Where RO...
2008-09-17 18:13:31
105
编译Google浏览器
Google一直传言要做自己的浏览器,上周三终于出了Windows环境下的Beta版。Google总是提供免费的午餐,这次也不例外,不是指免费使用google浏览器,而是指代码完全开源。 本来还没开始编译,先Copy在这:http://sites.google.com/a/chromium.org/dev/developers/how-tos/getting-started...
2008-09-09 09:51:08
684
原创 我们为什么要关注MapReduce?
1.什么是MapReduce? MapReduce 是由Google公司的Jeffrey Dean 和 Sanjay Ghemawat 开发的一个针对大规模群组中的海量数据处理的分布式编程模型。MapReduce实现了两个功能。Map把一个函数应用于集合中的所有成员,然后返回一个基于这个处理的结果集。而Reduce是把从两个或更多个Map中,通过多个线程,进程或者独立系统并行执...
2008-09-02 21:57:22
120
关于http的Last-Modified和ETag
1) 什么是”Last-Modified”? 在浏览器第一次请求某一个URL时,服务器端的返回状态会是200,内容是你请求的资源,同时有一个Last-Modified的属性标记此文件在服务期端最后被修改的时间,格式类似这样: Last-Modified: Fri, 12 May 2006 18:53:33 GMT 客户端第二次请求此U...
2008-09-02 17:05:27
138
原创 Http的一些编码
HTTP HeadersThe headers of a HTTP request or response must be in US-ASCII format. It is not possible to use non US-ASCII characters in the header of a request or response. Generall...
2008-09-01 15:43:47
142
Java并发库的设计模式---Command模式
public interface Executor{ void execute(Runnable cmd);} 如此简单的接口,却为一个灵活而强大的框架创造了基础。使得线程的执行逻辑和时序逻辑得到了分离,提高了健壮性和可扩张性,使得需求变化时不再是将整个程序重写而只需修改相应的执行逻辑 Executor解藕了任务的执行策略和任务的执行过程: 只要提交给Exe...
2008-08-26 16:29:34
100
面向对象设计原则
OO设计根本的指导原则是提高可维护性和可复用性。这些原则主要有:1.单一职责原则 就一个类而言,应该仅有一个引起它的变化的原因最简单,最单纯的事情最容易控制,最有效 类的职责简单而且集中,避免相同的职责分散到不同的类之中,避免一个类承担过多的职责2. 开闭原则一个软件实体(类,模块或组件)应该对扩展开放,对修改关闭。在设计一个模块的时候,就当使这个模块...
2008-08-25 09:40:47
110
分布式Web爬虫的设计
URL管理服务器(URL-Server):负责url的集中管理,不详细讨论爬虫(Crawler): 从Server中取得一个url后,下载页面,提取链接,提取文本后保存。 爬虫的设计:两个producer-consumer队列:URL的本地存取队列(CrawlURLQueue)和新产生的url缓存队列(NewURLQueue). 爬虫监控CrawlURLQueue队列当前的容量,当u...
2008-08-20 11:55:55
116
Java 5.0的多线程类或接口
ExecutorExecutorServiceCallable<V>Future<V>CompletionService 同步器:CountDownLatchFutureTask<V>SemaphoreCyclicBarrier 并发容器:ConcurrentHashMapCopyOnWriteArrayListBlocking...
2008-08-19 17:49:28
137
JDK5.0 Excutor创建线程池
import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;public class ThreadPoolTest { public static void main(String[] args) { final ExecutorService exec = Executors.n...
2008-08-19 16:11:22
110
原创 敏捷开发
敏捷开发 敏捷开发(agile development)是一种以人为核心、迭代、循序渐进的开发方法。在敏捷开发中,软件项目的构建被切分成多个子项目,各个子项目的成果都经过测试,具备集成和可运行的特征。简言之,就是把一个大项目分为多个相互联系,但也可独立运行的小项目,并分别完成,在此过程中软件一直处于可使用状态。 敏捷开发是全新理论吗?答案莫衷...
2008-08-18 17:39:46
230
Java正则表达式
两个问题 a. 如何知道一个url是新浪论坛的帖子页 b. 如何提取这些页面的发帖时间 分析: 新浪论坛的帖子页url实例: http://bbs.2008.sina.com.cn/tableforum/App/view.php?bbsid=274&subid=0&fid=...
2008-08-10 13:21:34
113
原创 Java theory and practice: Dealing with Interrupte
Many Java™ language methods, such as Thread.sleep() and Object.wait(), throw InterruptedException. You can't ignore it because it's a checked exception, but what should you do with it? In this month's...
2008-07-29 15:07:15
151
Swing HTML显示组件
Java Swing本身没有提供好的html显示组件,而且也不能像SWT那样嵌入本地浏览器。但有很多的项目是试着去解决这个问题: The ListProductLicenseFeaturesFailingsHTMLEditorKit built in this is built into swing, so it requires no download, it has ...
2008-07-17 10:33:40
1301
总结Embedding Brower JAVA API
总结一些找到的嵌入浏览器: WebRenderer 对IE和Mozilla内核的Java封装,API调用十分方便。可惜收费;JRex Mozilla 开源 似乎已经停止更新维护了WebClient Mozilla 开源SWT browser widget IE and Mozilla 开源mozswing Mozilla 开源JExplorer IE 收费watij IE ,内...
2008-07-10 11:32:30
229
(转)开源框架的烦恼
转载地址: http://www.searcher.org.cn/search/20071004/263.html 偶然碰到这篇文章,谈及的话题<开源框架带来的烦恼>与我正在考虑写的OSGi的产生背景不谋而合。转帖过来,供读者参考。 1、空前繁荣的开源世界 大致2000年以前,Java世界还是Sun一言九鼎,唯我独尊的时代。Sun发布的任何规范和标准都无一例外地被Java社区有...
2008-06-27 10:09:04
143
Cookie的格式及组成
Cookie由变量名和值组成,类似Javascript变量。其属性里既有标准的Cookie变量,也有用户自己创建的变量,属性中变量是用“变量=值”形式来保存。 根据Netscape公司的规定,Cookie格式如下: Set-Cookie: NAME=VALUE;Expires=DATE;Path=PATH;Domain=DOMAIN_NAME;SECURE NAME=VALUE: 这是每...
2008-06-26 10:49:01
1579
1
HTTP头信息
HTTP的头域包括通用头,请求头,响应头和实体头四个部分。每个头域由一个域名,冒号(:)和域值三部分组成。域名是大小写无关的,域值前可以添加任何数量的空格符,头域可以被扩展为多行,在每行开始处,使用至少一个空格或制表符 通用头域通用头域包含请求和响应消息都支持的头域,通用头域包含Cache-Control、 Connection、Date、Pragma、Transfer-Enco...
2008-06-25 16:24:24
104
HTTP Cookie & Session
COOKIECOOKIE是大家都非常熟悉的了,通过它可以在客户端保存用户状态,即使用户关闭浏览器也能继续保存。那么客户端与服务器端是如何交换COOKIE信息的呢?没错,也是通过HTTP消息头。首先写一个简单的ASP网页:<%Dim ii = Request.Cookies("key")Response.Write iResponse.Cookies("key") = "haha"Resp...
2008-06-25 15:50:45
112
HTTP 1.0 与 1.1比较
一个WEB站点每天可能要接收到上百万的用户请求,为了提高系统的效率,HTTP 1.0规定浏览器与服务器只保持短暂的连接,浏览器的每次请求都需要与服务器建立一个TCP连接,服务器完成请求处理后立即断开TCP连接,服务器不跟踪每个客户也不记录过去的请求。但是,这也造成了一些性能上的缺陷,例如,一个包含有许多图像的网页文件中并没有包含真正的图像数据内容,而只是指明了这些图像的URL地址,当WEB浏览器...
2008-06-25 14:32:58
126
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人