
我的体验
kauu
搜索引擎工程师
展开
-
Hibernate 使用初记
这几天来都搞hibernate,有时也是很迷惑的,不过过来了之后回头看看就觉得它的基本原理是很简洁的.简单为美嘛!!我主要要讲一下映射文件的写法,这个是基础.我遇到的问题:一是查询时: org.hibernate.hql.classic.ClassicQueryTranslatorFactory 我是用junit在myeclipse里测试时遇到的,不知为何,先记原创 2006-09-15 16:28:00 · 1144 阅读 · 0 评论 -
在BtoB学习的一个来月
从口碑到BtoB学习了一个来月了,在这个月里,感觉时间过得好快。来学习,也是来做项目的,因为口碑用的搜索是BtoB的技术,我们争取一定要把它自己掌握以后学以至用。 带着两个需求过来,一开始就以需求为中心行动起来。 先把字典分词搞定,再把按推荐菜次数排序搞定,最后宪哥又多了一个排店铺到临时所先择的中心点距离来排序。三个需求下来。对isearch的认识也加深了不少,也很感觉BtoB这边的孙海涛原创 2007-08-07 11:53:00 · 2326 阅读 · 0 评论 -
Spirit+lucene+nutch
垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸, 是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎和普通的网页搜索引擎的最大区别 是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以 网页块为最小单位,而垂直搜索是以结构化原创 2007-08-23 12:30:00 · 3237 阅读 · 0 评论 -
个人常用的VIM命令列表
移动光标上:k nk:向上移动n行 9999k或gg可以移到第一行 G移到最后一行下:j nj:向下移动n行左:h nh:向左移动n列右:l nl:向右移动n列 w:光标以单词向前移动 nw:光标向前移动n个单词 光标到单词的第一个字母上b:与w相反e: 光标以单词向前移动 ne:光标向前移动n个单词 光标到单词的最后一个字母上ge:与e相反$:移动光标到行尾 n$:移动到第n行的行尾原创 2007-09-26 09:47:00 · 2465 阅读 · 1 评论 -
为log4j增加自定义级别
并非在项目应用中原先的几个级别不够用了,通常的info,warn,debug ,error,fatal已经可以满足一般的应用,而且log4j也是不推荐用户自定义级别的。 由于在我们的搜索引擎里要为每天的巨大搜索量的日记进行分门别类的记录,面原先的几个级别在程序都已经按一般的需求使用了,所以就必要自己再定义出新的级别以满足我们的需求。 为log4j增加自定义级别其实是一件比较简单的事件。原创 2007-09-26 10:46:00 · 6869 阅读 · 0 评论 -
Hadoop -- Map-Reduce具体实现详解
HadoopMapReduce --Map-Reduce具体实现详解 Keyword: FileSplit:文件的子集--文件分割体 简介: 这篇文档描述在hadoop中map和reduce操作是怎样具体完成的。如果你对Google的MapReduce各式模式不熟悉,请先参阅MapReduce--http://labs.google.com/papers/mapred翻译 2007-10-08 15:27:00 · 18981 阅读 · 7 评论 -
Nutch Crawler工作流程
Nutch Crawler工作流程及文件格式详细分析Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在硬件平台上,例如Crawler和Searcher分别被放置在两个主机上,这样可以极大的提高灵活性和性能。 一、总体介绍: 1、先注入种子urls到crawldb 2、循环: generate 从crawldb中生成一个ur原创 2007-10-14 09:58:00 · 15064 阅读 · 6 评论 -
Nutch距离一个商业应用的搜索引擎还有多远
参考:http://lotusroots.bokee.com/6106980.html 了解nutch的人基本上对这个开源的系统都是比较欣赏的,起码在国内是这样的,也很有多搜索网站是基于这个系统修改过来的,不过要做得好,做得真正是一个商业化的搜索,这个修改就不是一朝一夕的事情,也不是修修剪剪那么简单了。 作为一个通用的全网级别的搜索引擎架构,nutch(lucene)确实为广大原创 2007-11-05 14:58:00 · 4653 阅读 · 5 评论 -
一个让我用得很爽的个性导航h2w1.com
一直对hao123所发现的市场所感慨。原来低端的市场这么大,这么强。 但毕竟自己不在这一市场里,但是网址导航却也是实实在在的需求。之前用过igoogle,刚开始感觉还可以,但实在是太强大了,大到它的目标是想去让用户把它当作自己的“桌面”。一点一点把内容加进来后,发现我不想再去igoogle了。因为每天上网的起点实在是全面了,以致于我基本不上其它网站,而不敢再去用它了。 现在我用h2原创 2009-04-04 16:00:00 · 7923 阅读 · 0 评论 -
最近的一些日子
这个月刚毕业,真正进入社会了,回到浙江,加入了阿里集团。现在在阿里下的口碑网任职,专心进行搜索引擎的工作,上周开始到阿里软件来培训阿里集团内部的搜索引擎--它现在支撑着BtoB中文、英文、淘宝网、口碑网等的搜索。 在阿里工作感觉挺不错!!!原创 2007-07-25 12:57:00 · 2366 阅读 · 0 评论 -
项目中的一些心得
项目中的一些心得 1.数据库表的命名应该大写,并表达完整的含义,用下划线分开,如T_WEB_XXXXX_USER.这里的XXXXX是指项目名称.表的字段 命名可以是是项目名称首字母缩写加下划线再加具体的有意义的名称,如xx_userId,xx_userName......强烈推荐设计数据库时使用 rational rose,这样便于管理和维护. 2.在struts中,act原创 2006-08-20 19:42:00 · 1030 阅读 · 0 评论 -
log4j 使用 简介
--by blues(zhaochaohua@sina.com)PART 1 介绍log4j的好处在于:1.通过修改配置文件,就可以决定log信息输出到何处(console,文件,...),是否输出。这样,在系统开发阶段可以打印详细的log信息以跟踪系统运行情况,而在系统稳定后可以关闭log输出,从而在能跟踪系统运行情况的同时,又减少了垃圾代码(System.out.println(...)等)。转载 2006-08-08 15:47:00 · 966 阅读 · 0 评论 -
面试题(整理了一下)
1、线形表a、b为两个有序升序的线形表,编写一程序,使两个有序线形表合并成一个有序升序线形表h;2、运用四色定理,为N个局域举行配色,颜色为1、2、3、4四种,另有数组adj[][N],如adj[i][j]=1则表示i区域与j区域相邻,数组color[N],如color[i]=1,表示i区域的颜色为1号颜色。3、用递归算法判断数组a[N]是否为一个递增数组。4、编写算法,从10亿个浮点数当中,选出转载 2006-05-05 15:17:00 · 2960 阅读 · 0 评论 -
加密算法简介
密码学简介据记载,公元前400年,古希腊人发明了置换密码。1881年世界上的第一个电话保密专利出现。在第二次世界大战期间,德国军方启用“恩尼格玛”密码机,密码学在战争中起着非常重要的作用。随 着信息化和数字化社会的发展,人们对信息安全和保密的重要性认识不断提高,于是在1997年,美国国家保准局公布实施了“美国数据加密标准(DES)”, 民间力量开始全面介入密码学的研究和应用中,采用的加密算法有DE原创 2006-05-13 22:43:00 · 4077 阅读 · 2 评论 -
函数依赖(FD)
函数依赖(FD) 1、函数依赖的定义(领会):设有关系模式R(A1,A2,...An)或简记为R(U),X,Y是U的子集,r是 R的任一具体关系,如果对r的任意两个元组t1,t2,由t1[X]=t2[X]导致t1[Y]=t2[Y],则称X函数决 定Y,或Y函数依赖于X,记为X→Y。X→Y为模式R的一个函数依赖。 其实函数依赖就和数学里函数概念差不多,只不过在这里不是变量而是属性列。比 如关系表里如原创 2006-05-14 20:09:00 · 15737 阅读 · 4 评论 -
用UML设计Java应用程序-处理图书馆借阅和预定图书和杂志
用UML设计Java应用程序 (来源:转载自umlchina,Hans-Erik Erikkson, Magnus Penker著,刘忠(caulzhong@sina.com) 译 ) 本文的案例学习提供了一个例子,说明如何将UML用在现实中。一个处理图书馆原创 2006-05-18 21:50:00 · 5342 阅读 · 0 评论 -
gwt 学习总结一下。
现在天下大乱啊,到外都是要用ajax,为了加入这一大军中,自然我也是去学习了一下ajax,对了烦又乱,又不好调度的javascript我自然没有太多好感了,可是又不可能不学啊。现在也是要找工作 的时候了。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。学啊学啊,上google 实验室看了看,看到了google web toolkit,这下可把我乐坏了。 凭着我的这点英语水平,还好原创 2006-10-08 21:18:00 · 2208 阅读 · 0 评论 -
jsp学习总结
在一个JSP文件第一次被请求时,JSP引擎把该JSP文件转换成为一个 servlet。而这个引擎本身也是一个servlet,在JSWDK或WEBLOGIC中,它就是JspServlet。 JSP引擎先把该JSP文件 转换成一个Java源文件,在转换时如果发现jsp文件有任何语法错误,转换过程将中断,并向服务端和客户端输出出错信息;如果转换成功, JSP引擎用 javac把该Java源文件编译成原创 2006-05-21 19:26:00 · 1157 阅读 · 0 评论 -
Struts应用系统案例设计编程讲解
1 需求分析某公司是一家处于快速发展中的中小型销售公司,他们打算架构一个网站。计划分两步走:首先做一个宣传型的网站,然后在公司规模达到一定程度时扩展为网上商店。www.yestar2000chinai tp ow er.comVoFZbSR在第一步计划中,某公司的主要想法是通过网站能及时介绍公司的产品、服务以及其他公司相关情况;由于不断有新品上架,他们希望能通过公司市场销售人员直接转载 2006-05-25 20:08:00 · 2530 阅读 · 0 评论 -
昨天第一次面试,结果还不错。
昨天 第一次去面试,在浙江杭州。 公司是上海网力网络科技有限公司。我是在回来的火车上接到公司前台的电话的。我去之前一点都不知道这家公司的情况。而且我在火车上听到的名字也不对,我听成了“网帝”,结果到杭州后虽然在我弟弟那里查了一下,但是当然查不到了。 所以我怀着一种一点都不知道对方情况的情态去的。 在这之前 还有一点小插曲呢。 我是在26号下午接到电话27号早9点要去面试的。晚上要去买面试原创 2006-10-27 10:24:00 · 1241 阅读 · 0 评论 -
spoolsv.exe占cpu 99%的解决方法
spoolsv.exe占cpu 99%的解决方法在国内网上搜索了一下:大部分都是将相关打印后台服务给禁用解决的,可是这样就不能打印了。岂不有点因噎废食? 后来从国外网站上找到了:tims journal: spoolsv.exe hogging 99% of cpu - the fix解决方法其实很简单: 就是清空 C:/WINDOWS/system32/spool/PRINTER转载 2006-06-18 19:42:00 · 1327 阅读 · 0 评论 -
java JNI 初记
要把nutch 和ICTCLAS移到linux下,就要学习一下jni了。总的来说,JAVA已经为我们做好了很多工作,我们只能用就可以了。先来一个helloWord 吧LINUX下1.mkdir -p /JNI/lib 2.vi /JNI#设置一下临时用的库路径3.export LD_LIBRARY_PATH=`pwd`/libvi HelloWord.javathen ja原创 2006-11-09 11:01:00 · 1061 阅读 · 0 评论 -
新闻聚类系统---news.baidu.com
要做一个新闻聚类系统,大概就和http://news.baidu.com类似的。 可是没有什么想法呀! 怎么办呢? 这样的新闻, 要有抓取,存到一种“格式”里,或XML,或HDFS或DB里, 二是要用分类器,基于SVM也好,KNN也好, 三是要有聚类-carrot2,或其它。 这样,三个重要组件都已经想到了,接下来就要设计了-------------------------------原创 2006-12-01 22:31:00 · 3596 阅读 · 2 评论 -
把不同的log记录到不同的地方的例子程序 .
把不同的log记录到不同的地方的例子程序 .package Log4jEX;import org.apache.commons.logging.Log;import org.apache.commons.logging.LogFactory;import org.apache.log4j.Level;import org.apache.log4j.Logger;import org.apa原创 2006-08-08 21:23:00 · 979 阅读 · 0 评论 -
高端?低端?谢谢!
http://babatu.blogspot.com/2009/04/blog-post_23.html 首先恭喜你!为什么呢?因为如果你看了这个标题后,并进来读这篇文章时,表示你是一个高端互联网用户了。这篇文章我们就来看一下互联网中高端与低端。何为高端,何为低端?可以用地图来解释一下,如果一个互联网产品的使用用户开始从我天朝东部发达地区开始,那就可以把它称为高端;反之,如果开始时的用户从转载 2009-04-24 10:32:00 · 4116 阅读 · 0 评论