
Search Engine
文章平均质量分 71
Super.Jiju
C
Algorithms
Data mining
Web Mining
展开
-
Trends in Web Search
Relevance ->>Intelligence ̵Knowledge search, helping users find answers instead of links, gain insights about a topic, and complete tasks ̵Thus, building infrastructures for web-scale data m转载 2008-03-29 22:46:00 · 838 阅读 · 0 评论 -
赞一下youdao搜索!
很久以前我在闲聊的时候说:在一个社区里面,有很多的link,如果对一个link添加上预览功能,是不是会起到很好的效果呢?刚才使用了youdao.com,发现youdao就有这个功能,哈哈,看来我还是有先见之明啊; 这样的好处很明显:1.极大地节省了用户的时间;2.很好的解决了snippets的不足;3.特别在网速慢的像屎一样的地方,这种优越性更是不言而喻的;最后再来个小结论:不久的日子,很原创 2009-05-17 20:21:00 · 2095 阅读 · 1 评论 -
说说拼写检查,spell checking
说说拼写检查,spell checkinghttp://super-jiju.spaces.live.com/Google的拼写检查做的很神奇,以一个相当高的准确率来判断你的输入是不是正确的;但是其中如何做的,谁也不清楚;这篇文章http://www.norvig.com/spell-correct.html, 里面描述了一个简单的模型; 但是上面这个模型的准原创 2009-05-17 19:04:00 · 2411 阅读 · 0 评论 -
Latent Semantic Analysis(LSA)
Latent Semantic Analysis(LSA)这个东东效果还不错以前听过,可以理解将矩阵进行去噪;或者说把问题转换到这个矩阵的某个空间里面去用了SVD方法将特征向量空间进行推广;这里有个文档,不错,通俗易懂的描述了lsa;点击这里下载;http://3sztgg.blu.livefilestore.com/y1p7bK-BNxqs4NXZKCufRAPnts2J7oQ0RxI7Zv原创 2009-05-19 15:36:00 · 2184 阅读 · 0 评论 -
Query Segmentation Demo Release!
My demo about query segmentation which is based on prior paper has been released!If you are interested in it, You can view it with the site below:http://cid-806c498ddee76b61.skydrive.live.com/self原创 2009-07-27 13:05:00 · 2071 阅读 · 0 评论 -
分词的那些事
<br />September 21分词的那些事(一)分词的那些事<br />By Super.Jiju<br />好久没更新blog了,前天为了让群里面的技术气氛活跃点,以及也整理整理自己的一些知识以便与大家交流,所以我把分词的前前后后介绍一下,希望大家多多指教。<br /><br /><br /><br />分词是中文自然语言处理里面最基础的工作,因此大家说到中文信息处理的时候,都会说到中文分词。事实上,切分的思想是没有语言边界的,下面从我的理解分别说一说分词的前因后果。整个介绍分为分词的需求背景,分词原创 2010-09-23 14:59:00 · 2070 阅读 · 0 评论 -
利用C语言获取网页源代码
December 02利用C语言获取网页源代码 #include #include #include #pragma comment(lib, "ws2_32.lib") void geturl(char *url) { WSADATA WSAData={0}; SOCKET sockfd; struct sockaddr_in addr; struct hostent *pURL; cha原创 2008-12-02 10:58:00 · 10392 阅读 · 2 评论 -
特征值与特征向量的数值计算; Matrix Eigenvalues and Eigenvectors Calculating
http://super-jiju.spaces.live.com/blog/cns!806C498DDEE76B61!590.entry特征值与特征向量的数值计算; Matrix Eigenvalues and Eigenvectors Calculating 这里给一个link,比较全面:http://3sztgg.blu.livefilestore.com/y1p2F8Lb8eNd原创 2009-05-17 19:03:00 · 2817 阅读 · 0 评论 -
如何提取一个query的concepts?
在一些基于object搜索,或者directory方面等等搜索,需要将一个query进行分割处理;比如:”Chineserestaurant at Bukit Timah Road“,有没有什么办法可以将这个query分成“Chinese restaurant”和“Bukit Timah Road”呢?然后再到数据库里面查找这两个concept对应的内容; http://su原创 2009-05-17 19:25:00 · 2167 阅读 · 0 评论 -
如何使用搜索引擎 zZ
搜索引擎为用户查找信息提供了极大的方便,你只需输入几个关键词,任何想要的资料都会从世界各个角落汇集到你的电脑前。然而如果操作不当,搜索效率也是会大打折扣的。 http://super-jiju.spaces.live.com/blog/cns!806C498DDEE76B61!564.entry 比方说你本想查询某方面的资料,可搜索引擎返回的却是大量无关的信息。这种情况原创 2009-05-17 19:01:00 · 3925 阅读 · 0 评论 -
Top 10 Myths about Search Engine
http://www.searchforum.org.cn/seminar/lectures/2006-9-25-JirongWen-Search%20Engine%20Overview.PDF •Myth:Some search engines are close to “perfect”.•Fact:They are perfect because you have no choice转载 2008-03-30 15:20:00 · 972 阅读 · 0 评论 -
•Top 10 Challenges in Search Engine
http://www.searchforum.org.cn/seminar/lectures/2006-9-25-JirongWen-Search%20Engine%20Overview.PDF #1: Spamming and Content Quality•Click =>Money, Spam=>Click ==> Spam->Money•An endless game betw转载 2008-03-30 16:31:00 · 790 阅读 · 0 评论 -
国内搜索引擎技术现状 zZ
当你登录某一个网站,在互联网上搜索各个网站的某一类内容,比如,输入“WTO”,希望得到最新、最全面的信息,你能等待多长时间? 几年前,人们希望十几秒,最多30秒钟就能得到结果,而现在的期望值是1~2秒,也就是说,伴随点击鼠标的“咔哒”一声,显示屏的页面已经变了,排在最前面的十几、二十条信息的标题已经出现在你的面前。 哪个网站的搜索速度明显地变快了,那它一定是使用了先进的搜索引转载 2008-10-21 20:19:00 · 1291 阅读 · 0 评论 -
如何做好一个垂直搜索引擎 zZ
先引用几句话: 1.“确解用户之意,切返用户之需。” 2.“门户网站都想着是怎样省钱,而不是怎样花钱来买技术。” 3.“搜索引擎不是人人都能做的领域,进入的门槛比较高。” 4.“只是优秀还不够,最好的方式是将一件事情做到极致。”(google十大真理) 5.“做搜索引擎需要专注” “对于一项排到第四的业务,门户很难做到专注。” 6.“用户无法描述道他要找什么,除非让他转载 2008-10-21 20:20:00 · 1064 阅读 · 0 评论 -
Html to Txt in C++
October 21Html to Txt in C++convert html to txthtml parserC++;本程序可以用来处理spider爬下来的网页,提取其文本,去除html的tag;本程序用于批量转换某个文件夹下面所有的html文件; 程序总共分为2部分,一部分是列出该文件夹下所有的文件(用C++遍历一个文件夹下面所有的文件 Zz原创 2008-11-05 16:04:00 · 2276 阅读 · 0 评论 -
Lemur的安装于初步使用
November 23Lemur的安装于初步使用 参考文档:Installing and Running Lemur(Version 4.7) 偶要补充几句:1.windows环境下,安装之后,在编译程序的时候呢,会有很多的link errors,在网上找了些相关的文档看,原因是安装版本中自带的lemur.lib是release模式下的,有2中选择,你编写的程序compile mode为r原创 2008-11-23 16:19:00 · 3701 阅读 · 1 评论 -
Browse the Index
November 24Browse the Index 参考文档:http://lemur.wiki.sourceforge.net/Example+Applications+in+CPlusPlushttp://www.lemurproject.org/doxygen/lemur/html/classlemur_1_1api_1_1Index.html随便写一个测试程序:#include#inc原创 2008-11-24 18:25:00 · 1350 阅读 · 0 评论 -
AOL Seach query database
AOL Seach query databasehttp://super-jiju.spaces.live.com/blog/cns!806C498DDEE76B61!570.entry500k User Session Collection----------------------------------------------This collection is distrib原创 2009-05-17 18:57:00 · 3812 阅读 · 0 评论 -
分词的那些事(二)
<br />September 23分词的那些事(二)分词的应用背景也是基于上面两种情况来说吧。<br />先说基于信息检索的。根据我们前面的了解,可以知道这个分词在除了切分精度之外,另外一个重要的特征就是保证切分的一致性。比如说:用户搜索时候输入的query中包含的某些词 和 这些词在网页中的环境是不一样的。所以,这个时候,为了能搜索到相关的网页,切词一定要保证一致性。比如“北京市长是谁”,用户的query为“北京 市长”,搜索引擎就切分成“北京”“市长”,如果在网页中“北京市长某某”切分成了“北原创 2010-09-23 15:01:00 · 2038 阅读 · 0 评论