
搜索引擎
文章平均质量分 71
safecom
物联网云计算运营平台
展开
-
搜索引擎重复网页发现技术分析
中科院软件所 张俊林TIMESTAMP:2006年6月1日一. 介绍统计结果表明,近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如 HTML, Postscript),文献[Models and Algorithms转载 2008-11-22 22:08:00 · 676 阅读 · 0 评论 -
转帖-后缀数组构造原来如此简单
原文:http://blog.likeshow.net/article.asp?id=77 public int[] getSuffixArray(String str){if (str == null)return null;// 初始化后缀数组String[] suffix = new String[str.length()];for (int i = 0; i suffix[i] =转载 2008-11-23 02:01:00 · 459 阅读 · 0 评论 -
转帖-有关后缀数组几个经典问题
转载 2008-11-23 01:49:00 · 434 阅读 · 0 评论 -
转帖-POJ 2774 后缀数组 题目要求:求s1,s2的最大子串
题目要求:求s1,s2的最大子串思路:将s1,s2合并为一个字符串s, 也就是求s的max(lcp[i][j]), 唯一i,j分别位于s1和s2, 利用后缀数组计算s的h[]或者height[]数组,那么答案即为h中的最大值。证明如下:s1,s2一定存在最大子串t,t为s1的子串t1和s2的子串t2的lcp[t1][t2], 假设t1,t2在后缀数组中不相邻,则任意取后缀数组中位于t1,t转载 2008-11-23 01:56:00 · 589 阅读 · 0 评论