
搜索引擎
Supern_Lee
这个作者很懒,什么都没留下…
展开
-
关于lucene
lucene不是一个完整的全文检索应用,它是用JAVA写的全文检索的工具包。lucene包包括:org.apache.lucene.document这个包提供了一些为封装要索引的文档所需要的类,比如 Document, Field。这样,每一个文档最终被封装成了一个 Document 对象。org.apache.lucene.analysis这个包主要功能是对文档进行分词,因为文档在建立索引之前必原创 2007-04-28 14:45:00 · 682 阅读 · 0 评论 -
对Spider网络蜘蛛的理解
Spider,网络蜘蛛,又叫网络机器,它是搜索引擎的主要模块:网络蜘蛛负责抓取网络上的网页数据,再通过分词技术对网页数据建立索引,然后对网页根据一些相关性排序。基本原理:Spider通过网页上的链接从一个网页(一般是首页)访问到另一个网页,从而实现对整个网络的数据收集。其实是把网状转变成树形去遍历,对树的遍历我们知道有广度优先和深度优先,一般采用广度优先。我们还知道遍历树有前序、中序和后序,不同的...2007-04-27 01:55:14 · 799 阅读 · 0 评论 -
一个简单的JAVA网页爬虫
周末没事自己用JAVA简单的实现了一个网页爬虫.主要代码: 引用内容public class Access implements Runnable{ HttpURLConnection huc; InputStream is; BufferedReader reader; String url; public Access(){ try...2007-04-26 17:43:30 · 165 阅读 · 0 评论 -
Google的技术基石--GFS
李开复说过,Google最牛B的技术就是他的store。由45万台X86的计算机组成,动则数百TB的数据,怎么才能最好的实现并行处理呢?Google开发了自己的文件系统GFS(google file system)。在GFS的架构中,GFS集群由一个单个的master和许多个chunkserver组成,GFS集群有许多client的访问。每个chunk比普通文件系统的block要大的多,大小为64...2007-04-26 17:43:27 · 147 阅读 · 0 评论 -
Google的数据结构
我们知道Google的海量存储一般都是TB(2^40bytes),PB(2^50 bytes)级别的,传统的数据库无法应对如此庞大且高效率的查询,Google设计了自己的存储结构-bigtable.行:行关键字可以是任意字符串,方便并发的原子操作.一般为反向URL列:列族是最小的访问控制基本单位.结构:列族:限定词.可以方便的添加和删减列时间戳:方便版本控制....2007-04-26 17:43:27 · 295 阅读 · 0 评论 -
对Spider网络蜘蛛的理解
Spider,网络蜘蛛,又叫网络机器,它是搜索引擎的主要模块:网络蜘蛛负责抓取网络上的网页数据,再通过分词技术对网页数据建立索引,然后对网页根据一些相关性排序。基本原理:Spider通过网页上的链接从一个网页(一般是首页)访问到另一个网页,从而实现对整个网络的数据收集。其实是把网状转变成树形去遍历,对树的遍历我们知道有广度优先和深度优先,一般采用广度优先。我们还知道遍历树有前序、中序和后序,不同的原创 2007-04-28 14:49:00 · 1186 阅读 · 0 评论 -
Google的技术基石--GFS
李开复说过,Google最牛B的技术就是他的store。由45万台X86的计算机组成,动则数百TB的数据,怎么才能最好的实现并行处理呢?Google开发了自己的文件系统GFS(google file system)。在GFS的架构中,GFS集群由一个单个的master和许多个chunkserver组成,GFS集群有许多client的访问。每个chunk比普通文件系统的block要大的多,大小为64原创 2007-04-28 14:44:00 · 775 阅读 · 0 评论 -
一个简单的JAVA网页爬虫
周末没事自己用JAVA简单的实现了一个网页爬虫.主要代码: 引用内容public class Access implements Runnable{HttpURLConnection huc;InputStream is;BufferedReader reader;String url;public Access(){try {url="http://www.yahoo.com.cn"原创 2007-04-28 14:26:00 · 2494 阅读 · 0 评论 -
Google的数据结构
我们知道Google的海量存储一般都是TB(2^40bytes),PB(2^50 bytes)级别的,传统的数据库无法应对如此庞大且高效率的查询,Google设计了自己的存储结构-bigtable.行:行关键字可以是任意字符串,方便并发的原子操作.一般为反向URL列:列族是最小的访问控制基本单位.结构:列族:限定词.可以方便的添加和删减列时间戳:方便版本控制.原创 2007-04-28 14:26:00 · 996 阅读 · 0 评论 -
关于lucene
lucene不是一个完整的全文检索应用,它是用JAVA写的全文检索的工具包。lucene包包括:org.apache.lucene.document这个包提供了一些为封装要索引的文档所需要的类,比如 Document, Field。这样,每一个文档最终被封装成了一个 Document 对象。org.apache.lucene.analysis这个包主要功能是对文档进行分词,因为文档在建立索引之前必...2007-04-27 01:55:15 · 136 阅读 · 0 评论