
搜索引擎
w踏雪w
永远保持一颗谦卑的心。
展开
-
TSE源码中MD5代码分析(1)
MD5算法介绍 本文出自http://www.wenbanana.com稻草人博客,欢迎访问! 原理:MD5以512位分组(即512位二进制数做为一组)来处理输入的信息,且每一分组又被划分为16个32位子分组,经过了一系列的处理后,算法的输出由四个32位分组组成,将这四个32位分组级联后将生成一个128位散列值,转换为16进制后就是32个16进制数。。如:MD5("原创 2013-01-24 23:54:55 · 1043 阅读 · 0 评论 -
基于机器学习的知道推荐—Enlister
转载自:http://www.wenbanana.com/?p=580来源:百度搜索研发部官方博客 Enlister—最大的中文问答网站“百度知道”的问题推荐系统名字。这个由几个百度一线工程师研发的系统,自2012年1月上线以来,承担着百度知道千万级登录用户的问题推荐计算。问题的开始 百度知道这样的问答社区型网站有个典型特点:有些用户在平台上提出问题,转载 2013-02-05 23:50:38 · 859 阅读 · 0 评论 -
使用Lucene开发自己的搜索引擎--(1)倒排索引基础知识
文章来源:http://www.wenbanana.com/?p=6901.单词——文档矩阵 单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图3-1展示了其含义。图3-1的每列代表一个文档,每行代表一个单词,打对勾的位置代表包含关系。转载 2013-02-11 23:19:36 · 1794 阅读 · 0 评论 -
使用Lucene开发自己的搜索引擎–(2)配置环境和索引文件的建立indexer
文章来源:http://www.wenbanana.com/?p=708一、Lucene安装包下载由于我是根据《Lucene In Action》第二版这本书来学习Lucene的,书中使用的是3.x版本的Lucene安装包作为教学资料,于是我下载了lucene-3.6.2版本的。大家最好还是使用3.x版本的,不同版本之间会存在一些差异,可能在编程是会造成一些不必要的错误。我下载的是原创 2013-02-12 00:09:15 · 3062 阅读 · 1 评论 -
使用Lucene开发自己的搜索引擎–(3)indexer索引程序中基本类介绍
(1)Directory:Directory类描述了Lucene索引的存放位置,它是一个抽象,其子类负责具体制定索引的存储路径。FSDirectory.open方法来获取真实文件在文件系统中的存储路径,然后将他们一次传递给IndexWriter类构造方法。Directory dir = FSDirectory.open(new File(indexDir));(2)IndexWri原创 2013-02-12 14:14:38 · 1837 阅读 · 0 评论