
搜索引擎
whucv
C#、WCF、并行编程
三维建模与图形图像处理(OpenGL/OSG)、VC/MFC
superliuwhu@126.com
展开
-
Lucene.net实现搜索
Lucene.net+ using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Windows.Forms; usi原创 2014-05-25 22:55:57 · 760 阅读 · 0 评论 -
搜索引擎(2)从html中提取文本内容
在实现从Web 网页提取文本之前,首先要识别网页的编码,如果有必要,也要识别网页所使用的语言。整体流程如下: 1. 从Web 服务器返回的content type 中提取编码,如果是gb2312 类型的编码要当成GBK处理。 2. 从网页的Meta 信息中识别字符编码,如果和content type 中的编码不一致,以Meta 中声明的编码为准。 3. 如果仍然无法确定网页所使用的字符集,需原创 2014-06-12 02:08:27 · 1834 阅读 · 0 评论 -
搜索引擎(1)Spider抓取网页
首先需要编写爬虫Spider,可以从网络上下载网页(Pages)的源文件。原创 2014-06-11 23:01:38 · 1003 阅读 · 0 评论