- 博客(12)
- 收藏
- 关注
转载 术语Ajax
简介 术语Ajax用来描述一组技术,它使浏览器可以为用户提供更为自然的浏览体验。在Ajax之前,Web站点强制用户进入提交/等待/重新显示范例,用户的动作总是与服务器的“思考时间”同步。Ajax提供与服务器异步通信的能力,从而使用户从请求/响应的循环中解脱出来。借助于Ajax,可以在用户单击按钮时,使用JavaScript和DHTML立即更新UI,并向服务器发出异步请求,以执行更新或查
2006-04-24 23:35:00
969
原创 中文分词
搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上世纪末本世纪初。在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。虽然在国外
2006-04-19 11:10:00
1080
原创 菲度垂直搜索的流程
初始连接地址开始爬行->分析页面->取得有效联结地址(认为有产品购买详情的为有效联结,而一般广告去掉)->使用模板分析页面,得到有价值信息->生成反索引文件(Luncene)
2006-04-19 10:51:00
1117
原创 垂直搜索排序
你说的同步恐怕没有,我人为lucene其实就是类似于mysql,access之类的中小型数据库,只不过是专门为全文检索而设计.在实际使用中,我觉得你所说的同步并不重要.关键的是排序的问题,lucene是按照语意进行打分,按照自然语言的相关度进行打分排序,实际中我们希望有个一个公式.适合与垂直搜索的排序公式.而可以参照的google算法恐怕不适合垂直搜索,因为垂直搜索专门于几个大型的站点,没有bai
2006-04-19 10:34:00
1193
原创 菲度垂直搜索引擎 代码注释 4
’线程池中每个线程对应一个初始的地址,抓到有用的信息后入队Imports System.Text.RegularExpressionsImports System.TextImports System.Data.SqlClientImports System.DataImports System.ThreadingClass VisitObject Dim Qin As Queue
2006-04-18 17:37:00
1296
原创 菲度垂直搜索引擎 代码注释 3
‘给定一个地址 进行页面抓取Imports SystemImports System.NetImports System.ThreadingImports System.TextImports System.IOClass ClientGetAsync Public allDone As New ManualResetEvent(False) Const BUFFER_SIZE
2006-04-18 17:32:00
1104
原创 菲度垂直搜索引擎 代码注释 2
‘代表一个页面结点Public Class UNode Private mpsn As Integer Private msn As Integer Private mlevel As Integer Private mmaxget As Integer Private mtemid As Integer Private mst As String P
2006-04-18 17:30:00
1261
原创 菲度垂直搜索引擎 代码注释 1
Imports System.Data.SqlClientImports System.DataImports System.IOImports Microsoft.VisualBasic胡光伟写与2005-08-12垂直搜索引擎Module Main Public DoneEvent As New ManualResetEvent(False) Public DWork()
2006-04-18 17:17:00
1588
1
原创 菲度垂直搜索引擎代码
菲度http://www.faydu.net 为一个垂直在线搜索的演示版,主要对国内一些购物站点进行搜索整理,现在开源测试版本的代码,供大家讨论。下载说明:1》因为本程序是在服务器上运行,是在多个处理器下运行的,个人电脑上请控制线程数量2》包含一个data 的数据库 还原到sql server 3》收集完毕默认在bin目录有licene生成的反排的索引文件 4》下载地址:htt
2006-04-18 16:55:00
4662
13
原创 开源spider一览
spider是搜索引擎的必须模块.spider数据的结果直接影响到搜索引擎的评价指标.第一个spider程序由MIT的Matthew K Gray操刀该程序的目的是为了统计互联网中主机的数目Spier定义(关于Spider的定义,有广义和狭义两种). 狭义:利用标准的http协议根据超链和web文档检索的方法遍历万维网信息空间的软件程序. 广义:所有能利用http
2006-04-17 02:51:00
1353
原创 关于菲度
菲度搜索提供最全面的在线购搜索搜索以及一体化的企业网站建设:本站搜索引擎采用c#编写,全文检索采用国外的流行的Lucene,我们在改进了Lucene的相关性能后更适合中国的实际国情,检索速度卓越,分词效果优秀.并且在实际爬行网页时,效率明显,因为我们采用多线程 开发在单cpu的运行环境下,抓取百万级的数据量仅需要一个小时.
2006-04-17 02:47:00
1154
原创 什么是垂直搜索引擎
垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。 垂直搜索引擎能否赢得市场? 垂直搜索引擎为用户提供的并不是上百甚至上千万相关网页,而是范围极为缩小、极具
2006-04-17 02:44:00
8172
12
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人