垂直搜索引擎深度分析

垂直搜索引擎专注于特定领域,提供深入、专业的信息服务。相比通用搜索引擎,它们具有实时性、数据挖掘分析、个性化和社会化、智能化语义网以及多元化查询等优势。实时更新、商务智能分析、个性化服务和语义网理解是垂直搜索的重要突破点。国内外已有多个成功的垂直搜索案例,如职友集、去哪儿网等,它们在各自领域提供了独特的价值。

1.何为垂直搜索引擎

所谓垂直搜索引擎(Vertical Search Engine),是针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩。它是与通用搜索引擎截然不同的引擎类型。垂直搜索引擎专注具体、深入的纵向服务,致力于某一特定领域内信息的全面和内容的深入,这个领域外的闲杂信息不收录。
从竞争的角度来讲,垂直搜索引擎要做通用搜索引擎无法做到的事情,或者说,要做得更胜一筹。通用搜索引擎像一堵大墙,而墙上有很多裂纹,垂直搜索引擎就是要去补这些墙上的裂纹。

2.为什么要垂直搜索引擎
从2005以来,越来越多的人在谈论垂直搜索引擎,在关注它。为什么?焦点来自与需求。大家不约而同的看到了互联网一块新的领地,而这块领地中正是群雄割据,大家在等待下一个王者的到来。
这里为什么只谈垂直搜索,而不是通用搜索引擎,原因有三:(1)搜索引擎的技术门槛很高。Google的创始人是超级名校Stanford计算机系的PHD,Baidu的Robin Li也是领了多项搜索技术专利才敢切入搜索领域。可以说,没有3年以上的搜索技术积累,请不要涉及搜索领域。(2)搜索引擎的资金投入非常大,Google光是爬虫服务器就数万之巨,再加上网络带宽的购买,相信这些投入非一般人可以承受。可以说,没有千万级别的资金在手,请不要进入搜索引擎领域。(3)通用搜索引擎经过多年的发展已经非常成熟,各个巨头都已经占山为王, 在快鱼吃慢鱼的互联网里,落后就意味着无法生存。
因此,垂直代表含义是,第一,门槛低,第二,做得更专更深,第三,信息展现力更强。

3.垂直搜索引擎的突破与创新

垂直搜索引擎的优势,将决定它在互联网的一席之地。那么垂直搜索的突破点和创新的东西在哪里?

3.1 实时性

垂直搜索引擎需要获取的信息来自于某一特定领域的,这比起通用搜索引擎漫无边际的信息抓取,有一个非常大的优势,那就是信息的实时性。由于互联网上的信息量非常巨大,通用搜索引擎的数据更新周期短则十几天,长则几个月,而垂直搜索引擎的数据更新完全可以以秒为单位。酷讯的火车票搜索就是典型的实时性垂直搜索。

3.2数据挖掘分析,BI,报表

<
软件介绍: 横瓜垂直搜索引擎,是Windows平台的垂直搜索引擎(不提供网络爬虫),最大可容量6000万条记录。 对于100万条记录规模的数据库,可在2分钟内完成所有架构工作。横瓜垂直搜索引擎分词速度约为 2500万字/分钟,约占99.984%的关键词检索时间小于0.001秒。横瓜垂直搜索引擎的PC硬件配置, 仅需要700M内存、空闲硬盘10G、文件系统NTFS。横瓜垂直搜索引擎采用横瓜分布式Map数据库技 术、分词索引技术、最大左匹配切词技术、倒排技术、MD5摘要信息抽取技术、新词智能识别技术、 硬盘整理加速技术、疑似全文搜索技术、中文海量词典技术、横瓜HTTP检索服务器web-search缓存 技术、HTM转换TXT技术等。 搜索引擎开发及合作,请联系QQ(601069289) 安装说明: 1、第一次使用软件前,先执行Setup.exe。程序add.exe、body.exe、title.exe为系统内核,勿动! 2、架构搜索步骤:须依次单击websearch.exe程序中的按钮"数据清零"、"导入记录"、"标题分词"、 "正文分词"、"WWW查询"。若只对标题分词,无需单击按钮"正文分词"即可。 3、数据清零。建立新的搜索之前,须单击"数据清零"按钮来清除旧数据和旧索引。 4、websearch.exe可管理记录、索引、分词等,若要执行HTTP检索查询服务,websearch.exe须挂机。 5、数据导入。在web目录下,有Access格式的输入接口文件web.mdb(字段id取值越小排名越靠前)。 将待处理数据输入到web.mdb后,单击“导入记录”按钮,web.mdb中的记录被导入到web.dat。在检 索时直接从web.dat取记录,web.mdb仅起接口作用,导入完成后可自愿删留。对于增量记录,可允许 从web.mdb中多次导入新记录,但新增量的记录,检索排名靠后,增量导入后,须再依次单击按钮 "标题分词"、"正文分词"后,才能被检索到。 6、websearch.exe挂机后,从IE中输入"http://IP地址或域名:7777/"可检索查询。在www目录下, 存有搜索引擎的主页和LOGO,客户可以根据个性需要自行修改。 7、使用本软件,必须开放端口:7000、7001、70002、70003、70004、7777、7778 8、本软件使用的基础词典已经用MD5加密封装,用户可以在dic.txt中自由添加新词,新词被添加到 dic.txt后,被检索的几率变大。若不添加新词,也可以被检索到,只是几率稍小些。 9、web目录中web.mdb的记录(制药企业名录)是赠送测试用的,可将待处理数据输入“模板web.mdb” 替换该文件。 10、不得将本软件用于赢利目的、销售他人、非法用途等,否则将会被追究法律责任。 搜索引擎开发及合作,请联系QQ(601069289)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值