垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。
整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。
垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索……几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。
举个例子来说明会更容易理解,比如购物搜索引擎,整体流程大致如下:抓取网页后,对网页商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、……”然后对信息进行清洗、去重、分类、分析比较、数据挖掘,最后通过分词索引提供用户搜索、通过分析挖掘提供市场行情报告。
垂直搜索引擎大体上需要以下技术
1.Spider
2.网页结构化信息抽取技术或元数据采集技术
3.分词、索引
4.其他信息处理技术
垂直搜索引擎的技术评估应从以下几点来判断
1.全面性
2.更新性
3.准确性
4.功能性
垂直搜索的进入门槛很低,但是竞争的门槛很高。没有专注的精神和精湛的技术是不行的。行业门户网站具备行业优势但他们又是没有技术优势的,绝对不要想像着招几个人就可以搞定垂直搜索的全部技术,作为一个需要持续改进可运营的产品而不是一个项目来说对技术的把握控制程度又是垂直搜索成功的重要因素之一。
-----------------------------案例
三大传统招聘网络市场占有率不断提升,对垂直搜索的依懒性降低?
据iResearch数据显示三大传统招聘网络占了市场覆盖率的60%,并有进一步上升的趋势,所以有人认为三大传统,招聘网络市场占有率不断提升直接影响垂直搜索的发展。
我记得刚到厦门时,去当地人才市场找工作时,直接上厦门人才网(xmrc.com.cn)就能找到。我同学找工作竟然先在网上找好几家公司,直接针对该公司写简历。这说明xmrc网与人才市场结合,信息的有效性非常高,任何其它招聘网在厦门都无法取代他的地位。
又比如我现在深圳,深圳都是使用中国人才热线(cjol.com),51job和chinahr在深圳商业中心-华强北即可以看到他们的巨幅广告,却根本无法打动这里的市场。
一个地方招聘网站只要能够基本满足基本招聘需求,新进入者成功的可能非常小。所以招聘网站明显存在太多的地域性差距,而求职者却不太明白该找哪个求职站是最有效的,这时垂直搜索做一些选择和筛选即可把自己的优势体现出来。三大招聘网的覆盖率高只是他们进一步圈地的嚎头罢了。
传统网络招聘是以企业为中心,即作为一家猎头公司。目前借助即时通讯、个人博客SNS等模式招聘越来越多,必然会出现以用户为中心的互动网络招聘。
所以三大传统招聘网络市场占有率上升,并不能阻止Web2.0模式网络的发展。