
搜索引擎
文章平均质量分 77
chief1985
好好学习
展开
-
解剖Google搜索原理 The Anatomy of a Large-Scale Hypertextual Web Search Engine
解剖Google搜索原理 By mast转载 2007-04-30 16:08:00 · 4398 阅读 · 0 评论 -
ConceptDraw WebWave 5.8 網站結構分析工具 - wowbox blog (網頁設計知識庫)
导读: ConceptDraw WebWave 是一款網站架構工具,專為職業網頁設計者,網管,開發者,建築者和網站設計公司管理層職員而設計。是網站和應用程序原型開發和設計階段,網頁模塊化以及網站佈置階段必備工具。Key features: Website file structure scanner;Powerful drawing tools;Extended export/import原创 2007-11-17 16:55:00 · 2682 阅读 · 0 评论 -
WEB网页结构化信息抽取技术介绍(网页库级)
导读: WEB结构化信息抽取就是将网页中的非结构化数据按照一定的需求抽取成结构化数据。是垂直搜索引擎和通用搜索引擎最大的差别。 如:比较购物搜索那就需要抓取网页后,对网页中的商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、……” 房产信息搜索那就应该抽取出那应该抽取出:类型、地域、地址、房型、面积、装修情况、原创 2007-11-17 16:56:00 · 2764 阅读 · 0 评论 -
VIPS:基于视觉的页面分割算法[微软下一代搜索引擎核心分页算法]
导读: 目前,随着互联网的高速发展,Web已经成为这个世界上最大的信息来源。Web 作为信息技术的载体已成为人们重要的工作、学习、生活、娱乐工具。Web的发展给人类生活带来了巨大的方便,人们可以跨越时间和空间界限来共享大量信息。但是如何去获取这些Web信息为我们所用则是大家面临的共同问题。在最基本的层次上,整个Web网络就是由无数的Web页面而构成,因此如果获取了这些Web页面就相当于原创 2007-11-17 16:44:00 · 1439 阅读 · 0 评论 -
网页结构提取
网页爬虫程序加网页结构化提取程序 信息作者: 李战 (hash:4024620258) 发表时间: 2006-03-10 11:34:33 阅读次数: 44 信息内容: 本信息...而网页内容提取可能需要根据不同的网址模式来定义提取模式。内容项的定位往往需要先找到特征的标题文字再提取随后的内容... www.cndev.org/foru原创 2007-11-17 16:46:00 · 3175 阅读 · 0 评论 -
分布式多搜索引擎系统的研究与实现 - 更专、更深、更强--从Scirus看搜索引擎的发展 刘海霞,李后卿,
更专、更深、更强--从Scirus看搜索引擎的发展 刘海霞,李后卿,搜索引擎虽已成为互联网上最重要的工具之一,但目前的搜索引擎存在一定的不足.现介绍一种专业搜索引擎Scirus,分析其分布式多搜索引擎系统的研究与实现 A multi-search engine technology [微计算机信息 Control & Automation] 陈旭春 http://www.ilib.cn/A原创 2007-11-17 16:47:00 · 1913 阅读 · 0 评论 -
搜索引擎
导读: 【概念】 搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。 从使用者的角度看,搜索引擎提供一个包含搜索框的页面,在搜索框输入词语,通过浏览器提交给搜索引擎后,搜索引擎就会返回跟用户输入的内容相关的信息列表。 互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。网原创 2007-11-17 16:49:00 · 12400 阅读 · 0 评论 -
百度二级域名大全 目前为234个http://www.twocity.cn/blog/article.asp?id=818
平常注意到百度有很多二级域名,最近凡是看到的都收集起来。这里收集的百度二级域名是全部正在使用的,已经没有使用的没有统计(表现为无法打开)。以前有粉丝收集过百度二级域名大全,已经有很多无法打开了,加上现在又新增了很多二级域名,今天KissBaidu做个全面的统计。 大致的分为3大类: 产品服务类132;(不用说了,肯定是最多的,呵呵) 市场活动类68个;(一些活动或者市场方面的域名,内部域名也转载 2007-11-21 12:35:00 · 20775 阅读 · 0 评论 -
FTP搜索引擎的设计与实现http://blog.youkuaiyun.com/heiyeshuwu/archive/2007/03/25/1540532.aspx
FTP搜索引擎的设计与实现 张运凯 刘宏忠 郭宏刚转载 2007-11-27 16:06:00 · 1354 阅读 · 0 评论 -
Web搜索引擎设计和实现分析http://www.cce.cc/study/asp/2007/6/07622151319803.html
Web搜索引擎设计和实现分析 发布日期:[07-06-22 15:13:19] 点击次数:[ ]转载 2007-11-27 16:07:00 · 1914 阅读 · 0 评论 -
搜索引擎开源项目技术准备 http://oss.lzu.edu.cn/blog/article.php?tid_246.html
说明 由于本人初步接触搜索引擎技术,好多东西都不熟悉,如果有叙述得不专业甚至错误的地方敬请批评指正。前言 猎鹰搜索虽然基本成型,而且还比较稳定的运行至今。但是,现在回头想想,虽然是自己花费了好多心思的结晶,但是就技术而言。我不得不承认,基本上是没有多少技术含量的。 为什么这么说呢? 不知道你看过我的《FTP搜索引擎的设计与实现(优化版)》,里头虽然道出了搜索引擎的基本原理,但是并没有触及到转载 2007-11-27 17:35:00 · 1976 阅读 · 1 评论 -
什么是SEO http://www.seozone.net/search-engine-optimization/what-is-seo.html
什么是SEOSEO是Search Engine Optimization的缩写,用英文描述是to use some technics to make your website in the top places in Search Engine when somebody is using Search Engine to find something,翻译成中文就是“搜索引擎优化”,一般转载 2007-11-04 00:28:00 · 1186 阅读 · 0 评论 -
基于既定词表的自适应汉语分词技术研究http://www.pipcn.com/blog/user1/master/archives/2006/1099.shtml
基于既定词表的自适应汉语分词技术研究 By master 发表于 2006-12-13 10:42:00 [出自: 黄水清;程冲] 【摘要】 本文提出了一种汉语分词算法。在给转载 2007-04-30 16:13:00 · 2568 阅读 · 0 评论 -
NICTCLAS:词法分析系统ICTCLAS的.NET版(源码提供下载) http://www.cnblogs.com/edison1024/archive/2006/05/03/390832.aspx
再次声明,请下载的朋友使用VS2005打开和安装.NET框架2.0。源码为C++/CLI,不是C#,请不要再发邮件问我相关问题。谢谢合作。源码在文末下载NICTCLAS是大名鼎鼎的中科院计算所语词法分析系统ICTCLAS免费版的.NET包装版本,在原有免费EXE源码的基础上使用C++/CLI封装成NICTCLAS.dll,将原CResult类改写成NICTCLAS managed class,转载 2007-10-28 20:46:00 · 1565 阅读 · 0 评论 -
代码解说一个网络爬虫的实现过程(一) http://www.it-park.cn/Group/TopicInfo.aspx?TopicIndex=6
代码解说一个网络爬虫的实现过程(一) 2007-10-29 15:48:48-会对这个话题感兴趣的兄弟,估计就不用我解释什么是网络爬虫了。呵~简单带一下:网络爬虫,俗称蜘蛛,是一种自动化程序,能够抓取互联网上各站点的网页回来。之所以得以名,应该是把互联网比喻成一个由超链接组成的网,爬虫就可以从一个起始的链接开始,不断的地爬数据回来。 这个层次上讲,只要转载 2007-10-29 16:14:00 · 2882 阅读 · 0 评论 -
推荐一下,ictclas4j很好的java分词系统http://blog.youkuaiyun.com/dongle2001/archive/2007/07/30/1717100.aspx
ictclas4j中文分词系统是sinboy在中科院张华平和刘群老师的研制的FreeICTCLAS的基础上完成的一个java开源分词项目,简化了原分词程序的复杂度,旨在为广大的中文分词爱好者一个更好的学习机会。 关于ICTCLAS分词系统的讨论,请访问google group关于ictclas分词系统的讨论组http://groups.google.com/group/ictclas转载 2007-10-30 16:13:00 · 1681 阅读 · 0 评论 -
搜索引擎之中文分词实现(java版)http://dev.youkuaiyun.com/author/jnsuyun/93a3a18757e34954ad24e1a3a2a2902c.html
搜索引擎之中文分词实现(java版) 前几天读到google研究员吴军的数学之美系列篇,颇有感触。而恰好自己前段时间做了个基于统计语言模型的中文切分系统的课程项目,于是乎,帖出来与大家共同学习。分词技术在搜索引擎,信息提取,机器翻译等领域的重要地位与应用就不敖述了。步入正题:) 一、 项目概述 本切分系统的统计语料是用我们学校自己开放的那部分,大家可以在 这里 下载,转载 2007-10-30 16:16:00 · 1286 阅读 · 0 评论 -
lucene的中文分词器http://www.blogjava.net/dreamstone/archive/2007/06/22/125726.html
lucene的中文分词器到现在还没有好的解决办法。下边介绍了两个lucene自己提供的分词器和一个javaeye上的网友实现的分词器。关于各个分词器的不同见代码中的print信息。直接运行得到console的输出结果更容易对比不同。package analyzer;import java.io.Reader;import java.io.StringReader;import org.apa原创 2007-10-30 16:18:00 · 1966 阅读 · 0 评论 -
ICTCLAS分词系统Java调用接口在Eclipse中的安装 http://blog.youkuaiyun.com/CloneIQ/archive/2006/07/20/945909.aspx
ICTCLAS分词系统Java调用接口在Eclipse中的安装(作者:刘利军 昆明理工大学 智能系统研究室)实验环境:JDK1.5、Eclipse3.1、XP操作系统分词系统Java接口解压包:d:/fenci(http://www.nlp.org.cn中查找下载)导入步骤:在Eclipse中新建Java项目,名称为:WordSpli,目录结构如下所示: 右击WordSplit项目,选择“转载 2007-10-30 16:20:00 · 1832 阅读 · 0 评论 -
在基于Struts构架的Java Web项目中加入ICTCLAS分词http://blog.youkuaiyun.com/CloneIQ/archive/2006/08/09/1043088.aspx
在基于Struts构架的Java Web项目中加入ICTCLAS分词(昆明理工大学 智能系统实验室 刘利军 QQ:93612798) 在基于Web的搜索引擎中,对文本分词是不可缺少的,本文介绍如何将中科院的ICTCLAS分词模块加入到Web项目中,项目结构为JSP+Tomcat +Struts+JavaBean,使用Eclipse作为IDE,并安装了MyEclipse插件,以提转载 2007-10-30 16:23:00 · 1945 阅读 · 2 评论 -
应用Lucene.net建立全文索引引擎 http://webliver.com/u/guozhen/Blog/archive/2006/08/28/8323.aspx
应用Lucene.net建立全文索引引擎 具体方案:1.建立索引为60篇记事本文档的中文小说建立索引,分析器采用Lucene.Net.Analysis.Cn.ChineseAnalyzer()(这个索引器是从http://www.cnblogs.com/dudu/archive/2004/06/22/17783.aspx下载的,是dudu修正bug后的版本,感谢dudu.)统计索引的建立时间.转载 2007-11-01 22:35:00 · 1352 阅读 · 0 评论 -
《网络机器人java编程指南》源代码下载http://www.goldenbg.com/article.asp?id=644
《网络机器人java编程指南》源代码下载!http://www.goldenbg.com/article.asp?id=644作者:golden 日期:2006-09-09字体大小: 小 中 大 <!--google_ad_client = "pub-3178351830176495";google_ad_width = 336;google_ad_h转载 2007-10-15 13:56:00 · 2638 阅读 · 0 评论 -
Google悄悄跟踪用户点击:有可能根据搜索结果点击率改善排名 http://www.chedong.com/blog/archives/000397.html
GOOGLE的界面中很早就已经加入了基于鼠标事件的用户点击系统,比如这样一个搜索结果的标题链接:<a href=http://www.geeklog.net/staticpages/index.php/CVSonmousedown="return clk(15,this)" target=nw>Geeklog -AnonymousCVS Access在这个链接的点击过程中,转载 2009-01-19 14:11:00 · 1353 阅读 · 0 评论