
搜索引擎相关
文章平均质量分 65
马如林
桂林电子科技大学计算机硕士,15年+的编程和架构经验,美国PMI认证PMP,Oracle认证Java程序员,信息系统项目管理师,软件设计师,CET6。
展开
-
用户行为模式分析及作用------搜索引擎研究之四
根据用户的搜索关键词推荐相关阅读文章:比如:前期我一直使用linux kneral作为关键词进行搜索,并且点击了相关的部分网站。根据我选用的关键词和频率,时间参数应该可以分析出我是linux源代码的初级学习者。搜索引擎应该可以推荐相关的网站和内容给我,比如放到我的web2.0的桌面上。这样可以让我少走弯路,而获得更快的学习效果和速度。 用户的行为模式分析的其他应用也有:原创 2008-04-04 14:24:00 · 2222 阅读 · 0 评论 -
我的云之旅–Lucene内容存储进入Hadoop(136)
首先了解一下Lucene的使用:package com.rx;索引的建立:import java.io.File;import java.io.IOException;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.lucene.document.原创 2012-04-12 22:47:09 · 3998 阅读 · 1 评论 -
实时搜索将是下一个核心
个人感觉原创 2011-08-29 21:58:09 · 908 阅读 · 0 评论 -
Google的Instant Search没有新意
<br />比当年的地图推出来的时候效果差多了。<br /> <br /> <br />后台改进算法,添加服务器,前台修改AJAX。别的不知道还有啥。原创 2010-09-11 10:33:00 · 855 阅读 · 0 评论 -
Lucene
Index: sequence of documents (a.k.a. Directory) Document: sequence of fields Field: named sequence of terms Term: a text string (e.g., a word)原创 2010-08-19 22:28:00 · 777 阅读 · 0 评论 -
Java为多线程和断点续传准备的
RandomAccessFile oSavedFile = new RandomAccessFile("down.txt","rw"); long nPos = 10; //定位文件指针到nPos位置 oSavedFile.seek(nPos); byte[] b = {a,b}; //从输入流中读入字节流 oSavedFile.原创 2008-06-09 22:30:00 · 1296 阅读 · 0 评论 -
java下载网页并读取内容
下载回来怎么也得读取内容:package com.core.crawl;import java.io.IOException;import com.util.file.Files;public class Crawl { /** * @param args * @throws IOException * @throws原创 2008-06-09 19:38:00 · 10660 阅读 · 8 评论 -
Java多线程下载
同时下载多个文件,不过单文件没有多线程的下载并且没有断点续传功能,继续完善:package com.util.file;public class Files { /*** * 获取应用程序的根目录 * @return 应用程序根目录 */ public static String getSysPath(){ retu原创 2008-06-09 17:27:00 · 1860 阅读 · 0 评论 -
Java的http获取文件
设置范围和和使用RandomAccessFile : private void download() throws IOException { HttpURLConnection httpConn = null; httpConn = (HttpURLConnection) url.openConnection(); httpConn.setRequestMet原创 2008-06-10 17:01:00 · 7486 阅读 · 0 评论 -
今天见到了袁鸣和当当网的俞渝
其中俞渝还提到了一个技术层次的问题:比如在当当搜索 照相机 和 相机 得到的结果是不同的,解释是分词的问题。其实,不应该仅仅是切词的问题,而涉及到更多,比如语义分析(近义,同义)、行为分析、关联性分析等。原创 2008-05-17 18:10:00 · 1835 阅读 · 0 评论 -
开放源代码的全文检索引擎Lucene
··· 2第一节 全文检索系统与Lucene简介··· 3一、 什么是全文检索与全文检索系统?··· 3二、 什么是Lucene?··· 4三、 Lucene的应用、特点及优势··· 4四、 本文的重点问题与cLucene项目··· 5第二节 Lucene系统结构分析··· 5一、 系转载 2008-05-04 16:02:00 · 1459 阅读 · 0 评论 -
Lucene:基于Java的全文检索引擎简介
Lucene:基于Java的全文检索引擎简介作者:车东 发表于:2002-08-06 18:08 最后更新于:2007-04-12 11:04版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明。http://www.chedong.com/tech/lucene.html Lucene是一个基于Java的全文索引工具包。 基于转载 2008-05-04 15:51:00 · 748 阅读 · 0 评论 -
上升最快的关键词------搜索引擎研究之一
今天看google的黑白报,突然发现其上升最快的关键词为“澳大利亚首都”排第一,第二也是类似的这个查询。我突然想起 早上的一篇关于CCTV的新闻播报将澳大利亚的首都说成是悉尼的文章。所以也就明白了为什么。 可见有时候上升最快的关键词其实一般都有一些内在的原因,比如考研的时候和研究生录取的时候各个高校的分数线什么的都会称为热点搜索关键词。 所原创 2008-04-03 15:28:00 · 1366 阅读 · 0 评论 -
相关搜索------搜索引擎研究之三
用过搜索引擎的大家都知道,其有个相关搜索功能。既有推进搜索的意思,但是有时候他也是简单的罗列相关词,并不能理解用户的实际需求。比如:一天我突然看见易中天与小崔说事的视频,我就想去搜索一下,google的搜索结果如下:网页 图片 地图 资讯 视频 博客 更多 ▼ 生活 热榜 网站导航 日历 照片 文档 更多 » ××××××@gmail.com | 我的帐户 |原创 2008-04-03 15:53:00 · 1408 阅读 · 0 评论 -
网页去重------搜索引擎研究之二
网页去重问题也一直是搜索引擎不断值得改进的问题,如果你研究google的去重也会发现,其效果也不是很好,但是其已经尽力了。它也担心去重后会去掉一些好的页面,所以也就让用户自己进行选择了,是降低了用户体验的。 比如搜索“er图实例分析”的结果如下: 网页 图片 地图 资讯 视频 博客 更多 ▼ 生活 热榜 网站导航 日历 照片 文档 更多 » ×××原创 2008-04-03 15:39:00 · 1478 阅读 · 0 评论 -
我的云之旅–HBase调试(139)
下面是运行日志:HBase-site.xmlSee the NOTICE file * distributed with this work for additional information * regarding copyright ownership. The ASF licenses this file * to you under the Apa原创 2012-04-13 22:36:48 · 13944 阅读 · 0 评论