
Search站内搜索、垂直搜索引擎
文章平均质量分 79
zfrong
98年接触计算机,多年Windows软件Web开发经验。知识面广,善于发现问题、分析问题、解决问题。方向:IT项目(策划管理投资).大信息量处理(搜索检索信息抽取挖掘人工智能).
上海MSN:zfrong2000##hotmail.com
展开
-
[原创]2008年我给欧莱雅客户做的化妆品垂直搜索引擎用户网络口碑监测系统演示以及截图
口碑public praise,指用户对品牌的评价,是品牌它触点中的一些关键指标。口碑监测指标全面描述用户(广义的服户)对品牌的评价,包括产品应用消息、企业荣誉、企业公民行为、负品牌现象、论坛与博客监测五个方面。 将口碑引入到品牌指数数据模型中并进行量化监测,是品牌指数系统3.1的一个新功能。在以互联网为特色的新媒体时代,我们需要做的不是需不需要在意口碑,而在于如何以数据方式监测、评估原创 2008-10-30 21:27:00 · 1756 阅读 · 0 评论 -
全文检索系统与Lucene简介[详细全]
第一节 全文检索系统与Lucene简介··· 3一、 什么是全文检索与全文检索系统?··· 3二、 什么是Lucene?··· 4三、 Lucene的应用、特点及优势··· 4四、 本文的重点问题与cLucene项目··· 5第二节 Lucene系统结构分析··· 5一、 系统结构组织··· 5转载 2008-11-06 19:00:00 · 1189 阅读 · 0 评论 -
开源spider一览[c#/java/c++]
spider是搜索引擎的必须模块.spider数据的结果直接影响到搜索引擎的评价指标.第一个spider程序由MIT的Matthew K Gray操刀该程序的目的是为了统计互联网中主机的数目Spier定义(关于Spider的定义,有广义和狭义两种).狭义:利用标准的http协议根据超链和web文档检索的方法遍历万维网信息空间的软件程序. 广义:所有能利用http协议检索web文档的软件转载 2008-11-06 19:09:00 · 2347 阅读 · 0 评论 -
lucene、lucene.NET详细使用与优化详解
1 lucene简介1.1 什么是luceneLucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。1.2 lucene能做什么要回答这个问题,先要了解lucene的本质。实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文转载 2009-01-16 12:32:00 · 3350 阅读 · 0 评论 -
解决海量数据的新思路——分布式数据库
解决海量数据的新思路——分布式数据库 作者构思了一种分布式数据库的架构,并实现了其雏形,现在将其基本思路写出来,希望能起到抛砖引玉的作用。 目前,分布式的概念越来越流行,但是在数据库领域里,分布式的转载 2009-03-09 16:53:00 · 1597 阅读 · 1 评论 -
webhtml网页自动分类(carrot2初步研究)
好久没写blog了,由于之前对毕业设计的要求理解错误,导致研究方向发生了偏移. 在3月7号的时候导师开了一个会才知道要做的系统是一个聚类系统, 之前研究的使用训练集产生分类器的方法是针对"自动归类"的. 香港回来后(3月9~3月16), 开始了这个课题的研究,转载 2009-09-10 11:42:00 · 2379 阅读 · 0 评论 -
15道海量数据处理的问题,牛人不牛人都可以试试!
<br />1. 给你A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件共同的URL。 <br />2. 有10个文件,每个文件1G, 每个文件的每一行都存放的是用户的query,每个文件的query都可能重复。要你按照query的频度排序 <br /> <br />3. 有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16个字节,内存限制大小是1M。返回频数最高的100个词 <br />4.海量日志数据,提取出某日转载 2010-06-20 17:51:00 · 1486 阅读 · 1 评论 -
调用海量智能分词研究版的dll获取分词的结果.cs
//中文分词是中文搜索引擎的基础,主要应用在信息检索、信息挖掘、中外文对译、中文校对、自动聚类、自动分类等很多方面.//这个是我参照VC的例子修改的C#版本。^ ^using System;using System.Text;using System.Collections;using System.Collections.Generic;using System转载 2012-11-24 14:02:35 · 1258 阅读 · 0 评论 -
海量分词研究版C#接口.cs
using System;using System.Collections.Generic;using System.Runtime.InteropServices;using System.Text;namespace HLSSplit{ /// /// 海量分词研究版C#接口 /// public class HL转载 2012-11-24 14:03:04 · 1391 阅读 · 0 评论