
算法
iteye_424
这个作者很懒,什么都没留下…
展开
-
怎么做自然语言理解搜索
可以简单的认为:自然语言搜索,就是做一个转换( keywords,parameter)=convert(nature language);我们把自然语言转换称为一批关键词和相应的参数。这些转换包括理解用户要查询的类型属于那个方面,错别字的处理等等。怎么把用户的查询规范话。...2008-04-18 12:45:00 · 186 阅读 · 0 评论 -
优快云对推荐系统算法的漠视
互联网海量用户和海量信息面前,信息不再是稀缺的事物,反而出现了信息过载。当大量的信息摆在我们面前的时候,把哪些信息给我们的用户就是一个非常重要的问题了。根据用户的profile,用户最近的浏览记录,或者根据用户当前访问的网页做出推荐就是重要的问题。推荐系统对于提高网站的用户体验,提高网站PV是一个非常重要的问题。 广告对应互联网企业来说是非常重要的。当前g...2012-03-16 12:55:23 · 240 阅读 · 0 评论 -
深入搜索引擎--机器学习方法
机器学习方法在搜索引擎、计算广告中简直是无处不在。[b]spider模块,我们需要分析一个URL需要多长时间抓取一次?[/b] URL的域名的重要性;URL的目录深度;URL中字符串;[b]这个URL是否需要重复抓取?重复抓取的时间是多少?[/b] 抓取过几次;网页内部有多少新的链接数量?[b]一个网站多长时间抓取页面合适?[/b][b]一个网站的重...原创 2012-03-14 22:41:37 · 187 阅读 · 0 评论 -
深入搜索引擎--查询(Query)
[b]1.Query的数据分析[/b] Query即用户在搜索引擎输入查询条件。在通用搜索引擎中,一般是指输入的关键词。而在各类行业或者垂直搜索引擎,还可以输入类目,如优酷网站中可以选择“电影”、“电视剧”这样的类目。在电子商务网站中,各种产品品牌、型号、款式、价格等也是常见的查询条件。 要分析query中每个term的内容,分词是必不可少的工具。分词算法从最简单的最大正向、最大...原创 2012-03-12 22:56:21 · 765 阅读 · 0 评论 -
多个排序数组求交集
如果有多个已经按照从小到大排序的数字数组,如何快速的获取这些数组元素交集,即找到一个子集合在所有的数组中都出现。[img]http://dl.iteye.com/upload/attachment/470754/8aa1bdd9-156f-3ca8-a662-868ebbd813ea.jpg[/img]解决办法:(1)找到最短的数组v[i]作为标准数组。目标集合x必然是v[...原创 2011-04-26 08:01:06 · 578 阅读 · 0 评论 -
《Conditional Random Fields: An Introduction 》阅读笔记
标注和分段任务最好是的方法是使用HMMs和有效状态自动机。HMMs是一种产生模型的一种形式,定义了一种联合概率p(x,y);x,y是随即变量。范围是对观察到的序列和相应的标注序列。必须枚举所有的观察序列。我们希望模型是易处理的,并且不依赖于独立性的假设。满足这种需求的方法之一是定义条件概率p(Y|x),通过特定的观察序列x下的标注序列,而不是使用通过标注和观察序列的联合概率分布。C...2010-06-20 18:03:17 · 234 阅读 · 0 评论 -
针对特定应用的字典压缩算法
要使用字典压缩算法,必须找到一个好的压缩字典。这个字典中的词在原始数据中出现的次数要足够多。出现的愈多的词,压缩比应该越大。 使用字典压缩实现起来比较简单,效率也比较高。但是一个问题是,当压缩和解压缩不是在同一个地方的时候,很难保证同时更新。当不能保证同时更新的时候就对压缩字典的稳定性就有更高的要求。也就是说,不管针对什么原始数据,压缩比的波动幅度不要太大。 ...原创 2009-07-05 11:17:18 · 257 阅读 · 0 评论 -
Query rewriting through link analysis of the click graph.pdf matlab code (demo)
S= [0 0 0 0 0 1 0 0 0 ; 0 0 0 0 0 1 1 0 0; 0 0 0 0 0 1 1 0 0; 0 0 0 0 0 0 1 0 0 ; 0 0 0 0 0 0 0 1 1; 1 1 1 0 0 0 0 0 0 ; 0 1 1 1 0 0 0 0 0 ; 0 0 0 0 1 0 0 0 0; ...2009-12-23 22:03:31 · 100 阅读 · 0 评论 -
如何识别网页中的地址信息
如何识别网页中的地址信息 1、可以考虑使用状态机的识别办法。下表是一个状态转换表。可以识别大多数的地址。如果要识别更多的情况,可以丰富这个表格。 2、使用状态机可以找到一段话中地址的结束位置。 根据状态图的方法判断路的信息是否是正确。 市|县|区|镇|环路|段|路|街|道|巷|胡同|号|楼...2008-04-29 12:48:00 · 344 阅读 · 0 评论 -
在英文搜索时的单词拼写错误问题
用户输入的关键词常常有拼写错误。当单词错误错误的时候,查询结果受到很大的影响。这个时候拼写检查和纠正就非常有用。如google的拼写检查,他不会主动把拼写检查之后的结果给用户。它采取的办法是:给出一个纠正后的单词用于提示。常见的错误如下:(1)barbarossa(2)bussiness 其中business拼写错误(3)Betavus,应该是查询Batavus拼写检查器的算法可以参考:...2008-04-23 19:03:00 · 299 阅读 · 0 评论 -
R安装算法包随机森林的问题
在Rstudio和R命令行安装包都不行,如下:> install.packages("randomForest")trying URL 'http://cran.rstudio.com/bin/macosx/contrib/3.1/randomForest_4.6-10.tgz'Content type 'application/x-gzip' length 157609 bytes ...2014-11-07 23:14:32 · 1994 阅读 · 1 评论