
自然语言处理
机器不学习_
深度聚合机器学习、人工智能算法及技术实战
展开
-
新词挖掘
新词挖掘主要分为两部分,计算N-gram以及抽取新词。第一部分的工作主要包括从hadoop上抓取最新的新闻标题,并且提取N-gram,同时计算相应的词频,互信息和条件熵。第二部分的工作主要是在提取的N-gram中,通过结合百科词条,query日志分析来提取可以认为是新词的N-gram。计算N-gram分析提取的中文语料,并且计算N-gram,以及N-gram对应的词频,原创 2013-09-26 00:02:12 · 917 阅读 · 0 评论 -
同义词挖掘
词典&百科词条 1:规则提取数据,对于一些别名,或者关键词括弧类的数据,或者简称等. 2.提取简要关键词,计算夹角余弦.上下文相关性挖掘(需要人工审核) 在所有的文档中,如果两个term经常在相同的上下文下出现,那么这两个词是同义词的可能性较大。基于这个假设, 1. 对文档进行分词,统计每个term的上下文,根据一定的策略对上下文进行剪枝。 2. 把剪枝之后的上下文作为每个term的特征原创 2016-07-07 17:35:48 · 3404 阅读 · 0 评论 -
query相关搜索词&推荐
当用户输入的query相关搜索结果比较少的时候,可以帮助用户扩展搜索内容,或者搜索结果太多的时候可以帮助用户深入定向搜索. 一般在搜索底部出现: 简单的来说,相关搜索的query,其实也是一种关键词推荐.相关搜索query策略:1.query click即网民输入某个query后,在搜索引擎上点击的url,该数据可以简单表示为query-url的pair.当用户输入不同的query,但是原创 2016-07-07 20:08:31 · 7394 阅读 · 0 评论 -
query term weight计算
对query分词后,我们需要对计算query中各个term的权重。Term weighting在文本检索,文本相关性,核心词提取等任务中都有重要作用。 举例来说:“荷尔蒙是什么?”如果分词之后直接进行搜索,可能出来的效果并不是很理想,在不能完全匹配的情况下,”什么“ ”是“ 这样的term对query结果干扰很大。 我们人工进行分析,term weighting结果可能是: “什么 0.1,是0原创 2016-07-07 23:55:14 · 9653 阅读 · 1 评论