
查询扩展
文章平均质量分 64
Sissi_cici
这个作者很懒,什么都没留下…
展开
-
WordNet介绍和使用
zhuWordnet是一个词典。每个词语(word)可能有多个不同的语义,对应不同的sense。而每个不同的语义(sense)又可能对应多个词,如topic和subject在某些情况下是同义的,一个sense中的多个消除了多义性的词语叫做lemma。例如,“publish”是一个word,它可能有多个sense:1. (39) print, publish -- (put into pri转载 2014-04-15 17:11:17 · 1976 阅读 · 0 评论 -
Windows平台下安装NLTK
在网上找了一圈,没找到几个靠谱的安装流程,在http://nltk.org/install.html上找到各平台下安装流程:Windows平台:以下操作假定你的机器上还没有安装Python,如果你已经安装Python,请跳过最后一步,只需要安装NLTK。32位二进制版安装:1.安装Python:http://www.python.org/getit/,选择2.7.3转载 2014-04-15 17:12:37 · 1152 阅读 · 0 评论 -
WordNet Interface(Wordnet一些有用的函数,做了一下标注方便查找)
WordNet InterfaceWordNet is accessed just another NLTK corpus reader, and can be imported like this:>>> from nltk.corpus import wordnetFor more compact code, we recommend:>>> from nltk.转载 2014-04-17 15:20:20 · 4256 阅读 · 0 评论 -
最大边界相关法(Maximal Marginal Relevance)的总结
MMR(Maximal Marginal Relevance)是一种重新确定文档序值的方法。具体公式如下:由上述公式可以看出sim(Q,di)代表的是di的相关性,而sim(di,dj)代表的是di的冗余性;而MMR的核心,即在权衡这两种性质,即redundancy=cost,relevance=benefit具体重定序的算法如下:解释:为了得到最初的k个文原创 2014-04-18 17:33:42 · 12125 阅读 · 1 评论 -
《N-gram模型》的补充修正
由前一篇转载的文章可知,N-Gram 该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。 如果一个词的出现仅依赖于它前面出现的一个词,那么我们就称之为bigram。 如果一个词的出现仅依赖于原创 2014-04-10 16:05:21 · 1322 阅读 · 0 评论 -
N-gram模型(基于词表)
N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM, Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,避开了许多汉字对应一个相同的拼音(或笔划串,或数字串转载 2014-04-10 15:14:24 · 1867 阅读 · 0 评论 -
N-gram模型的优缺点
不知不觉发现最近学了好多查询扩展方面的东东,对原创 2014-04-10 16:37:19 · 9777 阅读 · 0 评论 -
css如何对齐文本框和旁边的图像按钮
文章来自: 前沿视频教室一个文本框旁边一个按钮是很经常用到的网页内容,比如搜索框等等,而如果旁边的按钮使用图像的话,他们竖直方向就很不容易对齐,即使使用 vertical-align、padding和margin等都不行(特别是在IE中,Firefox中使用vertical-align还可以)。例如有如下代码:转载 2014-04-13 22:48:15 · 1822 阅读 · 0 评论 -
CSS 表单文本框尺寸调整和文本框与按钮对齐问题
今天在用css美化django做出的网页页面时,想把原创 2014-04-13 22:43:22 · 9969 阅读 · 0 评论