
课程相关
ppdouble
这个作者很懒,什么都没留下…
展开
-
倒排文件索引结构
倒排文件索引结构。该结构及相应的生成算法如下:0)设有两篇文章1和2文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too.文章2的内容为:He once lived in Shanghai.1)首先我们要取得这两篇文章的关键词,通常我们需要如下处理措施a.我们现在有的是文章内容,即一个字符串,我们先要找出字符串中的所有单词,即分词。英文单词由于用空格分隔,比较好处理。中文单词间是连在一起的需要特殊的分词处理。b.文章中的”in”, “once” “to转载 2010-11-03 19:30:00 · 896 阅读 · 0 评论 -
TF-IDF
—— 一直说TF-IDF,终于开始做真正的TF-IDF。 TF/IDF(term frequency/inverse document frequency) 的概念被公认为信息检索中最重要的发明。 一。TF/IDF描述单个term与特定document的相关性 TF(Term Frequency): 表示一个term与某个document的相关性。 公式为这个term在docu转载 2010-11-03 19:45:00 · 933 阅读 · 0 评论