
数据挖掘
lzj0470
这个作者很懒,什么都没留下…
展开
-
数学之美 系列 12 - 余弦定理和新闻的分类
转贴来源:http://www.googlechinablog.com/2006/07/12.html数学之美 系列 12 - 余弦定理和新闻的分类2006年7月20日 上午 10:12:00<script></script>发表者:吴军,Google 研究员 余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依...原创 2008-12-25 05:34:53 · 103 阅读 · 0 评论 -
关键词权重的量化方法TF/IDF
写这篇文章前,一定要说明一点,我对算法也是刚刚开始研究,一定会有不少地方会有差错,也请高手指正,上次计算相关度的方式发布后,就得到了高人的点化,在此谢谢这位高手,也谢谢大家对我的关注。下面进入主题:今天我想说的是关键词权重的量化方法TF/IDF,为什么说这个呢?因为我们知道,在数量庞大的搜索引擎库里,拥有无数个形容同一事物的词汇,就好像我上次说的手机和彩铃,他们分明是形容同一个类别:移动通讯相...原创 2008-12-28 22:14:21 · 934 阅读 · 0 评论 -
tf-idf
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加,但同时会随著它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相...原创 2008-12-28 22:12:04 · 164 阅读 · 0 评论 -
课题背景概述
文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化的,而文档(web)...原创 2008-12-28 02:58:05 · 1718 阅读 · 0 评论 -
KNN算法 基本思想
KNN(K 最近邻居)算法 该算法的基本思路是:在给定新文本后,考虑在训练文本集中与该新文本距离最近(最相似)的 K 篇文本,根据这 K 篇文本所属的类别判定新文本所属的类别,具体的算法步骤如下: STEP ONE:根据特征项集合重新描述训练文本向量 STEP TWO:在新文本到达后,根据特征词分词新文本,确定新文本的向量表示 STEP THREE:在训练文本集中选出与新文本最相...2008-12-27 10:08:35 · 1355 阅读 · 0 评论 -
基于词性的特征提取方法
上一节所介绍的这些方法 ,在英文特征提取方面都有各自的优势 ,但用于中文文本 ,并没有很高的效率。主要有 2 个方面的原因 :1) 特征提取的计算量太大 ,特征提取效率太低 ,而特征提取的效率直接影响到整个文本分类系统的效率。2) 经过特征提取后生成的特征向量维数太高 ,而且不能直接计算出特征向量中各个特征词的权重。特征向量维数太高对于文本分类来说是个致命的缺陷 ,维数过高的特征向量不仅带来...2008-12-27 09:58:35 · 1709 阅读 · 0 评论 -
谈 Page Rank – Google 的民主表决式网页排名技术
谈 Page Rank – Google 的民主表决式网页排名技术2006年2月27日 上午 08:38:00<script></script>发表者: 吴军, Google 工程师 大家可能听说过,Google 革命性的发明是它名为 “Page Rank” 的网页排名算法,这项技术彻底解决了搜索结果排序的问题。其实最先试图给互联网上的众多网站排序的并不是 Goo...原创 2008-12-25 07:44:49 · 147 阅读 · 0 评论 -
一个网页和某个查询的相关性
[我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院系建立一个小的搜索引擎。]我们还是看上回的例子,查找关于“原子能的应用”的网页。我们第一步是在索引中找到包含这三个词的网页(详见关于布尔运算的系列)。现在任何一个搜索...原创 2008-12-25 07:32:54 · 167 阅读 · 0 评论 -
数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)
数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)2006年5月15日 上午 07:15:00<script></script>发表者: 吴军,Google 研究员 [离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算,我们已经介绍过了。这里我们介绍图论和互联网自动下载工...原创 2008-12-25 06:29:41 · 85 阅读 · 0 评论 -
数学之美系列一:图论和网络爬虫 (Web Crawlers)
数学之美系列一:图论和网络爬虫 (Web Crawlers) 建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。数学之美系列一:图论和网络爬虫 (Web Crawlers) 如何自动下载互联网所有的网页呢,它要用到图论中的遍历(Traverse) 算法。 图论中所讨论的的图由一些节点和连接这些节点的弧组...原创 2008-12-25 06:16:02 · 306 阅读 · 0 评论 -
中文分词—新词挖掘篇
大概想法是这样:找词库完毕,剩下没有找到的所有字符串,进行新词挖掘。例如:一篇文章中,没有找到的所有字符串有:1、杨瑞第集国宁你们2、杨瑞来你们来国宁3、过来要不要去4、要不要过来啊经过新词挖掘,可以得到[color=red]杨瑞->你们->国宁->要不要->过来->[/color]欢迎大家测试!有更好的算法,也可以说一下,讨论讨论~~~[code="j...2011-10-26 18:52:06 · 695 阅读 · 0 评论