相似性
文章平均质量分 67
蓝星潮
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
文档聚类概述
前面我简单介绍了NMF在文档聚类上的应用。这次我会系统介绍一下文档聚类的一些内容,让大家有一个整体的印象。1 绪论 文档聚类(或文本聚类)是更大领域的数据聚类的一个子集,从信息检索(IR)、自然语言处理(NLP)和机器学习(ML) 等领域借用概念。一个好的文档聚类方法,计算机可以自动地将文档语料库组织成一个有意义的群集层次结构,从而使语料库高效浏览和导航。文档聚类可转载 2014-12-07 23:01:52 · 1779 阅读 · 0 评论 -
科技术语语义相似度计算方法研究综述
引用本文徐健, 张智雄, 肖卓, 邓昭俊. 科技术语语义相似度计算方法研究综述. 现代图书情报技术, 2010, 26(7-8): 51-57Xu Jian, Zhang Zhixiong, Xiao Zhuo, Deng Zhaojun. Review on Scientific and Technical Term Semantic Similarity Measure Methods转载 2014-12-07 23:07:03 · 2181 阅读 · 0 评论 -
数据标准化
数据标准化转载▼数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。 其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上,常见的数据归一化的方法有:min-max标准化(Mi转载 2014-11-30 22:43:45 · 689 阅读 · 1 评论 -
数据标准化(归一化)处理
数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两种常用的归一化方法:一、min-max标准化(Min-Max Normalization)也称为转载 2014-11-30 22:34:22 · 3162 阅读 · 0 评论 -
向量空间模型——计算文本(英文)相似度
http://blog.chinaunix.net/uid-26548237-id-3541783.html1、向量空间模型 向量空间模型作为向量的标识符,是一个用来表示文本文件的代数模型。它应用于信息过滤、信息检索、索引以及相关规则。 文档和问题都用向量来表示。 每一维都相当于一个独立的词组。如果这个术语出现在文档中,那它在向量中的值就非零。转载 2014-12-07 22:59:30 · 2813 阅读 · 0 评论 -
合取范式的可满足性判定算法和谓词逻辑不可判定性
http://somefuture.iteye.com/blog/2065032合取范式的可满足性判定算法和谓词逻辑不可判定性博客分类: 数理逻辑作为本系列的最后一篇文章,我们来看被广为研究的SAT问题。SAT问题是第一个被证明为NP问题的判定问题。更多信息可以去百度或者维基一下。 前面我们看到了Horn公式可满足性的转载 2015-03-02 00:01:04 · 2353 阅读 · 0 评论
分享