
数学之美
zhaixh_89
这个作者很懒,什么都没留下…
展开
-
如何计算两个文档的相似度(二)
上一节我们介绍了一些背景知识以及gensim , 相信很多同学已经尝试过了。这一节将从gensim最基本的安装讲起,然后举一个非常简单的例子用以说明如何使用gensim,下一节再介绍其在课程图谱上的应用。 二、gensim的安装和使用 1、安装 gensim依赖NumPy和SciPy这两大Python科学计算工具包,一种简单的安装方法是pip install,但是国内因为网络的缘故常常失转载 2013-12-24 09:59:38 · 1513 阅读 · 0 评论 -
奇异值分解(SVD)详解
SVD分解 SVD分解是LSA的数学基础,本文是我的LSA学习笔记的一部分,之所以单独拿出来,是因为SVD可以说是LSA的基础,要理解LSA必须了解SVD,因此将LSA笔记的SVD一节单独作为一篇文章。本节讨论SVD分解相关数学问题,一个分为3个部分,第一部分讨论线性代数中的一些基础知识,第二部分讨论SVD矩阵分解,第三部分讨论低阶近似。本节讨论的矩阵都是实数矩阵。 基础知识 1. 矩阵的秩转载 2013-12-23 19:26:44 · 657 阅读 · 0 评论 -
Python分词模块推荐:结巴中文分词
就是前面说的中文分词,这里需要介绍的是一个分词效果较好,使用起来像但方便的Python模块:结巴。 一、结巴中文分词采用的算法 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法 二、结巴中文分词支持的分词模式转载 2013-12-24 17:00:12 · 3446 阅读 · 0 评论