基于LSI的职位描述JD 匹配

最新推荐文章于 2023-12-27 16:41:38 发布

南七小僧

最新推荐文章于 2023-12-27 16:41:38 发布

阅读量549

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习人工智能与深度学习算法研究性能优化神经网络 tensorflow keras 最优化自然语言处理 NLP 人工智能

我是南七小僧，邮箱：xkk9866@yeah.net ，C9博士，前百度搜索AI平台产品负责人，欢迎交流思想碰撞。

本文链接：https://blog.youkuaiyun.com/qq_25439417/article/details/82188123

人工智能同时被 3 个专栏收录

242 篇文章 ¥19.90 ¥99.00

订阅专栏

人工智能与深度学习算法研究

91 篇文章 ¥19.90 ¥99.00

订阅专栏

机器学习

43 篇文章 ¥19.90 ¥99.00

订阅专栏

本文介绍了潜在语义索引（LSI）的基本原理和在文本主题模型中的应用，强调了LSI在文本相似度计算中的作用，但指出其在高维度矩阵计算的效率、主题个数选择和非概率模型方面的局限性。测试部分展示了LSI在职位描述JD匹配中的效果。

　在文本挖掘中，主题模型是比较特殊的一块，它的思想不同于我们常用的机器学习算法，因此这里我们需要专门来总结文本主题模型的算法。本文关注于潜在语义索引算法(LSI)的原理。

1. 文本主题模型的问题特点

　　　　在数据分析中，我们经常会进行非监督学习的聚类算法，它可以对我们的特征数据进行非监督的聚类。而主题模型也是非监督的算法，目的是得到文本按照主题的概率分布。从这个方面来说，主题模型和普通的聚类算法非常的类似。但是两者其实还是有区别的。

　　　　聚类算法关注于从样本特征的相似度方面将数据聚类。比如通过数据样本之间的欧式距离，曼哈顿距离的大小聚类等。而主题模型，顾名思义，就是对文字中隐含主题的一种建模方法。比如从“人民的名义”和“达康书记”这两个词我们很容易发现对应的文本有很大的主题相关度，但是如果通过词特征来聚类的话则很难找出，因为聚类方法不能考虑到到隐含的主题这一块。

　　　　那么如何找到隐含的主题呢？这个一个大问题。常用的方法一般都是基于统计学的生成方法。即假设以一定的概率选择了一个主题，然后以一定的概率选择当前主题的词。最后这些词组成了我们当前的文本。所有词的统计概率分布可以从语料库获得，具体如何以“一定的概率选择”，这就是各种具体的主题模型算法的任务了。

　　　　当然还有一些不是基于统计的方法，比如我们下面讲到的LSI。