目录
lda主题模型一个应用场景:判断一篇新闻究竟属于哪类,比如科技,体育等。
X:一篇文章 Y:分类
直观解释:
简历筛选:百度实习 阿里实习 着装有品位 条纹衬衫 笔试满分 只穿杰克琼斯 中国top2毕业 自称top3毕业 逃离创业泡沫的CTO 长相捉急......
【特征】---组成--->【简历】---分成--->【好坏】
这家企业人力资源判断的过程:
拿出一份份简历
记录下每份简历包含的特征,然而并不知道代表什么
于是开始猜
拿起一份简历A
他看到里面说A去阿里实习过
他猜这位童鞋的水平应该很高,八成是个好工程师
但是有看到A的学历只是小学毕业,心里又有了两层的担忧......
于是又看到B
又看到C
等等......
通过一次次的猜和判断,最终到达对一个类型的分类
总结成公式:
P(优秀程序员|特征,简历) = 此特征在优秀程序员之中出现次数 /优秀程序员拥有所有特征* 此简历中属于优秀程序员的特征个数
【特征】---组成--->【简历】---分成--->【好坏】
【单词】---组成--->【文档】---分成--->【主题】
一袋子单词,根据这些单词可以分成不同类型,这是主题模型的基本思想
什么是lda?
是一种无监督的贝叶斯模型
是一种主题模型,它可以将文档集中每篇文档的主题按概率分布的形式给出,同时它是一种无监督学习算法,在训练时不需要手工标柱训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点是对于每一个主题均可以找出一些词语来描述它。
是一种典型的词袋模型,即它认为一篇文档是又一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。
由于词的顺序是没有影响的,因此LDA存在缺陷,后来有很多优化算法。
什么是贝叶斯模型?
--- 用概率作为【可信度】
--- 每次看到新数据就更新【可信度】
--- 需要一个模型来解释数据的生成
先验,后验与似然
P(好工程师|简历) = P(好工程师) P(简历|好工程师)
后验 先验 似然
先验<---应聘者概率模型
似然<---简历数据生成模型
概率学派:
1.频度学派:抛硬币 500次,250次
2.贝叶斯学派:先验 后验 似然
人类认知本身都是有刻板印象的,先验是没实验验证的,通过似然函数得到后验值,并不是1/2,可能有一些小小的偏差