
NLP
杨小吴的算法博客
不定期更新机器学习、大数据、深度学习、AIGC、AGI相关思考、调研、感悟
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
主题模型--频率派与贝叶斯学派之争始末
一、词袋模型/N-gram模型的明显缺陷 这两个模型最大的缺陷就是无法识别出两个不同的词或词组具有相同的主题,造成这个缺陷的可能原因: -- N-gram模型是基于马尔科夫网络 -- 中心词只和前N个词或者后N个词有关系 -- 中心词是具体的词,因此两个不同的中心词就是不同的团,自然就认为是两个不同的主题 二、PLSA 1、一个用生成模型来建模文章的生成过程,具体文本生成过程如下: -- 假设有K个主题,M篇文章 -- 对语料库中的任意文章d,假设该文章有N个词 -- 则对于其中...原创 2020-07-02 18:02:47 · 505 阅读 · 0 评论 -
文本特征抽取与处理
一、NLP的文本表示 既是语言模型(language model),是我们分析的入口。 1、统计语言模型的目的: -- 建立一个能够描述一句话、一个词的概率估计方法 2、语义模型的基础模型: -- P(W1W2W3...WI) = 累乘(P(W1)P(W2|W1)P(W2|W2W1)...) 3、语义模型的概率估计(一句话一个词组在一起的概率,比如W1W2W3) -- 基于对数似然 -...原创 2019-12-02 16:44:03 · 356 阅读 · 0 评论