
NLP之分类和向量空间
文章平均质量分 89
by deeplearning.ai
hioog
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
2. 情感分类与朴素贝叶斯
首先我们先回顾下(2.1),本文依然采用NLTK中的twitter corpus进行情感分类的二分类:positive和negative。在inference时需要计算P(pos)P(neg)∏i=0mP(wi∣pos)P(wi∣neg)\frac{P(pos)}{P(neg)}\prod_{i=0}^m\frac{P(w_i|pos)}{P(w_i|neg)}P(neg)P(pos)∏i=0mP(wi∣neg)P(wi∣pos)(定义ratio=P(wi∣Pos)P(wi∣Neg)ratio=原创 2021-02-06 18:35:58 · 472 阅读 · 0 评论 -
3.向量空间模型
前文向量语义模型中说明了如何使用共现矩阵(co-occurrence matrix)表示词向量(word vectors)和文档向量(document vectors)。本文作为补充来深入阐述向量相似性指标包括cosine相似性(前面的文章也涉及到)和欧氏距离以及用于降维可视化的PCA方法。相似性指标欧氏距离欧几里得距离是连接两个向量的直线段的长度,nnn维向量距离的计算公式如下:python实现如下:import numpy as npv = np.array([1,4,6])w =原创 2021-02-15 14:12:44 · 663 阅读 · 0 评论 -
1. 情感分类与逻辑回归
监督机器学习&情感分析在监督机器学习中,通常有输入XXX通过预测函数得到YYY,然后将真值YYY与预测值比较来最小化cost函数以更新参数θ\thetaθ。比如对推文进行情感分析——首先将文本表示为特征,然后训练自己的逻辑回归分类器,最后使用分类器训练文本。特征提取有以下特征提取的方法:VocabularyOne-hot的表示方式,将文本表示为VVV维的向量(VVV是词汇表大小) 。随着VVV变大,向量也会更稀疏。对应地也会有更多的训练参数,从而导致更长的训练时间。Negati原创 2021-01-23 16:58:26 · 1450 阅读 · 0 评论