
自然语言处理
文章平均质量分 58
千语_肉丸子
好好学习、天天向上
结交各种大牛、共同进步
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
(NLP)自然语言处理学习笔记1 NLTK在使用总结
NLTK 有着整套自然语言处理的工具,从分词到实体识别,从情感分类到句法分析,完整而丰富,功能强大。 但是分词功能仅适用于英文,对于中文分词还需要专门的中文分词工具包处理。因此本例使用结巴分词 import pandas as pd import jieba df = pd.read_csv('bad_cmmnt_detl.csv') df.shape #查看数据集的维度 df.shape Ou...原创 2017-08-28 16:51:39 · 558 阅读 · 0 评论 -
Word2Vec学习笔记1 初步梳理
来源:http://blog.youkuaiyun.com/itplus/article/details/37969519此博客叙述和推导较详细, 计算机能识别二进制数据,当原始数据是文本应该怎么办? 首先需要把文本数据转为化计算机能够识别的数据,接下来为介绍一种常用文本转化为词向量的方法word2vec 在学习word2vec之前需要学习如下知识 1. sigmoid函数 2. 逻辑回归 ...原创 2017-08-24 14:53:07 · 357 阅读 · 0 评论 -
主题模型学习笔记1 认识gamma函数、二项分布、多项分布、beta函数、狄利克雷分布
1.Gamma函数 2.二项分布 3.多项分布 4.Beta分布 5.狄利克雷分布 狄利克雷分布是Beta分布的推广,beta分布是狄利克雷的特例原创 2018-04-26 19:40:30 · 696 阅读 · 0 评论 -
(主题模型的应用)应用LDA抽取评论的主题特征
本文参考理论知识:http://blog.youkuaiyun.com/huagong_adu/article/details/7937616 1.主题模型的概念 主题模型是对文档中隐含的主题进行建模,考虑了上下文语义之间的关系。 一个主题就好像一个“桶”,它装了若干出现概率较高的词语。这些词语和这个主题有很强的相关性, 或者说,正是这些词语共同定义了这个主题。对于一段话来说,有些词语可以出自这...原创 2017-09-15 14:25:27 · 17972 阅读 · 0 评论