
NLP
weixin_43579079
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Word2Vec
文本处理流程:preprocess:tokenize+lemma/stemming+stopwords+word_list+make features+MLtokenize英文import NLTKsent= ""tokens = NLTK.word_tokenize(sent)tokens中文import jiebaseg_list = jieba.cut("",cut...原创 2019-12-26 18:38:42 · 4198 阅读 · 0 评论 -
七。词向量与相关应用
NLP常见任务:1.自动摘要;2.指代消解;3.机器翻译;4.词性标注;5.分词;6.主题识别;7.文本分类;离散表示离散表示:ONE-HOT编码语料库-词典-onehot表示词典包含10个单词,每个单词有唯一索引;在词典中的顺序和在句子中的顺序没有关联;离散表示:bags or words文档的向量表示可以直接将个词的词向量表示加和;次权重:TF-IDF(没有考虑顺...原创 2019-12-17 23:22:45 · 218 阅读 · 0 评论 -
六.深度学习在NLP上的应用
四.机器翻译(未听)五.马尔科夫模型(未听)Intro文本分类:Text-Label行业Baseline:用Bow表示sentences,然后用LR或者SVM做回归。库:keras.io、gensimAuto-Encoder历史使命:数据降噪、数据降维encoder+decoder不需要label标注的算法CNN4Text用卷积可以实现图片直接的转换如何应用于文字?1....原创 2019-12-17 21:05:14 · 349 阅读 · 0 评论 -
三.主题模型
https://blog.youkuaiyun.com/qq_39422642/article/details/78730662详细介绍LDA是一种无监督的贝叶斯模型可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的是文档集和指定主题的数量k即可。此外LDA的有点事,对于每一个主题均可找出一些词语来描述它。是一种典型的词袋模型,词与...原创 2019-12-15 17:40:34 · 231 阅读 · 0 评论 -
二.从语言模型到朴素贝叶斯
贝叶斯+条件独立假设=朴素贝叶斯贝叶斯贝叶斯公式:在分类问题中:P(“属于某类”|“具有某特征”)=P(“具有某特征”|“属于某类”)P(“属于某类”)/P(“具有某特征”)其中后者的统计要比前者简单的多在语言处理中,词语是最有代表性的特征。当句子分为许多词的时候,采用条件独立假设,假设每个词对结果的贡献互不相关,于是就变得非常好求。朴素贝叶斯朴素贝叶斯不考虑单词的顺序,简单直接...原创 2019-12-14 22:36:03 · 610 阅读 · 0 评论 -
一.NLP基础技能
python里的基本操作字符串操作去空格及特殊符号s = 'hello, world!'print(s.strip()) # 去掉两边的空格print(s.lstrip('hello, ')) # 去掉左侧字符print(s.rstrip('!')) # 去掉右侧字符hello, worldworld!hello, world连接字符串s1 = 'stracat's2...原创 2019-12-14 20:17:52 · 375 阅读 · 0 评论