
NLP
weixin_43579079
这个作者很懒,什么都没留下…
展开
-
Word2Vec
文本处理流程: preprocess:tokenize+lemma/stemming+stopwords+word_list +make features +ML tokenize 英文 import NLTK sent= "" tokens = NLTK.word_tokenize(sent) tokens 中文 import jieba seg_list = jieba.cut("",cut...原创 2019-12-26 18:38:42 · 4185 阅读 · 0 评论 -
七。词向量与相关应用
NLP常见任务: 1.自动摘要; 2.指代消解; 3.机器翻译; 4.词性标注; 5.分词; 6.主题识别; 7.文本分类; 离散表示 离散表示:ONE-HOT编码 语料库-词典-onehot表示 词典包含10个单词,每个单词有唯一索引; 在词典中的顺序和在句子中的顺序没有关联; 离散表示:bags or words 文档的向量表示可以直接将个词的词向量表示加和; 次权重:TF-IDF(没有考虑顺...原创 2019-12-17 23:22:45 · 207 阅读 · 0 评论 -
六.深度学习在NLP上的应用
四.机器翻译(未听) 五.马尔科夫模型(未听) Intro 文本分类:Text-Label 行业Baseline: 用Bow表示sentences,然后用LR或者SVM做回归。 库:keras.io、gensim Auto-Encoder 历史使命:数据降噪、数据降维 encoder+decoder 不需要label标注的算法 CNN4Text 用卷积可以实现图片直接的转换 如何应用于文字? 1....原创 2019-12-17 21:05:14 · 336 阅读 · 0 评论 -
三.主题模型
https://blog.youkuaiyun.com/qq_39422642/article/details/78730662 详细介绍 LDA 是一种无监督的贝叶斯模型 可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的是文档集和指定主题的数量k即可。此外LDA的有点事,对于每一个主题均可找出一些词语来描述它。 是一种典型的词袋模型,词与...原创 2019-12-15 17:40:34 · 220 阅读 · 0 评论 -
二.从语言模型到朴素贝叶斯
贝叶斯+条件独立假设=朴素贝叶斯 贝叶斯 贝叶斯公式: 在分类问题中: P(“属于某类”|“具有某特征”)=P(“具有某特征”|“属于某类”)P(“属于某类”)/P(“具有某特征”) 其中后者的统计要比前者简单的多 在语言处理中,词语是最有代表性的特征。当句子分为许多词的时候,采用条件独立假设,假设每个词对结果的贡献互不相关,于是就变得非常好求。 朴素贝叶斯 朴素贝叶斯不考虑单词的顺序,简单直接...原创 2019-12-14 22:36:03 · 593 阅读 · 0 评论 -
一.NLP基础技能
python里的基本操作 字符串操作 去空格及特殊符号 s = 'hello, world!' print(s.strip()) # 去掉两边的空格 print(s.lstrip('hello, ')) # 去掉左侧字符 print(s.rstrip('!')) # 去掉右侧字符 hello, world world! hello, world 连接字符串 s1 = 'stracat' s2...原创 2019-12-14 20:17:52 · 364 阅读 · 0 评论