Course - 七月 自然语言处理
文章平均质量分 80
Sarah ฅʕ•̫͡•ʔฅ
勿忘初心
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Lesson1 NLP基础技能
一、字符串操作# 1、去空格及特殊符号>>> s = ' hello, world!'>>> print s.strip()>>> print s.lstrip(' hello, ')>>> print s.rstrip('!')hello, world!world! hello, world# 2、连接...原创 2019-04-14 17:19:07 · 304 阅读 · 0 评论 -
Lesson 2 从语言模型到朴素贝叶斯
一、朴素贝叶斯1、sklearn中Naive Bayes的3种形式BernoulliNB假设有特征X=[x1,x1,x2,x3]则在计算p(x|y)时,p(x1|y)只计算一次,即:p(x|y) = p(x1|y)p(x2|y)p(x3|y)MultinomialNB假设有特征X=[x1,x1,x2,x3]则在计算p(x|y)时,p(x1|y)需计算2次,即:p(x|y) = p(...原创 2019-04-14 21:22:31 · 161 阅读 · 0 评论 -
Lesson 3 LDA主题模型
一、简要概述LDA主题模型的核心思想:1、LDA理念在LDA中,假设一篇文章对应一个或多个主题,一个主题对应一个单词分布。现给定“文章”,我们可以根据这些“文章”,利用LDA算法求得各个文章的“主题”,其中“主题的个数”由作者自定义。LDA算法属于unsupervised learning,利用LDA算法求解主题的思路如下:由于一篇文章对应一个或多个主题,一个主题对应一个单词分布,因此,我...原创 2019-04-19 12:20:56 · 518 阅读 · 0 评论 -
Lesson 4 基于统计的翻译系统
基于统计的翻译系统构建步骤(以 中->英 翻译为例):step1:对文本进行预处理,如:分词,去除停用词…,最终形成“平行语料”用于training;step2:词对齐:利用giza++ 形成 两个“词对齐文件”:1)中->英,2)英->中,并利用“词对齐对称化算法”将两个词对齐文件进行合并,从而形成最后的词对齐文件。词对齐具体格式如下图:单向词对齐:双向词对齐:...原创 2019-04-19 12:58:47 · 207 阅读 · 0 评论 -
Lesson 5 隐马尔可夫模型 及其 应用
HMM的3个问题:A:转移矩阵B:发射矩阵pai:初始状态概率1、evaluationgiven model = (A,B,pai),求p(o|model);算法:前向算法后向算法:2、recognitiongiven model=(A,B,pai),observation,求state sequence;算法:维特比算法3、traingiven observati...原创 2019-04-19 13:21:19 · 158 阅读 · 0 评论 -
Lesson 6 深度学习 与 NLP简单应用
中文分词方法:1、heuristic:利用字典进行分词2、统计学习方法:HMM,CRFsentence特征表示方法:1、tf-idf;2、AutoEncoder(simple,deep,conv);3、w2v(平均);4、w2v(平均)+CNN(1D);5、w2v(2D) + CNN;6、w2v * idfDL nlp实例:predict next charpredict...原创 2019-04-19 14:17:31 · 205 阅读 · 0 评论 -
***Lesson 7 词向量与相关应用
一、词向量表示首先回顾一些文本表示方式:one-hotbag of wordstf-idfbinary weightingbi-gram && n-gram以上的表示方式都存在一个问题,即这些word表示方式均无法度量word和word之间的相似度。为解决这一问题,学者提出了几种word表示方式:分布式表示: 用一个词附近的其他词来表示该词**共现矩阵...原创 2019-04-19 15:05:09 · 151 阅读 · 0 评论 -
***Lesson 8 条件随机场 与 应用
一、最大熵模型(MEM)(词性标注,句法分析)1、首先要区分MEM 和 EM 两个模型;2、MEM的理想形态为指数形式,如下所示:其标准形态如下,其中f(x,y)为特征函数:3、MEM向logistic的转换4、MEM为一个非常理想的模型,除已知的约束条件外,它将其他情况都视为等可能发生,(就像投一枚硬币,我们猜测其朝上/下的概率均为0.5),从理论角度来讲,其具有很好的泛化能力,...原创 2019-04-19 20:00:44 · 156 阅读 · 0 评论
分享