NLP
伟璇
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
语言模型
统计语言模型语言模型就是用来计算一个句子的概率的模型,即P(W1,W2,...Wk)。利用语言模型,可以确定哪个词序列的可能性更大,或者给定若干个词,可以预测下一个最可能出现的词语。给定句子(词语序列)S=W1,W2,...,Wk,它的概率可以表示为: (1)n-gram语言模型n-gram模型也称为n-1阶马尔科夫模型,它有一个有限历史假设:当前词的出现概率仅仅与前...原创 2019-05-01 22:31:42 · 1318 阅读 · 0 评论 -
语义分析(词义消歧,语义角色标注)
在词的层次上,语义分析的基本任务是进行词义消歧(WSD),在句子层面上是语义角色标注(SRL),在篇章层面上是指代消歧,也称共指消解。词义消歧(WSD)词义消歧有时也称为词义标注,其任务就是确定一个多义词在给定上下文语境中的具体含义。词义消歧的方法也分为有监督的消歧方法和无监督的消歧方法,在有监督的消歧方法中,训练数据是已知的,即每个词的词义是被标注了的;而在无监督的消歧方法中,训练数...原创 2019-04-28 12:38:50 · 5167 阅读 · 0 评论 -
句法分析(PCFG,Transition-based parsing)
句法分析的基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。 句法分析分为句法结构分析(syntactic structure parsing)和依存关系分析(dependency parsing)。以获取整个句子的句法结构或者完全短语结构为目的的句法分析,被称为成分结构分析(constituent structure parsing)或者短语结构分析(phrase s...原创 2019-04-28 13:54:14 · 9195 阅读 · 0 评论 -
分词
词技术常见的有两大类:机械分词技术、基于统计的序列标注技术。机械分词技术操作简单、方便,比较省心,但是对于歧义词以及未登录词的效果并不是很好;统计模型的序列标注方法,对于识别未登录词拥有较好的识别能力,而且分词精度也比较大,同时这个方法可以不分中文、英语,着重看在语言前后顺序。https://blog.youkuaiyun.com/duozhishidai/article/details/89...原创 2019-04-28 20:53:29 · 377 阅读 · 0 评论 -
文本分类
文本分类问题: 给定文档p(可能含有标题t),将文档分类为n个类别中的一个或多个文本分类应用: 常见的有垃圾邮件识别,情感分析文本分类方向: 主要有二分类,多分类,多标签分类文本分类方法: 传统机器学习方法(贝叶斯,svm等),深度学习方法(fastText,TextCNN等)传统文本分类文本预处理文本预处理过程是在文本中提取关键词表示文本的过程,中文文本处理中主要包括文本...原创 2019-04-29 09:14:05 · 888 阅读 · 0 评论 -
BPE字节对编码
BPE的训练和解码范围都是一个词的范围。###BPE训练过程:首先将词分成一个一个的字符,然后在词的范围内统计字符对出现的次数,每次将次数最多的字符对保存起来,直到循环次数结束。###BPE编码解码过程,经过训练过程,会得到codec文件,codec文件中保存的就是训练过程的字符对,文件中最开始的是训练时最先保存的字符,即具有较高的优先级。解码是也是按在词的范围中进行编码的,首先将...原创 2019-05-06 09:57:06 · 2647 阅读 · 0 评论 -
BLEU计算
BLEU 就是用来衡量机器翻译文本与参考文本之间的相似程度的指标,取值范围在0-1, 取值越靠近1表示机器翻译结果越好。最初的BLEU最初的BLEU计算特别简单, 通常的讲, 当我们自己计算两个文本之间的相似程度的时候, 我们会考虑单词的频率, 最早的BLEU就是采用了这种思想, 计算方法是: 使用一个累加器表示candidate中的词在reference doc中出现的次数, 从can...原创 2019-05-06 10:52:21 · 3166 阅读 · 0 评论
分享