
自然语言处理
文章平均质量分 71
SummmerSnow
这个作者很懒,什么都没留下…
展开
-
数据平滑
使用Markdown发现博文发布之后,文章的排版都乱掉了╮(╯▽╰)╭,不知道怎么回事儿,还在纠结中,本来想着要不还是使用html编辑器好了,但是想到还有好多的数学公式要打,直接HTML出来的公式实在是丑爆了,但是这Markdown真的是还是有些bug吧,而且,一堆的数据公式真的是达到兔血了,呃,,,好了,开始来干活!上一篇文章中,已经初步了解了N-gram模型,遗留下来的问题就是数据稀疏该怎么办,原创 2016-04-14 23:34:19 · 8117 阅读 · 2 评论 -
F1 score | why softmax | loglikehood & cross-entropy
F1 score | why softmax | loglikehood & cross-entropy最近找工作面试涉及到了很多研一时候学习的基础知识,很多都忘记了,重新整理一下相关的问题,更侧重和NLP相关的一些知识。F1 scoreaccuracyprecisionrecallf1 score一位同学面试的时候设计被问到,机器翻译中的BLEU的计算,是以...原创 2018-03-23 22:19:30 · 583 阅读 · 0 评论 -
Tensorflow创建循环神经网络
虽然已经接触deep learning很长一段时间了,也看了很久rnn相关的代码,但是突然想用tensorflow实现一些功能的时候,突然发现丝毫没有头绪,找了一些资料,学习了一波,记录一下。一、tensorflow实现RNN celltensorflow由于不同的版本改动较大,在1.0版本之后,可以使用如下语句来创建一个cell:from tensorflow.contrib import rn原创 2017-05-25 21:31:34 · 2424 阅读 · 1 评论 -
欢迎使用优快云-markdown编辑器
文章转自: http://www.hdb.com/article/6eju.html深度学习江湖目前有四座山头,分别是:Geoff Hinton、Yann Lecun、Yoshua Bengio、Andrew Ng。这里面Geoff Hinton去年加入Google搞Google Brain, Yann Lecun去年加入Facebook任人工智能研究室主任,最新的消息Andrew Ng加盟某厂搞转载 2017-03-30 11:34:19 · 262 阅读 · 0 评论 -
embedding
what is emddingembedding就是把字词用向量表示出来,相当于是对字词做encodingmotivation比如 猫,狗,我们当然可以直接把他们表示为一些独立的离散符号,但是这样的表示毫无意义,而且会产生大量稀疏数据。使我们在训练统计模型时不得不寻求更多的数据。而词汇的向量表示将克服上述的难题。backgroundVSM(vector space model) 核心思想就是把一原创 2016-10-16 11:59:36 · 7887 阅读 · 0 评论 -
NLP基础知识
未登录词: OOV(out of vocabulary) UNK (unknown)http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation原创 2016-10-14 16:01:40 · 1612 阅读 · 0 评论 -
句法结构分析
一。句法结构分析的主要任务句法分析就是判断一个句子是否符合给定的语法,分析出合乎语法的句子的句法结构。 任务1. 判断字符串是否符合某种语言; 任务2. 消除词法和结构方面的歧义; 任务3. 分析句子的内部结构,如成分构成,上下文关系。构造一个句法分析器,需要考虑一下两个方面: - 句法形式化表示。(形式化的语法规则构成语法规则库) - 词条信息(词性、动词的配价和中心词信息)描述。原创 2016-07-31 17:21:24 · 4641 阅读 · 0 评论 -
EM 算法
因为时间原因实在是来不及一一看那些书籍,经学长指点,直接学习统计翻译的em算法,然后是基于短语的概率翻译表提取,再者就是去学习bp神经网络。em在ibm model1中的应用,看了很久才看明白,当我以为自己看懂了的时候,学长让我用一句话概括一下em,我竟一时语塞,才惊觉其实并不是很懂。于是老老实实去翻看李航老师的《统计学习方法》,第九章详细介绍了em算法,也加深了自己的印象。什么是EM简单来说,em原创 2016-07-04 23:35:16 · 681 阅读 · 0 评论 -
中文信息处理 N-gram模型
一. 什么是建模?模型又是什么? 建模,是人们为了理解事物而对事物做出的一种抽象,是对事务进行书面无歧义的描述。 模型就是对实际问题或者是客观规律进行的形式化的表达。二. 关于语言模型 长久以来,人们一直希望计算机可以理解我们人类的语言,从而进行一系列其他的应用,比如机器翻译,语音识别,分词,输入法,搜 索引擎的自动补全等。以前人们是进行基于规则的语言模型的研究方向,遇到了很大的问原创 2016-04-12 11:48:59 · 7209 阅读 · 3 评论 -
中文分词-- 正向最大匹配法分词
开始正式步入NLP这个坑啦,虽然感觉是莫名其妙就入了,不管怎么样还是得好好学啊。 最近开始看NLP相关的内容,作为一个小白在,真的是啥都不懂啊,没办法,自己从头开始看起。决定每隔三天(如果算法比较简单)或者一周更新一次,毕竟我是有毕设要做的人啊2333333. 先说一下目前手头在看的资料吧。 书籍: 《数原创 2016-04-11 11:57:52 · 6388 阅读 · 2 评论 -
Logistic 回归
[TOC] Logister 回归虽然名称叫做回归,但其实是一种分类模型; 在周志华老师的西瓜书中,把这一方法叫做:对数几率回归,其实看完整个推导过程,感觉这个名称更合适一些。几率就是一个事件发生的概率和不发生的概率的比值;问题描述:已知某些样本x,具有n个特征值w1,w2...wnw1,w2...wnw1,w2...w_n, 以及对应的标签yyy; 对样本x进行正确分类;解...原创 2018-09-15 20:35:45 · 823 阅读 · 0 评论