
NLP
文章平均质量分 67
直觉与逻辑
可以关注我的同名微信公众号
展开
-
汉语分词初探
基于词典的分词顾名思义,基于词典的分词就是要有一个词典,分词的过程就是用词典中的词和句子中的词进行比对,然后选出一个最优的切分结果。显而易见,基于词典的分词必须要维护一个好的词典,且其无法处理未登录词。最长匹配分词最长匹配分词指的是使用贪婪算法,从前往后匹配,匹配到最长的字串作为一个词,这种方法一般称为最大正向匹配。如果是从后往前匹配,也叫做最大反向匹配。由于汉语组词的多样性,使用最大匹配算法的错...原创 2018-03-30 07:42:24 · 1134 阅读 · 0 评论 -
全切分分词
全切分分词如果在分词的时候本着"宁可错杀三千,不可放过一个"的原则,将句子中所有在词典中出现的词汇都找出来,这样的分词算法就叫做全切分词。全切分词是很多种分词算法的前处理环节,利用全切分词生成有限无环图DAG,然后利用不同的算法求出一条或多条不同的路径,是很多分词算法的一部分。算法1. 根据字典建立state dict/pdictInput: 字典dict={w原创 2018-04-02 21:19:42 · 2887 阅读 · 0 评论 -
NLP中扩增数据的办法(增加噪音的办法)
1. 随机删除一些token(字,词,word-piece等); (0.1)2. 随机将一些token替换成未登录标记(`<UNK>`)(0.1)3. 随机使用词表中的token替代掉其他的token;(0.1)4. 随机交换token的顺序;(no further than three positions apart)5. 随机截断序列(sequence),分为从前截断和从...原创 2019-05-15 16:27:43 · 4646 阅读 · 0 评论 -
NLP(自然语言处理)中处理未登陆词的一些方式
未登陆词的集中处理方式character-basedword-pieceWord: Jet makers feud over seat width with big orders at stakewordpieces解码方式1: _J et _makers _fe ud _over _seat _width _with _big _orders _at _stakewordpiec...原创 2019-06-04 11:29:56 · 4846 阅读 · 0 评论 -
Tricks of Python(python的一些小技巧)
Tricks of Python—— 论如何让纯python程序跑得更快,内存使用得更少编程的哲学Do One Thing and Do It Well做一件事,并把他做好。这原本是UNIX社区推崇的哲学,但是很显然可以延伸到软件开发领域甚至是日常生活中。在编程中,每个函数应该只处理一件事,如果一个函数做了两件事,那么应该把它拆分成两个函数。但是这里有一个问题,如何判断一个函数应不...原创 2019-06-15 19:45:41 · 3207 阅读 · 0 评论