
NLP
王小小小草
人工智能、机器学习、深度学习、自然语言处理、程序媛
展开
-
【好书提炼】聊天机器人技术原理与应用
本文作者:王小草 资深算法工程师本文是对2019年3月出版的《自然语言处理实践-聊天机器人技术原理与应用》的全书内容提炼,若有不当之处,请联系本文作者。在此感谢本书作者王昊奋、邵浩、李方圆、张凯、宋亚楠。阅读方法:对聊天机器人、NLP有基础的同学,可以通过本文迅速了解当前聊天机器人或智能对话的系统知识、框架,对感兴趣的点可以自己去深入研究;对聊天机器人、NLP没有基础但又想了解的同学,可以对...原创 2019-12-10 10:00:02 · 3388 阅读 · 1 评论 -
【论文解读】融入预训练机制的自然语言生成-MASS
【文本生成】融入预训练机制的自然语言生成-MASS笔者:王小草日期:2019年12月10日1.前言文本要介绍一篇来自南科大和微软同学的论文,提出了用遮盖词的预训练序列模型来进行文本生成,即使用当前惯用的套路:(1)先用大语料无监督地预训练模型;(2)再在文本生成的任务上进行fine tuning。并在常用的文本生成任务(机器翻译、摘要生成、对话生成)上进行评测,具有优秀的表现。在大语料上...原创 2019-12-10 09:47:00 · 1435 阅读 · 0 评论 -
【文本表征】2018年自然语言理解最火的三种方法
众所皆知的分布式词向量方法CBOM, skip-gram, Glove等已经成为NLP任务的标配,但致命的缺点是无法区别同一个词在不同语境下的含义,如“bank"无论是银行还是河岸的意思,词向量都是同一个,让人脑壳疼。本文要介绍的是2018年很火的三个方法:Elmo, GPT, BERT。它们能够处理多义词、反应不同的语境,从而更好地理解自然语言,并且在下游NLP任务中有突出表现。1 ELMO...原创 2019-03-03 13:57:56 · 1612 阅读 · 0 评论 -
中文分词发展进程回顾提纲
一、基于词典的方法1 正向最大匹配算法1.从左向右取待切分汉语句的m个字符作为匹配字段,m为大机器词典中最长词条个数。2.查找大机器词典并进行匹配。若匹配成功,则将这个匹配字段作为一个词切分出来。若匹配不成功,则将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,重复以上过程,直到切分出所有词为止。流程如下:2 逆向最大匹配算法该算法是正向最大匹配的逆向思维...原创 2019-03-10 23:03:47 · 1344 阅读 · 1 评论