
NLP入门
多少学一点吧
随缘学习,随缘写作,记录本菜鸡成长的点点滴滴!
展开
-
NLP中的数据预处理
也是NLP中最重要的编码方式之一,它的有效性也被GPT-2, RoBERTa, XLM, FlauBERT等这些最强大的语言模型所证实。并且,这种编码方式还具有别的问题,参考下面链接的第一段。别急,有一种编码方式能大大减小token list,那就是本文即将介绍的。这里的字符,即可能是一个单词,也可能是一个字,称之为一个token;1、分词:将一个句子,分解成独立的字符,并对所有字符进行编号。我们知道,一门语言中,通常有几万到几十万量级的单词数。随着模型集成的不同国家的语言越来越多,原创 2022-09-23 20:40:18 · 692 阅读 · 0 评论 -
NLP入门02-词法分析技术及其应用
词法分析的概念、技术发展、应用领域原创 2022-09-07 14:07:33 · 792 阅读 · 0 评论 -
NLP学习笔记01-词向量
NLP入门-one-hot编码、Embedding编码、词向量、句向量。原创 2022-09-06 21:25:13 · 702 阅读 · 0 评论