
NLP
文章平均质量分 86
江汉似年
写代码造汽车
展开
-
NLP的tokenization
在machine learning,尤其是NLP的算法面试时,Byte Pair Encoding (BPE) 的概念几乎成了一道必问的题,然而尴尬的是,很多人用过,却未必十分清楚它的概念(调包大法好)。这样做的好处是可以将常见的词汇合并为一个单元,同时也能够处理未登录词(OOV)问题,即将未在训练集中出现过的词拆解为可识别的子词。3. 合并频率最高的一对:将频率最高的字符对合并成一个新的字符(或字符序列),并将其作为新的单词。1. 初始化:将文本中的每个字符视为一个单词,并统计每个字符出现的频率。原创 2023-08-19 10:24:04 · 602 阅读 · 0 评论 -
GPT系列总结
(1)通过一个窗口的输入得到下一个token在目标token上的一个概率分布,方法是基于一个transformer decoder,其中窗口大小是k。(1)将transformer的输出经过一个线性层后,经softmax后得到对目标token的预测结果,最大化预测结果与真值作为loss。(2)针对一个预料库,不断滑动窗口k,每次最大化下一个token的概率作为loss,相加得到总的loss。(2)同时增加预训练loss作为辅助loss,有助于模型泛化、提升训练速度。原创 2023-08-19 12:13:09 · 1432 阅读 · 0 评论