
step1: 统计单词的词频stats

step2:统计字母表(区分单词的首个字母和单词中其他字母的区别)

step3:计算每个单词的split(建立映射关系)

step4:计算每个字符对的得分

pair_scores的结果展示

step5: 合并所有splits中的(a, b)-->ab(去掉##)
核心程序 :不断合并扩充词表,达到vocab_size





pair_scores的结果展示

核心程序 :不断合并扩充词表,达到vocab_size
1187

被折叠的 条评论
为什么被折叠?