step1: 统计单词的词频stats step2:统计字母表(区分单词的首个字母和单词中其他字母的区别) step3:计算每个单词的split(建立映射关系) step4:计算每个字符对的得分 pair_scores的结果展示 step5: 合并所有splits中的(a, b)-->ab(去掉##) 核心程序 :不断合并扩充词表,达到vocab_size