比如我用王林快码,只有单字和二字组,二字组不太多,不现代,比如没有安卓和微信词组,又下载了搜狗二字组细胞词库已经转化为txt,想把该词组中快码没有的词组用快码的方式生成,就是取前两位加以组合。比如有快码码表
爱 avie 情 qnac 人 rk 情人 qnrk
先用excel的left函数取码表单字前两位
爱 av 情 qn 人rk
下载的搜狗二字词库有爱人 爱情 情人
再用excel筛选出快码和搜狗中二字组并排序导出成csv,再diff快码和搜狗二字组 grep输出搜狗独有的词组就是爱情 爱人保存为文件cizu。
关键一步是用写个sed命令的shell
sed -i 's/爱/av/g' cizu
sed -i 's/情/qn/g' cizu
sed -i 's/人/rk/g' cizu
对cizu中的每个字符做一次替换。然后在搜狗独有二字组原来的词组位置已经被快码替代。
这适用于已知词组替换码的操作,关键是用sed命令做个批处理shell。