用sed命令shell扩大王林快码词库

博客内容讲述了如何利用Excel和sed命令进行批量文本处理,具体是将搜狗输入法的二字词组中快码没有的词组用快码方式生成。通过筛选、排序和diff操作找出搜狗独有的词组,然后使用sed命令批量替换这些词组,实现词库的定制化整合。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

比如我用王林快码,只有单字和二字组,二字组不太多,不现代,比如没有安卓和微信词组,又下载了搜狗二字组细胞词库已经转化为txt,想把该词组中快码没有的词组用快码的方式生成,就是取前两位加以组合。比如有快码码表

爱 avie 情 qnac 人 rk 情人 qnrk

先用excel的left函数取码表单字前两位

爱 av 情 qn 人rk

下载的搜狗二字词库有爱人 爱情 情人

再用excel筛选出快码和搜狗中二字组并排序导出成csv,再diff快码和搜狗二字组 grep输出搜狗独有的词组就是爱情 爱人保存为文件cizu。

关键一步是用写个sed命令的shell

sed -i 's/爱/av/g' cizu

sed -i 's/情/qn/g' cizu

sed -i 's/人/rk/g' cizu

对cizu中的每个字符做一次替换。然后在搜狗独有二字组原来的词组位置已经被快码替代。

这适用于已知词组替换码的操作,关键是用sed命令做个批处理shell。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值