rime输入法初识-----algo算法目录分析(三)

本文介绍了rime输入法中encoder.h和encoder.cc文件的短语编码功能,详细阐述了如何根据仓颉五代规则进行编码配置,包括最大输入字长、最小词频设定以及不同长度词的编码公式。通过exclude_patterns和rules,实现特定字词的排除和编码逻辑。
部署运行你感兴趣的模型镜像

2021SC@SDUSC

encoder.h和encoder.cc是定义关于短语编码的功能,先看.h文件

这里定义了一个短语收集类,它定义了一个功能 返回给定单词的可选代码列表。

然后就是一些基于规则和音节的短语编码定义。再看看.cc文件

 这里是按照仓颉五代的配置来进行编码的。max_phrase_length配合use_preset_vocabulary来限制最大输入字长min_phrase_weight配合use_preset_vocabulary来设定输入最小词频,根据仓颉五代规则 encoder:
  exclude_patterns:
  - '^x.*$'
  - '^z.*$'
  rules:
  - length_equal: 2//对于2字词
  formula: "AaAzBaBbBz"//取第一字首尾码、第二字首次尾码
  - length_equal: 3//对于三字词
  formula: "AaAzBaBzCz"//取第一字首尾码、第二字首尾码、第三字尾码
  - length_in_range: [4, 10]//对于4-10字词
  formula: "AaBzCaYzZz"//取第一字首码、第二字尾码、第三字首码、倒数第二字和末字尾码
  tail_anchor: "'"

 

根据上述规则进行字典匹配

您可能感兴趣的与本文相关的镜像

Seed-Coder-8B-Base

Seed-Coder-8B-Base

文本生成
Seed-Coder

Seed-Coder是一个功能强大、透明、参数高效的 8B 级开源代码模型系列,包括基础变体、指导变体和推理变体,由字节团队开源

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值