Hunspell词干提取器与停用词:性能与精度的权衡
1. Hunspell词典基础
Hunspell词干提取器依赖两种文件:
- .dic文件 :按字母顺序包含所有词根,同时附带代表所有可能前缀和后缀(统称词缀)的代码。
- .aff文件 :包含.dic文件中每个代码对应的实际前缀或后缀转换规则。
2. 词典安装
Hunspell分词过滤器会在专门的Hunspell目录中查找词典,默认目录为 ./config/hunspell/ 。.dic和.aff文件应放置在以语言或区域命名的子目录中。例如,为美式英语创建Hunspell词干提取器的目录结构如下:
config/
└ hunspell/
└ en_US/
├ en_US.dic
├ en_US.aff
└ settings.yml
可通过在 config/elasticsearch.yml 文件中设置 indices.analysis.hunspell.dictionary.location 来更改Hunspell目录的位置。
3. 按语言设置
settings.yml 文件包含适用于语言目录中所有词典的设置,常见设置如下:
|设置项|含义|
| ---- | ---- |
|
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



