使用KenLM训练n-gram语言模型（中文）

最新推荐文章于 2025-11-22 10:27:36 发布

原创

最新推荐文章于 2025-11-22 10:27:36 发布 · 9.8k 阅读

29 ·

CC 4.0 BY-SA版权

N-gram语言模型构建

KenLM工具
使用KenLM构建中文语言模型流程

KenLM工具

相比于SRILM训练工具包，KenLM的诞生更later，训练速度更快，支持单机大数据集训练，相关链接如下：
KenLM开源github
KenLM 工具包主页
 KenLM各参数命令的含义
工具包下载地址：http://kheafield.com/code/kenlm.tar.gz
下载KenLM

wget -O - https://kheafield.com/code/kenlm.tar.gz |tar xz

使用cmake编译安装，更详细的信息见kenlm/主目录下的BUILDING文件

mkdir -p build
cd build
cmake ..

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

benbenls

关注关注

3
点赞
踩
29

收藏

觉得还不错? 一键收藏
6
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

kenlm训练语言模型 及 NLP中中文字符预处理

m0_37531129的博客

11-20

2020

step-1: 去除英文和标点符号 step-2: 去除非中文和数字的 step-3: 分词并且将数字改成大写将句子用空格拼接起来 import jieba import re def num_to_ch(num): """ 功能说明：将阿拉伯数字 ===> 转换成中文数字（适用于[0, 10000)之间的阿拉伯数字） """ if len(num) == 5: return '手机号' num = int(num) _MAPPING = (u'

【自然语言处理入门】02：Kenlm语料库的制作与模型的训练

山不过来，我就过去

12-18

7839

本文是《从自然语言处理到机器学习入门》系列课程的第二次作业，由于我的作业环境没有配好（配了n次了还是不行T_T），但是为了保证这一系列作业的完整性，于是经罗曜强律师同意，人工智能A7论坛授权，转载他的作业笔记。 1 基本要求通过自己训练的语言模型编程，判断每句话中是否存在a an用错的问题(所谓用错指a an用反了比如 i have a apple是错误的； i have an appl

6 条评论您还未登录，请先登录后发表或查看评论

6 条评论

qq_49292306 2021.03.30
大佬，我不知道这个数据格式是要什么样子的，有么有那种数据格式可以看一下的

luv-letter 2021.02.20
你好请问一下训练结束的标志是这个吗？： === 5/5 Writing ARPA model === ----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100 **************************************************************************************************** Name:lmplz VmPeak:0 kB VmRSS:5564 kB RSSMax:3058784 kB user:0.78125 sys:3.20312 CPU:3.98438 real:4.04719 我3000左右的语料，几秒钟就结束了，正常吗？
- iridescentc回复「已注销」 2022.11.23
  指的是行数吗
- 「已注销」回复luv-letter 2021.03.30
  我三十多万也几秒[face]monkey2:006.png[/face]我也不知道正常不