24、自然语言处理:模型评估、多语言支持与人工标注

NLP模型评估与多语言处理

自然语言处理:模型评估、多语言支持与人工标注

1. 以模型为中心的指标

在评估OCR(光学字符识别)模型时,我们可以通过字符和单词的准确率来衡量其准确性。具体来说,可以通过计算预期文本和实际观察到的文本之间的Levenshtein距离,然后将其除以文本的长度,以此来测量字符错误率。

除了监测模型的实际错误率,我们还可以收集输出的统计信息。例如,监测单词的分布可能有助于诊断问题。

1.1 内部服务审查

当构建内部服务(如OCR工具)时,我们需要与使用该服务的团队一起审查工作。应用程序的成功最终取决于用户对技术正确性和可用支持的满意度。在一些组织,特别是大型组织中,使用内部工具可能会面临很大的压力。如果这些工具设计不佳、文档不足或缺乏支持,其他团队自然会尽量避免使用它们,这可能会导致团队之间产生不满情绪,进而出现重复工作和团队孤立的问题。因此,尽早并经常审查内部产品,积极寻求并接受反馈是非常明智的做法。

1.2 总结

这里我们关注的是一种NLP应用,它不是从非结构化数据中提取结构化数据,而是将一种类型的数据转换为另一种类型的数据。虽然这与语言学只是间接相关,但在实际应用中却非常重要。如果要构建一个使用来自成熟行业数据的应用程序,很可能需要将图像转换为文本。

2. 支持多种语言

构建NLP系统时,首先要确定支持哪些语言,因为这会影响从数据存储、建模到用户界面的各个方面。

2.1 语言类型学

支持多种语言时,可以通过识别预期语言之间的共性来管理复杂性。例如,如果只处理西欧语言,只需考虑拉丁字母及其扩展。而且这些语言都是屈折语,词干提取

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值