韩文、日语相关 文档扫描识别 的福音

文章探讨了OCR扫描识别技术在处理韩文、日语等外籍文字上的挑战,强调了高性能识别引擎和国际编码标准的重要性。目前,虽然许多报社仍依赖手工录入,但已有成熟的技术解决方案,如北京文通科技有限公司的TH-OCR 2013,其在韩文、日文识别上表现出色,提高了识别效率。作者建议关注 OCR 技术的发展,以适应电子化的市场需求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

国内的OCR扫描识别软件。

一般通用的文档扫描软件,只能扫描识别简单的简体中文。

对于像纯英文、韩语、日语等的识别技术相对来说难度较大。

 

对于像这种外文文字的识别,需要更强大的识别核心技术。要具备高性能的文字识别引擎。

包括编码格式都需要达到国际的编码标准,比如UNICODE编码。

 

目前对于韩语、日语等外籍文字的扫描识别,一般还是集中在对于大幅面的文档扫描识别。

简体中文和繁体中文,大都集中在报社的报纸以及出版物数字化方面的应用。

 

要把印刷的文档转化为可以供阅读和可编辑的高质量电子文档。已经是现代的一种市场需求。

只有转化为电子版,才能应用到各类数据库、电子出版物、数字图书馆等。。。

但是目前很多报社都是采取手工录入的方式。

耗费的人力成本和浪费的时间更是让行业内人员苦不堪言。

 

其实对于这种行业市场趋势和行业问题的解决。有很多厂商和技术开发厂商已经有所斩获。

比如报纸来说。排版相对来说比较规范,文本、图片、表格。无非就是这几种表现形式。

只要针对这几个方面进行相应的开发和版面分析。不难做到精准识别。

 

识别软件大同小异。但是往往区别就体现在识别率上、出错率上、版面还原度高不高上。

想必大家用过一些免费的识别软件,不是出现乱码,就是横七竖八的一大堆东西。

总之很头疼。不过也无可厚非。免费的东西总是不尽人意。

 

而这些免费的测试版,只是商家的一个前期广告推广,市场推广。

想要体验或使用成熟的产品。为公司的运行提升效率,还是建议读者购买正式版。

 

国内这几年也在大力的研发和钻研这种OCR识别技术。

如同那些默默无闻制造CPU、相机镜头、HIWI组件的厂商一样。

OCR 行业内也存在着这种现象。有些公司在这方面相当的技术成熟,但是却很少为人所知。

 

打个比方,冰箱品牌也数不胜数。但是大家知道海尔、容声之类的大品牌。

但是不可否认人家花大价钱投入了市场的宣传和开拓,才有了这样的广告效应。

可是不代表那些提不上名的冰箱就质量不行。只是没有那样烧钱而已。

 

最近和很多集成商打交道。

总是在提北京一家公司的OCR技术很成熟。但是着实没有在业界听过。

所以特意上网搜索了一下。公司名字是  北京文通科技有限公司。

 

简单看了一下公司的历史背景。还是具有一定的吸引力的。

这家公司成立于1992年,是清华大学电子工程系智能图文信息处理研究室提供的技术支持。

并且和国家“863计划”挂钩。成功的把清华的OCR技术产业化。

 

由于自己只关心韩文和日语的识别,所以没有看太多的公司产品。

但是公司官网上显示的挺多,比如有媒资管理系统和舆情监控方面使用的视频文字识别系统。

像常见的二代身份证识别、条码扫描识别、政府公文识别、普通文档的识别都有成熟的一体化产品。

 

经过集成商的推荐,试用了北京文通科技有限公司的 TH-OCR 2013 文通数据录入工厂。

主要是识别韩文、日文。但是内置可以识别简体、繁体、纯英文、日文、韩文等多种语言。

经过试用,整体很给力。只要版面不是特别的乱,像韩文、日文都可以达到98%的识别率。

只需要简单的手动校对或者通过软件内置的校对工具修正,就能马上完成识别。挺好用。

 

平时报社里过去的印刷版文档太多了,靠人工录入简直苦不堪言啊。

如果能用这种软件快速扫描识别。简直是一大美事。

希望软件不要出太多的BUG,不过目前测试很正常。

后期就希望把软件的事落地,成本降下来是关键。

 

我们身处信息化大爆炸的时代。或者说已经趋向于泛滥了。

电子化是趋势。无论是吸取知识的方式方法、还是随手拍摄的一朵鲜花。

OCR识别也是一种未来普及的技术吧。

 

自己本身也是闲聊。杂谈。

博友们想了解更多可以加关注留言。互动交流。

可以把北京文通科技有限公司的网址附上,大家可以下载免费版体验。www.wintone.com.cn

祝读者每天学到新知识。每天传递正能量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

NBer晓伟

一块不嫌多一毛不嫌少,您定!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值