- 博客(3)
- 收藏
- 关注
原创 用Pdg2Pic、TextForever实现批量OCR
从文件上看,它采用的也是清华的OCR引擎,而且是按第一条路线实现的,附带庞大的字体特征库,安装包几乎是MODI的10倍大小,速度也比MODI慢。总之,在他们看来,字体会变,但是汉字的笔画是不会变的,中文的“文”字那一横在宋体中是平的,在楷书中是斜的,但是一横就是一横,绝对不会变成一竖。最关键的一点:以目前能够达到的技术,OCR用来识别以文字为主的文史类书籍还凑合,要想识别图文混排、中英文混排、包含复杂表格、字体应用比较丰富(尤其是斜体)的理工类书籍,识别出来的结果多半有点哭笑不得。
2024-06-05 16:13:57
1600
原创 图像转PDF的问题、方法及题外话
中的第二 幅图像为例,象素点阵为3315×2334,如果在分辨率为96 DPI的显示器上显示,尺寸是34.5英寸×24.3英寸(1英寸=2.54厘米,实际英寸数=象素数÷DPI,如3315÷96=34.5英寸),而在分辨率为300 DPI的打印机上打印,打出来只有11.1英寸×7.8英寸,这显然与PDF要求的“在任何平台上均可获得相同的效果”不符。这样用户在阅读PDF文件时看到的是扫描图像,可以100%保留原始版面效果(包括公章、签名),在需要的时候,又可以通过 透明的文字信息支持选择、复制、检索等功能。
2024-06-05 16:01:24
1505
1
原创 常见电子书格式及其反编译思路
本文所描述的电子书,指的是将原始的、可编辑的HTML、TXT、RTF、图像文件等,打包成一个独立的EXE,或其它只有专用浏览器才能读取的文件,打包后的文件通常不可用常规工具进行编辑、全文检索。本文所描述的电子书反编译,指的是将电子书中的内容提取出来,还原或转换成标准的、可编辑的HTML、TXT、RTF及图像文件等。就像世间其它事物一样,电子书编译器和反编译器的出现也都不是偶然的,都有其必然性。在电子书编译器这一方来说,大概从有电子文档那天开始,就有人琢磨着要对电子文档打包了。
2024-06-05 15:58:47
1712
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人