qw_2006-优快云博客

原创用Pdg2Pic、TextForever实现批量OCR

从文件上看，它采用的也是清华的OCR引擎，而且是按第一条路线实现的，附带庞大的字体特征库，安装包几乎是MODI的10倍大小，速度也比MODI慢。总之，在他们看来，字体会变，但是汉字的笔画是不会变的，中文的“文”字那一横在宋体中是平的，在楷书中是斜的，但是一横就是一横，绝对不会变成一竖。最关键的一点：以目前能够达到的技术，OCR用来识别以文字为主的文史类书籍还凑合，要想识别图文混排、中英文混排、包含复杂表格、字体应用比较丰富（尤其是斜体）的理工类书籍，识别出来的结果多半有点哭笑不得。

2024-06-05 16:13:57 1649

原创图像转PDF的问题、方法及题外话

中的第二幅图像为例，象素点阵为3315×2334，如果在分辨率为96 DPI的显示器上显示，尺寸是34.5英寸×24.3英寸（1英寸＝2.54厘米，实际英寸数＝象素数÷DPI，如3315÷96=34.5英寸），而在分辨率为300 DPI的打印机上打印，打出来只有11.1英寸×7.8英寸，这显然与PDF要求的“在任何平台上均可获得相同的效果”不符。这样用户在阅读PDF文件时看到的是扫描图像，可以100%保留原始版面效果（包括公章、签名），在需要的时候，又可以通过透明的文字信息支持选择、复制、检索等功能。

2024-06-05 16:01:24 1723 1

原创常见电子书格式及其反编译思路

本文所描述的电子书，指的是将原始的、可编辑的HTML、TXT、RTF、图像文件等，打包成一个独立的EXE，或其它只有专用浏览器才能读取的文件，打包后的文件通常不可用常规工具进行编辑、全文检索。本文所描述的电子书反编译，指的是将电子书中的内容提取出来，还原或转换成标准的、可编辑的HTML、TXT、RTF及图像文件等。就像世间其它事物一样，电子书编译器和反编译器的出现也都不是偶然的，都有其必然性。在电子书编译器这一方来说，大概从有电子文档那天开始，就有人琢磨着要对电子文档打包了。

2024-06-05 15:58:47 1868

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 用Pdg2Pic、TextForever实现批量OCR

原创 图像转PDF的问题、方法及题外话

原创 常见电子书格式及其反编译思路

空空如也

空空如也

原创用Pdg2Pic、TextForever实现批量OCR

原创图像转PDF的问题、方法及题外话

原创常见电子书格式及其反编译思路