- 博客(6)
- 资源 (3)
- 收藏
- 关注

原创 不同平台的OCR文字识别工具整理
1 PC平台abbyy reader这个软件的OCR文字识别准确率不算是最顶尖的,但是这个软件本身是最实用的。它NB就NB在他的版面还原技术,可以最大限度地把图片还原到word文件。猜测其底层是调用了solid framework或者spire.doc这样的专业类库。而且这个软件是本地识别的,不需要联网就能用,用过的都知道。2 web平台虫数据一个可用的、免费的在线OC...
2019-07-16 19:23:36
1177
原创 历时一年半独立开发的iOS平台的OCR类app上线了
2015年上旬辞职至今,断断续续地开发了两年半的OCR应用上线了。功能比较简单,就是拍照+识别+共享导出。目前还不支持中文,但是对欧美文字(英法德意西)的识别还不错。主要是版面分析是强项。后面再考虑添加中文和其他文字。从2013年接触形状上下文以来,掐指一算也经过了3个年头;独立自主开发一个app到上线,也算是交上了一份段考答卷。苹果官网下载地址:深度识别a...
2016-12-10 11:30:41
1625
原创 O(1)复杂度的字符串查找算法设计
Tips:这是为本人所在公司设计的查找子串的算法的文档。“发明”出来之后才发现杯具了……原来这货叫字典树,是早已经有的东西。计算熵倒是自己引入的,但是后面发现很多情况下得不偿失,实际实现中去掉了这个功能。以下为文档最初始的版本,并不跟手上已经实现的玩意完全符合。仅仅希望大家看了之后能有所启发,以下是正文。 1 简介2 测试数据3 算法原理介绍 1.1 在数组查找
2015-01-06 20:50:00
5114
原创 记录研究截取QQ密码的几点心得
1 根据网上的文章,至少到QQ2013版本时,QQ主要通过以下几个方式实现密码保护: a 登录窗体和密码输入框分离为两个进程 b 设置调试钩子和低级键盘钩子阻止HOOK,所以必须干掉两个钩子 c 设置钩子代码后有检测代码以阻止篡改setwindowshookex的参数,所以必须nop掉检测代码 d 运行时拷贝代码保护c中的检测代码,所以必须HOOK掉memc
2014-03-05 06:41:23
3833
1
原创 基于形状上下文算法的图像识别Demo初步OK,纪念一下
最近研究基于形状上下文识别和线性代数,收获甚多。今晚终于能初步匹配两个字符串图片上面的轮廓像素点了,VC++6。0实现,相当激动,截图纪念下。心得:1 目标点和匹配样本,一个一个像素的匹配,只匹配RGB(0,0,0)的点,也就是只匹配轮廓点,能大大提高速度。原来SB,目标图像每个点都尝试匹配,果断慢到爆。现在看来,速度还是慢,果然光提取轮廓还不过,还要提取轮廓点。2 选
2014-02-24 04:12:10
6452
1
原创 用common lisp写网站之一
前段时间一直在用易读看天涯社区的连载小说,但是更新得太慢,往往天涯上面晚上更了,易读第二天早上才刷出来。严重怀疑是手动更新的。技痒,决定自己写一个易读网。原理很简单——启动一个线程定时抓取指定帖子的网页文本,通过正则表达式提出出有用的信息,并:(1)存储入数据库备用(2)格式化输出为网页,实现只看楼主的功能。 先用Python写了一个小脚本,实现了抓取网页,正则表达式提取内容和格式化
2013-07-18 16:54:44
5646
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人