- 博客(6)
- 收藏
- 关注
原创 Tesseract-OCR3.0使用
近来由于工作需要,对开源的orc引擎Tesseract做了简单的应用,需求是识别网站图片电话,如locoso、koubei、qingke800等网站 针对不同的站点,采用不同的策略。简单的方法是只要对图片转格式(tif)后做一定比例的放大就可以识别(因站点而易),例如locoso的图片做200%的放大比例后,几乎可以100%识别。而对于koubei尝试了几个比例后,效果不是很理想,所以针对这个站点做了专门的训练语集,训练数据集的生成方法参见看考链接,我做的训练语集对koubei可以达到99%多
2010-12-30 22:28:00
6284
1
原创 freebsd(unxi)下thrift的安装
最近使用到thrif,简单总结一下安装过程,其实通过ports和pkg方式更方便。参考 http://blog.youkuaiyun.com/zhangxue/archive/2008/11/11/3274732.aspx操作系统环境:FreeBSD依赖库:libevent 、boost、zlib thrift:http://www.thrift-rpc.org/?p=thrift.git;a
2010-04-29 13:30:00
858
原创 linux下gdb调试之简单命令使用(一)
最近通读了一下软件调试的艺术(The art of debugging with gdb,ddd,eclipse),总体来说是一般入门级的调试用书。我个人感觉对初学gdb的有一定的作用,有愧于题目art,调试能力的提高必须通过实践。我简单的做个总结,供入门参考。主要讲了gdb的常用命令以及常见bug的调试方法。常用命令:1. 暂停机制 a.断点的使用 设置断点的
2010-03-15 16:10:00
544
原创 unicode简介
unicode编码简介: 最近做一个字符级别去噪的程序,接触了Unicode编码,顺便对对他做了简单的总结。Unicode字符集可以简写为UCS(Unicode Character Set),目前已到版本6.0.0,具体见参考链接。Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。Unicode用数字0-0x10FFFF来映射这些字符,最多可以容纳11141
2010-01-27 10:58:00
694
原创 java线程池访问mysql数据库
使用dbcp,可以通过线程池的方式访问数据库import org.apache.commons.dbcp.BasicDataSource;import org.apache.commons.logging.Log;import org.apache.commons.logging.LogFactory;public final class DBConnect { static Log l
2009-12-09 17:14:00
1942
原创 httpclient 学习的几点经验
httpclinet 是一个java语言开源包 ,支持通过http协议下载各种文件,具有良好的配置性。详细见:http://hc.apache.org/httpclient-3.x/ 。下面具体例举使用的经验(httpclient3.1):1. 多线程 private static HttpClient hc = null; hc = new HttpClient(ne
2009-12-09 16:20:00
860
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人