
Work diary
heavendai
NULL
展开
-
2012.1.18
工作内容:调研并整理Murmurhash算法与Cityhash算法,比较其碰撞率,耗时等性能。结果如下: 测试数据量:13584385 Murmurhash2Murmurhash2ACityhash种子长度=40碰撞率0.0137590.0122196原创 2012-01-18 16:39:57 · 943 阅读 · 0 评论 -
linux 与 windows下配VHOST
Apache,PHP将php.ini中设置short_open_tag = On Windows:在httpd.conf下加入代码:NameVirtualHost *:80 DocumentRoot "D:/Program Files/xampps/htdocs/autorule" ServerName autorule.dmy.com从项目原创 2013-11-14 11:30:47 · 2375 阅读 · 0 评论 -
Thrift 的各项传输协议和Socket方式及各种Server的特性
Thrift 的各项传输协议和Socket方式及各种Server的特性(1).支持的传输格式TBinaryProtocol 二进制格式TCompactProtocol 压缩格式TJSONProtocol JSON格式TSimpleJSONProtocol 提供JSON只写协议,生成的文件很容易通过脚本语言解析TDebugProtocol 使用易懂的可读转载 2013-07-09 16:17:16 · 11135 阅读 · 0 评论 -
thrift shows CLOSE_WAIL error
常用Thrift搭建WebService,对于线程池的应用,之前一直采用TThreadPoolServer类的实现,本次对垃圾过滤的应用中,在对该类的使用中出现了运行进程的客户端请求链接以增量的方式出现了CLOSE_WAIT状态,当增长到一定程度后,系统不再处理请求(线程池中已无链接可用)。具体错误为:TThreadPoolServer: TServerTransport died on ac原创 2013-02-26 18:32:05 · 5142 阅读 · 0 评论 -
再谈文本分析系统移植
这两天做了件前段时间想做而没有空做的事,将上半年搭建的文本分析扩展之后进行各种方式的打包发布。该系统是基于CRF++的,分别经过了分词阶段,词性标注阶段,实习识别阶段,而从实现方式上也经过了单线程,多线程,线程池,线程安全,本地执行,Thrift 服务,控制台接收,文本处理等阶段,其中所含内容甚多,虽在本地可以完美执行,但以静态库或动态库的方式移植至其他服务器却会出现问题,当然代码移植还是完美的。原创 2013-01-07 18:49:16 · 906 阅读 · 1 评论 -
2012.11.15
今天为了在C++平台上调用问题Tag标注签的接口,学用了C++ 创建与解析的模块类,和C++ 调用CURL的封装模块类。这两个抽空分析一下,可加到Utility库中。原创 2012-11-15 19:20:13 · 625 阅读 · 0 评论 -
2012.11.7
这几天一直在做在线的语音识别Demo,核心的识别器是基于Google的的开放接口,使用十分方便,输入为flac格式的文件,输出了JSON格式的结果。但外围框架十分繁琐,大部分在于使用了MIT的Wami网页录音接口。整个的框架涉及的模块较多,有首先是HTML调用了PHP写的录音程序,生成Wav文件,由外围工具flac将其转换为flac格式的文件,再由Python写的识别程序进行识别,并最终将结果返回原创 2012-11-07 15:18:05 · 1299 阅读 · 0 评论 -
sort自定义类型排序
一个很简单的问题,不过也磨了我好一会,在些总结记录。1. 对于不用写自定义数据结构的情况:static int cmp(const pair& x, const pair& y){if (x.second != y.second)return x.second > y.second;elsereturn x.first > y.first;}原创 2012-09-21 14:58:40 · 793 阅读 · 0 评论 -
CRF 移植
Part 1.前些天把词性标注的接口与分词的接口全并在一起,终于达到了足够稳定的程度(小数据量自己测试)。为在线上作为服务提供之用,而必须改装为线程安全的版本,就编程习惯而言问题不大:1.将strtok 的使用换成strtok_r ;2. 非线程间共享的全局变量封类进终端管理类,而全局共享的依然可以写成全局变量的形式,比如配置文件类CConfig config("res.config")。但其原创 2012-08-24 17:20:31 · 1015 阅读 · 0 评论 -
SecureCRT rz 上传文件失败问题
在把Windows上的文件传至Linux端时用到SecureCRT,一般小文件都没有问题,文件太大时则出现了上传后的文件只有几K大小,当然大于2个G的是不可能传的上去的了。对于几百M到1G多的大文件要如下处理。单独用rz会有两个问题:上传中断、上传文件变化(md5不同),解决办法是上传是用rz -be,并且去掉弹出的对话框中“Upload files as ASCII”前的勾选。原创 2012-05-09 10:59:08 · 44248 阅读 · 2 评论 -
搭建thrift服务
前两天需要把分词系统做成上线的版本,于是要把分词系统做成服务的形式,这种做服务的方式以前一直用Soeket编程的方式,但这次用了个新的技术。服务器端:Linux+C++客户羰:PHP最初的版本当然是直接用PHP调用外部程序,用的是PHP中system函数,在上一篇文章已有介绍。之后的版本是基本Thrift框架的。Thrift框架很炫,是Facebook的一个技术原创 2012-04-27 18:50:45 · 2165 阅读 · 0 评论 -
2012.4.24 PHP调用外部函数问题
用PHP调用之前写的分词程序:crf_test:input: 一串字符output: 分好词的字符在用PHP调用crf_test时遇到很蛋疼的权限问题。首先,crf_test在home目录内,导致/var/www/html/dai/demo4seg.php 无权访问该目录下的程序。将crf_test项目移至外目录中,可行。但用Root编译程序后,还需要用chown -R m原创 2012-04-24 18:44:14 · 2008 阅读 · 0 评论 -
Thrift框架中函数栈的大小对程序的影响
写一套程序,WebService的用了Thrift,还有一个单原创 2014-07-31 12:02:26 · 1294 阅读 · 0 评论