
CODE
alicexc++
这个作者很懒,什么都没留下…
展开
-
把普通语料整理成微软格式的CRF语料
把普通语料整理成微软格式的CRF语料转载 2010-12-22 12:59:00 · 1093 阅读 · 1 评论 -
viterbi 中文分词-超简单版
use encoding "gbk";#load score哈希,这个Score是自己定的open(Inscore, "<$ARGV[0]") or die "无法打开信息文件。\n";%score=();while(){ chomp($_); if($_ eq "") { next; } @pair=(); @pair=split("\t",$_); $score{原创 2012-11-28 16:23:24 · 925 阅读 · 0 评论 -
新动向--网址链接转载等
机器学习新动向:从人机交互中学习 (李航博士)http://blog.sina.com.cn/s/blog_7ad48fee01016d25.html (12.10.21读)主要内容有三:机器学习需要很多数据;数据来源可由用户无意识添加、付费添加、游戏添加;要有效的利用这些数据、设计更合理的获取途径。公开课信息http://courseminer.com/h原创 2012-10-21 19:06:32 · 527 阅读 · 0 评论 -
perl 强制输出% 百分号
#我的问题是,原文件中含有%,perl处理后,需要将源文件的百分号原样输出#如果不做处理,% b, % n,% t这些都会被认为成格式符或功能性字符#简单处理如下while (){chomp;~s/\%/\%\%/g;$line=$_;printf OUT "$line\n";}原创 2013-12-26 18:24:41 · 3896 阅读 · 0 评论 -
最大熵工具遇到的问题
最近使用张乐博士的最大熵工具由于语料大部分用perl处理,回车换行是 13 10使用张乐博士最大熵工具时(2004年12月29日版)总会报错方法是:去掉13,只有10。从网上下载的解码工具,对于长句子会出现乱码,所以一般要把句子缩短再测试在windows服务器上最大熵能处理约630万特征,即3-4个月的人民日报。再大则程序崩溃。正在找问题原因对1个月原创 2012-04-21 14:35:53 · 379 阅读 · 0 评论 -
记住递归
long fact ( int n ) { if( n = = 0){return 1;}else{return ( n* fact (n-1));}}原创 2011-11-29 13:05:01 · 535 阅读 · 0 评论 -
Visual Studio 的控制台调试窗口无法关闭(转)
Visual Studio 控制台窗口 无法关闭转载 2010-12-17 13:54:00 · 1553 阅读 · 0 评论 -
服务器运行内存问题
perl程序在服务器上跑,只要使用内存超过2G,就报错。原因:32位的机器为了保护系统,在内存使用超过2G的时候会报错。64为机器则可以使用。服务器是64位,内存16G。但由于使用的perl编译器是32位的,所以限制程序只能使用2G内存解决方法:换掉原先的perl编译器,从官网下载64位编译器,成功运行。原创 2013-03-05 17:55:41 · 1106 阅读 · 0 评论 -
perl split 中文 乱码问题
用split分割句子中的中文字符,本地两台机器完全没有问题,服务器死活都是乱码(这台机器默认编码的确是gbk)后来做个尝试,句子decode,如果需要分割符,分隔符也要decode,输出的时候要encode,就正常了。中间状态时乱码,那是perl自己认识的字节流,始、终状态是字符串。use strict;use Encode;#输入文件是GBK编码open(In,"wh原创 2013-03-05 15:11:57 · 2132 阅读 · 0 评论 -
CRF++遇到问题
CRF++在windows系统下不能处理大规模语料目前针对1998年2个月的语料没有问题,但是3个月的语料就崩溃了虽然版本升级,但是我们的服务器上仍然存在这个问题CRF++升级的版本55-57,可以自动识别系统的CPU的数量例如我们的服务器,他识别后自动给开16个线程,这样会导致程序崩溃。限制一下线程数量,目前限制到4,小语料就可以正常跑了查阅过使用CRF的原创 2012-06-07 09:33:24 · 2173 阅读 · 0 评论 -
fwscanf在vc6与2005上的差别
按固定的格式读入数据函数int fscanf( FILE *stream, const char *format [, argument ]... )int fwscanf( FILE *stream, const wchar_t *format [, argument ]... )参数:stream 文件指针format 按照一定的格式argument 可选参数列表返回值:f原创 2012-08-27 21:55:20 · 602 阅读 · 0 评论 -
【小工具】CRF++格式转所有特征显示
#———————————解码————————————#转移概率共36项,输入格式如下#-3.0613860150847194#6.3296570233861047#-1.0675635747046173#4.6421254962811851#-1.5142773207880604#……# 0 1 2 3 4 5# B B2 B3 E M Sopen(Intrans, "<$原创 2012-11-26 20:25:22 · 1620 阅读 · 0 评论 -
CRF++模型可视化输出的格式
我没有看源代码,但是今天分析的时候觉得格式应该是下面这样的Maxid=数,这个数是特征有多少个B,B2,B3,E,M,S是Tag的顺序U00,U01,……,B 是模板的顺序ID 模板号:特征26016 U00:细这个块是说明了每个特征在下面参数数组中的ID,ID的起始地址是0;每个特征在每个Tag上的拉姆达2.7613490877201383这一块就是参数数组原创 2012-11-08 18:07:38 · 1080 阅读 · 0 评论 -
把普通语料整理成ME训练语料
把普通语料整理成ME训练语料转载 2010-12-22 13:01:00 · 571 阅读 · 0 评论 -
SIGHAN2005分词baseline的perl程序FMM
FMM perl程序转载 2010-12-22 13:03:00 · 680 阅读 · 1 评论 -
10转16,16转10
<br /> <br /> <br />#include <stdio.h> <br />#define N 8 <br />void tran(int num,int k) <br />{ <br /> int arr[N],i; <br /> for (i=0;i <N;i++) <br /> { <br /> arr[i]=num%k; <br /> num=num/k; <br /> if (num==0) <br />转载 2010-12-28 10:38:00 · 902 阅读 · 0 评论 -
Perl 中文 字频统计 (Perl 例子)
perl 汉字 中文 统计 字频 gbk转载 2011-01-04 22:00:00 · 1353 阅读 · 0 评论 -
统计机器翻译工具
MT工具小说明原创 2011-03-02 19:56:00 · 1740 阅读 · 2 评论 -
perl统计--序数词基数词字母词时间
统计我的序数词,基数词,字母词,时间原创 2011-03-02 20:27:00 · 747 阅读 · 0 评论 -
crf预处理更改
crf 预处理更改原创 2011-03-02 20:58:00 · 727 阅读 · 0 评论 -
unicode转gbk,gbk转unicode CC++
[code=C/C++] //平时经常批量处理文件,需要从unicode 转 gbk,或者是gbk转unicode,手动转太麻烦了,又没有linux系统,perl又是对UTF-8比较适合,还是自己弄个程序吧//这个程序就是 将 in 文件夹下的所有文件从A编码转换成B编码,转换后的文件放到 out 文件夹下,文件名不变。0 代表 unicode2gbk,1 代表 gbk2unicode//wfop原创 2011-11-30 18:56:12 · 8300 阅读 · 1 评论 -
CRFsuite 我的预处理
我发现一个问题,CRF++的结果好于CRFsuite 差0.01-0.02左右不会python啊,太弱了。自己写了个perl的预处理,从crf++的模板改成crfsuite的。还不知道它能不能跑大语料,试试吧#输入文件格式#迈 n_punc N_num B#向 n_punc N_num E#充 n_punc N_num B#满 n_punc N_num E#原创 2012-06-12 18:07:49 · 4808 阅读 · 0 评论 -
perl -正向最大匹配 转自Sighan 提供的FMM程序
#!/usr/bin/perl -w# GBK编码,参数一 词典 参数二 待分文本#转自Sighan 提供的FMM程序 ,不是原创#所以把人家的声明都放在下面了############################################################################转载 2012-03-20 09:52:05 · 535 阅读 · 0 评论 -
安装boost_1_55_0
一、安装 在目录下找到 bootstrap.bat 批处理文件,运行生成bjam.exe和b2.exe。 运行bjam.exe文件(需要较长时间)。生成stage文件夹内有lib文件夹,即静态库文件。二、使用配置(链接静态库) 在VS中,工程属性->配置属性->VC++ Directories,修改如下: 1、包含目录(Inclu原创 2014-03-13 11:15:21 · 2156 阅读 · 0 评论