- 博客(58)
- 资源 (1)
- 收藏
- 关注
原创 paper read - 02- 2018 - Dual Language Models for Code Switched Speech Recognition
Paper:Dual Language Models for Code Switched Speech Recognition,2018,Interspeech这篇文章的核心概念是下面这张图:以前的CS任务,一般是:1检查语种切换点,什么语种就用什么语种的LM;2 建立CS的语料,直接训练。 本文的核心是,如果有CS训练语料,但语料不多,不直接求 P(W2L2|W1L1),而是先求,P(...
2019-02-26 15:50:14
238
原创 paper read - 01- 2004 - 语码转换之结构研究述评
Paper:语码转换之结构研究述评,王瑾、黄国文,2004,外国语言文学 出现CS的原因:真的没有这个词的翻译;为了彰显自己的地位;省事;强调 CS的现象:1 要选择Base语言2 嵌入式(词嵌入);轮换式(小句交替出现);词Mix(恋爱 ing);插旗式(强调“”)3 名词替换(最常见);省略介词(变成及物动词,in at4 依赖Base语言的词法;Mix后独立创新语法...
2019-02-13 13:44:33
247
原创 Twitter-LDA (只是为了mark)
只是为了mark样例code用(java): https://github.com/minghui/Twitter-LDA stop word 很重要,把长尾的词加进来 alpha_g参数一般=50/ k, 其中k是你选择的topic数
2018-02-06 18:51:08
2216
原创 Tensorflow - 安装
我的机器Ubuntu 16.04参考:http://ju.outofmemory.cn/entry/270769 http://ju.outofmemory.cn/entry/328609 查看机器状态$ lspci | grep -i nvidia$ sudo dpkg --list | grep nvidia-*$ uname -m && c
2018-02-06 18:36:29
283
原创 [笔记]网易云课堂-旅游英语-2-酒店和家庭寄宿
Hotel&Home StayHotelCheck-inHotel ServiceCheck-outHomeStayUseful expressions
2014-07-10 09:52:41
965
原创 安装boost_1_55_0
一、安装 在目录下找到 bootstrap.bat 批处理文件,运行生成bjam.exe和b2.exe。 运行bjam.exe文件(需要较长时间)。生成stage文件夹内有lib文件夹,即静态库文件。二、使用配置(链接静态库) 在VS中,工程属性->配置属性->VC++ Directories,修改如下: 1、包含目录(Inclu
2014-03-13 11:15:21
2155
原创 perl 强制输出% 百分号
#我的问题是,原文件中含有%,perl处理后,需要将源文件的百分号原样输出#如果不做处理,% b, % n,% t这些都会被认为成格式符或功能性字符#简单处理如下while (){chomp;~s/\%/\%\%/g;$line=$_;printf OUT "$line\n";}
2013-12-26 18:24:41
3896
原创 SIGHAN评测回顾-2-(2006-2010)
这2篇blog是对SIGHAN2003-2010中文分词任务中使用的方法的简要概述,不详细不精确,个别数据可能有一定的错误。写此blog目的是为方便以后查看。各个方法的具体细节应该参看原始论文。表 1-3 2006年Bakeoff评测结果Table 1-3 Result of Bakeoff 2006任务最高分队伍最高分第一作者
2013-06-21 10:53:28
4771
原创 SIGHAN评测回顾-1-(2003-2005)
这2篇blog是对SIGHAN2003-2010中文分词任务中使用的方法的简要概述,不详细不精确,个别数据可能有一定的错误。写此blog目的是为方便以后查看。各个方法的具体细节应该参看原始论文。 国际中文自动分词评测(简称SIGHAN[1]评测)采用多个由不同机构提供的数据集合进行评测[2]。每个机构提供的数据集都包含训练语料、测试语料和标准答案,参评者可以自由选择一种或者多种参
2013-06-21 10:45:24
5726
1
原创 服务器运行内存问题
perl程序在服务器上跑,只要使用内存超过2G,就报错。原因:32位的机器为了保护系统,在内存使用超过2G的时候会报错。64为机器则可以使用。服务器是64位,内存16G。但由于使用的perl编译器是32位的,所以限制程序只能使用2G内存解决方法:换掉原先的perl编译器,从官网下载64位编译器,成功运行。
2013-03-05 17:55:41
1105
原创 perl split 中文 乱码问题
用split分割句子中的中文字符,本地两台机器完全没有问题,服务器死活都是乱码(这台机器默认编码的确是gbk)后来做个尝试,句子decode,如果需要分割符,分隔符也要decode,输出的时候要encode,就正常了。中间状态时乱码,那是perl自己认识的字节流,始、终状态是字符串。use strict;use Encode;#输入文件是GBK编码open(In,"wh
2013-03-05 15:11:57
2131
原创 笔记-2010-2011 孙薇薇
语料宾州树库CTB1:2010Word Based and Character-Based Word Segmentation Models: Comparison and Combination就是简单的说明了一下字、词单位的区别。然后实验对比了一下。分词方法就是投票,找M个分词结果,多的胜出。投票boosting最高提高0.4个点2:2011A Stac
2013-01-05 13:37:49
633
原创 viterbi 中文分词-超简单版
use encoding "gbk";#load score哈希,这个Score是自己定的open(Inscore, "<$ARGV[0]") or die "无法打开信息文件。\n";%score=();while(){ chomp($_); if($_ eq "") { next; } @pair=(); @pair=split("\t",$_); $score{
2012-11-28 16:23:24
925
原创 基础知识2
1 线性表、链表的区别顺序表的主要优点体现在没有使用指针,节省存储空间,而且线性表元素的读访问非常简洁便利。链表的主要优点则体现在无需事先确定线性表的长度,可以根据需要动态申请,且允许线性表的长度有很大变化,能够适应在线性表中经常插入、删除内部元素的情况。需要根据具体的应用来选择采用何种存储方式的线性表。当线性表经常要进行插入、删除元素的操作时,不宜使用顺序表,另外,当无法事先确定
2012-11-27 16:17:24
413
原创 【小工具】CRF++格式转所有特征显示
#———————————解码————————————#转移概率共36项,输入格式如下#-3.0613860150847194#6.3296570233861047#-1.0675635747046173#4.6421254962811851#-1.5142773207880604#……# 0 1 2 3 4 5# B B2 B3 E M Sopen(Intrans, "<$
2012-11-26 20:25:22
1619
原创 语言模型使用
最近同门在处理srilm,问我大规模怎么弄,真惭愧好久没用了这是以前写的#inputfile切成小文件放到outputfiledir目录下,文件名的前缀outputfie_prefixsplit -l 100 inputfile outputfiledir /outputfie_prefix#进入outputfiedir文件cd outfiledir#生成文件列表,file
2012-11-26 10:35:42
1245
原创 基础知识1
1 static 在C、C++中的作用 对变量: a 静态区域,初始化为0; b 在程序刚开始运行时就完成出初始化,也是唯一一次初始化。控制变量的可见范围。保持变量内容持久。 对变量、函数(主要):这是与全局变量的差别,“隐藏”,不同文件中,使用相同函数名,不会发生冲突;例如,A文件中函数名加了static,则B文件看不到。2 sizeof strlen区别 举例
2012-11-26 09:01:14
408
原创 CRF++模型可视化输出的格式
我没有看源代码,但是今天分析的时候觉得格式应该是下面这样的Maxid=数,这个数是特征有多少个B,B2,B3,E,M,S是Tag的顺序U00,U01,……,B 是模板的顺序ID 模板号:特征26016 U00:细这个块是说明了每个特征在下面参数数组中的ID,ID的起始地址是0;每个特征在每个Tag上的拉姆达2.7613490877201383这一块就是参数数组
2012-11-08 18:07:38
1080
原创 笔记-2004-2007-A Hybrid Approach to Word Segmentation and POS Tagging
2004-Chinese and Japanese Word Segmentation Using Word-Level and Character-Level Information作者:Tetsuji Nakagawa出处:Proceedings of COLING 2004,pages 466-4722007-A Hybrid Approach to Word Segmentat
2012-11-07 13:33:29
823
原创 笔记-2003-A Maximum Entropy Chinese Character-Based Parser
A Maximum Entropy Chinese Character-Based Parser作者:xiaoqiang Luo单位:IBM T.J. Watson Research Center 出处:Proceedings of the 2003 conference on Emprical Methods in Natural Language Processing ,pp.
2012-11-06 18:12:27
648
原创 笔记-2004-Adaptive Chinese Word Segmentation
Adaptive Chinese Word Segmentation作者:Jianfeng Gao,Andi Wu,Mu Li,Chang-Ning Huang,Hongqiao Li,Xinsong Xia,Haowei Qin单位:Microsoft Research出处:ACL '04 Proceedings of the 42nd Annual Meeting on Ass
2012-11-06 18:06:59
620
原创 笔记-2003-Chinese Word Segmentation as Character Tagging
Chinese Word Segmentation as Character Tagging不知道这篇是不是上一篇的扩写,发表在不同杂志上作者:Nianwen Xue单位:Inst. for Research in Cognitive Science出处:Computational Linguistics and Chinese Language Processing Vol.
2012-11-06 17:54:31
1414
原创 笔记-2003-Chinese Word Segmentation as LMR Tagging
Chinese Word Segmentation as LMR Tagging作者:Nianwen Xue,LibinShen单位:Inst. for Research in Cognitive Science;UniversityofPennsylvania出处:Proceedings of the Second SIGHAN Workshop on Chinese Languag
2012-11-06 17:50:40
909
原创 笔记-2002-Combining Classifiers for Chinese Word Segmentation
Combining Classifiers for Chinese Word Segmentation作者:Nianwen Xue,Susan P. Converse单位:Institute for Research in Cognitive Science ;University of Pennsylvania 出处:Proceeding SIGHAN '02 Proceedin
2012-11-06 17:46:46
948
原创 笔记-1999-消解中文三字长交集型分词歧义的算法
消解中文三字长交集型分词歧义的算法出处:清华大学学报(自然科学版)1999年第5期单位:清华大学作者:孙茂松三字,交搭歧义,词性,词概率,组合概率,分类词表概率主要内容:根据对一个1亿字汉语语料库的观察, 三字长交集型分词歧义就静态个数而言占全部交集型分词歧义的33.29%, 动态覆盖率更占全部交集型分词歧义的49.76%。1 词概率+ 词性Bigram法,
2012-11-06 17:38:07
596
原创 笔记-2007-基于有效子串标注的中文分词
基于有效子串标注的中文分词作者:赵海,接春雨单位:香港城市大学-出处:中文信息学报,2007年,21卷,5期,8-13页本文主要是确定什么做子串;特征6Tag:B,B2,B3,M,E,S;仅CRF结果评价数据:Sighan bakeoff 2005;CityU,MSRA,最好结果0.952,0.974。步骤:1 从训练语料中得到词典,高于某个频率的进入子串词典;
2012-11-06 17:13:11
431
原创 笔记-2006-Subword-based Tagging by Conditional Random Fields for Chinese Word Segmentation
Subword-based Tagging by Conditional Random Fields for Chinese Word Segmentation作者: Ruiqiang Zhang,Genichiro Kikui ,Eiichiro SumitaNational Institute of Information and Communications Technology(国
2012-11-06 16:52:25
758
原创 10月小事
长辈 早高峰的公交车,一个字“挤”。还好有乐观的公交司机大叔“您要是着急就努力往上挤啊,不着急就等下一辆”。 早高峰的三环,也就一个字“堵”。 不知道挤了多久,又堵了。听见前面司机在跟某人喊话,好像类似“师傅,您挪一下,大家就都过去了”。后来知道前面可能有车刮蹭了,两方正谁也不让谁呢。于是一整车的人就堵在三环上,各种抱怨。司机师傅极力跟前面的车沟通,但势单力薄。
2012-10-24 13:50:54
1281
原创 新动向--网址链接转载等
机器学习新动向:从人机交互中学习 (李航博士)http://blog.sina.com.cn/s/blog_7ad48fee01016d25.html (12.10.21读)主要内容有三:机器学习需要很多数据;数据来源可由用户无意识添加、付费添加、游戏添加;要有效的利用这些数据、设计更合理的获取途径。公开课信息http://courseminer.com/h
2012-10-21 19:06:32
527
原创 笔记-2004-基于无指导学习策略的无词表条件下的汉语自动分词
基于无指导学习策略的无词表条件下的汉语自动分词孙茂松,肖明,邹嘉彦清华大学、香港城市大学2004年6月计算机学报互信息、t-测试差、线性叠加、波峰波谷由于这个时候还没有SIGHAN2005,所以不好评说这个的效果,但是思想很好互信息,用于检查两个字的结合紧密程度,注意,互信息是二元的,多于二元的都不行。t-测试差的作用也是这样,但是公式不同,都是越大,结合越紧密
2012-10-21 18:43:23
510
原创 笔记-2012-Unsupervized Word Segmentation the case for Mandarin Chinese
Unsupervized Word Segmentation the case for Mandarin ChinesePierre Magistry ,Benoit Sagot法国的,2012在ACL上发表左右熵,差值,归一化这篇是针对北理工那篇文章写的,很佩服啊,人家法国人做中文分词,还发在顶级会议,哎。ESA那篇发在CL上,号称是目前无监督学习最好的方法了。这篇论文的
2012-10-21 18:28:10
1293
原创 笔记-2011-A New Unsupervised Approach to Word Segmentation
A New Unsupervised Approach to Word SegmenationHanshi Wang, Jian Zhu, Shiping Tang, XiaoZhong Fan北京理工大学,2011 发在CL上长度、频次、左右熵:无监督~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2012-10-21 18:08:11
728
原创 笔记-2008-An Empirical Comparison of Goodness Measures for Unsupervised CWS with a ~
An Empirical Comparison of Goodness Measures for Unsupervised Chinese Word Segmentation with a Unified FrameworkHai Zhao Chunyu Kit City University of Hong Kong2008年这篇文章是最之前无监督分词方法的一个比较主要比
2012-10-21 16:19:23
641
原创 fwscanf在vc6与2005上的差别
按固定的格式读入数据函数int fscanf( FILE *stream, const char *format [, argument ]... )int fwscanf( FILE *stream, const wchar_t *format [, argument ]... )参数:stream 文件指针format 按照一定的格式argument 可选参数列表返回值:f
2012-08-27 21:55:20
602
原创 形式语义学-chapter 3 Attribute Grammars
ATTRIBUTE GRAMMARS 属性文法前言:1968年被Donald Knuth 提出,当时的目的是为了对上下文无关的语义进行形式化。现在多用于类似:检查声明,检查变量or函数是否与声明一致,操作语义等。静态语义形式化描述最常采用的是属性文法(attributegrammars),它实际上是为产生式中的符号扩充属性。因此,也可以认为属性文法是对上下文无关文法的扩充,二者结合
2012-08-17 10:55:06
657
原创 笔记-2012-Fast Online Training with Frequency-Adaptive Learning Rates for CWS and New
Fast Online Training with Frequency-Adaptive Learning Rates for Chinese Word Segmentation and New Word Detection作者:香港理工大学,北京大学,Xu Sun , Houfeng Wang, Wenjie Li出处:Proceedings of the 50th Annual Mee
2012-08-12 21:17:35
1091
原创 笔记-2009-An Error-Driven Word-Character Hybrid Model for Joint CWS and POS Tagging
An Error-Driven Word-Character Hybrid Model for Joint Chinese Word Segmentation and POS Tagging作者:神户大学,Canasai Kruengkrai, and Kiyotaka Uchimoto, and Jun’ichi Kazama, Yiou Wang, and Kentaro Torisawa
2012-08-12 16:47:35
1069
原创 常用被引用文献 MIRA CRF
MIRA (Margin Infused Relaxed Algorithm )一种超保守在线算法, 在分类、排序、预测等应用领域取得不错成绩理论Koby Crammer.2004. Online Learning of Com-plex Categorial Problems. Hebrew Univeristy of Jerusalem, PhD Thesis2005.
2012-08-12 11:54:36
3489
形式语义学(英文版)
2012-08-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人