alicexc++-优快云博客

原创 paper read - 02- 2018 - Dual Language Models for Code Switched Speech Recognition

Paper：Dual Language Models for Code Switched Speech Recognition，2018，Interspeech这篇文章的核心概念是下面这张图：以前的CS任务，一般是：1检查语种切换点，什么语种就用什么语种的LM；2 建立CS的语料，直接训练。本文的核心是，如果有CS训练语料，但语料不多，不直接求 P(W2L2|W1L1），而是先求，P(...

2019-02-26 15:50:14 238

原创 paper read - 01- 2004 - 语码转换之结构研究述评

Paper：语码转换之结构研究述评，王瑾、黄国文，2004，外国语言文学出现CS的原因：真的没有这个词的翻译；为了彰显自己的地位；省事；强调 CS的现象：1 要选择Base语言2 嵌入式（词嵌入）；轮换式（小句交替出现）；词Mix（恋爱 ing）；插旗式（强调“”）3 名词替换（最常见）；省略介词（变成及物动词，in at4 依赖Base语言的词法；Mix后独立创新语法...

2019-02-13 13:44:33 247

原创 Twitter-LDA （只是为了mark）

只是为了mark样例code用（java）： https://github.com/minghui/Twitter-LDA stop word 很重要，把长尾的词加进来 alpha_g参数一般=50/ k, 其中k是你选择的topic数

2018-02-06 18:51:08 2216

原创 Tensorflow - 安装

我的机器Ubuntu 16.04参考：http://ju.outofmemory.cn/entry/270769 http://ju.outofmemory.cn/entry/328609 查看机器状态$ lspci | grep -i nvidia$ sudo dpkg --list | grep nvidia-*$ uname -m && c

2018-02-06 18:36:29 283

原创 Kaldi cvte test

CVTE Kaldi Test

2017-07-04 15:54:04 2664

原创重新出发

我要开始学新的东西了，加油

2017-07-04 15:38:44 275

原创 [笔记]网易云课堂-旅游英语-2-酒店和家庭寄宿

Hotel&Home StayHotelCheck-inHotel ServiceCheck-outHomeStayUseful expressions

2014-07-10 09:52:41 965

原创安装boost_1_55_0

一、安装在目录下找到 bootstrap.bat 批处理文件，运行生成bjam.exe和b2.exe。运行bjam.exe文件(需要较长时间)。生成stage文件夹内有lib文件夹，即静态库文件。二、使用配置（链接静态库）在VS中，工程属性->配置属性->VC++ Directories，修改如下: 1、包含目录（Inclu

2014-03-13 11:15:21 2155

原创 perl 强制输出% 百分号

#我的问题是，原文件中含有%，perl处理后，需要将源文件的百分号原样输出#如果不做处理，% b， % n，% t这些都会被认为成格式符或功能性字符#简单处理如下while (){chomp;~s/\%/\%\%/g;$line=$_;printf OUT "$line\n";}

2013-12-26 18:24:41 3896

原创 SIGHAN评测回顾-2-(2006-2010)

这2篇blog是对SIGHAN2003-2010中文分词任务中使用的方法的简要概述，不详细不精确，个别数据可能有一定的错误。写此blog目的是为方便以后查看。各个方法的具体细节应该参看原始论文。表 1-3 2006年Bakeoff评测结果Table 1-3 Result of Bakeoff 2006任务最高分队伍最高分第一作者

2013-06-21 10:53:28 4771

原创 SIGHAN评测回顾-1-(2003-2005)

这2篇blog是对SIGHAN2003-2010中文分词任务中使用的方法的简要概述，不详细不精确，个别数据可能有一定的错误。写此blog目的是为方便以后查看。各个方法的具体细节应该参看原始论文。国际中文自动分词评测（简称SIGHAN[1]评测）采用多个由不同机构提供的数据集合进行评测[2]。每个机构提供的数据集都包含训练语料、测试语料和标准答案，参评者可以自由选择一种或者多种参

2013-06-21 10:45:24 5726 1

原创服务器运行内存问题

perl程序在服务器上跑，只要使用内存超过2G，就报错。原因：32位的机器为了保护系统，在内存使用超过2G的时候会报错。64为机器则可以使用。服务器是64位，内存16G。但由于使用的perl编译器是32位的，所以限制程序只能使用2G内存解决方法：换掉原先的perl编译器，从官网下载64位编译器，成功运行。

2013-03-05 17:55:41 1105

原创 perl split 中文乱码问题

用split分割句子中的中文字符，本地两台机器完全没有问题，服务器死活都是乱码（这台机器默认编码的确是gbk）后来做个尝试，句子decode，如果需要分割符，分隔符也要decode，输出的时候要encode，就正常了。中间状态时乱码，那是perl自己认识的字节流，始、终状态是字符串。use strict;use Encode;#输入文件是GBK编码open(In,"wh

2013-03-05 15:11:57 2131

原创笔记-2010-2011 孙薇薇

语料宾州树库CTB1:2010Word Based and Character-Based Word Segmentation Models： Comparison and Combination就是简单的说明了一下字、词单位的区别。然后实验对比了一下。分词方法就是投票，找M个分词结果，多的胜出。投票boosting最高提高0.4个点2:2011A Stac

2013-01-05 13:37:49 633

原创 viterbi 中文分词-超简单版

use encoding "gbk";#load score哈希,这个Score是自己定的open(Inscore, "<$ARGV[0]") or die "无法打开信息文件。\n";%score=();while(){ chomp($_); if($_ eq "") { next; } @pair=(); @pair=split("\t",$_); $score{

2012-11-28 16:23:24 925

原创基础知识2

1 线性表、链表的区别顺序表的主要优点体现在没有使用指针，节省存储空间，而且线性表元素的读访问非常简洁便利。链表的主要优点则体现在无需事先确定线性表的长度，可以根据需要动态申请，且允许线性表的长度有很大变化，能够适应在线性表中经常插入、删除内部元素的情况。需要根据具体的应用来选择采用何种存储方式的线性表。当线性表经常要进行插入、删除元素的操作时，不宜使用顺序表，另外，当无法事先确定

2012-11-27 16:17:24 413

原创【小工具】CRF++格式转所有特征显示

#———————————解码————————————#转移概率共36项，输入格式如下#-3.0613860150847194#6.3296570233861047#-1.0675635747046173#4.6421254962811851#-1.5142773207880604#……# 0 1 2 3 4 5# B B2 B3 E M Sopen(Intrans, "<$

2012-11-26 20:25:22 1619

原创语言模型使用

最近同门在处理srilm，问我大规模怎么弄，真惭愧好久没用了这是以前写的#inputfile切成小文件放到outputfiledir目录下，文件名的前缀outputfie_prefixsplit -l 100 inputfile outputfiledir /outputfie_prefix#进入outputfiedir文件cd outfiledir#生成文件列表，file

2012-11-26 10:35:42 1245

原创基础知识1

1 static 在C、C++中的作用对变量： a 静态区域，初始化为0； b 在程序刚开始运行时就完成出初始化，也是唯一一次初始化。控制变量的可见范围。保持变量内容持久。对变量、函数（主要）：这是与全局变量的差别，“隐藏”，不同文件中，使用相同函数名，不会发生冲突；例如，A文件中函数名加了static，则B文件看不到。2 sizeof strlen区别举例

2012-11-26 09:01:14 408

原创 CRF++模型可视化输出的格式

我没有看源代码，但是今天分析的时候觉得格式应该是下面这样的Maxid=数，这个数是特征有多少个B，B2，B3，E，M，S是Tag的顺序U00，U01，……,B 是模板的顺序ID 模板号：特征26016 U00:细这个块是说明了每个特征在下面参数数组中的ID，ID的起始地址是0；每个特征在每个Tag上的拉姆达2.7613490877201383这一块就是参数数组

2012-11-08 18:07:38 1080

原创笔记-2004-2007-A Hybrid Approach to Word Segmentation and POS Tagging

2004-Chinese and Japanese Word Segmentation Using Word-Level and Character-Level Information作者：Tetsuji Nakagawa出处：Proceedings of COLING 2004，pages 466-4722007-A Hybrid Approach to Word Segmentat

2012-11-07 13:33:29 823

原创笔记-2003-A Maximum Entropy Chinese Character-Based Parser

A Maximum Entropy Chinese Character-Based Parser作者：xiaoqiang Luo单位：IBM T.J. Watson Research Center 出处：Proceedings of the 2003 conference on Emprical Methods in Natural Language Processing ,pp.

2012-11-06 18:12:27 648

原创笔记-2004-Adaptive Chinese Word Segmentation

Adaptive Chinese Word Segmentation作者：Jianfeng Gao,Andi Wu,Mu Li,Chang-Ning Huang,Hongqiao Li,Xinsong Xia,Haowei Qin单位：Microsoft Research出处：ACL '04 Proceedings of the 42nd Annual Meeting on Ass

2012-11-06 18:06:59 620

原创笔记-2003-Chinese Word Segmentation as Character Tagging

Chinese Word Segmentation as Character Tagging不知道这篇是不是上一篇的扩写，发表在不同杂志上作者：Nianwen Xue单位：Inst. for Research in Cognitive Science出处：Computational Linguistics and Chinese Language Processing Vol.

2012-11-06 17:54:31 1414

原创笔记-2003-Chinese Word Segmentation as LMR Tagging

Chinese Word Segmentation as LMR Tagging作者：Nianwen Xue,LibinShen单位：Inst. for Research in Cognitive Science；UniversityofPennsylvania出处：Proceedings of the Second SIGHAN Workshop on Chinese Languag

2012-11-06 17:50:40 909

原创笔记-2002-Combining Classifiers for Chinese Word Segmentation

Combining Classifiers for Chinese Word Segmentation作者：Nianwen Xue,Susan P. Converse单位：Institute for Research in Cognitive Science ；University of Pennsylvania 出处：Proceeding SIGHAN '02 Proceedin

2012-11-06 17:46:46 948

原创笔记-1999-消解中文三字长交集型分词歧义的算法

消解中文三字长交集型分词歧义的算法出处：清华大学学报（自然科学版）1999年第5期单位：清华大学作者：孙茂松三字，交搭歧义，词性，词概率，组合概率，分类词表概率主要内容：根据对一个1亿字汉语语料库的观察, 三字长交集型分词歧义就静态个数而言占全部交集型分词歧义的33.29%, 动态覆盖率更占全部交集型分词歧义的49.76%。1 词概率+ 词性Bigram法,

2012-11-06 17:38:07 596

原创笔记-2007-基于有效子串标注的中文分词

基于有效子串标注的中文分词作者：赵海，接春雨单位：香港城市大学-出处：中文信息学报，2007年，21卷，5期，8-13页本文主要是确定什么做子串；特征6Tag:B,B2,B3,M,E,S；仅CRF结果评价数据：Sighan bakeoff 2005；CityU,MSRA,最好结果0.952,0.974。步骤：1 从训练语料中得到词典，高于某个频率的进入子串词典；

2012-11-06 17:13:11 431

原创笔记-2006-Subword-based Tagging by Conditional Random Fields for Chinese Word Segmentation

Subword-based Tagging by Conditional Random Fields for Chinese Word Segmentation作者： Ruiqiang Zhang，Genichiro Kikui ，Eiichiro SumitaNational Institute of Information and Communications Technology（国

2012-11-06 16:52:25 758

原创 10月小事

长辈早高峰的公交车，一个字“挤”。还好有乐观的公交司机大叔“您要是着急就努力往上挤啊，不着急就等下一辆”。早高峰的三环，也就一个字“堵”。不知道挤了多久，又堵了。听见前面司机在跟某人喊话，好像类似“师傅，您挪一下，大家就都过去了”。后来知道前面可能有车刮蹭了，两方正谁也不让谁呢。于是一整车的人就堵在三环上，各种抱怨。司机师傅极力跟前面的车沟通，但势单力薄。

2012-10-24 13:50:54 1281

原创新动向--网址链接转载等

机器学习新动向：从人机交互中学习（李航博士）http://blog.sina.com.cn/s/blog_7ad48fee01016d25.html （12.10.21读）主要内容有三：机器学习需要很多数据；数据来源可由用户无意识添加、付费添加、游戏添加；要有效的利用这些数据、设计更合理的获取途径。公开课信息http://courseminer.com/h

2012-10-21 19:06:32 527

原创笔记-2004-基于无指导学习策略的无词表条件下的汉语自动分词

基于无指导学习策略的无词表条件下的汉语自动分词孙茂松，肖明，邹嘉彦清华大学、香港城市大学2004年6月计算机学报互信息、t-测试差、线性叠加、波峰波谷由于这个时候还没有SIGHAN2005，所以不好评说这个的效果，但是思想很好互信息，用于检查两个字的结合紧密程度，注意，互信息是二元的，多于二元的都不行。t-测试差的作用也是这样，但是公式不同，都是越大，结合越紧密

2012-10-21 18:43:23 510

原创笔记-2012-Unsupervized Word Segmentation the case for Mandarin Chinese

Unsupervized Word Segmentation the case for Mandarin ChinesePierre Magistry ,Benoit Sagot法国的，2012在ACL上发表左右熵，差值，归一化这篇是针对北理工那篇文章写的，很佩服啊，人家法国人做中文分词，还发在顶级会议，哎。ESA那篇发在CL上，号称是目前无监督学习最好的方法了。这篇论文的

2012-10-21 18:28:10 1293

原创笔记-2011-A New Unsupervised Approach to Word Segmentation

A New Unsupervised Approach to Word SegmenationHanshi Wang, Jian Zhu, Shiping Tang, XiaoZhong Fan北京理工大学，2011 发在CL上长度、频次、左右熵：无监督~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

2012-10-21 18:08:11 728

原创笔记-2008-An Empirical Comparison of Goodness Measures for Unsupervised CWS with a ~

An Empirical Comparison of Goodness Measures for Unsupervised Chinese Word Segmentation with a Unified FrameworkHai Zhao Chunyu Kit City University of Hong Kong2008年这篇文章是最之前无监督分词方法的一个比较主要比

2012-10-21 16:19:23 641

原创 fwscanf在vc6与2005上的差别

按固定的格式读入数据函数int fscanf( FILE *stream, const char *format [, argument ]... )int fwscanf( FILE *stream, const wchar_t *format [, argument ]... )参数：stream 文件指针format 按照一定的格式argument 可选参数列表返回值：f

2012-08-27 21:55:20 602

原创形式语义学-chapter 3 Attribute Grammars

ATTRIBUTE GRAMMARS 属性文法前言：1968年被Donald Knuth 提出，当时的目的是为了对上下文无关的语义进行形式化。现在多用于类似：检查声明，检查变量or函数是否与声明一致，操作语义等。静态语义形式化描述最常采用的是属性文法（attributegrammars），它实际上是为产生式中的符号扩充属性。因此，也可以认为属性文法是对上下文无关文法的扩充，二者结合

2012-08-17 10:55:06 657

原创笔记-2012-Fast Online Training with Frequency-Adaptive Learning Rates for CWS and New

Fast Online Training with Frequency-Adaptive Learning Rates for Chinese Word Segmentation and New Word Detection作者：香港理工大学，北京大学，Xu Sun , Houfeng Wang, Wenjie Li出处：Proceedings of the 50th Annual Mee

2012-08-12 21:17:35 1091

原创笔记-2009-An Error-Driven Word-Character Hybrid Model for Joint CWS and POS Tagging

An Error-Driven Word-Character Hybrid Model for Joint Chinese Word Segmentation and POS Tagging作者：神户大学，Canasai Kruengkrai, and Kiyotaka Uchimoto, and Jun’ichi Kazama, Yiou Wang, and Kentaro Torisawa

2012-08-12 16:47:35 1069

原创常用被引用文献 MIRA CRF

MIRA （Margin Infused Relaxed Algorithm ）一种超保守在线算法, 在分类、排序、预测等应用领域取得不错成绩理论Koby Crammer.2004. Online Learning of Com-plex Categorial Problems. Hebrew Univeristy of Jerusalem, PhD Thesis2005.

2012-08-12 11:54:36 3489

形式语义学（英文版）

空空如也