- 博客(10)
- 资源 (1)
- 收藏
- 关注
原创 判别式模型和生成式模型的区别(discriminative model and generative model)
在NLP和机器学习中经常会遇到这两种显著不同的模型,在学习阶段(训练阶段)和评估阶段(测试阶段)都有不同的表现总结一下它们之间的区别,欢迎补充:1. 二者最本质的区别是建模对象不同 假设有样本输入值(或者观察值)x,类别标签(或者输出值)y 判别式模型评估对象是最大化条件概率p(y|x)并直接对其建模,生成式模型评估对象是最大化联合概率p(x,y)并对其建模。
2013-11-29 14:47:53
10499
原创 使用多年的vimrc
" Vimrc file, http://phuzz.orgset fileencodings=utf-8,cp936,ucs-bom,latinset fileencoding=cp936set encoding=utf-8let &termencoding=&encodingset nocompatible " use vim defaults"set ls=2
2012-03-20 20:11:26
675
原创 洗牌算法
假设有54张牌,洗牌的目的是让每张牌在每个位置的概率相同,都为1/54数组A[] 中存放经处理的牌,有一个很巧妙的方法可以在O(n)完成洗牌,如下:for i from 0 to 53:swap(A[i], A[random(i,53)]);证明每
2011-08-21 12:52:55
934
1
原创 中文trie树
这几天被汉字trie树小折腾了一下。 开始的时候想直接将单字节作为字典树的节点建树,虽然各个树的节点可能只是多字节字符的一部分,但是基本功能也能够支持。后来发现似乎有些问题,比如在做前向最大匹配分词的时候,对于未登录词无法确定当前字符是单字节还是多字节,如果通过编码规则进行判定的话倒也可以,但是跟建树过程南辕北辙。 然后想到了utf16字符编码对所有字符统一采用16位定长处理,这样的话只
2011-07-01 10:31:00
6453
转载 C&C++编译预处理大全
C语言与C++中中编译预处理的学习记录:首先三种形式的命令:宏定义,文件包含,条件编译命令。1、宏定义主要是:#define,#undef如下:#define PI 3.1415926 /*不带参数的宏定义*/#define Max(a,b) a>b?a:b /*带参数的宏定义*/说明:宏定义
2011-06-27 15:33:00
1772
转载 设计模式与追MM
1、FACTORY—追MM少不了请吃饭了,麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西,虽然口味有所不同,但不管你带MM去麦当劳或肯德基,只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 工厂模式:客户类和工厂类分开。消费者任何时候需要某种产品,只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时,工厂类也要做相应的修改。如:如何创建及如何向客户端
2011-06-15 22:33:00
527
原创 我的Makefile
1 CC = g++ 2 CPPFLAGS = -g -O 3 LIB = -L./ 4 INCLUDE = -I./ 5 6 TARGET = QA_MODEL 7 8 SRC = $(wildcard *.cpp *.o) 9 #SRC = parent_model.cpp / 10 vsm.cpp / 11
2011-06-15 21:53:00
483
原创 潜心再学python
Python是一种简单到可爱的语言,之前对其有过一段时间接触,但是只把她当做配角。只是在需要evaluation工具实现简单评测时才用到她,而且很少会用到类,很少超过100行(虽然用C写100行可能python只用10行就能搞定)。现在从头再温习一遍python,实现个crawler抓些实验资料。
2011-04-27 17:18:00
658
转载 JSON与XML的比较
<br /><br /> 以前有接触过JSON并没有深入比较XML跟JSON区别,今天看到一篇帖子还不错,转过来一起学习~<br /> ◆可读性<br /> JSON(Java Object Notation) 和XML的可读性可谓不相上下,一边是建议的语法,一边是规范的标签形式,很难分出胜负。<br /> ◆可扩展性<br /> XML天生有很好的扩展性,JSON当然也有,没有什么是XML能扩展,JSON不能的。<br /> ◆编码难度<br /> XML有丰富的编码工具,比如Dom4j、
2011-04-26 15:58:00
758
原创 句子相似度计算
<br />如何计算句子的语义相似度,很容易想到的是向量空间模型(VSM)和编辑距离的方法,比如A:“我爸是李刚”,B:“我儿子是李刚”,利用VSM方法A(我,爸,是,李刚)B(我,儿子,是,李刚),计算两个向量的夹角余弦值,不赘述;编辑距离就更好说了将“爸”,“儿子”分别替换掉,D(A,B)= replace_cost;<br />这是两种相当呆的方法,属于baseline中的baseline,换两个例子看一下就知道A:“楼房如何建造?”,B:“高尔夫球怎么打?”,C:“房子怎么盖?”,如果用VSM算很明
2011-04-25 16:20:00
13337
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人