自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 string变为wstring

由于默认的窄字符无法表示utf-8编码,故普通的string需转化为wstring,代码如下wstring StringToWString(std::string &str){ wstring wstr; wchar_t out; int number; char in[6]; for(int i = 0; i<str.size(); ) { number = int

2014-03-25 20:19:28 681

原创 判断一个utf-8编码的句子是否包含中文

bool check_chinese(string sentence){ BOOST_FOREACH(auto x, sentence) { if( (int(x) & 0x00FF) >= 0xE0 && (int(x) & 0x00FF) <= 0xEF) return true; } return false;}原理是utf-8编码为自由长度编码,中文字符编码的第一

2014-03-25 20:14:33 1189

原创 confidence weighted learning

这个算法原作者意思是在NLP中面对高维向量和数据稀疏时效果会不错,算法保持了当前预测向量w的均值和方差,并做优化。代码实现如下:#cw learning algorithmdef get_phi(): '''confidence parameter phi''' import numpy as np from scipy import stats eta =

2013-12-17 18:53:44 1466

原创 文献阅读A hybrid model for grammatical error correction

总结一下。对于冠词介词名词单复数的纠正均使用ME分类算法,文章主要提到使用ME过程中,利用遗传算法进行特征值的筛选(f函数为最后结果的F值),最后判定的confidence threshold利用爬山法进行优化(依据最后结果的F值)。SVA(subject-verb-agreement)主要涉及be动词VBZ,VBPverb-form,只有4条规则。1.和to有aux依存关系的

2013-12-15 11:01:31 810

原创 Apriori和FPgrowth算法学习

这两天看了这两个算法,主要来源是机器学习实战。1.Apriori算法首先是两个定义项集的支持度,定义为数据集中包含该项集的记录所占的比例。比如对于一个单独的item,那么item的支持度为item出现的数据集比上总的数据集,这里注意如果一个数据条目中重复出现一个item多次,那么提取数据时只计算为1次,也就是我们并不关心某人买了两件商品0以及两件商品2的情况,只关心购买了商品0和商

2013-12-13 12:15:34 2223

原创 ESL学习之kNN

在利用kNN进行分类时,我们是选择一个点的k个最近的neighbor的一些属性来估计当前点的属性。kNN的一个局限性就在于当参数空间的维数p增大后,这k个neighbor更趋近于分布在离当前点较远的那部分。意思就是在一个半径为1的p维球体中,若存在k个点,那么这k个点更趋近于这个球体的边缘,这是为什么呢。作为一个大概的理解,考虑在半径为0.5的地方,那么0.5半径以内的球体体积为exp(0

2013-12-10 13:02:16 1087

原创 LDA的一些理解

看了几天的LDA,云里雾里的,总算理清一些了。在LDA里面,先看一个文档时怎么生成的。对于一篇文档,首先我们要选择文档的长度,然后由于一篇文档可能对应多个主题,所以其次我们得选择对应这个文档的主题的分布,也就是对应哪些主题的概率大,最后再根据主题对应的词的分布生成每一个单词。在这里,主题其实就是一个所有单词的一个概率分布,比如topic1 = [0.1,0.2,0.3,0.4],topic

2013-12-06 14:49:46 833

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除