- 博客(7)
- 收藏
- 关注
原创 string变为wstring
由于默认的窄字符无法表示utf-8编码,故普通的string需转化为wstring,代码如下wstring StringToWString(std::string &str){ wstring wstr; wchar_t out; int number; char in[6]; for(int i = 0; i<str.size(); ) { number = int
2014-03-25 20:19:28
681
原创 判断一个utf-8编码的句子是否包含中文
bool check_chinese(string sentence){ BOOST_FOREACH(auto x, sentence) { if( (int(x) & 0x00FF) >= 0xE0 && (int(x) & 0x00FF) <= 0xEF) return true; } return false;}原理是utf-8编码为自由长度编码,中文字符编码的第一
2014-03-25 20:14:33
1189
原创 confidence weighted learning
这个算法原作者意思是在NLP中面对高维向量和数据稀疏时效果会不错,算法保持了当前预测向量w的均值和方差,并做优化。代码实现如下:#cw learning algorithmdef get_phi(): '''confidence parameter phi''' import numpy as np from scipy import stats eta =
2013-12-17 18:53:44
1466
原创 文献阅读A hybrid model for grammatical error correction
总结一下。对于冠词介词名词单复数的纠正均使用ME分类算法,文章主要提到使用ME过程中,利用遗传算法进行特征值的筛选(f函数为最后结果的F值),最后判定的confidence threshold利用爬山法进行优化(依据最后结果的F值)。SVA(subject-verb-agreement)主要涉及be动词VBZ,VBPverb-form,只有4条规则。1.和to有aux依存关系的
2013-12-15 11:01:31
810
原创 Apriori和FPgrowth算法学习
这两天看了这两个算法,主要来源是机器学习实战。1.Apriori算法首先是两个定义项集的支持度,定义为数据集中包含该项集的记录所占的比例。比如对于一个单独的item,那么item的支持度为item出现的数据集比上总的数据集,这里注意如果一个数据条目中重复出现一个item多次,那么提取数据时只计算为1次,也就是我们并不关心某人买了两件商品0以及两件商品2的情况,只关心购买了商品0和商
2013-12-13 12:15:34
2223
原创 ESL学习之kNN
在利用kNN进行分类时,我们是选择一个点的k个最近的neighbor的一些属性来估计当前点的属性。kNN的一个局限性就在于当参数空间的维数p增大后,这k个neighbor更趋近于分布在离当前点较远的那部分。意思就是在一个半径为1的p维球体中,若存在k个点,那么这k个点更趋近于这个球体的边缘,这是为什么呢。作为一个大概的理解,考虑在半径为0.5的地方,那么0.5半径以内的球体体积为exp(0
2013-12-10 13:02:16
1087
原创 LDA的一些理解
看了几天的LDA,云里雾里的,总算理清一些了。在LDA里面,先看一个文档时怎么生成的。对于一篇文档,首先我们要选择文档的长度,然后由于一篇文档可能对应多个主题,所以其次我们得选择对应这个文档的主题的分布,也就是对应哪些主题的概率大,最后再根据主题对应的词的分布生成每一个单词。在这里,主题其实就是一个所有单词的一个概率分布,比如topic1 = [0.1,0.2,0.3,0.4],topic
2013-12-06 14:49:46
833
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人