bt_czc30114-优快云博客

原创 string变为wstring

由于默认的窄字符无法表示utf-8编码，故普通的string需转化为wstring，代码如下wstring StringToWString(std::string &str){ wstring wstr; wchar_t out; int number; char in[6]; for(int i = 0; i<str.size(); ) { number = int

2014-03-25 20:19:28 681

原创判断一个utf-8编码的句子是否包含中文

bool check_chinese(string sentence){ BOOST_FOREACH(auto x, sentence) { if( (int(x) & 0x00FF) >= 0xE0 && (int(x) & 0x00FF) <= 0xEF) return true; } return false;}原理是utf-8编码为自由长度编码，中文字符编码的第一

2014-03-25 20:14:33 1189

原创 confidence weighted learning

这个算法原作者意思是在NLP中面对高维向量和数据稀疏时效果会不错，算法保持了当前预测向量w的均值和方差，并做优化。代码实现如下：#cw learning algorithmdef get_phi(): '''confidence parameter phi''' import numpy as np from scipy import stats eta =

2013-12-17 18:53:44 1466

原创文献阅读A hybrid model for grammatical error correction

总结一下。对于冠词介词名词单复数的纠正均使用ME分类算法，文章主要提到使用ME过程中，利用遗传算法进行特征值的筛选（f函数为最后结果的F值），最后判定的confidence threshold利用爬山法进行优化（依据最后结果的F值）。SVA（subject-verb-agreement）主要涉及be动词VBZ，VBPverb-form，只有4条规则。1.和to有aux依存关系的

2013-12-15 11:01:31 810

原创 Apriori和FPgrowth算法学习

这两天看了这两个算法，主要来源是机器学习实战。1.Apriori算法首先是两个定义项集的支持度，定义为数据集中包含该项集的记录所占的比例。比如对于一个单独的item，那么item的支持度为item出现的数据集比上总的数据集，这里注意如果一个数据条目中重复出现一个item多次，那么提取数据时只计算为1次，也就是我们并不关心某人买了两件商品0以及两件商品2的情况，只关心购买了商品0和商

2013-12-13 12:15:34 2223

原创 ESL学习之kNN

在利用kNN进行分类时，我们是选择一个点的k个最近的neighbor的一些属性来估计当前点的属性。kNN的一个局限性就在于当参数空间的维数p增大后，这k个neighbor更趋近于分布在离当前点较远的那部分。意思就是在一个半径为1的p维球体中，若存在k个点，那么这k个点更趋近于这个球体的边缘，这是为什么呢。作为一个大概的理解，考虑在半径为0.5的地方，那么0.5半径以内的球体体积为exp（0

2013-12-10 13:02:16 1087

原创 LDA的一些理解

看了几天的LDA，云里雾里的，总算理清一些了。在LDA里面，先看一个文档时怎么生成的。对于一篇文档，首先我们要选择文档的长度，然后由于一篇文档可能对应多个主题，所以其次我们得选择对应这个文档的主题的分布，也就是对应哪些主题的概率大，最后再根据主题对应的词的分布生成每一个单词。在这里，主题其实就是一个所有单词的一个概率分布，比如topic1 = [0.1,0.2,0.3,0.4],topic

2013-12-06 14:49:46 833

bt_czc30114的专栏