
算法
文章平均质量分 81
Ju_Sang
Memory abstruse eyes. Memories of the clear smile.
展开
-
中文分词基础原则及正向最大匹配法、逆向最大匹配法、双向最大匹配法的分析
分词算法设计中的几个基本原则:1、颗粒度越大越好:用于进行语义分析的文本分词,要求分词结果的颗粒度越大,即单词的字数越多,所能表示的含义越确切,如:“公安局长”可以分为“公安局长”、“公安局长”、“公安局长”都算对,但是要用于语义分析,则“公安局长”的分词结果最好(当然前提是所使用的词典中有这个词)2、切分结果中非词典词越少越好,单字字典词数越少越好,这里的“非词典词”就是不包含在词典中的转载 2014-07-08 11:15:48 · 8073 阅读 · 0 评论 -
Base64算法及C++实现
Base64用途1.用于对SOHO级路由器(网关设备)管理员帐户密码的加密2.流媒体网站对于播放的流媒体文件的路径的加密3.迅雷等下载软件对下载链接地址的加密Base64算法Base64编码要求把3个8位字节(3*8=24)转化为4个6位的字节(4*6=24),之后在6位的前面补两个0,形成8位一个字节的形式。转载 2015-02-06 08:26:52 · 906 阅读 · 0 评论 -
QQPlot/Quantile-Quantile Plot
QQPlot用于直观验证一组数据是否来自某个分布,或者验证某两组数据是否来自同一(族)分布。在教学和软件中常用的是检验数据是否来自于正态分布。详细信息参考:http://onlinestatbook.com/2/advanced_graphs/q-q_plots.html--------------------------------------------------------转载 2015-03-06 13:52:13 · 17534 阅读 · 0 评论 -
特征选择常用算法综述
1 综述(1) 什么是特征选择特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。 (2) 为什么要做特征选择 在机器学习的实际应用中,特征数量往往较多,其转载 2015-06-07 23:09:10 · 5092 阅读 · 0 评论