
机器学习
harderharder
这个作者很懒,什么都没留下…
展开
-
选择合适的模型处理问题
首先要考虑的问题?训练集有多大, 小训练集使用,高偏差、低方差的模型,朴素贝叶斯大训练集使用,低偏差、高方差的模型,KNN。朴素贝叶斯:不能学习特征之间的交互关系。决策树:不支持在线学习,当样本置新时,决策树需要重建。而且容易过拟合SVM:高准确率,避免过拟合,就算数据在原特征空间是线性不可分的,只要给一个合适的核函数,他就能运行。但是内存消耗大,调参麻烦。提升准确率还是要尝试多种分类器,并且通过...原创 2018-04-17 11:52:17 · 418 阅读 · 0 评论 -
常用特征离散化方法
1规定划分区间的参数,取定长的间隔将特征放入不同的箱子中,这种方法对异常点比较敏感。,2 根据频率划分箱子,会出现特征相同却不在一个箱子中的情况,需要在划分完成后进行微调。先对特征值进行sort,然后评估分割点,划分或者合并3 1R方法:将前面的m个实例放入箱子中如果后面实例放入箱子时,比对当前实例的标签是否与箱子中大部分实例标签相同,如果相同就放入,如果不相同就形成下一个m大小的新箱子,将实例全...原创 2018-04-18 10:46:56 · 3088 阅读 · 0 评论 -
第三讲 线性正则化、第四讲 线性分类器
学习的过程是:先在训练集上计算出预测的规则,然后评估它在测试集上的性能。模型复杂的话更加容易overfit,模型不复杂会在训练集上误差变大underfit,但是在测试集上没有那么大。选择合适的模型就是平衡fit,用尽量小的参数表示模型,模型不能太复杂,在train set上error尽量小,在test 上也要尽量小。正则化就是做这件事情的,调节参数的平衡。约束函数空间当特征的维度很大时不用特征的个...原创 2018-04-21 12:38:26 · 465 阅读 · 0 评论 -
聚类中噪音的处理
聚类本身就是最常用的异常值检测方法,大部分非监督的异常值检测都依靠聚类,K-MEANs&层次聚类对离群值非常敏感。改用密度聚类和高斯混合模型。基因数据去噪: 对数转换可以使小于 1 的值变大,大于 1 的值变小,从而使它们关于 0 对称化,这种变换是否反映了一定的生物学意义。这样方便计算,但是在标准差接近0的时候,会产生比较大的噪声,log后,先标准化,靠近0的都删除,表达值大于1的是高表...原创 2018-03-10 15:03:30 · 8484 阅读 · 0 评论 -
隐马尔可夫模型
马尔科夫过程的核心思想就是随机过程,而隐马尔可夫模型是描述含有隐含未知参数的马尔可夫过程。有你可以观察到的状态链,但是隐马尔可夫处理的是隐含状态链,这些状态之间存在着转换的概率。但是这些东西通常在模型刚开始时是未知的。所以要解决的问题就是:知道隐含状态的数量,状态之间转换的概率。而这些东西都要从可见的状态链中获知。由此引出HMM的三个基本问题:1、概率计算问题,评估问题。向前-向后算法。采用EM算...原创 2018-04-29 22:06:05 · 210 阅读 · 0 评论 -
决策树、XGboost、随机森林
提起决策树,可以从叶子节点,分支节点和分支条件,以及防止过拟合的方法这四个方面去考虑。 决策树的核心思想是在特征列表中找到一个最优特征,然后从这个特征的取值中选出最优的候选值,利用这个候选值将数据集分为两个子集,以此进行递归。最优特征的选取借助于信息增益或者信息增益比,在非2分类的问题中,无需寻找最优特征的最优候选值。决策树的停止条件是:当检测到数据的分类效果已经够好的时候,可以停止,或者说当某...原创 2018-09-11 22:06:44 · 1004 阅读 · 0 评论