- 博客(8)
- 问答 (1)
- 收藏
- 关注
原创 模型评估与选择
模型评估误差:实际输出与预测输出之间的差值经验误差:在训练集上的错误率;泛化误差:在测试集上的错误率欠拟合与过拟合欠拟合:模型学习能力低下; 解决办法:增加训练轮数或从模型本身的特征出发:如NN增加神经元个数过拟合:模型学习能力过于强大 解决办法:无法彻底避免;使经验误差最小化得意缓解训练、测试数据的划分留出法: 直接将数据集划分为两个...
2018-03-16 15:44:34
298
原创 EM算法及python实现
EM算法描述及应用场景:某个数据集中有一些数据是缺失的,那么这些数据填充为多少比较合适。这是一个比较有研究意义的问题。 EM很适合解决这个问题: 最大期望算法(Expectation-maximization algorithm,又译期望最大化算法)在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中(此处理解为缺失值),参数的最大似然估计。在统计计算中,最大期望(EM)算法是在概...
2018-03-06 21:40:25
3063
原创 AdaBoost推导及实现
AdaBoost 属于集成学习算法的一种。集成学习通过构建多个学习任务。结构框架如图所示集成学习通过多个分类器进行结合,因而大多数情况下拥有较好的泛化性能,以AdaBoost为例,其集成方法各有千秋:可以是同一算法在不同设置下集成;也可以是在不同数据集上集成,一般数据进行抽样训练。 不同的学习器要有一定的准确性,又要有差异性。 如图是Ada的模型: 右边矩形代表不同权重下的数据集
2018-01-17 22:52:17
385
原创 牛顿法和拟牛顿法,大数开方
牛顿法和拟牛顿法是是求解最优化问题(函数)的常用方法,具有收敛速度快的特点。牛顿法考虑无约束最优化问题:其中xx为目标函数的极小值点 minx∈Rnf(x)\min_{\tiny x \in R^n} {f(x)} 假设f(x)f(x)具有二阶连续偏导数,若第k{\tiny k}次迭代值为xkx_{\tiny k},则可将f(x)f(x)在xkx_{\tiny k}附近二阶泰勒展开
2018-01-07 23:36:21
433
原创 让R运行在jupter上
jupter notebook的好处不用多说了哈哈哈。用jupter写R做数据分析可视化是一个不错的选择。 省得麻烦,直接安装Anaconda(py3或2都ok)自带了N多库,也好管理。 安装R: 用anaconda自带命令(linux下shell)输入:conda install -c r r-essentials更多内容见Anaconda官网: https://docs.a
2018-01-06 20:48:50
834
原创 Decision Tree
决策树是一个有监督的分类模型。以二分类为例,从复杂的离散型数据中学习一种模式。这里使用西瓜书的数据集 编号,色泽,根蒂,敲声,纹理,脐部,触感,密度,含糖率,好瓜 1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,0.697,0.46,是 2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,0.774,0.376,是 3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,0.634,0.264,是
2018-01-03 18:51:21
207
原创 The Economist(2014.11.24) Should digital monopolies be broken up?
The Economist
2017-12-29 16:17:46
794
空空如也
关于hadoop的集群开发环境配置
2015-04-12
TA创建的收藏夹 TA关注的收藏夹
TA关注的人