- 博客(4)
- 收藏
- 关注
转载 机器学习第四章:决策树
4.1基本流程 基本思路:分而治之 导致递归返回的三种情形: (1) 当前节点样本属于同一类别,无需划分; (2) 当前属性集为空,或所有样本属性值相同,无法划分; (3) 当前节点包含的样本集合为空,不能划分。 4.2划分选择 ID3决策树算法:以信息增益为准则 ...
2017-08-29 18:46:00
225
转载 修改HDFS上的数据表流程
dim_id是存储在HDFS上的一个数据维表,因为要修改数据,因此需要在堡垒机上直接修改文件。 过程稍微麻烦一些,以下是其记录: 1、 hive进入,查找表所在位置 show create table dim. dim _id; 文件夹地址为 hdfs://…/ dim _id...
2017-08-16 21:20:00
376
转载 机器学习第二章 模型评估与选择
2.1经验误差与过拟合 错误率:E=a/m 精度:=1-错误率 训练集上的误差:训练误差或经验误差 新样本上的误差:泛化误差 p问题,可以在多项式时间内解决的问题,polynomial problem。 np 问题,可以在多项式的时间里验证一个解的问题,non-determi...
2017-07-31 15:06:00
145
转载 机器学习概论&HiveSQL&其他杂项
机器学习概论 简单记录机器学习的发展史: 二十世纪五十年代到七十年代:推理期 “逻辑理论家”程序、“通用问题求解”、跳棋程序 连接主义(神经网络:感知机、Adaline) 二十世纪七十年代中期开始:知识期 符号主义(结构学习...
2017-07-18 10:21:00
186
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人