
机器学习实战
碳酸何
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
第一章机器学习基础
1.1何为机器学习将无序的信息转化成有序的可用的信息。现实生活中许多无法建立精确的数学模型,需要基于统计学的工具进行求解。1.2关键的术语特征:可以是十进制的数字(身高,体重),二值型(0或1),自定义调色板的枚举类型(红,黄,篮),目标变量:也被称为类别(在分类问题中),是机器学习的输出结果1.3机器学习的任务回归:预测数值型数据分类:将实例数据划分到具体的分类中。...原创 2018-11-16 14:21:43 · 121 阅读 · 0 评论 -
样本空间的离散化
代码参考出处https://blog.youkuaiyun.com/HackerTom/article/details/78597630看了以上代码,对离散化部分作一小结。需要的三个主要的特征空间:samspc(样本 空间),dsc(离散化的空间),ver(反离散化空间),以及过度的数据集bufbuf:他是vector<vector<string>>,是真正输入时候的(n-...原创 2018-11-21 19:48:54 · 1816 阅读 · 0 评论 -
C++个别数据类型使用(1)
set:不允许有两个一样的键值,他会根据键值自动排序 set.insert 插入某个键值 set.count() 判断某元素是否在set中 vector vector.end 指向向量最后一个元素的下一个位置 vector.push_back() 加某元素到最后一个元素之下 freopen(const char*path,const char model) 返回文件所指的指...原创 2018-11-19 19:29:07 · 139 阅读 · 0 评论 -
决策树算法实现要点
1.数据的输入:从文件输入或者手动输入2.数据的整理:建立数据集dataset(vector&lt;vector&gt;),包括数据的条数m和维数n3.获得每个属性(特征)对应的值(范围),包括每个类...原创 2018-11-19 19:41:50 · 309 阅读 · 0 评论 -
噪音样本对模型产生的影响
什么是噪音?其实噪音就是难以轻易被区分并对输出结果产生干扰的那些数据,他们是与众不同的。 噪音样本在自然界中是普遍存在的,他被自然的包裹在大量数据集中,正常的数据集很自然的会存在噪音。 但噪音其实是我们不希望存在的成分,因为他的出现往往会影响模型的准确性,逼迫我们不得不付出更大的努力,生成更加复杂的模型来把噪音包容进去,比如决策树的剪枝操作就是需要加入修正参数α。...原创 2018-11-23 09:22:25 · 4945 阅读 · 0 评论 -
信息熵的理解
信息熵的定义式 H(X)= - ,其中=p(X=) ; i=1,2....n 通过以上的式子求和的单项 ,我们可以理解的是他表示x=xi发生的概率为pi,那么产生一次x=xi的次数应该需要1/pi次,要在1/pi次中找到x=xi的那个特定的点,需要对这些次数进行搜索,至少需要寻找log(1/pi)次,每次找到的概率是pi,所以pi·log(1...原创 2018-11-23 09:38:38 · 405 阅读 · 0 评论