
机器学习实践笔记代码
Davenny
O ever youthful,O ever weeping.
展开
-
KNN K近邻算法
只选择样本数据集中前K个最相似的数据,K通常是不大于20的整数,最后选择k个最相似数据中出现次数最多的类,作为新数据的分类。 优点: 精度高,对异常值不敏感,无数据输入假定 不用训练算法 缺点: 计算复杂度高,空间复杂度高 适用范围: 数值型和标称型 代码: from numpy import * import operator def createDataSet():原创 2018-01-13 17:51:50 · 392 阅读 · 0 评论 -
决策树(ID3用于标称型数据)
优点: 计算复杂度不高,输出结果易于理解,对中间值不敏感,可以处理不相关特征数据。 缺点: 可能会产生过度匹配问题。 适用数据类型: 数值型和标称型 信息增益 划分数据集的最大原则:将无序的数据变得更加有序 在划分数据集之前之后信息发生的变化称为信息增益 获得最多信息增益的特征就是最好的划分数据集的选择 计算香农熵代码 def calcShannonEnt(dataSet原创 2018-01-16 16:02:49 · 807 阅读 · 0 评论 -
朴素贝叶斯
常用于文档分类 叫做朴素的原因: 整个形式化过程只作最原始、最简单的假设,概率独立性 优点: 在数据较少的情况下仍然有效,可以处理多类别的问题 缺点: 对输入数据的准备方式较为敏感 使用数据类型: 标称型数据 条件概率 从文本构建词向量 def createVacabList(dataSet): vacabSet = set([]) for docum原创 2018-01-16 16:57:16 · 454 阅读 · 0 评论