
数据挖掘经典算法
文章平均质量分 59
月牙儿June
业精于勤荒于嬉,Practice makes perfect!
展开
-
KNN邻近算法
KNN邻近算法简介 准备数据,对数据进行预处理选用合适的数据结构存储训练数据和测试元组设定参数,如k维护一个大小为k的的按距离由大到小的优先级队列,用于存储最近邻训练元组。随机从训练元组中选取k个元组作为初始的最近邻元组,分别计算测试元组到这k个元组的距离,将训练元组标号和距离存入优先级队列遍历训练元组集,计算当前训练元组与测试元组的距离,将所得距离L 与优先级队列中的最大距离Lmax原创 2015-12-15 15:19:59 · 494 阅读 · 0 评论 -
page-rank模型讲解
简介 根据相关性排序,包括内容的相关性,以及内容本身的重要性,要度量页面的重要性的判断标准:某网页被链接的次数以及链接这个网页的网页本身的重要性,被链接次数越多,链接这个网页的网页越重要,说明被链接的网页越重要。简化模型PageRank是根据网页之间的连接关系计算网页排名的技术。 PK值:从1到10级,值越大越重要。 简化模型的缺陷: page leak page sink随机浏览模型原创 2015-12-22 19:09:49 · 2433 阅读 · 0 评论 -
机器学习实战之——KNN k-邻近算法
主要内容l K-邻近分类算法——>使用距离测量的方法对物品分类l 从文本文件中解析和导入数据l 使用Matplotlib创建扩散图l 归一化数值 1. 算法概述这个算法非常有效,且易于掌握.通过测量不同特征值之间的距离进行分类.一个样本训练集,这个训练集中的每个数据都存在一个标签.(已知数据与数据所属分类).输入新的数据后,新数据的每个特征与样原创 2016-07-11 17:45:08 · 3668 阅读 · 0 评论