
大数据机器学习-笔记
火蓝棋
主要研究海量数据存储、实时计算与机器学习
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
五、大数据机器学习-聚类-笔记
要点 1. 聚类任务描述 2. 性能度量 3.聚类算法 原型聚类 • K均值算法 • 学习向量算法 密度聚类 层次聚类 一、聚类任务 • 无监督学习unsupervised learning 标记未知;揭示数据的内在性质和规律 • 应用最广的无监督学习:聚类 二、性能度量 外部指标-计数 左边图是外部参考真实划分;右边是聚类算法推测结果。把数据...原创 2020-01-05 22:14:13 · 285 阅读 · 0 评论 -
四、大数据机器学习 - 感知机-笔记
要点 • 感知机模型 • 感知机学习策略 • 感知机学习算法 一、感知机 它是神经网络技术的基础;是支持向量机模型的基础,它的线性可分性和对偶性形式是SVM算法直接的对应关系。 • 针对:二分类问题 • 实质:分离超平面,判别模型; • 策略:基于误分类的损失函数; • 方法:利用梯度下降法对损失函数进行极小化; • 特点:感知机学习算法具有简单而易于实现的优点, •...原创 2020-01-05 12:50:06 · 309 阅读 · 0 评论 -
三、大数据与机器学习-模型性能评估-笔记
要点: 留出法 交叉验证法 自助法 性能度量 PR曲线 ROC和AUC曲线、 代价敏感错误率、 假设检验 T检验 偏差与方差 模型评估方法 泛化误差评估: 训练集 training set : 用于训练模型 验证集 validation setvalidation set : 用于模型选择 测试集 test settest : 用于模型泛化误差的近似 ...原创 2019-10-16 20:24:37 · 1647 阅读 · 0 评论 -
二、大数据与机器学习-机器学习基本概念-笔记
一、基本术语 举例,我们有一些关于橘子和橙子的数据集合,这些记录的集合称为数据集。每条记录是关于一个橙或橘的描述,称为示例或样本。记录中的形状、剥皮、味道称为属性或特征。圆形、扁圆形、难、易、甜为为各自属性或特征的属性值。如果把形状、剥皮、味道设为三个坐标轴、那它们就构成一个描述橙或橘的属性空间或样本空间。每个橘或橙都可以在属性空间中找到自己的坐标位置,我们把每个示例也称为特征向...原创 2019-10-14 19:36:38 · 459 阅读 · 0 评论 -
一、大数据与机器学习-概述-笔记
一、什么是机器学习? 机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸 分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以 自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对 未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计 推断学联系尤为密切,也被称为统计学习理论。 二...原创 2019-10-09 01:30:04 · 572 阅读 · 0 评论