基本概念词汇(相关概念,百度百科一大堆,自行查询)
训练集,测试集,特征值,监督学习,非监督学习,半监督学习,分类,回归
概念学习:
学习是人类具有的一种重要智能行为,但究竟什么是学习,长期以来却众说纷纭。社会学家、逻辑学家和心理学家都各有其不同的看法。
机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能
改变自然,迫使自然满足人们物质生活需要的经济活动
以调整和改革人与人之间社会关系为目的的活动
实践是人的主观的、感性的活动,是主观见之于客观的能动的活动,是社会的活动,是历史的活动。科学证明,人类历史同自然历史都是客观的过程。同样,构成人类历史的实践以及实践自身的历史发展也是一个客观的过程。
马哲的理论在这里依然恰当,哈哈考研备考政治在这里还能用上,呵呵。
认识基础 –>反映客观 –> 检验真理
案例 “跑步运动”
小珑生活在北京,有时候会跑步,有时不跑步,是否跑步取决于很多因素
样例 | 天气 | 温度 | 湿度 | 风力 | 水温 | 预报 | 朋友 | 跑步运动 |
---|---|---|---|---|---|---|---|---|
1 | 暖 | 暖 | 普通 | 强 | 暖 | 一样 | 约 | 是 |
2 | 暖 | 暖 | 大 | 强 | 暖 | 一样 | 约 | 是 |
3 | 冷 | 冷 | 大 | 强 | 暖 | 变化 | 不约 | 否 |
4 | 暖 | 暖 | 大 | 强 | 冷 | 变化 | 不约 | 是 |
因素列举:
天气:晴,阴,雨
温度:暖,冷
湿度:普通,大
风力:强,弱
水温:暖,冷
预报:一样,变化
朋友:约,不约
跑步运动:是,否
概念定义在实例(instance)集合之上,这个集合表示为X。(X:所有可能的日子,每个日子的值由 天气,温度,湿度,风力,水温,预报,朋友7个属性表示。
待学习的概念或目标函数成为目标概念(target concept), 记做c。
c(x) = 1, 当跑步运动时, c(x) = 0 当不跑步运动时,c(x)也可叫做y
x: 每一个实例
X: 样例, 所有实例的集合
学习目标:f: X -> Y
训练集(training set/data)/训练样例(training examples):
用来进行训练,也就是产生模型或者算法的数据集
测试集(testing set/data)/测试样例 (testing examples):
用来专门进行测试已经学习好的模型或者算法的数据集
特征向量(features/feature vector):
属性的集合,通常用一个向量来表示,附属于一个实例 标记(label): c(x), 实例类别的标记 正例(positive example) 反例(negative example)
[案例]研究北京顺义区房价
影响房价的两个重要因素:面积(平方米),学区(评分1-10)
样例 | 面积(平方米) | 学区(1~10) | 房价(万) |
---|---|---|---|
1 | 100 | 8 | 500 |
2 | 120 | 9 | 600 |
3 | 60 | 6 | 400 |
4 | 80 | 9 | 550 |
5 | 95 | 5 | 425 |
- 回归(regression): 目标标记为连续性数值 (continuous numeric value)
- 分类 (classification): 目标标记为类别型数据(category)
[案例]研究肿瘤良性,恶性于尺寸,颜色的关系
- 特征值:肿瘤尺寸,颜色
- 标记:良性/恶性
机器学习步骤框架
- 把数据拆 分为训练集和测试集
- 用训练集和训练集的特征向量来训练算法
- 用学习来的算法运用在测试集上来评估算法 (可能要设计到调整参数(parameter tuning), 用验证集(validation set)
机器学习的分类
- 有监督学习(supervised learning): 训练集有类别标记(class label),比如跑步运动
- 无监督学习(unsupervised learning): 无类别标记(class label),比如肿瘤问题,没有类别的标记,况且还没有训练集,也不知道是恶性还是良性,即没有标记
- 半监督学习(semi-supervised learning):有类别标记的训练集 + 无标记的训练集
微信公众号首发,关注公众号,第一时间了解最新机器学习笔记,可进相关群,一起讨论,互相进步