前言(机器学习概述)
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,从而不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径。机器学习的发展历程可以追溯到17世纪,贝叶斯、拉普拉斯关于最小二乘法的推导和马尔可夫链等构成了机器学习广泛使用的工具和基础。从20世纪50年代开始,机器学习的发展经历了不同的阶段,包括主要研究“有无知识的学习”的第一阶段,将各个领域的知识植入到系统里的第二阶段,以及开始将学习系统与各种应用结合起来的第三阶段。近年来,随着大数据和计算能力的飞跃,神经网络特别是深度学习技术得到了快速发展,机器学习技术也在各个领域得到了广泛应用。机器学习的主要应用领域包括自然语言处理、图像识别、推荐系统、金融风控、医学诊断、智能制造等。
AI,ML,DL 之间的关系:
机器学习ML其实就是实现人工智能的一种途径,深度学习是机器学习的一种方法。
机器学习发展三要素:
数据、算法、算力相互作用,是AI发展的基石。
机器学习算法分类:
有监督、无监督、半监督、强化学习。
有监督学习:输入数据有特征值和目标值,即输入训练数据有标签。需要人工标注数据,所用与分类和回归问题。分类问题目标值是不连续的,回归问题目标值连续。
无监督学习:输入数据没有被标记,即样本数据类别未知,没有标签,根据样本间相似性,对样本集聚类以发现事物内部的结构及相互关系。不需要人为标注数据。
半监督学习:人为标注少量数据,利用已经标注好的数据(带有标签的)训练出一个模型,再利用该模型套用未标记的数据,通过查看分类结果与模型结果对比,从而进一步对模型该杀和提高。
强化学习:它是机器学习一个重要分支,应用场景:AlphaGo围棋、各类游戏、对抗比赛、无人驾驶场景。基本原理:通过构建四个要素agent,环境状态,行动,奖励。
机器学习建模流程:
1.获取数据
2.数据基本处理:处理缺失值异常值等
3.特征工程:利用专业背景知识和技巧处理数据,让机器学习算法效果最好。
4.机器学习模型训练
5.模型评估:
特征工程:
1.特征提取:从原始数据中提取与任务型相关的特征,构成特征向量
2.特征预处理:将不同单位的特征数据转换成同一个范围内,使训练数据中不同特征对模型产生较为一致的影响
3.特征降维:将原始数据维度降低。会丢失部分信息,降维就需要保证数据主要的信息保留下来,原始数据会发生变化。
4.特征选择:原始数据特征很多,但是对任务相关的其中一个特征集合子集
5.特征组合:把多个特征合并到一个特征。
模型拟合:
用来表示模型对样本的拟合情况
1.欠拟合:模型在训练集和测试集表现的都很差,原因:模型过于简单。
2.过拟合:模型在训练集表现好,测试集表现差,原因:模型复杂,数据不纯,训练数据太少。
3.泛化:模型在新数据集上表现好坏的能力。
4.奥卡姆剃刀原则:给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取。
一、KNN算法思想
K-近邻算法(K Nearest Neighbor,简称KNN)。比如:根据你的“邻居”来推断出你的类别&#x