一,AI的基本概念
1监督学习:利用一组带标签的数据,学习从输入到输出的映射,然后用新数据对照映射关系得到映射结果,达到分类或回归目的
D=(X, y) X:数据 y:标签 学习X y的映射关系 算法:线性回归、逻辑回归、朴素⻉贝叶斯、决策树、随机森林林、SVM、神 经⽹网络
2 非监督学习
输入数据没有被标记,也没有确定的结果
D=(X) ⽆无标签 寻找X中的特征或规律律eg:⽤用户分层(兴趣/特征等等),降维⼯工作 算法:PCA(降维)、K-means、GMM、LDA,层次聚类
3 半监督学习
在实际过程中,获得的数据大部分是没有标签的,人们企图加入一些无样本的人为标准的样本,使得无标签的数据通过训练获得标签,这相当于对无监督学习的一种改进。
4 强化学习
用于描述和解决智能体在与环境的交互过程中通过学习策略最大化实现特定的目标问题,Q-learning,隐马尔可夫
代表:AlphaGo
5 深度学习(DL)
深度学习包含于机器器学习,主要涉及受⼤大脑结构或功能启发的⼈人⼯工神经⽹网 络.
如今DL模型 - 与真实⼈人脑的相似度较低 优点:模型会有更更强⼤大的表达能⼒力力(capacity), 具备层次表示能⼒力力(hierarhical representation), 具有全局泛化能⼒力力(global generalization), 迁移学习能⼒力力(transfer learning)等等
二,建模流程和算法基本使用
2.1**建模流程:**数据源 - 数据预处理理 - 特征⼯工程※ - 建模 - 验证
名词解释:
特征⼯工程(feature engine):从数据中提取出有价值的特征
建模:(可能存在的额外⼯工作) 1)调参 2)模型改造
验证:确保模型及其结果符合⼀一定要求 ⽬目前⽕火热研究:
热研究端to端,即跳过特征⼯工程,数据预处理理后直接进⾏行行建模 ,图像识别是跳过的。
建模第⼀一步:理理解数据,不不可直接套模型
–重要技术:数据可视化(data visualization)
–在数据探索(data exploration)阶段我们会试图从直观的⻆角度来查看数据 的特性,⽐比如数据的分布是否满⾜足线性的? 数据中是否包含异常值?特征 是否符合⾼高斯分布等等。
高维(多个)数据特征的可视化,可采⽤用降维的⽅方法,再针对每⼀一个特征 作可视化,并观察不不同特征间的关系
2.1 线性回归
解决预测的问题
线性回归例子: 利⽤用线性回归,从标准20岁男⼦子身⾼高体重数据,预测出未给出的身⾼高所对 应的体重。