理论基础
人工智能
全国信息安全标准化技术委员会:人工智能,是利用数字计算机或者数字计算机控制的机器模拟、延伸 和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理 论、方法、技术及应用系统。
分类:弱人工智能、强人工智能、超级人工智能
三次浪潮:
第一次:1956~1980年左右(诞生---基于符号逻辑推理证明阶段)
第二次:1980年左右 ~2000年左右(步入产业化----基于人工规则的专家系统阶段)
第三次:2000年左右~至今(爆发----大数据驱动的深度神经网络阶段)
机器学习
让计算机具有像人一样的学习和思考能力的技术的总称。具体来说是从已知数据中获得规律,并利用规律对未知数据进行预测的技术
分类:监督学习、无监督学习、强化学习
起源与发展:
第一阶段:1943~1969----从提出MP神经元到 指出感知器只能做简单线性分类任务,无法完成 XOR任务
第二阶段:1980~1989-----从John Hopfield提出了Hopfield神经网络、误差反向传播算法(BP)到Lecun提出CNN
第三阶段:2006~至今----Hinton和他学生正式提出深度学习概念到深度学习广泛应用在图像、语音等领域 ,并获得良好 效果。
深度学习
一般是指通过训练多层网络结构对未知数据进行分类或回归
分类:有监督学习(CNN、RNN等 )、无监督学习(DBN、深度自编码器等 )
应用:
图像领域:物体分割、图像识别、图像分割等
语音识别领域:语音识别、语音合成、声纹识别等
自然语言处理领域:语言模型、情感识别、机器翻译等
综合领域:图像描述、文本生成、视频生成等
数学基础
张量(tensor): 矢量概念的推广,可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数。标量是0阶张量,矢量是一阶张量,矩阵是二阶张量,三维及以上数组一般称为张量。
常见概率分布
伯努利分布
又称0-1分布,结果仅两种。单个二值型离散随机变量的分布
二项分布
重复n次的伯努利试验,各试验之间都相互独立
均匀分布
给定间隔内[a,b]之间的分布 概率是等可能的。
高斯分布
又称正态分布(normal),是实数中最常用的分布,由均值μ和标准差σ决定其分布
概率密度函数:
指数分布
常用来表示独立随机事件发生的时间间隔,参数为λ>0的指数分布概率密度函数为下图。指数分布重要特征是无记忆性。
贝叶斯公式
基本概念
方差
数学中解释:用来衡量随机变量与数学期望之间的偏离程度
ML中概念:反映了模 型在不同训练数据集下学 得的函数的输出与期望输出之间的误差,即模型的稳定性,反应的是模型的波动情况。
偏差(bias):
反映了模型在 样本上的期望输出与真实 标记之间的差距,即模型本身的精准度,反映的是模型本身的拟合能力
欠拟合
指模型没有很好的训练到数据的一般规律,模型拟合程度不高的现象。为防止欠拟合,可以选择调整参数、增加迭代深度、换用更加复杂的模型等。
过拟合
指模型能很好的拟合训练样本,而无法很好的拟合测试样本的现象。为防止过拟合,可以选择降低模型复杂度、减少参数,正则化等。
欠拟合、过拟合、方差 、偏差的关系
欠拟合:高偏差低方差
- 寻找更好的特征,提升对数据的刻画能力
- 增加特征数量
- 重新选择更加复杂的模型
过拟合:低偏差高方差
- 增加训练样本数量
- 减少特征维数,高维空间密度小
- 加入正则化项,使得模型更加平滑
协方差
衡量两个随机变量X和Y直接的总体误差
熵
样本集合纯度一种指标,或者样本集合包含的平均信息量
相对熵
又称KL散度,描述两个概率分布P和Q差异的一种方法
交叉熵
用于求目标与预测值之间的差距 。
最小二乘估计
又称最小平方法,通过最小化误差的平方和寻找数据的最佳函数匹配,常用于回归问题。
参考文献:
DocumentDescriptionhttps://datawhalechina.github.io/unusual-deep-learning/#/DLT%E6%A1%86%E6%9E%B6