线性代数
今天的种种人工智能技术归根到底都建立在数学模型之上,而这些数学模型又都离不开线性代数(linear algebra)的理论框架。
其要点如下:
- 线性代数的本质在于将具体事物抽象为数学对象,并描述其静态和动态的特性;
- 向量的实质是 n 维线性空间中的静止点;
- 线性变换描述了向量或者作为参考系的坐标系的变化,可以用矩阵表示;
- 矩阵的特征值和特征向量描述了变化的速度与方向。
- 在实际问题中,向量的意义不仅是某些数字的组合,更可能是某些对象或某些行为的特征。范数和内积能够处理这些表示特征的数学模型,进而提取出原始对象或原始行为中的隐含关系。
- 线性空间的一个重要特征是能够承载变化。当作为参考系的标准正交基确定后,空间中的点就可以用向量表示。当这个点从一个位置移动到另一个位置时,描述它的向量也会发生改变。点的变化对应着向量的线性变换(linear transformation),而描述对象变化抑或向量变换的数学语言,正是矩阵。
概率论
概率论(probability theory)也是人工智能研究中必备的数学基础。今天,概率论已经在机器学习中扮演了核心角色。
其要点如下:
- 概率论关注的是生活中的不确定性或可能性;
- 概率论是线性代数之外,人工智能的另一个理论基础,多数机器学习模型采用的都是基于概率论的方法。但由于实际任务中可供使用的训练数据有限,因而需要对概率分布的参数进行估计,这也是机器学习的核心任务。
- 概率的估计有两种方法:最大似然估计法(maximum likelihood estimation)和最大后验概率法(maximum a posteriori estimation),两者分别体现出频率学派和贝叶斯学派对概率的理解方式。
- 除了概率质量函数 / 概率密度函数之外,另一类描述随机变量的参数是其数字特征。数字特征是用于刻画随机变量某些特性的常数,包括数学期望(expected value)、方差(variance)和协方差(covariance)。
- 频率学派认为先验分布是固定的,模型参数要靠最大似然估计计算;
- 贝叶斯学派认为先验分布是随机的,模型参数要靠后验概率最大化计算;
- 正态分布是最重要的一种随机变量的分布。
数理统计
在人工智能的研究中,数理统计同样不可或缺。基础的统计理论有助于对机器学习的算法和数据挖掘的结果做出解释,只有做出合理的解读,数据的价值才能够体现。
其要点如下:
- 数理统计的任务是根据可观察的样本反过来推断总体的性质;
- 推断的工具是统计量,统计量是样本的函数,是个随机变量;
- 参数估计通过随机抽取的样本来估计总体分布的未知参数,包括点估计和区间估计;
- 假设检验通过随机抽取的样本来接受或拒绝关于总体的某个判断,常用于估计机器学习模型的泛化错误率。
最优化方法
从本质上讲,人工智能的目标就是最优化:在复杂环境与多体交互中做出最优决策。几乎所有的人工智能问题最后都会归结为一个优化问题的求解,因而最优化理论同样是人工智能必备的基础知识。
其要点如下:
- 通常情况下,最优化问题是在无约束情况下求解给定目标函数的最小值;
- 在线性搜索中,确定寻找最小值时的搜索方向需要使用目标函数的一阶导数和二阶导数;
- 置信域算法的思想是先确定搜索步长,再确定搜索方向;
- 以人工神经网络为代表的启发式算法是另外一类重要的优化方法。
信息论
近年来的科学研究不断证实,不确定性才是客观世界的本质属性。不确定性的世界只能使用概率模型来描述,正是对概率的刻画促成了信息论的诞生。
其要点如下:
- 信息论处理的是客观世界中的不确定性;
- 条件熵和信息增益是分类问题中的重要参数;在机器学习中,信息增益常常被用于分类特征的选择。
- KL 散度用于描述两个不同概率分布之间的差异;
- 最大熵原理是分类问题中的常用准则。最大熵原理的本质在于在推断未知分布时不引入任何多余的约束和假设,因而可以得到最不确定的结果,预测的风险也就最小。
形式逻辑
其要点如下:
- 如果将认知过程定义为对符号的逻辑运算,人工智能的基础就是形式逻辑;
- 谓词逻辑是知识表示的主要方法;
- 基于谓词逻辑系统可以实现具有自动推理能力的人工智能;
- 不完备性定理向“认知的本质是计算”这一人工智能的基本理念提出挑战。
- 在哥德尔不完备性定理的阴影下,基于图灵可计算概念的“认知可计算主义”研究纲领已经显示出其极大的局限。今天,依靠人工神经网络逐渐崛起的连接主义学派大放异彩,与此同时,以形式逻辑为依据的符号主义学派则已经走向没落。
476

被折叠的 条评论
为什么被折叠?



