1.人工智能
人工智能:用人工的方法在机器(计算机)上实现的智能;或者说是人们使机器具有类似于人的智能。
人工智能学科:人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。
在人工智能安全领域,图像识别技术的应用非常广泛,包括但不限于:
1.视频分析:通过图像识别技术,可以对视频流进行分析,从而实现人脸识别、车辆识别、行为识别等功能。
2.安全检测:通过图像识别技术,可以对图像进行分析,从而实现危险物品识别、异常行为识别等功能。
3.自动驾驶:通过图像识别技术,可以实现自动驾驶车辆对周围环境进行识别,从而实现路况识别、道路标志识别等功能。
4.医疗诊断:通过图像识别技术,可以对医疗影像进行分析,从而实现疾病诊断、病灶识别等功能。
2.机器学习
机器学习:机器学习是让计算机系统通过数据和经验自动学习和改进,而无需明确的编程指令,旨在使计算机能够从数据中发现模式、规律,并利用这些知识进行预测、决策或解决问题。
过拟合与欠拟合
过拟合(模型过于复杂):过拟合指的是训练数据上表现得非常好,但在未见心的测试数据上表现不佳,它对训练数据过度拟合。
原因:模型复杂度太高,如参数过多、神经网络层数过深等,使得模型学习到了训练数据中的噪声和一些非本质的特征。训练数据量过少,模型没有足够的数据来学习到真实的规律,只能过度依赖训练数据中的特殊情况。
欠拟合(模型过于简单):欠拟合指的是模型无法捕捉到训练数据中的真实关系,它对数据的拟合程度不足。
原因:模型过于简单,如线性模型用于拟合复杂的非线性数据。特征选择不当,没有选择到足够的有代表性的特征,导致模型无法学习到数据中的关键信息。训练不足,如训练次数不够、学习率设置不当等,使得模型没有充分学习到数据中的规律。
语音识别系统
采集一个包含大量音频样本的数据集,并对包含和不包含唤醒词的样本进行标注;设计一个灵活的程序算法,其输出由许多参数决定,然后使用数据集来确定当下的“最佳参数集”,这些参数通过某种性能度量方式来达到完成任务的最佳性能。
机器训练过程
1. 从一个随机初始化参数的模型开始,这个模型基本没有“智能”;
2. 获取一些数据样本(例如,音频片段以及对应的是或否标签);
3. 调整参数,使模型在这些样本中表现得更好;
4. 重复第(2)步和第(3)步,直到模型在任务中的表现令⼈满意。
参数,参数可以被看作旋钮,旋钮的转动可以调整程序的行为。任一调整参数后的程序被称为模型,通过操作参数而生成的所有不同程序的集合称为“模型族”。使用数据集来选择参数的元程序被称为学习算法。
机器学习中的关键组件
无论什么类型的机器学习问题,都会遇到这些组件:
1. 可以用来学习的数据(data);
2. 如何转换数据的模型(model);
3. ⼀个目标函数(objective function),用来量化模型的有效性;
4. 调整模型参数以优化目标函数的算法(algorithm)
数据:每个数据集由一个个样本组成,大多时候,它们遵循独立同分布。样本有时也叫做数据点或者数据实例,通常每个样本由一组称为特征(features,或协变量(covariates))的属性组成。
当处理图像数据时,每一张单独的照片即为一个样本,它的特征由每个像素数值的有序列表示。
拥有越多数据的时候,工作就越容易。更多的数据可以被用来训练出更强大的模型,从而减少对预先设想假设的依赖。仅仅拥有海量的数据是不够的,还需要正确的数据。
模型:任一调整参数后的程序被称为模型。这些模型由神经⽹络错综复杂的交织在一起,包含层层数据转换,因此被称为深度学习。"学习”,是指自主提高模型完成某些任务的效能。
目标函数:需要定义模型的优劣程度的度量,这个度量在大多数情况是“可优化”的,被称之为目标函数。
定义一个目标函数,并优化它到最小值——损失函数。预测数值任务——平方误差:预测值与实际值之差的平方。预测分类任务——最⼩化错误率:预测与实际情况不符的样本⽐例。损失函数是根据模型参数定义的,并取决于数据集。在一个数据集上,我们可以通过最⼩化总损失来学习模型参数的最佳值。
优化算法:当我们获得了一些数据源及其表示、一个模型和一个合适的损失函数,接下来就需要一种算法,它能够搜索出最佳参数,以最⼩化损失函数。深度学习中,大多流行的优化算法通常基于一种基本方法——梯度下降(gradient descent)在每个步骤中,梯度下降法都会检查每个参数,看看如果仅对该参数进行少量变动,训练集损失会朝哪个方向移动。然后,它在可以减少损失的方向上优化参数。