【人工智能基础2】【2】人工智能基础知识扫盲

原创已于 2025-03-18 20:57:19 修改 · 963 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2025-03-07 08:52:20 首次发布

人工智能习题专栏收录该内容

7 篇文章

订阅专栏

文章目录

一、人工智能基础知识
二、人工智能应用

一、人工智能基础知识

1、监督学习和无监督学习

监督学习和无监督学习在机器学习中存在多方面区别：

数据标注：监督学习使用带有标签的数据进行训练，这些标签明确指示了预期的输出结果；无监督学习则处理未标记的数据，没有预先定义的输出标签。
学习目标：监督学习旨在学习输入数据和输出标签之间的映射关系，用于预测或分类新的数据；无监督学习主要是发现数据中的潜在模式、结构或关系。
应用场景：监督学习常用于解决分类和回归问题；无监督学习主要用于探索性任务，比如数据聚类和降维等任务。

以下是两者的实际应用例子：

监督学习：垃圾邮件分类。通过使用已标注为“垃圾邮件”或“正常邮件”的邮件数据进行训练，模型学习到垃圾邮件和正常邮件在文本特征、发件人信息等方面的差异，从而能够对新收到的邮件进行分类，判断其是否为垃圾邮件。
无监督学习：新闻文章聚类。在新闻网站中，每天会发布大量不同主题的文章，利用无监督学习的聚类算法（如K-means），可以将这些未标注主题的新闻文章按照内容的相似性分成不同的类别，如政治、经济、娱乐等，方便用户浏览和查找感兴趣的内容。

2、机器学习中有哪些常用的降维手段？

机器学习常用降维手段如下：

主成分分析（PCA）：无监督方法。
把数据投影到新方向，让新方向上方差最大，保留关键结构。
比如处理上万像素的图片，用它提取关键特征，减少数据量，像从大量图像细节中抓住主要轮廓。
奇异值分解（SVD）：无监督方式。
分解矩阵，留下重要的奇异值和向量降维。
如处理庞大的用户 - 商品评分矩阵，保留关键信息，降低维度来优化推荐系统。
线性判别分析（LDA）：监督学习方法。
找个方向，让不同类别离得远，同类离得近，用于分类。
比如区分垃圾邮件和正常邮件，通过对带标签邮件数据处理，降低维度提升分类效果。

3. 欠拟合和过拟合

过拟合

定义：机器学习里，过拟合指模型在训练数据上表现佳，但在新的测试数据中表现差，泛化能力弱。
原因
模型复杂：参数多或结构复杂，像决策树过深、神经网络层数过多，会学习到训练数据里的噪声和细节，误把它们当作普遍规律。
数据量少：训练数据不足，无法覆盖所有特征分布，模型易过度适应有限数据里的特殊情况。
训练过久：迭代次数过多，模型记住训练数据细节包括噪声，而非本质特征。

欠拟合

定义：模型在训练和测试数据上表现都不好，没能力学习数据规律，预测不准确。
原因
模型简单：过于简单的模型，如用线性模型处理复杂非线性数据，捕捉不到数据特征。
特征不好：没选足够有效的特征，或所选特征与目标变量相关性弱，模型缺乏信息。
训练不足：训练时间短、迭代次数少，模型没充分学习规律。

4. 神经网络是怎么训练的

训练步骤	具体内容
前向传播	输入层：输入经预处理的图像、文本、音频等数值向量数据隐藏层：数据依次经多个隐藏层，神经元对输入加权求和，经激活函数非线性映射，提取特征输出层：进行加权求和计算，输出与目标对应的数值向量或标量，如分类任务的类别概率值
损失计算	选函数：回归用均方误差，分类用交叉熵等合适损失函数算损失：将预测输出与真实标签代入函数，得损失值，反映拟合程度，值越大差异越大
反向传播	算梯度：基于损失函数，用链式求导从输出层算各神经元误差对权重的偏导数（梯度），指示权重更新方向更权重：依梯度，用梯度下降更新权重，沿梯度反方向按学习率决定的步长更新
迭代优化	重复训练：重复前三个步骤，使权重朝减小损失方向更新，提升模型性能判断终止：损失收敛或达预设轮次停止训练，用验证集监控防过拟合

加权求和的作用

特征组合：不同的权重可以强调某些输入特征的重要性，弱化其他特征的影响。
模型学习：在训练过程中，神经网络会通过调整权重的大小，使得加权求和的结果更接近真实的标签。

权重的调整是基于损失函数和反向传播算法进行的，通过不断地迭代更新权重，模型可以学习到输入数据和输出结果之间的复杂关系。

5、常用的人工智能学习框架？

机器学习框架：Scikit-learn
深度学习框架：TensorFlow、PyTorch、MXNet等

6、卷积神经网络（CNN）在图像识别和处理中的作用

卷积神经网络（CNN）是深度学习中广泛用于图像识别和处理的模型。CNN通过模拟人类视觉系统的方式，自动学习图像的特征表示，逐层提取越来越复杂的特征，从而有效进行图像分类、目标检测、图像分割等任务。

CNN 实现图像识别的原理

卷积操作:提取特征，权值共享，不依赖位置（减低复杂度与提高泛化）

CNN的核心操作是卷积，通过卷积核（滤波器）在图像上滑动，提取局部特征。每个卷积核会生成一个特征图（feature map），这些特征图能够识别图像中的边缘、角点、纹理等基本元素。
例如，卷积核可以在图像中寻找边缘信息（如水平线或垂直线），这种特征对于后续识别有重要意义。

池化操作（Pooling）：进一步提取重要特征，减少特征图尺寸，平移不变性。

池化层的作用是减少特征图的尺寸，同时保留重要的特征。最常见的池化操作是最大池化（Max Pooling），它通过选取局部区域的最大值来降低特征图的尺寸。
池化不仅减少了计算量，还能使模型具有一定的平移不变性，即无论目标在图像中的位置如何，网络都能识别。

激活函数（Activation Function）：学习更复杂的特性

CNN 中常用的激活函数是ReLU（Rectified Linear Unit），它对卷积结果进行非线性变换，使网络能够学习更复杂的特征。ReLU 对负值进行压缩为零，对正值则保持原样，从而提高训练效率。

全连接层（Fully Connected Layer）：分类

在经过多层卷积和池化处理后，CNN 通常会使用全连接层将提取的高层次特征映射到输出类别。全连接层通过将所有神经元连接起来，最终输出分类结果或回归值。
例如，在图像分类中，全连接层输出每个类别的概率，最后通过softmax函数得到最终的分类结果。

CNN 的关键网络结构特点

卷积层（Convolutional Layer）

功能：通过卷积核提取局部特征。
输出：卷积层的输出为特征图，每个卷积核生成一个特征图，表示输入图像的某种特征。
参数：卷积核的大小、步幅、填充方式（padding）等参数决定了特征图的大小。

池化层（Pooling Layer）

功能：降低特征图的尺寸，减少计算量，并保留最重要的特征。
类型：常见的是最大池化（Max Pooling）和平均池化（Average Pooling）。

激活层（Activation Layer）

功能：为网络添加非线性变换，使网络能够学习到更复杂的特征。常用的激活函数是ReLU。

全连接层（Fully Connected Layer）

功能：将从卷积层和池化层中提取的特征映射到输出空间，进行分类或回归。
位置：通常位于网络的最后，用于处理经过卷积和池化层后的信息。

输出层（Output Layer）：softmax 分类概率

功能：根据任务需求，输出类别的概率（分类任务）或预测值（回归任务）。

总结

CNN通过卷积层、池化层、激活层和全连接层的组合，逐步从输入图像中提取特征，并进行分类或回归任务。其局部连接、共享权重和池化等特点，使其在图像识别和处理上比传统的人工神经网络（ANN）更高效、准确。

8、强化学习（Reinforcement Learning, RL）的基本原理

强化学习是一种通过与环境交互来学习最优策略的方法。在强化学习中，智能体（Agent）通过执行动作（Action）来与环境（Environment）交互，根据环境的反馈（奖励或惩罚）调整其行为策略，以最大化长期回报。

强化学习主要由以下几个核心概念组成：

智能体（Agent）：在环境中执行动作的主体。它通过观察环境并选择合适的动作来学习。
环境（Environment）：智能体所处的外部环境，它根据智能体的动作提供反馈（奖励或惩罚），并向智能体提供新的状态信息。
状态（State, S）：描述环境在某一时刻的情形，通常通过一个向量表示。
动作（Action, A）：智能体在某一状态下可以选择的行为。
奖励（Reward, R）：智能体执行某个动作后，环境对该动作的反馈，通常是一个数值，表示该动作的好坏。
策略（Policy, π）：智能体根据当前状态选择动作的规则。策略可以是确定性的，也可以是概率性的。
价值函数（Value Function, V）：表示在某个状态下，智能体期望的长期回报。
Q函数（Q-Function, Q）：表示在某个状态下，采取某个动作后，智能体期望的长期回报。

强化学习在机器人控制、游戏等领域的成功应用案例

机器人控制

任务：使用强化学习训练机器人进行各种控制任务，如抓取物体、路径规划、自动导航等。
案例：
OpenAI的Dota 2：OpenAI的强化学习系统成功训练了一个机器人来玩Dota 2游戏，机器人通过不断与自己对战学习策略，最终在对抗人类顶级玩家时表现出色。
Google DeepMind的机器人抓取：DeepMind在机器人抓取任务中应用强化学习，训练机器人用机械手臂抓取物品。通过与环境的交互，机器人逐渐学习了如何精准地抓取物品，处理复杂的物理环境。

游戏领域

任务：强化学习在游戏领域的应用非常广泛，特别是在那些具有明确规则、目标和反馈系统的游戏中。
案例：
AlphaGo：DeepMind的AlphaGo通过强化学习与自我对弈不断改进，最终在围棋游戏中战胜了世界冠军。AlphaGo采用了深度神经网络与蒙特卡洛树搜索结合的技术，通过强化学习自我提升。
AlphaStar：同样是DeepMind的项目，AlphaStar应用强化学习在《星际争霸2》这款复杂的实时战略游戏中取得了显著成果，击败了多个世界级玩家。
OpenAI Five：OpenAI Five应用强化学习在《Dota 2》这款多人在线战术游戏中取得了成功，通过与人类和自身的对战，智能体逐步提高了游戏策略，甚至击败了人类职业玩家。

自动驾驶

任务：自动驾驶中的强化学习应用主要集中在如何通过环境感知、决策和控制，优化车辆的行驶路径。
案例：Waymo：Waymo使用强化学习来训练自动驾驶车辆在复杂环境中做出决策，包括判断何时加速、刹车、转弯等，以保证安全高效的驾驶。

面临的挑战

尽管强化学习在多个领域取得了成功，但仍然面临一些挑战：

样本成本问题：强化学习通常需要大量的交互数据才能获得好的性能，这在现实世界中可能导致高昂的成本。
环境建模难度：现实世界的环境通常复杂且不完全可知，模拟和建模环境困难。
长期奖励的规划：强化学习强调长期奖励的最大化，但在复杂任务中，如何有效地预测和规划长期回报仍然是一个挑战。
训练不稳定性：强化学习在某些情况下训练过程可能不稳定，特别是当奖励信号较弱时。

9、知识图谱的构建过程与作用

构建过程

数据收集与整合：首先，收集来自多种来源的数据（如数据库、网页等），并对这些数据进行清洗和整理。
实体和关系抽取：从数据中提取关键实体（如人物、地点、组织等）及其相互关系（如“属于”、“位于”等）。
图谱构建：将这些实体和关系组织成图结构，实体作为节点，关系作为边。
图谱更新与维护：随着新信息的出现，定期更新和扩展知识图谱。

知识图谱的作用

信息检索：
- 增强查询理解：知识图谱通过理解查询的语义，而不仅仅是匹配关键词，提高搜索的准确性。例如，用户查询“苹果公司CEO是谁？”时，图谱可以识别出“苹果公司”和“CEO”之间的关系，直接返回当前CEO姓名，而不是仅显示相关页面。
- 信息聚合：知识图谱能将来自多个来源的信息整合，提供全面的答案。例如，搜索“比尔·盖茨”时，图谱不仅返回其基本信息，还可能包括比尔·盖茨所属的公司、成就、家人等相关信息。
- 智能搜索：通过多维度关联，知识图谱在电商平台中可以提供与品牌、型号、用户评价等多方面相关的搜索结果，帮助用户做出决策。
问答系统：
- 语义理解与推理：在医疗问答系统中，用户询问“糖尿病有哪些症状？”知识图谱能够理解“糖尿病”和“症状”之间的关系，并提供准确的症状列表，而非返回模糊的文献。
- 高效信息检索：在法律问答中，用户询问“如何根据美国宪法弹劾总统？”时，知识图谱能快速从相关法律条文中提取出准确的答案。
- 上下文感知：在多轮对话中，系统可以理解上下文，处理连续问题。比如，在“乔布斯是哪个公司创始人？”后，继续问“苹果公司成立于什么时候？”系统能提供准确的“1976年”答案。

二、人工智能应用

1、人工智能在多个领域的应用（结合自己专业领域）

nl2sql:RAG、
领域助手：日志报错、sql 问答助手
Agent：工作流

OCR文字识别、入关系型数据库
ASR识别：
文本入库：文档管理系统

领域	应用
医疗	AI分析医学影像辅助诊断，智能设备实时监测健康数据
交通	AI识别路况实现自动驾驶，优化红绿灯和路线减少拥堵
能源	AI预测用电需求优化分配，预警设备故障减少停机损失
金融	AI识别异常交易防范欺诈，分析用户信用提高贷款审批效率
生命科学	AI加速基因测序助力研究，制定个性化治疗方案提高疗效

2、市面上主流GPU显卡

如下展示了不同NVIDIA GPU型号的架构、显存容量、半精度计算性能、显存带宽和制造工艺。

GPU 型号	GPU 架构	显存容量	半精度峰值性能 (FP16/BF16)	显存带宽	制造工艺
NVIDIA V100	Volta	16GB/32GB (HBM2)	~125 TFLOPS (Tensor Core FP16)	~900 GB/s	TSMC 12nm
NVIDIA A100	Ampere	40GB/80GB (HBM2e)	~312 TPEOPS (Tensor Core FP16/BF16)	1.6 TB/s (80GB版)	TSMC 7nm
NVIDIA H100	Hopper	80GB (HBM3)	~2 PFLOPS (Tensor Core FP16/BF16, 累计值)	~2 TB/s	TSMC 4N

以下是GPU主要指标的总结：

指标	含义
GPU 型号	显卡的具体型号，不同型号代表不同的GPU产品和技术架构，影响性能和功能。例如，V100、A100和H100分别代表不同代的NVIDIA显卡。
GPU 架构	决定显卡计算能力、效率和功能的核心技术设计。较新的架构（如Ampere和Hopper）通常提供更强的性能和更好的能效。
显存容量	显卡存储数据的内存大小。显存容量越大，GPU可以处理的数据量越多，适用于更复杂的任务。
半精度峰值性能 (FP16/BF16)	衡量显卡处理数据的速度，特别是在机器学习任务中的表现。FP16和BF16是16位浮动小数点运算，适用于深度学习，单位是TFLOPS（万亿次计算）或TPEOPS（万亿次操作）。
显存带宽	显卡每秒能够读取或写入数据的速度，带宽越高，GPU处理数据的效率越强。单位通常是GB/s或TB/s。
制造工艺	显卡芯片的生产技术，通常以纳米（nm）为单位。制造工艺越先进，芯片的性能和能效越强。例如，4nm工艺提供更强的性能和更高的能效。

总结：

显存容量决定了GPU能处理的数据量。
半精度峰值性能决定了GPU在深度学习等任务中的计算速度。
显存带宽影响GPU处理数据的效率。
制造工艺影响GPU的性能和能效，通常工艺越先进，性能越强。

3．常用的深度学习分布式训练框架有哪些？

框架	特点	应用场景
DeepSpeed (微软)	支持数据并行、模型并行、流水线并行，采用ZeRO内存优化器减少内存消耗，支持混合精度训练，提高训练效率。	大规模语言模型训练、复杂神经网络训练。
Megatron-LM (NVIDIA)	支持多节点、多GPU训练，结合数据并行、张量并行和流水线并行，专为训练超大规模模型（如数千亿参数）设计。	超大规模语言模型训练，如GPT系列等。
TensorFlow Distributed	支持在多个设备和节点上进行分布式训练，使用参数服务器模式、全量同步和异步更新。	大规模图像和语言处理任务的深度学习模型训练。
Horovod (Uber)	支持多框架（TensorFlow、Keras、PyTorch），通过数据并行和All-Reduce技术优化分布式训练，减少节点间通信开销。	多节点集群环境中的大规模并行训练任务。
Pytorch Distributed	提供多种分布式训练方案（数据并行、模型并行、混合并行），通过NCCL等通信优化减少数据传输瓶颈。	需要灵活分布式训练的深度学习任务。
DMTK (微软)	提供分布式训练和模型并行工具，支持跨多个节点的大规模训练，适用于大规模数据处理。	大规模机器学习任务，特别是在云计算环境中训练。

这些框架各有特点，DeepSpeed和Megatron-LM特别适合大规模语言模型训练，Horovod和TensorFlow Distributed适用于多节点集群环境，Pytorch Distributed提供灵活的分布式训练方式。选择框架时需考虑任务规模、硬件配置和训练效率等因素。

4、如何规范人工智能的发展？

人工智能的发展需要在法律、伦理和社会影响方面进行规范，以确保其安全、公平和可持续发展。

完善法律法规，确保安全与透明
- 建立 AI 监管框架，明确数据隐私保护、算法透明度等关键标准。
- 对关键领域（如医疗、金融、自动驾驶）制定安全规范，避免 AI 滥用。
加强伦理教育，提升社会认知
- 在 AI 研发和应用过程中引入伦理审查，防止算法偏见和歧视。
- 提高公众对 AI 的认知，增强信任，促进人机协作的良性发展。
推动国际合作，共同治理 AI
- 建立全球 AI 伦理标准，防止技术滥用和恶性竞争。
- 促进各国政府、企业和学术机构合作，推动 AI 的健康发展。

通过法律规范、伦理审查和国际合作，我们可以确保 AI 在造福社会的同时，避免潜在风险和挑战。

5、人工智能在物流配送中的应用与优化方案

人工智能在物流配送中主要用于优化配送路线和提高整体效率，核心技术包括机器学习、大数据分析、路径规划算法等。

1. AI 在物流配送中的具体应用

智能路径规划：利用Dijkstra 算法、A* 搜索、蚁群算法等，结合实时交通数据，动态调整最优配送路线，避免拥堵，提高准时率。
订单智能调度：AI 结合历史订单数据、天气、节假日影响，预测订单高峰，提前调配运力，减少延误和资源浪费。
无人化配送：应用自动驾驶配送车和无人机，在城市短途配送和偏远地区投递中减少人工依赖，提高效率。

2. 如何优化配送路线和提高效率？

实时数据分析，提高决策精准度

通过GPS、摄像头、交通传感器收集实时路况数据，结合 AI 预测未来几小时的道路状况，动态调整路线。
结合天气预报、用户签收时间偏好等数据，优化配送顺序，减少等待时间。

优化路径规划算法，提升计算效率

采用强化学习（RL）+图优化算法，根据订单密度和历史数据自学习最佳配送路径。
结合混合整数规划（MIP）算法，在多个配送点间平衡路线，减少空驶率，提高运力利用率。

智能分仓与动态库存调配

采用AI 预测订单分布，提前在各个仓库合理分配库存，减少长距离运输需求，提高配送时效。
结合区域划分算法（如 K-means 聚类），智能调整配送网点位置，降低配送成本。

无人化配送，提高终端派送效率

在短途配送中推广无人车+无人机组合，快速完成“最后一公里”投递。
结合智能快递柜，减少人工派送次数，提高送达效率。