
人工智能
文章平均质量分 84
记录人工智能相关领域的笔记
pzb19841116
大龄男讲师
展开
-
强化学习(赵世钰版)-学习笔记(完)(10.Actor-Critic方法)
最后是确定性的(Deterministic)Actor-Critic算法,之前的算法可以成为随机版本的,因为每个状态下各行为发生的概率都不为零。其中这个行为值的获取方法有两种,一个是用MC的方法获取(上节课介绍的),叫REINFORCE方法。这个是A2C算法的伪代码,这是个On-Policy的算法,因为用到的采样数据,也是用这个策略得到的。对A2C算法的方程进行数学变换,也能获取到一个β,跟上节课一样,可以调节探索与开发的比重。这是本课程的最后一课,讲的是在基于策略的基础上,添加基于值相关的内容。原创 2025-03-20 17:11:07 · 333 阅读 · 0 评论 -
强化学习(赵世钰版)-学习笔记(9.策略梯度法)
第二是如何解释这个方法,在基于梯度上升的迭代法中,对表达式进行整理,加号的右边可以变成这样,α是学习率,β_t是一个时间序列上的数,但是跟梯度无关,第三部分是梯度。策略梯度法的思路其实很简单,第一步是构建一个衡量最优策略的方法(类似于优化理论中的目标函数),第二步是用基于梯度的优化方法找寻最优策略。之前的方法,描述一个策略都是用表格的形式,每一行代表一个状态,每一列代表一个行为,表格中的元素对应相关状态下执行相关行为的概率。衡量的方法确定后,就要根据衡量的方法,确定给予梯度的优化方法。原创 2025-03-19 17:06:46 · 450 阅读 · 0 评论 -
强化学习(赵世钰版)-学习笔记(8.值函数方法)
而函数形式的优点很明显,比如有10000个点,表格形式需要存储10000个数据,而用函数形式,仅需保存几个参数值,存储压力较小,且有泛化能力(可以生成新的样本点)。可以提升函数的阶数,从而增加函数的拟合能力。我们在这里用两个函数分别代表真实的状态值和估计出来的状态值,那么问题就变成了一个优化问题,找寻一个最优参数w,使得两者之间的意义是最小的,这样估计值就能尽可能的近似真实值。本章是算法与方法的第四章,是TD算法的拓展,本质上是将状态值与行为值的表征方式,从离散的表格形式,拓展到了连续的函数形式。原创 2025-03-18 21:59:52 · 735 阅读 · 0 评论 -
强化学习(赵世钰版)-学习笔记(7.时序差分学习)
Q-Learning是Off-policy,而Saras和MC都是On-policy,因为需要计算的策略,用到的数据都是相同的策略生成的,同时也是个策略问题,都是通过迭代找到最优策略的。TD算法更新状态值的公式,可以展开来看。TD算法适用于计算状态值的算法,对应计算行为值的类似算法叫做Saras(state-action-reward-state-action的缩写),其表达式为。本章是课程算法与方法中的第四章,介绍的时序差分学习算法是基于随机近似方法设计的强化学习方法,也是model-free的方法。原创 2025-03-13 23:42:49 · 478 阅读 · 0 评论 -
强化学习(赵世钰版)-学习笔记(6.随机近似与随机梯度下降)
简单示例给了一个正切函数,可以看出这个误差乘以系数后,差异可以对原估计值进行修正,最后总会收敛到目标点,严格意义的证明没仔细看,太数学化,很繁琐。将这个估算期望值的增量方法进行泛化,可以获得一个随机近似的通用算法,深度学习中的随机梯度下降法,本质上也是这类随机近似的算法。这里证明了该思路的可行性,在数据增加的过程中,期望值变化的规律,可以看出添加一个新的采样后,期望值的变化是有规律的。Robbins-Monro算法的形式如下,各项的解释图中也包含,其实形式跟随机梯度下降是一样的,所以看起来很眼熟。原创 2025-03-11 20:10:17 · 659 阅读 · 0 评论 -
强化学习(赵世钰版)-学习笔记(5.蒙特卡罗法)
MC Basic算法是基于蒙特卡罗算法的相对最简单的方法,它是基于值迭代法改进的方法,将其中的行为值计算这一步,改用采样的样本进行估计,而不是直接用模型参数计算(因为模型参数可能是未知的)。常用的策略分为两种,一个是确定性的策略,比如贪心策略,每次都选概率最大的。一个是随机性策略,比如软策略。为什么要引入软策略,目的就是一个回合足够的长,那么就会访问到所有的状态-行为对,这样就避免了大量的回合采样(只跑少量的几个回合,就访问到了所有的状态-行为对),因此这个Exploring Starts就可以取消掉了。原创 2025-03-10 16:43:33 · 969 阅读 · 0 评论 -
强化学习(赵世钰版)-学习笔记(4.值迭代与策略迭代)
所以在做策略迭代的时候,这里要设置一个阈值j,迭代次数大于J的迭代操作予以舍弃,这叫做截断的策略迭代算法(truncated policy iteration algorithm)。策略迭代的初始是一个随机的策略,值迭代的初始是一个随机的状态值。因为采用贪心的思路,这个新的值V_k+1等价于最优的行为值(行为值最大的行为,采用的概率为100%,其余的为0%,就能得到最大值)。第四步的计算是有差异的,策略迭代这里是要用一个无穷步迭代算法计算这个策略值,而值迭代这里只是一个一步的迭代运算。原创 2025-03-09 20:07:06 · 819 阅读 · 0 评论 -
强化学习(赵世钰版)-学习笔记(3.最优策略与贝尔曼最优方程)
这个方程中的r,p(r|s,a),p(s'|s,a)等都是已知的,这表明整个环境信息是已知的,各状态的状态值是未知的,状态值的作用就是用于衡量两个策略之间的优劣,如果对于同一个环境下,对于所有的状态s,策略Pi1的状态值均大于策略Pi2,则可以说策略Pi1由于策略Pi2,以下是相关的数学描述。贝尔曼最优方程,可以记作一个关于状态值v的方程,就是下面的v=f(v),因为前面的R_pi是当前状态下动作值的最大值(前面证过了)。可以据此优化现有的策略,将策略在S1上的行为进行修改,从而增加整个策略的状态值。原创 2025-03-08 11:07:30 · 434 阅读 · 0 评论 -
强化学习(赵世钰版)-学习笔记(2.状态值与贝尔曼方程)
然后是未来回报的期望,可以分解为当前状态采用各动作的概率,乘上每个动作跳转到各状态的概率(不一定跳转到固定的状态),及新状态的回报值(下面公式最后一行,从右向左看)。状态转移的方向,每次转移的回报,每个状态采取的动作等,都可以是一个概率分布。Vpai是各状态的State Value,Rpai是各状态的奖励值,Ppai是一个状态转移矩阵,记录了状态之间的转移概率。首先是当前奖励的期望,可以拆分为在当前状态下,采用各自动作的概率,乘上每个动作带来回报的期望(因为相同状态,相同动作,获得的奖励也不一定是个定值)原创 2025-03-07 21:59:25 · 905 阅读 · 0 评论 -
强化学习(赵世钰版)-学习笔记(1.基础概念)
常用的例子是这种网格环境下的机器人路径探索,网格的类型分为“可进入”、“不可进入”、“目标”和“边界”等,目标是从任意起始点,找到一条到目标点的“最优”路径,“最优”的意思就是整条路径是得分最高的。策略(Policy):策略指的是智能体在某个状态下,采取的行动(可以采取的行动有很多,但是有好坏之分,策略指的是当前状态下建议采取的行动)。条件是当前的状态和所要采取的行动,given符号前是得到的奖励值,而概率值是在当前状态下采取对应的行动,获得对应奖励值的概率值。原创 2025-03-07 11:13:02 · 855 阅读 · 0 评论 -
CMNet:Contrastive Magnification Network for Micro-Expression Recognition 阅读笔记
随机灰度,这个方法是将图像转换为灰度图,并且这个转换的过程是随机的。在我们的方法中,我们采用了这个测试来校准提取的强度线索,以符合所建立的原型的变化。获取负样本的三种方法,第一种是全都取,第二种的相同的概率抽取,第三种先计算锚定帧与其他帧之间的差异,再将差异通过softmax转换成概率。作为强度的一种表示,特征向量被独立地提取出来,并受到一个损失的约束,在这个过程中,网络实现了强度增强。AAAI 2023的一篇文章,东南大学几位老师的工作,用于做微表情识别中的运动增强工作, 以下是阅读时记录的笔记。原创 2024-02-19 22:49:41 · 1147 阅读 · 0 评论 -
基于深度学习的视觉目标跟踪进展综述
尽管以上的双路网络方法在视频目标跟踪中取得了很大的成功,但是仍然存在缺陷,缺少在线更新过程.MemTrack、Meta-Tracker、Re2EMA、UpdateNet和GradNet等, 提出了不同的模板更新算法。双路网络框架(SiamFC),此方法利用卷积网络提取目标模板和搜索区域的特征,然后再进性相关操作生成响应图,其中响应图上的峰值点就是目标所在的位置。深度学习提取特征的特点是,高层的语义特征对于目标的抽象表达能力很强,而低层的模型特征擅长刻画目标的纹理、形状等底层信息.。原创 2023-11-28 16:00:14 · 518 阅读 · 0 评论 -
无人机自主飞行实战入门-第一课(简介)
传统飞控基于STM32架构设计,无法满足更智能功能所需的计算量,飞控是为了无人机位姿控制所设计,人类操控依然in the loop。旋翼与固定翼的结合体,通过旋翼部分完成起降,在实际工作阶段使用固定翼动力模型完成飞行任务。• 读取飞控输出的 PWM 脉宽调制信号 , 根据收到的PWM信号调整换相频率,从而驱动电机完成速度的转换。以螺旋桨旋转作为升力的主要提供办法,通过调整螺旋桨转速来维持无人机姿态的无人机。• Arduino 开源飞控,是由六位意大利交互设计学院的同学,于2005年开发创办开发。原创 2023-08-26 09:27:43 · 1091 阅读 · 0 评论 -
无人驾驶实战-第十二课(强化学习自动驾驶系统)(完)
模仿学习: 从专家提供的范例中学习,一般提供人类专家的决策数据, 每个决策包含状态和动作序列, 把状态作为特征,动作作为标记进行分类或回归的学习从而得到最优策略模型。Q-Table为每一个 state 上进行的每一个 action 计算出最大的未来 reward 的期望,每个状态允许四种可能的操作:左移、右移、上移、下移, Table 里的参数式给定最佳策略的状态下采取相应动作获得的最大未来奖励期望。Reward:激励、奖励,对行为好坏的一个评价,Value Function,不同环境可以有不同的奖励,原创 2023-08-09 15:34:27 · 1429 阅读 · 0 评论 -
无人驾驶实战-第十一课(控制理论)
考虑过去误差,将误差值过去一段时间和(误差和)乘以一个正值的常数,积分控制会加速系統趋近设定值的过程,并且消除纯比例控制器会出现的稳态误差。注意在误差是0的时候,控制器的输出也是0。考虑将来误差,计算误差的一阶导,并和一个正值的常数相乘,微分控制可以提升整定时间及系統稳定性。Optimal Control:给定一个系统和环境扰动,根据需求条件(Objective),实现最优的控制量决策。控制是对车辆油门、刹车、方向盘的精细控制,是安全行驶的最后关卡,克服外界各种不确定性环境因素(风速、湿滑)原创 2023-08-09 09:17:21 · 456 阅读 · 0 评论 -
无人驾驶实战-第十课(决策规划)
什么样的路径是最好的,这个是需要用数字进行量化。机器人学常用的方法为A* search,是基于Dijkstra方法的改进,前提是大概知道了终点位置,有个启发式的函数。非常常用的一个方法,先将连续空间离散化(随机撒点,Obstacle上的点删除),连接可行点,形成可行空间。Fn表示道路的Routing的总cost,Gn表示起始点到候选点的Cost,Hn表示候选点通过启发式函数得到的目标点Cost。改进了RRT的折线问题,给出了Path的平滑曲线,方法是网格化,每个采样格中都是用曲线连接。原创 2023-08-09 06:36:01 · 506 阅读 · 0 评论 -
无人驾驶实战-第九课(预测系统)
预测的需求是准确率和实时性,难点是较为少见的情况预测(corner case)中级到中级的学习,多任务受限的学习,结合了预测与规划两部分工作。再对各种可能的行驶线路进行分类,计算每种的概率。车道特征:与起点的距离、与中心线的偏离值,参考线,转弯曲率,交通法;引入了GAN模型,设计出了人-人之间的交互。车辆状态:车速,加速度,朝向角度,朝向角速度,车辆类型,尺寸;基于模型的方法:结合人类的先验知识,可以解决较为少见的情况;车道模型的输入数据为序列,则使用的网络为RNN。环境:自然环境,车道周围的环境。原创 2023-08-08 00:37:54 · 318 阅读 · 0 评论 -
无人驾驶实战-第八课(定位算法)
outside-in: 接收的外界信号包含位置相关信息 / GNSS UWB WIFI Lidar-Hdmap Camera-marker(室外街景门牌室内maker) 磁条加marker(规划都做了) 扫地机本身贴marker加顶部相机 / (适合测量方程)缺点: 巨大的数据量和人工标注,摄像机采图问题:强光/弱光/逆光都会影响检查效果,基于图像计算深度图存在误差(越远视察越小 误差越大 z=fb/d),开放场景下(如高速公路) maker少甚至没有marker。原创 2023-08-06 23:25:04 · 1034 阅读 · 0 评论 -
无人驾驶实战-第七课(高精地图和V2X )
与导航地图相比,高精地图提供精准的车道中心线与边界,路网信息中也包含了车道合并与路网节点的位置,同时还标记出了停车位与限速牌等信息。高精地图记录的是道路的静态特征,而V2X是用于获取动态特征的方法。s为与参考点相比的距离,t为与车道线中心相比偏移的距离,h为车辆的高度(因为路面不一定是水平的)相机与激光雷达采集到的数据,通过预处理、坐标变换与融合,形成的结果可以在高精地图中定位。S为与原点相比的距离信息,t为与车道线中心线对比的偏差距离。道路的交汇处是另一个重要的信息,包含车道的虚拟连接等。原创 2023-08-05 10:21:44 · 414 阅读 · 0 评论 -
无人驾驶实战-第六课(动态环境感知与Tracking)
外观模型:利用多个正样本间的重叠关系同时提升跟踪的速度和精度: 新位置极其周围产生的正样本可以通过循环矩阵来快速生成,循环矩阵傅利叶对角化性质大大简化计算加速分类器的学习过程,基于 HOG 特征的分类器,(DeepSRDCF:深度学习提取的特征+KCF 的方法)特点:适用于尺度变化大的物体,运动物体,多帧被挡住,遮挡较多(例如被另外一个物体完全挡住)过多错误的正样本导致它几乎不可用(容易跟踪非目标物体)特点:可靠的反馈跟踪丢失,可靠的轨迹, 适用于小幅运动无遮挡场景,大幅运动容易跟踪失败。原创 2023-08-04 14:24:44 · 344 阅读 · 0 评论 -
无人驾驶实战-第五课(动态环境感知与3D检测算法)
无序性:点云本质上是一堆点(nx3矩阵,其中n是点数) 点的顺序不影响它在空间中对整体形状的表示(相同的点云可以由两个完全不同的矩阵表示)。X-Conv算子主要思想就是针对输入来说,以核K,中心p,领域点P,领域的特征F为输入,得到一个K×K的矩阵,这个矩阵就是X变换,它可以保证点云的无序性,然后再通过卷积核K对其进行卷积。球面坐标系下的每一个点都可以使用一个直角坐标系中点表示的点表示,提取点云中每一个点的5个特征:(x, y,z, intensity, range)放入对应的二维坐标 (i,j)。原创 2023-08-03 16:13:28 · 2155 阅读 · 0 评论 -
无人驾驶实战-第四课(动态环境感知与2D检测算法)
从左到右,从上到下,用不同的尺寸和横款比的窗口滑动。这种方法的效率较低,大量窗口是无效的,仅限于固定尺寸与长宽比的目标,如人脸和行人的检测;1.提取特征:Haar、LBP、SIFT、SURF、HOG、DPM等,及深度学习CNN中的conv;k是网格的个数,2k的得分是每个网格二分类,有物体和没有物体,4k是候选框的坐标。从输出结果可以看出,V2对每个类都进行了分类的评估和边框的拟合。可以看出先提取候选框,每个候选框过一遍卷积,效率太低。3.CNN的方法:用锚框,RPN等方法实现。无人驾驶中的检测框架。原创 2023-08-02 11:16:56 · 226 阅读 · 0 评论 -
无人驾驶实战-第三课(静态环境感知与分割算法)
所以Deeplab提出了一种新的带孔的卷积(Dilated/Atrous Convolution)能够保证这样的池化后的感受野不变,从而可以fine tune,同时也能保证输出的结果更加精细。聚类出具体是那条车道线:利用分割分支的二值分割图做掩码在Pixel embedding图像上得到所有车道像素的n维度嵌入,将车道像素的嵌入(蓝点)聚类得到所属车道类别。感知外界:用于感知外在环境,包括静态目标(车道线/路面/交通标识)和动态目标(运动物体(车/人/...)的运动状态(位置/朝向/速度/...))。原创 2023-08-01 13:32:07 · 477 阅读 · 0 评论 -
无人驾驶实战-第二课(ROS编程)
ROS不是真正的操作系统,而是一种系统软件框架,该框架使用了流行的面向服务(SOA)的软件技术,通过网络协议将节点间数据通信解耦。一个节点是ROS程序包中的一个可执行文件,ROS节点可以使用ROS客户库与其他节点通信。ROS程序的最小组织是Package,Package是ROS系统中最底层最基本的组织,里面存放各种文件:库、工具、可执行文件等.原创 2023-07-31 20:44:32 · 385 阅读 · 0 评论 -
无人驾驶实战-第一课(自动驾驶概述)
这一部分相当于人的手和脚 传统汽车的这些控制由液压系统和真空助力泵协助完成,自动驾驶汽车的线控需要用电控化的零部件来完成,如电子液压制动系统 林肯MKZ拥有完善的电气化设备和接口。为自动驾驶汽车与人类的责任概念提供具体可衡量的参数,并通过对所有记录在案的交通事故所涉及的行为和环境进行分析统计,为自动驾驶汽车界定了一个可计量的“安全状态”输出:方向盘、油门 实现对无人车的控制,我们需要知道踩刹车和减速的关系、踩油门和加速的关系等,当无人车拿到一些控制学参数后,通过电脑对无人车的控制。原创 2023-07-30 22:00:36 · 1516 阅读 · 0 评论