Dynamic Programming(1)

本文介绍了动态规划的基本概念及其与分治法的区别,并通过LeetCode题目Unique Paths和Unique Paths II两个实例详细展示了动态规划的实现过程。

概念介绍

  动态规划解决问题的方法就是通过解决很多的小问题而解决大问题。而与分治法的区别在于分治法划分出的小问题常常是不包含公共子问题的,动态规划则是小问题之间有着公共子问题。
  动态规划的效率将取决于两个因素,子问题的数量与子问题的解决效率。实际上,动态规划的时间效率就是子问题的数量*子问题的时间效率。

实例分析

接下来将用一些实例分析DP的方法
  1. leetcode.62 Unique Paths

从一个矩形的左上角到右下角有多少条不同的路径(只能向下或者向右走),据此我们分析,在(i,j)处时,机器人的上一步
可能是(i-1,j)也可能是(i,j-1),因此若设f(i,j)表示从起始位置(0,0)到(i,j)位置有多少条路径,则有f(i,j) = f(i-1,j)+f(i,j-1),返回结果为f(m-1,n-1).实现代码如下:
    int uniquePaths(int m, int n) {
    	int **f = new int*[m];
    	f[0] = new int[n];
    	for (int i = 0; i < n; i++) {
    		f[0][i] = 1;
		}
    	for (int i = 1; i < m; i++) {
    		f[i] = new int[n];
            f[i][0] = 1;
		}
		for (int i = 1; i < m; i++) {
			for (int j = 1; j < n; j++) {
				f[i][j] = f[i-1][j] + f[i][j-1];
			}
		}
		return f[m-1][n-1];

}

2.leetcode.63 Unique Paths

这是62的一个延伸,在一个矩阵中增加了障碍物,用1表示,这样我们相比于上一题,就要检查(i,j)位置是否可达,不可达就f(i,j)=0;可达就沿用上一题的状态转换方程。代码如下:

    int uniquePathsWithObstacles(vector<vector<int> >& obstacleGrid) {
    	const int m = obstacleGrid.size();
    	const int n = obstacleGrid[0].size();
    	int **f = new int*[m];
    	f[0] = new int[n];
        f[0][0] = (obstacleGrid[0][0]==1)?0:1;
    	for (int i = 1; i < n; i++) {
    		if (obstacleGrid[0][i] == 0) f[0][i] = f[0][i-1];
    		else f[0][i] = 0;
		}
    	for (int i = 1; i < m; i++) {
    		f[i] = new int[n];
    		if (obstacleGrid[i][0] == 0) f[i][0] = f[i-1][0];
    		else f[i][0] = 0;
		}
		for (int i = 1; i < m; i++) {
			for (int j = 1; j < n; j++) {
				if (obstacleGrid[i][j] == 0) f[i][j] = f[i-1][j] + f[i][j-1];
				else f[i][j] = 0;
			}
		}
		return f[m-1][n-1];       

}


接下来仍然会有几篇是动态规划实例的。

### DDP(Differential Dynamic Programming)原理 DDP(Differential Dynamic Programming)是一种用于求解非线性最优控制问题的递归算法。它基于动态规划的思想,通过线性化系统的动力学方程和二次近似代价函数,递归地优化控制策略。DDP的核心在于利用局部二次近似来简化全局非线性最优控制问题,从而高效地求解控制策略。 在DDP中,首先对系统的动力学方程和代价函数进行线性化和二次近似。然后,通过递归的方式,结合这些局部近似来更新控制策略。具体来说,DDP包括以下几个步骤: 1. **初始化**:给定初始状态 $x_0$,初始化控制序列 $\{u_0, u_1, \ldots, u_{T-1}\}$,设置最大迭代次数和收敛准则。 2. **前向传播(Forward Pass)**:通过给定的控制序列 $\{u_k\}$,从初始状态 $x_0$ 开始,依次计算系统状态 $\{x_k\}$,并计算总代价 $J$。 3. **线性化和二次近似(Linearization and Quadratic Approximation)**:在每个时间步 $k$,对系统动力学 $f$ 和代价函数 $l$ 进行线性化和二次近似。 通过这些步骤,DDP能够高效地求解非线性最优控制问题,适用于多种机器人控制场景,特别是对于动态系统的控制问题具有良好的适应性 [^2]。 ### DDP的应用场景 DDP算法广泛应用于需要精确控制的动态系统中,特别是在机器人控制领域。例如,它可以用于机器人路径规划、机械臂控制、自动驾驶车辆的轨迹优化等场景。这些应用通常涉及到复杂的非线性动力学系统,DDP能够提供高效的解决方案 [^2]。 ### DDP的优势 1. **高效性**:DDP通过局部线性化和二次近似,将复杂的非线性问题转化为一系列简单的子问题,从而提高了求解效率。 2. **适应性强**:适用于多种非线性系统,尤其是在机器人控制和动态系统优化中表现出色。 3. **递归性**:通过递归的方式更新控制策略,能够在每次迭代中逐步逼近最优解。 尽管DDP在初始解选择和收敛性方面可能需要进一步调整和优化,但其在处理非线性最优控制问题上的优势使其成为一种重要的算法 [^2]。 ### 示例代码 以下是一个简单的Python示例,展示了如何实现DDP算法的基本框架: ```python def ddp_algorithm(x0, u_sequence, max_iterations, convergence_criterion): # 初始化 x = x0 J = 0 for iteration in range(max_iterations): # 前向传播 x_sequence = [x] for u in u_sequence: x = system_dynamics(x, u) x_sequence.append(x) J = cost_function(x, u) # 线性化和二次近似 A, B = linearize_dynamics(x_sequence) Q, R = quadratic_approximation(cost_function, x_sequence, u_sequence) # 更新控制策略 u_sequence = update_control_policy(A, B, Q, R, x_sequence, u_sequence) # 检查收敛性 if check_convergence(J, convergence_criterion): break return u_sequence # 示例函数(需根据具体问题实现) def system_dynamics(x, u): # 实现系统动力学 pass def cost_function(x, u): # 实现代价函数 pass def linearize_dynamics(x_sequence): # 实现动力学线性化 pass def quadratic_approximation(cost_function, x_sequence, u_sequence): # 实现代价函数的二次近似 pass def update_control_policy(A, B, Q, R, x_sequence, u_sequence): # 实现控制策略更新 pass def check_convergence(J, convergence_criterion): # 检查是否收敛 pass ``` ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值