LQR控制器的设计与推导

LQR解决的是什么问题？

对于一个离散时间的线性系统,系统的状态方程为:

$x_{k+1}=A x_k+B u_k$

其中：

$𝕟$ 是第步时系统的状态；
$𝕞$ 是第步时的控制输入；
$𝕟 𝕟$ 是状态转移矩阵；
$𝕟 𝕞$ 是控制矩阵。

LQR的目的是设计控制输入，使得以下的性能指标（代价函数）最小化：

$J=\sum_{k=0}^{\infty}\left(x_k^{\top} Q x_k+u_k^{\top} R u_k\right)$

其中：

$𝕟 𝕟$ 是半正定矩阵（即），表示状态相关的代价；
$𝕞 𝕞$ 是半正定矩阵（即），表示控制输入相关的代价。

基本思路

LQR问题的目标是最小化系统在状态空间和输入空间中的能量损耗。其核心思想是通过动态规划和Ballman最优化原理，找到能够最小化上述性能指标的的最优控制律。

倒推求解Bellman方程

首先，我们从动态规划的思想入手，从最终状态往回推导。假设在第步时，定义代价函数的形式为：

$J_k=x_k^\top P_k x_k$

（为什么长这个样子呢，是因为我们设计的代价函数就是考虑当前状态和输入的一个二次型代价函数，在某一时刻，两项合并就是一个二次型代价函数）

其中是某一个待求解的对称正定矩阵（或者半正定矩阵）。

为了使代价函数最优，控制律应该使得最小。因此，对于每一步，我们都要解一个最优化问题。

第步时的代价

在第步时，代价函数为：

$J_{k+1}=x_{k_+1}^\top P_{k+1} x_{k+1}$

假设系统的状态方程，可以将写为：

$J_{k+1}=\left(A x_k+B u_k)^\top P_{k+1} (A x_k+B u_k\right)$

展开后得：

$J_{k+1}=x_k^{\top} A^{\top} P_{k+1} A x_k+u_k^{\top} B^{\top} P_{k+1} B u_k+2 x_k^{\top} A^{\top} P_{k+1} B u_k$

递推代价函数

代价函数的表达式为：（本次的代价+之后的所有代价）

$J_k=x_k^{\top} Q x_k+u_k^{\top} R u_k+J_{k+1}$

即：

$J_k=x_k^{\top} Q x_k+u_k^{\top} R u_k+x_k^{\top} A^{\top} P_{k+1} A x_k+u_k^{\top} B^{\top} P_{k+1} B u_k+2 x_k^{\top} A^{\top} P_{k+1} B u_k$

将所有与有关的项提取出来，得到：

$J_k=x_k^\top(Q+A^\top P_{k+1}A)x_k+u_k^\top(R+B^\top P_{k+1}B)u_k+2x_k^\top A^\top P_{k+1}Bu_k$

最优控制律

为了最小化代价函数，我们对求导并令其为零：

$\frac{\partial J_k}{\partial u_k}=2(R+B^\top P_{k+1}B)u_k+2B^\top P_{k+1}Ax_k=0$

解的最优控制律为：

$u_k=-\left(R+B^\top P_{k+1} B\right)^{-1}B^\top P_{k+1}A x_k$

即：

$u_k=-K_k x_k$

其中是反馈增益矩阵。

Riccati方程

将最优控制律代入代价函数中，得到的递推公式：

$P_k=Q+A^\top P_{k+1}A-A^\top P_{k+1}B(R+B^\top P_{k+1}B)^{-1}B^\top P_{k+1}A$

这就是离散时间黎卡笛方程。在求解LQR问题时，我们通过迭代该方程来找到最优矩阵，从而进一步得到最优控制律。

稳定状态下的解

当系统达到稳定状态时，矩阵收敛到一个稳定值，此时黎卡笛方程变成：

$P=Q+A^\top PA-A^\top PB(R+B^\top PB)^{-1}B^\top PA$

通过求解这个方程，我们可以得到举证，进而得到最优控制律：