第二十三讲：微分方程和 $e^{A t}$

微分方程 $\frac{d u}{d t} = A u$

本讲主要讲解解一阶方程（first-order system）一阶倒数（first derivative）常系数（constant coefficient）线性方程，上一讲介绍了如何计算矩阵的幂，本讲将进一步涉及矩阵的指数形式。我们通过解一个例子来详细介绍计算方法。

有方程组 ${\begin{cases} \frac{d u_{1}}{d t} & = - u_{1} + 2 u_{2} \\ \frac{d u_{2}}{d t} & = u_{1} - 2 u_{2} \end{cases}$ ，则系数矩阵是 $A = [\begin{matrix} - 1 & 2 \\ 1 & - 2 \end{matrix}]$ ，设初始条件为在 $0$ 时刻 $u (0) = [\begin{matrix} u_{1} \\ u_{2} \end{matrix}] = [\begin{matrix} 1 \\ 0 \end{matrix}]$ 。

这个初始条件的意义可以看做在开始时一切都在 $u_{1}$ 中，但随着时间的推移，将有 $\frac{d u_{2}}{d t} > 0$ ，因为 $u_{1}$ 项初始为正， $u_{1}$ 中的事物会流向 $u_{2}$ 。随着时间的发展我们可以追踪流动的变化。
根据上一讲所学的知识，我们知道第一步需要找到特征值与特征向量。 $A = [\begin{matrix} - 1 & 2 \\ 1 & - 2 \end{matrix}]$ ，很明显这是一个奇异矩阵，所以第一个特征值是 $λ_{1} = 0$ ，另一个特征向量可以从迹得到 $t r (A) = - 3$ 。当然我们也可以用一般方法计算 $| A - λ I | = | \begin{matrix} - 1 - λ & 2 \\ 1 & - 2 - λ \end{matrix} | = λ^{2} + 3 λ = 0$ 。
（教授提前剧透，特征值 $λ_{2} = - 3$ 将会逐渐消失，因为答案中将会有一项为 $e^{- 3 t}$ ，该项会随着时间的推移趋近于 $0$ 。答案的另一部分将有一项为 $e^{0 t}$ ，该项是一个常数，其值为 $1$ ，并不随时间而改变。通常含有 $0$ 特征值的矩阵会随着时间的推移达到稳态。）
求特征向量， $λ_{1} = 0$ 时，即求 $A$ 的零空间，很明显 $x_{1} = [\begin{matrix} 2 \\ 1 \end{matrix}]$ ； $λ_{2} = - 3$ 时，求 $A + 3 I$ 的零空间， $[\begin{matrix} 2 & 2 \\ 1 & 1 \end{matrix}]$ 的零空间为 $x_{2} = [\begin{matrix} 1 \\ - 1 \end{matrix}]$ 。
则方程组的通解为： $u (t) = c_{1} e^{λ_{1} t} x_{1} + c_{2} e^{λ_{2} t} x_{2}$ ，通解的前后两部分都是该方程组的纯解，即方程组的通解就是两个与特征值、特征向量相关的纯解的线性组合。我们来验证一下，比如取 $u = e^{λ_{1} t} x_{1}$ 带入 $\frac{d u}{d t} = A u$ ，对时间求导得到 $λ_{1} e^{λ_{1} t} x_{1} = A e^{λ_{1} t} x_{1}$ ，化简得 $λ_{1} x_{1} = A x_{1}$ 。
对比上一讲，解 $u_{k + 1} = A u_{k}$ 时得到 $u_{k} = c_{1} λ^{k} x_{1} + c_{2} λ^{k} x_{2}$ ，而解 $\frac{d u}{d t} = A u$ 我们得到 $u (t) = c_{1} e^{λ_{1} t} x_{1} + c_{2} e^{λ_{2} t} x_{2}$ 。
继续求 $c_{1}, c_{2}$ ， $u (t) = c_{1} \cdot 1 \cdot [\begin{matrix} 2 \\ 1 \end{matrix}] + c_{2} \cdot e^{- 3 t} \cdot [\begin{matrix} 1 \\ - 1 \end{matrix}]$ ，已知 $t = 0$ 时， $[\begin{matrix} 1 \\ 0 \end{matrix}] = c_{1} [\begin{matrix} 2 \\ 1 \end{matrix}] + c_{2} [\begin{matrix} 1 \\ - 1 \end{matrix}]$ （ $S c = u (0)$ ），所以 $c_{1} = \frac{1}{3}, c_{2} = \frac{1}{3}$ 。
于是我们写出最终结果， $u (t) = \frac{1}{3} [\begin{matrix} 2 \\ 1 \end{matrix}] + \frac{1}{3} e^{- 3 t} [\begin{matrix} 1 \\ - 1 \end{matrix}]$ 。

稳定性：这个流动过程从 $u (0) = [\begin{matrix} 1 \\ 0 \end{matrix}]$ 开始，初始值 $1$ 的一部分流入初始值 $0$ 中，经过无限的时间最终达到稳态 $u (\infty) = [\begin{matrix} \frac{2}{3} \\ \frac{1}{3} \end{matrix}]$ 。所以，要使得 $u (t) \to 0$ ，则需要负的特征值。但如果特征值为复数呢？如 $λ = - 3 + 6 i$ ，我们来计算 $| e^{(- 3 + 6 i) t} |$ ，其中的 $| e^{6 i t} |$ 部分为 $| \cos 6 t + i \sin 6 t | = 1$ ，因为这部分的模为 $\cos^{2} α + \sin^{2} α = 1$ ，这个虚部就在单位圆上转悠。所以只有实数部分才是重要的。所以我们可以把前面的结论改为需要实部为负数的特征值。实部会决定最终结果趋近于 $0$ 或 $\infty$ ，虚部不过是一些小杂音。

收敛态：需要其中一个特征值实部为 $0$ ，而其他特征值的实部皆小于 $0$ 。

发散态：如果某个特征值实部大于 $0$ 。上面的例子中，如果将 $A$ 变为 $- A$ ，特征值也会变号，结果发散。

再进一步，我们想知道如何从直接判断任意二阶矩阵的特征值是否均小于零。对于二阶矩阵 $A = [\begin{matrix} a & b \\ c & d \end{matrix}]$ ，矩阵的迹为 $a + d = λ_{1} + λ_{2}$ ，如果矩阵稳定，则迹应为负数。但是这个条件还不够，有反例迹小于 $0$ 依然发散： $[\begin{matrix} - 2 & 0 \\ 0 & 1 \end{matrix}]$ ，迹为 $- 1$ 但是仍然发散。还需要加上一个条件，因为 $det A = λ_{1} \cdot λ_{2}$ ，所以还需要行列式为正数。

总结：原方程组有两个相互耦合的未知函数， $u_{1}, u_{2}$ 相互耦合，而特征值和特征向量的作则就是解耦，也就是对角化（diagonalize）。回到原方程组 $\frac{d u}{d t} = A u$ ，将 $u$ 表示为特征向量的线性组合 $u = S v$ ，代入原方程有 $S \frac{d v}{d t} = A S v$ ，两边同乘以 $S^{- 1}$ 得 $\frac{d v}{d t} = S^{- 1} A S v = Λ v$ 。以特征向量为基，将 $u$ 表示为 $S v$ ，得到关于 $v$ 的对角化方程组，新方程组不存在耦合，此时 ${\begin{cases} \frac{d v_{1}}{d t} & = λ_{1} v_{1} \\ \frac{d v_{2}}{d t} & = λ_{2} v_{2} \\ ⋮ & ⋮ \\ \frac{d v_{n}}{d t} & = λ_{n} v_{n} \end{cases}$ ，这是一个各未知函数间没有联系的方程组，它们的解的一般形式为 $v (t) = e^{Λ t} v (0)$ ，则原方程组的解的一般形式为 $u (t) = e^{A t} u (0) = S e^{Λ t} S^{- 1} u (0)$ 。这里引入了指数部分为矩阵的形式。

指数矩阵 $e^{A t}$

在上面的结论中，我们见到了 $e^{A t}$ 。这种指数部分带有矩阵的情况称为指数矩阵（exponential matrix）。

理解指数矩阵的关键在于，将指数形式展开称为幂基数形式，就像 $e^{x} = 1 + \frac{x^{2}}{2} + \frac{x^{3}}{6} + \dots$ 一样，将 $e^{A t}$ 展开成幂级数的形式为：

e^{A t} = I + A t + \frac{(A t)^{2}}{2} + \frac{(A t)^{3}}{6} + \dots + \frac{(A t)^{n}}{n!} + \dots

再说些题外话，有两个极具美感的泰勒级数： $e^{x} = \sum \frac{x^{n}}{n!}$ 与 $\frac{1}{1 - x} = \sum x^{n}$ ，如果把第二个泰勒级数写成指数矩阵形式，有 $(I - A t)^{- 1} = I + A t + (A t)^{2} + (A t)^{3} + \dots$ ，这个式子在 $t$ 非常小的时候，后面的高次项近似等于零，所以可以用来近似 $I - A t$ 的逆矩阵，通常近似为 $I + A t$ ，当然也可以再加几项。第一个级数对我们而言比第二个级数好，因为第一个级数总会收敛于某个值，所以 $e^{x}$ 总会有意义，而第二个级数需要 $A$ 特征值的绝对值小于 $1$ （因为涉及矩阵的幂运算）。我们看到这些泰勒级数的公式对矩阵同样适用。

回到正题，我们需要证明 $S e^{Λ t} S^{- 1} = e^{A t}$ ，继续使用泰勒级数：

e^{A t} = I + A t + \frac{(A t)^{2}}{2} + \frac{(A t)^{3}}{6} + \dots + \frac{(A t)^{n}}{n!} + \dots e^{A t} = S S^{- 1} + S Λ S^{- 1} t + \frac{S Λ^{2} S^{- 1}}{2} t^{2} + \frac{S Λ^{3} S^{- 1}}{6} t^{3} + \dots + \frac{S Λ^{n} S^{- 1}}{n!} t^{n} + \dots e^{A t} = S (I + Λ t + \frac{Λ^{2} t^{2}}{2} + \frac{Λ^{3} t^{3}}{3} + \dots + \frac{Λ^{n} t^{n}}{n} + \dots) S^{- 1} e^{A t} = S e^{Λ t} S^{- 1}

需要注意的是， $e^{A t}$ 的泰勒级数展开是恒成立的，但我们推出的版本却需要矩阵可对角化这个前提条件。

最后，我们来看看什么是 $e^{Λ t}$ ，我们将 $e^{A t}$ 变为对角矩阵就是因为对角矩阵简单、没有耦合， $e^{Λ t} = [\begin{matrix} e^{λ_{1} t} & 0 & \dots & 0 \\ 0 & e^{λ_{2} t} & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & e^{λ_{n} t} \end{matrix}]$ 。

有了 $u (t) = S e^{Λ t} S^{- 1} u (0)$ ，再来看矩阵的稳定性可知，所有特征值的实部均为负数时矩阵收敛，此时对角线上的指数收敛为 $0$ 。如果我们画出复平面，则要使微分方程存在稳定解，则特征值存在于复平面的左侧（即实部为负）；要使矩阵的幂收敛于 $0$ ，则特征值存在于单位圆内部（即模小于 $1$ ），这是幂稳定区域。（上一讲的差分方程需要计算矩阵的幂。）

同差分方程一样，我们来看二阶情况如何计算，有 $y^{″} + b y^{'} + k = 0$ 。我们也模仿差分方程的情形，构造方程组 ${\begin{cases} y^{″} & = - b y^{'} - k y \\ y^{'} & = y^{'} \end{cases}$ ，写成矩阵形式有 $[\begin{matrix} y^{″} \\ y^{'} \end{matrix}] = [\begin{matrix} - b & - k \\ 1 & 0 \end{matrix}] [\begin{matrix} y^{'} \\ y \end{matrix}]$ ，令 $u^{'} = [\begin{matrix} y^{″} \\ y^{'} \end{matrix}], u = [\begin{matrix} y^{'} \\ y \end{matrix}]$ 。

继续推广，对于 $5$ 阶微分方程 $y^{'''''} + b y^{⁗} + c y^{‴} + d y^{″} + e y^{'} + f = 0$ ，则可以写作 $[\begin{matrix} y^{'''''} \\ y^{⁗} \\ y^{‴} \\ y^{″} \\ y^{'} \end{matrix}] = [\begin{matrix} - b & - c & - d & - e & - f \\ 1 & 0 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 & 0 \\ 0 & 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 1 & 0 \end{matrix}] [\begin{matrix} y^{⁗} \\ y^{‴} \\ y^{″} \\ y^{'} \\ y \end{matrix}]$ ，这样我们就把一个五阶微分方程化为 $5 \times 5$ 一阶方程组了，然后就是求特征值、特征向量了步骤了。

第二十三讲：微分方程和eAt ​

微分方程dudt=Au ​

指数矩阵eAt ​

第二十三讲：微分方程和 $e^{A t}$

微分方程 $\frac{d u}{d t} = A u$

指数矩阵 $e^{A t}$