31. 映射的微分

admin 6926 2025-10-25 06:43:56

给定函数 f:Ω→R, 我们上次课定义它的微分 df(x). 当 x 给定的时候, 这是一个 Rn 上的线性函数. 仿照一维的理论, 对一阶导数求导就应该得到二阶导数. 然而, 此时为了定义 f 的二阶导数, 我们就需要对 x↦df(x) 求微分. 此时, (不严格地讲) 映射 f:x↦df(x) 是一个从 Ω 到 Hom(Rn,R)≃Rn 的映射, 这是向量值的函数. 所以, 我们自然地想到对向量值的函数 f:Ω→Rm 定义微分. 当然, 我们还可以考虑 df(x) 的每个分量 (依赖于坐标系的选取) 然后要求每个分量都可微, 至少从形式上看, 后一种做法失于简洁和美观.

定义 31.1 (微分). 假设 Ω 是 Rn 中的区域, Ω′ 是 Rm 中的区域, 给定映射 f:Ω→Ω′. 如果存在线性映射df∣∣​x=x0​​=df(x0​):Rn→Rm,使得对于 Rn 中的 v→0 时, 我们有f(x0​+v)=f(x0​)+df(x0​)v+o(v),即v→0lim​∣v∣∣f(x0​+v)−f(x0​)−df(x0​)v∣​=0,我们就称 f 在 x0​ 处可微并且称线性映射 df(x0​) 是 f 在 x0​ 的微分. 如果 f 在 Ω 的每个点处都可微, 我们就称 f 是 Ω 上面的可微映射.

注记.

1.

在上述微分的定义中, 我们完全没有用到 Rn 和 Rm 上的坐标系. 实际上, 在下面的极限中v→0lim​∣v∣∣f(用到 Rn 上的加法结构x0​+v​​)−f(x0​)−df(x0​)v​用到 Rm 上的加法结构​∣​=0,我们只用到了 Rn 和 Rm 上的线性结构和它们上面的范数 (我们分别用了蓝色和红色表示, 其中红色的是定义域 Rn 上的范数, 蓝色的是值域 Rm 上的范数) .

据此, 我们可以将上述定义进行推广: 给定赋范线性空间 (V1​,∥⋅∥1​) 和 (V2​,∥⋅∥2​), Ω1​⊂V1​ 和 Ω2​⊂V2​ 是非空的开集, f:Ω1​→Ω2​ 是映射. 如果存在线性映射df∣∣​x=x0​​=df(x0​):V1​→V2​,使得对于 V1​ 中的 v→0 时, 我们有v→0lim​∥v∥1​∥f(x0​+v)−f(x0​)−df(x0​)v∥2​​=0,我们就称 f 在 x0​ 处可微并且称线性映射 df(x0​) 是 f 在 x0​ 的微分.

2.

假设 f 在 Ω 上可微. 那么, 给定 x∈Ω, df(x)∈Hom(Rn,Rm)≈Rmn (可以视作是 m×n 的矩阵, 这里我们用坐标比较方便) 也在一个向量空间中取值的. (然而, 如果在一般的 (无限维的) 的赋范线性空间上定义微分, 我们会要求 df(x)∈Hom(V,W) 是所谓的连续线性映射, 这里不展开讨论, 有兴趣的同学可以在泛函分析的课程上学习) . 所以, 当 x 变化的时候, 我们就得到一个映射Ω→Rnm, x↦df(x).我们可以对它求导数来定义它的微分. 高阶的微分不是这门课程的重点.

3.

假设 f 在 x0​∈Ω 处可微分, 我们就有映射df(x0​):Rn→Rm.由于这些映射依赖于点, 特别地, 依赖于 x0​∈Ω (和 f(x0​)∈Ω′) , 我们用 Tx0​​Ω 代表它的定义域的线性空间 Rn, 用 Tf(x0​)​Ω′ 代表它的值域的线性空间 Rm, 这样子, 我们形式上就有df(x0​):Tx0​​Ω→Tf(x0​)​Ω′.符号 Tx0​​Ω 代表的是 Ω 在 x0​ 处的切空间 (=切平面) , Tf(x0​)​Ω′ 代表的是 Ω′ 在 f(x0​) 处的切空间, 我们会有专门的例子来理解这个对象, 目前大家可以暂时将它们理解为好的记号.

我们上次课定义了方向导数和偏导数, 这都是一维的对象. 下面的命题表明, 我们可以用偏导数这些一维的对象来描述 df(x0​) 这个高维的对象:

命题 31.2 (微分的计算). 假设 V=Rn 和 W=Rm, 我们在 V 上用坐标系 {xi​}i=1,⋯,n​, 在 W 上用坐标系 {yj​}j=1,⋯,m​ (把空间写成 V 和 W 是强调这些空间可以不用具体的坐标来描述) . 考虑 f:V→W (我们也可以考虑 f 定义在 V 中某个区域上) , 用坐标来写, 我们有: x↦f(x)=(f1​(x1​,⋯,xn​),f2​(x1​,⋯,xn​),⋯,fm​(x1​,⋯,xn​)).有时候还写成y1​=f1​(x1​,⋯,xn​), y2​=f2​(x1​,⋯,xn​),⋯,ym​=fm​(x1​,⋯,xn​).那么, 我们有

1.

假设 f 在 x0​ 处可微, 那么每个分量函数 fj​ 在 x0​ 处都可微, 其中 j=1,2,⋯,m.

2.

如果每个分量函数 fj​ 在 x0​ 处都可微 (其中 j=1,2,⋯,m) , 那么 f 在 x0​ 处可微.

特别地, 如果 f 在 x0​ 处可微, 那么映射 df(x0​):Rn→Rm 可以用 m×n 的矩阵(∂xi​∂fj​​(x0​))j=1,⋯,mi=1,⋯,n​​来表示 (我们将这个矩阵称作是 f 在 x 处的 Jacobi 矩阵, 并记作 Jac(f) 或者 J(f), 它只是微分在一个特殊的坐标系下的表达) .

证明. 我们首先证明, f 在 x0​ 可微等价于每个分量 fj​ (j=1,⋯,m) 都可微. 假设 f 在 x0​ 处可微, 此时 df:Rn→Rm 有定义并且是线性映射. 由于我们在 Rn 上选定了基 {∂xi​∂​}i⩽n​, 在 Rm 上选定了基 {∂yj​∂​}j⩽m​, 我们可以把这个线性映射用矩阵 (Jji​)j⩽mi⩽n,​​ 来表示.

首先, 用分量表达, 我们有∣v∣∣f(x0​+v)−f(x0​)−df(x0​)v∣​​=∣v∣∣∣​(⋯,fj​(x0​+v)−fj​(x0​),⋯)−(⋯,∑i=1n​Jji​vi​,⋯)∣∣​​=∣v∣j=1∑m​∣∣​fj​(x0​+v)−fj​(x0​)−i=1∑n​Jji​vi​∣∣​2​​.​

由于当 v→0 时, 上述左边为 o(1), 所以, 限制到每个分量, 我们就有o(1)⩾∣v∣∣∣​fj​(x0​+v)−fj​(x0​)−i=1∑n​Jji​vi​∣∣​​.按定义, 这表明 fj​ 是可微分的 (因为我们用线性映射在 x0​ 附近逼近了 fj​) . 反过来, 假设对每个 j⩽m, 我们都有∣v∣∣∣​fj​(x0​+v)−fj​(x0​)−i=1∑n​Jji​vi​∣∣​​=o(1),那么, ∣v∣∣f(x0​+v)−f(x0​)−df(x0​)v∣​​=∣v∣j=1∑m​∣∣​fj​(x0​+v)−fj​(x0​)−i=1∑n​Jji​vi​∣∣​2​​⩽j=1∑m​∣v∣∣∣​fj​(x0​+v)−fj​(x0​)−i=1∑n​Jji​vi​∣∣​​=m×o(1)=o(1),​

所以 df(x0​) 存在.

我们令 v=t∂xi0​​∂​, 即 vi0​​=t 而其它分量 =0. 此时, 根据微分的定义, 上面的式子的左边是 o(1) 项 (t→0) . 计算右边, 我们得到o(1)=tj=1∑m​∣∣​fj​(x0​+(0,⋯,0,t,0⋯,0)​只有第i0​个位置非0​)−fj​(x0​)−Jji0​​t∣∣​2​​.对于一个特定的指标 j0​, 我们自然有⩾​j=1∑m​∣∣​fj​(x0​+(0,⋯,0,t,0⋯,0))−fj​(x0​)−Jji0​​t∣∣​2​∣∣​fj0​​(x0​+(0,⋯,0,t,0⋯,0))−fj0​​(x0​)−Jj0​i0​​t∣∣​.​所以, o(1)=t∣∣​fj0​​(x0​+(0,⋯,0,t,0⋯,0))−fj0​​(x0​)−Jj0​i0​​t∣∣​​.按照定义, 这表明 fj0​​ 的沿着 xi0​​ 偏导数存在并且等于 Jj0​i0​​, 这表明Jji​=∂xi​∂fj​​(x0​).命题得证.□

注记. 上述命题表明, 映射可求微分等价于其分量可求微分, 所以, 我们可以通过继续对分量求微分来引入 k-次可导的概念 (就是每次求完微分之后这个微分的每个分量都能再求微分) . 所以, 我们可以定义 Ck(Ω,Rm), 这是 k 次微分仍然连续的映射的空间. 根据上次课程用偏导数判定微分存在性的定理, 我们知道只要 f 的连续 k 次偏导数 (可能是沿着不同方向的) 存在并且连续, 那么映射就是 Ck 的. 这是一个非常方便有效的判断方式.

我们现在研究符合映射的微分, 也就是所谓的链式法则.

命题 31.3 (链式法则). 假设 Ωj​⊂Rmj​ 是开集, 其中 j=1,2,3, f:Ω1​→Ω2​, g:Ω2​→Ω3​ 是映射. 假设 f 在点 x1​∈Ω1​ 处可微, g 在点 x2​=f(x1​)∈Ω2​ 处可微, 那么复合映射 g∘f 在 x1​ 处可微, 并且(d(g∘f))(x1​)=(dg)(f(x1​))∘df(x1​).

注记. 上述映射的复合可以用下面的交换图来表示: 那么, 它们所对应的微分 (在线性的层次上) 也可以用类似的交换图来表示: 我们之前引入的符号更好的描述了这个场景: 对于映射 df(x1​):Rm1​→Rm2​, 我们将 x1​ 所对应的 Rm1​ 记作 Tx1​​Ω1​, 将 Rm2​ 记作是 Tf(x1​)​Ω2​, 那么, 我们有映射df∣∣​x=x1​​:Tx1​​Ω1​→Tf(x1​)​Ω2​.从而, 上面的交换图表可以写成

证明. 链式法则的推导与一维的情形如出一辙: 令 x2​=f(x1​)∈Ω2​, 按照定义有​f(x1​+h)=f(x1​)+df(x1​)h+δ(h),g(f(x1​)+ℓ)=g(f(x1​))+dg(x2​)ℓ+Δ(ℓ),​其中 h∈Rm1​, ℓ∈Rm2​, h→0lim​∣h∣∣δ(h)∣​=limℓ→0​∣ℓ∣∣Δ(ℓ)∣​=0. 据此, 我们有g(f(x1​+h))−g(f(x1​))​=g(f(x1​)+df(x1​)h+δ(h))−g(f(x1​))=dg(x2​)(df(x1​)h+δ(h))+Δ(df(x1​)h+δ(h))==dg(x2​)∘df(x1​)(h)dg(x2​)(df(x1​)h)​​+dg(x2​)(δ(h))+Δ(df(x1​)h+δ(h)).​所以, =⩽​hg(f(x1​+h))−g(f(x1​))−dg(x2​)∘df(x1​)(h)​hdg(x2​)(δ(h))​+hΔ(df(x1​)h+δ(h))​C∣∣​hδ(h)​∣∣​+o(1)∣∣​∣df(x1​)h+δ(h)∣Δ(df(x1​)h+δ(h))​∣∣​​​×⩽C1​∣∣​h∣df(x1​)h+δ(h)∣​∣∣​​​.​由此可见, 这是一个 o(1) 项, 按照微分的定义, d(g∘f)(x1​)=dg(x2​)∘df(x1​).这就完成了证明. □

作为推论, 我们可以计算反函数 (逆映射) 的微分:

推论 31.4. 给定区域 Ω1​⊂Rn1​ 和 Ω2​⊂Rn2​ 和可微映射 f:Ω1​→Ω2​. 假设 f 是双射并且其逆映射 f−1:Ω2​→Ω1​ 是可微的, 那么

n1​=n2​;

df(x) 是可逆的 (等价于 Jac(f)(x) 的行列式是非零的) .

此时, 对于任意的 y∈Ω2​, 我们有df−1(y)=(df∣∣​x=f−1(y)​)−1.

证明. 我们令 Ω3​=Ω1​, g=f−1, x1​=x, x2​=y, g∘f=Id, 其中Id:Ω1​→Ω1​, x↦x,是单位映射, 它的微分在每个点处都是单位映射 (线性) . 根据链式法则, 我们就有Id=dg(y)∘df(x).根据矩阵的秩的理论, 我们知道 n1​⩽n2​. 用 f−1 替换 f, 我们就得到 n2​⩽n1​. 这就证明了维数的部分. 上面的等式已经蕴含了逆映射的微分的计算. □

例子 (指数映射的微分). 上个学期我们对于 n×n 的矩阵定义了指数映射exp:Mn​(R)→Mn​(R), A↦eA=k=0∑∞​k!Ak​.我们现在计算它的微分 dexp. 固定 A∈Mn​(R), 我们要找到dexp(A):Mn​(R)→Mn​(R),其中, 我们把 Mn​(R) 视作是 Rn2. 对于任意较小的 V∈Mn​(R), 我们有eA+V−eV​=n=0∑∞​n!1​((A+V)n−An)​现在强行展开 (A+V)n−An (注意矩阵 A 和 V 的乘法未必交换) . 通过将 V 的二次项 (以及更高次数的项) 放到一起, 我们得到(A+V)n−An=k=0∑n−1​AkVAn−1−k+Qn​(V).二项式展开的一共不超过 2n 项, 所以 Qn​(V) 中至多有 2n 项. 我们上学期证明过 (无论你选取什么样的范数) , 存在常数 c (依赖于范数) , 使得对任意的 n×n 的矩阵 A 和 B, 我们都有∥A⋅B∥⩽c∥A∥∥B∥.上述 Qn​(V) 的一个通项形如 AAVVAA⋯AA, 这是一个由 n 个 A 和 V 排出来的长度为 n 的字符串, 其中至少有 2 个 V. 我们可以要求 ∥V∥⩽∥A∥, 因为最终我们会令 V→0 (除非 A=0, 此时 Qn​(V)=Vn, 下面的结论仍然成立) , 所以∥AAVVAA⋯AA∥⩽cn−1∥A∥∥A∥∥V∥∥V∥∥A∥∥A∥⋯∥A∥∥A∥.那么, 我们得到∥Qv​(V)∥⩽2n×(cn−1∥V∥2∥A∥n−2).从而, 我们有⩽​∥∥​exp(A+V)−exp(A)−n=0∑∞​n!1​(k=0∑n−1​AkVAn−1−k)∥∥​n=0∑∞​∥∥​n!1​Qn​(V)∥∥​⩽(n=0∑∞​n!(2c∥A∥)n​)c∥A∥2∥V∥2​=c∥A∥2e2c∥A∥​∥V∥2.​那么, 我们注意到右端的项是 o(∥V∥) 并且 n=0∑∞​n!1​(∑k=0n−1​AkVAn−1−k) 是收敛的. 所以, dexp(A)(V)=n=0∑∞​n!1​(k=0∑n−1​AkVAn−1−k)特别地, 如果 A 和 V 可交换, 那么 dexp(A)(V)=exp(A)V. 我们还有dexp(0)=Id.

有了链式法则, 我们可以讨论更换坐标系的问题. 这是个核心的话题, 我们在中学的时候就已经在使用这个概念, 比如说我们经常在极坐标和 Descartes 坐标系之间转换. 我们首先用映射的语言来描述极坐标: 令Ω1​=R2−{(x,0)∣∣​x⩾0}⊂R2, Ω2​=R>0​×(0,2π)={(r,ϑ)∣∣​r>0,ϑ∈(0,2π)}.

我们通常用的 x=rcosϑ 和 y=rsinϑ 可以用如下的映射来写: Φ:Ω2​→Ω1​, (r,ϑ)↦(rcosϑ,rsinϑ).由于在 Ω1​ 上我们给定了 (x,y) 作为坐标, 在 Ω2​ 上我们给定了 (r,ϑ) 作为坐标, 所以我们可以用 Jacobi 矩阵来表示上述映射的微分: dΦ=Jac(Φ)=(∂r∂x​∂r∂y​​∂ϑ∂x​∂ϑ∂y​​)=(cosϑsinϑ​−rsinϑrcosϑ​).这个线性映射自然是可逆的, 它的行列式是 r.

上一篇
下一篇
相关文章