ML_math

x,yRn,f(x,y)=xTy=ixiyix,y \in R^{n} , f(x,y)=x^{T}y=\sum_i x_iy_i

fxi=yi\frac{ \partial f }{\partial x_i} = y_i

fyi=xi\frac{ \partial f }{\partial y_i} = x_i

fx=y\frac{ \partial f }{\partial x} = y

fy=x\frac{ \partial f }{\partial y} = x

以下是修改后的内容,公式已用 $$ 包裹,适合在 .md 文件中显示:


在矩阵微积分中,分子布局(Numerator Layout)分母布局(Denominator Layout) 是两种常见的约定,用于定义向量或矩阵对向量或矩阵的导数。它们的区别主要体现在导数的维度和排列方式上。以下是详细的展开说明:


1. 分子布局(Numerator Layout)

分子布局的核心思想是:导数的行数与分子(被求导的量)的维度一致,列数与分母(求导的量)的维度一致

1.1 列向量对列向量求导

设 $ \mathbf{f} $ 是 $ m \times 1 $ 的列向量函数,$ \mathbf{x} $ 是 $ n \times 1 $ 的列向量。则导数 $ \frac{d\mathbf{f}}{d\mathbf{x}} $ 是一个 $ m \times n $ 的矩阵,其元素为:

dfdx=[f1x1f1x2f1xnf2x1f2x2f2xnfmx1fmx2fmxn]\frac{d\mathbf{f}}{d\mathbf{x}} = \begin{bmatrix} \frac{\partial f_1}{\partial x_1} & \frac{\partial f_1}{\partial x_2} & \cdots & \frac{\partial f_1}{\partial x_n} \\ \frac{\partial f_2}{\partial x_1} & \frac{\partial f_2}{\partial x_2} & \cdots & \frac{\partial f_2}{\partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f_m}{\partial x_1} & \frac{\partial f_m}{\partial x_2} & \cdots & \frac{\partial f_m}{\partial x_n} \end{bmatrix}

  • 维度:$ m \times n $
  • 示例:如果 $ \mathbf{f} = \mathbf{A} \mathbf{x} $,其中 $ \mathbf{A} $ 是 $ m \times n $ 的常数矩阵,则:

    dfdx=A\frac{d\mathbf{f}}{d\mathbf{x}} = \mathbf{A}


1.2 标量对列向量求导

设 $ f $ 是标量函数,$ \mathbf{x} $ 是 $ n \times 1 $ 的列向量。则导数 $ \frac{df}{d\mathbf{x}} $ 是一个 $ 1 \times n $ 的行向量:

dfdx=[fx1fx2fxn]\frac{df}{d\mathbf{x}} = \begin{bmatrix} \frac{\partial f}{\partial x_1} & \frac{\partial f}{\partial x_2} & \cdots & \frac{\partial f}{\partial x_n} \end{bmatrix}

  • 维度:$ 1 \times n $
  • 示例:如果 $ f = \mathbf{a}^\top \mathbf{x} $,其中 $ \mathbf{a} $ 是 $ n \times 1 $ 的常数向量,则:

    dfdx=a\frac{df}{d\mathbf{x}} = \mathbf{a}^\top


1.3 列向量对矩阵求导

设 $ \mathbf{f} $ 是 $ m \times 1 $ 的列向量函数,$ \mathbf{X} $ 是 $ p \times q $ 的矩阵。则导数 $ \frac{d\mathbf{f}}{d\mathbf{X}} $ 是一个 $ m \times (p \cdot q) $ 的矩阵,其元素为:

dfdX=[f1X11f1X12f1Xpqf2X11f2X12f2XpqfmX11fmX12fmXpq]\frac{d\mathbf{f}}{d\mathbf{X}} = \begin{bmatrix} \frac{\partial f_1}{\partial X_{11}} & \frac{\partial f_1}{\partial X_{12}} & \cdots & \frac{\partial f_1}{\partial X_{pq}} \\ \frac{\partial f_2}{\partial X_{11}} & \frac{\partial f_2}{\partial X_{12}} & \cdots & \frac{\partial f_2}{\partial X_{pq}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f_m}{\partial X_{11}} & \frac{\partial f_m}{\partial X_{12}} & \cdots & \frac{\partial f_m}{\partial X_{pq}} \end{bmatrix}

  • 维度:$ m \times (p \cdot q) $

2. 分母布局(Denominator Layout)

分母布局的核心思想是:导数的行数与分母(求导的量)的维度一致,列数与分子(被求导的量)的维度一致

2.1 列向量对列向量求导

设 $ \mathbf{f} $ 是 $ m \times 1 $ 的列向量函数,$ \mathbf{x} $ 是 $ n \times 1 $ 的列向量。则导数 $ \frac{d\mathbf{f}}{d\mathbf{x}} $ 是一个 $ n \times m $ 的矩阵,其元素为:

dfdx=[f1x1f2x1fmx1f1x2f2x2fmx2f1xnf2xnfmxn]\frac{d\mathbf{f}}{d\mathbf{x}} = \begin{bmatrix} \frac{\partial f_1}{\partial x_1} & \frac{\partial f_2}{\partial x_1} & \cdots & \frac{\partial f_m}{\partial x_1} \\ \frac{\partial f_1}{\partial x_2} & \frac{\partial f_2}{\partial x_2} & \cdots & \frac{\partial f_m}{\partial x_2} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f_1}{\partial x_n} & \frac{\partial f_2}{\partial x_n} & \cdots & \frac{\partial f_m}{\partial x_n} \end{bmatrix}

  • 维度:$ n \times m $
  • 示例:如果 $ \mathbf{f} = \mathbf{A} \mathbf{x} $,其中 $ \mathbf{A} $ 是 $ m \times n $ 的常数矩阵,则:

    dfdx=A\frac{d\mathbf{f}}{d\mathbf{x}} = \mathbf{A}^\top


2.2 标量对列向量求导

设 $ f $ 是标量函数,$ \mathbf{x} $ 是 $ n \times 1 $ 的列向量。则导数 $ \frac{df}{d\mathbf{x}} $ 是一个 $ n \times 1 $ 的列向量:

dfdx=[fx1fx2fxn]\frac{df}{d\mathbf{x}} = \begin{bmatrix} \frac{\partial f}{\partial x_1} \\ \frac{\partial f}{\partial x_2} \\ \vdots \\ \frac{\partial f}{\partial x_n} \end{bmatrix}

  • 维度:$ n \times 1 $
  • 示例:如果 $ f = \mathbf{a}^\top \mathbf{x} $,其中 $ \mathbf{a} $ 是 $ n \times 1 $ 的常数向量,则:

    dfdx=a\frac{df}{d\mathbf{x}} = \mathbf{a}


2.3 列向量对矩阵求导

设 $ \mathbf{f} $ 是 $ m \times 1 $ 的列向量函数,$ \mathbf{X} $ 是 $ p \times q $ 的矩阵。则导数 $ \frac{d\mathbf{f}}{d\mathbf{X}} $ 是一个 $ (p \cdot q) \times m $ 的矩阵,其元素为:

dfdX=[f1X11f2X11fmX11f1X12f2X12fmX12f1Xpqf2XpqfmXpq]\frac{d\mathbf{f}}{d\mathbf{X}} = \begin{bmatrix} \frac{\partial f_1}{\partial X_{11}} & \frac{\partial f_2}{\partial X_{11}} & \cdots & \frac{\partial f_m}{\partial X_{11}} \\ \frac{\partial f_1}{\partial X_{12}} & \frac{\partial f_2}{\partial X_{12}} & \cdots & \frac{\partial f_m}{\partial X_{12}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f_1}{\partial X_{pq}} & \frac{\partial f_2}{\partial X_{pq}} & \cdots & \frac{\partial f_m}{\partial X_{pq}} \end{bmatrix}

  • 维度:$ (p \cdot q) \times m $

总结

  • 分子布局:导数的行数与分子一致,列数与分母一致。
  • 分母布局:导数的行数与分母一致,列数与分子一致。
  • 两种布局的区别主要体现在导数的维度和排列方式上,选择哪种布局取决于具体应用场景和领域习惯。

现在所有公式都已用 $$ 包裹,可以直接复制到 .md 文件中使用。