第十四讲:联合分布,联合密度函数,条件密度函数,换元
条件分布与条件密度(Conditional Distribution)
我们接下来讨论条件概率。我们在之前介绍概率空间的时候已经定义过条件概率了。给定两个事件 \(A,B\in\@F\),如果 \(\Pr{B}\ne 0\),那么我们定义条件概率 \[
\Pr{A\mid B} = \frac{\Pr{A\cap B}}{\Pr{B}}.
\] 这个定义可以自然的给出离散的随机变量的条件期望的定义。假设 \(X\) 是一个离散的随机变量,那么,对于任何可测集 \(A\) 和 \(x\),如果 \(\Pr{X=x}>0\),那么,我们可以无缝使用上面的定义得到 \[
\Pr{Y\in A\mid X=x} = \frac{\Pr{Y\in A\land X=x}}{\Pr{X=x}}.
\] 如果 \(\Pr{X=x}=0\),这个时候 \(\Pr{Y\in A\mid X=x}\) 是无定义的。我们可以同时自然的定义出
条件分布函数 \(F_{Y|X}(y|x) \defeq \Pr{Y\le y\mid X=x}\);以及得到对应的
条件质量函数 \(p_{Y|X}(y|x)=
\begin{cases}
\frac{p_{YX}(y,x)}{p_X(x)}, & \mbox{ if } p_X(x)>0;\\
0,& \mbox{otherwise.}
\end{cases}\)
我们可以同时给出条件期望的定义。如果 \(Y\) 可积并且 \(\Pr{X=x}>0\),那么定义 \[
\E{Y\mid X=x} \defeq \frac{\E{Y\cdot\bb I_{X=x}}}{\Pr{X=x}}.
\]
上面这些定义都是非常自然,而且我们之前在作业里也多次显式或者隐式的使用过了。但是,当 \(X\) 不是离散随机变量的时候,这样的定义就会出现一些问题。比如说,假设 \(X\) 和 \(Y\) 是独立的从 \([0,1]\) 中均匀得到的两个数,那么直观上,我们应该有 \(\Pr{Y\le \frac{1}{2}\mid X=\frac{1}{3}} = \frac{1}{2}\)。但由于 \(\Pr{X=\frac{1}{3}}=0\),我们上述给出的条件概率定义是一个形如 \(\frac{0}{0}\) 的没有意义的数。因此,我们需要对条件概率有新的定义。实际上,在概率论里面,条件概率是条件期望的特殊情况,而最一般的条件期望的定义,我们现在还没有准备好。大约在这门课的最后,我们会给出定义。今天,我们先讨论一个特殊情况,即在 \(X\) 和 \(Y\) 有连续的联合密度函数 \(f_{XY}\) 的时候,定义条件期望与条件概率。
我们刚才说了,由于 \(\Pr{X=x}=0\),我们从近似的角度来考虑这个问题。根据微积分基本定理,对于一个很小的 \(h>0\),我们有 \[
\begin{align*}
\Pr{Y\le y\mid X\in [x,x+h]} &= \frac{\int_{-\infty}^y\int_{x}^{x+h}f_{XY}(u,v)\d u\d v}{\int_{x}^{x+h} f_X(u)\d u}\\
&=\frac{\int_{-\infty}^y h\cdot f_{XY}(x,v) + o(h) \d v}{(h+o(h))f_X(x)}\\
&=\frac{\int_{-\infty}^y f_{XY}(x,v)\d v + h^{-1}\int_{-\infty}^y o(h) \d v}{f_X(x)+ o(1)}\\
\end{align*}
\] 如果我们假设 \(f_{XY}\) 有一定的正则性使得 \(\lim_{h\to 0}h^{-1}\int_{-\infty}^y o(h) \d v = \int_{-\infty}^y \lim_{h\to 0} h^{-1} o(h) = 0\)。则我们可以对于可测的 \(A\),定义 \(\Pr{Y\in A\mid X=x}\defeq \lim_{h\to 0} \Pr{Y\in A\mid X\in [x,x+h]}\)。
更一般的( \(f_{XY}\) 不一定连续),我们可以自然的定义条件分布函数 \[
F_{Y|X}(y|x) \defeq
\begin{cases}
\int_{-\infty}^y \frac{f_{XY}(x,v)}{f_X(x)}\d v, & \mbox{ if }f_X(x)>0,\\
0, &\mbox{ if }f_X(x)=0.
\end{cases}
\] 其对应的条件密度函数为 \[
f_{Y|X}(y|x) =
\begin{cases}
\frac{f_{XY}(x,y)}{f_X(x)}, & \mbox{ if }f_X(x)>0,\\
0, &\mbox{ if }f_X(x)=0.
\end{cases}
\] 我们也定义条件期望 \[
\E{Y\mid X=x} \defeq \int_{-\infty}^{\infty} y f_{Y|X}(y|x)\d y.
\] 条件期望是一个非常重要的概念,我们在未来会专门讨论条件期望的性质并给出对应的应用,今天,我们暂时了解这个定义即可。
我们接着验证一下,所谓全概率公式,对于具有连续联合密度的随机变量也成立。
Proposition 1 (全概率公式) \[
\Pr{Y\in A} = \int_{-\infty}^\infty \int_A f_{Y|X}(y|x)f_X(x)\d y \d x.
\]
我们仅需要把定义代进去,并使用 Fubini-Tonelli 交换积分顺序即可证明。注意到 \[
\begin{align*}
\int_{-\infty}^\infty \int_A f_{Y|X}(y|x)f_X(x)\d y \d x
&= \int_{-\infty}^{\infty} \int_A \frac{f_{XY}(x,y)}{f_X(x)}\cdot f_X(x)\d y\d x\\
&=\int_{-\infty}^{\infty}\int_A f_{XY}(x,y)\d y \d x\\
&=\int_A f_Y(y) \d y\\
&=\Pr{Y\in A}.
\end{align*}
\]
使用类似的证明,我们可以更一般的得到,对于 \(A,B\in\@F\), \[
\Pr{Y\in A\land X\in B} = \int_{B} \int_A f_{Y|X}(y|x)f_X(x)\d y\d x.
\]
积分的换元
我们现在考虑一个在计算中经常会遇到的问题,假设我们知道随机变量 \(X\) 和 \(Y\) 的联合密度函数 \(f_{XY}\),那么对于新的随机变量 \((U,V) = g(X,Y) = (g_1(X,Y),g_2(X,Y))\),它们的联合密度函数 \(f_{UV}\) 是什么?这里 \(g_1,g_2:\bb R^2\to \bb R\) 是两个可测函数,并且我们假设它们是可微的。
对于一个可积的测试函数 \(\phi\colon \bb R^2\to\bb R\),我们考虑用两种方法来计算 \(\E{\phi(U,V)}\)。首先是通过 \(U,V\) 的联合密度函数 \(f_{UV}\): \[
\E{\phi(U,V)} = \int_{-\infty}^\infty \int_{-\infty}^\infty \phi(u,v) f_{UV}(u,v)\d u\d v.
\] 接着是通过 \(X,Y\) 的联合密度函数 \(f_{XY}\): \[
\E{\phi(U,V)} = \E{\phi(g(X,Y))} = \int_{-\infty}^\infty \int_{-\infty}^\infty \phi(g(X,Y)) f_{XY}(x,y)\d x\d y.
\] 我们再把上面第一个式子使用换元公式得到 \[
\int_{-\infty}^\infty \int_{-\infty}^\infty \phi(u,v) f_{UV}(u,v)\d u\d v = \int_{-\infty}^\infty \int_{-\infty}^\infty \phi(g(x,y)) f_{UV}(g(x,y))\abs{\det J_g(x,y)}\d x\d y,
\] 其中 \(J_g(x,y)\) 是 \(g\) 在 \((x,y)\) 处的雅可比矩阵 \[
J_g(x,y) = \begin{pmatrix}
\pdv{g_1}{x} & \pdv{g_1}{y}\\
\pdv{g_2}{x} & \pdv{g_2}{y}
\end{pmatrix}.
\] 所以,我们可以得到如下命题:
Proposition 2 \[
f_{XY}(x,y) = f_{UV}(g(x,y))\abs{\det J_g(x,y)}.
\]
极坐标的例子
我们考虑下面的例子,假设 \(X\) 和 \(Y\) 是两个独立的标准正态分布随机变量,那么它们的联合密度函数为 \(f_{XY}(x,y) = \frac{1}{2\pi}e^{-\frac{x^2+y^2}{2}}\)。我们可以把 \((X,Y)\) 看成 \(\bb R^2\) 上的随机的点。我们考虑这些点的极坐标 \((R,\Theta)\),其中 \(R=\sqrt{X^2+Y^2}\),\(\Theta = \arctan \frac{Y}{X}\)。我们想知道 \((R,\Theta)\) 的联合密度函数是什么。
我们首先知道,\(X=R\cos \Theta\),\(Y=R\sin \Theta\)。这个变换的雅可比矩阵的行列式是 \(r\)。因此,根据 Proposition 2,我们有 \[
f_{R\Theta}(r,\theta) = f_{XY}(r\cos\theta,r\sin\theta)\cdot r = \frac{r}{2\pi}e^{-\frac{r^2}{2}}.
\]
大家会发现这个式子是与 \(\theta\) 无关的,这说明关于 \(\theta\) 的边缘分布是均匀分布。这件事情的一个推论是,如果我们希望从二维的单位圆上均匀的取出一个点来,我们只需独立的取两个标准高斯变量 \((X,Y)\),然后把它归一化成长度为 \(1\) 的向量 \((\frac{X}{\sqrt{X^2+Y^2}},\frac{Y}{\sqrt{X^2+Y^2}})\) 即可。这件事情对于高维也是成立的,对于算法设计很有意义。
随机变量的和
假设知道 \(X\) 和 \(Y\) 的联合概率密度 \(f_{XY}\),我们来考虑两个随机变量的和 \(Z=X+Y\) 的概率密度。我们首先引入一个辅助变量 \(W=Y\),于是对于 \(g_1(Z,W)=Z-W\), \(g_2(Z,W)=W\),我们有 \((X,Y) = g(Z,W)\)。显然 \[
\abs{\det J_g(z,w)}=
\begin{vmatrix}
1, & -1\\
0, & 1
\end{vmatrix} = 1.
\] 所以根据 Proposition 2,我们有 \[
f_{ZW}(z,w) = f_{XY}(z-w,w).
\] 我们可以计算出 \(Z\) 的边缘密度函数为 \[
\begin{align*}
f_Z(z)
&= \int_{-\infty}^\infty f_{ZW}(z,w)\d w\\
&= \int_{-\infty}^\infty f_{XY}(z-w,w)\d w\\
&=\int_{-\infty}^\infty f_Y(w)\cdot f_{X|Y}(z-w\,|\, w)\d w.
\end{align*}
\] 特别的,如果 \(X\) 和 \(Y\) 独立,那么 \[
f_Z(z) = \int_{-\infty}^\infty f_X(z-w)f_Y(w)\d w.
\]