第十四讲：联合分布，联合密度函数，条件密度函数，换元-女足u17世界杯-世界杯历史_2018世界杯亚洲区预选赛

第十四讲：联合分布，联合密度函数，条件密度函数，换元

2026-02-27 14:31:47

By admin

条件分布与条件密度（Conditional Distribution）

我们接下来讨论条件概率。我们在之前介绍概率空间的时候已经定义过条件概率了。给定两个事件 \(A,B\in\@F\)，如果 \(\Pr{B}\ne 0\)，那么我们定义条件概率 \[

\Pr{A\mid B} = \frac{\Pr{A\cap B}}{\Pr{B}}.

\] 这个定义可以自然的给出离散的随机变量的条件期望的定义。假设 \(X\) 是一个离散的随机变量，那么，对于任何可测集 \(A\) 和 \(x\)，如果 \(\Pr{X=x}>0\)，那么，我们可以无缝使用上面的定义得到 \[

\Pr{Y\in A\mid X=x} = \frac{\Pr{Y\in A\land X=x}}{\Pr{X=x}}.

\] 如果 \(\Pr{X=x}=0\)，这个时候 \(\Pr{Y\in A\mid X=x}\) 是无定义的。我们可以同时自然的定义出

条件分布函数 \(F_{Y|X}(y|x) \defeq \Pr{Y\le y\mid X=x}\)；以及得到对应的

条件质量函数 \(p_{Y|X}(y|x)=

\begin{cases}

\frac{p_{YX}(y,x)}{p_X(x)}, & \mbox{ if } p_X(x)>0;\\

0,& \mbox{otherwise.}

\end{cases}\)

我们可以同时给出条件期望的定义。如果 \(Y\) 可积并且 \(\Pr{X=x}>0\)，那么定义 \[

\E{Y\mid X=x} \defeq \frac{\E{Y\cdot\bb I_{X=x}}}{\Pr{X=x}}.

上面这些定义都是非常自然，而且我们之前在作业里也多次显式或者隐式的使用过了。但是，当 \(X\) 不是离散随机变量的时候，这样的定义就会出现一些问题。比如说，假设 \(X\) 和 \(Y\) 是独立的从 \([0,1]\) 中均匀得到的两个数，那么直观上，我们应该有 \(\Pr{Y\le \frac{1}{2}\mid X=\frac{1}{3}} = \frac{1}{2}\)。但由于 \(\Pr{X=\frac{1}{3}}=0\)，我们上述给出的条件概率定义是一个形如 \(\frac{0}{0}\) 的没有意义的数。因此，我们需要对条件概率有新的定义。实际上，在概率论里面，条件概率是条件期望的特殊情况，而最一般的条件期望的定义，我们现在还没有准备好。大约在这门课的最后，我们会给出定义。今天，我们先讨论一个特殊情况，即在 \(X\) 和 \(Y\) 有连续的联合密度函数 \(f_{XY}\) 的时候，定义条件期望与条件概率。

我们刚才说了，由于 \(\Pr{X=x}=0\)，我们从近似的角度来考虑这个问题。根据微积分基本定理，对于一个很小的 \(h>0\)，我们有 \[

\begin{align*}

\Pr{Y\le y\mid X\in [x,x+h]} &= \frac{\int_{-\infty}^y\int_{x}^{x+h}f_{XY}(u,v)\d u\d v}{\int_{x}^{x+h} f_X(u)\d u}\\

&=\frac{\int_{-\infty}^y h\cdot f_{XY}(x,v) + o(h) \d v}{(h+o(h))f_X(x)}\\

&=\frac{\int_{-\infty}^y f_{XY}(x,v)\d v + h^{-1}\int_{-\infty}^y o(h) \d v}{f_X(x)+ o(1)}\\

\end{align*}

\] 如果我们假设 \(f_{XY}\) 有一定的正则性使得 \(\lim_{h\to 0}h^{-1}\int_{-\infty}^y o(h) \d v = \int_{-\infty}^y \lim_{h\to 0} h^{-1} o(h) = 0\)。则我们可以对于可测的 \(A\)，定义 \(\Pr{Y\in A\mid X=x}\defeq \lim_{h\to 0} \Pr{Y\in A\mid X\in [x,x+h]}\)。

更一般的（ \(f_{XY}\) 不一定连续），我们可以自然的定义条件分布函数 \[

F_{Y|X}(y|x) \defeq

\begin{cases}

\int_{-\infty}^y \frac{f_{XY}(x,v)}{f_X(x)}\d v, & \mbox{ if }f_X(x)>0,\\

0, &\mbox{ if }f_X(x)=0.

\end{cases}

\] 其对应的条件密度函数为 \[

f_{Y|X}(y|x) =

\begin{cases}

\frac{f_{XY}(x,y)}{f_X(x)}, & \mbox{ if }f_X(x)>0,\\

0, &\mbox{ if }f_X(x)=0.

\end{cases}

\] 我们也定义条件期望 \[

\E{Y\mid X=x} \defeq \int_{-\infty}^{\infty} y f_{Y|X}(y|x)\d y.

\] 条件期望是一个非常重要的概念，我们在未来会专门讨论条件期望的性质并给出对应的应用，今天，我们暂时了解这个定义即可。

我们接着验证一下，所谓全概率公式，对于具有连续联合密度的随机变量也成立。

Proposition 1 (全概率公式) \[

\Pr{Y\in A} = \int_{-\infty}^\infty \int_A f_{Y|X}(y|x)f_X(x)\d y \d x.

我们仅需要把定义代进去，并使用 Fubini-Tonelli 交换积分顺序即可证明。注意到 \[

\begin{align*}

\int_{-\infty}^\infty \int_A f_{Y|X}(y|x)f_X(x)\d y \d x

&= \int_{-\infty}^{\infty} \int_A \frac{f_{XY}(x,y)}{f_X(x)}\cdot f_X(x)\d y\d x\\

&=\int_{-\infty}^{\infty}\int_A f_{XY}(x,y)\d y \d x\\

&=\int_A f_Y(y) \d y\\

&=\Pr{Y\in A}.

\end{align*}

使用类似的证明，我们可以更一般的得到，对于 \(A,B\in\@F\), \[

\Pr{Y\in A\land X\in B} = \int_{B} \int_A f_{Y|X}(y|x)f_X(x)\d y\d x.

积分的换元

我们现在考虑一个在计算中经常会遇到的问题，假设我们知道随机变量 \(X\) 和 \(Y\) 的联合密度函数 \(f_{XY}\)，那么对于新的随机变量 \((U,V) = g(X,Y) = (g_1(X,Y),g_2(X,Y))\)，它们的联合密度函数 \(f_{UV}\) 是什么？这里 \(g_1,g_2:\bb R^2\to \bb R\) 是两个可测函数，并且我们假设它们是可微的。

对于一个可积的测试函数 \(\phi\colon \bb R^2\to\bb R\)，我们考虑用两种方法来计算 \(\E{\phi(U,V)}\)。首先是通过 \(U,V\) 的联合密度函数 \(f_{UV}\)： \[

\E{\phi(U,V)} = \int_{-\infty}^\infty \int_{-\infty}^\infty \phi(u,v) f_{UV}(u,v)\d u\d v.

\] 接着是通过 \(X,Y\) 的联合密度函数 \(f_{XY}\)： \[

\E{\phi(U,V)} = \E{\phi(g(X,Y))} = \int_{-\infty}^\infty \int_{-\infty}^\infty \phi(g(X,Y)) f_{XY}(x,y)\d x\d y.

\] 我们再把上面第一个式子使用换元公式得到 \[

\int_{-\infty}^\infty \int_{-\infty}^\infty \phi(u,v) f_{UV}(u,v)\d u\d v = \int_{-\infty}^\infty \int_{-\infty}^\infty \phi(g(x,y)) f_{UV}(g(x,y))\abs{\det J_g(x,y)}\d x\d y,

\] 其中 \(J_g(x,y)\) 是 \(g\) 在 \((x,y)\) 处的雅可比矩阵 \[

J_g(x,y) = \begin{pmatrix}

\pdv{g_1}{x} & \pdv{g_1}{y}\\

\pdv{g_2}{x} & \pdv{g_2}{y}

\end{pmatrix}.

\] 所以，我们可以得到如下命题：

Proposition 2 \[

f_{XY}(x,y) = f_{UV}(g(x,y))\abs{\det J_g(x,y)}.

极坐标的例子

我们考虑下面的例子，假设 \(X\) 和 \(Y\) 是两个独立的标准正态分布随机变量，那么它们的联合密度函数为 \(f_{XY}(x,y) = \frac{1}{2\pi}e^{-\frac{x^2+y^2}{2}}\)。我们可以把 \((X,Y)\) 看成 \(\bb R^2\) 上的随机的点。我们考虑这些点的极坐标 \((R,\Theta)\)，其中 \(R=\sqrt{X^2+Y^2}\)，\(\Theta = \arctan \frac{Y}{X}\)。我们想知道 \((R,\Theta)\) 的联合密度函数是什么。

我们首先知道，\(X=R\cos \Theta\)，\(Y=R\sin \Theta\)。这个变换的雅可比矩阵的行列式是 \(r\)。因此，根据 Proposition 2，我们有 \[

f_{R\Theta}(r,\theta) = f_{XY}(r\cos\theta,r\sin\theta)\cdot r = \frac{r}{2\pi}e^{-\frac{r^2}{2}}.

大家会发现这个式子是与 \(\theta\) 无关的，这说明关于 \(\theta\) 的边缘分布是均匀分布。这件事情的一个推论是，如果我们希望从二维的单位圆上均匀的取出一个点来，我们只需独立的取两个标准高斯变量 \((X,Y)\)，然后把它归一化成长度为 \(1\) 的向量 \((\frac{X}{\sqrt{X^2+Y^2}},\frac{Y}{\sqrt{X^2+Y^2}})\) 即可。这件事情对于高维也是成立的，对于算法设计很有意义。

随机变量的和

假设知道 \(X\) 和 \(Y\) 的联合概率密度 \(f_{XY}\)，我们来考虑两个随机变量的和 \(Z=X+Y\) 的概率密度。我们首先引入一个辅助变量 \(W=Y\)，于是对于 \(g_1(Z,W)=Z-W\), \(g_2(Z,W)=W\)，我们有 \((X,Y) = g(Z,W)\)。显然 \[

\abs{\det J_g(z,w)}=

\begin{vmatrix}

1, & -1\\

0, & 1

\end{vmatrix} = 1.

\] 所以根据 Proposition 2，我们有 \[

f_{ZW}(z,w) = f_{XY}(z-w,w).

\] 我们可以计算出 \(Z\) 的边缘密度函数为 \[

\begin{align*}

f_Z(z)

&= \int_{-\infty}^\infty f_{ZW}(z,w)\d w\\

&= \int_{-\infty}^\infty f_{XY}(z-w,w)\d w\\

&=\int_{-\infty}^\infty f_Y(w)\cdot f_{X|Y}(z-w\,|\, w)\d w.

\end{align*}

\] 特别的，如果 \(X\) 和 \(Y\) 独立，那么 \[

f_Z(z) = \int_{-\infty}^\infty f_X(z-w)f_Y(w)\d w.

世界杯历史_2018世界杯亚洲区预选赛 - mcryt.com

Blog Details

第十四讲：联合分布，联合密度函数，条件密度函数，换元

By admin