母函数

概率母函数

定义

设 $X$ 是非负整数的随机变量,定义其概率母函数 (probability-generating function)为

$$g(s)=\mathbb{E}[s^X]=\sum_{j=0}^{\infty} s^j\mathbb{P}[X=j], s\in[-1,1]$$

其中约定 $0^0=1$。显然 $g(s)$ 在 $[-1,1]$ 绝对收敛

性质

  • $\mathbb{P}[X=k]=\frac{g^{(k)}(0)}{k!},\ k=0,1,\ldots$,这说明概率母函数和概率分布列一一对应
  • $\mathbb{E}[X]=g^{(1)}(1)$
  • 若 $\mathbb{E}[X]<\infty$,则 $\mathrm{Var}[X]=g^{(2)}(1)+g^{(1)}(1)-[g^{(1)}(1)]^2$
  • 若 $X_1,\ldots,X_n$ 相互独立,$Y=X_1+\cdots+X_n$,则 $g_Y(s)=g_{X_1}(s)\cdots g_{X_n}(s),s\in[-1,1]$
  • $X_1,X_2,\ldots$ 是独立同分布的非负整数随机变量,概率母函数为 $\psi(x)$; $N$ 为取正整数值的随机变量且独立于 $X_i$,概率母函数为 $G(s)$。则 $Y=X_1+\cdots+X_N$ 的概率母函数为 $H(s)=G[\psi(s)]$

只给出性质五的证明

$$\begin{align}H(s)&=\mathbb{E}[\mathbb{E}[S^W\mid Y]]\\&=\sum_{n=1}^{\infty}\mathbb{E}[s^{X_1+\cdots+X_n}]\mathbb{P}[Y=n]\\&=\sum_{n=1}^{\infty}[\psi(s)]^n\mathbb{P}[Y=n]=G[\psi(s)]\end{align}$$

例子

二项分布

二项分布 $B(n,p)$ 的概率母函数为 $g(s)=(sp+q)^n$

由此立得若 $X_i,\ldots,X_m$ 独立,且$X_i\sim B(n_i,p)$,则$Y=X_1+\cdots+X_m\sim B(n_1+\cdots+n_m,p)$

泊松分布

泊松分布 $\mathcal{P}(\lambda)$ 的概率母函数为 $g(s)=e^{\lambda(s-1)}$

由此立得若 $X_i,\ldots,X_m$ 独立,且$X_i\sim \mathcal{P}(\lambda_i)$,则$Y=X_1+\cdots+X_m\sim \mathcal{P}(\lambda_1+\cdots+\lambda_m)$

几何分布

几何分布 $G(p)$ 的概率母函数为 $g(s)=\frac{sp}{1-sq}$

由此立得若 $X_i,\ldots,X_m$ 独立,且$X_i\sim G(p)$,则$S_m=X_1+\cdots+X_m$ 有概率母函数
$$\begin{align}g_{S_m}(s)&=\left(\frac{sp}{1-sq}\right)^m\\&=(sp)^m\sum_{j=0}^{\infty}\frac{m(m+1)\cdots(m+j-1)}{j!}(sq)^j\\&=(sp)^m\sum_{j=0}^{\infty}\binom{m+j-1}{j}(sq)^j\\&=\sum_{k=m}^{\infty}\binom{k-1}{m-1}p^mq^{k-m}s^k\end{align}$$

于是得 Pascal 分布 $$\mathbb{E}[S_m=k]=\binom{k-1}{m-1}p^mq^{k-m}$$

求概率

求扔三颗骰子,总点数为 9 的概率。
记 $X_i$ 为第 $i$ 颗骰子的点数,其概率母函数

$$g(s)=\mathbb{E}[s^{X_1}]=\frac{1}{6}(s+s^2+\cdots+s^6)=\frac{1}{6}\frac{s(1-s^6)}{1-s}$$

则 $Y=X_1+X_2+X_3$ 的概率母函数为

$$g_Y(s)=[g_X(s)]^3=\frac{s^3(1-s^6)^3}{6^3(1-s)^s}=\frac{1}{6^3}(s^3)(1-3s^6+3s^{12}-s^{18})\sum_{k=0}^{\infty}\binom{k+2}{2}s^k$$

则 $s^9$ 的系数为 $$\mathbb{P}(Y=9)=\frac{1}{6^3}[\binom{6+2}{2}-3]=\frac{25}{216}$$

推广——二维概率母函数

设 $(X,Y)$ 是二维取非负整数值的随机向量,记 $p_{ik}=\mathbb{P}[X=i,Y=k]$,则其二维概率母函数为

$$g(s,t)=\mathbb{E}[s^Xt^Y]=\sum_{i=0}^{infty}\sum_{k=0}^{\infty}p_{ik}s^it^k,\quad s,t\in[-1,1]$$

其有如下性质

  • $\lvert g(s,t)\rvert\leq g(1,1)=1,\lvert s\rvert\leq 1,\lvert t\rvert\leq 1$
  • $g_{aX+bY+c}(s)=s^cg(s^a,s^b)$
  • 若 $X,Y$ 独立,则 $g(s,t)=g_X(s)g_Y(t)$
  • $g(s,1)=g_X(s),g(1,t)=g_Y(t)$
  • 若 $\mathbb{E}[X]<\infty,\mathbb{E}[Y]<\infty$,则 $$\mathbb{E}[X]=\frac{\partial g(s,t)}{\partial s}\big|_{s=t=1},\mathbb{E}[Y]=\frac{\partial g(s,t)}{\partial t}\big|_{s=t=1}$$
  • 若 $\mathbb{E}[X^2]<\infty,\mathbb{E}[Y^2]<\infty$,则 $$\mathbb{E}[X^2]=\frac{\partial^2 g(s,t)}{\partial s^2}\big|_{s=t=1},\mathbb{E}[Y^2]=\frac{\partial^2 g(s,t)}{\partial t^2}\big|_{s=t=1},\mathbb{E}[XY]=\frac{\partial^2 g(s,t)}{\partial s\partial t}\big|_{s=t=1}$$
  • $p_{ik}=\frac{1}{i!k!}\frac{\partial^{i+k}g(s,t)}{\partial s^i\partial t^k}\big |_{s=t=0},\ i,k=0,1,\ldots$

局限

只能对取非负整数值的随机变量定义

矩母函数

定义

设 $X$ 是随机变量,定义其矩母函数 (moment-generating function)为

$$M_X(s)=\mathbb{E}[e^{sX}]$$

仅当 $\mathbb{E}[e^{sX}]<\infty$ 时,我们称 $M_X(s)$ 存在

性质

  • $M_{aX+b}(s)=e^{sb}M(sa)$

  • $\mathbb{E}[X^k]=M^{(k)}(0),k=1,2,\ldots$

  • $M(0)=1$

  • 可逆性:若$\exists a>0,\forall s\in[-a,a], M(s)<\infty$,则 $M(s)$ 唯一地决定了 $X$ 的分布函数

  • 若 $X_1,\ldots,X_n$ 独立,$Y=X_1+\cdots+X_n$,则$M_{Y}(s)=M_{X_1}(s)\cdots M_{X_n}(s)$

  • $X_1,X_2,\ldots$ 独立同分布,矩母函数为 $M_X(s)$; $N$ 为取正整数值的随机变量,矩母函数为 $M_N(s)$。则 $Y=X_1+\cdots+X_Y$ 的矩母函数为 $M_Y(s)=\mathbb{E}[\mathbb{E}[e^{sY}\mid N=n]]=\mathbb{E}[(M_X(s))^n]=\sum_{n=1}^{\infty}(M_X(s))^n\mathbb{P}[N=n]$

    而 $M_N(s)=\sum_{n=1}^{\infty}[e^s]^n\mathbb{P}[N=n]$ 二者有紧密的联系:将 $M_N(s)$ 中出现的 $e^s$ 替换为 $M_X(s)$ 即可

例子

离散型
X 2 3 5
$\mathbb{P}$ 1/2 1/6 1/3

$M(s)=\frac{1}{2}e^{2s}+\frac{1}{6}e^{3s}+\frac{1}{3}e^{5s}$

$\mathbb{E}[X]=M^{(1)}(0)=(\frac{1}{2}2e^{2s}+\frac{1}{6}3e^{3s}+\frac{1}{3}5e^{5s})|_{s=0}=\frac{19}{6}$

$$\mathbb{E}[X^2]=M^{(2)}(0)=(\frac{1}{2}4e^{2s}+\frac{1}{6}9e^{3s}+\frac{1}{3}25e^{5s})|_{s=0}=\frac{71}{6}$$

指数分布

设 $X\sim \mathcal{E}(\lambda)$,则当 $s<\lambda$ 时,有

$$M(s)=\lambda\int_0^\infty e^{sx}e^{-\lambda x}\,\mathrm{d}x=\frac{\lambda}{s-\lambda}e^{(s-\lambda)x}|{x=0}^{\infty}=\frac{\lambda}{\lambda-s}$$

而当 $s\ge\lambda$ 时 $M(s)$ 不存在

$$\mathbb{E}[X]=M^{(1)}(0)=\frac{\lambda}{(\lambda-s)^2}|_{s=0}=\frac{1}{\lambda}$$

$$\mathbb{E}[X]=M^{(2)}(0)=\frac{2\lambda}{(\lambda-s)^3}|_{s=0}=\frac{2}{\lambda^2}$$

正态分布

$$X\sim\mathcal{N}({\mu_1,\sigma_1^2}),Y\sim\mathcal{N}(\mu_2,\sigma_2^2), X,Y$$ 相互独立,求 $Z=X+Y$ 的分布

先计算标准正态分布的矩母函数,由定义求得 $M(s)=e^{s^2/2}$

根据矩母函数的性质,有 $M_X(s)=e^{\mu_1 s}e^{\sigma_1^2s^2/2},M_Y(s)=e^{\mu_2 s}e^{\sigma_2^2s^2/2},M_Z(s)=e^{(\mu_1+\mu_2) s}e^{(\sigma_1^2+\sigma_2^2)s^2/2}$

于是 $Z\sim\mathcal{N}(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2)$

复合随机变量

不断进行成功概率为 $p$ 的伯努利实验直至成功,每次实验的耗时服从参数 $\lambda$ 的指数分布,且完全独立。 求总耗时的分布

首先 $X_i\sim\mathcal{E}(\lambda), N\sim G(p), Y=X_1+\cdots+X_N$ , 当 $s<\lambda$ 时有 $M_{X_i}(s)=\frac{\lambda}{\lambda-s}$ ,而 $M_N(s)=\frac{pe^s}{1-qe^s}$ ,故

$$M_Y(s)=\frac{p M_X(s)}{1-qM_X(s)}=\frac{p\lambda}{\lambda-s-q\lambda}=\frac{p\lambda}{p\lambda-s}$$

推广——随机向量的矩母函数

设 $\overset{\rightarrow}{X}=(X_1,X_2,\ldots,X_n)^\intercal$,则其矩母函数定义为

$$M_\overset{\rightarrow}{X}(\overset{\rightarrow}{s})=\mathbb{E}[e^{\overset{\rightarrow}{s}^\intercal\overset{\rightarrow}{X}}]=\mathbb{E}[e^{s_1X_1+\cdots+s_nX_n}]$$

局限性

有些分布的矩母函数不存在,因为其积分发散,如 Cauchy 分布。为此我们引入特征函数来保证可积性。

特征函数

定义

对随机变量 $X$ ,定义其特征函数 (characteristic function) 为

$$\phi(t)=\mathbb{E}[e^{itX}]=\mathbb{E}[\cos(tX)]+i\mathbb{E}[\sin(tX)], t\in \mathbb{R}$$

性质

  • $\lvert \phi(t)\rvert\leq \phi(0)=1,\quad\phi(-t)=\overline{\phi(t)}$
  • $\phi(t)$ 在 $(-\infty,\infty)$ 一致连续
  • 若 $\mathbb{E}[\lvert X\rvert^k]<\infty$,则 $\phi^{(k)}(t)=i^k\mathbb{E}[X^k e^{itX}],\phi^{(k)}(0)=i^k\mathbb{E}[X^k]$
  • 非负定性:$\forall t_1,\ldots,t_n\in\mathbb{R},\forall z_1,\ldots,z_n\in\mathbb{C},\sum_{k=1}^{n}\sum_{j=1}^{n}\phi(t_k-t_j)z_k\bar{z}_j\ge 0$
  • 若 $X_1,\ldots,X_n$ 相互独立, $X_k$ 特征函数为 $\phi_k(t)$,则 $Y=X_1+\cdots+X_n$ 的特征函数为 $\phi_Y(t)=\phi_1(t)\cdots\phi_{k}(t)$。注意,逆命题不成立,后面给出了例子。

例子

二项分布

二项分布 $B(n,p)$ 的特征函数为 $\phi(t)=(e^{it}p+q)^n$

(对比其概率母函数 $g(s)=(sp+q)^n$)

泊松分布

泊松分布 $\mathcal{P}(\lambda)$ 的特征函数为 $\phi(t)=e^{\lambda(e^{it}-1)}$

(对比其概率母函数 $g(s)=e^{\lambda(s-1)}$)

几何分布

几何分布 $G(p)$ 的特征函数为 $\phi(t)=\frac{pe^{it}}{1-qe^{it}}$

(对比其概率母函数 $g(s)=\frac{sp}{1-sq}$)

正态分布

正态分布 $\mathcal{N}(\mu,\sigma^2)$ 有特征函数 $\phi(t)=e^{i\mu t}e^{-\frac{1}{2}\sigma^2t^2}$

(对比其矩母函数 $M(s)=e^{\mu s}e^{\sigma^2s^2/2}$)

先考察标准正态分布。正态分布的特征函数推导不太容易,一种不太严谨的做法是做形式化运算,将 $i$ 视为常数,则

$$\phi(t)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty e^{itx}e^{-x^2/2}\,\mathrm{d}x=e^{-t^2/2}\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty e^{-(x-it)^2/2}\,\mathrm{d}x=e^{-t^2/2}$$

严格的数学推导需要一定复变函数的背景知识。

首先 $\phi(t)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty e^{itx}e^{-x^2/2}\,\mathrm{d}x=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty \cos(tx)e^{-x^2/2}\,\mathrm{d}x$

对 $t$ 求导得
$$\begin{align}\phi’(t)&=-\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty x\sin(tx)e^{-x^2/2}\,\mathrm{d}x\\&=\frac{1}{\sqrt{2\pi}}\int_{-\infty}\sin(tx)\,\mathrm{d}e^{-x^2/2}\\&=-\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty t\cos(tx)e^{-x^2/2}\,\mathrm{d}x\\&=-t\phi(t)\end{align}$$

即 $$\frac{\mathrm{d}}{\mathrm{d}t}[\phi(t)e^{t^2/2}]=0$$,则 $\phi(t)e^{t^2/2}=C=\phi(0)=1$,得 $\phi(t)=e^{-t^2/2}$

由此再求一般正态的特征函数

$$\mathbb{E}[e^{it(\mu+\sigma X)}]=e^{it\mu}\mathbb{E}[e^{it\sigma X}]=e^{it\mu}e^{-\sigma^2t^2/2}$$

同时,若 $X_1,\ldots,X_m$ 相互独立,$X_j\sim\mathcal{\mu_j,\sigma_j^2}$,则

$$Y=X_1+\cdots+X_m\sim\mathcal{N}(\sum_{j=1}^{m}\mu_j,\sum_{j=1}^{m}\sigma_j^2)$$

均匀分布

均匀分布 $\mathcal{U}(a,b)$ 的特征函数为 $\phi(t)=\frac{e^{itb}-e^{ita}}{it(b-a)}$

指数分布

指数分布 $\mathcal{E}(\lambda)$ 的特征函数为 $\phi(t)=(1-\frac{it}{\lambda})^{-1}$

(与矩母函数 $M(s)=\frac{\lambda}{\lambda-s}=\frac{1}{1-s/\lambda}=(1-s/\lambda)^{-1}$ 对比)

柯西分布

$f(x)=\frac{1}{\pi(1+x^2)}$,其特征函数为 $\phi(t)=e^{-\lvert t\rvert}$

取 $Y=aX,(a>0)$,则 $\phi_Y(t)=\mathbb{E}[e^{i(at)X}]=e^{-a\lvert t\rvert}$,此时

$$\phi_{X+Y}(t)=\mathbb{E}[e^{it(1+a)X}]=e^{-(1+a)\lvert t\rvert}=\phi_X(t)\phi_Y(t)$$,但显然 $X,Y$ 不独立

拉普拉斯分布

$f(x)=\frac{1}{2}e^{-\lvert x\rvert}$ ,其特征函数为 $\phi(t)=\frac{1}{1+t^2}$

注意它和柯西分布的“对称性”

更多的性质

  • 若 $\mathbb{E}[\lvert X\rvert^n]<\infty$,则 $\phi(t)=\sum_{m=0}^{n}\frac{\mathbb{E}[(itX)^m]}{m!}+o(t^n)$

    特别的,若二阶矩存在,则 $\phi(t)=1+it\mathbb{E}[X]-\frac{1}{2}t^2\mathbb{E}[X^2]+o(t^2)$

  • 逆转公式:若累积分布函数 $F(x)$ 在 $(a,b)$ 连续,则

    $$\frac{1}{2\pi}\lim\limits_{T\rightarrow\infty}\int_{-T}^T\frac{e^{-ita}-e^{-itb}}{it}\phi(t)\,\mathrm{d}t=F(b)-F(a)$$

    若 $\int_{-\infty}^{\infty}\lvert\phi(t)\rvert\,\mathrm{d}t<\infty$,则 $X$ 有有界连续密度函数 $f(x)=\frac{1}{2\pi}\int_{-\infty}^{\infty}e^{-itx}\phi(t)\,\mathrm{d}t$

    这些说明了随机变量和分布函数相互唯一决定

  • 先介绍收敛性:设 $X$ 有分布函数 $F(x)$, $X_n$ 有分布函数 $F_n(x)$。若在 $F(x)$ 的连续点 $x$ 处,有 $\lim\limits_{n\rightarrow\infty}F_n(x)=F(x)$,则称 $X_n$ 依分布收敛 (convergence in distribution) 到 $X$,记为 $X_n\overset{d}{\rightarrow} X$;或称 $F_n$ 弱收敛 (weak convergence) 到 $F$,记为 $F_n\overset{w}{\rightarrow}F$

    连续性定理指出,$X_n$ 依分布收敛到 $X$ 的充分必要条件是,其对应的特征函数满足

    $$\lim\limits_{n\rightarrow\infty}\phi_n(t)=\phi(t),\quad\forall t\in\mathbb{R}$$

  • 判定一个函数是否为特征函数有如下定理

    • S. Bochner-Khintchine 定理

      设 $\phi(t),t\in\mathbb{R}$ 是连续函数且 $\phi(0)=1$,其是特征函数的充要条件是他是非负定的,即 $\forall t_1,\ldots,t_n\in\mathbb{R},\forall z_1,\ldots,z_n\in\mathbb{C},\sum_{k=1}^{n}\sum_{j=1}^{n}\phi(t_k-t_j)z_k\bar{z}_j\ge 0$

    • Polya 定理

      设 $\phi(t)$ 是连续函数、偶函数,在 $(0,\infty)$ 是凸函数,且满足$\phi(t)\ge 0$,$\phi(0)=1$,$\phi(t)\rightarrow 0\,(t\rightarrow\infty)$ 则其是特征函数。

    • J. Marcinkiewiez 定理

      若 $\phi(t)$ 具有形式 $e^{P(t)}$,其中 $P(t)$ 是多项式,则其系数不能大于 2

有趣的例题

  1. $\phi(t)$ 是特征函数,证明 $\bar{\phi},\phi^2,\lvert\phi\rvert^2,Re[\phi]$ 都是特征函数

    设 $X,Y$独立同分布且特征函数为 $\phi$,则前三个分别为 $-X,X+Y,X-Y$

    第四个构造独立于 $X$ 的随机变量 $Z$ 且 $\mathbb{P}[Z=\pm 1]=0.5$,则$XZ$ 的特征函数为 $Re[\phi]$

  2. $\phi(t)$ 是特征函数,则 $\lvert\phi(t)\rvert$ 未必是特征函数

    设 $X\sim B(1,1/3)$,$\phi(t)=\frac{2}{3}+\frac{1}{3}e^{it}$ 。设 $Y$ 的特征函数为 $\psi(t)=\lvert\phi(t)\rvert$,则 $\psi^2(t)=\phi(t)\phi(-t)$,即 $Y_1+Y_2$ 和 $X_1-X_2$ 同分布。其中 $Y_1,Y_2$ 与 $Y$ 独立同分布,$X_1,X_2$ 与 $X$ 独立同分布。由于 $X_1-X_2\in\{-1,0,1\}$,则 $Y_i\in\{-0.5,0.5\}$,记 $\mathbb{P}[Y_1=0.5]=\alpha$。则

    $$\mathbb{P}[Y_1+Y_2=1]=\alpha^2=\mathbb{P}[X_1-X_2=1]=2/9$$

    $$\mathbb{P}[Y_1+Y_2=-11]=(1-\alpha)^2=\mathbb{P}[X_2-X_1=1]=2/9$$

    此时 $\alpha$ 无解

  3. $$X_1,\ldots,X_4$$ 独立同标准正态分布,则

    $$X_1X_2$$的特征函数为 $\frac{1}{\sqrt{1+t^2}}$

    $$X_1X_2+X_3X_4$$ 的特征函数为 $\frac{1}{1+t^2}$,即服从拉普拉斯分布

  4. $X,Y$独立同标准正态分布,$U,V$独立于 $X,Y$,则$Z=\frac{UX+VY}{\sqrt{U^2+V^2}}\sim\mathcal{N}(0,1)$

  5. 利用已知结果若 $a>0,b>0$,则$I(a,b)=\int_0^\infty\exp\{-a^2u^2-b^2u^{-2}\}\,\mathrm{d}u=\frac{e^{-2ab}\sqrt{\pi}}{2a}$

    证明若 $f(x)=\frac{1}{2\pi x^3}\exp(-\frac{1}{2x}),x>0$, 则 $\mathbb{E}[e^{-tX}]=\exp(-\sqrt{2t})$

  6. $X,Y,Z$独立同标准正态分布,则

    1. $X/Y$服从柯西分布
    2. $1/X^2$的概率密度函数为 5. 中结果
    3. $(XYZ)/\sqrt{X^2Y^2+Y^2Z^2+Z^2X^2}\sim\mathcal{N}(0,1/9)$
  7. $X_n$ 有分布函数 $F_n(x)=x-\frac{\sin(2n\pi x)}{2n\pi},0\leq x\leq 1$

    1. $X_n$ 有密度函数 $f_n(x)=1-\cos(2n\pi x),0\leq x\leq 1$
    2. $F_n(x)$ 弱收敛于 $\mathcal{U}[0,1]$,但 $f_n(x)$ 不收敛