母函数

概率母函数

定义

\(X\) 是非负整数的随机变量,定义其概率母函数 (probability-generating function)为

\[g(s)=\mathbb{E}[s^X]=\sum_{j=0}^{\infty} s^j\mathbb{P}[X=j], s\in[-1,1]\]

其中约定 \(0^0=1\)。显然 \(g(s)\)\([-1,1]\) 绝对收敛

性质

  • \(\mathbb{P}[X=k]=\frac{g^{(k)}(0)}{k!},\ k=0,1,\ldots\),这说明概率母函数和概率分布列一一对应
  • \(\mathbb{E}[X]=g^{(1)}(1)\)
  • \(\mathbb{E}[X]<\infty\),则 \(\mathrm{Var}[X]=g^{(2)}(1)+g^{(1)}(1)-[g^{(1)}(1)]^2\)
  • \(X_1,\ldots,X_n\) 相互独立,\(Y=X_1+\cdots+X_n\),则 \(g_Y(s)=g_{X_1}(s)\cdots g_{X_n}(s),s\in[-1,1]\)
  • \(X_1,X_2,\ldots\) 是独立同分布的非负整数随机变量,概率母函数为 \(\psi(x)\); \(N\) 为取正整数值的随机变量且独立于 \(X_i\),概率母函数为 \(G(s)\)。则 \(Y=X_1+\cdots+X_N\) 的概率母函数为 \(H(s)=G[\psi(s)]\)

只给出性质五的证明

\[\begin{align}H(s)&=\mathbb{E}[\mathbb{E}[S^W\mid Y]]\\&=\sum_{n=1}^{\infty}\mathbb{E}[s^{X_1+\cdots+X_n}]\mathbb{P}[Y=n]\\&=\sum_{n=1}^{\infty}[\psi(s)]^n\mathbb{P}[Y=n]=G[\psi(s)]\end{align}\]

例子

二项分布

二项分布 \(B(n,p)\) 的概率母函数为 \(g(s)=(sp+q)^n\)

由此立得若 \(X_i,\ldots,X_m\) 独立,且\(X_i\sim B(n_i,p)\),则\(Y=X_1+\cdots+X_m\sim B(n_1+\cdots+n_m,p)\)

泊松分布

泊松分布 \(\mathcal{P}(\lambda)\) 的概率母函数为 \(g(s)=e^{\lambda(s-1)}\)

由此立得若 \(X_i,\ldots,X_m\) 独立,且\(X_i\sim \mathcal{P}(\lambda_i)\),则\(Y=X_1+\cdots+X_m\sim \mathcal{P}(\lambda_1+\cdots+\lambda_m)\)

几何分布

几何分布 \(G(p)\) 的概率母函数为 \(g(s)=\frac{sp}{1-sq}\)

由此立得若 \(X_i,\ldots,X_m\) 独立,且\(X_i\sim G(p)\),则\(S_m=X_1+\cdots+X_m\) 有概率母函数 \[\begin{align}g_{S_m}(s)&=\left(\frac{sp}{1-sq}\right)^m\\&=(sp)^m\sum_{j=0}^{\infty}\frac{m(m+1)\cdots(m+j-1)}{j!}(sq)^j\\&=(sp)^m\sum_{j=0}^{\infty}\binom{m+j-1}{j}(sq)^j\\&=\sum_{k=m}^{\infty}\binom{k-1}{m-1}p^mq^{k-m}s^k\end{align}\]

于是得 Pascal 分布 \[\mathbb{E}[S_m=k]=\binom{k-1}{m-1}p^mq^{k-m}\]

求概率

求扔三颗骰子,总点数为 9 的概率。 记 \(X_i\) 为第 \(i\) 颗骰子的点数,其概率母函数

\[g(s)=\mathbb{E}[s^{X_1}]=\frac{1}{6}(s+s^2+\cdots+s^6)=\frac{1}{6}\frac{s(1-s^6)}{1-s}\]

\(Y=X_1+X_2+X_3\) 的概率母函数为

\[g_Y(s)=[g_X(s)]^3=\frac{s^3(1-s^6)^3}{6^3(1-s)^s}=\frac{1}{6^3}(s^3)(1-3s^6+3s^{12}-s^{18})\sum_{k=0}^{\infty}\binom{k+2}{2}s^k\]

\(s^9\) 的系数为 \[\mathbb{P}(Y=9)=\frac{1}{6^3}[\binom{6+2}{2}-3]=\frac{25}{216}\]

推广——二维概率母函数

\((X,Y)\) 是二维取非负整数值的随机向量,记 \(p_{ik}=\mathbb{P}[X=i,Y=k]\),则其二维概率母函数为

\[g(s,t)=\mathbb{E}[s^Xt^Y]=\sum_{i=0}^{infty}\sum_{k=0}^{\infty}p_{ik}s^it^k,\quad s,t\in[-1,1]\]

其有如下性质

  • \(\lvert g(s,t)\rvert\leq g(1,1)=1,\lvert s\rvert\leq 1,\lvert t\rvert\leq 1\)
  • \(g_{aX+bY+c}(s)=s^cg(s^a,s^b)\)
  • \(X,Y\) 独立,则 \(g(s,t)=g_X(s)g_Y(t)\)
  • \(g(s,1)=g_X(s),g(1,t)=g_Y(t)\)
  • \(\mathbb{E}[X]<\infty,\mathbb{E}[Y]<\infty\),则 \[\mathbb{E}[X]=\frac{\partial g(s,t)}{\partial s}\big|_{s=t=1},\mathbb{E}[Y]=\frac{\partial g(s,t)}{\partial t}\big|_{s=t=1}\]
  • \(\mathbb{E}[X^2]<\infty,\mathbb{E}[Y^2]<\infty\),则 \[\mathbb{E}[X^2]=\frac{\partial^2 g(s,t)}{\partial s^2}\big|_{s=t=1},\mathbb{E}[Y^2]=\frac{\partial^2 g(s,t)}{\partial t^2}\big|_{s=t=1},\mathbb{E}[XY]=\frac{\partial^2 g(s,t)}{\partial s\partial t}\big|_{s=t=1}\]
  • \(p_{ik}=\frac{1}{i!k!}\frac{\partial^{i+k}g(s,t)}{\partial s^i\partial t^k}\big |_{s=t=0},\ i,k=0,1,\ldots\)

局限

只能对取非负整数值的随机变量定义

矩母函数

定义

\(X\) 是随机变量,定义其矩母函数 (moment-generating function)为

\[M_X(s)=\mathbb{E}[e^{sX}]\]

仅当 \(\mathbb{E}[e^{sX}]<\infty\) 时,我们称 \(M_X(s)\) 存在

性质

  • \(M_{aX+b}(s)=e^{sb}M(sa)\)

  • \(\mathbb{E}[X^k]=M^{(k)}(0),k=1,2,\ldots\)

  • \(M(0)=1\)

  • 可逆性:若\(\exists a>0,\forall s\in[-a,a], M(s)<\infty\),则 \(M(s)\) 唯一地决定了 \(X\) 的分布函数

  • \(X_1,\ldots,X_n\) 独立,\(Y=X_1+\cdots+X_n\),则\(M_{Y}(s)=M_{X_1}(s)\cdots M_{X_n}(s)\)

  • \(X_1,X_2,\ldots\) 独立同分布,矩母函数为 \(M_X(s)\); \(N\) 为取正整数值的随机变量,矩母函数为 \(M_N(s)\)。则 \(Y=X_1+\cdots+X_Y\) 的矩母函数为 \(M_Y(s)=\mathbb{E}[\mathbb{E}[e^{sY}\mid N=n]]=\mathbb{E}[(M_X(s))^n]=\sum_{n=1}^{\infty}(M_X(s))^n\mathbb{P}[N=n]\)

    \(M_N(s)=\sum_{n=1}^{\infty}[e^s]^n\mathbb{P}[N=n]\) 二者有紧密的联系:将 \(M_N(s)\) 中出现的 \(e^s\) 替换为 \(M_X(s)\) 即可

例子

离散型
X 2 3 5
\(\mathbb{P}\) 1/2 1/6 1/3

\(M(s)=\frac{1}{2}e^{2s}+\frac{1}{6}e^{3s}+\frac{1}{3}e^{5s}\)

\(\mathbb{E}[X]=M^{(1)}(0)=(\frac{1}{2}2e^{2s}+\frac{1}{6}3e^{3s}+\frac{1}{3}5e^{5s})|_{s=0}=\frac{19}{6}\)

\[\mathbb{E}[X^2]=M^{(2)}(0)=(\frac{1}{2}4e^{2s}+\frac{1}{6}9e^{3s}+\frac{1}{3}25e^{5s})|_{s=0}=\frac{71}{6}\]

指数分布

\(X\sim \mathcal{E}(\lambda)\),则当 \(s<\lambda\) 时,有

\[M(s)=\lambda\int_0^\infty e^{sx}e^{-\lambda x}\,\mathrm{d}x=\frac{\lambda}{s-\lambda}e^{(s-\lambda)x}|{x=0}^{\infty}=\frac{\lambda}{\lambda-s}\]

而当 \(s\ge\lambda\)\(M(s)\) 不存在

\[\mathbb{E}[X]=M^{(1)}(0)=\frac{\lambda}{(\lambda-s)^2}|_{s=0}=\frac{1}{\lambda}\]

\[\mathbb{E}[X]=M^{(2)}(0)=\frac{2\lambda}{(\lambda-s)^3}|_{s=0}=\frac{2}{\lambda^2}\]

正态分布

\[X\sim\mathcal{N}({\mu_1,\sigma_1^2}),Y\sim\mathcal{N}(\mu_2,\sigma_2^2), X,Y\] 相互独立,求 \(Z=X+Y\) 的分布

先计算标准正态分布的矩母函数,由定义求得 \(M(s)=e^{s^2/2}\)

根据矩母函数的性质,有 \(M_X(s)=e^{\mu_1 s}e^{\sigma_1^2s^2/2},M_Y(s)=e^{\mu_2 s}e^{\sigma_2^2s^2/2},M_Z(s)=e^{(\mu_1+\mu_2) s}e^{(\sigma_1^2+\sigma_2^2)s^2/2}\)

于是 \(Z\sim\mathcal{N}(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2)\)

复合随机变量

不断进行成功概率为 \(p\) 的伯努利实验直至成功,每次实验的耗时服从参数 \(\lambda\) 的指数分布,且完全独立。 求总耗时的分布

首先 \(X_i\sim\mathcal{E}(\lambda), N\sim G(p), Y=X_1+\cdots+X_N\) , 当 \(s<\lambda\) 时有 \(M_{X_i}(s)=\frac{\lambda}{\lambda-s}\) ,而 \(M_N(s)=\frac{pe^s}{1-qe^s}\) ,故

\[M_Y(s)=\frac{p M_X(s)}{1-qM_X(s)}=\frac{p\lambda}{\lambda-s-q\lambda}=\frac{p\lambda}{p\lambda-s}\]

推广——随机向量的矩母函数

\(\overset{\rightarrow}{X}=(X_1,X_2,\ldots,X_n)^\intercal\),则其矩母函数定义为

\[M_\overset{\rightarrow}{X}(\overset{\rightarrow}{s})=\mathbb{E}[e^{\overset{\rightarrow}{s}^\intercal\overset{\rightarrow}{X}}]=\mathbb{E}[e^{s_1X_1+\cdots+s_nX_n}]\]

局限性

有些分布的矩母函数不存在,因为其积分发散,如 Cauchy 分布。为此我们引入特征函数来保证可积性。

特征函数

定义

对随机变量 \(X\) ,定义其特征函数 (characteristic function) 为

\[\phi(t)=\mathbb{E}[e^{itX}]=\mathbb{E}[\cos(tX)]+i\mathbb{E}[\sin(tX)], t\in \mathbb{R}\]

性质

  • \(\lvert \phi(t)\rvert\leq \phi(0)=1,\quad\phi(-t)=\overline{\phi(t)}\)
  • \(\phi(t)\)\((-\infty,\infty)\) 一致连续
  • \(\mathbb{E}[\lvert X\rvert^k]<\infty\),则 \(\phi^{(k)}(t)=i^k\mathbb{E}[X^k e^{itX}],\phi^{(k)}(0)=i^k\mathbb{E}[X^k]\)
  • 非负定性:\(\forall t_1,\ldots,t_n\in\mathbb{R},\forall z_1,\ldots,z_n\in\mathbb{C},\sum_{k=1}^{n}\sum_{j=1}^{n}\phi(t_k-t_j)z_k\bar{z}_j\ge 0\)
  • \(X_1,\ldots,X_n\) 相互独立, \(X_k\) 特征函数为 \(\phi_k(t)\),则 \(Y=X_1+\cdots+X_n\) 的特征函数为 \(\phi_Y(t)=\phi_1(t)\cdots\phi_{k}(t)\)。注意,逆命题不成立,后面给出了例子。

例子

二项分布

二项分布 \(B(n,p)\) 的特征函数为 \(\phi(t)=(e^{it}p+q)^n\)

(对比其概率母函数 \(g(s)=(sp+q)^n\))

泊松分布

泊松分布 \(\mathcal{P}(\lambda)\) 的特征函数为 \(\phi(t)=e^{\lambda(e^{it}-1)}\)

(对比其概率母函数 \(g(s)=e^{\lambda(s-1)}\))

几何分布

几何分布 \(G(p)\) 的特征函数为 \(\phi(t)=\frac{pe^{it}}{1-qe^{it}}\)

(对比其概率母函数 \(g(s)=\frac{sp}{1-sq}\))

正态分布

正态分布 \(\mathcal{N}(\mu,\sigma^2)\) 有特征函数 \(\phi(t)=e^{i\mu t}e^{-\frac{1}{2}\sigma^2t^2}\)

(对比其矩母函数 \(M(s)=e^{\mu s}e^{\sigma^2s^2/2}\))

先考察标准正态分布。正态分布的特征函数推导不太容易,一种不太严谨的做法是做形式化运算,将 \(i\) 视为常数,则

\[\phi(t)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty e^{itx}e^{-x^2/2}\,\mathrm{d}x=e^{-t^2/2}\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty e^{-(x-it)^2/2}\,\mathrm{d}x=e^{-t^2/2}\]

严格的数学推导需要一定复变函数的背景知识。

首先 \(\phi(t)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty e^{itx}e^{-x^2/2}\,\mathrm{d}x=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty \cos(tx)e^{-x^2/2}\,\mathrm{d}x\)

\(t\) 求导得 \[\begin{align}\phi'(t)&=-\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty x\sin(tx)e^{-x^2/2}\,\mathrm{d}x\\&=\frac{1}{\sqrt{2\pi}}\int_{-\infty}\sin(tx)\,\mathrm{d}e^{-x^2/2}\\&=-\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty t\cos(tx)e^{-x^2/2}\,\mathrm{d}x\\&=-t\phi(t)\end{align}\]

\[\frac{\mathrm{d}}{\mathrm{d}t}[\phi(t)e^{t^2/2}]=0\],则 \(\phi(t)e^{t^2/2}=C=\phi(0)=1\),得 \(\phi(t)=e^{-t^2/2}\)

由此再求一般正态的特征函数

\[\mathbb{E}[e^{it(\mu+\sigma X)}]=e^{it\mu}\mathbb{E}[e^{it\sigma X}]=e^{it\mu}e^{-\sigma^2t^2/2}\]

同时,若 \(X_1,\ldots,X_m\) 相互独立,\(X_j\sim\mathcal{\mu_j,\sigma_j^2}\),则

\[Y=X_1+\cdots+X_m\sim\mathcal{N}(\sum_{j=1}^{m}\mu_j,\sum_{j=1}^{m}\sigma_j^2)\]

均匀分布

均匀分布 \(\mathcal{U}(a,b)\) 的特征函数为 \(\phi(t)=\frac{e^{itb}-e^{ita}}{it(b-a)}\)

指数分布

指数分布 \(\mathcal{E}(\lambda)\) 的特征函数为 \(\phi(t)=(1-\frac{it}{\lambda})^{-1}\)

(与矩母函数 \(M(s)=\frac{\lambda}{\lambda-s}=\frac{1}{1-s/\lambda}=(1-s/\lambda)^{-1}\) 对比)

柯西分布

\(f(x)=\frac{1}{\pi(1+x^2)}\),其特征函数为 \(\phi(t)=e^{-\lvert t\rvert}\)

\(Y=aX,(a>0)\),则 \(\phi_Y(t)=\mathbb{E}[e^{i(at)X}]=e^{-a\lvert t\rvert}\),此时

\[\phi_{X+Y}(t)=\mathbb{E}[e^{it(1+a)X}]=e^{-(1+a)\lvert t\rvert}=\phi_X(t)\phi_Y(t)\],但显然 \(X,Y\) 不独立

拉普拉斯分布

\(f(x)=\frac{1}{2}e^{-\lvert x\rvert}\) ,其特征函数为 \(\phi(t)=\frac{1}{1+t^2}\)

注意它和柯西分布的“对称性”

更多的性质

  • \(\mathbb{E}[\lvert X\rvert^n]<\infty\),则 \(\phi(t)=\sum_{m=0}^{n}\frac{\mathbb{E}[(itX)^m]}{m!}+o(t^n)\)

    特别的,若二阶矩存在,则 \(\phi(t)=1+it\mathbb{E}[X]-\frac{1}{2}t^2\mathbb{E}[X^2]+o(t^2)\)

  • 逆转公式:若累积分布函数 \(F(x)\)\((a,b)\) 连续,则

    \[\frac{1}{2\pi}\lim\limits_{T\rightarrow\infty}\int_{-T}^T\frac{e^{-ita}-e^{-itb}}{it}\phi(t)\,\mathrm{d}t=F(b)-F(a)\]

    \(\int_{-\infty}^{\infty}\lvert\phi(t)\rvert\,\mathrm{d}t<\infty\),则 \(X\) 有有界连续密度函数 \(f(x)=\frac{1}{2\pi}\int_{-\infty}^{\infty}e^{-itx}\phi(t)\,\mathrm{d}t\)

    这些说明了随机变量和分布函数相互唯一决定

  • 先介绍收敛性:设 \(X\) 有分布函数 \(F(x)\)\(X_n\) 有分布函数 \(F_n(x)\)。若在 \(F(x)\) 的连续点 \(x\) 处,有 \(\lim\limits_{n\rightarrow\infty}F_n(x)=F(x)\),则称 \(X_n\) 依分布收敛 (convergence in distribution) 到 \(X\),记为 \(X_n\overset{d}{\rightarrow} X\);或称 \(F_n\) 弱收敛 (weak convergence) 到 \(F\),记为 \(F_n\overset{w}{\rightarrow}F\)

    连续性定理指出,\(X_n\) 依分布收敛到 \(X\) 的充分必要条件是,其对应的特征函数满足

    \[\lim\limits_{n\rightarrow\infty}\phi_n(t)=\phi(t),\quad\forall t\in\mathbb{R}\]

  • 判定一个函数是否为特征函数有如下定理

    • S. Bochner-Khintchine 定理

      \(\phi(t),t\in\mathbb{R}\) 是连续函数且 \(\phi(0)=1\),其是特征函数的充要条件是他是非负定的,即 \(\forall t_1,\ldots,t_n\in\mathbb{R},\forall z_1,\ldots,z_n\in\mathbb{C},\sum_{k=1}^{n}\sum_{j=1}^{n}\phi(t_k-t_j)z_k\bar{z}_j\ge 0\)

    • Polya 定理

      \(\phi(t)\) 是连续函数、偶函数,在 \((0,\infty)\) 是凸函数,且满足\(\phi(t)\ge 0\),\(\phi(0)=1\),\(\phi(t)\rightarrow 0\,(t\rightarrow\infty)\) 则其是特征函数。

    • J. Marcinkiewiez 定理

      \(\phi(t)\) 具有形式 \(e^{P(t)}\),其中 \(P(t)\) 是多项式,则其系数不能大于 2

有趣的例题

  1. \(\phi(t)\) 是特征函数,证明 \(\bar{\phi},\phi^2,\lvert\phi\rvert^2,Re[\phi]\) 都是特征函数

    \(X,Y\)独立同分布且特征函数为 \(\phi\),则前三个分别为 \(-X,X+Y,X-Y\)

    第四个构造独立于 \(X\) 的随机变量 \(Z\)\(\mathbb{P}[Z=\pm 1]=0.5\),则\(XZ\) 的特征函数为 \(Re[\phi]\)

  2. \(\phi(t)\) 是特征函数,则 \(\lvert\phi(t)\rvert\) 未必是特征函数

    \(X\sim B(1,1/3)\)\(\phi(t)=\frac{2}{3}+\frac{1}{3}e^{it}\) 。设 \(Y\) 的特征函数为 \(\psi(t)=\lvert\phi(t)\rvert\),则 \(\psi^2(t)=\phi(t)\phi(-t)\),即 \(Y_1+Y_2\)\(X_1-X_2\) 同分布。其中 \(Y_1,Y_2\)\(Y\) 独立同分布,\(X_1,X_2\)\(X\) 独立同分布。由于 \(X_1-X_2\in\{-1,0,1\}\),则 \(Y_i\in\{-0.5,0.5\}\),记 \(\mathbb{P}[Y_1=0.5]=\alpha\)。则

    \[\mathbb{P}[Y_1+Y_2=1]=\alpha^2=\mathbb{P}[X_1-X_2=1]=2/9\]

    \[\mathbb{P}[Y_1+Y_2=-11]=(1-\alpha)^2=\mathbb{P}[X_2-X_1=1]=2/9\]

    此时 \(\alpha\) 无解

  3. \[X_1,\ldots,X_4\] 独立同标准正态分布,则

    \[X_1X_2\]的特征函数为 \(\frac{1}{\sqrt{1+t^2}}\)

    \[X_1X_2+X_3X_4\] 的特征函数为 \(\frac{1}{1+t^2}\),即服从拉普拉斯分布

  4. \(X,Y\)独立同标准正态分布,\(U,V\)独立于 \(X,Y\),则\(Z=\frac{UX+VY}{\sqrt{U^2+V^2}}\sim\mathcal{N}(0,1)\)

  5. 利用已知结果若 \(a>0,b>0\),则\(I(a,b)=\int_0^\infty\exp\{-a^2u^2-b^2u^{-2}\}\,\mathrm{d}u=\frac{e^{-2ab}\sqrt{\pi}}{2a}\)

    证明若 \(f(x)=\frac{1}{2\pi x^3}\exp(-\frac{1}{2x}),x>0\), 则 \(\mathbb{E}[e^{-tX}]=\exp(-\sqrt{2t})\)

  6. \(X,Y,Z\)独立同标准正态分布,则

    1. \(X/Y\)服从柯西分布
    2. \(1/X^2\)的概率密度函数为 5. 中结果
    3. \((XYZ)/\sqrt{X^2Y^2+Y^2Z^2+Z^2X^2}\sim\mathcal{N}(0,1/9)\)
  7. \(X_n\) 有分布函数 \(F_n(x)=x-\frac{\sin(2n\pi x)}{2n\pi},0\leq x\leq 1\)

    1. \(X_n\) 有密度函数 \(f_n(x)=1-\cos(2n\pi x),0\leq x\leq 1\)
    2. \(F_n(x)\) 弱收敛于 \(\mathcal{U}[0,1]\),但 \(f_n(x)\) 不收敛