母函数
概率母函数
定义
设 \(X\) 是非负整数的随机变量,定义其概率母函数 (probability-generating function)为
\[g(s)=\mathbb{E}[s^X]=\sum_{j=0}^{\infty} s^j\mathbb{P}[X=j], s\in[-1,1]\]
其中约定 \(0^0=1\)。显然 \(g(s)\) 在 \([-1,1]\) 绝对收敛
性质
- \(\mathbb{P}[X=k]=\frac{g^{(k)}(0)}{k!},\ k=0,1,\ldots\),这说明概率母函数和概率分布列一一对应
- \(\mathbb{E}[X]=g^{(1)}(1)\)
- 若 \(\mathbb{E}[X]<\infty\),则 \(\mathrm{Var}[X]=g^{(2)}(1)+g^{(1)}(1)-[g^{(1)}(1)]^2\)
- 若 \(X_1,\ldots,X_n\) 相互独立,\(Y=X_1+\cdots+X_n\),则 \(g_Y(s)=g_{X_1}(s)\cdots g_{X_n}(s),s\in[-1,1]\)
- \(X_1,X_2,\ldots\) 是独立同分布的非负整数随机变量,概率母函数为 \(\psi(x)\); \(N\) 为取正整数值的随机变量且独立于 \(X_i\),概率母函数为 \(G(s)\)。则 \(Y=X_1+\cdots+X_N\) 的概率母函数为 \(H(s)=G[\psi(s)]\)
只给出性质五的证明
\[\begin{align}H(s)&=\mathbb{E}[\mathbb{E}[S^W\mid Y]]\\&=\sum_{n=1}^{\infty}\mathbb{E}[s^{X_1+\cdots+X_n}]\mathbb{P}[Y=n]\\&=\sum_{n=1}^{\infty}[\psi(s)]^n\mathbb{P}[Y=n]=G[\psi(s)]\end{align}\]
例子
二项分布
二项分布 \(B(n,p)\) 的概率母函数为 \(g(s)=(sp+q)^n\)
由此立得若 \(X_i,\ldots,X_m\) 独立,且\(X_i\sim B(n_i,p)\),则\(Y=X_1+\cdots+X_m\sim B(n_1+\cdots+n_m,p)\)
泊松分布
泊松分布 \(\mathcal{P}(\lambda)\) 的概率母函数为 \(g(s)=e^{\lambda(s-1)}\)
由此立得若 \(X_i,\ldots,X_m\) 独立,且\(X_i\sim \mathcal{P}(\lambda_i)\),则\(Y=X_1+\cdots+X_m\sim \mathcal{P}(\lambda_1+\cdots+\lambda_m)\)
几何分布
几何分布 \(G(p)\) 的概率母函数为 \(g(s)=\frac{sp}{1-sq}\)
由此立得若 \(X_i,\ldots,X_m\) 独立,且\(X_i\sim G(p)\),则\(S_m=X_1+\cdots+X_m\) 有概率母函数 \[\begin{align}g_{S_m}(s)&=\left(\frac{sp}{1-sq}\right)^m\\&=(sp)^m\sum_{j=0}^{\infty}\frac{m(m+1)\cdots(m+j-1)}{j!}(sq)^j\\&=(sp)^m\sum_{j=0}^{\infty}\binom{m+j-1}{j}(sq)^j\\&=\sum_{k=m}^{\infty}\binom{k-1}{m-1}p^mq^{k-m}s^k\end{align}\]
于是得 Pascal 分布 \[\mathbb{E}[S_m=k]=\binom{k-1}{m-1}p^mq^{k-m}\]
求概率
求扔三颗骰子,总点数为 9 的概率。 记 \(X_i\) 为第 \(i\) 颗骰子的点数,其概率母函数
\[g(s)=\mathbb{E}[s^{X_1}]=\frac{1}{6}(s+s^2+\cdots+s^6)=\frac{1}{6}\frac{s(1-s^6)}{1-s}\]
则 \(Y=X_1+X_2+X_3\) 的概率母函数为
\[g_Y(s)=[g_X(s)]^3=\frac{s^3(1-s^6)^3}{6^3(1-s)^s}=\frac{1}{6^3}(s^3)(1-3s^6+3s^{12}-s^{18})\sum_{k=0}^{\infty}\binom{k+2}{2}s^k\]
则 \(s^9\) 的系数为 \[\mathbb{P}(Y=9)=\frac{1}{6^3}[\binom{6+2}{2}-3]=\frac{25}{216}\]
推广——二维概率母函数
设 \((X,Y)\) 是二维取非负整数值的随机向量,记 \(p_{ik}=\mathbb{P}[X=i,Y=k]\),则其二维概率母函数为
\[g(s,t)=\mathbb{E}[s^Xt^Y]=\sum_{i=0}^{infty}\sum_{k=0}^{\infty}p_{ik}s^it^k,\quad s,t\in[-1,1]\]
其有如下性质
- \(\lvert g(s,t)\rvert\leq g(1,1)=1,\lvert s\rvert\leq 1,\lvert t\rvert\leq 1\)
- \(g_{aX+bY+c}(s)=s^cg(s^a,s^b)\)
- 若 \(X,Y\) 独立,则 \(g(s,t)=g_X(s)g_Y(t)\)
- \(g(s,1)=g_X(s),g(1,t)=g_Y(t)\)
- 若 \(\mathbb{E}[X]<\infty,\mathbb{E}[Y]<\infty\),则 \[\mathbb{E}[X]=\frac{\partial g(s,t)}{\partial s}\big|_{s=t=1},\mathbb{E}[Y]=\frac{\partial g(s,t)}{\partial t}\big|_{s=t=1}\]
- 若 \(\mathbb{E}[X^2]<\infty,\mathbb{E}[Y^2]<\infty\),则 \[\mathbb{E}[X^2]=\frac{\partial^2 g(s,t)}{\partial s^2}\big|_{s=t=1},\mathbb{E}[Y^2]=\frac{\partial^2 g(s,t)}{\partial t^2}\big|_{s=t=1},\mathbb{E}[XY]=\frac{\partial^2 g(s,t)}{\partial s\partial t}\big|_{s=t=1}\]
- \(p_{ik}=\frac{1}{i!k!}\frac{\partial^{i+k}g(s,t)}{\partial s^i\partial t^k}\big |_{s=t=0},\ i,k=0,1,\ldots\)
局限
只能对取非负整数值的随机变量定义
矩母函数
定义
设 \(X\) 是随机变量,定义其矩母函数 (moment-generating function)为
\[M_X(s)=\mathbb{E}[e^{sX}]\]
仅当 \(\mathbb{E}[e^{sX}]<\infty\) 时,我们称 \(M_X(s)\) 存在
性质
\(M_{aX+b}(s)=e^{sb}M(sa)\)
\(\mathbb{E}[X^k]=M^{(k)}(0),k=1,2,\ldots\)
\(M(0)=1\)
可逆性:若\(\exists a>0,\forall s\in[-a,a], M(s)<\infty\),则 \(M(s)\) 唯一地决定了 \(X\) 的分布函数
若 \(X_1,\ldots,X_n\) 独立,\(Y=X_1+\cdots+X_n\),则\(M_{Y}(s)=M_{X_1}(s)\cdots M_{X_n}(s)\)
\(X_1,X_2,\ldots\) 独立同分布,矩母函数为 \(M_X(s)\); \(N\) 为取正整数值的随机变量,矩母函数为 \(M_N(s)\)。则 \(Y=X_1+\cdots+X_Y\) 的矩母函数为 \(M_Y(s)=\mathbb{E}[\mathbb{E}[e^{sY}\mid N=n]]=\mathbb{E}[(M_X(s))^n]=\sum_{n=1}^{\infty}(M_X(s))^n\mathbb{P}[N=n]\)
而 \(M_N(s)=\sum_{n=1}^{\infty}[e^s]^n\mathbb{P}[N=n]\) 二者有紧密的联系:将 \(M_N(s)\) 中出现的 \(e^s\) 替换为 \(M_X(s)\) 即可
例子
离散型
X | 2 | 3 | 5 |
---|---|---|---|
\(\mathbb{P}\) | 1/2 | 1/6 | 1/3 |
\(M(s)=\frac{1}{2}e^{2s}+\frac{1}{6}e^{3s}+\frac{1}{3}e^{5s}\)
\(\mathbb{E}[X]=M^{(1)}(0)=(\frac{1}{2}2e^{2s}+\frac{1}{6}3e^{3s}+\frac{1}{3}5e^{5s})|_{s=0}=\frac{19}{6}\)
\[\mathbb{E}[X^2]=M^{(2)}(0)=(\frac{1}{2}4e^{2s}+\frac{1}{6}9e^{3s}+\frac{1}{3}25e^{5s})|_{s=0}=\frac{71}{6}\]
指数分布
设 \(X\sim \mathcal{E}(\lambda)\),则当 \(s<\lambda\) 时,有
\[M(s)=\lambda\int_0^\infty e^{sx}e^{-\lambda x}\,\mathrm{d}x=\frac{\lambda}{s-\lambda}e^{(s-\lambda)x}|{x=0}^{\infty}=\frac{\lambda}{\lambda-s}\]
而当 \(s\ge\lambda\) 时 \(M(s)\) 不存在
\[\mathbb{E}[X]=M^{(1)}(0)=\frac{\lambda}{(\lambda-s)^2}|_{s=0}=\frac{1}{\lambda}\]
\[\mathbb{E}[X]=M^{(2)}(0)=\frac{2\lambda}{(\lambda-s)^3}|_{s=0}=\frac{2}{\lambda^2}\]
正态分布
\[X\sim\mathcal{N}({\mu_1,\sigma_1^2}),Y\sim\mathcal{N}(\mu_2,\sigma_2^2), X,Y\] 相互独立,求 \(Z=X+Y\) 的分布
先计算标准正态分布的矩母函数,由定义求得 \(M(s)=e^{s^2/2}\)
根据矩母函数的性质,有 \(M_X(s)=e^{\mu_1 s}e^{\sigma_1^2s^2/2},M_Y(s)=e^{\mu_2 s}e^{\sigma_2^2s^2/2},M_Z(s)=e^{(\mu_1+\mu_2) s}e^{(\sigma_1^2+\sigma_2^2)s^2/2}\)
于是 \(Z\sim\mathcal{N}(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2)\)
复合随机变量
不断进行成功概率为 \(p\) 的伯努利实验直至成功,每次实验的耗时服从参数 \(\lambda\) 的指数分布,且完全独立。 求总耗时的分布
首先 \(X_i\sim\mathcal{E}(\lambda), N\sim G(p), Y=X_1+\cdots+X_N\) , 当 \(s<\lambda\) 时有 \(M_{X_i}(s)=\frac{\lambda}{\lambda-s}\) ,而 \(M_N(s)=\frac{pe^s}{1-qe^s}\) ,故
\[M_Y(s)=\frac{p M_X(s)}{1-qM_X(s)}=\frac{p\lambda}{\lambda-s-q\lambda}=\frac{p\lambda}{p\lambda-s}\]
推广——随机向量的矩母函数
设 \(\overset{\rightarrow}{X}=(X_1,X_2,\ldots,X_n)^\intercal\),则其矩母函数定义为
\[M_\overset{\rightarrow}{X}(\overset{\rightarrow}{s})=\mathbb{E}[e^{\overset{\rightarrow}{s}^\intercal\overset{\rightarrow}{X}}]=\mathbb{E}[e^{s_1X_1+\cdots+s_nX_n}]\]
局限性
有些分布的矩母函数不存在,因为其积分发散,如 Cauchy 分布。为此我们引入特征函数来保证可积性。
特征函数
定义
对随机变量 \(X\) ,定义其特征函数 (characteristic function) 为
\[\phi(t)=\mathbb{E}[e^{itX}]=\mathbb{E}[\cos(tX)]+i\mathbb{E}[\sin(tX)], t\in \mathbb{R}\]
性质
- \(\lvert \phi(t)\rvert\leq \phi(0)=1,\quad\phi(-t)=\overline{\phi(t)}\)
- \(\phi(t)\) 在 \((-\infty,\infty)\) 一致连续
- 若 \(\mathbb{E}[\lvert X\rvert^k]<\infty\),则 \(\phi^{(k)}(t)=i^k\mathbb{E}[X^k e^{itX}],\phi^{(k)}(0)=i^k\mathbb{E}[X^k]\)
- 非负定性:\(\forall t_1,\ldots,t_n\in\mathbb{R},\forall z_1,\ldots,z_n\in\mathbb{C},\sum_{k=1}^{n}\sum_{j=1}^{n}\phi(t_k-t_j)z_k\bar{z}_j\ge 0\)
- 若 \(X_1,\ldots,X_n\) 相互独立, \(X_k\) 特征函数为 \(\phi_k(t)\),则 \(Y=X_1+\cdots+X_n\) 的特征函数为 \(\phi_Y(t)=\phi_1(t)\cdots\phi_{k}(t)\)。注意,逆命题不成立,后面给出了例子。
例子
二项分布
二项分布 \(B(n,p)\) 的特征函数为 \(\phi(t)=(e^{it}p+q)^n\)
(对比其概率母函数 \(g(s)=(sp+q)^n\))
泊松分布
泊松分布 \(\mathcal{P}(\lambda)\) 的特征函数为 \(\phi(t)=e^{\lambda(e^{it}-1)}\)
(对比其概率母函数 \(g(s)=e^{\lambda(s-1)}\))
几何分布
几何分布 \(G(p)\) 的特征函数为 \(\phi(t)=\frac{pe^{it}}{1-qe^{it}}\)
(对比其概率母函数 \(g(s)=\frac{sp}{1-sq}\))
正态分布
正态分布 \(\mathcal{N}(\mu,\sigma^2)\) 有特征函数 \(\phi(t)=e^{i\mu t}e^{-\frac{1}{2}\sigma^2t^2}\)
(对比其矩母函数 \(M(s)=e^{\mu s}e^{\sigma^2s^2/2}\))
先考察标准正态分布。正态分布的特征函数推导不太容易,一种不太严谨的做法是做形式化运算,将 \(i\) 视为常数,则
\[\phi(t)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty e^{itx}e^{-x^2/2}\,\mathrm{d}x=e^{-t^2/2}\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty e^{-(x-it)^2/2}\,\mathrm{d}x=e^{-t^2/2}\]
严格的数学推导需要一定复变函数的背景知识。
首先 \(\phi(t)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty e^{itx}e^{-x^2/2}\,\mathrm{d}x=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty \cos(tx)e^{-x^2/2}\,\mathrm{d}x\)
对 \(t\) 求导得 \[\begin{align}\phi'(t)&=-\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty x\sin(tx)e^{-x^2/2}\,\mathrm{d}x\\&=\frac{1}{\sqrt{2\pi}}\int_{-\infty}\sin(tx)\,\mathrm{d}e^{-x^2/2}\\&=-\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty t\cos(tx)e^{-x^2/2}\,\mathrm{d}x\\&=-t\phi(t)\end{align}\]
即 \[\frac{\mathrm{d}}{\mathrm{d}t}[\phi(t)e^{t^2/2}]=0\],则 \(\phi(t)e^{t^2/2}=C=\phi(0)=1\),得 \(\phi(t)=e^{-t^2/2}\)
由此再求一般正态的特征函数
\[\mathbb{E}[e^{it(\mu+\sigma X)}]=e^{it\mu}\mathbb{E}[e^{it\sigma X}]=e^{it\mu}e^{-\sigma^2t^2/2}\]
同时,若 \(X_1,\ldots,X_m\) 相互独立,\(X_j\sim\mathcal{\mu_j,\sigma_j^2}\),则
\[Y=X_1+\cdots+X_m\sim\mathcal{N}(\sum_{j=1}^{m}\mu_j,\sum_{j=1}^{m}\sigma_j^2)\]
均匀分布
均匀分布 \(\mathcal{U}(a,b)\) 的特征函数为 \(\phi(t)=\frac{e^{itb}-e^{ita}}{it(b-a)}\)
指数分布
指数分布 \(\mathcal{E}(\lambda)\) 的特征函数为 \(\phi(t)=(1-\frac{it}{\lambda})^{-1}\)
(与矩母函数 \(M(s)=\frac{\lambda}{\lambda-s}=\frac{1}{1-s/\lambda}=(1-s/\lambda)^{-1}\) 对比)
柯西分布
\(f(x)=\frac{1}{\pi(1+x^2)}\),其特征函数为 \(\phi(t)=e^{-\lvert t\rvert}\)
取 \(Y=aX,(a>0)\),则 \(\phi_Y(t)=\mathbb{E}[e^{i(at)X}]=e^{-a\lvert t\rvert}\),此时
\[\phi_{X+Y}(t)=\mathbb{E}[e^{it(1+a)X}]=e^{-(1+a)\lvert t\rvert}=\phi_X(t)\phi_Y(t)\],但显然 \(X,Y\) 不独立
拉普拉斯分布
\(f(x)=\frac{1}{2}e^{-\lvert x\rvert}\) ,其特征函数为 \(\phi(t)=\frac{1}{1+t^2}\)
注意它和柯西分布的“对称性”
更多的性质
若 \(\mathbb{E}[\lvert X\rvert^n]<\infty\),则 \(\phi(t)=\sum_{m=0}^{n}\frac{\mathbb{E}[(itX)^m]}{m!}+o(t^n)\)
特别的,若二阶矩存在,则 \(\phi(t)=1+it\mathbb{E}[X]-\frac{1}{2}t^2\mathbb{E}[X^2]+o(t^2)\)
逆转公式:若累积分布函数 \(F(x)\) 在 \((a,b)\) 连续,则
\[\frac{1}{2\pi}\lim\limits_{T\rightarrow\infty}\int_{-T}^T\frac{e^{-ita}-e^{-itb}}{it}\phi(t)\,\mathrm{d}t=F(b)-F(a)\]
若 \(\int_{-\infty}^{\infty}\lvert\phi(t)\rvert\,\mathrm{d}t<\infty\),则 \(X\) 有有界连续密度函数 \(f(x)=\frac{1}{2\pi}\int_{-\infty}^{\infty}e^{-itx}\phi(t)\,\mathrm{d}t\)
这些说明了随机变量和分布函数相互唯一决定
先介绍收敛性:设 \(X\) 有分布函数 \(F(x)\), \(X_n\) 有分布函数 \(F_n(x)\)。若在 \(F(x)\) 的连续点 \(x\) 处,有 \(\lim\limits_{n\rightarrow\infty}F_n(x)=F(x)\),则称 \(X_n\) 依分布收敛 (convergence in distribution) 到 \(X\),记为 \(X_n\overset{d}{\rightarrow} X\);或称 \(F_n\) 弱收敛 (weak convergence) 到 \(F\),记为 \(F_n\overset{w}{\rightarrow}F\)
连续性定理指出,\(X_n\) 依分布收敛到 \(X\) 的充分必要条件是,其对应的特征函数满足
\[\lim\limits_{n\rightarrow\infty}\phi_n(t)=\phi(t),\quad\forall t\in\mathbb{R}\]
判定一个函数是否为特征函数有如下定理
S. Bochner-Khintchine 定理
设 \(\phi(t),t\in\mathbb{R}\) 是连续函数且 \(\phi(0)=1\),其是特征函数的充要条件是他是非负定的,即 \(\forall t_1,\ldots,t_n\in\mathbb{R},\forall z_1,\ldots,z_n\in\mathbb{C},\sum_{k=1}^{n}\sum_{j=1}^{n}\phi(t_k-t_j)z_k\bar{z}_j\ge 0\)
Polya 定理
设 \(\phi(t)\) 是连续函数、偶函数,在 \((0,\infty)\) 是凸函数,且满足\(\phi(t)\ge 0\),\(\phi(0)=1\),\(\phi(t)\rightarrow 0\,(t\rightarrow\infty)\) 则其是特征函数。
J. Marcinkiewiez 定理
若 \(\phi(t)\) 具有形式 \(e^{P(t)}\),其中 \(P(t)\) 是多项式,则其系数不能大于 2
有趣的例题
\(\phi(t)\) 是特征函数,证明 \(\bar{\phi},\phi^2,\lvert\phi\rvert^2,Re[\phi]\) 都是特征函数
设 \(X,Y\)独立同分布且特征函数为 \(\phi\),则前三个分别为 \(-X,X+Y,X-Y\)
第四个构造独立于 \(X\) 的随机变量 \(Z\) 且 \(\mathbb{P}[Z=\pm 1]=0.5\),则\(XZ\) 的特征函数为 \(Re[\phi]\)
\(\phi(t)\) 是特征函数,则 \(\lvert\phi(t)\rvert\) 未必是特征函数
设 \(X\sim B(1,1/3)\),\(\phi(t)=\frac{2}{3}+\frac{1}{3}e^{it}\) 。设 \(Y\) 的特征函数为 \(\psi(t)=\lvert\phi(t)\rvert\),则 \(\psi^2(t)=\phi(t)\phi(-t)\),即 \(Y_1+Y_2\) 和 \(X_1-X_2\) 同分布。其中 \(Y_1,Y_2\) 与 \(Y\) 独立同分布,\(X_1,X_2\) 与 \(X\) 独立同分布。由于 \(X_1-X_2\in\{-1,0,1\}\),则 \(Y_i\in\{-0.5,0.5\}\),记 \(\mathbb{P}[Y_1=0.5]=\alpha\)。则
\[\mathbb{P}[Y_1+Y_2=1]=\alpha^2=\mathbb{P}[X_1-X_2=1]=2/9\]
\[\mathbb{P}[Y_1+Y_2=-11]=(1-\alpha)^2=\mathbb{P}[X_2-X_1=1]=2/9\]
此时 \(\alpha\) 无解
\[X_1,\ldots,X_4\] 独立同标准正态分布,则
\[X_1X_2\]的特征函数为 \(\frac{1}{\sqrt{1+t^2}}\)
\[X_1X_2+X_3X_4\] 的特征函数为 \(\frac{1}{1+t^2}\),即服从拉普拉斯分布
\(X,Y\)独立同标准正态分布,\(U,V\)独立于 \(X,Y\),则\(Z=\frac{UX+VY}{\sqrt{U^2+V^2}}\sim\mathcal{N}(0,1)\)
利用已知结果若 \(a>0,b>0\),则\(I(a,b)=\int_0^\infty\exp\{-a^2u^2-b^2u^{-2}\}\,\mathrm{d}u=\frac{e^{-2ab}\sqrt{\pi}}{2a}\)
证明若 \(f(x)=\frac{1}{2\pi x^3}\exp(-\frac{1}{2x}),x>0\), 则 \(\mathbb{E}[e^{-tX}]=\exp(-\sqrt{2t})\)
\(X,Y,Z\)独立同标准正态分布,则
- \(X/Y\)服从柯西分布
- \(1/X^2\)的概率密度函数为 5. 中结果
- \((XYZ)/\sqrt{X^2Y^2+Y^2Z^2+Z^2X^2}\sim\mathcal{N}(0,1/9)\)
\(X_n\) 有分布函数 \(F_n(x)=x-\frac{\sin(2n\pi x)}{2n\pi},0\leq x\leq 1\)
- \(X_n\) 有密度函数 \(f_n(x)=1-\cos(2n\pi x),0\leq x\leq 1\)
- \(F_n(x)\) 弱收敛于 \(\mathcal{U}[0,1]\),但 \(f_n(x)\) 不收敛