【Note】统计杂文——概率母函数、矩母函数和特征函数

母函数

概率母函数

定义

设 \(X\) 是非负整数的随机变量，定义其概率母函数 (probability-generating function)为

\[g(s)=\mathbb{E}[s^X]=\sum_{j=0}^{\infty} s^j\mathbb{P}[X=j], s\in[-1,1]\]

其中约定 \(0^0=1\)。显然 \(g(s)\) 在 \([-1,1]\) 绝对收敛

性质

\(\mathbb{P}[X=k]=\frac{g^{(k)}(0)}{k!},\ k=0,1,\ldots\)，这说明概率母函数和概率分布列一一对应
\(\mathbb{E}[X]=g^{(1)}(1)\)
若 \(\mathbb{E}[X]<\infty\)，则 \(\mathrm{Var}[X]=g^{(2)}(1)+g^{(1)}(1)-[g^{(1)}(1)]^2\)
若 \(X_1,\ldots,X_n\) 相互独立，\(Y=X_1+\cdots+X_n\)，则 \(g_Y(s)=g_{X_1}(s)\cdots g_{X_n}(s),s\in[-1,1]\)
\(X_1,X_2,\ldots\) 是独立同分布的非负整数随机变量，概率母函数为 \(\psi(x)\); \(N\) 为取正整数值的随机变量且独立于 \(X_i\)，概率母函数为 \(G(s)\)。则 \(Y=X_1+\cdots+X_N\) 的概率母函数为 \(H(s)=G[\psi(s)]\)

只给出性质五的证明

\[\begin{align}H(s)&=\mathbb{E}[\mathbb{E}[S^W\mid Y]]\\&=\sum_{n=1}^{\infty}\mathbb{E}[s^{X_1+\cdots+X_n}]\mathbb{P}[Y=n]\\&=\sum_{n=1}^{\infty}[\psi(s)]^n\mathbb{P}[Y=n]=G[\psi(s)]\end{align}\]

例子

二项分布

二项分布 \(B(n,p)\) 的概率母函数为 \(g(s)=(sp+q)^n\)

由此立得若 \(X_i,\ldots,X_m\) 独立，且\(X_i\sim B(n_i,p)\)，则\(Y=X_1+\cdots+X_m\sim B(n_1+\cdots+n_m,p)\)

泊松分布

泊松分布 \(\mathcal{P}(\lambda)\) 的概率母函数为 \(g(s)=e^{\lambda(s-1)}\)

由此立得若 \(X_i,\ldots,X_m\) 独立，且\(X_i\sim \mathcal{P}(\lambda_i)\)，则\(Y=X_1+\cdots+X_m\sim \mathcal{P}(\lambda_1+\cdots+\lambda_m)\)

几何分布

几何分布 \(G(p)\) 的概率母函数为 \(g(s)=\frac{sp}{1-sq}\)

由此立得若 \(X_i,\ldots,X_m\) 独立，且\(X_i\sim G(p)\)，则\(S_m=X_1+\cdots+X_m\) 有概率母函数 \[\begin{align}g_{S_m}(s)&=\left(\frac{sp}{1-sq}\right)^m\\&=(sp)^m\sum_{j=0}^{\infty}\frac{m(m+1)\cdots(m+j-1)}{j!}(sq)^j\\&=(sp)^m\sum_{j=0}^{\infty}\binom{m+j-1}{j}(sq)^j\\&=\sum_{k=m}^{\infty}\binom{k-1}{m-1}p^mq^{k-m}s^k\end{align}\]

于是得 Pascal 分布 \[\mathbb{E}[S_m=k]=\binom{k-1}{m-1}p^mq^{k-m}\]

求概率

求扔三颗骰子，总点数为 9 的概率。记 \(X_i\) 为第 \(i\) 颗骰子的点数，其概率母函数

\[g(s)=\mathbb{E}[s^{X_1}]=\frac{1}{6}(s+s^2+\cdots+s^6)=\frac{1}{6}\frac{s(1-s^6)}{1-s}\]

则 \(Y=X_1+X_2+X_3\) 的概率母函数为

\[g_Y(s)=[g_X(s)]^3=\frac{s^3(1-s^6)^3}{6^3(1-s)^s}=\frac{1}{6^3}(s^3)(1-3s^6+3s^{12}-s^{18})\sum_{k=0}^{\infty}\binom{k+2}{2}s^k\]

则 \(s^9\) 的系数为 \[\mathbb{P}(Y=9)=\frac{1}{6^3}[\binom{6+2}{2}-3]=\frac{25}{216}\]

推广——二维概率母函数

设 \((X,Y)\) 是二维取非负整数值的随机向量，记 \(p_{ik}=\mathbb{P}[X=i,Y=k]\)，则其二维概率母函数为

\[g(s,t)=\mathbb{E}[s^Xt^Y]=\sum_{i=0}^{infty}\sum_{k=0}^{\infty}p_{ik}s^it^k,\quad s,t\in[-1,1]\]

其有如下性质

\(\lvert g(s,t)\rvert\leq g(1,1)=1,\lvert s\rvert\leq 1,\lvert t\rvert\leq 1\)
\(g_{aX+bY+c}(s)=s^cg(s^a,s^b)\)
若 \(X,Y\) 独立，则 \(g(s,t)=g_X(s)g_Y(t)\)
\(g(s,1)=g_X(s),g(1,t)=g_Y(t)\)
若 \(\mathbb{E}[X]<\infty,\mathbb{E}[Y]<\infty\)，则 \[\mathbb{E}[X]=\frac{\partial g(s,t)}{\partial s}\big|_{s=t=1},\mathbb{E}[Y]=\frac{\partial g(s,t)}{\partial t}\big|_{s=t=1}\]
若 \(\mathbb{E}[X^2]<\infty,\mathbb{E}[Y^2]<\infty\)，则 \[\mathbb{E}[X^2]=\frac{\partial^2 g(s,t)}{\partial s^2}\big|_{s=t=1},\mathbb{E}[Y^2]=\frac{\partial^2 g(s,t)}{\partial t^2}\big|_{s=t=1},\mathbb{E}[XY]=\frac{\partial^2 g(s,t)}{\partial s\partial t}\big|_{s=t=1}\]
\(p_{ik}=\frac{1}{i!k!}\frac{\partial^{i+k}g(s,t)}{\partial s^i\partial t^k}\big |_{s=t=0},\ i,k=0,1,\ldots\)

局限

只能对取非负整数值的随机变量定义

矩母函数

定义

设 \(X\) 是随机变量，定义其矩母函数 (moment-generating function)为

\[M_X(s)=\mathbb{E}[e^{sX}]\]

仅当 \(\mathbb{E}[e^{sX}]<\infty\) 时，我们称 \(M_X(s)\) 存在

性质

\(M_{aX+b}(s)=e^{sb}M(sa)\)
\(\mathbb{E}[X^k]=M^{(k)}(0),k=1,2,\ldots\)
\(M(0)=1\)
可逆性：若\(\exists a>0,\forall s\in[-a,a], M(s)<\infty\)，则 \(M(s)\) 唯一地决定了 \(X\) 的分布函数
若 \(X_1,\ldots,X_n\) 独立，\(Y=X_1+\cdots+X_n\)，则\(M_{Y}(s)=M_{X_1}(s)\cdots M_{X_n}(s)\)
\(X_1,X_2,\ldots\) 独立同分布，矩母函数为 \(M_X(s)\); \(N\) 为取正整数值的随机变量，矩母函数为 \(M_N(s)\)。则 \(Y=X_1+\cdots+X_Y\) 的矩母函数为 \(M_Y(s)=\mathbb{E}[\mathbb{E}[e^{sY}\mid N=n]]=\mathbb{E}[(M_X(s))^n]=\sum_{n=1}^{\infty}(M_X(s))^n\mathbb{P}[N=n]\)

而 \(M_N(s)=\sum_{n=1}^{\infty}[e^s]^n\mathbb{P}[N=n]\) 二者有紧密的联系：将 \(M_N(s)\) 中出现的 \(e^s\) 替换为 \(M_X(s)\) 即可

例子

离散型

X	2	3	5
\(\mathbb{P}\)	1/2	1/6	1/3

\(M(s)=\frac{1}{2}e^{2s}+\frac{1}{6}e^{3s}+\frac{1}{3}e^{5s}\)

\(\mathbb{E}[X]=M^{(1)}(0)=(\frac{1}{2}2e^{2s}+\frac{1}{6}3e^{3s}+\frac{1}{3}5e^{5s})|_{s=0}=\frac{19}{6}\)

\[\mathbb{E}[X^2]=M^{(2)}(0)=(\frac{1}{2}4e^{2s}+\frac{1}{6}9e^{3s}+\frac{1}{3}25e^{5s})|_{s=0}=\frac{71}{6}\]

指数分布

设 \(X\sim \mathcal{E}(\lambda)\)，则当 \(s<\lambda\) 时，有

\[M(s)=\lambda\int_0^\infty e^{sx}e^{-\lambda x}\,\mathrm{d}x=\frac{\lambda}{s-\lambda}e^{(s-\lambda)x}|{x=0}^{\infty}=\frac{\lambda}{\lambda-s}\]

而当 \(s\ge\lambda\) 时 \(M(s)\) 不存在

\[\mathbb{E}[X]=M^{(1)}(0)=\frac{\lambda}{(\lambda-s)^2}|_{s=0}=\frac{1}{\lambda}\]

\[\mathbb{E}[X]=M^{(2)}(0)=\frac{2\lambda}{(\lambda-s)^3}|_{s=0}=\frac{2}{\lambda^2}\]

正态分布

\[X\sim\mathcal{N}({\mu_1,\sigma_1^2}),Y\sim\mathcal{N}(\mu_2,\sigma_2^2), X,Y\] 相互独立，求 \(Z=X+Y\) 的分布

先计算标准正态分布的矩母函数，由定义求得 \(M(s)=e^{s^2/2}\)

根据矩母函数的性质，有 \(M_X(s)=e^{\mu_1 s}e^{\sigma_1^2s^2/2},M_Y(s)=e^{\mu_2 s}e^{\sigma_2^2s^2/2},M_Z(s)=e^{(\mu_1+\mu_2) s}e^{(\sigma_1^2+\sigma_2^2)s^2/2}\)

于是 \(Z\sim\mathcal{N}(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2)\)

复合随机变量

不断进行成功概率为 \(p\) 的伯努利实验直至成功，每次实验的耗时服从参数 \(\lambda\) 的指数分布，且完全独立。求总耗时的分布

首先 \(X_i\sim\mathcal{E}(\lambda), N\sim G(p), Y=X_1+\cdots+X_N\) , 当 \(s<\lambda\) 时有 \(M_{X_i}(s)=\frac{\lambda}{\lambda-s}\) ，而 \(M_N(s)=\frac{pe^s}{1-qe^s}\) ，故

\[M_Y(s)=\frac{p M_X(s)}{1-qM_X(s)}=\frac{p\lambda}{\lambda-s-q\lambda}=\frac{p\lambda}{p\lambda-s}\]

推广——随机向量的矩母函数

设 \(\overset{\rightarrow}{X}=(X_1,X_2,\ldots,X_n)^\intercal\)，则其矩母函数定义为

\[M_\overset{\rightarrow}{X}(\overset{\rightarrow}{s})=\mathbb{E}[e^{\overset{\rightarrow}{s}^\intercal\overset{\rightarrow}{X}}]=\mathbb{E}[e^{s_1X_1+\cdots+s_nX_n}]\]

局限性

有些分布的矩母函数不存在，因为其积分发散，如 Cauchy 分布。为此我们引入特征函数来保证可积性。

特征函数

定义

对随机变量 \(X\) ，定义其特征函数 (characteristic function) 为

\[\phi(t)=\mathbb{E}[e^{itX}]=\mathbb{E}[\cos(tX)]+i\mathbb{E}[\sin(tX)], t\in \mathbb{R}\]

性质

\(\lvert \phi(t)\rvert\leq \phi(0)=1,\quad\phi(-t)=\overline{\phi(t)}\)
\(\phi(t)\) 在 \((-\infty,\infty)\) 一致连续
若 \(\mathbb{E}[\lvert X\rvert^k]<\infty\)，则 \(\phi^{(k)}(t)=i^k\mathbb{E}[X^k e^{itX}],\phi^{(k)}(0)=i^k\mathbb{E}[X^k]\)
非负定性：\(\forall t_1,\ldots,t_n\in\mathbb{R},\forall z_1,\ldots,z_n\in\mathbb{C},\sum_{k=1}^{n}\sum_{j=1}^{n}\phi(t_k-t_j)z_k\bar{z}_j\ge 0\)
若 \(X_1,\ldots,X_n\) 相互独立， \(X_k\) 特征函数为 \(\phi_k(t)\)，则 \(Y=X_1+\cdots+X_n\) 的特征函数为 \(\phi_Y(t)=\phi_1(t)\cdots\phi_{k}(t)\)。注意，逆命题不成立，后面给出了例子。

例子

二项分布

二项分布 \(B(n,p)\) 的特征函数为 \(\phi(t)=(e^{it}p+q)^n\)

(对比其概率母函数 \(g(s)=(sp+q)^n\))

泊松分布

泊松分布 \(\mathcal{P}(\lambda)\) 的特征函数为 \(\phi(t)=e^{\lambda(e^{it}-1)}\)

(对比其概率母函数 \(g(s)=e^{\lambda(s-1)}\))

几何分布

几何分布 \(G(p)\) 的特征函数为 \(\phi(t)=\frac{pe^{it}}{1-qe^{it}}\)

(对比其概率母函数 \(g(s)=\frac{sp}{1-sq}\))

正态分布

正态分布 \(\mathcal{N}(\mu,\sigma^2)\) 有特征函数 \(\phi(t)=e^{i\mu t}e^{-\frac{1}{2}\sigma^2t^2}\)

(对比其矩母函数 \(M(s)=e^{\mu s}e^{\sigma^2s^2/2}\))

先考察标准正态分布。正态分布的特征函数推导不太容易，一种不太严谨的做法是做形式化运算，将 \(i\) 视为常数，则

\[\phi(t)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty e^{itx}e^{-x^2/2}\,\mathrm{d}x=e^{-t^2/2}\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty e^{-(x-it)^2/2}\,\mathrm{d}x=e^{-t^2/2}\]

严格的数学推导需要一定复变函数的背景知识。

首先 \(\phi(t)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty e^{itx}e^{-x^2/2}\,\mathrm{d}x=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty \cos(tx)e^{-x^2/2}\,\mathrm{d}x\)

对 \(t\) 求导得 \[\begin{align}\phi'(t)&=-\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty x\sin(tx)e^{-x^2/2}\,\mathrm{d}x\\&=\frac{1}{\sqrt{2\pi}}\int_{-\infty}\sin(tx)\,\mathrm{d}e^{-x^2/2}\\&=-\frac{1}{\sqrt{2\pi}}\int_{-\infty}^\infty t\cos(tx)e^{-x^2/2}\,\mathrm{d}x\\&=-t\phi(t)\end{align}\]

即 \[\frac{\mathrm{d}}{\mathrm{d}t}[\phi(t)e^{t^2/2}]=0\]，则 \(\phi(t)e^{t^2/2}=C=\phi(0)=1\)，得 \(\phi(t)=e^{-t^2/2}\)

由此再求一般正态的特征函数

\[\mathbb{E}[e^{it(\mu+\sigma X)}]=e^{it\mu}\mathbb{E}[e^{it\sigma X}]=e^{it\mu}e^{-\sigma^2t^2/2}\]

同时，若 \(X_1,\ldots,X_m\) 相互独立，\(X_j\sim\mathcal{\mu_j,\sigma_j^2}\)，则

\[Y=X_1+\cdots+X_m\sim\mathcal{N}(\sum_{j=1}^{m}\mu_j,\sum_{j=1}^{m}\sigma_j^2)\]

均匀分布

均匀分布 \(\mathcal{U}(a,b)\) 的特征函数为 \(\phi(t)=\frac{e^{itb}-e^{ita}}{it(b-a)}\)

指数分布

指数分布 \(\mathcal{E}(\lambda)\) 的特征函数为 \(\phi(t)=(1-\frac{it}{\lambda})^{-1}\)

(与矩母函数 \(M(s)=\frac{\lambda}{\lambda-s}=\frac{1}{1-s/\lambda}=(1-s/\lambda)^{-1}\) 对比)

柯西分布

\(f(x)=\frac{1}{\pi(1+x^2)}\)，其特征函数为 \(\phi(t)=e^{-\lvert t\rvert}\)

取 \(Y=aX,(a>0)\)，则 \(\phi_Y(t)=\mathbb{E}[e^{i(at)X}]=e^{-a\lvert t\rvert}\)，此时

\[\phi_{X+Y}(t)=\mathbb{E}[e^{it(1+a)X}]=e^{-(1+a)\lvert t\rvert}=\phi_X(t)\phi_Y(t)\]，但显然 \(X,Y\) 不独立

拉普拉斯分布

\(f(x)=\frac{1}{2}e^{-\lvert x\rvert}\) ，其特征函数为 \(\phi(t)=\frac{1}{1+t^2}\)

注意它和柯西分布的“对称性”

有趣的例题

\(\phi(t)\) 是特征函数，证明 \(\bar{\phi},\phi^2,\lvert\phi\rvert^2,Re[\phi]\) 都是特征函数

设 \(X,Y\)独立同分布且特征函数为 \(\phi\)，则前三个分别为 \(-X,X+Y,X-Y\)

第四个构造独立于 \(X\) 的随机变量 \(Z\) 且 \(\mathbb{P}[Z=\pm 1]=0.5\)，则\(XZ\) 的特征函数为 \(Re[\phi]\)
\(\phi(t)\) 是特征函数，则 \(\lvert\phi(t)\rvert\) 未必是特征函数

设 \(X\sim B(1,1/3)\)，\(\phi(t)=\frac{2}{3}+\frac{1}{3}e^{it}\) 。设 \(Y\) 的特征函数为 \(\psi(t)=\lvert\phi(t)\rvert\),则 \(\psi^2(t)=\phi(t)\phi(-t)\)，即 \(Y_1+Y_2\) 和 \(X_1-X_2\) 同分布。其中 \(Y_1,Y_2\) 与 \(Y\) 独立同分布，\(X_1,X_2\) 与 \(X\) 独立同分布。由于 \(X_1-X_2\in\{-1,0,1\}\)，则 \(Y_i\in\{-0.5,0.5\}\)，记 \(\mathbb{P}[Y_1=0.5]=\alpha\)。则

\[\mathbb{P}[Y_1+Y_2=1]=\alpha^2=\mathbb{P}[X_1-X_2=1]=2/9\]

\[\mathbb{P}[Y_1+Y_2=-11]=(1-\alpha)^2=\mathbb{P}[X_2-X_1=1]=2/9\]

此时 \(\alpha\) 无解
\[X_1,\ldots,X_4\] 独立同标准正态分布，则

\[X_1X_2\]的特征函数为 \(\frac{1}{\sqrt{1+t^2}}\)

\[X_1X_2+X_3X_4\] 的特征函数为 \(\frac{1}{1+t^2}\)，即服从拉普拉斯分布
\(X,Y\)独立同标准正态分布，\(U,V\)独立于 \(X,Y\)，则\(Z=\frac{UX+VY}{\sqrt{U^2+V^2}}\sim\mathcal{N}(0,1)\)
利用已知结果若 \(a>0,b>0\)，则\(I(a,b)=\int_0^\infty\exp\{-a^2u^2-b^2u^{-2}\}\,\mathrm{d}u=\frac{e^{-2ab}\sqrt{\pi}}{2a}\)

证明若 \(f(x)=\frac{1}{2\pi x^3}\exp(-\frac{1}{2x}),x>0\)，则 \(\mathbb{E}[e^{-tX}]=\exp(-\sqrt{2t})\)
\(X,Y,Z\)独立同标准正态分布，则
1. \(X/Y\)服从柯西分布
2. \(1/X^2\)的概率密度函数为 5. 中结果
3. \((XYZ)/\sqrt{X^2Y^2+Y^2Z^2+Z^2X^2}\sim\mathcal{N}(0,1/9)\)
\(X_n\) 有分布函数 \(F_n(x)=x-\frac{\sin(2n\pi x)}{2n\pi},0\leq x\leq 1\)
1. \(X_n\) 有密度函数 \(f_n(x)=1-\cos(2n\pi x),0\leq x\leq 1\)
2. \(F_n(x)\) 弱收敛于 \(\mathcal{U}[0,1]\)，但 \(f_n(x)\) 不收敛

【Note】 统计杂文——概率母函数、矩母函数和特征函数

【Note】 统计杂文——概率母函数、矩母函数和特征函数

母函数

概率母函数

定义

性质

例子

二项分布

泊松分布

几何分布

求概率

推广——二维概率母函数

局限

矩母函数

定义

性质

例子

离散型

指数分布

正态分布

复合随机变量

推广——随机向量的矩母函数

局限性

特征函数

定义

性质

例子

二项分布

泊松分布

几何分布

正态分布

均匀分布

指数分布

柯西分布

拉普拉斯分布

更多的性质

有趣的例题

【Note】统计杂文——概率母函数、矩母函数和特征函数

【Note】统计杂文——概率母函数、矩母函数和特征函数