关于大二上学期概率论学的稀烂,期末复习知识不进脑子的那点事……

二项随机概率分布

$b(x;n,p)$代表事件总共发生n次,有x次成功,每次事件成功的概率是p,则事件成功的概率是多少,是$C_n^xp^x(1-p)^{1-x}$。

cdf (概率分布函数)

$P(X\leq x)=B(x;n,p)=\sum_{y=0}^xb(y;n,p)$

这玩意实际运算的时候,可以查表orz..

均值和方差

对于二项分布$X$~$Bin(n,p)$,均值$E(x)=np$,方差$V(x)=np(1-p)$,标准差$\sigma_x=\sqrt{np(1-p)}$。

证明均值的过程:

Hypergeometric Distribution & Negative Binomial Distributions(超几何分布和负二项分布)

超几何分布

$P(X=x)=h(x;n,M,N)=\frac{出现x次的次数}{可能情况的次数}=\frac{CM^xC{N-M}^{n-x}}{C_N^n}$,表示总共N个物品,M个特定物品,抽取n次,抽到特定物品x次的概率。

期望和方差

$E(x)=n\frac{M}{N}$

$V(x)=(\frac{N-n}{N-1})n\frac{M}{N}(1-\frac{M}{N})$

负二项分布

成功次数固定,实验次数不定

$nb(x;r,p)$,表示x次失败,r次成功,单次成功概率是p,意味着x+r-1次实验之前,是r-1次成功,第x+r次必定成功

泊松分布

$p(x;\lambda)=\frac{e^{-\lambda}\lambda^x}{x!}$

当二项分布$b(x;n,p)$中n极大且p极小时,可以视为泊松分布$p(x;\lambda)$,$\lambda=np$。

均值和方差

都是$\lambda$

pdf(概率密度函数)

$P(a\leq X\leq b)=\int_a^bf(x)dx$,也就是说,X在区间[a, b]中取某个值的概率是该区间上方和密度函数图下方的面积。f(x)的图形通常被称为密度曲线。

$P(X=c)=\intc^cf(x)dx=\lim{\varepsilon\rightarrow0}\int_{c-\varepsilon}^{c+\varepsilon}f(x)dx=0$。

$P(a\leq X\leq b)=F(b)-F(a)$,前提是求出概率分布函数F(x),这样可以不用积分辣,而且更直接的是:$P(x\leq a)=F(a)$。

如果x连续分布,概率密度函数f(x)和概率分布函数F(x)存在,且每一个x都存在一个对应的导数F’(x),则$F’(x)=f(x)$。

期望值与方差

$\mux=E(x)=\int{-\infty}^{+\infty}xf(x)dx$,

$E[h(X)]=\int_{-\infty}^{+\infty}h(x)f(x)dx$,或者$E[h(X)]=E(aX+b)=aE(x)+b$。

$V(x)=E(x^2)-[E(x)]^2$。

均匀分布

$f(x;A,B)=\frac{1}{B-A}$ when $A\leq x\leq B$。另外的部分为0

正态分布

概率密度函数

$f(x;\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/(2\sigma)^2}$。

标准正态分布

$f(z;0,1)=\frac{1}{\sqrt{2\pi}}e^{-z^2/2}$ $-\infty<z<+\infty$。

当拿到一个非标准化的正态分布时,通过找到z临界来还原标准正态分布,$z=\frac{X-\mu}{\sigma}$,其中$\mu$是期望,$\sigma$是标准差。

百分位数

这个就是一个查表的玩意,比如第67个百分位数,就在正态分布表查.6700,所对应的数就是第67个百分位数,是0.44,如果在两个中间,就取中间值。

z数

$z_a$的下标表示大于这个数的概率是a,它同时代表了100(1-a)个百分位,也叫z临界值。

指数分布

$f(X;\lambda)=\begin{cases}\lambda e^{-\lambda x},x\geq1\0,otherwise\end{cases}$

均值和方差

$E(X)=\int_0^{\infty}x\lambda e^{-\lambda x}dx$,这么算出来之后捏,是:

$\mu=\frac{1}{\lambda}$,$\sigma^2=\frac{1}{\lambda^2}$。也就是说,无论是均值还是标准差,指数分布这俩是一样的。

概率分布函数

$F(X;\lambda)=\begin{cases}0,x<0\1-e^{-\lambda x},x\geq0\end{cases}$

伽马函数

$\gamma(a)=\int_0^\infty x^{a-1}e^{-x}dx$,

性质:

  • 对于任意$a>1$,$\gamma(a)=(a-1)*\gamma(a-1)$
  • 对于任意正整数n,$\gamma(n)=(n-1)!$
  • $\gamma(\frac{1}{2})=\sqrt{\pi}$

伽马分布

就这样演变出了个新的分布:

$f(x;\alpha,\beta)=\begin{cases}\frac{1}{\beta^{\alpha}\gamma(a)}x^{\alpha-1}e^{-x/\beta},x\geq0\0,otherwise\end{cases}$

均值和方差

$E(x)=\alpha\beta$

$V(x)=\sigma^2=\alpha\beta^2$

概率分布函数

如果是标准的伽马函数,分布是这样的

$F(x;a)=\int_0^x\frac{y^{a-1}e^{-y}}{\gamma(a)}dy$

常见连续性分布的数学期望和方差

均匀分布

$f(x)=\frac{1}{b-a}$当$a<=x<=b$时,$EX=\frac{a+b}{2}$,$DX=\frac{(b-a)^2}{12}$。

协方差:COV(x,y)

公式:

$cov(x,y)=E(x,y)-ExEy$。

$fx(x)=\int{-\infty}^{+\infty}f(x,y)dy$ x的范围

$fy(y)=\int{-\infty}^{+\infty}f(x,y)dx$ y的范围

$E(x)=\int_{a}^{b}xf_x(x)dx$ a,b是x的范围

$E(y)=\int_a^byf_y(y)dy$ a,b概念同上

$E(xy)=\int_a^b\int_c^dxyf(x,y)dxdy$ 这是建立在x,y不独立的基础上的

$E(xy)=E(x)E(y)$ 当x,y相互独立时期望算法

性质:

  • $Cov(x,y)=Cov(y,x)$
  • $Cov(ax,by)=abCov(x,y)$
  • $Cov(x_1+x_2,y)=Cov(x_1,y)+Cov(x_2,y)$
  • $Cov(c,x)=0$ 常数和变量的协方差等于0
  • x,y独立,$Cov(x,y)=0$ ,但是协方差为0不能得出x,y独立

相关系数$\rho$

公式:

$\rho=\frac{Cov(x,y)}{\sqrt{Dx}\sqrt{Dy}}$

Dx和Dy是方差,开根号就是标准差

这里有一个关于方差的公式:$D(x-y)=Dx+Dy-2Cov(x,y)$

性质:

$\rho$代表了线性关系的相关性,如果$\rho=0$则说明x,y不相关

$|\rho|<1$

$|\rho|=1<=>x和y以p=1成线性关系$ 就是$p(Y=aX+b)=1$

独立和不相关

x,y独立意思是x和y之间没有关系,互不影响,而x,y不相关的意思是x和y之间没有线性关系(可能有非线性关系)

因此:

  • x,y独立意味着x,y不相关
  • x,y不相关不一定代表x,y独立

另外要想证明x,y独立,需要知道x,y独立的充要条件,即:

$f(x,y)=f_x(x)f_y(y)$

中心距与原点矩

定义:

原点矩:$E(x)^k$ 期望E(x)也叫一阶原点矩

离散:$\sum_{0}^ix_i^kp_i$

连续:$\int_{-\infty}^{\infty}x^kf(x)dx$

中心距:$E(x-E(X))^k$

离散:$\sum(x_i-E(x))^kp_i$

连续:$\int_{-\infty}^{\infty}(x-E(x))^kf(x)dx$

  • 一阶中心距:$E(x-E(x))=E(x)-E(x)=0$
  • 二阶中心矩:$E(x-E(x))^2$ 就是方差