概率论复习
关于大二上学期概率论学的稀烂,期末复习知识不进脑子的那点事……
二项随机概率分布
$b(x;n,p)$代表事件总共发生n次,有x次成功,每次事件成功的概率是p,则事件成功的概率是多少,是$C_n^xp^x(1-p)^{1-x}$。
cdf (概率分布函数)
$P(X\leq x)=B(x;n,p)=\sum_{y=0}^xb(y;n,p)$
这玩意实际运算的时候,可以查表orz..
均值和方差
对于二项分布$X$~$Bin(n,p)$,均值$E(x)=np$,方差$V(x)=np(1-p)$,标准差$\sigma_x=\sqrt{np(1-p)}$。
证明均值的过程:
Hypergeometric Distribution & Negative Binomial Distributions(超几何分布和负二项分布)
超几何分布
$P(X=x)=h(x;n,M,N)=\frac{出现x次的次数}{可能情况的次数}=\frac{CM^xC{N-M}^{n-x}}{C_N^n}$,表示总共N个物品,M个特定物品,抽取n次,抽到特定物品x次的概率。
期望和方差
$E(x)=n\frac{M}{N}$
$V(x)=(\frac{N-n}{N-1})n\frac{M}{N}(1-\frac{M}{N})$
负二项分布
成功次数固定,实验次数不定
$nb(x;r,p)$,表示x次失败,r次成功,单次成功概率是p,意味着x+r-1次实验之前,是r-1次成功,第x+r次必定成功
泊松分布
$p(x;\lambda)=\frac{e^{-\lambda}\lambda^x}{x!}$
当二项分布$b(x;n,p)$中n极大且p极小时,可以视为泊松分布$p(x;\lambda)$,$\lambda=np$。
均值和方差
都是$\lambda$
pdf(概率密度函数)
$P(a\leq X\leq b)=\int_a^bf(x)dx$,也就是说,X在区间[a, b]中取某个值的概率是该区间上方和密度函数图下方的面积。f(x)的图形通常被称为密度曲线。
$P(X=c)=\intc^cf(x)dx=\lim{\varepsilon\rightarrow0}\int_{c-\varepsilon}^{c+\varepsilon}f(x)dx=0$。
$P(a\leq X\leq b)=F(b)-F(a)$,前提是求出概率分布函数F(x),这样可以不用积分辣,而且更直接的是:$P(x\leq a)=F(a)$。
如果x连续分布,概率密度函数f(x)和概率分布函数F(x)存在,且每一个x都存在一个对应的导数F’(x),则$F’(x)=f(x)$。
期望值与方差
$\mux=E(x)=\int{-\infty}^{+\infty}xf(x)dx$,
$E[h(X)]=\int_{-\infty}^{+\infty}h(x)f(x)dx$,或者$E[h(X)]=E(aX+b)=aE(x)+b$。
$V(x)=E(x^2)-[E(x)]^2$。
均匀分布
$f(x;A,B)=\frac{1}{B-A}$ when $A\leq x\leq B$。另外的部分为0
正态分布
概率密度函数
$f(x;\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/(2\sigma)^2}$。
标准正态分布
$f(z;0,1)=\frac{1}{\sqrt{2\pi}}e^{-z^2/2}$ $-\infty<z<+\infty$。
当拿到一个非标准化的正态分布时,通过找到z临界来还原标准正态分布,$z=\frac{X-\mu}{\sigma}$,其中$\mu$是期望,$\sigma$是标准差。
百分位数
这个就是一个查表的玩意,比如第67个百分位数,就在正态分布表查.6700,所对应的数就是第67个百分位数,是0.44,如果在两个中间,就取中间值。
z数
$z_a$的下标表示大于这个数的概率是a,它同时代表了100(1-a)个百分位,也叫z临界值。
指数分布
$f(X;\lambda)=\begin{cases}\lambda e^{-\lambda x},x\geq1\0,otherwise\end{cases}$
均值和方差
$E(X)=\int_0^{\infty}x\lambda e^{-\lambda x}dx$,这么算出来之后捏,是:
$\mu=\frac{1}{\lambda}$,$\sigma^2=\frac{1}{\lambda^2}$。也就是说,无论是均值还是标准差,指数分布这俩是一样的。
概率分布函数
$F(X;\lambda)=\begin{cases}0,x<0\1-e^{-\lambda x},x\geq0\end{cases}$
伽马函数
$\gamma(a)=\int_0^\infty x^{a-1}e^{-x}dx$,
性质:
- 对于任意$a>1$,$\gamma(a)=(a-1)*\gamma(a-1)$
- 对于任意正整数n,$\gamma(n)=(n-1)!$
- $\gamma(\frac{1}{2})=\sqrt{\pi}$
伽马分布
就这样演变出了个新的分布:
$f(x;\alpha,\beta)=\begin{cases}\frac{1}{\beta^{\alpha}\gamma(a)}x^{\alpha-1}e^{-x/\beta},x\geq0\0,otherwise\end{cases}$
均值和方差
$E(x)=\alpha\beta$
$V(x)=\sigma^2=\alpha\beta^2$
概率分布函数
如果是标准的伽马函数,分布是这样的
$F(x;a)=\int_0^x\frac{y^{a-1}e^{-y}}{\gamma(a)}dy$
常见连续性分布的数学期望和方差
均匀分布
$f(x)=\frac{1}{b-a}$当$a<=x<=b$时,$EX=\frac{a+b}{2}$,$DX=\frac{(b-a)^2}{12}$。
协方差:COV(x,y)
公式:
$cov(x,y)=E(x,y)-ExEy$。
$fx(x)=\int{-\infty}^{+\infty}f(x,y)dy$ x的范围
$fy(y)=\int{-\infty}^{+\infty}f(x,y)dx$ y的范围
$E(x)=\int_{a}^{b}xf_x(x)dx$ a,b是x的范围
$E(y)=\int_a^byf_y(y)dy$ a,b概念同上
$E(xy)=\int_a^b\int_c^dxyf(x,y)dxdy$ 这是建立在x,y不独立的基础上的
$E(xy)=E(x)E(y)$ 当x,y相互独立时期望算法
性质:
- $Cov(x,y)=Cov(y,x)$
- $Cov(ax,by)=abCov(x,y)$
- $Cov(x_1+x_2,y)=Cov(x_1,y)+Cov(x_2,y)$
- $Cov(c,x)=0$ 常数和变量的协方差等于0
- x,y独立,$Cov(x,y)=0$ ,但是协方差为0不能得出x,y独立
相关系数$\rho$
公式:
$\rho=\frac{Cov(x,y)}{\sqrt{Dx}\sqrt{Dy}}$
Dx和Dy是方差,开根号就是标准差
这里有一个关于方差的公式:$D(x-y)=Dx+Dy-2Cov(x,y)$
性质:
$\rho$代表了线性关系的相关性,如果$\rho=0$则说明x,y不相关
$|\rho|<1$
$|\rho|=1<=>x和y以p=1成线性关系$ 就是$p(Y=aX+b)=1$
独立和不相关
x,y独立意思是x和y之间没有关系,互不影响,而x,y不相关的意思是x和y之间没有线性关系(可能有非线性关系)
因此:
- x,y独立意味着x,y不相关
- x,y不相关不一定代表x,y独立
另外要想证明x,y独立,需要知道x,y独立的充要条件,即:
$f(x,y)=f_x(x)f_y(y)$
中心距与原点矩
定义:
原点矩:$E(x)^k$ 期望E(x)也叫一阶原点矩
离散:$\sum_{0}^ix_i^kp_i$
连续:$\int_{-\infty}^{\infty}x^kf(x)dx$
中心距:$E(x-E(X))^k$
离散:$\sum(x_i-E(x))^kp_i$
连续:$\int_{-\infty}^{\infty}(x-E(x))^kf(x)dx$
- 一阶中心距:$E(x-E(x))=E(x)-E(x)=0$
- 二阶中心矩:$E(x-E(x))^2$ 就是方差