概率论基本概念

概率论基础知识笔记

Vonng

1. 集合论

样本空间和样本点是概率论中无定义的基本概念,如同几何中的点和直线的概念一般。

定义:事件

事件:事件是样本点的集合

  • \(A=0\)表示事件A不含任何样本点,即A是不可能事件。

\(A=0\)是一个代数表达式而不是算术表达式,0在这里是一个符号。

  • 样本空间中一切不属于事件A的点所构成的事件称为A的补事件。或称非事件。并以\(A^C\)记之,\(S^C=0\)

  • 事件A、B、C的交,用\(A\cap B \cap C\)表示,并用\(A \cup B \cup C\)表示事件的并

  • \(A\subset B\) 称为A蕴涵B,意味着A的每一个点都在B中。

2 概率论基础

这里采用公理化的方法来定义概率。至于如何解释概率,例如“事件的出现频率”(频率学派),或者是“对事件出现的信念”(贝叶斯学派),这里我们并不关心。

2.1 公理化基础

对于样本空间S的每一个事件A,我们希望给A赋一个0到1之间的数值P(A),称之为A的概率。

定义:σ代数/Borel域

S的一族子集如果满足下列三个性质,就称为一个σ代数或一个Borel域,记作\(\mathcal{B}\)

  • \(\varnothing \in \mathcal{B}\)
  • \(A \in \mathcal{B} \Rightarrow A^C \in \mathcal{B} \)
  • \(\displaystyle A_1,A_2,\cdots \in \mathcal{B} \Rightarrow \bigcup_{i=1}^{\infty}{A_i} \in \mathcal{B}\)

满足这样三条性质(空集存在,对补运算与并运算封闭)的σ代数有很多,这里讨论的是包含S中全体开集的最小σ代数。对于可数样本空间,通常是\(\mathcal{B}=\{S的全体子集,包括S本身\}\)。对于不可数的样本空间,例如\(S=(-\infty,\infty)\)为实数轴,则可以取\(\mathcal{B} \)为包含所有形如\([a,b],(a,b],[a,b),(a,b)\)的集合,其中\(a,b \in \mathbb{R}\)

定义:概率函数

已知样本空间S和σ代数\(\mathcal{B}\),定义在\(\mathcal{B}\)上且满足下列条件的函数P称为一个概率函数(probability fucntion)

  • \(\forall A \in \mathcal{B}, P(A) \ge 0\)
  • \(P(S) = 1\)
  • \(A_1,A_2,\cdots \in \mathcal{B}\)两两不相交,则\(\displaystyle P(\bigcup_{i=1}^{\infty}{A_i}) = \sum_{i=1}^{\infty}{P(A_i)}\)

概率非负性,概率归一化,概率可数可加。这三条性质称为概率公理,或Kolmogorov公理。只要满足这三条公理,函数P就可以称为一个概率函数。

(PS:统计学家通常不接受可数可加公理,只接受其推论:有限可加性公理\(P(A\cup B)=P(A)+P(B)\)

2.2 概率演算

定理:设P是一个概率函数,\(A,B \in \mathcal{B}\)

  • \(P(\varnothing) = 0\)
  • \(P(A) \le 1\)
  • \(P(A^C) = 1- P(A)\)
  • \(P(B \cap A^C) = P(B)- P(A \cap B)\)
  • \(P(A \cup B) = P(A) + P(B)- P(A \cap B)\)
  • \(A \subset B \Rightarrow P(A) \le P(B)\)
  • \(P(A \cap B) \ge P(A) + P(B) - 1\) ,Bonferroni不等式,用单个事件概率估算并发概率
  • 对于任意划分\(C_1,C_2,\cdots\),都有\(\displaystyle P(A)= \sum_{i=1}^{\infty}{A \cap C_i}\)
  • 对于任意集合\(A_1,A_2,\cdots\)都有\(\displaystyle P(\bigcup_{i=1}^{\infty}{A \cap C_i}) \le \sum_{i=1}^{\infty}{P(A\cap C_i)}\),Boole不等式。

2.3 计数

计数涉及到很多组合分析的知识,这些分析都基于这样一条定理:

定理:计数基本定理

如果一项工作由k个相互独立的子任务组成,其中第i个任务可以使用\(n_i\)种方式完成,则正向工作可以用\(n_1 \times n_2 \times \cdots \times n_k\)种方式组成。

该定理的证明可以由笛卡尔积运算的定义与性质得出。

计数的两个基本问题包括:

  • 样本是否有序?
  • 抽样是否放回?
定义:总体/子总体/有序样本
  • 总体:我们用大小为n的总体表示一个由n个元素构成的集合。

因为总体是集合,所以总体是无序的,总体相同当且仅当两个总体含有相同的元素。

  • 子总体:从大小为n的总体中选取r个元素,就构成了一个大小为r的子总体。

  • 对子总体中的元素进行编号,可以得到大小为r的有序样本。总共有\(n!\)种。

从n个对象中选取r个的全体可能方式的数目
无放回抽样 有放回抽样
有序样本 \(\frac {n!} {(n-r)! } = \binom n r A_r^r \) \(n^r\)
无序子总体 \(\binom n r = \frac {n!}{(n-r)!r!}\) \(\binom {n+r-1} r\)
  • 有序有放回最简单,每次n种可能,进行r次抽样,所以是\(n^r\)
  • 有序无放回从n个总体中选择出大小为r的有序样本,所以\(\binom n r A_r^r = \binom n r r! = \frac {n!}{(n-r)!}\)
  • 无序无放回和有序无放回类似,只不过抽出的是一个大小为r的子总体而不是有序样本。
  • 有放回的无序抽样最复杂。可以理解为在n个元素上放入r个标记。把元素的边界当成一个元素考虑,那么n个盒子共有n+1个边界,共有r个标记。现在除去两侧的边界,一共有n-1+r个空位。从这些空位中选出r个来放置标记。所以是\(\binom {n-1+r} r\)
常见组合问题
  • 大小为n的总体,有放回抽样出大小为r的有序样本:

\(\displaystyle n^r\)

  • 大小为n的总体,无放回抽样出大小为r的有序样本:

\(\displaystyle (n)_r=n(n-1)\cdots(n-r+1)=\frac{n!}{(n-r)!} = C_n^r A_n^r = \binom n r r !\)

  • 大小为n的总体,有放回抽样出大小为r的子总体:

\(\displaystyle \binom n r = \frac{(n)_r}{r!} = C_n^r = \frac{n!}{(n-r)!r!}\)

  • 大小为n的总体,无放回抽样出大小为r的子总体:

\(\displaystyle \binom {n-1 +r} r\)

  • 大小为n的总体划分为k组,每组个数为\(r_1,\cdots, r_k\)

\(\displaystyle \frac{n!} {r_1!r_2!\cdots r_k!}\)

  • 大小为n的总体里有m个阳性样本,无放回抽样出大小为r的子总体,其中出现k个阳性样本的概率:

\(\displaystyle \frac{\binom{m}{k} \binom{n-m}{r-k}}{\binom{n}{r}}\)

3. 条件概率与独立性

定义:条件概率

设A,B为S重的时间,且\(P(B) > 0\) ,则在事件B发生的条件下事件A发生的条件概率记作\(P(A |B)\)表示为:

\[ \displaystyle P(A|B) = \frac {P(A \cap B) } {P(B)} \]

直觉上很好理解,AB共同发生的概率等于B发生的概率 乘以B发生条件下A发生的概率:\(P(AB) = P(A|B)P(B)\)

自然而然,A在B条件下的发生概率为:AB共同发生概率 除以 B的发生概率。这里事件B的样本点构成了新的样本空间,而P(A|B)也一定满足概率三公理,构成新样本空间上的一个概率函数。

定理:Bayes公式

\(A_1,A_2,\cdots\)为样本空间的一个划分,B为任意集合,则对\(i=1,2,\cdots\),有:

\[ \displaystyle P(A_i | B) = \frac {P(B|A_i)P(A_i)} {\sum_{j=1}^{\infty}{P(B|A_j)P(A_j)}} \]

定义:统计独立

称事件A,B统计独立(statistically independent),如果\(P(A \cap B) = P(A)P(B)\)

称一系列事件\(A_1,\cdots, A_n\)相互独立(mutually independent),如果对于任意\(A_{i_1},\cdots,A_{i_k}\)都有:

\[ \displaystyle P( \bigcap_{j=1}^{k}{A_{i_j}}) = \prod_{j=1}^{k}P(A_{i_j}) \]

4. 随机变量

许多试验中存在一个具有概括作用的变量,它处理起来比原概率模型要简单的多。

例如:50个人表决的结果,样本空间为\(2^{50}\)。其实我们感兴趣的只不过是有多少人赞成,那么定义变量X=赞成个数,样本空间就变成了整数集合:\(\{s| 0 \le s \le 50 \wedge s \in \mathbb{Z} \}\)

定义:随机变量

从样本空间映射到实数的函数称为随机变量(random variable)

定义了随机变量,也就定义了一个新的样本空间(随机变量的值域)。但更重要的是,我们要通过原来样本空间上定义的概率函数,定义出这个随机变量的概率函数:诱导概率函数\(P_X\)

假设有样本空间\(S=\{s_1,\cdots, s_n\}\)以及概率函数P,定义随机变量X的值域为:\(\mathcal{X} = \{x_1,\cdots, x_n\}\)。我们可以如下定义\(\mathcal{X}\)上的概率函数\(P_X\):观测到事件\(X=x_i\)发生当且仅当随机试验的结果\(s_j \in S\)满足\(X(s_j)=x_i\),即:

\[ \displaystyle P_x (X=x_i) = P(\{s_j \in S : X(S_j) =x_i\}) \]

因为\(P_X\)是通过已知的概率函数P得到的,所以称之为\(\mathcal{X}\)上的诱导概率函数,易证该函数也满足概率公理。

对于连续的样本空间S,情况类似:

\[ \displaystyle P_x (X \in A) = P(\{s_j \in S : X(S_j) \in A\}) \]

5. 分布函数

对于任意随机变量,我们都可以构造一个函数:累积分布函数(cumulative distribution function),简称CDF。

定义:累积分布函数

随机变量X的累积分布函数,记作\(F_X(x)\),表示:\(F_X(x) = P_X(X \le x)\)

X的分布为\(F_X\),可以简记作:\(X \sim F_X(x)\),其中“~”读作分布如。

例:掷硬币

同时投掷三枚硬币,令X=正面朝上的硬币数,则X的累积分布函数是一个阶梯函数:

\[ \displaystyle F_X(x) = \left\{ \begin{aligned} 0 & & -\infty < x < 0 \\ 1/8 & & 0 \le x < 1 \\ 1/2 & & 1 \le x < 2\\ 7/8 & & 2 \le x < 3\\ 1 & & 3 \le x < \infty\\ \end{aligned} \right. \]

由累积分布函数的定义可知,\(F_X(x)\)右连续的。

性质:累积分布函数

函数\(F(x)\)是一个累积分布函数,当且仅当它同时满足下列三个条件。

  • \(\displaystyle \lim_{x\rightarrow -\infty}{F(x)} = 0\)\(\displaystyle \lim_{x\rightarrow \infty}{F(x)} = 1\)
  • \(F(x)\)\(x\)的单调递增函数
  • \(F(x)\)右连续:\(\displaystyle \forall x_0 ( \lim_{x\rightarrow x_0^+}{F(x) } = F(x_0) )\)
定义:离散/连续随机变量

设X为一随机变量,如果\(F_X(x)\)是x的连续函数,则称X是连续的(continuous);如果\(F_X(x)\)是x的阶梯函数,则称X是离散(discrete)的。

累积分布函数\(F_X\)能够完全确定随机变量X的概率分布。所以引出了随机变量同分布的概念。

定义:随机变量同分布

称随机变量X和Y同分布(identically distributed),如果对任意集合\(A \in \mathcal{B}^1\),都有\(P(X\in A)=P(Y\in A)\)

注意两个同分布的随机变量并不表示 \(X=Y\),比如令XY分别为连掷三次硬币正反面朝上的次数。

定理:同分布随机变量的性质

随机变量X与Y同分布,当且仅当 \(\forall x ( F_X(x) = F_Y(x))\)

6. 概率密度函数与概率质量函数

与随机变量X,累积分布函数\(F_X\)相关的还有一个函数:若X是连续随机变量,该函数称作概率密度函数;若X是离散随机变量,该函数称作概率质量函数。它们关注的都是随机变量的“点概率”。

定义:概率质量函数(probability mass function) 简称pmf

离散随机变量X的概率质量函数定义为:

\[ \displaystyle \forall x (f_X(x) = P_X(X=x)) \]

概率质量函数的集合解释:\(P_X(X=x),i.e f_X(x)\)等于累积分布函数在x处的跃变高度。

推广到连续变量的情景,则有:

\[ \displaystyle P(X\le x) = F_X(x) = \int_{-\infty}^{x}{f_X(t)dt} \]

定义:概率密度函数(probability density function),pdf

连续随机变量X的概率密度函数,是满足下式的函数:

\[ \displaystyle F_X(x) = \int_{-\infty}^{x}{f_X(t)dt}, x任意 \]

定理:PDF/PMF的性质

函数\(f_X(x)\)是随机变量X的概率密度函数(或概率质量函数),当且仅当它同时满足以下两个条件

  • \(\forall x ( f_X(x) \ge 0)\)
  • \(\sum_x {f_X(x) = 1}\) (概率质量函数)或 \(\int_{-\infty}^{\infty}{f_X(x)dx} = 1\) (概率密度函数)