概率的计算

随机事件

随机事件A是指可能发生也可能不发生的事件
随机事件A发生的反面称为A的对立，记为 $\bar{A}$

样本空间

一个事件中随机试验所有可能结果的集合

概率P(A)

对随机事件发生可能性大小的一个数值度量
概率取值的范围是0 到1
必然事件，P(A)=1
不可能事件，P(A)=0

古典概率法。 $P(A)=\frac{试验中包含事件A的所有结果个数}{实验中所有结果个数}$
经验法。 $P(A)=\frac{历史数据中事件A发生的频率个数试验结果个数}{历史数据试验结果个数}$ 。
经验主观概率法。由预测者根据其对事件的了解和专业知识对事件发生的概率做出主观估计。

概率的加法

$P(A\cup B)=P(A)+P(B)-P(A\bigcap B)$ ，P(A\cup B)表示A或B其中一个发生的概率， $P(A\bigcap B)$ 表示A和B两个事情同时发生的概率

概率的乘法

$P(AB)=P(B)P(A|B)$ ，P(AB)表示A和B两个事情同时发生的概率
$P(AB)=P(A)P(B|A)$ ，P(AB)表示A和B两个事情同时发生的概率

事件独立

$P(A|B)=P(A)$
$P(A\bigcap B)=P(A)*P(B)$

条件概率

在已知事件B发生的条件下事件A发生的概率 P(A|B)。
$P(A|B)=\frac{P(A\bigcap B)}{P(B)}$ , 其中P(B)>0， $P(A\bigcap B)$ 表示A和B两个事情同时发生的概率

先验概率

先验概率P(A)，指根据以往经验和分析得到的概率

后验概率

指通过调查或其它方式获取新的附加信息，对先验概率进行修正得到的概率。
$P(A|B) =\frac{P(A)P(B|A)}{P(B)}$

全概率公式

$P(B)=\Sigma P(A_i)P(B|A_i)$

贝叶斯公式

$P(B_k|A)=\frac{P(B_kA)}{P(A)}=\frac{P(B_k)(A|B_k)}{P(A)}=\frac{P(B_k)(A|B_k)}{\sum P(B_i)P(A|B_i)}$

概率的应用

支持度。关联产品A与B在所有交易中同时出现的概率
置信度。购买产品A的前提下，购买产品B的概率
提升度。购买产品A前提下购买产品B的概率与购买产品B随机发生概率之比。P(B|A)/P(B) (一般认为大于3是有价值的)

密度函数

Probability Density Function, PDF用来描述随机变量分布特征的数学函数，仅适用于连续型随机变量

分布函数

Cumulative Distribution Function, CDF用来描述随机变量取值分布特性的函数，概率的累积，可以用于连续型和离散型随机变量

对于连续型随机变量，它通过概率密度函数积分得到
对于离散型随机变量，它通过概率质量函数求和得到

伯努利试验

一种简单的随机试验，其结果只有两种可能：成功或失败。

二项分布

描述在固定次数的独立伯努利试验中成功的次数

$X\sim B(n, p)$ ，p是出现为真的概率，n是次数

泊松分布

指定时间范围内某事件出现次数的分布。

$P(x)=\frac{\lambda ^xe^{-\lambda }}{x!}$ ，x是可能观察到的事件数x=0,1,2…N， $\lambda$ 是单位时间（或单位空间）内事件平均发生的次数
$X\sim Poisson(\lambda)$ , 期望和方差都等于 $\lambda$

正态分布(D分布)

密度函数： $P(x)=\frac{1}{\sigma \sqrt{2\pi }}e^{-\frac{1}{2\sigma ^2}(x-\mu )^2}$ ，
$X\sim N(\mu , \sigma ^2)$ ，期望值是 $x=\mu$ ，方差是 $\sigma^2$
正态曲线的图形是关于 $x=\mu$ 的对称钟形曲线，且峰值在 $x=\mu$ 处
$\sigma$ 越大，正态曲线越扁平； $\sigma$ 越小，正态曲线越陡峭

标准正态分布(Z分布)

密度函数： $P(x)=\frac{1}{\sqrt{2\pi }}e^{-\frac{x^2}{2}}$
$X\sim Z(0 , 1)$ ，期望值是0，方差是1

$3\sigma$ 经验法则

约68%的数据在 $[\mu - \sigma, \mu + \sigma]$
约95%的数据在 $[\mu - 2\sigma, \mu + 2\sigma]$
约95%的数据在 $[\mu - 3\sigma, \mu + 3\sigma]$

大数定律

随着试验次数的增加，样本均值趋近于总体均值的性质。大数定律是统计推断、保险、赌博和各种概率模型中非常重要的理论基础。

小概率原理

在大量重复试验中，发生概率极低的事件在一次试验中发生的可能性非常小，几乎可以忽略不计

中心极限定理和z值

中心极限定理。随着样本容量n的增大（n>=30）,不论原来的总体是否服从正态分布，样本值的抽样分布都趋于正态分布，其分布的数学期望为总体均值 $\mu$ ，方差为总体方差的1/n： $X\sim N(\mu , \sigma ^2/n)$
z值，用于衡量一个观测值与总体均值之间的差异，以标准差为单位。 $z=\frac{X-\mu}{\sigma \sqrt{n}}$ ，X为样本均值， $\mu$ 为总体期望值， $\sigma$ 为总体标准差，n为样本数量

t分布和t值

t分布。在总体标准差未知且样本量较小（通常n<30）时，用于估计总体均值的分布时的一种分布。t分布是对称的，均值为0，t分布的形状由自由度（degrees of freedom, df）参数决定，通常表示为 t(df)。自由度可以是任何正整数，且随着自由度的增加，t分布的形状越来越接近标准正态分布。
t值。衡量了样本统计量（如样本均值）与假设值（如总体均值）之间的差异。 $t=\frac{\bar{x}-\mu}{s \sqrt{n}}$ ， $\bar{x}$ 为样本均值， $\mu$ 为总体均值，s为样本标准差，n为样本数量

点估计

从样本数据中计算一个单一的数值，用来估计总体参数。点估计的组成有：样本均值、样本方差、样本中位数

区间估计

提供了一个数值范围（区间），用来估计总体参数。区间估计组成有：

置信区间：表示参数估计的区间
置信水平：通常用百分比表示，如95%，表示置信区间有95%的概率包含总体参数
误差范围(Margin of Error）：区间估计中，样本统计量与总体参数之间可能的最大差异

假设检验

根据样本数据对总体参数进行推断，通常是采用逻辑上的反证法，如果结论是小概率，则接受假设。

P值

P 值是，根据样本数据计算出一个检验统计量（如 t 值、z 值或卡方值等）和检验统计量的分布。根据检验统计量的值和其分布，计算在零假设为真的情况下，得到该统计量值或更极端值的概率。

显著性水平 $\alpha$

显著性水平是当原假设正确时却被拒绝的概率或风险。

统计显著

样本统计量的值落在了拒绝域内，研究者作出了拒绝原假设的决定。

假设检验的决策

如果统计检验的 P 值小于显著性水平 $\alpha$ ，则拒绝零假设，支持备择假设。
如果 P 值大于或等于显著性水平 $\alpha$ ，则不拒绝零假设，不支持备择假设。

零假设 $H_0$

也叫原假设，问题的一个默认立场，通常是研究者试图推翻的假设。

提出者直接关心的指标。如工厂关心产品“合格率”，工商局关心产品“不合格率”
=等号一般放在零假设。

备择假设 $H_1$

零假设相对的假设，代表了研究者试图证明的效应或差异

备择假设的常见形式

单尾检验。右侧检验， $H_1: \mu > \mu_0$ （例如，新药物的效果比旧药物好）；左侧检验， $H_1: \mu < \mu_0$ （例如，新工艺减少了生产成本）
双尾检验。 $H_1: \mu \neq \mu_0$ （例如，新方法与旧方法的效果不同）

第I类错误

原假设为真却别拒绝了，犯这类错误的概率用 $\alpha$ 表示

第II类错误

原假设为假却没有拒绝，犯这类错误的概率用 $\beta$ 表示。

当 $\alpha$ 增加时 $\beta$ 减少，要使 $\alpha$ 和 $\beta$ 同时减小的唯一办法是增加样本容量

概率的计算

随机事件

样本空间

概率P(A)