统计学常见名称

常见概念

H0：原假设（或零假设），是指研究人员在研究之前对情况的最初信念。一般是结论是为真的假设，如两个变量是独立的（对于独立性检验）或拟合优度是合适；各组的均值是相等的。
H1：备择假设（或替代假设），是指研究人员想要证明为真的研究假设。一般情况下，备择假设的结论和原假设相反。一般是结论是为真的假设，如两个变量不是独立的（对于独立性检验）或拟合优度是不合适；各组的均值不是相等的。
α(Alpha)：显著性水平（Significance Level）也记为p值(p-value)，是估计总体参数落在某一区间内，可能犯错误的概率。通常取α<=0.05或α<=0.01。这表明，当作出接受原假设的决定时，其正确的可能性（概率）>=95%或>=99%。显著性反应了备择假设和原假设是否有显著性差异。
β (Beta)：第二类错误概率（Type II Error Probability），是进行假设检验时，原假设不正确，然而未能拒绝原假设的错误。
第一类错误：弃真错误，即H0本来正确，却拒绝了它，犯这类错误的概率不超过α。
第二类错误：取伪错误，即H0本不真，却接受了他，犯这类错误的概率记为β。
CI：置信区间（Confidence Interval），是对产生这个样本的总体的参数分布（parametric distribution）中的某一个未知参数值，以区间形式给出的估计。比如：调查全校男生的平均身高，数量太多，抽样100人，样本均值为a ，若由此认为总体均值为a(点估计)，若用一个范围（a+-b）去估计总体均值（区间估计）。[a-b,a+b] 就是置信区间，总体均值真的在这个区间范围的概率就是置信度（水平）。
正态分布：高斯分布（Gaussian distribution），是统计学中最常见的概率分布之一。正态分布是关于其均值对称的，方差的值是固定的。当均值为0，方差为1时，正态分布称为标准正态分布。正态分布在均值处达到峰值，在正负2个标准差（±2𝜎）处包含约95%的数据，在正负3个标准差（±3σ）处包含约99.7%的数据。
t分布：Student t 分布，是一种概率分布。t分布是对称的，其形状中心在0。t分布的形状由一个参数决定，称为自由度（df），通常表示为df=n-1，其中n为样本大小。t分布的总体标准差是未知的，随着样本量大小增加，t 分布会变得与正态分布更加相似。
t检验：student test，用于确定两组数据的均值是否存在显著差异，或者确定一个样本的均值与已知的总体均值之间是否存在显著差异，记为t值。t值的绝对值越大，表示样本均值与假设均值之间的差异越大。如果计算出的t统计量大于临界值，或者p值小于显著性水平α，拒绝零假设，认为两组数据的均值存在显著差异。如果t统计量小于临界值，或者p值大于显著性水平α，不能拒绝零假设，认为两组数据的均值没有显著差异。t检验的三个前提条件：

独立性：样本数据应该是独立的，即一个数据点的变化不应影响另一个数据点。
正态性：样本数据应近似正态分布，特别是在样本量较小时。
方差齐性（对于独立样本t检验）：两个样本群体的方差应该相等或相似。

卡方分布：χ²分布，是由若干个独立的标准正态分布随机变量的平方和得到的。卡方分布是右偏的，其形状由自由度决定。自由度越大，分布越接近正态分布。卡方分布的概率密度函数（PDF）只在非负数范围内定义。
卡方校验：χ²分布，卡方分析或χ²检验，是统计学中用于分析分类变量之间是否独立的一种方法。观察频数和在零假设（H0）下期望频数的偏差的比较，记为χ²值。如果计算出的卡方统计量大于临界值，或者p值小于显著性水平，拒绝零假设，认为两个变量不独立或拟合优度不合适。如果卡方统计量小于临界值，或者p值大于显著性水平，不能拒绝零假设，认为两个变量独立或拟合优度合适。卡方检验的前提条件：

独立性：数据收集应满足独立性的要求。
足够大的期望频数：每个单元格的期望频数应大于5，以满足卡方检验的使用条件。

F分布：费舍尔(Snedecor)分布，是由两个独立的卡方分布随机变量的比值形成的，其中每个卡方分布随机变量首先被除以其自由度。F分布是一种非对称分布，其形状取决于两个参数，即两个卡方分布的自由度。当自由度较小时，F分布的形状更加偏斜。随着自由度的增加，F分布逐渐趋向于正态分布。
F检验：联合假设检验（joint hypotheses test）、方差比率检验、方差齐性检验，是用于比较两组或多组数据的方差是否相等，组间（或称为处理间、因素间）均方差与组内（或称为误差、组内）均方差的比值记为F值。如果计算出的F统计量大于临界值，或者p值小于显著性水平α，拒绝零假设，认为不同组之间存在显著差异。如果F统计量小于临界值，或者p值大于显著性水平α，不能拒绝零假设，认为不同组之间没有显著差异。F检验的前提条件：

独立性：样本数据应该是独立的。
正态性：样本数据应近似正态分布。
方差齐性：各组的方差应该相等或相似。

常见变量

μ(Mu)：总体均值（Population Mean），是所有数据的平均值。
σ(Sigma):：总体标准差（Population Standard Deviation）,是所有数据偏离总体均值的平均距离。
σ²：方差，是表示数据分布的离散程度。是标准差的平方。
X̄(X bar)：样本均值（Sample Mean），是样本中所有数据的平均值。
s：样本标准差（Sample Standard Deviation），是样本中所有数据偏离样本均值的平均距离。
N：总体大小（Population Size），是所有数据的数量。
n：样本大小（Sample Size），是样本中数据的数量。
p：概率（Probability），是度量随机事件发生的可能性大小。概率越大，随机事件越有可能发生。概率的取值范围是 0 <= p <=1。
df：自由度，是样本中独立或能自由变化的数据的个数，值为样本的数量减一(n-1)。
MS：均方，是平方和除以其自由度的值。
R/r：相关系数（Correlation Coefficient），是衡量两个变量之间线性关系强度和方向的指标。r=1 表示两个变量之间存在完全的正线性关系。𝑟=−1表示两个变量之间存在完全的负线性关系。𝑟=0表示两个变量之间没有线性关系。

常见运算

Σ：求和（Summation）
∑：累计（Cumulative Sum）

常见概念

常见变量

常见运算

评论