Statistics course summary

2 min read

1 一元统计总结

1.1 集中趋势

1.1.1 百分位数

根据百分位求分数

计算指数\(i=\dfrac{m}{100}\times{n}\),不是整数i向上取整找到对应的数,是整数求i与i+1对应的数的均值。

1.1.2 百分位分数

其实就是百分位数,只是有分组的

\(P_m=L+\dfrac{\frac{m}{100}+N-F_b}{f}+i\)

  • \(P_m\)是第m个百分位分数
  • L是\(P_m\)所在组的下限
  • f是\(P_m\)所在组的次数
  • \(F_b\)是小于L的累积次数

1.1.3 百分等级分数

知道原始分数,求百分数

\(PR=\dfrac{F_b+\frac{f(P_m-L)}{i}}{N}\times{100}\)

  • PR是百分等级分数
  • L是某特定原始变量所在组的下限
  • f是某特定原始变量所在组的次数
  • \(F_b\)是小于L的累积次数
  • i是组距

1.2 离散程度

1.2.1 方差

\(S^2=\dfrac{\displaystyle \sum_{i=1}^n (X_i-\bar{X})^2}{n-1}=\dfrac{\displaystyle \sum_{i=1}^{n}X_i^2}{n-1}-\bar{X}^2\)

1.2.2 变异系数

\(CV_\sigma=\dfrac{\sigma}{\mu}\)

1.3 偏态和峰度

测量有不同的方法,上课讲的是下面两个。

1.3.1 偏态

偏度\(a_3= \dfrac{\displaystyle\sum_{i=1}^{n} (X_i-\bar{X})^3}{nS^3}\)

1.3.2 峰度

峰度\(a_4= \dfrac{\displaystyle \sum_{i=1}^{n} (X_i-\bar{X})^4}{nS^4}\)

1.4 相关分析

1.4.1 积差相关

\(r=\dfrac{\displaystyle \sum_{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})}{\sqrt{\displaystyle \sum_{i=1}^{n}(X_i-\bar{X})^2\sum_{i=1}^{n}(Y_i-\bar{Y})^2}}\)

1.4.2 等级相关

没有相同的等级的时候比较简单

\(r_k=1-\dfrac{6\displaystyle \sum_{i=1}^{n} D_i^2}{n(n^2-1)}\)

有没有相同的等级的时候都可以用下面的方法计算,有相同等级的需要计算等级的平均值。其实和积差相关的方法是一样的。

\(r_R=\dfrac{\sum x^2+\sum y^2 -\sum D^2}{2\sqrt{\sum x^2\sum y^2}}\)

1.4.3 肯德尔和谐系数

就是用等级的方差除以如果所有人评价都一致时的方差(此时方差最大)。

如果是评分是一致的,被评事物的等级和的方差达到最大,此时和谐系数为1

\(W=\dfrac{\displaystyle \sum_{i=1}^{n}R_i^2-\frac{(\displaystyle \sum_{i=1}^{n}R_i)^2}{n}}{\frac{1}{12}K^2(n^3-n)}\)

  • K是评价者数目
  • n是被评价事务数目

1.4.4 点二列相关

\(r_pb=\dfrac{\bar{X_p}-\bar{X_q}}{S_t}\sqrt{pq}\)

1.4.5 \(\varphi\)系数

\(\varphi=\dfrac{|ad-bc|}{\sqrt{(a+b)(c+d)(a+c)(b+d)}}\)

1.5 随机变量及其分布

1.5.1 二项分布

\(np,nq\ge5\)的时候近似正态分布,可以直接用正态分布的临界值

1.6 参数估计

1.6.1 常见的抽样分布和理论分布的关系

样本平均数的分布\(\bar{X} \sim N(\mu,\dfrac{\sigma^2}{n})\)

样本方差的分布\(\dfrac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)\)

样本比例的分布\(\hat{p} \sim N(p,\dfrac{pq}{n})\)

两个独立样本方差比的分布\(\dfrac{1}{F}=\dfrac{S_1^2}{S_2^2} \sim F(n_1-1,n_2-1)\)

相关系数的分布,无论总体相关系数和n如何,都可以进行Fisher-Z变换,\(Z_r=\dfrac{1}{2}\cdot\ln\dfrac{1+r}{1-r}\),标准误\(SE_r=\dfrac{1}{\sqrt{n-3}}\)

1.7 区间估计

1.7.1 两个总体均值

如果总体方差已知,\(SE=\sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}}\)

如果总体方差未知,方差齐性 \(SE=S_p\sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}}\)\(S_p=\dfrac{df_1S_1^2+df_2S_2^2}{df_1+df_2}\)

方差不齐的时候需要校正自由度,但是如果样本量都很大的时候就不用了,\(df=\dfrac{(SE_1+SE_2)^2}{\dfrac{SE_1^2}{n_1-1}+\dfrac{SE_2^2}{n_2-1}}\)

其中\(SE_1=\dfrac{S_1^2}{n_1}\)\(SE_2=\dfrac{S_2^2}{n_2}\)

1.7.2 两个总体比例之差

\(Z=\dfrac{\hat p_1 - \hat p_2}{\sqrt{p_eq_e\left(\dfrac{1}{n_1}+\dfrac{1}{n_2}\right)}}\) ,其中\(p_e=\dfrac{n_1\hat p_1+n_2\hat p_2}{n_1+n_2}\)

1.7.3 正态总体方差

\((\dfrac{(n-1)S^2}{\chi_{\frac{\alpha}{2}}^{2}(n-1)},\dfrac{(n-1)S^2}{\chi_{1-\frac{\alpha}{2}}^{2}(n-1)})\)

注意分母中的(n-1)是卡方的自由度,不是乘数。

1.7.4 正态总体方差比

\[(\dfrac{S_1^2}{S_2^2}\times{\dfrac{1}{F_{\frac{\alpha}{2}}(n_1-1,n_2-1)}},\dfrac{S_1^2}{S_2^2}\times{F_{\frac{\alpha}{2}}(n_2-1,n_1-1)})\]

1.7.5 相关系数

进行Fisher-Z变换,\(Z_r=\dfrac{1}{2}\cdot\ln\dfrac{1+r}{1-r}\),标准误\(SE_r=\dfrac{1}{\sqrt{n-3}}\),以此得到估计的区间后再变换回相关系数\(r=\dfrac{e^{2Z_r}-1}{e^{2Z_r}+1}\)

1.8 假设检验

1.8.1 非参检验

非参数检验不能处理交互作用

1.8.1.1 两个独立样本的差异显著性检验

  • 秩和检验(Mann-Whitney U检验)
    • 两个样本量都小于10,找小的样本的秩和T,查表
    • 样本量大于10,T服从正态分布,拿小样本的进行Z检验
  • 中数检验法
    • 两个样本是否有相同的中数
    • 混合排列找中数,根据大于和小于中数的个数列出四格表,然后卡方检验

1.8.1.2 两个相关样本的差异显著性检验

  • 符号检验法
    • 零假设是差值的中数为零
    • 样本量小于25时,对于差值只记符号,零不计(也不算到N中)。找出符号中小的数量,查表大于临界值则不显著
    • 样本量大于25时,正负服从二项分布,进行一点矫正(+0.5)计算z分数
  • 符号等级检验法(Wilcoxon T检验)
    • 同时考虑到差值的符号和大小
    • 样本量小于25时,对差值的绝对值进行排列,计算正的差值的和T+和负的差值的和T-然后查表
    • 样本量大于25时,对T进行z检验

1.8.1.3 方差分析

  • 克-瓦氏单项方差分析(Kruskal-Wallis检验,独立测量方差分析)
    • 3组,每组n小于等于5,混合在一起排等级,计算等级之和T,然后计算统计量H并查表。H的分布接近卡方分布。
    • 组数大于3,n大于5时,可以查卡方表
  • 弗里德曼双向等级方差分析(Friedman检验,重复测量方差分析)
    • 每个区组(被试)的几个条件排列等级,求每个条件的等级和,计算等级卡方值,然后查表(df=k-1),或者卡方分布表

1.9 列联分析

1.9.1 k个分组

计算卡方值,使用实际与预期差的平方除以预期,然后求和.

\(\chi^2=\displaystyle \sum_{i=1}^{k}\dfrac{(f_i-e_i)^2}{e_i}\)

自由度是k-1

1.9.2 RC列联表

自由度\(df=(R-1)(C-1)\)

1.10 回归分析

\[b1=\dfrac{\displaystyle \sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\displaystyle \sum_{i=1}^n(x_i-\bar{x})^2}=\dfrac{\sum {XY}-\dfrac{(\sum {X})(\sum{Y})}{n}}{\sum {X^2}-\dfrac{(\sum {X})^2}{n}}\]

\(b_0=\bar{y}-b_1\bar{x}\)

方程的显著性 \[SST=SSR+SSE \iff \sum(y-\bar{y})^2=\sum(\hat{y}-\bar{y})^2+\sum(y-\hat{y})^2\]

其中\(\hat{y}\)是预测值,y是实际值,\(\bar{y}\)是实际值的平均值。

预测的置信区间

  • 估计值(均值)的置信区间 \[\hat{Y_0} \pm t_{\frac{\alpha}{2}}(n-2)\sqrt{MS_e\left[\dfrac{1}{n}+\dfrac{(X_0-\bar{X})^2}{\displaystyle \sum_{i=1}^n(X_i-\bar{X})^2}\right]}\]
  • 观测值的置信区间 \[\hat{Y_0} \pm t_{\frac{\alpha}{2}}(n-2)\sqrt{MS_e\left[1+\dfrac{1}{n}+\dfrac{(X_0-\bar{X})^2}{\displaystyle \sum_{i=1}^n(X_i-\bar{X})^2}\right]}\]

潇月师姐的总结