【卡方列联表怎么算】卡方列联表(Chi-square Contingency Table)是统计学中用于分析两个分类变量之间是否独立的一种方法。它通过比较实际观测频数与理论期望频数之间的差异,来判断变量之间是否存在显著关联。
一、基本概念
1. 列联表:将两个或多个分类变量的观测数据整理成一个表格,行表示一个变量的类别,列表示另一个变量的类别。
2. 卡方检验:用来检验列联表中两个变量是否相互独立的统计方法。
3. 卡方值:衡量实际频数与期望频数之间差异的大小,数值越大,说明两者越不一致。
二、计算步骤
1. 构建列联表
首先,根据实际数据构建一个列联表,例如:
| 变量B1 | 变量B2 | 合计 | |
| 变量A1 | 20 | 30 | 50 |
| 变量A2 | 40 | 10 | 50 |
| 合计 | 60 | 40 | 100 |
2. 计算期望频数
期望频数(Expected Frequency)公式为:
$$
E_{ij} = \frac{\text{行i合计} \times \text{列j合计}}{\text{总样本数}}
$$
以第一行第一列为例:
$$
E_{11} = \frac{50 \times 60}{100} = 30
$$
同理可得所有单元格的期望频数:
| 变量B1 | 变量B2 | 合计 | |
| 变量A1 | 30 | 20 | 50 |
| 变量A2 | 30 | 20 | 50 |
| 合计 | 60 | 40 | 100 |
3. 计算卡方值
卡方值公式为:
$$
\chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}}
$$
其中 $ O_{ij} $ 是实际频数,$ E_{ij} $ 是期望频数。
代入上述数据计算各单元格的贡献:
- (20 - 30)² / 30 = 3.33
- (30 - 20)² / 20 = 5.00
- (40 - 30)² / 30 = 3.33
- (10 - 20)² / 20 = 5.00
总和为:
$$
\chi^2 = 3.33 + 5.00 + 3.33 + 5.00 = 16.66
$$
4. 确定自由度
自由度(Degrees of Freedom, df)计算公式为:
$$
df = (r - 1)(c - 1)
$$
其中 r 是行数,c 是列数。
本例中 r=2,c=2,所以:
$$
df = (2 - 1)(2 - 1) = 1
$$
5. 查卡方分布表
查卡方分布表,当 df=1 时,若 p < 0.05,则拒绝原假设(即两变量独立),认为存在显著关联。
三、结果解释
- 若卡方值大于临界值,则说明变量之间存在显著关联;
- 若卡方值小于临界值,则没有足够证据表明变量相关。
四、总结表格
| 步骤 | 内容 |
| 1. 构建列联表 | 根据数据整理成行×列的表格 |
| 2. 计算期望频数 | 使用公式 $ E_{ij} = \frac{\text{行i合计} \times \text{列j合计}}{\text{总样本数}} $ |
| 3. 计算卡方值 | 公式:$ \chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} $ |
| 4. 确定自由度 | 公式:$ df = (r - 1)(c - 1) $ |
| 5. 检验显著性 | 对照卡方分布表判断是否拒绝原假设 |
通过以上步骤,可以完成对卡方列联表的计算与分析,从而判断两个分类变量之间是否存在统计意义上的关联。


