Home | About | Posts | English

Pearson’s correlation coefficient (皮爾森相關係數)

2021/08/05
距離大二的統計學已經過了三年,顯著性測試也快忘光了,雖然平時用R就好,但還是想整理一下相關係數的顯著性。

何謂相關係數?

在兩組資料之間有時存在著相關性 (correlation),例如人的身高和體重可能大致呈現正相關,但是相關性並不等於因果性 (causation),這是每個使用統計的人都需要注意到的問題,相關係數只能呈現兩組資料之間的相關性,並不代表一定有因果關係,這個有趣的網站Spourious Correlations就整理了很多具有強烈相關性,但不具因果關係的資料,例如每年在泳池溺水的人數竟然跟尼可拉斯凱吉所出演的電影數有相關??

在獲得兩組資料時,會利用所謂的相關係數 (correlation coefficient) 來表示他們的相關性強弱,而最常使用的就是Pearson相關係數 (Pearson’s correlation coefficient),又稱Pearson’s product moment correlation coefficient (PPMCC),母體的Pearson相關係數以希臘字母ρ表示,而樣本的Pearson相關係數常以英文字母r表示。假設現在有資料組X與Y,其各自的母體平均為μX與μY,則母體的Pearson相關係數可表示成以下的公式,分子是X與Y的共變異 (covariance),分母則是兩者的標準差。
\(\begin{aligned} \rho &= \frac{\sum_{i=1}^{N} (X_i-\mu_X)(Y_i-\mu_Y) }{\sqrt{\sum_{i=1}^{N} (X_i-\mu_X)^2 \sum_{i=1}^{N} (Y_i-\mu_Y)^2} }\\ &=\frac{Cov(X,Y)}{\sigma_X \sigma_Y} \end{aligned}\)
相關係數是沒有單位的,而樣本方面以樣品平均值代替母體平均值後得到的Pearson相關係數表示如下
\(\begin{aligned} r &= \frac{\sum_{i=1}^{N} (X_i-\overline X)(Y_i-\overline Y) }{\sqrt{\sum_{i=1}^{N} (X_i-\overline X)^2 \sum_{i=1}^{N} (Y_i-\overline Y)^2} }\\ &=\frac{S_{XY}}{\sqrt{S_{XX} S_{YY}}} \end{aligned}\)
其中三個數值SXX、SYY及SXY是所謂的平方和 (sum of squares, SS),將各數值減去平均後再平方加總,可以用於呈現這組數據的變異 (分散) 程度。
\(S_{XX} = \sum_{i} (X_i - \overline{X} )^2 \\ S_{YY} = \sum_{i} (Y_i - \overline{Y} )^2 \\ S_{XY} = \sum_{i} (X_i - \overline{X} )(Y_i - \overline{Y})\)

相關係數r介於-1至1之間,越接近-1代表負相關,越接近1則代表正相關,接近0則是無線性相關 (不一定是無相關!!),將r平方後得到的介於0-1的值即為決定係數 (coefficient of determination, R2),決定係數R2的數值就代表了有多少比例的變異可以被這個相關性解釋,1-R2則是未被解釋的變異。

相關係數的顯著性

相關係數的顯著性測試使用t-test,抽樣n個樣本所得相關係數的抽樣分布 (sampling distribution) 大致服從自由度n-2的t-distribution (tn-2)。
進行假設檢定要先確定假說並決定顯著水準α。

因此為雙尾檢定,檢定統計量為t統計量 (t-statistic),相關係數的標準誤差 (standard error, SE) 可以表示為
\(\begin{aligned} SE_r = \sqrt {\frac{1-r^2}{n-2}} \end{aligned}\)
因此相關係數的t統計量為
\(\begin{aligned} t_0 = \frac{r-0}{\sqrt {\frac{1-r^2}{n-2}}} = r \sqrt{\frac{n-2}{1-r^2}} \end{aligned}\)
若t0 > tα/2, n-2則可拒絕虛無假說,接受對立假說,兩組數據有相關性,反之則無法拒絕虛無假設。

後話

要特別注意的是標準誤差 (standard error, SE) 是抽樣分布的標準差 (standard deviation),即母體抽樣出的樣品組的標準差,標準誤差與標準差是不同的。
由於母體未知,當我們從母體中抽樣n個樣本,我們得到的是樣本的相關係數r,抽樣很多次所得的r都不同,這些r所組成的分布就稱為抽樣分布,相關係數r的抽樣分布近似於自由度n-2的t-distribution。

至於為何是n-2呢?老實說自由度一直是很抽象的問題,例如在我們使用一般的t-test時,要估計樣本平均值所以用掉一個自由度,故剩下n-1個自由度。
那麼在相關係數中就是用掉了兩個自由度,關於是哪兩個,我目前找到兩種不同解釋:

  1. 因為相關係數是X和Y兩個變數的相關性,所以用掉兩個自由度,可參見愛荷華大學教授J. Toby Mordkoff的文章
  2. 因為相關係數是線性的關係,而一條線需要有斜率和截距兩個參數來決定,故用掉兩個自由度,這部分是跟迴歸併在一起談,可參見里賈納大學社會學系教授Paul Gingrich的教學網站其中的Correlation與Regression章節

這兩個解釋都很合理,我也不糾結確切是什麼,掌握其應用就好。
在使用相關係數時切記不要武斷的認為相關性與因果性相等,奠基於統計顯著性僅僅只能敘述兩組數據的相關性而已。