2018年12月21日 星期五

其實你一直都不懂”它“——最熟悉的陌生人P值


  幾乎在每一篇量化論文中,我們都可以看到一串字元“p.05,我們習以為常認為p.05,就是拒絕H0,表明研究物件有差異有影響,但是P值究竟是何方神聖,為什麼H0H1都要看它的“臉色”?如何得到P值?它和置信區間又有什麼關係?這些問題的答案全都在這裡!5分鐘,帶你瞭解最熟悉的陌生人——p值! 


p 值是什么?
我們的H0假設通常是針對理論上的總體的,而實際上我們在進行檢驗時都只是抽取了理論母體中的一部分樣本。比如我們要研究年齡對親社會意願的影響,那麼這個命題在理論上針對的應該是全世界各個年齡段的所有人。然而,我們不可能真的把全世界人的資料都搜集到,只能抽取一部分被試來進行分析。

所以,我們在根據樣本的結果,來決定接受還是拒絕母體的H0假設時,允許一定的誤差存在。比如說,我們抽取了一部分樣本,來計算年齡對親社會意願的回歸係數,算出來為0.1。這個0.1只是通過樣本計算出來的、對理論母體中年齡對親社會意願迴歸係數的一個估計值,我們並不會因為它≠0,就直接認定理論母體的迴歸係數也是≠0,即拒絕H0的。這時我們採取的思路是:「如果理論母體上迴歸係數為0,即H0為真,那麼樣本得到迴歸係數為0.1的概率(p 值)是多少?」這個概率就是p值。

如何獲取p
事實上,樣本在計算迴歸係數的同時,還能計算出與之對應的標準誤,迴歸係數除以標準誤能夠得到 t 值,根據這個t值可以查到與之對應的p 值。這就是p 值的獲取方法。

根據上述方法,我們可以得到兩個推論:

1)不同的樣本也許能得到相同的估計值0.1,但完全有可能得到的標準誤是不同的。比如說第一個樣本得到的標準誤是0.1,那麼計算出來的t值就是1;第二個樣本得到的標準誤是0.05,那麼計算出來的t值就是2。顯然,這兩個樣本的 p 值也不同
2)樣本量越大,標準誤越小,在回歸係數相同的情況下,t 值也就越大,p 值越小。這也就是為何樣本量越大越容易顯著的原因。

p 值與H0、置信區間的關係
統計的基本思路是:先假設H0為真,以此為前提去計算樣本估計值出現的概率 p 值,之後再根據這個p 值來決定是否拒絕H0

統計學上認為:
1)概率小於0.05的事件為小概率事件
2)一次試驗理論上不會出現小概率事件
當理論母體的迴歸係數為0時,即在H0為真的前提下,樣本的迴歸係數計算出來等於0.1的概率(p值)是>0.05的,那麼就說在接受H0的條件下,我的樣本估計值得到0.1並不是小概率事件,是完全可能出現的,那麼這個誤差是可以接受的,我就不會拒絕H0;但如果我在H0為真的前提下,樣本回歸係數為0.1的概率(p值)是<0.05的,那麼就是說我在接受H0的條件下,出現了理論上不可能出現的樣本估計值,我就應該拒絕H0

P 值與信賴區間的關係
至於信賴區間,它與p值是一致的。如果我的迴歸係數估計值為0.1,標準誤為0.02,那麼我們可以直接計算t值,0.1/0.02=5,來與1.96比較(1.96是常用的p=0.05的臨界值)。因為t>1.96,所以p<0.05

然而我還可以用另一種方法來檢驗,即得到一個迴歸係數估計值的95%信賴區間[0.1-1.96×0.02,0.1+1.96×0.02],即[0.0608,0.1392]。這個區間意思是指,雖然根據樣本我只能計算出樣本估計值為0.1,計算不出理論母體的迴歸系數值,但是根據標準誤我可以大約得到一個區間,使得理論母體的迴歸系數值有95%的可能性落在這個區間裡。區間內不包含0可見,理論值有95%的可能性是沒機會等於0的,也就是說我的H0假設理論值為0是應該被拒絕的。其實可以看到,「區間是否包含0」與「p值是否大於0.05」在計算上、意義上是完全一致的。比如說上面這個例子,因為0.1/0.02>1.96,那麼區間的下限(0.1-1.96×0.02)也勢必會大於0,那麼區間內也一定不會包含0。所以,只要區間包含0,那麼p值就一定大於0.05;只要區間不包含0,那麼p值就一定小於0.05

如此出神入化、通俗易懂的解釋,是否讓你將p值這個最熟悉的陌生人所一眼看穿呢!



沒有留言:

張貼留言

EFA與CFA能否用相同樣本進行?

請問在 SEM 模型中,有一個潛變數要做 EFA, 請問可以用搜集到的所有樣本先做 EFA, 然後再用相同的這些樣本做 SEM 嗎?還是要用一些樣本做 EFA, 然後用總體中剩下的那部分樣本做 SEM ?