2019年1月15日 星期二

什麼是數據資料的分佈?


在做統計分析的時候,通常需要假設樣本的分佈符合常態分佈,在進行之後的分析都會依據這個假設進行分析。所以需要利用偏度與峰度兩個指標檢查樣本數據是否符合常態分佈。



1. 偏度Skew
變數數據分配左右不對稱的程度,確認數據是否有傾向與左邊較多或是右邊較多的情況。通常會希望樣本呈現如下圖這樣對稱的樣子,這種圖形稱為常態曲線

1 常態曲線的圖形


若發現資料呈現傾向左邊較多或是右邊的尾巴較長(如下圖左邊),則稱為右偏曲線或是常偏態,傾向右邊較多或是左邊的尾巴較長(如下圖右邊),則稱為左偏曲線或是負偏態。
  
2 右偏與左偏曲線的圖形


2. 峰度Kurtosis
變數的分配上下高低的程度,確認資料分佈聚集在中心的程度。在正常的常態分佈中,峰態係數應為3,不過在所有的軟體計算公式中是以原先算出來的值再減去3後的值,亦即在所有的統計軟體中,常態分佈的峰度係數為0,大於0代表比正態分佈陡峭(高狹峰),小於0代表比正態分佈要扁平(低潤峰),如下圖呈現。

3 常態峰與高狹峰、低潤峰的圖形區別



沒有留言:

張貼留言

EFA與CFA能否用相同樣本進行?

請問在 SEM 模型中,有一個潛變數要做 EFA, 請問可以用搜集到的所有樣本先做 EFA, 然後再用相同的這些樣本做 SEM 嗎?還是要用一些樣本做 EFA, 然後用總體中剩下的那部分樣本做 SEM ?