量化Q&A: 什麼是數據離散的程度？有哪些指標是可以知道數據離散的程度？

2019年1月29日星期二

什麼是數據離散的程度？有哪些指標是可以知道數據離散的程度？

當我們在研究一份數據的時候，不太希望所有的數值都集中在某個數值上，應在一個範圍內有一個差異的程度。為了瞭解在數據之間的差距，可以透過一些指標，研究數據之間的差異程度。在研究數據離散的程度時，我們有最常用的幾個指標，如全距、四分位距、變異差、標準差等等，一一介紹如下：

1. 全距(Range，R)

全距又稱極差，用來表示統計數據中的變異量數（英語：measures of variation），為最大值與最小值之間的差距，即最大值減最小值後所得之數值。

2. 四分位數(Interquartile Range，IQR)

四分位數與全距概念差不多，都是用來表示統計數據量中的變異程度，不過，在計算上是第三個四分位數(Q3)與第一個四分位數(Q1)的差額，即把數據由小排到大後，位居於數據排序中第75%的數值與位居於數據排序中第25%的數值的差距。

3. 變異數(Variance)

變異數即為標準差的平方，變異數代表個體的差異，為衡量數據與其均值之間的偏離程度，數值越大代表差異越大或意見越分歧。變異數越小，代表大家的看法越接近。但如果是每個人看法一致，那就不需要調查了。計算上來說，是以數值減去平均數的平方總和除以總觀察值個數。

4. 標準差(Standard Deviation，SD)

標準差也是一組數據平均值分散程度的一種度量。一個較大的標準差，代表大部分數值和其平均值之間差異較大；一個較小的標準差，代表這些數值較接近平均值，在計算上即把變異數取開根號即可。

沒有留言:

張貼留言

訂閱：張貼留言 (Atom)