code

2017年1月13日 星期五

Statistics筆記8 - Categorical Variables

(單一categorical變數時)Frequency Table & Barplot

一個dataset,如果用相對發生頻率(占比)來表示,稱為frequency table:



frequency table適合用barplot來製圖,注意這不是histogram!
Histogram是給numerical variable用的,而barplot只能表現categorical variable:
下圖左邊是barplot,右邊是histogram:



(兩個categorical變數時)Contingency Table 

在frequency table只能顯示某個事件經過調查發生的頻率,但如果要探討此事件(變數)與另一個變數的可能關係,我們可以在frequency table中插入另一個變數的frequency table,稱為contingency table:


例如上圖中,原本我們只有存錢困難度的frequency table,現在加入“收入”對存錢困難度的關聯性調查的話,中間插入了一個根據income條件的frequency table。

接著我們可以根據income來計算相對頻率,可以看到不同收入區間的族群對存錢困難度的感受是不一樣的,所以此兩變數的確是有依存關係。




表現conditional frequency的圖表

1. segmented bar plot: 這是count/frequency,不是relative frequency/percentage



2. 如果把count換成relatie frequency,上圖變成如下,可以清楚看出各種outcome conditioned on income的佔比:



3. 馬賽克plot:這個圖能看出不同income variable的受訪者的相對大小(圖中bar的寬度),當然從齊頭高度就可以知道這一定是relative frequency:




(一個numerical vs 一個categorical) Side-by-side box plots

我們有時候會需要比較某個numerical variable在某個categorical variable的不同level下的分佈。

例如以下y軸為學生參加社團的數目(所以是一個numerical variable),x軸是學生目前所在的年級(是一個categorical variable):



每個年級都有一個box plot,從median(粗線)可以看到相當一致,約在2或3個社團,而且變異度(variability)用IQR可以看出二三年級叫小,一二年級較大。

老師的解讀是四者distribution類似,所以參加社團的數目跟所就讀年級可能無關。不過這要看個人解讀了。


沒有留言:

張貼留言