(單一categorical變數時)Frequency Table & Barplot
一個dataset,如果用相對發生頻率(占比)來表示,稱為frequency table:frequency table適合用barplot來製圖,注意這不是histogram!
Histogram是給numerical variable用的,而barplot只能表現categorical variable:
下圖左邊是barplot,右邊是histogram:
(兩個categorical變數時)Contingency Table
在frequency table只能顯示某個事件經過調查發生的頻率,但如果要探討此事件(變數)與另一個變數的可能關係,我們可以在frequency table中插入另一個變數的frequency table,稱為contingency table:例如上圖中,原本我們只有存錢困難度的frequency table,現在加入“收入”對存錢困難度的關聯性調查的話,中間插入了一個根據income條件的frequency table。
接著我們可以根據income來計算相對頻率,可以看到不同收入區間的族群對存錢困難度的感受是不一樣的,所以此兩變數的確是有依存關係。
表現conditional frequency的圖表
1. segmented bar plot: 這是count/frequency,不是relative frequency/percentage2. 如果把count換成relatie frequency,上圖變成如下,可以清楚看出各種outcome conditioned on income的佔比:
3. 馬賽克plot:這個圖能看出不同income variable的受訪者的相對大小(圖中bar的寬度),當然從齊頭高度就可以知道這一定是relative frequency:
(一個numerical vs 一個categorical) Side-by-side box plots
我們有時候會需要比較某個numerical variable在某個categorical variable的不同level下的分佈。例如以下y軸為學生參加社團的數目(所以是一個numerical variable),x軸是學生目前所在的年級(是一個categorical variable):
每個年級都有一個box plot,從median(粗線)可以看到相當一致,約在2或3個社團,而且變異度(variability)用IQR可以看出二三年級叫小,一二年級較大。
老師的解讀是四者distribution類似,所以參加社團的數目跟所就讀年級可能無關。不過這要看個人解讀了。
沒有留言:
張貼留言