code

2017年1月11日 星期三

Statistics筆記4 - Visualizing Data

Scatterplots:探討兩個變數之間的關係

點圖,用來顯示兩個“可能”(意即correlation,而非causation)有關係變數。X軸的變數通常放explanatory variable用來當解釋原因,Y軸則是觀察到的結果,可能跟explanatory variable有關,稱為response variable:



我們要圖表就是為了要找出兩個變數之間可能的關係:




Dot plot:如果關注個別資料點的數值

如果對每個點的值有興趣,而非整體的趨勢或分佈,則dotplot適合用。不過資料點一多就GG了。



Box plot:顯示outliers, median, IQR


圖上已經標示出了IQR(中間50%族群), 中位數, 以及outliers,感覺相當有用的東西啊!

注意box plot也有skewness的特性,因為資料密集會被顯示在box plot上。例如上圖是一個left-skewed的box plot,因為50%的data都在右邊,下圖是一個right-skewed的box plot:






Histogram: 顯示某個變數自己的data distribution



上圖是一個left-skewed histogram,所謂的skewed就是看低谷尾巴在左還是在右。
left-skewed代表data density集中在右邊。

當然也有right-skewed histogram,代表data density集中在左邊。

以下是三種可能的skewness:






Histogram Modality

如果單看Histogram高峰(modality)的話,又有以下幾種型態:


其中我們會用normal distribution來model unimodal的分佈,而比較要注意的是bimodal,如果出現了bimodal,這代表你的data中可能有兩個不同的族群:


uniform modality則會用uniform distribution來model。






1 則留言: