Scatterplots:探討兩個變數之間的關係
點圖,用來顯示兩個“可能”(意即correlation,而非causation)有關係變數。X軸的變數通常放explanatory variable用來當解釋原因,Y軸則是觀察到的結果,可能跟explanatory variable有關,稱為response variable:我們要圖表就是為了要找出兩個變數之間可能的關係:
Dot plot:如果關注個別資料點的數值
如果對每個點的值有興趣,而非整體的趨勢或分佈,則dotplot適合用。不過資料點一多就GG了。Box plot:顯示outliers, median, IQR
圖上已經標示出了IQR(中間50%族群), 中位數, 以及outliers,感覺相當有用的東西啊!
注意box plot也有skewness的特性,因為資料密集會被顯示在box plot上。例如上圖是一個left-skewed的box plot,因為50%的data都在右邊,下圖是一個right-skewed的box plot:
Histogram: 顯示某個變數自己的data distribution
上圖是一個left-skewed histogram,所謂的skewed就是看低谷尾巴在左還是在右。
left-skewed代表data density集中在右邊。
當然也有right-skewed histogram,代表data density集中在左邊。
以下是三種可能的skewness:
Histogram Modality
如果單看Histogram高峰(modality)的話,又有以下幾種型態:其中我們會用normal distribution來model unimodal的分佈,而比較要注意的是bimodal,如果出現了bimodal,這代表你的data中可能有兩個不同的族群:
uniform modality則會用uniform distribution來model。
請問可以傳統計題目請教您嗎?
回覆刪除