統計學永遠先了解兩個事實:Population of interest, Samples
這主要是代表性問題,如果想要研究台灣人的統獨意識,只訪問民進黨的人infer出來的結果並不會有代表性。所以永遠要了解samples是從什麼地方引得的,才能判斷是否合理的代表了population of interest。
Data matrix
通常data collect完之後,會以data matrix的方式呈現:每個row是一個observation case
每個column是一個variable
Variables
統計主要是研究變數之間的關係,變數有幾種可能的形式如下:左邊的tree的變數種類是可以計算的,例如能算出“班上學生的平均身高”,所以稱為numerical。右邊的tree是不能計算的,注意ordinal隱含程度的排序,例如“最喜愛的電影10分,最不喜愛的電影1分”。
以上圖的Data matrix為例:
country: categorical variable
cr_req: 某個國家要求content removal的次數,discrete numerical
cr_comply: Google遵從要求的百分比,continuous numerical
ud_req: 使用者查詢犯罪的次數,discrete numerical
ud_comply: Google提供的查詢結果百分比,continuous numerical
hemisphere: 這明顯是regular categorical,因為只有南北半球兩個選項
hdi: 人類發展指數,這個隱含程度順序,所以是ordinal categorical
變數間的關係
如果把兩兩變數畫在圖上,可以顯示他們可能是“dependent”或是“independent ”variables。右上角那個點稱為outlier,跳脫其他sample規律者。
不同種類的變數需要不同的分析方法,所以總是要先知道自己正想研究哪一種型態的變數!
Observational Study
observational: 只從觀察中得到data,從過去的事件中觀察得到的data稱為retrospective data,反之則為prospective data。這樣的觀察只能得出association關係,也就是找出變數之間有沒有correlation,而不能判斷因果關係,因為因果關係需要實驗。
讚
回覆刪除