code

2017年1月9日 星期一

Statistics筆記1 - Data Basics

統計學永遠先了解兩個事實:Population of interest, Samples

這主要是代表性問題,如果想要研究台灣人的統獨意識,只訪問民進黨的人infer出來的結果並不會有代表性。

所以永遠要了解samples是從什麼地方引得的,才能判斷是否合理的代表了population of interest。


Data matrix

通常data collect完之後,會以data matrix的方式呈現:



每個row是一個observation case
每個column是一個variable


Variables

統計主要是研究變數之間的關係,變數有幾種可能的形式如下:



左邊的tree的變數種類是可以計算的,例如能算出“班上學生的平均身高”,所以稱為numerical。右邊的tree是不能計算的,注意ordinal隱含程度的排序,例如“最喜愛的電影10分,最不喜愛的電影1分”。

以上圖的Data matrix為例:
country: categorical variable
cr_req: 某個國家要求content removal的次數,discrete numerical
cr_comply: Google遵從要求的百分比,continuous numerical
ud_req: 使用者查詢犯罪的次數,discrete numerical
ud_comply: Google提供的查詢結果百分比,continuous numerical
hemisphere: 這明顯是regular categorical,因為只有南北半球兩個選項
hdi: 人類發展指數,這個隱含程度順序,所以是ordinal categorical


變數間的關係


如果把兩兩變數畫在圖上,可以顯示他們可能是“dependent”或是“independent ”variables。右上角那個點稱為outlier,跳脫其他sample規律者。





不同種類的變數需要不同的分析方法,所以總是要先知道自己正想研究哪一種型態的變數!



Observational Study

observational: 只從觀察中得到data,從過去的事件中觀察得到的data稱為retrospective data,反之則為prospective data。

這樣的觀察只能得出association關係,也就是找出變數之間有沒有correlation,而不能判斷因果關係,因為因果關係需要實驗


Experiments

random取樣受試者,給予不同的設定,能由實驗結果得出變數之間的“因果關係”。






1 則留言: