Sonny不讀不行: Statistics筆記1

2017年1月9日星期一

Statistics筆記1 - Data Basics

統計學永遠先了解兩個事實：Population of interest, Samples

這主要是代表性問題，如果想要研究台灣人的統獨意識，只訪問民進黨的人infer出來的結果並不會有代表性。

所以永遠要了解samples是從什麼地方引得的，才能判斷是否合理的代表了population of interest。

Data matrix

通常data collect完之後，會以data matrix的方式呈現：

每個row是一個observation case
每個column是一個variable

Variables

統計主要是研究變數之間的關係，變數有幾種可能的形式如下：

左邊的tree的變數種類是可以計算的，例如能算出“班上學生的平均身高”，所以稱為numerical。右邊的tree是不能計算的，注意ordinal隱含程度的排序，例如“最喜愛的電影10分，最不喜愛的電影1分”。

以上圖的Data matrix為例：
country: categorical variable
cr_req: 某個國家要求content removal的次數，discrete numerical
cr_comply: Google遵從要求的百分比，continuous numerical
ud_req: 使用者查詢犯罪的次數，discrete numerical
ud_comply: Google提供的查詢結果百分比，continuous numerical
hemisphere: 這明顯是regular categorical，因為只有南北半球兩個選項
hdi: 人類發展指數，這個隱含程度順序，所以是ordinal categorical

變數間的關係

如果把兩兩變數畫在圖上，可以顯示他們可能是“dependent”或是“independent ”variables。右上角那個點稱為outlier，跳脫其他sample規律者。

不同種類的變數需要不同的分析方法，所以總是要先知道自己正想研究哪一種型態的變數！

Observational Study

observational: 只從觀察中得到data，從過去的事件中觀察得到的data稱為retrospective data，反之則為prospective data。

這樣的觀察只能得出association關係，也就是找出變數之間有沒有correlation，而不能判斷因果關係，因為因果關係需要實驗。

Experiments

random取樣受試者，給予不同的設定，能由實驗結果得出變數之間的“因果關係”。

1 則留言:

匿名2022年9月5日凌晨2:03
讚
回覆刪除
回覆

新增留言

code

2017年1月9日 星期一