supervised learning
如果能找出某個dataset形成的函數最好形容此INPUT-OUTPUT關係的話:f(INPUT)=OUTPUT,
我們希望能用這個函數來預測沒見過的INPUT,這就是supervised learning的意思。
例如regression (預測出某個實數)和classification(預測出某個category) :
Unsupervised Learning
不牽涉labeling的學習方法稱為unsupervised learning,通常用來“explore data's structure”。比較有名的例子就是topic modeling,把NYTimes 20年來的文章丟進去ML engine,假設相同topic的文章會自己cluster起來:總而言之,就是machine will learn from raw data。
Data Modeling
ML通常是以下四個block組成:- 我們搜集到data
- 我們有明確的goal
- 我們有一個假設性的model對應這些蒐集到的資料,此model能帶領我們前往我們要的goal
- 我們有inference 演算法來找出此model的參數,這就是“Learning”過程
舉例來說,
(1) 假設我們搜集到n個 d-dimensional vectors,這些就是上圖中的block#1 data。
(2) 我們打算用multivariate Gaussian來model這些data,所以這就是我們為block#2選的model。
(3) 我們知道每個model都有一些參數,我們既然假設這些資料形成一個Gaussian distribution,那我們要怎麼找出此distribution的正確參數?
Gaussian 的density function如下(這不是conditional density,而是一個3-variable density):
找出“最適”參數的過程其實就是一個maximize objective function的過程,例如此例中我們會把objective function定義成maximum likelihood function。
假設我們的vecto是2-D,也就是density function中的d = 2代入,此distribution在3-d space中:
以下截圖mean我懂,但是covariance就懂,總之以上就是要說明一般ML的四個components,先放著吧:
沒有留言:
張貼留言