code

2017年1月16日 星期一

Machine Learning筆記1 - Introduction & Data Modeling

supervised learning

如果能找出某個dataset形成的函數最好形容此INPUT-OUTPUT關係的話:

 f(INPUT)=OUTPUT,

我們希望能用這個函數來預測沒見過的INPUT,這就是supervised learning的意思。
例如regression (預測出某個實數)和classification(預測出某個category) :



Unsupervised Learning

不牽涉labeling的學習方法稱為unsupervised learning,通常用來“explore data's structure”。比較有名的例子就是topic modeling,把NYTimes 20年來的文章丟進去ML engine,假設相同topic的文章會自己cluster起來:


總而言之,就是machine will learn from raw data。



Data Modeling

ML通常是以下四個block組成:



  • 我們搜集到data
  • 我們有明確的goal
  • 我們有一個假設性的model對應這些蒐集到的資料,此model能帶領我們前往我們要的goal
  • 我們有inference 演算法來找出此model的參數,這就是“Learning”過程

舉例來說,
(1) 假設我們搜集到n個 d-dimensional vectors,這些就是上圖中的block#1 data。

(2) 我們打算用multivariate Gaussian來model這些data,所以這就是我們為block#2選的model。

這個model是一個probabilistic model,因為multivariate Normal Distribution是一個probability distribution。i.i.d意思是independent identically distributed。所謂的model就是用來解釋這些data“應該可以是”怎樣的分佈或是產生的。





(3) 我們知道每個model都有一些參數,我們既然假設這些資料形成一個Gaussian distribution,那我們要怎麼找出此distribution的正確參數?

Gaussian 的density function如下(這不是conditional density,而是一個3-variable density):


找出“最適”參數的過程其實就是一個maximize objective function的過程,例如此例中我們會把objective function定義成maximum likelihood function。

假設我們的vecto是2-D,也就是density function中的d = 2代入,此distribution在3-d space中:


以下截圖mean我懂,但是covariance就懂,總之以上就是要說明一般ML的四個components,先放著吧:




沒有留言:

張貼留言