Sonny不讀不行: Machine Learning筆記1 - Introduction & Data Modeling

2017年1月16日星期一

Machine Learning筆記1 - Introduction & Data Modeling

supervised learning

如果能找出某個dataset形成的函數最好形容此INPUT-OUTPUT關係的話：

f(INPUT)=OUTPUT，

我們希望能用這個函數來預測沒見過的INPUT，這就是supervised learning的意思。
例如regression （預測出某個實數）和classification（預測出某個category) :

Unsupervised Learning

不牽涉labeling的學習方法稱為unsupervised learning，通常用來“explore data's structure”。比較有名的例子就是topic modeling，把NYTimes 20年來的文章丟進去ML engine，假設相同topic的文章會自己cluster起來：

總而言之，就是machine will learn from raw data。

Data Modeling

ML通常是以下四個block組成:

我們搜集到data
我們有明確的goal
我們有一個假設性的model對應這些蒐集到的資料，此model能帶領我們前往我們要的goal
我們有inference 演算法來找出此model的參數，這就是“Learning”過程

舉例來說，
(1) 假設我們搜集到n個 d-dimensional vectors，這些就是上圖中的block#1 data。

(2) 我們打算用multivariate Gaussian來model這些data，所以這就是我們為block#2選的model。

這個model是一個probabilistic model，因為multivariate Normal Distribution是一個probability distribution。i.i.d意思是independent identically distributed。所謂的model就是用來解釋這些data“應該可以是”怎樣的分佈或是產生的。

(3) 我們知道每個model都有一些參數，我們既然假設這些資料形成一個Gaussian distribution，那我們要怎麼找出此distribution的正確參數？

Gaussian 的density function如下（這不是conditional density，而是一個3-variable density）：

找出“最適”參數的過程其實就是一個maximize objective function的過程，例如此例中我們會把objective function定義成maximum likelihood function。

假設我們的vecto是2-D，也就是density function中的d = 2代入，此distribution在3-d space中：

以下截圖mean我懂，但是covariance就懂，總之以上就是要說明一般ML的四個components，先放著吧：

Sonny不讀不行

code

2017年1月16日星期一

Machine Learning筆記1 - Introduction & Data Modeling

supervised learning

Unsupervised Learning

Data Modeling

沒有留言:

張貼留言

code

2017年1月16日 星期一

Machine Learning筆記1 - Introduction & Data Modeling

supervised learning

Unsupervised Learning

Data Modeling

沒有留言:

張貼留言

2017年1月16日星期一