Learning from data
目前ML是AI中最有潛力的技術,主要因為interent讓data搜集和產生變得實際化了。Data science包括以下幾個步驟:ML與統計學的關係
這兩者應該是分開還是看成同一個學科?各有論點。學術化的定義
這邊的experience E指的就是data collected。
Supervised Learning
要從已知(labeled data)來學習判斷未知,稱為supervised learning,training data通常是一組feature vector x,配上一個已知的output y:由於已經把training data label過了(+ -),我們可以train出某種classifier:
找出decision boundary的function來做預測:
Unsupervised Learning
如果沒有已知label好的data來學習的話,稱為unsupervised learning,主要目的是做segmentation / clustering:Learning過程
基本上都是以下:f 之後可以拿來做prediction。
不過f要怎麼評斷好壞?我們只有training data有真實的label,所以拿training data來檢視loss。簡單來說就是預測出來的值f(xi)跟真實的值yi有多少差距?n個training samples累積的錯誤程度如下:
一些簡單的loss function包括:
沒有留言:
張貼留言