code

2017年2月2日 星期四

Machine Learning筆記8 - Least square regression的幾何觀點

為了讓我們更直覺理解least square regression在幹嘛,用幾何空間來解釋比較簡單。

如果看成空間中的點

首先假設我們有n個已知的learning set data points (xs, q),這邊說xs是因為input vector 不一定是一維的,例如可能是一個vector (年齡, 收入, 教育程度, .... ),基本上能有多少就可以有多少。

這n個q值 (已知的output值)如果寫成一個n-vector的話y 的話,就相當於R^n空間中的一點,least square regression就是要找出一個d+1 dimension vector w,使得Xw這個product在R^n中,盡可能地接近y這個點。

X就是所有xs組成的matrix,我們之前有定義過了,所以是n by d+1 matrix。
w 當然也是d+1 dimension vector,所以Xw 是 n by 1 vector,的確是R^n 空間中的一點。不過要注意Xw是所有xi預測出來的y'i組成的vector。


所謂盡可能地接近,意思就是兩者之間的euclidean distance,也就是直線距離,但不完全是直線距離,而是採用直線距離的平方:


而這正是sum of squared errors,因為上面式子展開就是  SUM_i ( ( yi - y'i )^2 ),外層的sqrt和square抵銷了。

如果看成空間中的帶有方向性的vector 

舉例來說:
X = [1 x1          w = [ w0
        1 x2                    w1]
        1 x3                
          .                        
          .                        
        1 xn]      

如果用column picture來看:Xw = w0*Xcol1 + w1*Xcol2
所以Xw相當於就是對每一個column vector Xi做scaling 的權重,然後相加,這在R^n空間中會形成一個平面:
這權重相加後的vector在其平面上, y的投影即是此vector距離y vector的最近點。





沒有留言:

張貼留言