如果看成空間中的點
首先假設我們有n個已知的learning set data points (xs, q),這邊說xs是因為input vector 不一定是一維的,例如可能是一個vector (年齡, 收入, 教育程度, .... ),基本上能有多少就可以有多少。這n個q值 (已知的output值)如果寫成一個n-vector的話y 的話,就相當於R^n空間中的一點,least square regression就是要找出一個d+1 dimension vector w,使得Xw這個product在R^n中,盡可能地接近y這個點。
X就是所有xs組成的matrix,我們之前有定義過了,所以是n by d+1 matrix。
w 當然也是d+1 dimension vector,所以Xw 是 n by 1 vector,的確是R^n 空間中的一點。不過要注意Xw是所有xi預測出來的y'i組成的vector。
所謂盡可能地接近,意思就是兩者之間的euclidean distance,也就是直線距離,但不完全是直線距離,而是採用直線距離的平方:
而這正是sum of squared errors,因為上面式子展開就是 SUM_i ( ( yi - y'i )^2 ),外層的sqrt和square抵銷了。
如果看成空間中的帶有方向性的vector
舉例來說:X = [1 x1 w = [ w0
1 x2 w1]
1 x3
.
.
1 xn]
如果用column picture來看:Xw = w0*Xcol1 + w1*Xcol2
所以Xw相當於就是對每一個column vector Xi做scaling 的權重,然後相加,這在R^n空間中會形成一個平面:
這權重相加後的vector在其平面上, y的投影即是此vector距離y vector的最近點。
沒有留言:
張貼留言