code

2017年3月30日 星期四

AI筆記39 - Unsupervised Learning

K-means clustering

直接上演算法,BJ4:

K-means的最大問題在於:
1. 我們得事先知道k = ? 某些paper提供找出k的值。
2. 沒有理論基礎,無法分析目前結果好壞? 簡單常見可以用inner cluster distance vs intra cluster distance來衡量,前者必須小,後者必須大。
3. curse of dimensionality:高維度feature之間的distance變得沒太大意義,也不知其真正的涵義為何。
4. Non-circular shapes? 採用其他的cluster方法囉。


Association Rules

這個算是data mining?
在一個大的dataset中,歸納出一些常出現的patterns,根據這些patterns再引申出關聯性的rules(例如 A -> B 如果 (A,B) 被發現為pair出現的pattern)。這在推薦者系統很常利用這種技巧。


































沒有留言:

張貼留言