K-means clustering
直接上演算法,BJ4:K-means的最大問題在於:
1. 我們得事先知道k = ? 某些paper提供找出k的值。
2. 沒有理論基礎,無法分析目前結果好壞? 簡單常見可以用inner cluster distance vs intra cluster distance來衡量,前者必須小,後者必須大。
3. curse of dimensionality:高維度feature之間的distance變得沒太大意義,也不知其真正的涵義為何。
4. Non-circular shapes? 採用其他的cluster方法囉。
Association Rules
這個算是data mining?在一個大的dataset中,歸納出一些常出現的patterns,根據這些patterns再引申出關聯性的rules(例如 A -> B 如果 (A,B) 被發現為pair出現的pattern)。這在推薦者系統很常利用這種技巧。
沒有留言:
張貼留言