Sonny不讀不行: AI筆記23

2017年3月3日星期五

AI筆記23 - Decision Tree

Tree Classifiers

這是ML裡面常用的一支方法。這牽涉到了information entroy的理論(?! 啥鬼東西)，從root開始建立tree classifier。

一開始所有的data set都放在root，然後greedy選擇目前能做出最好分類的feature，所謂做出最好分類稱為node purity，意即item可以明確歸類，不會有模糊不清的問題。接著所有的分類(decisions)就會被assign成leaves，在使用的過程就變成像是binary search tree那樣。

跟一般classificatier的目的不太一樣，一般來說classifier如下：

但是tree classifier並不找到此function mapping，而是提供一個tree model，也不需要input data x是一個d-dimensional vector R^d。

例子

這個例子是根據某些data來建立分類，不過slide實在太小了根本看不清楚:

可以看到在root先以"喜歡的語言"分類，但是接下來在不同的subtree分類條件又不一樣。

C4.5 algorithm

tree classifier的重點在怎麼衡量data中的成員的純度(homogeneinty)，其中一個方法稱為C4.5，這個給出的值如果在評估出純度低的時候(例如data中可以均分成不同的classess)，會是最大值。在純度很高的時候(data呈現單一class)會有最小值。

Sonny不讀不行

code

2017年3月3日星期五

AI筆記23 - Decision Tree

Tree Classifiers

例子

C4.5 algorithm

沒有留言:

張貼留言

code

2017年3月3日 星期五

AI筆記23 - Decision Tree

Tree Classifiers

例子

C4.5 algorithm

沒有留言:

張貼留言

2017年3月3日星期五