LATIHAN POHON KEPUTUSAN

 

Perhatikan data yang ada pada tabel keputusan “Play Tennis”.

Buatlah pohon keputusan untuk data tersebut!


Jawab

-        S adalah himpunan (dataset) kasus.
-        K adalah banyaknya partisi
-        Pj adalah probabilitas yang didapat dari Sum(Yes) dibagi Total Kasus. 
-        S adalah ruang (data) sample yang digunakan untuk training.
-        A adalah atribut.
-        |Si| adalah jumlah sample untuk nilai V.
-        |S| adalah jumlah seluruh sample data.
-        Entropi (Si) adalah entropy untuk sample-sample yang memiliki nilai i 

Membuat Pohon Keputusan

Entropi(S) = (-(10/14) x log2 (10/14) + (-(4/10) x log2 (4/10)) 
Entropi(S) = 0.863120569 


Analisis nilai, entropi, dan gain dari setiap atribut

 

-        Gain (Outlook) = 0.863120569 – ((5/14) x 0.970950594 + (4/10) x 0 + (5/14) x 0.721928095) 

Gain (Outlook) = 0.258521037

-        Gain (Temperature) = 0.863120569 – ((4/14) x 1 + (6/14) x 0.918295834 + (4/10) x 0) 

Gain (Temperature) = 0.183850925

-        Gain (Humidity) = 0.863120569 – ((7/14) x 0.985228136 + (7/10) x 0) 

Gain (Humidity) = 0.370506501

-        Gain (Windy) = 0.863120569 – ((8/14) x 0.811278124 + (6/14) x 0.918295834)  

Gain (Windy) = 0.005977711

Karena Gain dari atribut Humidity merupakan Gain terbesar, maka atribut Humidity menjadi node akar (root node) dari pohon keputusan.

Kemudian pada Humidity = Normal, memiliki total 7 kasus dan semuanya memiliki jawaban Yes.

Dengan demikian Humidity = Normal menjadi daun atau leaf.

Berdasarkan pembentukan pohon keputusan node 1, node 1.1 akan dianalisis. Agar lebih mudah, tabel difilter dengan mengambil data yang memiliki Humidity = Normal.

Hitung nilai entropi atribut Humidity = Normal serta analisis nilai, entropi, dan gain dari setiap atribut pada tabel.


-        Gain (Outlook) = 0.985228136 – ((3/4) x 0 + (2/3) x 0 + (2/7) x 1) 

Gain (Outlook) = 0.69951385

-        Gain (Temperature) = 0.985228136 – ((3/7) x 0.918295834 + (4/7) x 1 + (0/0) x 0) 

Gain (Temperature) = 0.020244207

-        Gain (Windy) = 0.985228136 – ((4/7) x 1 + (3/7) x 0.918295834) 

Gain (Windy) = 0.020244207

Gain terbesar adalah gain dari atribut Outlook, dan nilai yang dijadikan daun atau leaf adalah sunny dan cloudy. Visualisasi pohon keputusan tampak seperti gambar di bawah.


Untuk menganalisis node 1.1.2, lakukan lagi langkah yang sama seperti sebelumnya hingga semua node berbentuk node leaf.


 

 Hitung nilai entropi atribut Outlook = Sunny dan Cloudy serta analisis nilai, entropi, dan gain dari setiap atribut pada tabel Temperature dan Windy.

Gain terbesar adalah gain dari atribut Windy, dan nilai yang dijadikan daun atau leaf adalah False dan True. Visualisasi akhir dari pohon keputusan tampak seperti gambar di bawah.



 





Komentar