Professional Documents
Culture Documents
Validation Pada Algoritma Decision Tree ID3 Dan C5.0: Perbandingan Kinerja Sistem Klasifikasi Berbasis K-Fold Cross
Validation Pada Algoritma Decision Tree ID3 Dan C5.0: Perbandingan Kinerja Sistem Klasifikasi Berbasis K-Fold Cross
Kata Kunci: Abstrak- Pada data mining, terdapat teknik dan metode yang telah
dilakukan dalam model prediksi, metode klasifikasi contohnya, salah
Decision Tree ID3,
satunya adalah Decision Tree atau pohon keputusan diantaranya adalah
Decision Tree C5.0,
CART, ID3, C4.5 C5.0 dan lain-lain. Dari banyaknya jenis pohon
K-fold Cross Validation,
keputusan, pasti mempunyai tingkat ketepatan dan keakurasian yang
Perbandingan Kinerja
berbeda. Tentunya perlu adanya penelitian yang membahas tentang
perbandingan dari masing-masing metode. Pada penelitian ini penuIis
mengevaluasi kinerja sistem klasisfikasi dan komparasi Algoritma
Decision Tree ID3 yang merupakan metode generasi pertama dengan
Algoritma Decision Tree C5.0, dimana Algoritma Decision Tree C5.0 ini
metode generasi terbaru yang merupakan perpanjangan dari Algoritma
Decision Tree C4.5 dan Algoritma Decision Tree ID3 berbasis Algoritma
K-fold Cross Validation. Oleh karena itu, daIam peneIitian ini bertujuan
untuk mengkomparasikan antara Algoritma Decision Tree ID3 dengan
Algoritma Decision Tree C5.0 untuk mengetahui Algoritma mana yang
baik kinerjanya dan akan digunakan dalam memprediksi data. DaIam
peneIitian ini menggunakan dataset factor yang mempengaruhi
penempatan kampus sebanyak 215 data. AIur penetian ini dimulai dari
pengumpulan data, pre-prosesing, perhitungan Algoritma Decision Tree
ID3 dan C5.0 kemudian dievaluasi menggunakan K-fold Cross Validation.
Hasil penelitian ini menunjukkan, melalui perbandingan kinerja sistem
klasifikasi bebasis K-fold Cross Validation Algoritma Decision Tree ID3
lebih unggul daripada Algoritma Decision Tree C5.0. Algoritma Decision
https://ejournal.ikmi.ac.id/index.php/jict-ikmi 44
Jurnal ICT : Information Communication & Technology p-ISSN: 2302-0261
Vol. 21, N0.1, Juli 2022, pp. 44-52 e-ISSN: 2303-3363
Tree ID3 dengan hasil presisi 95%, recall/sensitivity 94% dan akurasi 93%.
Sedangkan Algoritma Decision Tree C5.0 dengan hasil presisi 91%, recall
92% dan akurasi 89%.
Copyright © 2019 LPPM - STMIK IKMI Cirebon
This is an open access article under the CC-BY license
Penulis Korespondensi:
Abd. Charis Fauzan
Program Studi Ilmu Komputer,
Universitas Nahdlatul Ulama Blitar
Jl. Masjid No.22, Kota Blitar, Indonesia
Email: abdcharis@unublitar.ac.id
https://ejournal.ikmi.ac.id/index.php/jict-ikmi 45
Jurnal ICT : Information Communication & Technology p-ISSN: 2302-0261
Vol. 21, N0.1, Juli 2022, pp. 44-52 e-ISSN: 2303-3363
kumpulan data bebas. Teknik Crossvalidation yang digunakan dalam penelitian kali ini diperoleh
biasanya dipakai memprediksi model dan dari
memperkirakan keakuratan dari suatu model https://www.kaggle.com/datasets/benroshan/factors
prediktif saat diaplikasikan daIam praktiknya. Salah -affecting-campus-placement . Data yang diambil
satunya ialah k-fold crossvalidation, yaitu membagi selanjutnya dilakukan preprosesing dahulu agar
data menjadi K partisi set data dengan jumlah data dapat dilakukan perhitungan pada Algoritma
yang sama( Crammer [8]). Adapun sumber data sets Decision Tree ID3 maupun Algoritma Decision
dari www.kaggle.com dimana setiap dataset Tree C5.0 yang selanjutnya dilakukan evaluasi
memiliki jumlah data (attributes) dan jumlah atribut sistem.
(instances) yang tidak sama. Dimana K-fold Cross
Validation akan menghasilkan penilaian precision, 2.3 Perhitungan Algoritma Decision Tree ID3
recall, dan accuracy. ID3 adalah Algoritma berbasis perolehan
informasi yang dikembangkan oleh Ross Quinlan.
2. Metode Penelitian Konstruksi Algoritma ID3 pohon keputusan
Pada metode penelitian ini, dilakukan berdasarkan perolehan informasi yang didapat dari
berdasarkan rancangan diagram alur penetitian yang data pelatihan(Ibomoiye [9]). Algoritma pohon
dimulai dari studi literatur dan pengumpulan data, keputusan ID3 dimulai dari simpul akar. Node akar
setelah memperoleh data kemudian memasuki tahab adalah salah satu dari atribut terbaik. Kemudian nilai
preprosesing data yang nantinya akan dimuat daIam properti dihasilkan sesuai dengan masing-masing
Decision Tree baik Algoritma Decision Tree ID3 cabang. Setiap cabang memiliki dihasilkan simpul
maupun Algoritma Decision Tree C5.0. Setelah baru. Untuk kriteria seleksi atribut terbaik, ID3
selesai membuat Decision Tree dilanjutkan pada menggunakan definisi information gain berbasis
metode K-fold Cross Validation dan akan entropi untuk memilih atribut uji daIam node.
dikomparasi yang bisa dilihat pada Gambar 1. Entropi mencirikan kemurnian set sampel
apapun(Wang [10]. Ringkasnya, kinerja Algoritma
Decision Tree ID3 ditunjukkan sebagai berikut :
a. Pilih seluruh atribut yang tidak terpakai kemudian
hitung entropy-nya yang berhubungan dengan
test sample.
b. Ambil atribut nilai entropinya yang paling sedikit.
c. Buat simpul yang ada atribut tersebut.
Untuk menghitung Algoritma Decision Tree ID3
harus menghintung nilai entropy dan gain
information-nya ditunjukkan pada persamaan 1 dan
persamaan 2.
dimana :
S : Kumpulan kasus
k : Semua atribut pada variabel A
pj : Ukuran dari Sj dan S
𝑺𝒗
𝑮𝒂𝒊𝒏(𝑺, 𝑨) = 𝑬𝒏𝒕𝒓𝒐𝒑𝒚(𝑺) − ∑ 𝑬𝒏𝒕𝒓𝒐𝒑𝒚(𝑺𝒗) ( 2)
𝑺
dimana :
Gambar 1. Alur penelitian
S : Kumpulan kasus
2.1 Studi Literatur A : Variabel
Pada tahap studi Iiterature ini digunakan Sv : Semua kasus pada kategori ke-v
penulis sebagai bahan referensi untuk meIakukan S : Semua kasus daIam S
penelitian. Referensi didapat melaui penelitian-
penelitian terdahulu atau jurnal 2.4 Perhitungan Algoritma Decision Tree C5.0
nasional/internasional yang berkaitan dengan Algoritma Decision Tree C5.0 ini merupakan
pembahasan dalam penelitian ini.. pengembangan Algoritma Decision Tree ID3 dan
C4.5 yang dibuat oleh Ross Quinlan pada tahun
2.2 Pengumpulan Data 1987. DaIam Algoritma Decision Tree C5.0
Pada tahab pengumpulan data ini dilakukan atributnya dipilih berdasarkan gain Ratio.
dengan mencari dataset jenis klasifikasi. Dataset Algoritma Decision Tree C5.0 menghasilkan pohon
https://ejournal.ikmi.ac.id/index.php/jict-ikmi 46
Jurnal ICT : Information Communication & Technology p-ISSN: 2302-0261
Vol. 21, N0.1, Juli 2022, pp. 44-52 e-ISSN: 2303-3363
dengan jumlah cabang yang bervariasi per node dipakai sebagai data uji dan bagian kelompok data k
(Putri [11]). Cara pembuatan pohon pada ini hampir yang digunakan untuk data latih (Nurhayati [12]).
sama dengan pembuatan tree pada Algoritma Cara Kerja metode Croos Validation daIam
Decision Tree ID3 maupun Decision Tree C4.5. perhitungankKinerja dari K-fold Cross Validation
kesamaan perhitungannya meliputi entropy dan digambarkan sebagai berikut:
gain. Apabila pada Algoritma Decision Tree ID3 1. Seluruh data dipecah menjadi k partisi seperti
dan Decision Tree C4.5 berhenti pada perhitungan Tabel 2.
gain-nya, maka pada Algoritma ini akan dilanjutkan Tabel 1.
dengan mencari Ratio gain dengan menggunakan Kinerja K-fold Cross Validation.
entropy dan gain yang ada. Rumus untuk 1 2 3 4 5 6 7 8 9 10
menghitung nilai entropy dapat dilihat pada 1 2 3 4 5 6 7 8 9 10
persamaan 3: 1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
𝑬𝒏𝒕𝒓𝒐𝒑𝒚(𝑺) = − ∑𝒌𝒋=𝟏 𝒑𝒋 𝒍𝒐𝒈𝟐 𝒑𝒋 (3)
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
dimana : 1 2 3 4 5 6 7 8 9 10
S : Kumpulan kasus 1 2 3 4 5 6 7 8 9 10
k : Semua kelas dalam variabel A
1 2 3 4 5 6 7 8 9 10
pj : Ukuran dari Sj dan S
1 2 3 4 5 6 7 8 9 10
Kemudian untuk menghitung nilai gain
menggunakan persamaan 4: Data Testing
Data Training
𝒎
𝑺𝒊
𝑮𝒂𝒊𝒏(𝑺, 𝑨) = 𝑬𝒏𝒕𝒓𝒐𝒑𝒚(𝑺) − ∑ × 𝑬𝒏𝒕𝒓𝒐𝒑𝒚(𝑺𝒊) (4)
𝒊=𝟏 𝑺 2. Fold pertama adalah ketika bagian pertama
dijadikan menjadi data pengujian (data testing) dan
dimana : sisanya menjadi data pelatihan (data training).
S : Kumpulan kasus Kemudian, mencari kedekatan atau kesamaan dari
Si : Kumpulan kasus pada kategori ke-i hasil pengukuran dengan data atau angka yang
A : Variabel didasarkan pada ukuran data tersebut. Akurasi
m : Semua kategori dalam variabel A tersebut dihitung dengan memakai persamaan 6,
Si : Semua kasus dalam kategori ke-i persamaan 7 dan persamaan 8.
S : Semua kasus pada S
Ketika sudah diperoleh nilai entropy dan nilai gain, 𝑇𝑃
setelah itu adalah mencari nilai gain Ratio. Rumus Precicion = × 100% (6)
𝑇𝑃+𝐹𝑃
dasar dari perhitungan gain Ratio dapat dilihat pada
persamaan 5: Recall 𝑇𝑃
= × 100% (7)
Sensitivity 𝑇𝑃+𝐹𝑁
𝐆𝐚𝐢𝐧 (𝐒,𝐀)
𝑮𝒂𝒊𝒏 𝑹𝒂𝒕𝒊𝒐 = 𝒎 (5) TP+TN
∑𝒊=𝟏 𝐄𝐧𝐭𝐫𝐨𝐩𝐲(𝐒𝒊)
Accuracy = TP+TN+FP+FN
× 100% (8)
dimana :
P j t ( | ) : Probabilitas bersyarat kelas j yang Dimana:
berada pada node t a. TP (True Positive) = Semua data yang diprediksi
m t j ( ) : Semua pengamatan pada kelas j benar bernilai true
pada node t b. TN (True Negative) = Semua data yang diprediksi
m t ( ) : Semua pengamatan pada node t secara benar bernilai false
Nama kelas node terminal t ialah j0 yang c. FP (False Positive) = Semua data bernilai false
menampilkan nilai prediksi kesalahan yang salah diprediksi sebagai data
pengklasifikasian node t yang paling besar. bernilai benar
2.5 K-fold Cross Validation d. FN (False Negative) = Semua data bernilai true
Cross Validation merupakan metode yang yang salah diprediksi sebagai data bernilai benar
berguna untuk memperkirakan kesalahan pada Partisi ke-2 ialah ketika fold ke-2 menjadi data
model prediksi untuk kinerja model evaluasinya. pengujian (data testing) dan sisanya menjadi data
DaIam validasi silang dikenal sebagai rotasi pelatihan (data training). Kemudian, dihitung presisi,
estimasi, dengan memecah data menjadi himpunan recall dan akurasinya didasarkan pada bagian data
bagian k dengan jumlah data yang sama, daIam tersebut. Hingga seterusnya sampai pada fold ke-k.
klasifikasi ini data diuji sebanyak k kali. Kemudian Setelah itu mencari rata-rata presisi, recall dan
setiap pengulangannya, salah satu himpunan k akan akurasi finalnya.
https://ejournal.ikmi.ac.id/index.php/jict-ikmi 47
Jurnal ICT : Information Communication & Technology p-ISSN: 2302-0261
Vol. 21, N0.1, Juli 2022, pp. 44-52 e-ISSN: 2303-3363
sl_ gend ssc ssc_ hsc hsc_ hsc_s degr degree_t wor etest specia mba stat salary
no er _p b _p b ee_p kex _p lisatio _p us
n
1 M 67. Oth 91. Oth Com 58.0 Sci&Tec No 55 Mkt& 58.8 Plac 27000
00 ers 00 ers merce 0 h HR ed 0
2 M 79. Cent 78. Oth Scien 77.4 Sci&Tec Yes 86.5 Mkt& 66.2 Plac 20000
33 ral 33 ers ce 8 h Fin 8 ed 0
3 M 65. Cent 68. Cent Arts 64.0 Comm& No 75 Mkt& 57.8 Plac 25000
00 ral 00 ral 0 Mgmt Fin ed 0
4 M 56. Cent 52. Cent Scien 52.0 Sci&Tec No 66 Mkt& 59.4 Not
00 ral 00 ral ce 0 h HR 3 Plac
ed
5 M 85. Cent 73. Cent Com 73.3 Comm& No 96.8 Mkt& 55.5 Plac 42500
80 ral 60 ral merce 0 Mgmt Fin ed 0
… … … … … … … … … … … … … … …
215 M 62. Cent 58. Oth Scien 53.0 Comm& No 89 Mkt& 60.2 Not
00 ral 00 ers ce 0 Mgmt HR 2 Plac
ed
215 M 62.0 Central 58.0 Oth Science 53.0 Comm&Mgm No 89 Mkt&HR 60.2 Not
0 0 ers 0 t 2 Placed
https://ejournal.ikmi.ac.id/index.php/jict-ikmi 48
Jurnal ICT : Information Communication & Technology p-ISSN: 2302-0261
Vol. 21, N0.1, Juli 2022, pp. 44-52 e-ISSN: 2303-3363
3.3 Hasil Perhitungan Decision Tree ID3 informasi gain dapat diperoleh berdasarkan
berdasarkan pernyataan Masulloh dan (Fitriyani persamaan entropy. Entropy dihasilkan dari entropy
[13]). Untuk mendapatkan akar dan cabang pada seluruh data dan entropy pada masing masing atribut
pohon keputusan menggunakan gain tertinggi atau yang terdapat pada dataset.
informasi gain. Menurut (Budiman [14]),
Tabel 4. Perhitungan nilai gain
DaIam membuat sebah pohon keputusan. Tabel 4. merupakan hasill perhitungan gain pada
membutuhkan root node, internal node dan leaf setiap atribut yang ada pada dataset. Hasil gain
node agar menyerupai pohon sesungguhnya informasi yang memiliki nilai tertinggi pada node
(Fahma[15]). Menurut Patel dan (Prajapati pertama digunakan sebagai root pada pohon
keputusan. Pohon keputusan pada prediksi
[16]), root node atau
penerimaan tenaga kerja menghasilkan rule pada
akar merupakan induk dari semua node dan Gambar 2. Rule yang didapat berdasarkan pohon
merupakan node tertinggi pohon pada keputusan kemudian diimplementasikan pada
Algoritma Decision Tree. DaIam menentukan evaluasi Sistem menggunakan metode K-fold Cross
root atau akar dari pohon keputusan ditentukan Validation.
berdasarkan gain tertinggi atau gain informasi.
https://ejournal.ikmi.ac.id/index.php/jict-ikmi 49
Jurnal ICT : Information Communication & Technology p-ISSN: 2302-0261
Vol. 21, N0.1, Juli 2022, pp. 44-52 e-ISSN: 2303-3363
https://ejournal.ikmi.ac.id/index.php/jict-ikmi 50
Jurnal ICT : Information Communication & Technology p-ISSN: 2302-0261
Vol. 21, N0.1, Juli 2022, pp. 44-52 e-ISSN: 2303-3363
1,6796
mba_p <62,4 88 60 28 0,90239
>62,4 84 61 23 0,84688 0,0017 0,001
1,74927
https://ejournal.ikmi.ac.id/index.php/jict-ikmi 51
Jurnal ICT : Information Communication & Technology p-ISSN: 2302-0261
Vol. 21, N0.1, Juli 2022, pp. 44-52 e-ISSN: 2303-3363
terhadap algoritma Naive Bayes, Sequential “Prediksi Pola Kecelakaan Kerja pada
Minimal Optimization (SMO),” 2012. Perusahaan Non Ekstraktif Menggunakan
[5] P. I. C. Wibowo, A. C. Fauzan, M. Dwi and and Algoritma Decision Tree: C4.5 dan C5.0,” J.
F. A. Q. Yustiana, “Komparasi Algoritma Naive Sains dan Seni Pomits, vol. 2, 2013.
Bayes dan Decision Tree Untuk Memprediksi [12] & M. C. Nurhayati., Iwan K, Hadihardaja.,
Lama Studi Mahasiswa,” vol. 1, pp. 65–74, Indratmo Soekarno., “A Study of Hold-Out and
2019. K-fold Cross Validation for Accuracy of
[6] C.-C. T. Hsi-Jen Chiang, Chun-Chieh Tseng, “A Groundwater Modeling in Tidal Lowland
retrospective analysis of prognostic indicators in Reclamation Using Extreme Learning
dental implant therapy using the C5.0 Decision Machine.,” 2nd Int. Conf. Technol. Informatics,
Tree algorithm,” J. Dent. Sci., vol. 8, pp. 248– Manag. Eng. Environ., pp. 228 – 233, 2014.
255, 2013. [13] I. M. and Fitriyani, “Implementasi Algoritma
[7] M. J. H. and G. Carleo, “Neural-Network C4.5 Untuk Klasifikasi Anak Berkebutuhan
Approach to Dissipative Quantum Many-Body Khusus Di Ibnu Sina Stimulasi Center,”
Dynamics,” Phys. Rev. Lett, vol. 122, 2019. eProsiding Sist. Inf, vol. 1, pp. 136–144, 2020.
[8] K. Crammer, “On the algorithmic [14] X. A. Budiman, A. S., & Parandani, “Uji
implementation of multiclass kernel-based Akurasi Klasifikasi Dan Validasi Data Pada
vector machines,” J. Mach. Learn. Res. - JMLR, Penggunaan Metode Membership Function Dan
vol. 2, pp. 265–292, 2002. Algoritma C4.5 Dalam Penilaian Penerima
[9] Z. W. Ibomoiye Domor Mienyea, Yanxia Suna, Beasiswa,” J. Tek. Mesin, Elektro Dan Ilmu
“Prediction performance of improved Decision Komput., pp. 565–578, 2018.
Tree-based algorithms: a review,” 2nd Int. Conf. [15] H. D. Fahma and A. C. Fauzan, “Prediksi
Sustain. Mater. Process. Manuf., pp. 698–703, Keberlangsungan Studi Mahasiswa Fakultas
2019. Ilmu Pendidikan dan Sosial Universitas
[10] L. N. Wang Xiaohu,Wang Lele, “An Nahdlatul Ulama Blitar,” vol. 1, pp. 110–119,
Application of Decision Tree Based on ID3,” 2021.
2012 Int. Conf. Solid State Devices Mater. Sci., [16] H. H. P. and P. Prajapati, “Study and Analysis of
pp. 1017 – 1021, 2012. Decision Tree Based Classification Algorithms,”
[11] N. Putri, Y. R., Mukhlash, I. dan Hidayat, J. Comput. Sci. Eng, vol. 6, pp. 76–78, 2018.
https://ejournal.ikmi.ac.id/index.php/jict-ikmi 52