Download as pdf or txt
Download as pdf or txt
You are on page 1of 142

LAPORAN RESMI

PRAKTIKUM DATA MINING


CLUSTERING

DISUSUN OLEH:
KELOMPOK C.23
ARIF RAKHMANTO (08 522 200)
CATUR HERMAWANTO (08 522 210)

LABORATORIUM DATA MINING


JURUSAN TEKNIK INDUSTRI
FAKULTAS TEKNOLOGI INDUSTRI
UNIVERSITAS ISLAM INDONESIA
2010
ABSTRAKS
Analisis cluster merupakan salah satu teknik multivariat dalam data mining
yang bertujuan untuk mengidentifikasi sekelompok obyek dengan kemiripan
karakteristik tertentu yang dapat dipisahkan dengan kelompok obyek lainnya,
sehingga obyek yang berada dalam kelompok yang sama relatif lebih homogen
(sama) daripada obyek yang berada pada kelompok yang berbeda. Metode yang
digunakan dalam peneliatian ini adalah metode hirarki. Dan dari hasil penelitian
yang dilakukan terbentuk 3 cluster dan 1 outlier.

Keyword : Analisis Cluster, Metode Hirarki, Dendogram


BAB I

PENDAHULUAN

1.1 Latar Belakang masalah


Laboratorium Data Mining merupakan salah satu lab. yang dibuat oleh UII
yang ditujukan kepada mahasiswa jurusan teknik industri. Namun mahasiswa
biasanya datang ke laboratorium hanya untuk melaksanakan praktikum saja.
Padahal laboratorium tersebut dibuat tidak hanya untuk keperluan praktikum.
Maka dengan penelitian yang dilakukan akan diketahui profilisasi mahasiswa yang
berkunjung ke laboratorium data mining. Profilisasi tersebut berisi jenis kelamin,
usia, angkatan, intensitas, dan durasi atau berapa lama biasanya responden tersebut
berada di laboratorium.

1.2 Rumusan Masalah


1. Berapa cluster yang terbentuk dari penelitian yang dilakukan ?
2. Bagaimana hasil profilisasi customer berdasarkan penelitian ?

1.3 Batasan Masalah


1. Penelitian dikhususkan pada mahasiswa Teknik Industri.
2. Obyek lokasi penelitian adalah Laboratorium Data Mining.

1.4 Tujuan penelitian


1. Untuk mengetahui berapa banyak cluster yang akan terbentuk dari
penelitian yang dilakukan.
2. Untuk mengetahui hasil profilisasi customer berdasarkan penelitian.

1.5 Manfaat Penelitian


Penelitian ini bermafaat untuk mengetahui apakah laboratorium data mining
perlu meningkatkan pelayanan, mengatur ulang tata letak dan menambah fasilitas
atau tidak. Manfaat lainnya adalah untuk mengetahui presentase angkatan berapa
yang rata – rata mengambil praktikum data mining.
BAB II
LANDASAN TEORI

Analisis cluster merupakan salah satu teknik multivariat yang digunakan


dalam data mining yang bertujuan untuk mengidentifikasi sekelompok obyek yang
mempunyai kemiripan karakteristik tertentu yang dapat dipisahkan dengan kelompok
obyek lainnya, sehingga obyek yang berada dalam kelompok yang sama relatif lebih
homogen (sama) daripada obyek yang berada pada kelompok yang berbeda.
Jumlah kelompok yang dapat diidentifikasi tergantung pada banyak dan variasi
data obyek. Tujuan dari pembentukan cluster ini adalah untuk analisis dan interpretasi
lebih lanjut sesuai dengan tujuan penelitian yang dilakukan. Solusi cluster secara
keseluruhan bergantung pada variabel-variabel yang digunakan sebagai dasar untuk
menilai kesamaan. Penambahan atau pengurangan variabel-variabel yang relevan
dapat mempengaruhi substansi hasil analisis cluster.
Analisis cluster dapat diterapkan pada bidang apa saja. Namun pemakaian
teknik ini lebih familiar pada bidang pemasaran karena memang salah satu kegiatan
yang dilakukan dalam pemasaran adalah pengelompokan, yang disebut segmentasi
pasar. Penerapan analisis cluster di dalam pemasaran adalah sebagai berikut :
1. Membuat segmen pasar (segmenting the market)
Pelanggan atau pembeli sering diklasterkan berdasarkan manfaat atau keuntungan
yang diperoleh dari pembelian barang. Setiap cluster akan terdiri dari
pelanggan/pembeli yang relatif homogen, dinyatakan dalam manfaat yang dicari.
2. Memahami perilaku pembeli
Analisis cluster digunakan untuk mengenali/mengidentifikasi kelompok pembeli
yang homogen/relatif homogen. Kemudian perilaku dalam untuk setiap kelompok
perlu dikaji secara terpisah. Responden (pembeli) dikelompokkan didasarkan pada
self-reported importance yang terkait pada setiap faktor pilihan yang digunakan
untuk memilih toko atau mall di mana para pembeli membeli barang yang
dibutuhkan.
3. Mengenali peluang produk baru
Dengan mengklasterkan merk dan produk, competitive set di dalam pasar bisa
ditentukan. Merek di dalam klaster yang sama bersaing sengit satu sama lain,
daripada merek dari klaster lain.
BAB III

METODOLOGI PENELITIAN

3.1 Lokasi Penelitian


Laboratorium Data Mining Teknik Industri FTI UII

3.2 Objek Penelitian


Mahasiswa teknik industri UII

3.3 Metode Pengumpulan Data


1. Data Primer
Data primer merupakan data yang didapatkan oleh peneliti langsung dari
objeknya. Yang menjadi data primer dalam penelitian ini adalah data yang
berasal dari kuisioner yang diisi langsung oleh para responden.
2. Data Sekunder
Data sekunder adalah data yang didapatkan setelah dilakukan proses
analisa dan interpretasi terhadap data – data primer atau data – data yang telah
ada sebelumnya sesuai dengan tujuan penelitian.. Yang merupakan data
sekunder pada penelitian ini adalah data – data yang telah diclustering
menggunakan metode hirarki dan memakai software SPSS.
3.4. Flowchart Penelitian

Mulai

Rumusan Masalah

Input Data

Clustering – Metode Hirarki

Profilisasi Customer

Selesai

Gambar 3.1 Flowchart Penelitian


3.5. Langkah Software
Kuisioner Tingkat Kepuasan
1. Input data yang diperoleh ke software
2. Pilih analyze klik Clasify lalu pilih Hirarchical Cluster
3. Variabel : Letakkan semua Variabel X yang valid
4. Label case by : Letakkan nama responden
5. Cluster : Case
6. Display : statistic, plot
7. Statistik : agglomeration schedule
8. Plots : klik Dendogram
9. I ccicle : none
10. Method : Cluster Method Pilih nearest neighbor measure
Interval pilih Squared Euqliden Distance
11. Klik save
Cluster membership : none

Kuisioner Profilisasi Customer


1. Input data yang diperoleh ke software
2. Pilih analyze klik Descriptive Statistics lalu pilih Crosstabs
3. Row : Letakkan semua variable Y yang valid
4. Column : Letakkan Cluster Member
5. Exact : Asymptotic only
6. Statistics : Correlations
7. Cells : Counts klik observed, Noninteger Weights klik Round Cells
Counts
8. Format : Row Order klik Ascending
9. Klik OK
BAB IV
PENGUMPULAN DAN PENGOLAHAN DATA

4.1. Pengumpulan Data


Hasil Rekapitulasi Kuesioner Profilisasi Customer
Tabel 4.1 Rekapitulasi Kuesioner Profilisasi Customer
Jenis
No. Nama Usia Angkatan Intensitas Durasi
Kelamin
1 Sekar 2 3 2 3 4
2 Hendia V. R 2 3 2 2 3
3 Huda 1 2 2 4 3
4 Annisa 2 3 2 4 2
5 Fitra 1 3 2 4 2
6 Fandi 1 2 2 3 2
7 Maro 2 2 2 3 2
8 Ikhsan 1 3 2 3 3
9 Aya' 2 3 2 4 1
10 Mabok 1 3 2 3 4
11 Richo 1 3 3 4 1
12 Atlit 2 3 2 3 3
13 Digdoyo 1 2 3 4 1
14 Sigit 1 3 2 2 4
15 Anestia 2 3 2 2 4
16 Ayu 2 3 2 1 4
17 Ryan 1 3 2 1 4
18 Fauzi 1 3 2 1 4
19 Dika Oki 1 3 1 2 1
20 Hendi 1 3 2 2 1
21 Kristin 2 3 2 1 4
22 Farikh 1 2 3 4 1
23 Adit 1 3 1 1 4
24 Nunuk 1 3 1 4 1
Jenis
No. Nama Usia Angkatan Intensitas Durasi
Kelamin
25 Wanda 1 3 1 4 1
26 Trisno 1 3 2 4 1
27 Rizki D.K. 1 3 1 1 3
28 Himawan 1 3 1 2 4
29 Omiyabi 1 3 1 2 3
30 Laskar Kesatria 1 3 1 2 3
31 Ibnu Herlino 1 3 2 3 4
32 Chanifa Yunani 2 2 3 4 3
33 Tomy 1 3 2 2 2
34 Safri Halimi 1 3 2 4 1
35 Rozaq 1 3 2 1 4
36 Lenny Octaviani 2 2 2 3 3
37 Nurul Luklu 2 3 2 3 4
38 Abdul Hafith 1 3 2 1 4
39 Syarif 1 3 2 2 3
40 Novi 2 2 2 3 3
41 Kidhut 1 3 2 1 4
42 Vivialita 2 3 2 3 3
43 Arfiana 2 3 2 4 3
44 Maya 2 3 2 2 2
45 Karen 2 3 2 4 1
46 Didit 1 3 2 3 3
47 Tasya 2 3 2 3 1
48 Tyas 2 3 2 4 2
49 Jusman Bieber 1 3 1 2 4
50 Galih 1 3 2 3 2
Hasil Rekapitulasi Kuesioner Tingkat Kepuasan
Tabel 4.2 Rekapitulasi Kuesioner Tingkat Kepuasan

No Nama Fasilitas Pelayanan Tata Letak Kenyamanan


1 Sekar 3 3 4 3
2 Hendia V. R 3 2 3 4
3 Huda 3 3 4 4
4 Annisa 2 3 3 3
5 Fitra 3 3 3 2
6 Fandi 2 2 2 1
7 Maro 2 2 2 2
8 Ikhsan 2 2 3 2
9 Aya' 2 3 3 2
10 Mabok 2 2 2 2
11 Richo 2 3 2 2
12 Atlit 3 3 4 4
13 Digdoyo 2 3 2 2
14 Sigit 2 2 3 3
15 Anestia 2 3 3 2
16 Ayu 1 2 1 3
17 Ryan 2 2 3 3
18 Fauzi 2 2 1 3
19 Dika Oki 1 2 2 3
20 Hendi 2 2 3 3
21 Kristin 1 2 1 3
22 Farikh 2 1 2 3
23 Adit 2 2 2 1
24 Nunuk 2 2 3 2
25 Wanda 2 3 3 3
26 Trisno 1 2 2 1
27 Rizki D.K. 2 3 2 3
28 Himawan 2 3 2 2
29 Omiyabi 2 3 2 1
No Nama Fasilitas Pelayanan Tata Letak Kenyamanan
30 Laskar Kesatria 2 3 2 2
31 Ibnu Herlino 2 2 2 2
32 Chanifa Yunani 2 2 2 2
33 Tomy 2 2 3 2
34 Safri Halimi 2 2 2 2
35 Rozaq 1 2 3 1
36 Lenny Octaviani 3 2 3 2
37 Nurul Luklu 2 2 2 2
38 Abdul Hafith 2 3 1 1
39 Syarif 2 2 2 2
40 Novi 2 2 2 2
41 Kidhut 1 1 1 1
42 Vivialita 3 4 3 3
43 Arfiana 3 3 3 3
44 Maya 3 2 3 2
45 Karen 3 3 3 3
46 Didit 3 3 3 2
47 Tasya 2 2 4 4
48 Tyas 3 2 2 2
49 Jusman Bieber 2 3 3 3
50 Galih 2 2 2 1
4.2. Pengolahan Data
4.2.1. Metode Hirarki
a. Stage
Tabel 4.3 Agglomeration Schedule

Cluster Combined Stage Cluster First Appears


Stage Coefficients Next Stage
Cluster 1 Cluster 2 Cluster 1 Cluster 2

1 23 50 .000 0 0 17

2 25 49 .000 0 0 15

3 5 46 .000 0 0 42

4 43 45 .000 0 0 26

5 36 44 .000 0 0 25

6 39 40 .000 0 0 7

7 37 39 .000 0 6 8

8 34 37 .000 0 7 9

9 32 34 .000 0 8 11

10 24 33 .000 0 0 16

11 31 32 .000 0 9 12

12 10 31 .000 0 11 24

13 28 30 .000 0 0 14

14 13 28 .000 0 13 22

15 4 25 .000 0 2 32

16 8 24 .000 0 10 29

17 6 23 .000 0 1 33

18 16 21 .000 0 0 34

19 17 20 .000 0 0 20

20 14 17 .000 0 19 36

21 9 15 .000 0 0 38

22 11 13 .000 0 14 31
Cluster Combined Stage Cluster First Appears
Stage Coefficients Next Stage
Cluster 1 Cluster 2 Cluster 1 Cluster 2

23 3 12 .000 0 0 44

24 7 10 .000 0 12 37

25 36 48 1.000 5 0 29

26 42 43 1.000 0 4 27

27 1 42 1.000 0 26 42

28 29 38 1.000 0 0 31

29 8 36 1.000 16 25 36

30 26 35 1.000 0 0 33

31 11 29 1.000 22 28 37

32 4 27 1.000 15 0 41

33 6 26 1.000 17 30 40

34 16 19 1.000 18 0 35

35 16 18 1.000 34 0 48

36 8 14 1.000 29 20 38

37 7 11 1.000 24 31 39

38 8 9 1.000 36 21 39

39 7 8 1.000 37 38 40

40 6 7 1.000 33 39 41

41 4 6 1.000 32 40 43

42 1 5 1.000 27 3 43

43 1 4 1.000 42 41 44

44 1 3 1.000 43 23 45

45 1 47 2.000 44 0 46

46 1 41 2.000 45 0 47

47 1 22 2.000 46 0 48
Cluster Combined Stage Cluster First Appears
Stage Coefficients Next Stage
Cluster 1 Cluster 2 Cluster 1 Cluster 2

48 1 16 2.000 47 35 49

49 1 2 2.000 48 0 0
b. Dendogram
Dendrogram using Single Linkage

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+

Adit 23 ─┐
Galih 50 ─┼───────────────────────┐
Fandi 6 ─┘ │
Trisno 26 ─────────────────────────┤
Rozaq 35 ─────────────────────────┤
Syarif 39 ─┐ │
Novi 40 ─┤ │
Nurul Lu 37 ─┤ │
Safri Ha 34 ─┤ │
Chanifa 32 ─┤ │
Ibnu Her 31 ─┤ │
Mabok 10 ─┼───────────────────────┤
Maro 7 ─┘ │
Himawan 28 ─┐ │
Laskar K 30 ─┤ │
Digdoyo 13 ─┼───────────────────────┤
Richo 11 ─┘ │
Omiyabi 29 ─────────────────────────┤
Abdul Ha 38 ─────────────────────────┤
Aya' 9 ─┬───────────────────────┤
Anestia 15 ─┘ │
Ryan 17 ─┐ │
Hendi 20 ─┼───────────────────────┤
Sigit 14 ─┘ │
Nunuk 24 ─┐ │
Tomy 33 ─┼───────────────────────┤
Ikhsan 8 ─┘ │
Lenny Oc 36 ─┬───────────────────────┤
Maya 44 ─┘ │
Tyas 48 ─────────────────────────┤
Wanda 25 ─┐ │
Jusman B 49 ─┼───────────────────────┤
Annisa 4 ─┘ │
Rizki D. 27 ─────────────────────────┤
Fitra 5 ─┬───────────────────────┼───────────────────────┐
Didit 46 ─┘ │ │
Arfiana 43 ─┬───────────────────────┤ │
Karen 45 ─┘ │ │
Vivialit 42 ─────────────────────────┤ │
Sekar 1 ─────────────────────────┤ │
Huda 3 ─┬───────────────────────┘ │
Atlit 12 ─┘ │
Tasya 47 ─────────────────────────────────────────────────┤
Kidhut 41 ─────────────────────────────────────────────────┤
Farikh 22 ─────────────────────────────────────────────────┤
Ayu 16 ─┬───────────────────────┐ │
Kristin 21 ─┘ │ │
Dika Oki 19 ─────────────────────────┼───────────────────────┤
Fauzi 18 ─────────────────────────┘ │

Hendia V 2 ─────────────────────────────────────────────────┘

Gambar 4.1 Dendogram


c. Cluster
Tabel 4.4 Cluster
Cluster 1 Cluster 2 Cluster 3 Cluster 4 (outlier)
Adit Tasya Ayu Hendia V.
Galih Kidhut Kristin
Fandi Farikh Dika Oki
Trisno Fauzi
Rozaq
Syarif
Novi
Nurul Luklu
Safri Halimi
Chanifa
Ibnu Herlino
Mabok
Maro
Himawan
Laskar Kesatria
Digdiyo
Richo
Omiyabi
Abdul Hafit
Aya’
Anestia
Ryan
Hendi
Sigit
Nunuk
Tomy
Ikhsan
Lenny Oktaviani
Maya
Cluster 1 Cluster 2 Cluster 3 Cluster 4 (outlier)
Tyas
Wanda
Jusman Beiber
Annisa
Rizki D
Didit
Arfiana
Karen
Vivialita
Sekar
Huda
Atlit
4.2.2. Profilisasi Customer

Tabel 4.5 Jenis Kelamin * Cluster Member


Cluster Member
1 2 3 4 Total
Jenis Kelamin Laki - laki Count 27 2 2 0 31
% of Total 54.0% 4.0% 4.0% .0% 62.0%
Perempuan Count 15 1 2 1 19
% of Total 30.0% 2.0% 4.0% 2.0% 38.0%
Total Count 42 3 4 1 50
% of Total 84.0% 6.0% 8.0% 2.0% 100.0%

Tabel 4.6 Usia * Cluster Member


Cluster Member
1 2 3 4 Total
Usia 17 - 19 tahun Count 7 1 0 0 8
% of Total 14.0% 2.0% .0% .0% 16.0%
20 -22 tahun Count 35 2 4 1 42
% of Total 70.0% 4.0% 8.0% 2.0% 84.0%
Total Count 42 3 4 1 50
% of Total 84.0% 6.0% 8.0% 2.0% 100.0%

Tabel 4.7 Angkatan * Cluster Member


Cluster Member
1 2 3 4 Total
Angkatan <= 2007 Count 8 0 1 0 9
% of Total 16.0% .0% 2.0% .0% 18.0%
2008 Count 31 2 3 1 37
% of Total 62.0% 4.0% 6.0% 2.0% 74.0%
2009 Count 3 1 0 0 4
% of Total 6.0% 2.0% .0% .0% 8.0%
Total Count 42 3 4 1 50
% of Total 84.0% 6.0% 8.0% 2.0% 100.0%
Tabel 4.8 Intensitas * Cluster Member
Cluster Member
1 2 3 4 Total
Intensitas Sangat Sering Count 5 1 3 0 9
% of Total 10.0% 2.0% 6.0% .0% 18.0%
Sering Count 10 0 1 1 12
% of Total 20.0% .0% 2.0% 2.0% 24.0%
Sedang Count 13 1 0 0 14
% of Total 26.0% 2.0% .0% .0% 28.0%
Jarang Count 14 1 0 0 15
% of Total 28.0% 2.0% .0% .0% 30.0%
Total Count 42 3 4 1 50
% of Total 84.0% 6.0% 8.0% 2.0% 100.0%

Tabel 4.9 Durasi * Cluster Member


Cluster Member
1 2 3 4 Total
Durasi <= 15 menit Count 9 2 1 0 12
% of Total 18.0% 4.0% 2.0% .0% 24.0%
16 - 30 menit Count 8 0 0 0 8
% of Total 16.0% .0% .0% .0% 16.0%
30 - 60 menit Count 13 0 0 1 14
% of Total 26.0% .0% .0% 2.0% 28.0%
>= 60 menit Count 12 1 3 0 16
% of Total 24.0% 2.0% 6.0% .0% 32.0%
Total Count 42 3 4 1 50
% of Total 84.0% 6.0% 8.0% 2.0% 100.0%
BAB V
PEMBAHASAN

5.1. Clustering
Teknik yang digunakan dalam penelitian in adalah Teknik hirarki
(hierarchical methods) adalah teknik clustering membentuk kontruksi hirarki atau
berdasarkan tingkatan tertentu seperti struktur pohon (struktur pertandingan).
Dengan demikian proses pengelompokkannya dilakukan secara bertingkat atau
bertahap. Hasil dari pengelompokan ini dapat disajikan dalam bentuk dendogram.
Metode dalam teknik hirarki yang digunakan dalam penelitian ini adalah
Agglomerative Methods.
Dari pengolahan data dengan menggunakan metode herarki maka terbentuklah
4 cluster yang dimana cluster 1 terdiri dari 42 responden, cluster 2 terdiri dari 3
responden, dan cluster 3 terdiri dari 4 responden. Cluster 4 tidak memiliki
kelompok yang relative homogen, sehingga cluster 4 dikatakan outlier. Cluster 4
terdiri dari 1 responden.

5.2. Profilisasi Customer


Kuisioner 1 merupakan profilisasi dari customer. Ada 5 variabel yang terdapat
pada kuisioner 1, yaitu Jenis Kelamin, Usia, Angkatan, Intensitas, dan Durasi.
Berikut penjabaran dari crosstab masing – masing variable.
Jenis Kelamin
Cluster 1 Cluster 3
Laki – laki : 27 Laki – laki : 2
Perempuan : 15 Perempuan : 2
Total : 42 Total : 4
Cluster 2 Cluster 4
Laki – laki : 2 Laki – laki : 0
Perempuan : 1 Perempuan : 1
Total : 3 Total : 1
Usia
Cluster 1 Cluster 3
17 – 19 tahun : 7 17 – 19 tahun : 0
20 – 22 tahun : 35 20 – 22 tahun : 4
Total : 42 Total : 4
Cluster 2 Cluster 4
17 – 19 tahun : 1 17 – 19 tahun : 0
20 – 22 tahun : 2 20 – 22 tahun : 1
Total : 3 Total : 1

Angkatan
Cluster 1 Cluster 3
≤ 2007 : 8 ≤ 2007 : 1
2008 : 31 2008 : 3
2009 : 3 2009 : 0
Total : 42 Total : 4
Cluster 2 Cluster 4
≤ 2007 : 0 ≤ 2007 : 0
2008 : 2 2008 : 1
2009 : 1 2009 : 0
Total : 3 Total : 1

Intensitas
Cluster 1 Sedang : 1
Sangat Sering : 5 Jarang : 1
Sering : 10 Total : 3
Sedang : 13 Cluster 3
Jarang : 14 Sangat Sering : 3
Total : 42 Sering : 1
Cluster 2 Sedang : 0
Sangat Sering : 1 Jarang : 0
Sering : 0 Total : 4
Cluster 4 Sedang : 0
Sangat Sering : 0 Jarang : 0
Sering : 1 Total : 1

Durasi
Cluster 1 Cluster 3
≤ 15 menit : 9 ≤ 15 menit : 1
16 – 30 menit : 8 16 – 30 menit : 0
30 – 60 menit : 13 30 – 60 menit : 0
≥ 60 menit : 12 ≥ 60 menit : 3
Total : 42 Total : 4
Cluster 2 Cluster 4
≤ 15 menit : 2 ≤ 15 menit : 0
16 – 30 menit : 0 16 – 30 menit : 0
30 – 60 menit : 0 30 – 60 menit : 1
≥ 60 menit : 1 ≥ 60 menit : 0
Total : 3 Total : 1
BAB VI
KESIMPULAN DAN SARAN

6.1. Kesimpulan
Berdasarkan hasil dari pembahasan pada bab V, maka didapatkan beberapa
kesimpulan :
1. Cluster yang terbentuk sebanyak 3 cluster dan 1 outlier. Cluster 1 terdiri dari
42 responden, cluster 2 terdiri dari 3 responden, dan cluster 3 terdiri dari 4
responden. Cluster 4 tidak memiliki kelompok yang relative homogen,
sehingga cluster 4 dikatakan outlier. Cluster 4 terdiri dari 1 responden.
2. Mahasiswa Teknik Industri yang berkunjung ke laboratorium Data Mining
dominan berjenis kelamin laki-laki dengan rata-rata usia 20 – 22 tahun dan
merupakan angkatan 2008 dengan intensitas kunjungan yang jarang dan durasi
atau lama berkunjung responden ≥ 60 menit.

6.2. Saran
Berdasarkan kesimpulan diatas maka disarankan kepada Laboratorium Data
Mining agar lebih gencar dalam mempromosikan kepada mahasiswa Teknik
Industri dan mengadakan kegiatan yang bersifat rutin selain praktikum agar
intensitas kunjungan mahasiswa ke Laboratorium dapat bertambah.
DAFTAR PUSTAKA

Modul II Analisis Cluster Praktikum Data Mining


Han, Jiawei. ”Data Mining Concept and Technique”. Presentation.
http://www.cse.msu.edu/~cse980
Bertalya, ”Konsep Data Mining”. Universitas Gunadarma, 2009.
Walpole, Ronald E. Probability and Statistics for Engineers and Scientists.
LAMPIRAN

Cluster

a,b
Case Processing Summary

Cases

Valid Missing Total

N Percent N Percent N Percent

50 100.0 0 .0 50 100.0

a. Squared Euclidean Distance used

b. Single Linkage

Single Linkage

Agglomeration Schedule

Cluster Combined Stage Cluster First Appears

Stage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage

1 23 50 .000 0 0 17

2 25 49 .000 0 0 15

3 5 46 .000 0 0 42

4 43 45 .000 0 0 26

5 36 44 .000 0 0 25

6 39 40 .000 0 0 7

7 37 39 .000 0 6 8

8 34 37 .000 0 7 9

9 32 34 .000 0 8 11

10 24 33 .000 0 0 16

11 31 32 .000 0 9 12

12 10 31 .000 0 11 24

13 28 30 .000 0 0 14

14 13 28 .000 0 13 22

15 4 25 .000 0 2 32

16 8 24 .000 0 10 29
Cluster Combined Stage Cluster First Appears

Stage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage

17 6 23 .000 0 1 33

18 16 21 .000 0 0 34

19 17 20 .000 0 0 20

20 14 17 .000 0 19 36

21 9 15 .000 0 0 38

22 11 13 .000 0 14 31

23 3 12 .000 0 0 44

24 7 10 .000 0 12 37

25 36 48 1.000 5 0 29

26 42 43 1.000 0 4 27

27 1 42 1.000 0 26 42

28 29 38 1.000 0 0 31

29 8 36 1.000 16 25 36

30 26 35 1.000 0 0 33

31 11 29 1.000 22 28 37

32 4 27 1.000 15 0 41

33 6 26 1.000 17 30 40

34 16 19 1.000 18 0 35

35 16 18 1.000 34 0 48

36 8 14 1.000 29 20 38

37 7 11 1.000 24 31 39

38 8 9 1.000 36 21 39

39 7 8 1.000 37 38 40

40 6 7 1.000 33 39 41

41 4 6 1.000 32 40 43

42 1 5 1.000 27 3 43

43 1 4 1.000 42 41 44

44 1 3 1.000 43 23 45

45 1 47 2.000 44 0 46

46 1 41 2.000 45 0 47

47 1 22 2.000 46 0 48

48 1 16 2.000 47 35 49

49 1 2 2.000 48 0 0
Dendrogram

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * *

Dendrogram using Single Linkage

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+

Adit 23 ─┐
Galih 50 ─┼───────────────────────┐
Fandi 6 ─┘ │
Trisno 26 ─────────────────────────┤
Rozaq 35 ─────────────────────────┤
Syarif 39 ─┐ │
Novi 40 ─┤ │
Nurul Lu 37 ─┤ │
Safri Ha 34 ─┤ │
Chanifa 32 ─┤ │
Ibnu Her 31 ─┤ │
Mabok 10 ─┼───────────────────────┤
Maro 7 ─┘ │
Himawan 28 ─┐ │
Laskar K 30 ─┤ │
Digdoyo 13 ─┼───────────────────────┤
Richo 11 ─┘ │
Omiyabi 29 ─────────────────────────┤
Abdul Ha 38 ─────────────────────────┤
Aya' 9 ─┬───────────────────────┤
Anestia 15 ─┘ │
Ryan 17 ─┐ │
Hendi 20 ─┼───────────────────────┤
Sigit 14 ─┘ │
Nunuk 24 ─┐ │
Tomy 33 ─┼───────────────────────┤
Ikhsan 8 ─┘ │
Lenny Oc 36 ─┬───────────────────────┤
Maya 44 ─┘ │
Tyas 48 ─────────────────────────┤
Wanda 25 ─┐ │
Jusman B 49 ─┼───────────────────────┤
Annisa 4 ─┘ │
Rizki D. 27 ─────────────────────────┤
Fitra 5 ─┬───────────────────────┼───────────────────────┐
Didit 46 ─┘ │ │
Arfiana 43 ─┬───────────────────────┤ │
Karen 45 ─┘ │ │
Vivialit 42 ─────────────────────────┤ │
Sekar 1 ─────────────────────────┤ │
Huda 3 ─┬───────────────────────┘ │
Atlit 12 ─┘ │
Tasya 47 ─────────────────────────────────────────────────┤
Kidhut 41 ─────────────────────────────────────────────────┤
Farikh 22 ─────────────────────────────────────────────────┤
Ayu 16 ─┬───────────────────────┐ │
Kristin 21 ─┘ │ │
Dika Oki 19 ─────────────────────────┼───────────────────────┤
Fauzi 18 ─────────────────────────┘ │

Hendia V 2 ─────────────────────────────────────────────────┘
Crosstabs

Case Processing Summary

Cases

Valid Missing Total

N Percent N Percent N Percent

Jenis Kelamin * Cluster


50 100.0% 0 .0% 50 100.0%
Member

Usia * Cluster Member 50 100.0% 0 .0% 50 100.0%

Angkatan * Cluster Member 50 100.0% 0 .0% 50 100.0%

Intensitas * Cluster Member 50 100.0% 0 .0% 50 100.0%

Durasi * Cluster Member 50 100.0% 0 .0% 50 100.0%

Jenis Kelamin * Cluster Member

Crosstab

Cluster Member

1 2 3 4 Total

Jenis Kelamin Laki - laki Count 27 2 2 0 31

% of Total 54.0% 4.0% 4.0% .0% 62.0%

Perempuan Count 15 1 2 1 19

% of Total 30.0% 2.0% 4.0% 2.0% 38.0%

Total Count 42 3 4 1 50

% of Total 84.0% 6.0% 8.0% 2.0% 100.0%

Symmetric Measures

Asymp. Std.
Value Errora Approx. Tb Approx. Sig.
c
Interval by Interval Pearson's R .159 .141 1.117 .270
c
Ordinal by Ordinal Spearman Correlation .121 .146 .844 .403

N of Valid Cases 50

a. Not assuming the null hypothesis.

b. Using the asymptotic standard error assuming the null hypothesis.

c. Based on normal approximation.


Usia * Cluster Member

Crosstab

Cluster Member

1 2 3 4 Total

Usia 17 - 19 tahun Count 7 1 0 0 8

% of Total 14.0% 2.0% .0% .0% 16.0%

20 -22 tahun Count 35 2 4 1 42

% of Total 70.0% 4.0% 8.0% 2.0% 84.0%

Total Count 42 3 4 1 50

% of Total 84.0% 6.0% 8.0% 2.0% 100.0%

Symmetric Measures

Asymp. Std. Approx.


a b
Value Error Approx. T Sig.
c
Interval by Interval Pearson's R .097 .078 .679 .501

Ordinal by Ordinal Spearman Correlation .056 .119 .391 .698c

N of Valid Cases 50

a. Not assuming the null hypothesis.

b. Using the asymptotic standard error assuming the null hypothesis.

c. Based on normal approximation.

Angkatan * Cluster Member

Crosstab

Cluster Member

1 2 3 4 Total

Angkatan <= 2007 Count 8 0 1 0 9

% of Total 16.0% .0% 2.0% .0% 18.0%

2008 Count 31 2 3 1 37

% of Total 62.0% 4.0% 6.0% 2.0% 74.0%

2009 Count 3 1 0 0 4

% of Total 6.0% 2.0% .0% .0% 8.0%

Total Count 42 3 4 1 50

% of Total 84.0% 6.0% 8.0% 2.0% 100.0%


Symmetric Measures

Asymp. Std.
a b
Value Error Approx. T Approx. Sig.
c
Interval by Interval Pearson's R .023 .116 .160 .874

Ordinal by Ordinal Spearman Correlation .071 .135 .495 .623c

N of Valid Cases 50

a. Not assuming the null hypothesis.

b. Using the asymptotic standard error assuming the null hypothesis.

c. Based on normal approximation.

Intensitas * Cluster Member


Crosstab

Cluster Member

1 2 3 4 Total

Intensitas Sangat Sering Count 5 1 3 0 9

% of Total 10.0% 2.0% 6.0% .0% 18.0%

Sering Count 10 0 1 1 12

% of Total 20.0% .0% 2.0% 2.0% 24.0%

Sedang Count 13 1 0 0 14

% of Total 26.0% 2.0% .0% .0% 28.0%

Jarang Count 14 1 0 0 15

% of Total 28.0% 2.0% .0% .0% 30.0%

Total Count 42 3 4 1 50

% of Total 84.0% 6.0% 8.0% 2.0% 100.0%

Symmetric Measures

Asymp. Std.
Value Errora Approx. Tb Approx. Sig.

Interval by Interval Pearson's R -.368 .107 -2.739 .009c

Ordinal by Ordinal Spearman Correlation -.334 .129 -2.459 .018c

N of Valid Cases 50

a. Not assuming the null hypothesis.

b. Using the asymptotic standard error assuming the null hypothesis.

c. Based on normal approximation.


Durasi * Cluster Member

Crosstab

Cluster Member

1 2 3 4 Total

Durasi <= 15 menit Count 9 2 1 0 12

% of Total 18.0% 4.0% 2.0% .0% 24.0%

16 - 30 menit Count 8 0 0 0 8

% of Total 16.0% .0% .0% .0% 16.0%

30 - 60 menit Count 13 0 0 1 14

% of Total 26.0% .0% .0% 2.0% 28.0%

>= 60 menit Count 12 1 3 0 16

% of Total 24.0% 2.0% 6.0% .0% 32.0%

Total Count 42 3 4 1 50

% of Total 84.0% 6.0% 8.0% 2.0% 100.0%

Symmetric Measures

Asymp. Std. Approx.


a b
Value Error Approx. T Sig.

Interval by Interval Pearson's R .087 .137 .603 .549c

Ordinal by Ordinal Spearman Correlation .065 .162 .452 .653c

N of Valid Cases 50

a. Not assuming the null hypothesis.

b. Using the asymptotic standard error assuming the null hypothesis.

c. Based on normal approximation.


LAPORAN RESMI
PRAKTIKUM DATA MINING
REGRESI

DISUSUN OLEH:
KELOMPOK C.23
ARIF RAKHMANTO (08 522 200)
CATUR HERMAWANTO (08 522 210)

LABORATORIUM DATA MINING


JURUSAN TEKNIK INDUSTRI
FAKULTAS TEKNOLOGI INDUSTRI
UNIVERSITAS ISLAM INDONESIA
2010
ABSTRAKS
Regresi merupakan salah satu metode yang dapat digunakan untuk
memprediksi penjualan pada suatu perusahaan. Dalam penelitian ini, analisis regresi
berganda digunakan untuk memprediksi total penjualan dari butik THE UNIQUE
CULTURE. Metode yang digunakan dalam penelitian ini adalah Analisis Linier
Berganda yang merupakan suatu metode statistik umum yang digunakan untuk
meneliti hubungan antara sebuah variable dependent dengan beberapa variable
independent. Tujuan analisis regresi linier berganda adalah menggunakan variable
independent yang diketahui, untuk meramalkan variable dependent.

Keyword : Regresi, Regresi Linear Berganda, THE UNIQUE CULTURE


BAB I

PENDAHULUAN

1.4 Latar Belakang masalah


THE UNIQUE CULTURE merupakan sebuah butik Batik dengan etnik
modern yang sedang berkembang di kalangan menengah atas masyarakat
Indonesia. Dalam beberapa bulan terakhir, THE UNIQUE CULTURE gencar
mempromosikan batik dengan segala jenis varian barunya yang dijualnya dengan
membuka outlet-outlet di 50 daerah. Dalam rangka memperluas jaringan pasar,
THE UNIQUE CULTURE menambah 5 kota untuk membuka outletnya, yakni
Purworejo, Purwodadi, Waykambas, Musi dan Tarakan. Oleh sebab itu, THE
UNIQUE CULTURE membutuhkan prediksi penjualan pada lima kota tersebut.

1.5 Rumusan Masalah


1. Bagaimana hasil uji normalitas?
2. Bagaimana hasil uji signifikansi persamaan regresi?
3. Bagaimana persamaan regresi yang terbentuk?
4. Bagaimana hasil uji multikolineritas?
5. Bagaimana korelasi antara variable dependent dengan variabel
independentnya?
6. Bagaimana hasil prediksi penjualan pada lima kota?

1.6 Tujuan penelitian


3. Untuk mengetahui hasil uji normalitas.
4. Untuk mengetahui hasil uji signifikansi persamaan regresi.
5. Untuk mengetahui persamaan regresi yang terbentuk.
6. Untuk mengetahui uji multikolineritas.
7. Untuk mengetahui hubungan antara variable dependent dengan variable
independentnya.
8. Untuk mengetahui hasil prediksi penjualan pada lima kota.
1.7 Manfaat Penelitian

Penelitian ini bermafaat untuk mengetahui persamaan regresi yang didapatkan


dari data historis butik THE UNIQUE CULTURE untuk memprediksi total
penjualan yang didapatkan pada 5 kota.
1.5 Flowchart

Mulai

Pengumpulan Data
MasaPengumpulal
ah TIDAK

TIDAK
Uji Normalitas

ya

TIDAK
Uji Linearitas Sig ≤ 0.05
atau Fhitung > Ftabel

ya

Uji MultiKolinearitas VIF < 2

ya

Menentukan Persamaan Regresi

Menentukan Nilai R Square

Menentukan Koefisien Korelasi

Selesai

Gambar 1.1 Flowchart


3.5. Langkah Software
12. Input data yang diperoleh ke independent(X) yang valid
software

16. Case labels : Letakkan nama


13. Pilih analyze klik Regression daerah
lalu pilih Linear

17. Statistik : Regression


14. Dependent : Letakkan
Coefficient lalu klik estimates,
Variabel dependent (Y) yang
model fit, descriptives,
valid
collinearity diagnostics lalu
klik continue

15. Independent(s) : Letakkan


semua Variabel
18. Plots : Y = dependent, X =
*adjpred, klik histogram dan
probability plot, klik continue

19. Save : predicted values, klik


unstandardized, include the
convariance matrix, continue.

20. Option : klik Probability of F,


include constant in equation,
exclude cases listwise,
continue.

21. Klik OK
BAB II
LANDASAN TEORI

Banyak penelitian yang bertujuan mencari dasar-dasar untuk mengadakan


prediksi suatu variabel dari informasi-informasi yang diperoleh dari variabel tersebut.
Misalnya, apakah keadaan cuaca dapat diramalkan dari suhu, tekanan udara,
kelembaban udara, dan kecepatan angin; Apakah prestasi belajar anak dapat
diprediksikan dari angka kecerdasan dan perbendaharaan bahasa (kosa kata); Apakah
prestasi pemain sepak bola dapat dipresiksi dari keahliannya dan umur pemain
tersebut; dan sebagainya. Maka diperlukan metoda untuk dapat memecahkan semua
masalah yang ada untuk memudahkan dalam pengambilan keputusan. Salah satu tool
atau metoda untuk memprediksi adalah Regresi.

Dalam kehidupan sehari-hari kita sering melihat suatu peristiwa atau keadaan
yang terjadi akibat peristiwa yang lain. Untuk mengetahui hubungan antara kejadian
tersebut, terutama untuk menelusuri pola hubungan yang modelnya belum diketahui
maka analisis regresi dapat dijadikan alat untuk membantu menganalisis hubungan
tersebut. Analisis regresi memiliki 3 kegunaan yaitu, deskripsi, kendali, dan prediksi
(peramalan). Tetapi manfaat utama dari kebanyakan penyelidikan statistik dalam
dunia bisnis dan ekonomi adalah mengadakan prediksi atau peramalan.

Dalam analisis regresi dikenal dua macam variabel atau peubah yaitu variabel
bebas (independent variabel) adalah dan variabel tidak bebas (dependent variabel).
Variabel bebas (independent variabel) adalah suatau variabel yang nilainya telah
diketahui, sedangkan variabel tidak bebas (dependent variabel) adalah variabel yang
nialainya belum diketahui dan yang akan diramalkan. Suatu variabel dapat diramalkan
dari variabel lain apabila antara variabel yang diramalakan (dependent variabel)
dengan variabel yang nilainya diketahui (independent variabel) terdapat hubungan
atau korelasi yang signifikan. Misalnya, jika antara tinggi badan dan berat badan pada
umur-umur tertentu terdapat korelasi yang signifikan, maka berat badan orang pada
umur tersebut akan dapat diramalkan dari tinggi badannya. Korelasi antara
independent variable dengan dependent variabel dapat dilukiskan dalam suatu garis.
Garis ini disebut garis regresi. Garis regresi mungkin merupakan garis lurus (linier)
disebut regresi linier, mungkin juga merupakan garis lengkung (parabolik, hiperbolik,
dan sebagainya) yang disebut regresi non linier. Namun berdasarkan dari data yang
ada, maka analisis yang akan digunakan adalah analisis regresi linear berganda.

Regresi linier berganda mengamati pengaruh lebih dari satu variabel bebas
(independent variable) terhadap variabel tidak bebas (dependent variable), minimal
ada dua buah variabel bebas (independent variable).

Analisis Linier Berganda adalah suatu metode statistik umum yang digunakan
untuk meneliti hubungan antara sebuah variable dependent dengan beberapa variable
independent. Tujuan analisis regresi linier berganda adalah menggunakan variable
independent yang diketahui, untuk meramalkan variable dependent. Misalnya :
penjualan sebuah produk dapat dipengaruhi oleh biaya promosi, biaya produksi, biaya
transportasi, gaji karyawan dan lain-lain. Jumlah pengeluaran rumah tangga
dipengaruhi oleh pendapatan, jumlah keluarga.

Secara matematis regresi linier berganda dapat dituliskan dalam persamaan berikut :

Ŷ = a + b1X1 + b2X2 + b3X3 + … + bnXn

dimana :
Y = variabel yang diramalkan (dependent variable)
X1, X2, X3, …, Xn = variabel yang diketahui (independent variable)
b1, b2, b3,…, bn = koefisien regresi
BAB III
PENGUMPULAN DAN PENGOLAHAN DATA

3.1 Pengumpulan Data


3.1.1 Data Historis butik THE UNIQUE CULTURE

Tabel 3.1 Data historis butik THE UNIQUE CULTURE


Laju
Biaya Luas Jumlah
No. Daerah Penjualan Pertumbuhan
Periklanan Outlet Pesaing
Penduduk
1 Jakarta Pusat 231 50 2.55 55 35
2 Jakarta Barat 135 17 2.15 46 30
3 Jakarta Selatan 187 18 1.99 53 25
4 Bandung 276 25 1.76 45 33
5 Bogor 233 15 2.3 64 14
6 Cirebon 345 35 2.69 54 5
7 Aceh 267 21 2.56 76 10
8 Medan 163 40 3 56 7
9 Riau 321 34 1.65 67 12
10 Batam 337 44 1.9 68 9
11 Bengkulu 333 24 1.46 40 5
12 Jambi 235 26 1.57 61 4
13 Banten 234 15 1.87 65 7
14 Cilegon 169 26 1.76 55 9
15 Purwakarta 179 11 1.98 41 12
16 Yogyakarta 245 44 1.28 59 53
17 Semarang 100 29 1.76 41 27
18 Pekalongan 256 23 2.23 65 40
19 Solo 139 29 2.21 52 25
20 Bekasi 157 35 2.66 53 12
21 Tangerang 212 23 1.69 54 11
22 Denpasar 365 45 2.56 65 9
Laju
Biaya Luas Jumlah
No. Daerah Penjualan Pertumbuhan
Periklanan Outlet Pesaing
Penduduk
23 Dumai 250 24 2.39 61 17
24 Bontang 198 19 1.54 51 19
25 Surabaya 284 24 2.88 75 7
26 Kediri 247 29 1.99 58 6
27 Malang 210 22 1.79 64 19
28 Banjarmasin 290 23 2.89 68 6
29 Padang 342 33 2.68 60 8
30 Pekanbaru 214 13 1.79 78 7
31 Manado 320 31 1.78 45 3
32 Jayapura 300 26 1.46 51 5
33 Martapura 349 32 2.7 49 2
34 Sorong 209 21 1.65 54 4
35 Makasar 217 18 1.9 65 9
36 Ambon 89 21 1 40 4
37 Bukit Tinggi 225 22 2.76 50 9
38 Purwokerto 135 21 2.14 47 8
39 Tuban 218 21 2.01 87 6
40 Jombang 175 23 1.87 43 9
41 Bangka 211 15 1.67 53 5
42 Belitung 374 40 2.24 74 4
43 Lampung 256 19 2.58 64 8
44 Mataram 234 27 1.65 70 8
45 Depok 223 18 2.34 45 9
46 Gorontalo 264 39 2.21 88 8
47 Metro 319 39 2.24 65 9
48 Madiun 126 16 1.98 43 5
49 Magelang 110 9 1.22 46 7
50 Palangka Raya 390 39 2.54 90 9
3.1.2 Data yang Akan Diprediksi
Tabel 3.2 Data yang akan diprediksi dari butik THE UNIQUE CULTURE

Laju
Biaya Luas
pertumbuhan Jumlah
NO Daerah Periklanan outlet
penduduk pesaing
(juta) (m2)
(%)

1 Purworejo 22 2.12 39 5

2 Purwodadi 27 1.91 78 3

3 Waykambas 17 1.88 37 6

4 Musi 19 1.69 49 3

5 Tarakan 23 2.23 72 4
3.2 Pengolahan Data
3.2.1 Uji Normalitas

Gambar 3.1

Gambar 3.2
3.2.2 Tabel Model Summary
Tabel 3.3 Model Summaryb

Adjusted R Std. Error of


Model R R Square
Square the Estimate

1 .663a .440 .390 58.90304

3.2.3 Uji Linearitas


Tabel 3.4 ANOVAb

Model Sum of Squares df Mean Square F Sig.

1 Regression 122477.380 4 30619.345 8.825 .000a

Residual 156130.540 45 3469.568

Total 278607.920 49

3.2.4 Uji Multikolinieritas dan Persamaan Regresi


Tabel 3.5 Coefficientsa

Unstandardized Standardized Collinearity


Coefficients Coefficients Statistics
Model t Sig.
Std.
B Beta Tolerance VIF
Error

1 (Constant) 36.481 50.393 .724 .473

Biaya Periklanan 3.520 .959 .451 3.670 .001 .826 1.211

Laju Pertumbuhan
12.587 19.314 .079 .652 .518 .844 1.185
Penduduk

Luas Outlet 1.765 .718 .296 2.458 .018 .858 1.165

Jumlah Pesaing -1.631 .824 -.230 -1.979 .054 .925 1.081


3.2.5 Nilai Korelasi antara Variable Dependent dengan Variable Independent
Tabel 3.6 Correlations

Laju
Biaya Pertumbuhan Luas Jumlah
Penjualan Periklanan Penduduk Outlet Pesaing

Pearson Penjualan 1.000 .513 .326 .467 -.193


Correlation Biaya Periklanan .513 1.000 .299 .266 .176

Laju Pertumbuhan
.326 .299 1.000 .301 -.101
Penduduk

Luas Outlet .467 .266 .301 1.000 -.118

Jumlah Pesaing -.193 .176 -.101 -.118 1.000

Sig. (1-tailed) Penjualan . .000 .010 .000 .089

Biaya Periklanan .000 . .017 .031 .111

Laju Pertumbuhan
.010 .017 . .017 .242
Penduduk

Luas Outlet .000 .031 .017 . .208

Jumlah Pesaing .089 .111 .242 .208 .

N Penjualan 50 50 50 50 50

Biaya Periklanan 50 50 50 50 50

Laju Pertumbuhan
50 50 50 50 50
Penduduk

Luas Outlet 50 50 50 50 50

Jumlah Pesaing 50 50 50 50 50
3.2.6 Prediksi
Berdasarkan table koefisien, maka dapat diperoleh informasi bahwa nilai :
a = 36,481
b1 = 3,52
b2 = 12,587
b3 = 1,765
b4 = -1,631
sehingga dapat diperoleh persamaan regresi sebagai berikut :

Y = 36,481 + 3,52 X1 + 12,587 X2 + 1,765 X3 - 1,631 X4

Maka prediksi penjualan pada lima kota adalah sebagai berikut :


YPurworejo = 36,481 + 3,52 (22) + 12,587 (2,12) + 1,765 (39) - 1,631 (5)
= 201,29
YPurwodadi = 36,481 + 3,52 (27) + 12,587 (1,91) + 1,765 (78) - 1,631 (3)
= 288,34
YWaykambas = 36,481 + 3,52 (17) + 12,587 (1,88) + 1,765 (37) - 1,631 (6)
= 175,5
YMusi = 36,481 + 3,52 (19) + 12,587 (1,69) + 1,765 (49) - 1,631 (3)
= 206,23
YTarakan = 36,481 + 3,52 (23) + 12,587 (2,23) + 1,765 (72) - 1,631 (4)
= 266,07
BAB IV
PEMBAHASAN

4.1 Uji Normalitas


Berdasarkan histogram yang diperoleh dari output SPSS, maka dapat dilihat
bahwa pola histogram relatif membentuk lonceng terbalik. Hal tersebut
menunjukkan bahwa data bersifat normal. Selain itu, berdasarkan scater plot juga
dapa terlihat bahwa pola distribusi data relatif membentuk linier.

4.2 Tabel Model Summary


Dari hasil pengolahan data diperoleh nilai R-square yaitu sebesar 0.440, yang
artinya besarnya keragaman antara variabel dependent dengan variabel
independent yang terdapat pada persamaan regresi sebesar 0.440, semakin besar
nilai R-square semakin baik persamaan regresi tersebut dalam menjelaskan
keragaman data.

4.3 Uji Linearitas


Hipotesis:
Ho: Biaya periklanan, laju pertumbuhan penduduk, luas outlet, dan jumlah pesaing
tidak berpengaruh pada penjualan.
H1: Biaya periklanan, laju pertumbuhan penduduk, luas outlet, dan jumlah pesaing
berpengaruh pada penjualan.
Tingkat signifikansi
Level signifikansi = 0.000 df1 = k = 4 df2 = n – k – 1 = 45
Ftabel = 5,56
Fhitung = 8,825
Daerah kritis
Jika Fhitung ≥ Ftabel maka Ho ditolak
Jika Fhitung ≤ Ftabel maka Ho diterima
F hitung > F table maka H0 ditolak sehingga persamaan signifikan (ada pengauh
yang signifikan antara variable independent terhadap variable dependent.
4.4 Uji Multikolinieritas dan Persamaan Regresi
4.4.1 Uji Multikolinieritas
Dengan uji multikolinieritas maka didapat hasil VIF sebagai berikut:
VIF Nilai biaya periklanan = 1.211
VIF Nilai laju pertumbuhan penduduk = 1.185
VIF Nilai luas outlet = 1.165
VIF Nilai jumlah pesaing = 1.081
Karena 4 nilai VIF < 2, maka artinya variabel biaya periklanan, laju
pertumbuhan penduduk, luas outlet dan jumlah pesaing tidak saling
berkorelasi atau tidak terjadi multikolinieritas.

4.4.2 Persamaan Regresi


Dari hasil pengolahan data didapat hasil sebagai berikut;
a = 36,481
b1 = 3,52
b2 = 12,587
b3 = 1,765
b4 = -1,631
dengan;
Y1 = penjualan
X1 = biaya periklanan
X2 = laju pertumbuhan penduduk
X3 = luas outlet
X4 = jumlah pesaing
sehingga dapat diperoleh persamaan regresi sebagai berikut :
Y = 36,481 + 3,52 X1 + 12,587 X2 + 1,765 X3 - 1,631 X4
4.5 Nilai Korelasi antara Variable Dependent dengan Variable Independent
Dari hasil pengolahan data diperoleh hubungan korelasi sebagai berikut:
1. Hubungan korelasi antara Y – X1 = 0.513 berarti positif kuat.
2. Hubungan korelasi antara Y – X2 = 0.326 berarti positif lemah
3. Hubungan korelasi antara Y – X3 = 0.467 berarti positif lemah.
4. Hubungan korelasi antara Y – X4 = - 0.193 berarti negatif lemah.
5. Hubungan korelasi antara X1 – X2 = 0.299 berarti positif lemah.
6. Hubungan korelasi antara X1 – X3 = 0.266 berarti positif lemah.
7. Hubungan korelasi antara X1 – X4 = 0.176 berarti positif lemah.
8. Hubungan korelasi antara X2 – X3 = 0.301 berarti positif lemah.
9. Hubungan korelasi antara X2 – X4 = - 0.101 berarti negatif lemah.
10.Hubungan korelasi antara X3 – X4 = - 0.118 berarti negatif lemah.

4.6 Prediksi
Dari hasil penghitungan dengan menggunakan persamaaan regeresi dapat
diketahui prediksi besar insentif karyawan yang akan diterima sebagai berikut:
1. Di kota Purworejo besar penjualan adalah 201.29
2. Di kota Purwodadi besar penjualan adalah 288.34
3. Di kota Waykambas besar penjualan adalah 175.5
4. Di kota Musi besar penjualan adalah 206.23
5. Di kota Tarakan besar penjualan adalah 266.07
BAB V
KESIMPULAN DAN SARAN

6.1. Kesimpulan
1. Berdasarkan hasil uji normalitas diketahui bahwa data bersifat normal
2. Berdasarkan hasil uji signifikansi persamaan regresi, maka :
Ftabel = 5,56
Fhitung = 8,825
F hitung > F table maka H0 ditolak sehingga persamaan signifikan (ada
pengauh yang signifikan antara variable independent terhadap variable
dependent.
3. Persamaan regresi yang terbentuk adalah sebagai berikut :
Y = 36,481 + 3,52 X1 + 12,587 X2 + 1,765 X3 - 1,631 X4
4. Berdasarkan uji multikolineritas, maka dapat disimpulkan bahwa variabel
biaya periklanan, laju pertumbuhan penduduk, luas outlet dan jumlah pesaing
tidak saling berkorelasi atau tidak terjadi multikolinieritas karena 4 nilai VIF <
2.
5. Yang memiliki hubungan positif kuat adalah : Y – X1
Yang memiliki hubungan positif lemah adalah : Y – X2, Y – X3, X1 – X2, X1 –
X3, X1 – X4, X2 – X3
Yang memiliki hubungan negatif lemah : Y – X4, X2 – X4, X3 – X4
6. Hasil prediksi penjualan pada lima kota :
1. Di kota Purworejo besar penjualan adalah 201.29
2. Di kota Purwodadi besar penjualan adalah 288.34
3. Di kota Waykambas besar penjualan adalah 175.5
4. Di kota Musi besar penjualan adalah 206.23
5. Di kota Tarakan besar penjualan adalah 266.07
6.2. Saran
1. Jumlah variabel independent hendaknya lebih banyak lagi untuk mendapatkan
hasil prediksi yang lebih akurat.
2. Berdasarkan dari hasil prediksi, maka disarankan pada Butik THE UNIQUE
CULTURE agar membuka outlet baru dengan prioritas sebagai berikut :
Di kota Purwodadi besar penjualan adalah 288.34
Di kota Tarakan besar penjualan adalah 266.07
Di kota Musi besar penjualan adalah 206.23
Di kota Purworejo besar penjualan adalah 201.29
Di kota Waykambas besar penjualan adalah 175.5
DAFTAR PUSTAKA

Modul III PREDIKSI Praktikum Data Mining


1. Han, Jiawei. ”Data Mining Concept and Technique”. Presentation.
http://www.cse.msu.edu/~cse980
2. Bertalya, ”Konsep Data Mining”. Universitas Gunadarma, 2009.
3. Walpole, Ronald E. Probability and Statistics for Engineers and Scientists.
LAMPIRAN

Regression
Descriptive Statistics

Mean Std. Deviation N

Penjualan 237,9600 75,40475 50

Biaya Periklanan 26,2600 9,65488 50

Laju Pertumbuhan
2,0694 ,47433 50
Penduduk

Luas Outlet 58,3800 12,65216 50

Jumlah Pesaing 12,2800 10,61966 50

Correlations

Laju
Biaya Pertumbuhan Jumlah
Penjualan Periklanan Penduduk Luas Outlet Pesaing

Pearson Penjualan
1,000 ,513 ,326 ,467 -,193
Correlation

Biaya Periklanan ,513 1,000 ,299 ,266 ,176

Laju Pertumbuhan
,326 ,299 1,000 ,301 -,101
Penduduk

Luas Outlet ,467 ,266 ,301 1,000 -,118

Jumlah Pesaing -,193 ,176 -,101 -,118 1,000

Sig. (1-tailed) Penjualan . ,000 ,010 ,000 ,089

Biaya Periklanan ,000 . ,017 ,031 ,111

Laju Pertumbuhan
,010 ,017 . ,017 ,242
Penduduk

Luas Outlet ,000 ,031 ,017 . ,208

Jumlah Pesaing ,089 ,111 ,242 ,208 .

N Penjualan 50 50 50 50 50

Biaya Periklanan 50 50 50 50 50

Laju Pertumbuhan
50 50 50 50 50
Penduduk

Luas Outlet 50 50 50 50 50

Jumlah Pesaing 50 50 50 50 50
Variables Entered/Removed(b)

Variables Variables
Model Entered Removed Method

1 Jumlah
Pesaing,
Laju
Pertumbuha
n
. Enter
Penduduk,
Luas Outlet,
Biaya
Periklanan(
a)

a All requested variables entered.

b Dependent Variable: Penjualan

Model Summary(b)

Adjusted R Std. Error of


Model R R Square Square the Estimate

1 ,663(a) ,440 ,390 58,90304

a Predictors: (Constant), Jumlah Pesaing, Laju Pertumbuhan Penduduk, Luas Outlet, Biaya Periklanan

b Dependent Variable: Penjualan

ANOVA(b)

Sum of
Model Squares df Mean Square F Sig.

1 Regression 122477,38
4 30619,345 8,825 ,000(a)
0

Residual 156130,54
45 3469,568
0

Total 278607,92
49
0

a Predictors: (Constant), Jumlah Pesaing, Laju Pertumbuhan Penduduk, Luas Outlet, Biaya Periklanan

b Dependent Variable: Penjualan


Coefficients(a)

Unstandardized Standardized Collinearity


Model Coefficients Coefficients t Sig. Statistics

Std. Std.
B Error Beta Tolerance VIF B Error

1 (Constant) 36,481 50,393 ,724 ,473

Biaya Periklanan 3,520 ,959 ,451 3,670 ,001 ,826 1,211

Laju Pertumbuhan
12,587 19,314 ,079 ,652 ,518 ,844 1,185
Penduduk

Luas Outlet 1,765 ,718 ,296 2,458 ,018 ,858 1,165

Jumlah Pesaing -1,631 ,824 -,230 -1,979 ,054 ,925 1,081

a Dependent Variable: Penjualan

Collinearity Diagnostics(a)

Condition
Eigenvalue Index Variance Proportions-

Model Dimension Laju Biaya


Biaya Pertumbuhan Luas Jumlah Periklan
(Constant) Periklanan Penduduk Outlet Pesaing (Constant) an

1 1 4,497 1,000 ,00 ,00 ,00 ,00 ,01

2 ,375 3,464 ,00 ,00 ,01 ,01 ,88

3 ,077 7,664 ,04 ,98 ,03 ,04 ,02

4 ,033 11,745 ,00 ,00 ,72 ,50 ,00

5 ,019 15,522 ,96 ,01 ,25 ,46 ,09

a Dependent Variable: Penjualan


Residuals Statistics(a)

Minimum Maximum Mean Std. Deviation N

Predicted Value 152,9086 349,8795 237,9600 49,99538 50

Std. Predicted Value -1,701 2,239 ,000 1,000 50

Standard Error of
10,798 38,091 17,972 4,947 50
Predicted Value

Adjusted Predicted Value 150,0846 358,2657 237,9812 51,31624 50

Residual -
131,23038 ,00000 56,44765 50
139,44339

Std. Residual -2,367 2,228 ,000 ,958 50

Stud. Residual -2,558 2,354 ,000 1,018 50

Deleted Residual -
146,55676 -,02123 63,74182 50
162,80220

Stud. Deleted Residual -2,736 2,486 -,004 1,043 50

Mahal. Distance ,667 19,511 3,920 3,089 50

Cook's Distance ,000 ,219 ,027 ,043 50

Centered Leverage Value ,014 ,398 ,080 ,063 50

a Dependent Variable: Penjualan

Histogram

Dependent Variable: Penjualan

20

15
Frequency

10

Mean =-1.63E-16
Std. Dev. =0.958
0 N =50
-3 -2 -1 0 1 2 3
Regression Standardized Residual
Normal P-P Plot of Regression Standardized Residual

Dependent Variable: Penjualan

Bengkulu
Bandung
1.0
Martapura
Jayapura Manado
Padang
Pekalongan Cirebon
0.8 Belitung
Palangka Raya
Expected Cum Prob

Riau
Depok
Yogyakarta Bogor Denpasar
Bontang Banten Purwakarta
Banjarmasin
0.6 Bangka Dumai
Surabaya MetroBatam Lampung
Bukit Tinggi Aceh Jakarta Selatan
Sorong Kediri Tangerang
0.4 Jambi MalangMakasar
Jakarta Barat Pekanbaru
Mataram Jombang
Magelang
0.2 Tuban Madiun
Solo Jakarta Pusat
Medan CilegonPurwokerto
Ambon
Bekasi Gorontalo Semarang
0.0
0.0 0.2 0.4 0.6 0.8 1.0
Observed Cum Prob

Scatterplot

Dependent Variable: Penjualan

200
Regression Deleted (Press) Residual

Bengkulu
Bandung

100 Manado Martapura


Pekalongan Padang
Jayapura Cirebon Belitung
Purwakarta Denpasar
Depok Yogyakarta Lampung
Bontang Banten Riau Metro Palangka Raya
Aceh Banjarmasin
Jakarta Selatan Dumai
0 Bangka Bogor Malang Kediri Surabaya Batam
Jakarta Barat Tangerang Makasar Mataram
Jombang Sorong Jambi
Madiun Pekanbaru
Magelang Purwokerto Tuban
Cilegon Jakarta Pusat Gorontalo
-100 Semarang Ambon Solo Bekasi

Medan

-200

150 200 250 300 350 400


Regression Adjusted (Press) Predicted Value
LAPORAN RESMI
PRAKTIKUM DATA MINING
ASSOCIATION RULE - MARKET BASKET ANALYSIS

DISUSUN OLEH:
KELOMPOK C.23
ARIF RAKHMANTO (08 522 200)
CATUR HERMAWANTO (08 522 210)

LABORATORIUM DATA MINING


JURUSAN TEKNIK INDUSTRI
FAKULTAS TEKNOLOGI INDUSTRI
UNIVERSITAS ISLAM INDONESIA
2010
ABSTRAK
Association Rule merupakan salah satu metode dalam Market Basket Analysis yang
dapat digunakan untuk mengetahui aturan asosiasi antara himpunan item dalam
suatu basisdata transaksi. Aturan asosiasi tersebut sangat bermanfaat bagi
perencanaan promosi dan penjualan, strategi pemasaran serta tata letak toko. Dalam
penelitian ini, studi Market Basket Analysis dilakukan terhadap toko Indomart
Cabang Nogotirto/ 004 untuk menganalisa Association Rule yang terbentuk sehingga
dapat diperoleh usulan tata letak toko yang lebih baik. Hasil penelitian menunjukkan
bahwa departemen satu memiliki hubungan yang sangat kuat dengan departemen
tiga. Sedangkan departemen 2, 4, 5, 6 memiliki hubungan yang sedang dengan
departemen 3.

Keyword : Association Rule, Market Basket Analysis, Activity Relationship Chart


BAB I
PENDAHULUAN

1.1 Latar Belakang


Indomart merupakan salah satu toko retail di Indonesia yang berkembang
dengan cara franchise, sehingga banyak investor yang membuka cabang di
berbagai daerah, salah satunya adalah di daerah Nogotirto, Kecamatan Gamping,
Kabupaten Sleman, DIY. Dalam mencatat setiap transaksi pembelian, Indomart
menggunakan sistem basis data transaksi yang dapat mencatat setiap transaksi
penjualan yang nantinya dapat digunakan untuk kepentingan perencanaan
promosi, penjualan, strategi pemasaran dan perencanaan tata letak toko. Transaksi
yang tercatat tersebut dapat dipelajari melalui sebuah studi Market Basket Analysis
dengan metode Association Rule untuk mengetahui aturan asosiasi diantara
himpunan besar data item dalam basisdata transaksi.
Tingkat kedatangan dan transaksi konsumen yang relatif tinggi merupakan
salah satu faktor pendorong untuk melakukan analisa kelayakan tata letak toko
terkait efektifitas dan efisiensi. Oleh sebab itu maka dilakukan analisa terkait
perencanaan tata letak toko menggunakan studi Market Basket Analysis dengan
metode Association Rule.

1.2 Rumusan Masalah


1. Bagaimanakah Association Rule yang terbentuk berdasarkan hasil penelitian?
2. Bagaimanakah Activity Relationship Chart (ARC) yang diperoleh?
3. Bagaimanakah usulan alternatif tata letak toko yang baru?

1.3 Batasan Masalah


1. Jumlah struk yang digunakan sebagai bahan penelitian dibatasi sejumlah 50
buah struk.
2. Association Rule dan ARC yang diperoleh dari penelitian sebatas dipergunakan
untuk merencanakan usulan tata letak toko yang lebih baik.
3. Usulan tata letak toko hanya sebatas per departemen.
1.4 Tujuan Penelitian
1. Untuk mengetahui Association Rule yang terbentuk.
2. Untuk mengetahui Activity Relationship Chart (ARC) yang terbentuk.
3. Untuk mendapatkan alternatif tata letak toko yang lebih menunjang proses
transaksi.

1.5 Manfaat Penelitian


Penelitian ini bermanfaat untuk mengetahui tingkat efektifitas tata letak toko
dalam mengakomodir aktivitas belanja konsumen melalui analisa Association Rule
yang nantinya akan digunakan sebagai pertimbangan dalam merencanakan tata
letak toko yang lebih baik.
BAB II
LANDASAN TEORI

Asociation dalam data mining adalah pekerjaan untuk menentukan mana


atribut yang akan didapatkan bersamaan. Dalam dunia bisnis lazim dikenal istilah
affinity analysis. Tugas dari asociation rule adalah mencari aturan yang tidak
mengcover untuk mengukur hubungan antara dua atau lebih atribut.
Association Rule adalah bentuk jika “kejadian sebelumnya” kemudian
“konsekuensinya”. (IF antecedent, THEN consequent). Bersamaan dengan
perhitungan aturan support dan confidence. Pola asosiasi menjadi salah satu
fungsionalitas yang paling menarik dalam penggalian data (Kumar dan Wahidabanu,
2007). Association Rule adalah teknik data mining untuk menemukan aturan assosiatif
antara suatu kombinasi item. Contoh dari Association Rule dari analisa pembelian di
suatu pasar swalayan adalah bisa diketahui berapa besar kemungkinan seorang
pembeli membeli roti bersamaan dengan susu. Dengan pengetahuan tersebut Pemilik
pasar swalayan dapat mengatur penempatan barangnya atau merancang kampanye
pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu (Wiwin,
2008).
Menurut Leo Susanto (2003) penggalian kaidah asosiasi mempunyai peranan
penting dalam proses pengambilan keputusan. Salah satu contoh penerapan
Association Rule adalah Market Basket Analysis. Association Rule menjadi terkenal
karena aplikasinya untuk menganalisa isi keranjang belanja di pasar swalayan,
sehingga Association Rule juga sering disebut dengan istilah Market Basket Analysis.
Association Rule juga dikenal sebagai salah satu teknik data mining yang menjadi
dasar dari berbagai teknik data mining lainnya.
Market Basket Analysis merupakan salah satu contoh penerapan Association
Rule. Untuk menyampaikan ide mendasar dari Market Basket Analysis, dimulai
dengan melihat gambar keranjangan belanjaan pada gambar 3.1 yang berisi
bermacam-macam barang-barang yang dibeli oleh seseorang disebuah supermarket.
Keranjang ini berisi bermacam-macam barang-barang seperti roti, susu, sereal, telur,
mentega, gula, dan sebagainya. Sebuah keranjang memberitahukan kepada kita
tentang apa saja yang dibeli oleh seorang konsumen dalam satu waktu. Sebuah daftar
belanjaan yang lengkap yang diperoleh dari semua konsumen memberikan kita
informasi yang sangat banyak, dan ini dapat menjelaskan barang-barang apa saja yang
paling penting dari bisnis penjualan yaitu ”apa barang yang dibeli oleh konsumen dan
kapan”.
Setiap konsumen membeli seperangkat barang-barang yang berbeda, dalam
jumlah yang berbeda, dan dalam waktu yang berbeda. Market Basket Analysis
menggunakan informasi apa yang dibeli oleh konsumen-konsumen untuk
menyediakan tanda/informasi yaitu siapa mereka dan mengapa mereka melakukan
pembelian tersebut?. Market Basket Analysis menyediakan pengertian tentang barang
dagangan dengan memberitahukan kepada kita produk-produk mana yang
memungkinkan untuk dibeli secara bersamaan dan produk mana yang lebih disetujui
untuk di promosikan. Karena dalam Market Basket Analysis tidak hanya memahami
kuantitas dari item yang dibeli dalam keranjang itu, tapi bagaimana item yang dibeli
dalam hubungannya satu dengan yang lain.
BAB III
METODOLOGI PENELITIAN

3.1 Lokasi Penelitian


Indomart Cabang Nogotirto/ 004
Jalan Godean km. 4
Nogotirto, Gamping, Sleman, Daerah Istimewa Yogyakarta

3.2 Objek Penelitian


Outlet Indomart Cabang Nogotirto/ 004 beserta pelanggan dan struk transaksi
pembeliannya.

3.3 Metode Pengumpulan Data


3.3.1 Data Primer
Data primer dalam penelitian ini berupa struk belanja konsumen yang
dikumpulkan melalui proses kolektif di lapangan.
3.3.2 Data Sekunder
Data sekunder dalam penelitian ini merupakan data yang telah diproses dari
data primer menjadi data yang siap untuk diolah lebih lanjut. Data sekunder
dalam penelitian ini meliputi data pembelian, data transformasi, dan data
tabulasi yang selanjutnya siap diolah menggunakan software.
1.4 Flow Chart Penelitian

Mulai

Input Data

Pre processing data


1. Data integrasi
2. Data transformasi

Data Tabulasi

Association Rule

Activity Relationship
Chart

Selesai

Gambar 1.1 Flowchart


1.6 Langkah Software
1.6.1 Input Data
1. Pre Processing Data
a. Data Integrasi
a.1 Edit click Find

a.2 Find click name of item


a.3 Replace click Name of department

a.4 Replace all


b. Data Transformasi
Change data department to matrix binary
1 = item dibeli, 0 = item tidak dibeli

1.6.2 Association Rule


a. Open sheet binary

b. XLminer click affinity click association rule


c. Data Range: Block matrix binary click enter (name of department
enclosed).
d. Check list: first row contains header

e. Input data format click Data in binary matrix format


f. Parameter:
Min support ……….(in total)
Min Confidence ……(in %)

g. Ok
BAB IV
PENGUMPULAN DAN PENGOLAHAN DATA

4.1 Pengumpulan Data


a. Data Transaksi

Tabel 4.1 Data Transaksi


No. Item Yang Dibeli
Uticon
1 Clear Dettol Nescafe
Stk
NU
2 Indomie Green
Tea
3 Buavita Nescafe
Susu Glade Kacang Teh Kacang
4 Fruit Tea
Ultra Fresh Iyes Sosro Mayasi
Sosro
Susu
5 Clear Paseo Teh
Bendera
Kotak
No. Item Yang Dibeli
Keripik Tong Tji Aneka
6
Jagung Jasmine Sagon
Susu Koko
7 Paseo
Ultra Crunch
Spons Lem Sikat Susu Susu
8 Sunlight
Sabut ALL Gigi Ultra Ultra
Kiwi Vitalis Enervon
9 Attack Paramex
Black Blossom C
Enzim
10 Attack Pasta Buavita Indomie Indomie
Gigi
NU
Susu Susu Shampo
11 Indomie Indomie Buavita Yakult Green
Ultra Ultra o Dove
Tea
Shampo
12 Dettol Sapu
Clear
No Item Yang Dibeli
Cap Pon
Enzim Walls
Lang ds Kacang
13 Paseo Sunlight Dettol Vaseline Pasta Magnu
Kayu Whit Garuda
Gigi m
Putih e
Indomil
Sensitif Nice
14 k
Strip Yoghurt
Coklat
Roti Stre
Roti
Susu NU Green Lumbu psil Gilette Neozep Sikat Walls Walls
15 Paseo Aqua Lumbun Clear
Bendera Tea ng Vit Razor Forte Gigi Almond Royal
g Nanas
Straw C
Gery
16 Attack Hemaviton
Salute
Sabut
Philips Sabut
17 Pop Corn Stainles
Tornado Spons
s
Koko Indomilk
18
Crunch Vanilla
No Item Yang Dibeli
Swiss
Aneka NU Swiss Kraft
Okky Tong Tji Nesc Roll
19 Tales Gulaku Apel Fuji Green Roll Keju
Jelly Jasmine afe Panda
Gurih Tea Choco Cake
n
NU Green
20 Paseo
Tea
Cap
Delfi
NU Green Botan Lang
21 Nescafe Wafer
Tea Mackerel Kayu
Coklat
Putih
Birdy
Koko
22 Kopi
Crunch
Susu
Charm
Coffemix Sardines
23 Paseo Chitato Indomie Body Zinc Pantene
3in1 ABC
Fit
Bimoli Pronas Mie Cashew Sensitif
24 Teh Bubuk
Special Corned Sedap Crunch Strip
No Item Yang Dibeli
Ultra
Charm
25 Kacang
Body Fit
Hijau
Nice
26 Susu Ultra
Yogurt
Koko Charm Susu
27 Kiranti
Crunch Body Fit Indomilk
Cap
Lang Madu
28
Kayu Nusantara
Putih
Sensitif
29 Paseo Aqua
Strip
30 Indomie Teh Sosro
Brand
Nice Sensitif
31 Indomie Gold Pop Corn Keset
Yoghurt Strip
Malt
No Item Yang Dibeli
Cap Lang
Nice Sensitif
32 Kayu
Yoghurt Strip
Putih
Swiss
NU Green Swiss Roll
33 Roll
Tea Pandan
Choco
Tissue
34 Paseo
Klenex
Birdy Lifebuoy Enzim
35 Sari Roti
Kopi Susu Men Pasta Gigi
Max
Lifebuoy Sikat Gigi
36 Gulaku Lemon Charmant
Men Formula
Tea
Nice Koko
37 Susu Ultra Mizone Nescafe
Yoghurt Crunch
Qtela
38 Chitato Chitato Blaster
Kripik
No Item Yang Dibeli
Indomart
39 Air Aqua
Mineral
Carefree Fino
Gillette Susu Susu Susu Susu Indocafe Tong tji
40 Paseo Kotex Maxi Pantene Spray Indomie Sosis
Razor Ultra Ultra Ultra Ultra Cappucino Jasmine
Dry Sapi
Sambal Susu Nice Koko
41 Hemaviton Sari Roti Mizone
Indofood Indomilk Yoghurt Crunch
Choco
42 CD-R
Crispy
Nice Birdy Pop Bihun Sari Roti
43
Yoghurt Kopi Susu Ayam Coklat
Birdy Kispr
Lifebuoy Sardines Bihun Ultra
44 Paseo Clear Kopi ay
Men ABC Instan Slim
Susu Bluis
NU
Sikat Gigi
45 Green Pantene
Oral B
Tea
No Item Yang Dibeli
Fino
Jeruk Walls Sandal Carefree
46 Susu Ultra Sosis Keset Pantene
Mandarin Vanilla Swallow Spray Dry
Sapi
Nice Susu Koko Uticon Lifebuoy Rexona
47 Hemaviton Clear
Yoghurt Indomilk Crunch Stk Men Deo Men
Sardines Diamond
48 Sari Roti
ABC Juice
Gery Susu Susu Meiji Susu Birdy Kopi Gilette
49 Paseo Susu Ultra
Choco Indomilk Indomilk Panda Ultra Susu Razor
Telur Brand
NU Green Madu Brand Sambal Roti Roti Lifebuo Lux
50 Ayam Gold Indomie
Tea Nusantara Gold Teh Indofood Lumbung Lumbung y Men White
Negri Malt
b. Data Departemen
Tabel 4.2 Data Departemen
Dep 1 Makanan Ringan, Snack, Cemilan
Dep 2 Makanan Mentah, Bahan Makanan, Bumbu Dapur
Dep 3 Minuman Siap Saji, Soft Drink, Ice Cream, Bahan Minuman
Dep 4 Peralatan Rumah Tangga
Dep 5 Peralatan Mandi
Dep 6 Kosmetik, Obat-obatan, Perawatan Tubuh
Dep 7 Buah-buahan
Dep 8 Pakaian Dalam

c. Minimum Support dan Confidence


Minimum support yang digunakan adalah 8. Sedangkan minimum confidence
(%) yang digunakan adalah 80.

4.2 Pengolahan Data


4.2.1 Preprocessing Data
1. Data Integrasi
Hasil integrasi data
Tabel 4.3 Data Integrasi
No. Item Yang Dibeli
Dep Dep Dep Dep
1
5 5 3 4
Dep Dep
2
2 3
Dep Dep
3
3 3
Dep Dep Dep Dep Dep Dep
4
3 3 4 1 3 1
Dep Dep Dep Dep
5
5 4 3 3
No. Item Yang Dibeli
Dep Dep Dep
6
1 3 1
Dep Dep Dep
7
4 3 1
Dep Dep Dep Dep Dep Dep
8
5 5 4 5 3 3
Dep Dep Dep Dep Dep
9
4 6 5 6 6
Dep Dep Dep Dep Dep
10
5 5 3 2 2
Dep Dep Dep Dep Dep Dep Dep Dep
11
2 2 3 3 3 3 3 5
Dep Dep Dep
12
5 5 4
Dep Dep Dep Dep Dep Dep Dep Dep Dep
13
4 4 5 6 5 6 6 1 3
Dep Dep Dep
14
6 3 3
Dep Dep Dep Dep Dep Dep Dep Dep Dep Dep Dep Dep Dep
15
3 3 4 3 1 1 6 6 6 5 5 3 3
Dep Dep Dep
16
5 6 1
Dep Dep Dep Dep
17
4 1 4 4
Dep Dep
18
1 3
Dep Dep Dep Dep Dep Dep Dep Dep Dep Dep
19
1 2 3 7 3 3 3 1 1 1
Dep Dep
20
4 3
No. Item Yang Dibeli
Dep Dep Dep Dep Dep
21
3 3 1 6 6
Dep Dep
22
3 1
Dep Dep Dep Dep Dep Dep Dep Dep
23
4 3 1 2 6 2 5 5
Dep Dep Dep Dep Dep Dep
24
2 3 2 2 1 6
Dep Dep
25
6 3
Dep Dep
26
3 3
Dep Dep Dep Dep
27
1 6 3 3
Dep Dep
28
6 2
Dep Dep Dep
29
6 4 3
Dep Dep
30
2 3
Dep Dep Dep Dep Dep Dep
31
2 3 3 1 4 6
Dep Dep Dep
32
3 6 6
Dep Dep Dep
33
3 1 1
Dep Dep
34
4 4
Dep Dep Dep Dep
35
3 1 5 5
No. Item Yang Dibeli
Dep Dep Dep Dep Dep
36
2 3 5 8 5
Dep Dep Dep Dep Dep
37
3 3 3 3 1
Dep Dep Dep Dep
38
1 1 1 1
Dep Dep
39
3 3
Dep Dep Dep Dep Dep Dep Dep Dep Dep Dep Dep Dep Dep
40
4 6 6 5 4 3 3 3 3 2 3 3 2
Dep Dep Dep Dep Dep Dep Dep
41
2 3 6 3 1 1 3
Dep Dep
42
1 9
Dep Dep Dep Dep
43
3 3 2 1
Dep Dep Dep Dep Dep Dep Dep Dep
44
4 5 5 2 2 3 3 4
Dep Dep Dep
45
3 5 5
Dep Dep Dep Dep Dep Dep Dep Dep
46
7 3 3 2 4 4 4 5
Dep Dep Dep Dep Dep Dep Dep Dep
47
6 3 3 1 5 4 5 6
Dep Dep Dep
48
2 3 1
Dep Dep Dep Dep Dep Dep Dep Dep Dep
49
4 1 3 3 3 1 3 3 6
Dep Dep Dep Dep Dep Dep Dep Dep Dep Dep Dep
50
2 3 2 3 3 2 2 1 1 5 5
2. Data Transformasi
Hasil transformasi data
Tabel 4.4 Data Transformasi
No. Dep 1 Dep 2 Dep 3 Dep 4 Dep 5 Dep 6 Dep 7 Dep 8 Dep 9
1 0 0 1 1 1 0 0 0 0
2 0 1 1 0 0 0 0 0 0
3 0 0 1 0 0 0 0 0 0
4 1 0 1 1 0 0 0 0 0
5 0 0 1 1 1 0 0 0 0
6 1 0 1 0 0 0 0 0 0
7 1 0 1 1 0 0 0 0 0
8 0 0 1 1 1 0 0 0 0
9 0 0 0 1 1 1 0 0 0
10 0 1 1 0 1 0 0 0 0
11 0 1 1 0 1 0 0 0 0
12 0 0 0 1 1 0 0 0 0
13 1 0 1 1 1 1 0 0 0
14 0 0 1 0 0 1 0 0 0
15 1 0 1 1 1 1 0 0 0
16 1 0 0 0 1 1 0 0 0
17 1 0 0 1 0 0 0 0 0
18 1 0 1 0 0 0 0 0 0
19 1 1 1 0 0 0 1 0 0
20 0 0 1 1 0 0 0 0 0
21 1 0 1 0 0 1 0 0 0
22 1 0 1 0 0 0 0 0 0
23 1 1 1 1 1 1 0 0 0
24 1 1 1 0 0 1 0 0 0
25 0 0 1 0 0 1 0 0 0
26 0 0 1 0 0 0 0 0 0
27 1 0 1 0 0 1 0 0 0
28 0 1 0 0 0 1 0 0 0
No. Dep 1 Dep 2 Dep 3 Dep 4 Dep 5 Dep 6 Dep 7 Dep 8 Dep 9
29 0 0 1 1 0 1 0 0 0
30 0 1 1 0 0 0 0 0 0
31 1 1 1 1 0 1 0 0 0
32 0 0 1 0 0 1 0 0 0
33 1 0 1 0 0 0 0 0 0
34 0 0 0 1 0 0 0 0 0
35 1 0 1 0 1 0 0 0 0
36 0 1 1 0 1 0 0 1 0
37 1 0 1 0 0 0 0 0 0
38 1 0 0 0 0 0 0 0 0
39 0 0 1 0 0 0 0 0 0
40 0 1 1 1 1 1 0 0 0
41 1 1 1 0 0 1 0 0 0
42 1 0 0 0 0 0 0 0 1
43 1 1 1 0 0 0 0 0 0
44 0 1 1 1 1 0 0 0 0
45 0 0 1 0 1 0 0 0 0
46 0 1 1 1 1 0 1 0 0
47 1 0 1 1 1 1 0 0 0
48 1 1 1 0 0 0 0 0 0
49 1 0 1 1 0 1 0 0 0
50 1 1 1 0 1 0 0 0 0

Keterangan :
1 = item terbeli
0 = item tidak terbeli
4.2.2 Association Rule
Tabel 4.5 Association Rules
Data
Input Data Tabular!$B$5:$J$55
Data Format Binary Matrix
Minimum Support 8
Minimum Confidence % 80
# Rules 11
Overall Time (secs) 1

Tabel 4.6 Output


Rule Conf. Consequen Support Support Support
Antecedent (a) Lift Ratio
# % t (c) (a) (c) (a U c)
1 100 Dep 1, Dep 2=> Dep 3 8 42 8 1.190476
2 100 Dep 2, Dep 5=> Dep 3 8 42 8 1.190476
3 94.12 Dep 2=> Dep 3 17 42 16 1.120448
4 90.91 Dep 1, Dep 6=> Dep 3 11 42 10 1.082251
5 88.89 Dep 1, Dep 4=> Dep 3 9 42 8 1.058201
6 88.89 Dep 4, Dep 6=> Dep 3 9 42 8 1.058201
7 84.62 Dep 1=> Dep 3 26 42 22 1.007326
8 84.21 Dep 5=> Dep 3 19 42 16 1.002506
9 83.33 Dep 6=> Dep 3 18 42 15 0.992063
10 83.33 Dep 4, Dep 5=> Dep 3 12 42 10 0.992063
11 80 Dep 4=> Dep 3 20 42 16 0.952381
4.2.3 Activity Relationship Chart

Dept 1

Dept 2

Dept 3

Dept 4

Dept 5

Dept 6

Dept 7

Dept 8

Gambar 4.1 Activity Relationship Chart

Keterangan :

: Hubungan Sangat Kuat

: Hubungan Kuat
4.2.4 Rekomendasi layout

D
D D D E
E E E P

D P P P
T

7
T T T
E
D
P 4 5 6 E
P
T
T 8

DEPT 3
D

2 E
P
T

DEPT 1 9

KASIR

Gambar 4.2 Rekomendasi Tata Letak Toko


BAB V
PEMBAHASAN

5.1 Association Rule


Rule 1
Jika membeli {Dep1 dan Dep2} maka mungkin membeli {Dep3}, dengan nilai
(support = 8, confidence = 100%). Berarti seseorang yang membeli produk pada
Dep1 dan Dep2 memiliki kemungkinan sebesar 100% untuk membeli produk pada
Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 8.

Rule 2
Jika membeli {Dep2 dan Dep5} maka mungkin membeli {Dep3}, dengan nilai
(support = 8, confidence = 100%). Berarti seseorang yang membeli produk pada
Dep2 dan Dep5 memiliki kemungkinan sebesar 100% untuk membeli produk pada
Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 8.

Rule 3
Jika membeli {Dep2} maka mungkin membeli {Dep3}, dengan nilai (support
= 16, confidence = 94.12%). Berarti seseorang yang membeli produk pada Dep2
memiliki kemungkinan sebesar 94.12% untuk membeli produk pada Dep3. Jumlah
transaksi yang memuat kejadian tersebut sebanyak 16.

Rule 4
Jika membeli {Dep1 dan Dep6} maka mungkin membeli {Dep3}, dengan nilai
(support = 10, confidence = 90.91%) berarti seseorang yang membeli produk pada
Dep1 dan Dep6 memiliki kemungkinan sebesar 90.91% untuk membeli produk
pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 10.

Rule 5
Jika membeli {Dep1 dan Dep4} maka mungkin membeli {Dep3}, dengan nilai
(support = 8, confidence = 88.89%). Berarti seseorang yang membeli produk pada
Dep1 dan Dep4 memiliki kemungkinan sebesar 88.89% untuk membeli produk
pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 8.

Rule 6
Jika membeli {Dep4 dan Dep6} maka mungkin membeli {Dep3}, dengan nilai
(support = 8, confidence = 88.89%). Berarti seseorang yang membeli produk pada
Dep4 dan Dep6 memiliki kemungkinan sebesar 88.89% untuk membeli produk
pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 8.

Rule 7
Jika membeli {Dep1} maka mungkin membeli {Dep3}, dengan nilai (support
= 22, confidence = 84.62%). Berarti seseorang yang membeli produk pada Dep1
memiliki kemungkinan sebesar 84.62% untuk membeli produk pada Dep3. Jumlah
transaksi yang memuat kejadian tersebut sebanyak 22.

Rule 8
Jika membeli {Dep5} maka mungkin membeli {Dep3}, dengan nilai (support
= 16, confidence = 84.21%). Berarti seseorang yang membeli produk pada Dep5
memiliki kemungkinan sebesar 84.21% untuk membeli produk pada Dep3. Jumlah
transaksi yang memuat kejadian tersebut sebanyak 16.

Rule 9
Jika membeli {Dep6} maka mungkin membeli {Dep3}, dengan nilai (support
= 15, confidence = 83.33%). Berarti seseorang yang membeli produk pada Dep6
memiliki kemungkinan sebesar 83.33% untuk membeli produk pada Dep3. Jumlah
transaksi yang memuat kejadian tersebut sebanyak 15.

Rule 10
Jika membeli {Dep4 dan Dep5} maka mungkin membeli {Dep3}, dengan nilai
(support = 10, confidence = 83.33%). Berarti seseorang yang membeli produk
pada Dep4 dan Dep5 memiliki kemungkinan sebesar 83.33% untuk membeli
produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 10.
Rule 11
Jika membeli {Dep4} maka mungkin membeli {Dep3}, dengan nilai (support
= 16, confidence = 80%). Berarti seseorang yang membeli produk pada Dep4
memiliki kemungkinan sebesar 80% untuk membeli produk pada Dep3. Jumlah
transaksi yang memuat kejadian tersebut sebanyak 16.

5.2 Activity Relationship Chart


Diagram ARC (Activity Relationship Chart) adalah peta yang
menggambarkan hubungan antar departemen berdasarkan support dari rule yang
terbentuk. Hubungan setiap department dapat bernilai kuat, sedang dan lemah.
Setiap jenis hubungan digambarkan dengan simbol yang berbeda-beda. ARC
dibuat berdasarkan nilai a U c dan dibagi menjadi tiga hubungan yaitu :
hubungan kuat disimbolkan dengan dengan nilai a U c 17.4 < x < 22
hubungan sedang disimbolkan dengan dengan nilai a U c 8.3 ≤ x < 11.6
hubungan lemah disimbolkan dengan dengan nilai a U c 5 ≤ x < 8.3
Range didapatkan dari nilai a U c tertinggi(22) dikurangi nilai a U c
terendah(8). Kemudian dibagi 3 berdasarkan dari 3 hubungan tersebut, yaitu kuat,
sedang dan lemah. Maka hasilnya adalah 4,7. Dengan hasil tersebut maka range
pun dapat dibuat. Dan karena ada beberapa departemen yang memiliki
penempatan yang sama, maka yang dipilih untuk dimasukkan pa ARC adalah
yang memiliki nilai yang tertinggi. Dan penjelasan dari ARC yang telah dibuat
adalah sebagai berikut :
Dept1 dan dept3 memiliki hubungan yang kuat dengan nilai a U c sebesar 22.
Dept2 dan dept3 memiliki hubungan yang sedang dengan nilai a U c sebesar 16.
Dept4 dan dept3 memiliki hubungan yang sedang dengan nilai a U c sebesar 16.
Dept5 dan dept3 memiliki hubungan yang sedang dengan nilai a U c sebesar 16.
Dept6 dan dept3 memiliki hubungan yang sedang dengan nilai a U c sebesar 15.
5.3 Layout Usulan
Berdasarkan hubungan departemen yang dejelaskan melalui ARC, maka dapat
diperoleh usulan layout atau tata letak toko dimana :
- Dept 1 dengan dept 3 ditata secara berdekatan (mutlak)
- Dept 2, 4, 5 dan 6 ditata agak dekat dengan Dept 3 dengan tingkat prioritas
yang tidak mutlak.
- Sedangkan Dept 7, 8 dan 9 tidak terikat dengan Dept 3, sehingga dapat
diletakkan secara bebas atau menempati posisi yang masih kosong.
BAB VI
KESIMPULAN DAN SARAN

6.1 Kesimpulan
Berdasarkan hasil pembahasan, maka dapat disimpulkan bahwa :
1. Melalui analisa Association Rule diperoleh 11 aturan yang merepresentasikan
hubungan antara masing-masing departemen.
2. Melalui Activity Relationship Chart (ARC) dapat diketahui prioritas
hubungan antara masing-masing departemen dimana departemen 1 dan
departemen 3 memiliki hubungan yang sangat kuat, sehingga dalam menata
ulang layout, departemen 1 dan departemen 3 menjadi prioritas dalam
penataan ulang.
3. Outlet Indomart/ 004 Nogotirto membutuhkan penataan ualng layout dengan
prioritas utama adalah mendekatkan Departemen 1 dengan Departemen 3.
Sedangkan Departemen 2, 4, 5, 6 dengan 3 memiliki hubungan yang bersifat
sedang.

6.2 Saran
Berdasarkan hasil pembahasan dan kesimpulan dari penelitian, maka disarankan
kepada Indomart/ 004 Nogotirto untuk melakukan penataan ulang layout outlet
untuk lebih mendukung aktivitas transaksi konsumen.
DAFTAR PUSTAKA

1. Gkoulalas, Aris & Verykios S Vassilios, “Association Rule Hidding for


Datamining”, 2010.

2. Marc Adamo Jean, “Datamining for Association Rules and Sequential Patterns”,
2003.

3. Han, Jiawei and Kamber, Micheline, “Datamining Concept and Techniques”, 2006.
LAMPIRAN
LAPORAN RESMI
PRAKTIKUM DATA MINING
KLASIFIKASI

DISUSUN OLEH:
KELOMPOK C.23
ARIF RAKHMANTO (08 522 200)
CATUR HERMAWANTO (08 522 210)

LABORATORIUM DATA MINING


JURUSAN TEKNIK INDUSTRI
FAKULTAS TEKNOLOGI INDUSTRI
UNIVERSITAS ISLAM INDONESIA
2010
ABSTRAKSI

Klasifikasi merupakan sebuah proses untuk menemukan model yang membedakan


konsep atau kelas data dengan tujuan untuk memperkiraan kelas dari suatu obyek
yang kelasnya tidak diketahui. Di dalam klasifikasi diberikan sejumlah record yang
dinamakan training set yang terdiri dari beberapa atribut. Salah satu manfaat
klasifikasi adalah untuk membantu proses pengambilan keputusan dalam proses
pemberian kredit. BMT AL-AMIN merupakan sebuah perusahaan penyedia kredit
yang menggunakan metode klasifikasi untuk menekan resiko kredit macet. Dari hasil
penelitian yang telah dilakukan subjek 1 akan menerima kredit dengan jumlah
pembiayaan besar dengan jumlah anak sedang dan dalam jangka waktu pembiayaan
satu tahun diprediksikan status kreditnya akan macet, subjek 2 akan menerima kredit
dengan jumlah pembiayaan besar dengan jumlah anak banyak dan dalam jangka
waktu pembiayaan dua tahun diprediksikan status kreditnya akan macet, subjek 3
akan menerima kredit dengan jumlah pembiayaan besar dengan jumlah anak banyak
dan dalam jangka waktu pembiayaan satu tahun diprediksikan status kreditnya akan
macet, subjek 4 akan menerima kredit dengan jumlah pembiayaan sedang dengan
jumlah anak sedikit dan dalam jangka waktu pembiayaan dua tahun diprediksikan
status kreditnya akan tidak macet, subjek 5 akan menerima kredit dengan jumlah
pembiayaan kecil dengan jumlah anak sedang dan dalam jangka waktu pembiayaan
dua tahun diprediksikan statu kreditnyaakan tidak macet.

Keywords : Klasifikasi, Decision Tree, Chi Square


BAB I
PENDAHULUAN

1.1 Latar Belakang masalah


Dalam pelaksanaan kegiatan perkreditan selama ini, banyak kredit yang
tidak dikembalikan sesuai dengan jadwal yang telah ditentukan. Dengan kata lain
telah terjadi kredit macet. Adanya kredit macet ini menimbulkan kerugian pada
lembaga keuangan yang bersangkutan. Dalam pembiayaan, tingkat pembiayaan
yang semakin tinggi juga diiringi dengan adanya resiko kredit macet yang besar
pula. Resiko kredit ini harus diminimalisir agar badan keuangan dapat
mempertahankan kelangsungan usahanya, sehingga penawaran produk
pembiayaan dilakukan kepada debitur yang tepat sasaran.
Menghadapi kenyataan sebagaimana diuraikan di atas, maka perlu
dilakukan prediksi status kredit kepada calon debitur agar tidak terjadi kredit
macet. Prediksi status kredit merupakan upaya yang ditempuh suatu lembaga
keuangan dalam usahanya untuk menghindari kemungkinan terjadinya kredit
macet atau tunggakan bagi kredit yang telah sampai jatuh temponya. Sehingga
prediksi status kredit macet berguna untuk memperkecil risiko terjadinya kredit
macet agar dapat meminimumkan resiko kredit macet.

1.2 Rumusan Masalah


1. Bagaimana rule yang terbentuk?
2. Bagaimana hasil dari chi-square?
3. Bagaimana hasil prediksi ?

1.3 Batasan Masalah


1. Obyek penelitian dikhususkan pada BMT AL-AMIN
2. Permasalahan yang dianalisa adalah masalah pengambilan keputusan
pemberian kredit.

1.4 Tujuan penelitian


1. Untuk mengetahui rule yang terbentuk.
2. Untuk menghitung chi-square penelitian.
3. Untuk mengetahui hasil prediksi pemberian kredit.

1.5 Manfaat Penelitian


1. Mahasiswa dapat mengetahui dan memahami metode klasifikasi, khususnya
teknik decision tree serta dapat membaca rule yang terbentuk.
2. Dapat mengetahui dan memahami metode tes kebebasan atau interdependency
test chi-square.
3. Dapat mengetahui dan memahami cara mendapatkan keputusan untuk kasus-
kasus yang dapat dianalisa menggunakan meode klasifikasi.
BAB II
LANDASAN TEORI

Klasifikasi merupakan proses untuk menemukan sekumpulan model yang


menjelaskan dan membedakan kelas-kelas data, sehingga model tersebut dapat
digunakan untuk memprediksi nilai suatu kelas yang belum diketahui pada sebuah
objek (Agny Ismaya, 2005).
Klasifikasi adalah sebuah proses untuk menemukan model yang
menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat
memperkirakan kelas dari suatu objek yang kelasnya tidak diketahui (Pang-Ning
Tan, 2004). Di dalam klasifikasi diberikan sejumlah record yang dinamakan
training set, yang terdiri dari beberapa atribut, atribut dapat berupa kontinyu
ataupun kategoris, salah satu atribut menunjukkan kelas untuk record.
Model dalam Klasifikasi (Bertalya, 2009) :
a) Pemodelan Deskriptif
Sebagai alat penggambaran yang bersifat menjelaskan untuk membedakan
objek2 dari kelas yang berbeda.
b) Pemodelan Prediktif
Pemodelan prediktif digunakan untuk memprediksi label kelas untuk record
yang belum diketahui.
Klasifikasi dapat diaplikasikan dalam beberapa bidang antara lain
kesehatan, perbankan, ritel, dll. Masing-masing memiliki atribut yang sesuai
dengan kasus masingmasing. Misalnya dalam ritel, kasus yang biasanya digunakan
adalah pemberian diskon/bonus.

2.1 Tujuan Klasifikasi


Tujuan dari klasifikasi adalah untuk :
1. Menemukan model dari training set yang membedakan record kedalam
kategori atau kelas yang sesuai, model tersebut kemudian digunakan untuk
mengklasifikasikan record yang kelasnya belum diketahui sebelumnya
pada test set.
2. Mengambil keputusan dengan memprediksikan suatu kasus, berdasarkan
hasil klasifikasi yang diperoleh.

2.2 Konsep Pembuatan Model Dalam Klasifikasi


Untuk mendapatkan model, kita harus melakukan analisis terhadap data
latih (training set). Sedangkan data uji (test set) digunakan untuk mengetahui
tingkat akurasi dari model yang telah dihasilkan. Klasifikasi dapat digunakan
untuk memprediksi nama atau nilai kelas dari suatu obyek data.
Proses klasifikasi data dapat dibedakan dalam 2 tahap, yaitu :
a. Pembelajaran / Pembangunan Model
Tiap – tiap record pada data latih dianalisis berdasarkan nilai – nilai
atributnya, dengan menggunakan suatu algoritma klasifikasi untuk
mendapatkan model.
b. Klasifikasi
Pada tahap ini, data uji digunakan untuk mengetahui tingkat akurasi dari
model yang dihasilkan. Jika tingkat akurasi yang diperoleh sesuai dengan
nilai yang ditentukan, maka model tersebut dapat digunakan untuk
mengklasifikasikan record – record data baru yang belum pernah dilatihkan
atau diujikan sebelumnya.
Untuk meningkatkan akurasi dan efisiensi proses klasifikasi, terdapat beberapa
langkah pemrosesan terhadap data, yaitu :
a. Data Cleaning
Data cleaning merupakan suatu pemrosesan terhadap data untuk menghilangkan
noise dan penanganan terhadap missing value pada suatu record.
b. Analisis Relevansi
Pada tahap ini, dilakukan penghapusan terhadap atribut – atribut yang redundant
ataupun kurang berkaitan dengan proses klasifikasi yang akan dilakukan.
Analisis relevansi dapat meningkatkan efisiensi klasifikasi karena waktu yang
diperlukan untuk pembelajaran lebih sedikit daripada proses pembelajaran
terhadap data – data dengan atribut yang masih lengkap (masih terdapat
redundansi).
c. Transformasi Data
Pada data dapat dilakukan generalisasi menjadi data dengan level yang lebih
tinggi. Misalnya dengan melakukan diskretisasi terhadap atribut degan nilai
kontinyu. Pembelajaran terhadap data hasil generalisasi dapat mengurangi
kompleksitas pembelajaran yang harus dilakukan karena ukuran data yang harus
diproses lebih kecil.

Pembuatan model menguraikan sebuah set dari penentuan kelas-kelas sebagai:


1. Setiap tuple diasumsikan sudah mempunyai kelas yang dikenal seperti
ditentukanoleh label kelas atribut,
2. Kumpulan tuple yang digunakan untuk membuat model disebut kumpulan
pelatihan (training set),
3. Model direpresentasikan sebagai classification rules, decision tree atau
formula matematika.
Penggunaan model menguraikan pengklasifikasian masa yang akan datang atau
obyek yang belum ketahui, yaitu taksiran keakuratan dari model yang terdiri dari:
1. Label yang telah diketahui dari contoh tes dibandingkan dengan hasil
klasifikasi dari model,
2. Nilai keakuratan adalah prosentase dari kumpulan contoh tes yang

3.
4. Jika akurasi diterima, gunakan model untuk mengklasifikasikan data tuple
yang label kelasnya belum diketahui.

Untuk mengevaluasi performansi sebuah model yang dibangun oleh algoritma


klasifikasi dapat dilakukan dengan menghitung jumlah dari test record yang di
prediksi secara benar (akurasi) atau salah (error rate) oleh model tersebut. Akurasi
dan error rate didefinisikan sebagai berikut.

Jumlah prdiksi benar


Akurasi =
Jumlah total prediksi

Jumlah prediksi salah


Error rate =
Jumlah total prediksi
Algoritma klasifikasi berusaha untuk mencari model yang mempunyai akurasi
yang tinggi atau error rate yang rendah ketika model diterapkan pada test set.

2.3 Teknik Klasifikasi


Didalam Klasifikasi sebagaimana telah dijelaskan, ada beberapa teknik
klasifikasi yang digunakan, anatara lain: pohon keputusan, rule based, neural
network, support vector machine, naive bayes, dan nearest neighbour. Dan pada
praktikum ini akan menggunakan teknik pohon keputusan, karena beberapa
alasan:
1. Dibandingkan dengan classifier JST atau bayesian, sebuah pohon
keputusan mudah diinterpretasi/ ditangani oleh manusia.
2. Sementara training JST dapat menghabiskan banyak waktu dan ribuan
iterasi, pohon keputusan efisien dan sesuai untuk himpunan data besar.
3. Algoritma dengan pohon keputusan tidak memerlukan informasi tambahan
selain yang terkandung dalam data training (yaitu, pengetahuan domain
dari distribusi-distribusi pada data atau kelas-kelas).
4. Pohon keputusan menunjukkan akurasi klasifikasi yang baik dibandingkan
dengan teknikteknik yang lainnya.

2.4 Decision Tree


Salah satu metoda Data Mining yang umum digunakan adalah decision
tree. Decision tree adalah struktur flowchart yang menyerupai tree (pohon),
dimana setiap simpul internal menandakan suatu tes pada atribut, setiap cabang
merepresentasikan hasil tes, dan simpul daun merepresentasikan kelas atau
distribusi kelas. Alur pada decision tree di telusuri dari simpul akar ke simpul daun
yang memegang prediksi kelas untuk contoh tersebut. Decision tree mudah untuk
dikonversi ke aturan klasifikasi (Zalilia, 2007).

2.4.1 Konsep Decision Tree


Mengubah data menjadi pohon keputusan (decision tree) dan aturan-aturan
keputusan (rule).
2.4.2 Tipe Simpul Pada Tree
Tree
1. Simpul akar dimana tidak ada masukan edge dan 0 atau lebih keluaran
edge
2. Simpul internal, masing-masing 1 masukan edge dan 2 atau lebih edge

3. Simpul daun atau simpul akhir, masing-masing 1 masukan edge dan tidak
ada edge
Pada decision tree setiap simpul daun menandai label kelas. Simpul yang
bukan simpul akhir terdiri dari akar dan simpul internal yang terdiri dari
kondisi tes atribut pada sebagian record yang mempunyai karakteristik yang
berbeda. Simpul akar dan simpul internal ditandai dengan bentuk oval dan
simpul daun ditandai dengan bentuk segi empat.

2.4.3 Konsep Data Dalam Decision Tree


1. Data dinyatakan dalam bentuk tabel dengan atribut dan record.
2. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam
pembentukan tree. Misalkan untuk menentukan main tenis, kriteria yang
diperhatikan adalah cuaca, angin dan temperatur. Salah satu atribut
merupakan atribut yang menyatakan data solusi per-item data yang
disebut dengan target atribut.
3. Atribut memiliki nilai-nilai yang dinamakan dengan instance. Misalkan
atribut cuaca mempunyai instance berupa cerah, berawan dan hujan.

d. Proses Dalam Decision Tree


1. Proses Mengubah Data Menjadi Tree
a). Ukuran untuk Memilih Split Terbaik
Dalam membangun sebuah decision tree secara top-down (dari atas ke
bawah), dimulai dengan pertanyaan atribut mana yang pertama kali harus
diletakkan pada root node? Pertanyaan ini dijawab dengan mengevaluasi
semua atribut yang ada menggunakan suatu ukuran statistik (yang banyak
digunakan adalah information gain) untuk mengukur efektifitas suatu atribut
dalam mengklasifikasikan suatu kumpulan sampel data. Semua atribut
adalah bersifat kategori yang bernilai diskrit. Atribut dengan nilai continuous
harus didiskritkan (Zalilia, 2007). Terlebih dahulu kita harus mencari nilai
informasi dari data yang merupakan nilai yang diperlukan untuk
mengklasifikasikan keputusan akhir.
b) Entropi
Definisi Entrophy (Basuki, 2003):
1. Entropy (S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat
mengekstrak suatu kelas (+ atau -) dari sejumlah data acak pada ruang
sample S.
2. Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu
kelas. Semakin kecil nilai Entropy maka semakin baik untuk digunakan
dalam mengekstraksi suatu kelas.
3. Entropi adalah suatu parameter untuk mengukur heterogenitas dari suatu
data
4. Panjang kode untuk menyatakan informasi secara optimal adalah p
bits untuk messages yang mempunyai probabilitas p.
Untuk menghitung information gain,terlebih dahulu kita harus memahami
suatu ukuran lain yang disebut Entropy. Entropi biasa digunakan sebagai
sautu parameter untuk mengukur heterogenitas (keberagaman) dari suatu
kumpulan sampel data. Jika kumpulan sampel data semakin heterogen, maka
nilai entropy-nya semakin besar.
Nilai maksimum entropy adalah 1, yaitu saat jumlah semua sampel kelas data
adalah sama (keberagaman data yang maksimum). Nilai minimum entropy
adalah 0, yaitu saat jumlah salah satu kelas adalah 0 (keberagaman data yang
minimum).
c) Information Gain
Setelah kita mendapatkan nilai entropy untuk suatu kumpulan sampel data,
maka kita dapat mengukur efektifitas suatu atribut dalam mengklasifikasikan
data. Ukuran efektifitas ini disebut Information Gain. Dengan kata lain,
Gain(A) adalah reduksi yang diharapkan dalam entropy yang disebabkan oleh
pengetahuan nilai pada atribut A. Algoritma menghitung information gain
pada setiap atribut. Atribut dengan nilai gain terbesar dipilih sebagai tes
atribut (simpul akar). Simpul A dibuat dan dilabelkan dengan atribut, cabang
dibuat untuk setiap nilai atribut.
Klasifikasi pada umumnya digunakan untuk kasus-kasus pada kelas-kelas
keputusan yang bernilai diskrit dengan keputusan seperti diterima = “ya” atau
“tidak”. Namun jika kita menemukan kasus yang mempunyai nilai keputusan
kontinyu cara yang sedikit untuk menyelesaikannya adalah dengan mengubah
nilai-nilai continyu menjadi nilai-nilai diskrit dengan cara mempartisi nilai
kontinyu ke dalam intervalinterval bernilai diskrit.
BAB III
METODOLOGI PENELITIAN

3.1 Lokasi Penelitian


Lokasi penelitian adalah di BMT AL-AMIN

3.2 Objek Penelitian


Obyek penelitian adalah debitur BMT AL-AMIN yang mengajukan permintaan
kredit.

3.3 Metode Pengumpulan Data


1. Data Primer
Data primer dalam penelitian ini adalah data-data yang diperoleh dari debitur
atau pemohon kredit. Dalam kasus ini yang merupakan data primer adalah
training set yang berisi atribut jumlah pembiayaan, jumlah anak, jangka waktu
pembiayaan dan status kredit.
2. Data Sekunder
Data sekunder dalam penelitian ini adalah data-data yang diperoleh dari
pengolahan data-data primer. Dalam kasus ini yang merupakan data sekunder
adalah entropy, nilai informasi, information gain serta chi-square.
3.4. Flowchart Penelitian

Mulai

Training Data

Decision Tree

Classification Rule
Awal

Penyederhanaan Rule
(Chi-square)

Ho diterima/
Ditolak

Atribut tidak dapat Atribut dapat


dihilangkan dihilangkan

Classification Rule
Akhir

Prediksi

Selesai
3.5. Langkah Software
Software yang digunakan dalam klasifikasi adalah Weka. Langkah
pengerjaannnya adalah sebagai berikut :
1. Menginput data training di Ms. Excel kemudian menyimpannya dalam format
.csv
2. Membuka Weka, kemudian explorer, Open file
3. File tersebut disave as dalam format .arrf
4. Pilih classify, pada classifier-choose-trees-j48
5. Test option dipilih use training set, kemudian klik start
6. Pada result list, klik kanan pilih visualize tree
BAB IV
PENGUMPULAN DAN PENGOLAHAN DATA

4.1 Pengumpulan Data


4.1.1 Data Historis
Tabel 4.1 Data Status Kredit Pada BMT AL-AMIN

Jumlah Jumlah Jangka Waktu


No Status Kredit
Pembiayaan anak Pembiayaan
1 Sedang Banyak Satu Tahun Macet
2 Besar Sedang Dua Tahun Macet
3 Besar Banyak Dua Tahun Macet
4 Sedang Banyak Satu Tahun Macet
5 Sedang Sedikit Dua Tahun Tidak Macet
6 Kecil Sedikit Satu Tahun Tidak Macet
7 Kecil Banyak Dua Tahun Tidak Macet
8 Besar Banyak Dua Tahun Macet
9 Sedang Banyak Satu Tahun Macet
10 Kecil Sedang Dua Tahun Tidak Macet
11 Kecil Banyak Dua Tahun Tidak Macet
12 Sedang Banyak Satu Tahun Macet
13 Besar Sedang Satu Tahun Macet
14 Besar Banyak Satu Tahun Macet
15 Besar Sedang Satu Tahun Macet
16 Sedang Banyak Dua Tahun Macet
17 Besar Banyak Dua Tahun Macet
18 Besar Sedang Satu Tahun Macet
19 Kecil Sedikit Satu Tahun Tidak Macet
21 Kecil Sedang Satu Tahun Tidak Macet
22 Kecil Sedikit Dua Tahun Tidak Macet
23 Besar Sedikit Satu Tahun Macet
Jumlah Jumlah Jangka Waktu
No Status Kredit
Pembiayaan anak Pembiayaan
24 Sedang Banyak Satu Tahun Macet
25 Sedang Banyak Satu Tahun Macet
26 Sedang Sedang Dua Tahun Tidak Macet
27 Besar Banyak Dua Tahun Macet
28 Sedang Banyak Satu Tahun Macet
29 Sedang Sedang Dua Tahun Tidak Macet
30 Besar Sedikit Satu Tahun Macet

4.1.2 Data yang akan diprediksi


Tabel 4.2 Data Status Kredit yang akan diprediksi
Jumlah Jumlah Jangka Waktu
No Status Kredit
Pembiayaan Anak Pembiayaan
1 Besar Sedang Satu Tahun Macet
2 Besar Banyak Dua Tahun Macet
3 Besar Banyak Satu Tahun Macet
4 Sedang Sedikit Dua Tahun Tidak Macet
5 Kecil Sedang Dua Tahun Tidak Macet
4.2 Pengolahan Data
4.2.1 Perhitungan Root Node
1. Atribut Jumlah Pembiayan
Tabel 4.3 Jumlah Pembiayan
Jumlah Total Nilai Information
Status Kredit Jumlah Q Entropi
Pembiayaan Instence Informasi Gain
Macet 0
Kecil 8 0.00
Tidak Macet 8
Macet 8
Sedang 11 0.85 0.31 0.95 0.64
Tidak Macet 3
Macet 11
Besar 11 0.00
Tidak Macet 0
Total 30

2. Atribut Jumlah Anak


Tabel 4.4 Jumlah Anak
Jumlah Total Nilai Information
Status Kredit Jumlah Q Entropi
Anak Instence Informasi Gain
Macet 2
Sedikit 6 0.92
Tidak Macet 4
Macet 4
Sedang 8 1.00 0.82 0.95 0.13
Tidak Macet 4
Macet 13
Banyak 16 0.70
Tidak Macet 3
Total 30
3. Atribut Jangka Waktu Pembiayaan
Tabel 4.5 Jangka Waktu Pembiayaan
Waktu Status Total Nilai Information
Jumlah Q Entropi
Pembiayaan Kredit Instence Informasi Gain
Macet 13
Satu Tahun Tidak 16 0.70
3
Macet
0.83 0.95 0.12
Macet 6
Dua Tahun Tidak 14 0.99
8
Macet
Total 30

Dipilih atribut Jumlah Pembiayaan sebagai Root Node karena memiliki information
gain terbesar yaitu 0.64

4.2.2 Perhitungan Internal Node


1. Internal Node 1
A. Atribut Jumlah Anak
Tabel 4.6 Jumlah Anak
Jumlah Total Nilai Information
Status Kredit Jumlah Q Entropi
Anak Instence Informasi Gain
Macet 0
Sedikit 1 0
Tidak Macet 1
Macet 0
Sedang 2 0 0 0.85 0.85
Tidak Macet 2
Macet 8
Banyak 8 0
Tidak Macet 0
Total 11
B. Atribut Jangka waktu Pembiayaan
Tabel 4.7 Kondisi Buku
Jangka
Status Total Nilai Information
Waktu Jumlah Q Entropi
Kredit Instence Informasi Gain
Pembiayaan
Macet 7
Satu Tahun Tidak 7 0.00
0
Macet
0.30 0.85 0.55
Macet 1
Dua Tahun Tidak 4 0.81
3
Macet
Total 11

Dipilih atribut Jumlah Anak sebagai Root Node karena memiliki information gain
terbesar yaitu 0.85

4.2.3 Decision Tree


Langkah software

Gambar 4.1 Software Weka


Gambar 4.2 Weka Eksplorer

Langkah 1. Klik open file, lalu buka file .csv

Gambar 4.3 Weka Classify

Langkah 2. Klik Classify, choose klik tree dan pilih J48


Gambar 4.4 Weka Classify

Langkah 3. Klik kanan di result list klik visualize tree


Print Screen Weka

Gambar 4.5 Print screen Weka

4.2.4 Classification Rule Awal

1. If Jumlah Pembiayaannya = kecil THEN Status Kreditnya= TIDAK


MACET
2. If Jumlah Pembiayaannya = besar THEN Status Kreditnya = MACET
3. If Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Banyak THEN
Status Kreditnya = MACET
4. If Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Sedang THEN
Status Kreditnya = TIDAK MACET
5. If Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Sedikit THEN
Status Kreditnya = TIDAK MACET
4.2.5 Penyerderhanaan Rule (chi square)
1. Uji Independensi Atribut Kondisi dan Keadaan Buku dengan Distribusi
Chi Square
Tabel 4.8 Frekuensi Jumlah Pembiayaan
Kredit Kecil Sedang Besar total
Macet 0 8 11 19
Tidak Macet 8 3 0 11
total 8 11 11 30

Tabel 4.9 Frekuensi Diharapkan Jumlah Pembiayaan


Kredit Kecil Sedang Besar total
Macet 5.07 6.97 6.97 19
Tidak Macet 2.93 4.03 4.03 11
total 8 11 11 30

A. Hipotesis
HO : Atribut Jumlah Pembiayaan mempunyai hubungan dengan
keputusan
HI : Atribut Jumlah Pembiayaan tidak mempunyai hubungan
dengan keputusan

B. Tingkat Signifikasi dan Derajat Kebebasan


Tingkat signifikansi : α = 0.05
Derajat Kebebasan : (r-1).(k-1) = (3-1).(2-1) = 2.1 = 2

C. Kriteria Pengujian
X2(0,05;2) = 5.991464547
Ho diterima apabila X2 ≤ 5.991464547
Ho ditolak apabila X2 ≥ 5.991464547
Ditolak

5.991464547 20.6046107

Gambar 4.6 Kurva daerah penolakan atribut kondisi dan keadaan buku

D. Kesimpulan
Karena X2hitung X2(0,05;2) = 20.6046107 , 5.991464547maka Ho
ditolak yang berarti atribut Jumlah Pembiayaan hubungan dengan
keputusan.

2. Uji Independensi Atribut Penilaian Peminjaman dengan Distribusi Chi


Square
Tabel 4.10 Frekuensi Jumlah Anak
Kredit Sedikit Sedang Besar total
Macet 2 4 13 19
Tidak Macet 4 4 3 11
total 6 8 16 30

Tabel 4.11 Frekuensi Diharapkan Jumlah Anak


Kredit Sedikit Sedang Besar total

Macet 3.80 5.07 10.13 19

Tidak Macet 2.20 2.93 5.87 11

Total 6 8 16 30
A. Hipotesis
HO : Atribut Jumlah Anak mempunyai hubungan dengan
keputusan
H1 : Atribut Jumlah Anak tidak mempunyai hubungan
dengan keputusan

B. Tingkat Signifikasi dan Derajat Kebebasan


Tingkat signifikansi : α = 0.05
Derajat Kebebasan : (r-1).(k-1) = (2-1).(3-1) = 1.2 = 2

C. Kriteria Pengujian
X2(0,05;2) = 5.991464547
Ho diterima apabila X2 ≤5.991464547
Ho ditolak apabila X2 ≥ 5.991464547

Ditolak

5.149521531 5.991464547

Gambar 4.7 Kurva daerah penolakan penilaian peminjaman

D. Kesimpulan
Karena X2hitung X2(0,05;2) , 5.149521531 5.991464547, maka Ho
diterima yang berarti atribut Jumlah Anak tidak mempunyai
hubungan dengan keputusan.
3. Uji Independensi Atribut Intensitas Dipinjam dengan Distribusi Chi
Square
Tabel 4.12 Frekuensi Jangka waktu Pembiayaan
Kredit Satu Tahun Dua Tahun total
Macet 13 6 19
Tidak Macet 3 8 11
total 16 14 30

Tabel 4.13 Frekuensi Jangka Waktu Pembiayaan

Kredit Satu Tahun Dua Tahun Total


Macet 10.13 8.87 19
Tidak Macet 5.87 5.13 11
total 16 14 30

A. Hipotesis
HO : Atribut Jangka Waktu Pembiayaan mempunyai hubungan
dengan keputusan
H1 : Atribut Jangka Waktu Pembiayaan tidak mempunyai
hubungan dengan keputusan

B. Tingkat Signifikasi dan Derajat Kebebasan


Tingkat signifikansi : α = 0.05
Derajat Kebebasan : (r-1).(k-1) = (2-1).(2-1) = 1.1= 1

C. Kriteria Pengujian
X2(0,05;1) = 3.841459149
Ho diterima apabila X2 ≤ 3.841459149
Ho ditolak apabila X2 ≥ 3.841459149
Ditolak

3.841459149 4.739405332

Gambar 2.2 Kurva daerah penolakan penilaian peminjaman

D. Kesimpulan
Karena X2hitung X2(0,05;2) , 16.31054131 4.739405332, maka Ho
ditolak yang berarti atribut Jangka Waktu Pembiayaan mempunyai
hubungan dengan keputusan.

2.2.6 Rule Akhir


Karean Jumlah Anak Tidak mempunyai hubungan terhadap keputusan
sehingga bentuk diagram pohonnya sebagai berikut:

Tabel 4.14 Kondisi Buku

Jangka
Total Nilai Information
Waktu Status Kredit Jumlah Q Entropi
Instence Informasi Gain
Pembiayaan

Macet 7
Satu Tahun 7 0
Tidak Macet 0
0.29501 0.845351 0.55034071
Macet 1
Dua Tahun 4 0.811278124
Tidak Macet 3

Total 11
Jumlah
Pembiayaan

Kecil Sedang Besar

Jangka Waktu
Tidak Macet Macet
Pembiayaan

2 Tahun 1 Tahun

Tidak Macet Macet

1. If Jumlah Pembiayaannya = kecil THEN Status Kreditnya= TIDAK


MACET
2. If Jumlah Pembiayaannya = besar THEN Status Kreditnya = MACET
3. If Jumlah Pembiayaannya = sedang ^ Jangka Waktu Pembiayaan = Satu
tahun THEN Status Kreditnya = MACET
4. If Jumlah Pembiayaannya = sedang ^ Jangka Waktu Pembiayaan = Dua
tahun THEN Status Kreditnya = Tidak MACET

4.2.7 Prediksi
Tabel 4.15 Data Prediksi
JUMLAH JUMLAH JANGKA WAKTU STATUS
NO
PEMBIAYAAN ANAK PEMBIAYAAN KREDIT
1 Besar Sedang Satu Tahun Macet

2 Besar Banyak Dua Tahun Macet


3 Besar Banyak Satu Tahun Macet
4 Sedang Sedikit Dua Tahun Tidak Macet
5 Kecil Sedang Dua Tahun Tidak Macet
BAB V
PEMBAHASAN

5.1 Decision Tree


Dari hasil pengklasifikasian didapat decision tree sebagai berikut:
1. Pada root node dipilih atribut jumlah pembiayaan karena memiliki nilai
information gain terbesar yaitu 0.64
2. Pada internal node 1 dipilih atribut Jumlah Anak yang diletakkan pada
instance sedang karena memiliki nilai information gain terbesar yaitu 0.85.
Terdiri dari banyak, sedang dan Sedikit
3. Pada internal node 2 atau atribut yang terakhir adalah atribut jangka waktu
pembiayaan yang berada pada instance sedang. Tediri dari jangka waktu
pembiayaan satu tahun dan dua tahun.

5.2 Classification Rule Awal


Rule merupakan model yang terbentuk dari training set dimana sample dalam
data dibedakan kedalam kategori atau kelas yang sesuai. Model tersebut
kemudian akan digunakan untuk mengklasifikasikan record atau data yang
kelasnya belum diketahui sebelumnya. Dari hasil study kasus ini didapat 5 rule
awal. Adapun rule tersebut adalah sebagai berikut :
1. IF Jumlah Pembiayaannya = kecil THEN Status Kreditnya= TIDAK
MACET
2. IF Jumlah Pembiayaannya = besar THEN Status Kreditnya = MACET
3. IF Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Banyak THEN
Status Kreditnya = MACET
4. IF Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Sedang THEN
Status Kreditnya = TIDAK MACET
5. IF Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Sedikit THEN
Status Kreditnya = TIDAK MACET
5.3 Penyerderhanaan Rule
Untuk menyederhanakan rule yang telah ditetapkan, digunakan uji distribusi
Chi Square. Setelah didapat rule awal kemudian dilakukan uji independensi
terhadap masing-masing atribut. Jika nilai X2 hitung untuk atribut lebih besar
dari pada X2 tabel maka atribut bersifat dependen yang artinya atribut tersebut
tetap dipakai dalam rule. Namun . Jika nilai X2 hitung untuk atribut lebih kecil
dari pada X2 tabel maka atribut bersifat independen, sehingga atribut tersebut
dapat dihilangkan dari rule. Atau dengan kata lain rule akan disederhanakan.

5.4 Rule Akhir


Masing-masing atribut yang ada akan diuji apakah atribut tersebut bersifat
dependent atau independent. Pengujian dilakukan melalui uji independensi
dengan distribusi Chi Square. Pengujian ini bertujuan untuk melihat apakah
suatu atribut mempunyai keterikatan dengan atribut lain atau atribut tersebut
berdiri sendiri. Jika atribut tersebut bersifat dependent atau terikat maka atribut
tersebut tetap dipakai dalam rule. Namun jika atribut tersebut bersifat
independent atau berdiri sendiri maka atribut tersebut dapat dihilangkan dari
rule. Atau dengan kata lain rule akan disederhanakan.
Dalam studi kasus ini, setelah dilakukan pengujian dengan uji Chi Square
dapat diketahui bahwa atribut “Jumlah Pembiayaan” dan “Jangka Waktu
pembiayaan” bersifat dependent, sedangkan atribut “Jumlah Anak ” bersifat
independent. Sehingga atribut “Jumlah Anak” dihilangkan dari rule awal.
Didapat rule akhir sebagai berikut :
1. IF Jumlah Pembiayaannya = kecil THEN Status Kreditnya= TIDAK
MACET
2. IF Jumlah Pembiayaannya = besar THEN Status Kreditnya = MACET
3. IF Jumlah Pembiayaannya = sedang ^ Jangka Waktu Pembiayaan = Satu
tahun THEN Status Kreditnya = MACET
4. IF Jumlah Pembiayaannya = sedang ^ Jangka Waktu Pembiayaan = Dua
tahun THEN Status Kreditnya = Tidak MACET
5.5 Prediksi
Rule akhir yang terbentuk akan digunakan untuk melakukan prediksi
terhadap Penerima Kredit lain diluar database yang telah dimiliki. Dalam study
kasus ini dilakukan prediksi terhadap subjek baru yang belum diketahui kelas
atau kategorinya. Dari 5 subjek baru, 3 subjek baru diprediksi status kredinya
adalah “MACET”. Sedangkan 2 subjek baru lainnya status Kreditnya adalah
“TIDAK MACET”. Adapun hasil prediksi tersebut adalah sebagai berikut :
1. Subjek 1 yang akan menerima kredit dengan jumlah pembiayaanya besar,
jumlah anaknya sedang dan jangka waktu pembiayaan satu tahun diprediksi
status kredinya akan Macet.
2. Subjek 2 yang akan menerima kredit dengan jumlah pembiayaanya besar,
jumlah anaknya Banyak dan jangka waktu pembiayaan dua tahun diprediksi
status kredinya akan Macet
3. Subjek 3 yang akan menerima kredit dengan jumlah pembiayaanya besar,
jumlah anaknya Banyak dan jangka waktu pembiayaan satu tahun diprediksi
status kredinya akan Macet
4. Subjek 4 yang akan menerima kredit dengan jumlah pembiayaanya sedang,
jumlah anaknya Sedikit dan jangka waktu pembiayaan dua tahun diprediksi
status kredinya akan Tidak Macet
5. Subjek 5 yang akan menerima kredit dengan jumlah pembiayaanya kecil,
jumlah anaknya sedang dan jangka waktu pembiayaan dua tahun diprediksi
status kredinya akan Tidak Macet
BAB VI
KESIMPULAN DAN SARAN

6.1 Kesimpulan
1. Rule yang terbentuk
a. IF Jumlah Pembiayaannya = kecil THEN Status Kreditnya= TIDAK
MACET
b. IF Jumlah Pembiayaannya = besar THEN Status Kreditnya = MACET
c. IF Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Banyak THEN
Status Kreditnya = MACET
d. IF Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Sedang THEN
Status Kreditnya = TIDAK MACET
e. IF Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Sedikit THEN
Status Kreditnya = TIDAK MACET

2. Hasil Penyerderhanaan rule


a. IF Jumlah Pembiayaannya = kecil THEN Status Kreditnya= TIDAK
MACET
b. IF Jumlah Pembiayaannya = besar THEN Status Kreditnya = MACET
c. IF Jumlah Pembiayaannya = sedang ^ Jangka Waktu Pembiayaan = Satu
tahun THEN Status Kreditnya = MACET
d. IF Jumlah Pembiayaannya = sedang ^ Jangka Waktu Pembiayaan = Dua
tahun THEN Status Kreditnya = Tidak MACET

3. Hasil Prediksi
a. Subjek 1 yang akan menerima kredit dengan jumlah pembiayaanya
besar, jumlah anaknya sedang dan jangka waktu pembiayaan satu tahun
diprediksi status kreditnya akan Macet.
b. Subjek 2 yang akan menerima kredit dengan jumlah pembiayaanya
besar, jumlah anaknya Banyak dan jangka waktu pembiayaan dua tahun
diprediksi status kreditnya akan Macet
c. Subjek 3 yang akan menerima kredit dengan jumlah pembiayaanya
besar, jumlah anaknya Banyak dan jangka waktu pembiayaan satu tahun
diprediksi status kreditnya akan Macet
d. Subjek 4 yang akan menerima kredit dengan jumlah pembiayaanya
sedang, jumlah anaknya Sedikit dan jangka waktu pembiayaan dua tahun
diprediksi status kreditnya akan Tidak Macet
e. Subjek 5 yang akan menerima kredit dengan jumlah pembiayaanya kecil,
jumlah anaknya sedang dan jangka waktu pembiayaan dua tahun
diprediksi status kreditnya akan Tidak Macet

4.2 Saran
Mengingat berbagai keterbatasan yang dialami penulis dan berdasarkan
hasil praktikum yang telah dilakukan, maka penulis menyarankan untuk
pengembangan dimasa yang akan datang sebagai berikut:
1. Bagian bank sebaiknya melakukan identifikasi yang lebih baik lagi dalam
pemberian kredit
2. Tentukan hal – hal apa saja yang dibutuhkan oleh penerima kredit.
3. Menentukan hal – hal apa saja yang akan diberikan dan di bebankan
kepada penerima kredit.
DAFTAR PUSTAKA

Bertalya, “Konsep Data Mining”. Universitas Gunadarma,2009


Chaerudin, Mochamad, “IMPLEMENTASI DAN ANALISA ALGORITMA
SPRINT SEBAGAI SEBUAH CLASSIFIER POHON KEPUTUSAN YANG
SCALABLE PADA DATA MINING”, Tugas Akhir, Jurusan Teknik
Informatika, STT TELKOM, 2005. http://www.stttelkom.ac.id/staf/MAB/TA-
PA-list.htm
Ismaya, Agny, ” ANALISIS DAN IMPLEMENTASI OPTIMAL BRAIN
SURGEON (OBS) UNTUK KLASIFIKASI PADA DATA MINING”, Tugas
Akhir, Jurusan Teknik Informatika, STT TELKOM, 2005.
http://www.stttelkom.ac.id/staf/MAB/TA-PA-list.htm
Han,Jiawei. “Data Mining Concept and Techniques”. Presentation.
http://www.cs.sfu.ca/~han/dmbook
Pang-Ning Tan, Michael Steinbach, and Vipin Kumar. ”Introduction to Data
Mining”. 2004. http://www.cse.msu.edu/~cse980
Zalilia, Lia, “PENERAPAN DATA MINING UNTUK IDS ”, Tugas Akhir, Jurusan
Teknik Elektro, ITB, 2007
www.dtreg.com
www.dbminer.com

You might also like