Professional Documents
Culture Documents
Prosiding KNPMP 3 2018-775p Ok - p013-775 - p448-456
Prosiding KNPMP 3 2018-775p Ok - p013-775 - p448-456
Prosiding KNPMP 3 2018-775p Ok - p013-775 - p448-456
Abstrak
Analisis kelompok adalah metode statistika multivariat yang bertujuan untuk mengelompokkan
objek pengamatan yang memiliki kemiripan (karakteristik sama). Terdapat dua metode
pengelompokan dalam analisis kelompok yaitu metode pengelompokan hierarchical (hierarki) dan
nonhierarchical (nonhierarki). K-medoids merupakan metode pengelompokan nonhierarki yang
mempartisi n data ke dalam k kelompok yang memiliki karakteristik sama dan menggunakan medoid
(median) sebagai pusat kelompoknya. Dengan demikian, k-medoids ini robust terhadap adanya data
pencilan. Dalam proses pengelompokan digunakan algoritme k-medoidsdengan kriteria elbow dan
validasinya dengan koefisien silhouette. Kriteria elbow digunakan dengan melihat plot jumlah
kuadrat sesatan (JKS) dari beberapa jumlah kelompok(k). Jika terbentuk siku (elbow) untuk nilai
JKS pada suatu nilai k, maka nilai tersebut menjadi banyaknya kelompok yang akan dibentuk.
Koefisien silhouette berada antara-1dan 1. Pada artikel ini dilakukan kajian kriteria elbow dan
koefisien silhouette dengan algoritme k-medoids untuk pengelompokan data yang memuat pencilan
dan penerapannya pada kasus demam berdarah di Indonesia tahun 2016. Kajian menunjukkan
bahwa pengelompokan kasus demam berdarah pada 34 provinsi di Indonesia tahun 2016
menghasilkan 3 kelompok dengan nilai koefisien silhouette sebesar 0.6409981.
1. PENDAHULUAN
Statistika merupakan pengetahuan yang berhubungan dengan cara
mengumpulkan atau memperoleh data, menganalisis data, dan menarik
kesimpulan berdasarkan kumpulan data. Data menjadi kebutuhan bagi
masyarakat baik di kalangan akademis, perusahaan, kesehatan, maupun
pemerintahan. Dalam statistika tidak hanya terdapat satu variabel melainkan
juga bisa lebih dari satu variabel. Analisis yang membahas lebih dari satu
variabel secara bersamaan disebut analisis multivariat. Salah satu teknik yang
dibahas dalam analisis tersebut adalah clustering(pengelompokan).
Analisis kelompok merupakan suatu analisis multivariat yang digunakan
untuk mengelompokkan objek pengamatan menjadi beberapa kelompok
berdasarkan ukuran kemiripan antarobjek. Tujuan analisis
kelompokmempartisi himpunan objek menjadi dua kelompok atau lebih
berdasarkan kesamaan karakteristik khusus yang dimilikinya. Pengelompokan
data diperlukan untuk menyederhanakan permasalahan dengan melakukan
pengelompokan berdasarkan karakteristik variabel ke dalam sejumlah
kelompok yang relatif lebih homogen untuk memudahkan analisis.
2. METODE PENELITIAN
Penelitian ini merupakan penelitian berdasarkan teori dan penerapan.
Penelitian berdasarkan teori yaitu melakukan kajian tentang pengelompokan
data yang memuat pencilan dengan kriteria elbow dan koefisien silhouette pada
̅),
̅)′(𝒙𝒊 − 𝒙
JKS = ∑(𝒙𝒊 − 𝒙
𝑖=1
dengan 𝒙𝒊 adalah vektor data objek ke-i berukuran 𝑝 × 1, 𝒙 ̅ adalah
vektor rata-rata berukuran 𝑝 × 1, dan 𝑛 adalah banyak objek
pengamatan.Pada kriteria elbow, jumlah kelompok terbaik diambil dari
nilai JKS yang mengalami penurunan signifikan berbentuk siku
(Kokasih, 2016).Nilai JKS yang awalnya tinggi akan mengalami
penurunan secara drastis, kemudian turun secara perlahan sampai nilai
JKS tersebut stabil. Jika terlihat penurunan drastis dan terbentuk siku
untuk nilai JKS pada suatu nilai k, maka nilai tersebut menjadi
banyaknya kelompok yang akan dibentuk.
2) Memilihmedoid awal secara acak dari objek-objek yang akan
dikelompokkan.
3) Menentukan jarak objek non-medoid dengan medoidpada tiap
kelompok dengan perhitungan jarak menggunakan Euclideandistance.
Euclideandistanceadalah ukuran kemiripan yang biasa digunakan
dalam analisis kelompok. Euclideandistancemerupakan jarak
terpendek (straight line) antara dua titik.Euclideandistanceditulis
sebagai
𝑝 𝑛
2
𝑑𝑒𝑢𝑐 (𝑥𝑖𝑗 , 𝑐𝑘𝑗 ) = √∑ ∑(𝑥𝑖𝑗 − 𝑐𝑘𝑗 ) ,
𝑗=1 𝑖=1
𝐶≠𝐴
d. Penerapan
Pada penerapan ini digunakan data kasus demam berdarah (DBD) di
Indonesia tahun 2016 dengan jumlah amatan 34 dengan variabel angka
kesakitan (Incident Rate (IR)) dan kasus kematian (Case Fatality Rate
(CFR)) sebagai indikator yang menunjukkan tingginya permasalahan DBD
di suatu wilayah. Data diperoleh dari Kementrian Kesehatan Republik
Indonesia. Sebelum dilakukan pengelompokan, data dinormalisasi terlebih
dahulu agar tidak ada parameter yang mendominasi dalam perhitungan
proses pengelompokan.Kemudian dilakukan deteksi pencilan pada data dan
ditemukan data pencilan yaitu provinsi Kalimantan Timur, Bali, dan
Maluku. Selanjutnya menentukan kelompok beserta anggota masing-
masing kelompok dengan algoritme k-medoids.
JKS
5. DAFTAR PUSTAKA
Barnett, V. dan T. Lewis (1994). Outliers in Statistical Data. New York: John
Wiley & Sons.
Flowrensia, Y. (2010). Perbandingan Penggerombolan K-Means dan K-
Medoids Pada Data Yang Mengandung Pencilan [Skripsi].Institut
Pertanian Bogor. Bogor.
Folzmiser, P. (2005). Identification of Multivariate Outliers: A Performance
Study. Australian Journal of Statistics, 34(2), 127-138.
Han, J., dan M. Kamber(2012). Data Mining: Concepts and Techniques. San
Francisco: Morgan Kaufmann Publisher.
Johnson, R.A., andD.W. Wichern(2002).Applied Multivariate Analysis 5th
Edition. New Jersey: Prentice Hall.
Kaufman L., and P.J. Rousseeuw. (1987). Clustering By Means of Medoids.
New York: John Wiley & Sons.
Kaufman L., and P.J. Rousseeuw.(1990). Finding Groups in Data. New York:
John Wiley & Sons.
Kokasih, V. (2016). Clustering Penggunaan Bandwith Menggunakan Metode
K-Means Algorithm pada Penerapan Single Sign On (SSO) Universitas
Sebelas Maret [Skripsi]. Universitas Sebelas Maret. Surakarta.
Madulatha, T.S. (2012).An Overview On Clustering Methods. IOSR Journal
of Engineering, II(4), 719-725.
Santoso, S. (2010). Statistik Multivariat. Jakarta: Elex Media Komputindo.
Struyf, A., M. Hubert, P.J. Rousseeuw. (1997). Integrating Robust Clustering
Techniques in S-PLUS. Journal of Computational Statistics and Data
Analysis,26(1),17-37.
Vendramin,L., R.J.G.B. Campello, and E.R. Hruschka.(2009). On the
Comparison of Relative Clustering Validity Criteria. Proceedings of the
SIAM International Conference on Data Mining, 3(4), 733-744.