Klustering Biaya Kesehatan Menggunakan Algoritma Kmeans

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 6

CLUSTERING BIAYA KESEHATAN

MENGGUNAKAN ALGORITMA K-
MEANS

Muchamad Zidane Zovanka


Teknik Informatika
Universitas Widyatama
Bandung, Indonesia
zidane.zovanka@widyatama.ac.id

Feri Sulianta
Teknik Informatika
Universitas Widyatama
Bandung, Indonesia
Feri.sulianta@widyatama.ac.id

Abstract---
Asuransi kesehatan merupakan mengelompokkan objek atau data ke dalam
asuransi dimana pihak penanggung menjamin kelompok-kelompok yang memiliki kesamaan
segala kemungkinan yang terjadi pada diri karakteristik tertentu. Tujuan utama dari
tertanggung terkait dengan masalah clustering adalah untuk mencari pola atau
kesehatanya sesuai dengan perjanjian yang struktur dalam data tanpa adanya label atau
telah di sepakati. pengawasan sebelumnya. Dalam clustering,
objek dalam kelompok yang sama akan
Suatu perusahaan yang bergerak memiliki kesamaan yang tinggi, sedangkan
dibidamg jasa asuransi jiwa perlu melakukan objek antar kelompok akan memiliki perbedaan
analisis calon nasabah asuransi. Agen asuransi yang signifikan.
perlu menganalisi calon nasabah. Tujuan dari
analisis ini adalah untuk menyelidiki berbagai Kata Kunci Asuransi, Kesehatan,
faktor yang berhubungan dengan kesehatan dan Clustering, Data mining
keterkaitannya untuk memprediksi biaya
pengobatan individu yang ditagihkan oleh
asuransi kesehatan secara akurat. Faktor-faktor I. PENDAHULUAN
ini mencakup aspek-aspek seperti usia, dan Biaya pengobatan yang terus meningkat
indeks massa tubuh (BMI). menyebabkan masyarakat kesulitan untuk
mendapatkan akses pelayanan kesehatan yang
Salah satu metode analisis ini dengan optimal. Setiap masyarakat memiliki
menggunakan metode clustering dengan pengobatan individu yang berbeda - beda.
algoritma k-means. Clustering adalah teknik
dalam analisis data yang digunakan untuk
Tujuan dari analisis ini adalah untuk berkorelasi dengan biaya asuransi yang lebih
menyelidiki berbagai faktor yang berhubungan tinggi.
dengan kesehatan dan keterkaitannya untuk
memprediksi biaya pengobatan individu yang BMI (Body Mass Index) : BMI adalah
ditagihkan oleh asuransi kesehatan secara ukuran yang mencoba mengukur massa
akurat. Faktor-faktor ini mencakup aspek-aspek jaringan seseorang. Ini digunakan secara luas
seperti usia, dan indeks massa tubuh (BMI). sebagai metode sederhana untuk menilai
apakah seseorang memiliki berat badan yang
II. HIPOTESIS sehat untuk tinggi badan tertentu. Nilai BMI
Tujuan dari analisis ini adalah untuk yang tinggi sering dikaitkan dengan risiko
menyelidiki berbagai faktor yang berhubungan penyakit kronis yang lebih tinggi seperti
dengan kesehatan dan keterkaitannya untuk penyakit jantung, diabetes, dan beberapa jenis
memprediksi biaya pengobatan individu yang kanker, yang dapat menyebabkan biaya
ditagihkan oleh asuransi kesehatan secara perawatan kesehatan yang lebih tinggi.
akurat. Faktor-faktor ini mencakup aspek-aspek
seperti Age, Gender, Body mass Index (BMI),
Charges : Ini adalah biaya medis
number of children, smoking status, dan region.
individu yang ditagihkan oleh asuransi
Pentingnya fitur-fitur tersebut diselidiki kesehatan. Ini adalah variabel dependen dalam
untuk menjelaskan pendorong utama biaya dataset ini, dan dipengaruhi oleh semua faktor
medis, dengan status merokok, BMI, dan usia lainnya. Memahami hubungan antara variabel
yang muncul sebagai faktor kunci. Wawasan independen (usia, jenis kelamin, bmi, anak-
yang berharga ini dapat menginformasikan anak, perokok, wilayah) dan biaya adalah
kebijakan kesehatan, penilaian risiko, dan tujuan utama dari analisis ini.
pengambilan keputusan individu seputar
perilaku kesehatan dan cakupan asuransi.

III. DATA PREPARATION


Data preparation adalah tahap penting
dalam melakukan analisis data. Pertama dataset
ini terdiri 7 attribut dan 1339 record atas data
biaya medis pribadi. Dataset ini saya dapatkan
dari kaggle.com. Data tersebut dibersihkan dan
kemudian diproses attributnya agar sesuai
dengan kebutuhan. Variabel inputan yang
digunakan dalam pengelompokkan biaya medis
probadi tersebut adalah BMI, Charges, dan Age. Gambar 3.1
Kemudian variable tersebut akan diolah untuk
menghasilkan output kelompok biaya medis
berdasarkan umur dan ukuran massa (BMI) dari
metode clustering.

[1] Age : Usia merupakan faktor


penting dalam asuransi kesehatan karena
individu yang lebih tua umumnya memiliki
risiko lebih tinggi terhadap masalah kesehatan
dibandingkan dengan individu yang lebih
muda. Oleh karena itu, usia sering kali
Gambar 3.2

Gambar 3.1 adalah bentuk visualisasi rata –


rata biaya medis berdasarakan umur dan
gambar 3.2 visualisasi rata – rata biaya medis
berdasarakan ukuran massa.

IV. PROSES MINING


Model yang dipilih adalah dengan
menggunakan Metoda Clustering. Secara
umum proses pengelompokan dengan Metode
Clustering menggunakan tahapan sebagai
berikut :

Mengumpulkan Data mentah


Data set: Medical Cost Personal
Variabel : Age, BMI, Charges

Proses pembersihan data, Gambar 4.2


memperbaiki format dan atibut
data set Gambar di atas ada kmeans flowchart. Dan
untuk Proses mining data saya menggunakan
miniconda 3.
Proses Pengolahan Data
menggunakan Clustering dengan
algoritma k-means

Hasil akhir: pengelompokkan


data biaya medis berdasarakan
umur dan ukuran massa

Gambar 4.1
Pada gambar diatas adalah Langkah Langkah
proses melakukan analisis data menggunakan
metode clustering. Untuk proses Gambar 4.1
pengelompokan data menggunakan proses
flowchart sebagai berikut : Pertama saya kelompokkan data kemudian
menetukan jumlah kluster yang optimal dengan
menggunakan metode elbow. Kemudian kta
gambar kurva seperti gambar diatas.

Metode Elbow adalah 3liste yang


digunakan untuk membantu menemukan
jumlah cluster yang optimal dalam K-means
clustering. Sumbu x menunjukkan jumlah
cluster (k), dan sumbu y menunjukkan inersia,
yang merupakan ukuran jarak total setiap titik Gambar 4.4
ke pusatnya.
Pada gambar 4.3 adalah gambar hasil
Dari gambar diatas Plot menunjukkan clutering dalam bentuk table. Dan gambar 4.4
penurunan inersia yang tajam saat jumlah adalah hasil clustering dalam bentuk diagram.
cluster meningkat dari 1 menjadi sekitar 4.
Setelah itu, penurunan inersia menjadi kurang Dengan melihat visualisasi pengelompokan
jelas. Titik di mana penurunan inersia mulai K-means Clustering, kita dapat melihat bahwa
mendatar, dikenal sebagai “elbow”, dan ini titik-titik data dikelompokkan ke dalam klaster-
menunjukkan bahwa jumlah cluster yang klaster yang berbeda. Setiap titik data mewakili
optimal adalah sekitar 4. penerima manfaat, dan warna dari titik tersebut
menunjukkan klaster tempat penerima manfaat
Ini berarti bahwa menambahkan lebih berada. Tanda silang hitam menunjukkan titik
banyak 4lister di luar 4 klaster tidak secara tengah klaster, yang pada dasarnya merupakan
signifikan meningkatkan kekompakan 4lister, nilai rata-rata penerima manfaat di setiap
dan bahkan dapat menyebabkan overfitting, di klaster. Tabel diatas memberikan nilai rata –
mana 4lister terlalu spesifik pada data pelatihan rata usia, bmi, dan biaya setiap klister.
dan tidak dapat digeneralisasi dengan baik ke
data baru. Cluster 0 : Penerima manfaat di klaster ini
memiliki usia rata-rata sekitar 51 tahun, BMI
Jadi, berdasarkan visualisasi Metode Elbow rata-rata sekitar 26,7, dan tagihan rata-rata
ini, tampaknya menggunakan 4 cluster adalah sekitar 13.932.
pilihan yang baik untuk clustering K-means
dari dataset ini. Cluster 1 : Klaster ini terdiri dari penerima
manfaat yang lebih muda dengan usia rata-rata
Cluster age bmi Charges sekitar 26 tahun, BMI rata-rata yang sedikit
0 50.61855 26.67757 13932.64 lebih tinggi yaitu sekitar 28,2, dan biaya rata-
7 7 5135 rata yang lebih rendah yaitu sekitar 6.147.

1 25.78439 28.15111 6147.102


Cluster 2: Penerima manfaat di klaster ini
4 9 451
memiliki usia rata-rata sekitar 40 tahun, BMI
2 40.06748 35.38760 40468.64 rata-rata yang lebih tinggi yaitu sekitar 35,4,
5 7 9817 dan biaya rata-rata yang jauh lebih tinggi yaitu
sekitar 40.469.
3 45.85953 37.35237 9225.051
2 5 176
Cluster 3: Klaster ini mencakup penerima
Gambar 4.3 manfaat dengan usia rata-rata sekitar 46 tahun,
rata-rata BMI tertinggi sekitar 37,4, dan biaya
rata-rata sekitar 9.225.

V. KESIMPULAN
Jadi, jika kita melihat hasil akhirnya pada
cluster 0 pada usia 51 tahun memiliki rata – rata
ukuran massa (BMI) 26,7 dan rata – rata biaya
medisnya sekitar 13.932. Pada cluster 1 rata –
rata usia 26 tahun dengan rata – rata ukuran
massa (BMI) yang sedikit lebih tinggi sekitar
28,2 dan biaya medisnya rata – rata lebih
rendah sekitar 6.147. Pada cluster 2 usia rata - media.neliti.com. Di akses pada tanggal 23 Juni
rata 40 tahun dengan ukuran massa (BMI) yang 2022.
lebih tinggi 35.4 dengan biaya medis rata – rata
yang jauh lebih tinggi 40.469. Dan yang [7] Defiyanti, Sofia dan Jajuli, Mohammad.
terakhir cluster 3 dengan usia rata – rata sekitar “Itegrasi Metode Klasifikasi Dan Clustering
46 tahun dengan rata – rata ukuran massa (BMI) dalam Data Mining” researchgate.net. Di akses
tertinggi sekitar 37,4 dan biaya medinya rata – pada tanggal 23 Juni 2022.
rata sekitar 9.225.
[8] Lukmanul Hakim, Muhammad.
Klaster-klaster ini dapat mewakili segmen “Pengelompokkan Data Transaksi Penjulan
penerima manfaat yang berbeda. Sebagai Menggunakan Algoritma Clustering K-means
contoh, Klaster 0 dapat mencakup penerima Pada Toko AN NUR”
manfaat yang lebih tua dengan BMI yang relatif http://repository.usm.ac.id. Di akses pada
rendah dan biaya yang sedang, sementara tanggal 23 Juni 2022.
Klaster 2 dapat terdiri dari penerima manfaat
berusia paruh baya dengan BMI yang tinggi dan [9] Iryani, Lemi. “Penerapan Datamining
biaya yang tinggi. Menentukan Minat Baca Mahasiswa Di
Perpustakaan Universitas Bina Darma
VI. REFERENCES Palembang Menggunakan Metode Clustering”
journal.ipm2kpe.or.id. Di akses pada tanggal 23
[1] Choi, Miri. “Medical Cost Personal Juni 2022.
Datasets” www. kaggle.com. Di akses pada
tanggal 09 Juni 2022. [10] Eryan Ahmad Firdaus, Shanti Maulani,
dan Asep Budi Dharmawan. “Pengukuran
[2] Pannmie. “MedCost: EDA|K-Cluster Minat Baca Mahasiswa Dengan Metode
Gradient Boost [Full]” www. kaggle.com. Di Clustering di Perpustakaan Akademi
akses pada tanggal 09 Juni 2022. Keperawatan RS.Dustira Cimahi
Menggunakan Data Mining”
[3] Lestari, Widhi. “Clustering Data Mahasiswa journal.uniku.ac.id. Di akses pada tanggal 23
Menggunakan Algoritma K-Means Untuk Juni 2022.
Menunjang Strategi Promosi”
media.neliti.com. Di akses pada tanggal 09 Juni [11] Rafi Muttaqin, Muhammad dan Defriani,
2022. Meriska. “Algoritma K-Means untuk
Pengelompokan Topik Skripsi
[4] Salsabila, Najia. “Kasifikasi Barang Mahasiswa” https://scholar.archive.org. Di
Menggunakan Metode Clustering K-means akses pada tanggal 23 Juni 2022.
Dalam Penentuan Prediksi Stok Barang”
etheses.uin-malang.ac.id. Di akses pada tanggal [12] Rendy Novianto, Rendy
19 Juni 2022. Novianto and Leonard Goeirmanto, Leonard
Goeirmanto. “Penerapan Data Mining
menggunakan Algoritma K-Means Clustering
[5] Aji Sasmito, Prakoso. “Laporan Data
untuk Menganalisa Bisnis Perusahaan Asuransi.”
Mining Metode Klustering Menggunakan
https://eprints.triatmamulya.ac.id/1764/. Di akses
Algoritma K-means” www.studocu.com. Di
pada tanggal 25 Juni 2022.
akses pada tanggal 19 Juni 2022.
[13] Wahyu Pramusinto, dan William Budi
[6] Aqirati, Anisa. “Penerapan Data Mining
Utama Gunawan. “Implementasi Algoritma
Menggunakan Metode K-means Clustering
Apriori untuk Aplikasi Data Mining Informasi
Untuk Klasterisasi Pola Penjualan Pestisida”
Manfaat Asuransi Jiwa”
https://www.neliti.com. Di akses pada tanggal
25 Juni 2022.

[14] Isma Dewi, Syaripuddin Syaripuddin,


Memi Nor Hayati "Pengelompokan Data
Kategorik Dengan Algoritma Robust
Clustering Using Links"
http://jurnal.fmipa.unmul.ac.id. Di akses pada
tanggal 26 Juni 2022.

[15] Nasution, Akmal “Analisa Tingkat


Kesadaran Masyarakat Pengguna Asuransi Jiwa
dengan Metode Clustering”
www.researchgate.net. Di akses pada tanggal
26 Juni 2022.

You might also like