Flora Lumbanbatu - 201431120

SEKOLAH TINGGI TEKNIK – PLN
Implementasi dan Analisis Hasil Data Mining menggunakan

Algoritma K-Means untuk Pengklasteran Tingkat Kemiskinan di
Indonesia
SKRIPSI
DISUSUN OLEH :
FLORA LUMBANBATU
NIM : 2014-31-120
PROGRAM PENDIDIKAN SARJANA STRATA SATU

TEKNIK INFORMATIKA
JAKARTA
1
BAB I
PENDAHULUAN
1.1 Latar Belakang

Kemiskinan menjadi masalah yang penting saat ini di Indonesia,
sehingga menjadi suatu fokus perhatian bagi pemerintah Indonesia. Masalah
kemiskinan ini sangatlah kompleks dan bersifat multidimensional, dimana
berkaitan dengan aspek sosial, ekonomi, budaya, dan aspek lainnya.
Kemiskinan terus menjadi masalah fenomenal di belahan dunia, khususnya
Indonesia yang merupakan Negara berkembang. Kemiskinan telah membuat
jutaan anak tidak bisa mengenyam pendidikan, kesulitan membiayai
kesehatan, kurangnya tabungan dan investasi, dan masalah lain yang
menjurus ke arah tindakan kekerasan dan kejahatan.
Kemiskinan yang terjadi di Indonesia memang perlu dilihat sebagai

suatu masalah yang sangat serius karena tingkat kemiskinan dari tahun ke
tahun semakin meningkat. Peningkatan kemiskinan bisa terlihat dengan
semakin meningkatnya indeks keparahanan kemiskinan . Kenaikan indeks bisa
saja disebabkan oleh banyak hal diantaranya kesenjangan antar penduduk
miskin dan semakin rendahnya daya beli masyarakat. Pertumbuhan jumlah
penduduk dan dampak goncangan ekonomi global, melemahnya beberapa
harga komoditas unggulan dan pemutusan hubungan kerja mempengaruhi
perekenomian masyarakat Indonesia. Hal ini mengakibaatkan pengaruh
besar terhadap pendapatan per kapita penduduk dan bertambahnya jumlah
penduduk miskin. Tingkat kemiskinan mengalami peningkatan hal itu
ditunjukkan oleh data dari BPS (Badan Pusat Statistik) dari tahun ke tahun .
Pemerintah tentunya dalam hal ini segera dan sedini mungkin harus
mengeluarkan tindakan, program dan kebijakan untuk meminimalisir agar
indeks keparahan kemiskinan serta pertumbuhan jumlah penduduk miskin
tidak mengalami kenaikan yang tinggi. Agar program berjalan dengan baik,
cepat dan merata maka azas prioritas lebih ditekankan. Pemerintah mestinya
mempunyai gambaran provinsi mana yang perlu penanganan cepat dan serius.
2
Sehingga nilai tepat guna untuk kebijakan, program dan strategi yang dibuat
bisa terimplemetasikan dengan baik.
Untuk mengatasi masalah tersebut maka perlu adanya pengklasteran

tingkat kemiskinan di Indonesia dengan menentukan provinsi mana yang
mengalami tingkat kemiskinan paling tinggi sehingga bisa menjadi prioritas dari
pemerintah provinsi, mana provinsi yang termasuk pada cluster provinsi normal
dan provinsi yang termasuk tingkat kemiskinannya tinggi atau rendah. Metode
cluster yang digunakan adalah clustering k-means. K-Means adalah suatu
metode penganalisaan data atau metode Data Mining yang melakukan proses
pemodelan tanpa supervisi (unsupervised) dan merupakan salah satu metode
yang melakukan pengelompokan data dengan sistem partisi. Metode k-means
berusaha mengelompokkan data yang ada ke dalam beberapa kelompok,
dimana data dalam satu kelompok mempunyai karakteristik yang sama satu
sama lainnya dan mempunyai karakteristik yang berbeda dengan data yang
ada di dalam kelompok yang lain. Dengan kata lain, metode ini berusaha untuk
meminimalkan variasi antar data yang ada di dalam suatu cluster dan
memaksimalkan variasi dengan data yang ada di cluster lainnya. Metode ini
merupakan bagian dari teknik clustering data mining. Metode ini juga
merupakan bagian dari model deskriptif yang menggambarkan pola dari
sebuah nilai. Data yang diolah adalah data kemiskinan 34 provinsi yang
tersebar di Indonesia pada tahun 2007-2017 yang berasal dari Badan Pusat
Statistik dengan menitihberatkan pada data Kemiskinan dan Ketimpangan.
Dengan Variabel yang digunakan sebanyak 3 variabel dengan rincian Data
pesentase kemiskinan(x1) dan garis kemiskinan(x2) serta jumlah penduduk
miskin (x3) untuk menentukan cluster provinsi dengan tingkat kemiskinan tinggi
(c3) dan cluster dengan provinsi dengan tingkat kemiskinan normal(c2) serta
provinsi dengan tingkat kemiskinan rendah (c1).
1.2 Permasalahan Penelitian

1.2.1 Identifikasi Masalah
Berdasarkan pada uraian-uraian pada latar belakang masalah, maka
identifikasi permasalahan yang muncul antara lain :
1. Perlunya pengembangan dari aplikasi yang telah ada sebelumnya untuk
3
mengoptimalkan manfaat dari aplikasi tersebut. Salah satu pengembangan
yang dibuat oleh penulis yaitu dengan pengklasteran data kemisikinan
dalam bentuk angka.
2. Data yang ditampilkan dalam aplikasi hanya membahas tengtang data
kemiskinan setiap provinsi yang ada di Indonesia dan melihat data
kemisikinan yang paling tinggi, normal dan rendah dalam bentuk angka.
3. Data yang diolah menggunakan data 34 provinsi di Indonesia dimana data
yang diambil berasal dari data Sosial dan Kependudukan dengan
menitihberatkan pada data kemiskinan yang ada pada Badan Pusat
Statistik.
1.2.2 Batasan Masalah

Penulisan skripsi ini hanya membatasi beberapa permasalahan, yaitu :
1. Pengelompokan/clustering data kemiskinan 34 provinsi yang ada di

Indonesia dengan menggunakan metode K-Means.
2. Menggunakan aplikasi Rapid Miner untuk membuat pengklasteran data
kemiskinan pada 34 provinsi di Indonesia.
3. Hasil analisis berupa pola cluster kemiskinan pada 33 provinsi.
4. Aplikasi akan dikembangkan dengan aplikasi berbasis web.
1.2.3 Rumusan Masalah

1. Bagaimana melakukan clustering data kemiskinan pada 34 provisi di
Indonesia menggunakan metode K-Means?
2. Bagaimana hasil model sebaran data setelah proses clustering dilakukan?
1.3 Tujuan dan Manfaat Penelitian

1.3.1 Tujuan Penelitian
Mengelompokkan provinsi-provinsi tertinggal yang ada di Indonesia
dengan menggunakan algoritma hierarchical k-means sehingga dapat
membantu pemerintah untuk memberi kebijakan untuk menanggulangi
masalah kemiskinan di provinsi tersebut.
1.3.2 Manfaat Penelitian
Sesuai dengan permasalahan dan tujuan penelitian yang telah disebutkan
4
diatas, maka manfaat penelitian dapat dirumuskan sebagai berikut :
a) Meningkatkan pengetahuan dan kemampuan mahasiswa dalam
memahami Metode K-Means.
b) Membantu pengambilan keputusan oleh pemerintah terkait masalah
kemiskinan dalam suatu provinsi.
c) Pengguna (User) dapat melihat data kemiskinan di Indonesia yang lebih
rinci dan ringkas karena hasilnya berupa angka beserta nama
provinsinya dan mengetahui provinsi mana-mana saja yang mengalami
kemiskinan yang tinggi,normal dan rendah.
d) Memberikan informasi kepada pengguna untuk menghadapi
kemiskinan yang merupakan tantangan global dunia ketiga .
e) Menumbuhkan kesadaran bagi pembaca yang mampu dalam hal materi
agar ikut berperan serta untuk mengentaskan kemiskinan di Indonesia.
1.4 Sistematika Penulisan

Sistematika penulisan dimaksudkan untuk memberikan gambaran yang
lebih jelas mengenai isi dalam penulisan skripsi ini. Tata cara dan penulisan
yang digunakan pada skripsi ini disusun sebagai berikut :
BAB I PENDAHULUAN
Bab ini menerangkan tentang latar belakang masalah, serta
memberikan batasan yang jelas, menentukan rumusan masalah,
mengemukakan tujuan yang ingin dicapai dan manfaat yang didapat, serta
memaparkan sistematika penulisan.
BAB II LANDASAN TEORI

Bab kedua ini membahas tentang teori-teori yang berasal dari literatur-
literatur yang mendukung penyusunan skripsi inidengan menggunakan acuan
atau referensi dari berbagai sumber atau media, seperti buku-buku, internet,
dan lain sebagainya.
BAB III METODE PENELITIAN

Bab ini menjelaskan tentangkerangka pemikiran yang di gambarkan
melalui alur diagram, serta merupakan seluruh langkah kegiatan penelitian, alat
5
dan bahan yang digunakan serta menguraikan dan menjelaskan segala
sesuatu tentang proses perancangan dan langkah-langkah pembuatan sistem
secara detail terkait dengan masalahnya serta implementasinya.
BAB IV HASIL DAN PEMBAHASAN

Bab ini menjelaskan bagaimana hasil akhir dari semua tahap penelitian
termasuk hasil pengujian terhadap perancangan yang dilakukan dan
implementasi sistem dengan menampilkan hasil implementasi.
BAB V PENUTUP
Bab ini menjelaskan kesimpulan yang diperoleh dari hasil
pengembangan sistem yang telah dilakukan. Selain itu, diberikan pula saran
yang bersifat konstruktif guna meningkatkan kinerja sistem di masa
mendatang.
6
BAB II
LANDASAN TEORI
2.1 Tinjauan Pustaka

Salah satu cara untuk mengetahui tingkat kemiskinan di setiap provinsi
Indonesia adalah dengan menerapkan metode clustering dengan algoritma K-
Means untuk penelitian tersebut. Berdasarkan beberapa kajian penulis
terhadap penelitian terdahulu yang membahas mengenai tingkat kemiskinan di
masing-masing provivinsi di Indonesia sejauh pemahaman penulis belum
pernah diteliti. Namun, pada penelitian sebelumnya yang dilakukan oleh
seorang mahasiswa dari Universitas Diponegoro, jurusan Statistika yang
bernama Fitra Ramdhani, dengan judul penelitiannya adalah
“Pengelompokan Provinsi di Indonesia berdasarkan Karakteristik
Kesejahteraan Rakyat menggunakan Metode K-Means Cluster”.Dimana
peneliti mengambil studi kasus yang sama yakni membahas provinsi yang ada
di Indonesia namun tolak ukur yang dibuat oleh peneliti mengenai tingkat
kesejahteraan tiap provinsi di Indonesia. Dalam penelitian tersebut
menjelaskan metode clustering dengan algoritma K-Means yang
diimplementasikan pada pengelompokan Data Sosial dan Kependudukan yang
bersumber dari Badan Pusat Statistik. Data sosial dan kependudukan dibuat
kedalam bentuk gambaran yang lebih ringkas terhadap perubahan data-data
tersebut, sehingga memudahkan user untuk melihat tingkat kesejahteraan 33
provinsi di Indonesia.Pengolahan data yang dilakukan peneliti pada studi kasus
tersebut mempunyai tujuan untuk mengelompokkan data-data yang di dapat
pada Badan Pusat Statistik ke dalam cluster-cluster/kelas untuk mencari
kelompok masing-masing. Adapun data-data yang digunakan untuk
pengclusteran meliputi data :
1. Angka Partisipasi Murni SD atau MI (APM SD atau MI) Proporsi anak sekolah
pada usia 7-12 tahun yang masih bersekolah pada jenjang SD (negeri dan
swasta), MI, dan sederajat terhadap seluruh anak pada kelompok usia yang
sama. Dinyatakan dalam satuan persen.
2. Angka Partisipasi Murni SMP atau MTs (APM SMP atau MTs) Proporsi anak
sekolah pada usia 13-15 tahun yang masih bersekolah pada jenjang SMP
(negeri dan swasta), MTs, dan sederajat terhadap seluruh anak pada
7
kelompok usia yang sama. Dinyatakan dalam satuan persen.
3. Angka Kematian Bayi (AKB)
Angka kematian bayi adalah angka yang menunjukkan banyaknya kematian
bayi berusia nol tahun dari setiap 1.000 kelahiran hidup pada tahun tertentu.
Dinyatakan dengan per seribu kelahiran hidup.
4. Akses Air Bersih Air minum yang bersih adalah air minum yang terlindungi,
meliputi air ledeng (keran), penampungan air hujan (PAH) atau mata air dan
sumur terlindung, sumur bor atau sumur pompa, yang jaraknya minimal 10
m dari pembuangan kotoran, penampungan limbah dan sampah. Dinyatakan
dalam satuan persen.
5. Akses Listrik Listrik yang dipakai termasuk listrik yang bersumber dari PLN
maupun non-PLN (dikelola oleh instansi atau pihak lain selain PLN.
Dinyatakan dalam satuan persen.
6.Tingkat Pengangguran Terbuka (TPT) TPT diperoleh persentase jumlah
pengangguran terhadap jumlah angkatan kerja. Dinyatakan dalam satuan
persen.
Penelitian lain yang berhubungan dengan metode Clustering
menggunakan algoritma K-Means yang berhubungan dengan penelitian yang
akan dilakukan adalah sebagai berikut :
1. Dessy Purnama Sari dkk. (2014) dengan judul ”Analisis cluster
menggunakan algoritma K-Means untuk mengelompokan siswa kelas IV
sekolah dasar Brawijaya smart school Malang”. Analisis cluster merupakan
metode pengelompokan multivariat dengan tujuan utama yaitu
mengelompokan objek atau subjek berdasarkan kemiripan karakteristik
yang dimiliki. Analisis cluster memiliki homogenitas (kesamaan) yang tinggi
antar anggota dalam satu kelompok (within cluster) dan heterogenitas
(perbedaan) yang tinggi antar kelompok satu dengan kelompok lain
(between cluster) (Hair dkk., 2010). Metode analisis cluster menggunakan
algoritma K-Means adalah: menentukan jumlah kelompok yang akan
dibentuk sebanyak 2 kelompok, menentukan titik pusat awal kelompok,
menghitung jarak setiap objek pada setiap pusat kelompok dengan
menggunakan jarak Mahalanobis, mengelompokan objek berdasarkan
jarak terdekat dengan pusat kelompok, menentukan pusat kelompok baru
dengan menghitung rata-rata pada setiap kelompok, menghitung kembali
8
jarak setiap objek pada pusat kelompok dan mengelompokannya hingga
tidak ada objek yang berpindah dari kelompok.
2. Jurnal Ilmiah Teknologi Informasi Terapan Volume I, No 2, 30 April 2015
“Implementasi Algoritma K-Means dalam Pengklasteran Mahasiswa
Pelamar Beasiswa” oleh Nurul Rohmawati W, Sofi Defiyanti, Mohamad
Jajuli.
2.2 Landasan Teori

2.2.1 Data Mining
Data mining adalah proses yang menggunakan teknik statistik,matematika,
kecerdasan buatan, dan machine learning untuk mengekstraksi dan
mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari
berbagai database besar. Istilah data mining memiliki hakikat sebagai disiplin ilmu
yang tujuan utamanya adalah hak untuk menemukan,menggali,atau menambang
pengetahuan dari data atau informasi yang kita miliki. Data mining, sering juga
disebut sebagai Knowledge Discovery in Database (KDD). KDD adalah kegiatan
yang meliputi pengumpulan, pemakaian data, historis untuk menemukan
keteraturan , pola atau hubungan dalam set data berukuran besar . Menurut
Fayyad dalam buku (Kusrini, 2009) Istilah data mining dan knowledge discovery
in database (KDD) sering kali digunakan secara bergantian untuk menjelaskan
proses penggalian informasi tersembunyi dalam suatu basis data yang besar.
Sebenarnya kedua istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan
satu sama lain. Dan salah satu tahapan dalam keseluruhan proses KDD adalah
data mining. Proses KDD secara garis besar dapat dijelaskan sebagai berikut:
(Narwati, 2010)
1. Data selection
Pemilihan (seleksi) data dari sekumpulan data operasional perlu
dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data dari
hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam
suatu berkas, terpisah dari basis data operasional.
2. Pre-processing/Cleaning
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses
cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup
antara lain membuang duplikasi data, memeriksa data yang inkosisten, dan
9
memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). juga
dilakukan proses enrichement, yaitu proses “memperkaya” data yang sudah
ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD,
seperti data atau informasi eksternal.
3. Transformation
Coding adalah transformasi pada data yang telah dipilih, sehingga data
tersebut sesuai untuk proses data mining. Proses coding dalam KDD
merupakan proses kreatif dan sangat bergantung pada jenis atau pola
informasi yang akan dicari dalam basis data.
4. Data mining
Data mining adalah proses mencari pola atau informasi menarik dalam
data terpilih dengan menggunakan teknik atau metode tertentu. Teknik,
metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode
atau 12 algoritma yang tepat sangat bergantung pada tujuan dan proses KDD
secara keseluruhan.
5. Interpretation/Evalution
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan
dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap
ini merupakan bagian dari proses KDD yang disebut interpretation. Tahap ini
mencakup pemeriksaan apakah pola atau informasi yang ditemukan
bertentangan dengan fakta atau hipotesis yang ada sebelumnya.
Gambar 2.2 Proses KDD
10
Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat
dilakukan, yaitu (Larose, 2005) :
1. Deskripsi (Description) Terkadang penelitian analisis secara sederhana ingin
mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang
terdapat dalam data. Sebagai contoh, petugas pengumpulan suara mungkin
tidak dapat menemukan keterangan atau fakta bahwa siapa yang tidak cukup
profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi dari pola
dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu
pola atau kecenderungan.
2. Estimasi (Estimation) Universitas Sumatera Utara Estimasi hampir sama dengan

klasifikasi, kecuali variabel target estimasi lebih ke arah numerik daripada ke
arah kategori. Model dibangun menggunakan record lengkap yang menyediakan
nilai dari variabel target sebagai nilai prediksi. Selanjutnya, pada peninjauan
berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel
prediksi. Sebagai contoh, akan dilakukan estimasi tekanan darah sistolik pada
pasien rumah sakit berdasarkan umur pasien, jenis kelamin, indeks berat badan,
dan level sodium darah. Hubungan antara tekanan darah sistolik dan nilai
variabel prediksi dalam proses pembelajaran akan menghasilan model estimasi.
Model estimasi yang dihasilkan dapat digunakan untuk kasus baru lainnya
3. Prediksi (Prediction) Prediksi hampir sama dengan klasifikasi dan estimasi,

kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa datang. Contoh
prediksi dalam bisnis dan penelitian adalah :  Prediksi harga beras dalam tiga
bulan yang akan datang  Prediksi persentase kenaikan kecelakaan lalu lintas
tahun depan jika batas bawah kecepatan dinaikkan. Beberapa metode dan
teknik yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan
(untuk keadaan yang tepat) untuk prediksi
4. Klasifikasi (Classification) Dalam klasifikasi, terdapat target variabel kategori.

Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga
kategori, yaitu pendapatan tinggi, pendapatan sedang dan pendapatan rendah.
Universitas Sumatera Utara Contoh lain klasifikasi dalam bisnis dan penelitian
11
adalah :  Menentukan apakah suatu transaksi kartu kredit merupakan transaksi
yang curang atau bukan  Memperkirakan apakah suatu pengajuan hipotek oleh
nasabah merupakan suatu kredit yang baik atau buruk  Mendiagnosis penyakit
seorang pasien untuk mendapatkan kategori penyakit apa.
5. Pengklusteran (Clustering) Pengklusteran merupakan pengelompokkan record,

pengamatan atau memperhatikan dan membentuk kelas objek-objek yang
memiliki kemiripan. Cluster adalah kumpulan record yang memiliki kemiripan satu
dengan yang lainnya dan memiliki ketidakmiripan dengan record-record dalam
cluster lain. Pengklusteran berbeda dengan klasifikasi yaitu tidak adanya variabel
target dalam pengklusteran. Pengklusteran tidak mencoba untuk melakukan
klasifikasi, mengestimasi, atau memprediksi nilai dari variabel target. Akan tetapi,
algoritma pengklusteran mencoba untuk melakukan pembagian terhadap
keseluruhan data menjadi kelompok-kelompok yang memiliki kemiripan
(homogen), yang mana kemiripan record dalam satu kelompok akan bernilai
maksimal, sedangkan kemiripan dengan record dalam kelompok lain akan bernilai
minimal. Contoh pengklusteran dalam bisnis dan penelitian adalah :  Melakukan
pengklusteran terhadap ekspresi dari gen, untuk mendapatkan kemiripan perilaku
dari gen dalam jumlah besar. Universitas Sumatera Utara  Mendapatkan
kelompok-kelompok konsumen untuk target pemasaran dari suatu produk bagi
perusahaan yang tidak memiliki dana pemasaran yang besar.  Untuk tujuan
audit akuntansi, yaitu melakukan pemisahan terhadap perilaku finansial dalam
keadaan baik atau mencurigakan.
6. Asosiasi (Assosiation) Tugas asosiasi dalam data mining adalah menemukan

atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut
analisis keranjang belanja Contoh asosiasi dalam bisnis dan penelitian adalah : 
Menemukan barang dalam supermarket yang dibeli secara bersamaan dan
barang yang tidak pernah dibeli secara bersamaan.  Meneliti jumlah pelanggan
dari perusahaan telekomunikasi seluler yang diharapkan untuk memberikan
respons posistif terhadap penawaran upgrade layanan yang diberikan.
12
2.2.2 Clustering
Clustering atau analisis cluster adalah proses pengelompokan satu set
benda- benda fisik atau abstrak ke dalam kelas objek yang sama” (Han, 2006).
Baskoro (2010) menyatakan bahwa : Clustering atau clusterisasi adalah salah
satu alat bantu pada data mining yang bertujuan mengelompokkan obyek-obyek
ke dalam cluster-cluster. Cluster adalah sekelompok atau sekumpulan obyek-
obyek data yang similar satu sama lain dalam cluster yang sama dan dissimilar
terhadap obyek-obyek yang berbeda cluster. Obyek akan dikelompokkan ke
dalam satu atau lebih cluster sehingga obyek-obyek yang berada dalam satu
cluster akan mempunyai kesamaan yang tinggi antara satu dengan lainnya.
Obyek-obyek dikelompokkan berdasarkan prinsip memaksimalkan kesamaan
obyek pada cluster yang sama dan memaksimalkan ketidaksamaan pada cluster
yang berbeda. Kesamaan obyek biasanya diperoleh dari nilai-nilai atribut yang
menjelaskan obyek data, sedangkan obyek-obyek data biasanya
direpresentasikan sebagai sebuah titik dalam ruang multidimensi. Dengan
menggunakan clusterisasi, kita dapat mengidentifikasi daerah yang mengalami
kemiskinan, menemukan pola-pola distribusi secara keseluruhan, dan
menemukan keterkaitan yang menarik antara atribut-atribut data. Dalam data
mining, usaha difokuskan pada metode-metode penemuan untuk cluster pada
basis data berukuran besar secara efektif dan efisien. Beberapa kebutuhan
clusterisasi dalam data mining meliputi skalabilitas, kemampuan untuk menangani
tipe atribut yang berbeda, mampu menangani dimensionalitas yang tinggi,
menangani data yang mempunyai noise, dan dapat diterjemahkan dengan
mudah.
2.2.2.1 Metode Clustering

Secara garis besar, terdapat beberapa metode clusterisasi data.
Pemilihan metode clusterisasi bergantung pada tipe data dan tujuan
clusterisasi itu sendiri. II-2 Metode - metode beserta algoritma yang
termasuk didalamnya meliputi (Baskoro, 2010): a. Partitioning Method
Membangun berbagai partisi dan kemudian mengevaluasi partisi
tersebut dengan beberapa kriteria, yang termasuk metode ini meliputi
algoritma K-Means, K-Medoid, proclus, Clara dan PAM. b. Hierarchical
13
Methods Membuat suatu penguraian secara hierarkikal dari himpunan
data dengan menggunakan beberapa kriteria. Metode ini terdiri atas dua
macam, yaitu Agglomerative yang menggunakan strategi bottom-up dan
Disisive yang menggunakan strategi top-down. Metode ini meliputi
algoritma Birch, Cure, dan Chameleon. c. Density-based Methods
Metode ini berdasarkan konektivitas dan fungsi densitas. Metode ini
meliputi algoritma Dbscan, Optic, dan Denclu. d. Grid-based Methods
Metode ini berdasarkan suatu struktur granularitas multi-level. Metode
clusterisasi ini meliputi algoritma Sting, WaveCluster, dan Clique. e.
Model-based Methods Suatu model dihipotesakan untuk masing-masing
cluster dan ide untuk mencari best fit dari model tersebut untuk masing-
masing yang lain. Metode clusterisasi ini meliputi pendekatan statitik,
yaitu algoritma COBWEB dan jaringan syaraf tiruan, yaitu SOM.
2.2.2.2 Klasifikasi Algoritma Clustering

“Algoritma clustering secara luas diklasifikasikan menjadi dua
algoritma, yaitu hierarchical clustering dan non-hierarchical clustering”
(Henjaya, 2010). Han and Kamber (2006) menyatakan bahwa
hierarchical clustering adalah sebuah metode hierarkis yang
menciptakan komposisi hierarkis yang diterapkan pada objek data,
sehingga akan menghasilkan cluster-cluster yang bersarang. Algoritma
hierarchical clustering mengatur seluruh objek dalam sebuah pohon
untuk melihat hubungan antara setiap objek (Henjaya, 2010). Contoh
algoritma II-3 hierarchical clustering adalah HAC (Hierarchical
Agglomerative Clustering) (Karhendana, 2008). Non-hierarchical
clustering pada umumnya disebut algoritma partitional clustering,
memberikan sejumlah n objek dan k yang merupakan jumlah dari cluster
yang terbentuk. Algoritma partitional clustering mengolah objek ke dalam
kelompok berdasarkan kriteria optimasi tertentu, dimana setiap
kelompok merupakan representasi sebuah cluster. Han and Kamber
(2006) menyatakan bahwa contoh algoritma partitional clustering antara
lain Fuzzy C Means.
14
2.2.3 K-Means
Algoritma K-means merupakan salah satu algoritma dengan
partitional, karena K-Means didasarkan pada penentuan jumlah awal
kelompok dengan mendefinisikan nilai centroid awalnya (Madhulatha,
2012). Algoritma K -means menggunakan proses secara berulang-ulang
untuk mendapatkan basis data cluster. Dibutuhkan jumlah cluster awal
yang diinginkan sebagai masukan dan menghasilkan titik centroid akhir
sebagai output. Metode K-means akan memilih pola k sebagai titik awal
centroid secara acak atau random. Jumlah iterasi untuk mencapai
cluster centroid akan dipengaruhi oleh calon cluster centroid awal
secara random. Sehingga didapat cara dalam pengembangan algoritma
dengan menentukan centroid cluster yang dilihat dari kepadatan data
awal yang tinggi agar mendapatkan kinerja yang lebih tinggi (HUNG et
al., 2005, Saranya & Punithavalli, 2011, Eltibi & Ashour, 2011). Dalam
penyelesaiannya, algoritma K-Means akan menghasilkan titik centroid
yang dijadikan tujuan dari algoritma K-Means. Setelah iterasi KMeans
berhenti , setiap objek dalam dataset menjadi anggota dari suatu cluster.
Nilai cluster ditentukan dengan mencari seluruh objek untuk
menemukan cluster dengan jarak terdekat ke objek . Algoritma K -means
akan mengelompokan item data dalam suatu dataset ke suatu cluster
berdasarkan jarak terdekat (Bangoria et al., 2013). Nilai centroid awal
yang dipilih secara acak yang menjadi titik pusat awal, akan dihitung
jarak dengan semua data menggunakan rumus Euclidean Distance.
Data yang memiliki jarak pendek terhadap centroid akan membuat
sebuah cluster. Proses ini berkelanjutan sampai tidak terjadi perubahan
pada setiap 15 kelompok (Agrawal & Gupta, 2013, Chaturved & Rajavat,
2013, Bhatia & Khurana, 2013).
2.2.3.1 Keuntungan Algoritma K-Means

Algoritma K-Means juga memiliki keuntungan yaitu :
1. Dalam implementasi menyelesaikan masalah, algoritma K-
Means sangat simple serta fleksibel. Artinya perhitungan
komputasinya tidak terlalu rumit dan algoritma ini dapat
diimplementasikan pada segala bidang.
15
2. Algoritma K-Means sangat mudah untuk dipahami, terutama
dalam implementasi data yang sangat besar serta dapat
mengurangi kompleksitas data yang dimiliki (Bangoria et al.,
2013)
2.2.3.2 Kelemahan Algoritma K-Means

Kelemahan yang dimiliki oleh algoritma K-Means yaitu:
1. Di Algoritma K-Means user memerlukan angka yang tepat
dalam menentukan jumlah cluster sebanyak k karena
terkadang pusat cluster awal dapat berubah sehingga kejadian
ini bisa mengakibatkan pengelompokan data menjadi tidak
stabil (Joshi & Nalwade, 2013).
2. Algoritma K-Means tidak bisa maksimal dalam menentukan
atau menginisialkan nilai centroid awalnya, karena pada
pengelompokan data dengan algoritma K-Means sangat
bergantung pada nilai centroidnya (Ahmed & Ashour, 2011).
3. Output dari K-Means tergantung pada nilai – nilai pusat yang
dipilih pada clustering. Sehingga pada algoritma ini nilai awal
titik pusat cluster menjadi dasar dalam penentuan cluster.
Pemilihan centroid cluster awal secara acak akan memberikan
pengaruh terhadap kinerja cluster tersebut (Singh & Kaur,
2013; Sujatha & Sona, 2013).
2.2.2.3 Cara mengatasi kelemahan pada Algoritma K-Means

Beberapa penelitian dilakukan untuk mengatasi kelemahan yang
ada pada Algoritma K-Means yaitu:
1. Kaur et al., (2013) mengusulkan perbaikan pada algoritma K-
Means klasik untuk menghasilkan cluster yang lebih akurat.
Algoritma yang diusulkan terdiri dari metode berdasarkan
pemisahan data, untuk menemukan centroid awal sesuai
dengan distribusi data. Hasil penelitian ini menunjukkan bahwa
algoritma yang diusulkan menghasilkan cluster yang lebih baik
dalam waktu perhitungan yang singkat.
16
2. Kodinariya & Makwana, (2013) mengusulkan beberapa cara
untuk menentukan nilai k sebagai jumlah cluster yang dibentuk
secara dinamis, salah satunya adalah dengan cara metode
elbow. Penelitian ini menyatakan bahwa metode elbow akan
menentukan jumlah cluster yang sebenarnya pada satu data
set. Nilai k akan terus meningkat pada setiap langkahnya dan
suatu saat nilai k akan mengalami penurunan dengan nilai
yang besar, saat seperti itulah akan terbentuk siku dari semua
nilai k yang didapat dan siku tersebut menjadi nilai k yang
diinginkan
2.2.2.4 Algoritma K-Means

Berikut ini langkah-langkah yang terdapat pada algoritma K-
Means (Ediyanto et al., 2013)
1. Tentukan k sebagai jumlah cluster yang dibentuk Untuk
menentukan banyaknya cluster k dilakukan dengan beberapa
pertimbangan seperti pertimbangan teoritis dan konseptual
yang mungkin diusulkan untuk menentukan berapa banyak
cluster. Penelitian ini akan menggunakan metode elbow
criterion dimana metode ini sangat praktis untuk memilih
jumlah cluster k yang akan digunakan untuk pengelompokan
data pada algoritma K-Means. (Madhulatha, 2012). Metode
elbow ini, dapat dihasilkan dari perbandingan hasil SSE (Sum
of Squared Erorr) dengan rumus SSE seperti dibawah ini
(Irwanto, et. al, 2012):
𝑆𝑆𝐸 = ∑ ∑ ‖𝑋𝑖 − 𝐶𝑘‖2

𝑘=1 𝑋𝑖 ∈𝑆𝑘
Dimana Xi menyatakan norma euclid (L2) dan Ck adalah pusat

kluster ,Sk yang dihitung berdasarkan rata-rata jarak titik-titik
kluster ke pusat kluster.
17
2. Tentukan k centroid (titik pusat cluster) awal secara random
.Penentuan centroid awal dilakukan secara random/acak dari
objek-objek yang tersedia sebanyak k cluster, kemudian untuk
menghitung centroid cluster ke-i berikutnya, digunakan rumus
sebagai berikut :
∑𝑛
𝑖=1 𝑋𝑖
𝑣= 𝑖 = 1,2,3 … … … 𝑛
𝑛
Dimana;
v : centroid pada cluster
Xi : objek ke-i
n:banyaknya objek/jumlah objek yang
menjadi anggota cluster
3. Hitung jarak setiap objek ke masing-masing centroid dari

masingmasing cluster. Untuk menghitung jarak antara objek
dengan centroid dapat menggunakan Euclidian Distance
𝑑(, 𝑦) = ‖𝑥 − 𝑦‖√∑(𝑋𝑖 − 𝑌𝑖)2 ; 𝑖 = 1,2,3 … … . , 𝑛

𝑖=1
Dimana;
Xi : objek x ke-i
Yi: daya y ke-i
n : banyaknya objek
4. Alokasikan masing-masing objek ke dalam centroid yang

paling dekat. Untuk melakukan pengalokasian objek
kedalam masing-masing cluster pada saat iterasi secara
umum dapat dilakukan dengan cara hard kmeans dimana
secara tegas setiap objek dinyatakan sebagai anggota
cluster dengan mengukur jarak kedekatan sifatnya terhadap
18
titik pusat cluster tersebut.
5. Lakukan iterasi, kemudian tentukan posisi centroid baru

dengan menggunakan persamaan no .2
6. Ulangi langkah 3 jika posisi centroid baru tidak sama
2.2.4 Pendeteksian Multikolinearitas

Menurut Hair, et al. (2006), multikolinearitas merupakan adanya
hubungan yang linier di antara variabel penelitian. Apabila terdapat variabel-
variabel yang mengalami multikolinearitas secara eksplisit dapat
dipertimbangkan dengan lebih seksama apakah sebaiknya dibuang atau
diganti dengan variabel lain.
𝑖
𝑉𝐼𝐹𝑖 = 1−𝑅2........................(1)
Nilai VIF (Variance Inflation Factor)dapat digunakan untuk mengetahui ada

atau tidaknya pengaruh multikolinearitas. Jika nilai VIF dari suatu variabel
memiliki nilai lebih dari 10, maka variabel tersebut mengindikasikan
terjadinya multikolinearitas. Nilai VIF dirumuskan pada persamaan (1)
dengan adalah koefisien determinasi dari variabel bebas ke-i. Nilai VIF dari
masing-masing variabel bebas dapat diperoleh dengan cara menjadikan
satu variabel yang ingin dicari nilai VIF-nya sebagai variabel tak bebas
(dependent) dan menjadikan variabel sisanya sebagai variabel bebas
(independent).
19
2.2.5 Memilih Ukuran Kemiripan
Untuk mengetahui seberapa mirip objek-objek yang diteliti dibutuhkan
ukuran jarak (distance-type measure). Dengan memiliki sebuah ukuran
kuantitatif, maka proses pengklasteran akan lebih mudah. Pada umumnya,
jarak yang biasa digunakan adalah Jarak Euclidean (Supranto, 2004).
Gambar Ilustrasi Jarak Euclidean dari TeoremaPitagoras
Jika pada suatu bidang dimisalkan titik P =(𝑥1, 𝑥2) dan P ke O =

(0,0) maka jarak adalah d(O,P) berdasarkan teorema pythagoras adalah:
𝑑(𝑂, 𝑃) = √𝑥12 + 𝑥22 ...............................(2)
Akan tetapi, jika titik P memiliki koordinat sebanyak p sehingga P =

(𝑥1, 𝑥2, … … 𝑥𝑝),maka jarak dari P ke titik asal O dengan O =(0,0, … . .0) adalah:
𝑑(𝑂, 𝑃) = √𝑥12 + 𝑥22 … … … … … 𝑥𝑝2 .....................(3)
Jika jarak antara titik P dan Q dengan koordinat P = (𝑥1, 𝑥2, … . 𝑥𝑝) dan
Q = (𝑦1, 𝑦2, 𝑦𝑝)maka,
𝑑(𝑃, 𝑄) = √(𝑥1 − 𝑦1)2 + (𝑥2 − 𝑦2)2 + ⋯ + (𝑥𝑝 − 𝑦𝑝)2
𝑑(𝑥, 𝑦) = √(𝑥1 − 𝑦1)2 + (𝑥2 − 𝑦2)2 + ⋯ + (𝑥𝑝 − 𝑦𝑝)2
𝑝
= √∑𝑖=1(𝑥𝑖 − 𝑦𝑖)2 ........................................(4)
20
Persamaan (4) jarak Euclidean. Meskipun pada awalnya tampak rumit,
kebanyakan teknik multivariat didasarkan pada konsep jarak yang sederhana,
salah satunya adalah jarak Euclidean (Jhonson dan Wichern, 2005)
2.2.6 Standardisasi Data
Jika jarak Euclidean semakin kecil, maka semakin mirip kasus atau objek
tersebut. Akan tetapi, jarak Euclidean sangat sensitif terhadap ukuran sampel
dan besarnya varian. Jika objek yang diteliti memiliki varian yang sangat
berbeda, maka jarak Euclidean menjadi tidak akurat. Oleh sebab itu, perlu
dilakukan standardisasi terhadap variabel penelitian sebelum dilakukan proses
pengklasteran (Simamora, 2005).
𝑋𝑖𝑗−Ẋ𝑗
𝑍𝑖𝑗 = ............(6)
𝑆𝑗
dengan:
𝑍𝑖𝑗 = Data hasil standardisasi observasi kei variabel kej
𝑋𝑖𝑗 = Observasi kei variabel kej
Ẋ𝑗 = Rata-rata variabel ke j
𝑆𝑗 = Simpangan baku variabel ke j
2.2.7 Menentukan Jumlah Klaster
Menurut Permatadevi, et al. (2013), jika proses pengklasteran

untuk masing-masing k selesai, maka untuk menentukan jumlah klaster yang
paling optimal dapat dilakukan penilaian menggunakan Davies-Bouldin Index
(DBI). Pengklasteran dengan jumlah klaster yang optimal adalah
pengklasteran yang memiliki nilai DBI minimum. Nilai DBI dirumuskan pada
persamaan (6)
𝑘
1
𝐷𝐵𝐼 = ∑{𝑅𝑗}
𝑘
𝑖=1
dengan
21
𝑆𝑖+𝑆𝑗
𝑅𝑖 = max 𝑅𝑖𝑗, 𝑅𝑖𝑗 = 𝑑𝑖𝑗
dan
1⁄
2
1
𝑠𝑖 = [ ∑ 𝑑 2 (𝑥, 𝑣𝑖 )]
𝑛
𝑥∈𝑛𝑖
dimana:
k = Jumlah klaster
Rij = Ukuran kemiripan antara ni dan nj
Si = Ukuran dispersi klaster ke-i, i = 1, 2, .., k
dij = Jarak antara centroid klaster ke-i dan centroid klaster ke-j (dij = dji)
nI= Banyaknya anggota klaster ke-i, i = 1, 2, .., k
Vi= Centroid klaster dari ni
22
BAB III
METODOLOGI PENELITIAN
3.1 Analisa Kebutuhan

Pada tahap ini penulis menganalisa kebutuhan yang diinginkan atau
yang diusulkan oleh user sebagai acuan untuk memecahkan masalah yang
dihadapi. Seperti pembuatan perangkat lunak pada umumnya, pembuatan
aplikasi ini juga memerlukan analisis kebutuhan sistem yang jelas, sehingga
mudah dalam perancangan sistemnya. Adapun secara rinci kebutuhan-
kebutuhan sistem ini adalah sebagai berikut :
3.1.1 Kebutuhan Input

Data yang menjadi kebutuhan input dalam sistem ini adalah data
data kemiskinan dan ketimpangan tahun 2007 – 2017 yang diambil dari
Badan Pusat Statistik.
3.1.2 Kebutuhan Proses

Kebutuhan proses dalam aplikasi ini cenderung menitikberatkan
pada penerapan metode K-Means dalam pengolahan datanya. Untuk
menghasilkan output yag diinginkan maka ada faktor-faktor yang harus
dibuat sebagai batasan yang ada untuk menentukan provinsi yang
mengalami kemiskinan yang berat,sedang atau ringan. Bahasa
pemrograman yang digunakan berbasis , php. Dimana, php sebagai alat
untuk menampilkan data-data yang telah diolah tersebut.
3.1.3 Kebutuhan Output

Output yang diharapkan dalam aplikasi ini yaitu menggambarkan
tingkat kemiskinan setiap provinsi yang ada di Indonesia yang hasinya
akan dinyatakan dengan pengklasteran setiap provinsi sesuai dengan
tingkat kemiskinan yang sudah di tentukan yaitu berat,sedang atau ringan
sehingga setiap user yang melihat aplikasi ini dapat dengan mudah
memahaminya.
23
3.2 Perancangan/Pengembangan Sistem
3.2.1 Metode Pendekatan dan Pengembangan Sistem
Metode pengembangan sistem yang digunakan adalah dengan
menggunakan metode pendekatan prototype. Prototyping merupakan
salah satu metode pengembangan perangat lunak yang banyak
digunakan. Prototype dibangun untuk mendefinisikan kebutuhan.
Prototyping merupakan salah satu metode pengembangan perangat
lunak yang banyak digunakan. Dengan metode prototyping ini
pengembang dan user dapat saling berinteraksi selama proses
pembuatan sistem.
Sering terjadi seorang user hanya mendefinisikan secara umum
apa yang dikehendakinya tanpa menyebutkan secara detail output apa
saja yang dibutuhkan, pemrosesan dan data-data apa saja yang
dibutuhkan. Sebaliknya disisi pengembang kurang memperhatikan
efesiensi algoritma, kemampuan sistem operasi dan interface yang
menghubungkan manusia dan komputer. Untuk mengatasi ketidak
serasian antara user dan pengembang, maka harus dibutuhkan
kerjasama yang baik diantara keduanya sehingga pengembang akan
mengetahui dengan benar apa yang diinginkan user dengan tidak
mengesampingkan segi-segi teknis dan user akan mengetahui proses-
proses dalam menyelasaikan sistem yang diinginkan. Dengan demikian
akan menghasilkan sistem sesuai dengan jadwal waktu penyelesaian
yang telah ditentukan.
Kunci agar model prototype ini berhasil dengan baik adalah
dengan mendefinisikan aturan-aturan main pada saat awal, yaitu user dan
pengembang harus setuju bahwa prototype dibangun untuk
mendefinisikan kebutuhan. Prototype akan dihilangkan sebagian atau
seluruhnya dan perangkat lunak aktual aktual direkayasa dengan
kualitas dan implementasi yang sudah ditentukan.
24
Gambar 3.1 metode pengembangan sistem
Berikut adalah langkah-langkah dalam merancang sistem yang

penulis gunakan dalam mekanisme pengembangan sistem dengan
prototype, langkah-langkah tersebut adalah :
a) Mengidentifikasikan kebutuhan pemakai
Melakukan observasi, wawancara, kuisioner mengenai kebutuhan
yang akan dibuat pada aplikasi ini.
b) Membangun Prototype
Membuat perancangan sementara dan bertanya kepada salah satu
user dalam pembangunan prototype yang sesuai dengan
permasalahan tulisan ini.
25
c) Evaluasi Prototyping
Setelah melakukan pengamatan kebutuhan dan membangun
prototype yang sesuai dengan permasalahan maka akan diadakan
evaluasi, jika sesuai maka akan dilanjutkan tetapi jika tidak sesuai
maka mengulang langkah 1,2,3.
d) Pengkodean
Dalam tahap ini prototyping yang sudah di sepakati diterjemaahkan
kedalam bahasa pemrograman yang sesuai.
e) Menguji Sistem
Setelah sistem sudah menjadi suatu perangkat lunnak yang siap
pakai, harus dites dahulu sebelum digunakan. Pengujian ini
dilakukan dengan Black Box.
f) Evaluasi Sistem
User mengevaluasi apakah sistem yang sudah jadi sudah sesuai
dengan yang diharapkan. Jika ya, langkah 7 dilakukan; jika tidak,
ulangi langkah 4 dan 5.
g) Menggunakan Sistem
Perangkat lunak yang telah diuji dan diterima siap untuk digunakan.
3.2.2 Perancangan Sistem Aplikasi

Setelah menentukan metode yang akan digunakan dalam
pengembangan aplikasi, tahap selanjutnya adalah merancang
rancangan sistem, merancang flowchart sistem, serta merancang
State Transition Diagram, dan merancang interface dari sistem
yang akan dikembangkan
3.2.2.1 Flowchart Sistem
Program dimulai dengan inisialisasi data yang ada. Dimana data

yang disimpan digunakan untuk input program memiliki ekstensi.
26
Microsoft Excel (.xlsatau.xlsx). Setelah itu file diimpor
ke dalam program,kemudian ditampung pada tabel tampungan
menggunakan database MySQL lalu kita tampilkan dengan bahasa
pemrograman php.Sehingga data yang diolah adalah data yang sudah
tertampung pada table. Selanjutnya memilih jumlah cluster yang
diinginkan. Setelah itu proses akan dilakukan dalam rapidminer dan
pada akhirnya akan didapatkan hasil clustering yang akan ditampilkan d
pada web yang akan dibuat.
Start
inisialisasi
Pilih Data
Tentukan
Jumlah Cluster
Tampilkan pada
Rapidminer
Koneksi ke php
sistem
Tampilkan data
clustering pada web
End
Gambar 3.2 Alur Sistem
3.2.2.2 State Transition Diagram Menu Utama
Menurut Lee Copeland State Transition Diagram (STD)

merupakan suatu modelling tool yang menggambarkan sifat
27
ketergantungan pada waktu dari suatu sistem. STD pada sistem
ini adalah sebagai berikut :
Gambar 3.3 STD Menu Utama
Gambar diatas adalah alur kerja pada menu utama, dimana user dapat
mengakses langsung ke menu utama tanpa harus login terlebih dahulu. Setelah
mengetahui menu-menu yang terdapat di dalam sistem ini serta alur pemanggilannya,
maka akan digambarkan flowchart sistem secara rinci yang akan menjelaskan alur
proses yang terjadi dalam sistem ini. Adapun dalam sistem ini terdapat beberapa
menu yang akan digambarkan dalam prosedur yang akan di rinci pada tahap
selanjutnya.
3.2.3 Perancangan Antarmuka (Interface)

a) Form Menu Utama
Form menu utama berisi menu-menu yang terdapat didalam sistem yaitu
menu Data Garis Kemiskinan Makanan, Garis Kemiskinan Non
Makanan, Karakteristik Rumah Tangga Miskin, Indeks Kedalaman
Kemiskinan, Indeks Keparahan Kemiskinan, Jumlah Penduduk
Miskin,Persentase Penduduk Miskin terhadap 34 provinsi di Indonesia,.
Pada form menu utama akan ditampilkan data berupa tabel yang
diperoleh dari Badan Pusat Statistik, menu clustering, menu analisa Plot
K-Means.
28
Gambar 3.4 Form Menu Utama
b) Form Menu Proses Clustering
Gambar 3.5 Form Menu Proses Clustering
29
3.3 Teknik Analisis
3.3.1 Analisis Pengumpulan Data
Dalam pengumpulan data untuk populasi besar maka peneliti menentukan
ukuran sampel. Penentuan ukuran sampel atau jumlah responden dalam
penelitian ini menggunakan penghitungan statisitik yakni dengan
menggunakan Rumus Slovin (Kriyantono, 2006) berikut:
Gambar 3.78 Rumus Sampel
Keterangan :
n = Ukuran sampel
N = Ukuran Populasi
e = Kelonggaran ketidaktelitian karena kesalahan pengambilan
sampel yang dapat ditolerir, kemudian e ini dikuadratkan
Penentuan jumlah responden dalam penelitian ini, peneliti menggunakan
Rumus Slovin dengan asumsi kelonggaran ketidaktelitian dalam penelitian ini
sebesar 20% dengan harapan mendapatkan data dengan kesalahan minimum.
3.3.1.1 Analisis Sumber Data Primer

Data primer merupakan informasi yang diperoleh pertama kali oleh
peneliti menyangkut variable yang menjadi tujuan utama penelitian. Untuk
mendapatkan data primer metode pengumpulan data yang dipakai adalah
observasi, wawancara, kuisioner dan studi pustaka.
a) Observasi
Teknik observasi yaitu dengan melakukan pengamatan dan
pencatatan secara langsung siapa saja yang membutuhkan dan
menggunakan data-data yang diberikan oleh Badan Pusat Statistik.
b) Wawancara
Teknik wawancara yaitu dengan cara melakukan tanya jawab
secara langsung kepada Badan Pusat Statistik menggunakan data BPS
30
untuk mengetahui kendala dalam aktivitas melihat dan mengolah Data
Kemiskinan dan Ketimpangan terhadap 34 provinsi di Indonesia. Serta
melakukan wawancara kepada pemerintah untuk menentukan keadaan
suatu provinsi tertentu terutama untuk target penentuan bantuan yang
layak untuk provinsi yang mengalami kemiskinan yang sangat parah.
Manfaat wawancara tersebut untuk mendukung perancangan sistem
aplikasi yang akan dikembangkan. Dengan wawancara data yang
diperoleh akan lebih baik, karena mampu menggali pemikiran atau
pendapat secara detail.
3.3.1.2 Analisis Sumber Data Sekunder
Dalam hal ini penulis menggunakan metode pengumpulan

data berupa sumber data sekunder dalam bentuk tabel. Sumber Data
Sekunder merupakan data yang telah dikumpulkan lembaga pengumpul
data dan dipublikasikan kepada masyarakat pengguna data.
Data yang akan diolah merupakan data yang telah dikumpulkan

lembaga Badan Pusat Statistik dan dipublikasikan secara menyeluruh
kepada masyarakat Indonesia. Data sekunder dalam penelitian ini
adalah data Kemiskinan dan Ketimpangan pada provinsi-provinsi yang
ada di Indonesia.
31

Flora Lumbanbatu - 201431120

Uploaded by

Copyright:

Available Formats

You might also like

Flora Lumbanbatu - 201431120

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Flora Lumbanbatu - 201431120

Uploaded by

Copyright:

Available Formats

SEKOLAH TINGGI TEKNIK – PLN

Implementasi dan Analisis Hasil Data Mining menggunakan

PROGRAM PENDIDIKAN SARJANA STRATA SATU

1.1 Latar Belakang

Kemiskinan yang terjadi di Indonesia memang perlu dilihat sebagai

Untuk mengatasi masalah tersebut maka perlu adanya pengklasteran

1.2 Permasalahan Penelitian

1.2.2 Batasan Masalah

1. Pengelompokan/clustering data kemiskinan 34 provinsi yang ada di

1.2.3 Rumusan Masalah

1.3 Tujuan dan Manfaat Penelitian

1.4 Sistematika Penulisan

BAB II LANDASAN TEORI

BAB III METODE PENELITIAN

BAB IV HASIL DAN PEMBAHASAN

2.1 Tinjauan Pustaka

2.2 Landasan Teori

Gambar 2.2 Proses KDD

2. Estimasi (Estimation) Universitas Sumatera Utara Estimasi hampir sama dengan

3. Prediksi (Prediction) Prediksi hampir sama dengan klasifikasi dan estimasi,

4. Klasifikasi (Classification) Dalam klasifikasi, terdapat target variabel kategori.

5. Pengklusteran (Clustering) Pengklusteran merupakan pengelompokkan record,

6. Asosiasi (Assosiation) Tugas asosiasi dalam data mining adalah menemukan

2.2.2.1 Metode Clustering

2.2.2.2 Klasifikasi Algoritma Clustering

2.2.3.1 Keuntungan Algoritma K-Means

2.2.3.2 Kelemahan Algoritma K-Means

2.2.2.3 Cara mengatasi kelemahan pada Algoritma K-Means

2.2.2.4 Algoritma K-Means

𝑆𝑆𝐸 = ∑ ∑ ‖𝑋𝑖 − 𝐶𝑘‖2

Dimana Xi menyatakan norma euclid (L2) dan Ck adalah pusat

3. Hitung jarak setiap objek ke masing-masing centroid dari

𝑑(, 𝑦) = ‖𝑥 − 𝑦‖√∑(𝑋𝑖 − 𝑌𝑖)2 ; 𝑖 = 1,2,3 … … . , 𝑛

4. Alokasikan masing-masing objek ke dalam centroid yang

5. Lakukan iterasi, kemudian tentukan posisi centroid baru

6. Ulangi langkah 3 jika posisi centroid baru tidak sama

2.2.4 Pendeteksian Multikolinearitas

Nilai VIF (Variance Inflation Factor)dapat digunakan untuk mengetahui ada

Gambar Ilustrasi Jarak Euclidean dari TeoremaPitagoras

Jika pada suatu bidang dimisalkan titik P =(𝑥1, 𝑥2) dan P ke O =

𝑑(𝑂, 𝑃) = √𝑥12 + 𝑥22 ...............................(2)

Akan tetapi, jika titik P memiliki koordinat sebanyak p sehingga P =

𝑑(𝑂, 𝑃) = √𝑥12 + 𝑥22 … … … … … 𝑥𝑝2 .....................(3)

𝑑(𝑃, 𝑄) = √(𝑥1 − 𝑦1)2 + (𝑥2 − 𝑦2)2 + ⋯ + (𝑥𝑝 − 𝑦𝑝)2

𝑑(𝑥, 𝑦) = √(𝑥1 − 𝑦1)2 + (𝑥2 − 𝑦2)2 + ⋯ + (𝑥𝑝 − 𝑦𝑝)2

2.2.6 Standardisasi Data

𝑍𝑖𝑗 = Data hasil standardisasi observasi kei variabel kej

𝑋𝑖𝑗 = Observasi kei variabel kej

𝑆𝑗 = Simpangan baku variabel ke j

2.2.7 Menentukan Jumlah Klaster

Menurut Permatadevi, et al. (2013), jika proses pengklasteran

3.1 Analisa Kebutuhan

3.1.1 Kebutuhan Input

3.1.2 Kebutuhan Proses

3.1.3 Kebutuhan Output

Berikut adalah langkah-langkah dalam merancang sistem yang

3.2.2 Perancangan Sistem Aplikasi

3.2.2.1 Flowchart Sistem