Professional Documents
Culture Documents
Flora Lumbanbatu - 201431120
Flora Lumbanbatu - 201431120
Flora Lumbanbatu - 201431120
SKRIPSI
DISUSUN OLEH :
FLORA LUMBANBATU
NIM : 2014-31-120
PENDAHULUAN
2
Sehingga nilai tepat guna untuk kebijakan, program dan strategi yang dibuat
bisa terimplemetasikan dengan baik.
3
mengoptimalkan manfaat dari aplikasi tersebut. Salah satu pengembangan
yang dibuat oleh penulis yaitu dengan pengklasteran data kemisikinan
dalam bentuk angka.
2. Data yang ditampilkan dalam aplikasi hanya membahas tengtang data
kemiskinan setiap provinsi yang ada di Indonesia dan melihat data
kemisikinan yang paling tinggi, normal dan rendah dalam bentuk angka.
3. Data yang diolah menggunakan data 34 provinsi di Indonesia dimana data
yang diambil berasal dari data Sosial dan Kependudukan dengan
menitihberatkan pada data kemiskinan yang ada pada Badan Pusat
Statistik.
4
diatas, maka manfaat penelitian dapat dirumuskan sebagai berikut :
a) Meningkatkan pengetahuan dan kemampuan mahasiswa dalam
memahami Metode K-Means.
b) Membantu pengambilan keputusan oleh pemerintah terkait masalah
kemiskinan dalam suatu provinsi.
c) Pengguna (User) dapat melihat data kemiskinan di Indonesia yang lebih
rinci dan ringkas karena hasilnya berupa angka beserta nama
provinsinya dan mengetahui provinsi mana-mana saja yang mengalami
kemiskinan yang tinggi,normal dan rendah.
d) Memberikan informasi kepada pengguna untuk menghadapi
kemiskinan yang merupakan tantangan global dunia ketiga .
e) Menumbuhkan kesadaran bagi pembaca yang mampu dalam hal materi
agar ikut berperan serta untuk mengentaskan kemiskinan di Indonesia.
5
dan bahan yang digunakan serta menguraikan dan menjelaskan segala
sesuatu tentang proses perancangan dan langkah-langkah pembuatan sistem
secara detail terkait dengan masalahnya serta implementasinya.
BAB V PENUTUP
Bab ini menjelaskan kesimpulan yang diperoleh dari hasil
pengembangan sistem yang telah dilakukan. Selain itu, diberikan pula saran
yang bersifat konstruktif guna meningkatkan kinerja sistem di masa
mendatang.
6
BAB II
LANDASAN TEORI
7
kelompok usia yang sama. Dinyatakan dalam satuan persen.
3. Angka Kematian Bayi (AKB)
Angka kematian bayi adalah angka yang menunjukkan banyaknya kematian
bayi berusia nol tahun dari setiap 1.000 kelahiran hidup pada tahun tertentu.
Dinyatakan dengan per seribu kelahiran hidup.
4. Akses Air Bersih Air minum yang bersih adalah air minum yang terlindungi,
meliputi air ledeng (keran), penampungan air hujan (PAH) atau mata air dan
sumur terlindung, sumur bor atau sumur pompa, yang jaraknya minimal 10
m dari pembuangan kotoran, penampungan limbah dan sampah. Dinyatakan
dalam satuan persen.
5. Akses Listrik Listrik yang dipakai termasuk listrik yang bersumber dari PLN
maupun non-PLN (dikelola oleh instansi atau pihak lain selain PLN.
Dinyatakan dalam satuan persen.
6.Tingkat Pengangguran Terbuka (TPT) TPT diperoleh persentase jumlah
pengangguran terhadap jumlah angkatan kerja. Dinyatakan dalam satuan
persen.
Penelitian lain yang berhubungan dengan metode Clustering
menggunakan algoritma K-Means yang berhubungan dengan penelitian yang
akan dilakukan adalah sebagai berikut :
1. Dessy Purnama Sari dkk. (2014) dengan judul ”Analisis cluster
menggunakan algoritma K-Means untuk mengelompokan siswa kelas IV
sekolah dasar Brawijaya smart school Malang”. Analisis cluster merupakan
metode pengelompokan multivariat dengan tujuan utama yaitu
mengelompokan objek atau subjek berdasarkan kemiripan karakteristik
yang dimiliki. Analisis cluster memiliki homogenitas (kesamaan) yang tinggi
antar anggota dalam satu kelompok (within cluster) dan heterogenitas
(perbedaan) yang tinggi antar kelompok satu dengan kelompok lain
(between cluster) (Hair dkk., 2010). Metode analisis cluster menggunakan
algoritma K-Means adalah: menentukan jumlah kelompok yang akan
dibentuk sebanyak 2 kelompok, menentukan titik pusat awal kelompok,
menghitung jarak setiap objek pada setiap pusat kelompok dengan
menggunakan jarak Mahalanobis, mengelompokan objek berdasarkan
jarak terdekat dengan pusat kelompok, menentukan pusat kelompok baru
dengan menghitung rata-rata pada setiap kelompok, menghitung kembali
8
jarak setiap objek pada pusat kelompok dan mengelompokannya hingga
tidak ada objek yang berpindah dari kelompok.
2. Jurnal Ilmiah Teknologi Informasi Terapan Volume I, No 2, 30 April 2015
“Implementasi Algoritma K-Means dalam Pengklasteran Mahasiswa
Pelamar Beasiswa” oleh Nurul Rohmawati W, Sofi Defiyanti, Mohamad
Jajuli.
10
Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat
dilakukan, yaitu (Larose, 2005) :
1. Deskripsi (Description) Terkadang penelitian analisis secara sederhana ingin
mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang
terdapat dalam data. Sebagai contoh, petugas pengumpulan suara mungkin
tidak dapat menemukan keterangan atau fakta bahwa siapa yang tidak cukup
profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi dari pola
dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu
pola atau kecenderungan.
11
adalah : Menentukan apakah suatu transaksi kartu kredit merupakan transaksi
yang curang atau bukan Memperkirakan apakah suatu pengajuan hipotek oleh
nasabah merupakan suatu kredit yang baik atau buruk Mendiagnosis penyakit
seorang pasien untuk mendapatkan kategori penyakit apa.
12
2.2.2 Clustering
Clustering atau analisis cluster adalah proses pengelompokan satu set
benda- benda fisik atau abstrak ke dalam kelas objek yang sama” (Han, 2006).
Baskoro (2010) menyatakan bahwa : Clustering atau clusterisasi adalah salah
satu alat bantu pada data mining yang bertujuan mengelompokkan obyek-obyek
ke dalam cluster-cluster. Cluster adalah sekelompok atau sekumpulan obyek-
obyek data yang similar satu sama lain dalam cluster yang sama dan dissimilar
terhadap obyek-obyek yang berbeda cluster. Obyek akan dikelompokkan ke
dalam satu atau lebih cluster sehingga obyek-obyek yang berada dalam satu
cluster akan mempunyai kesamaan yang tinggi antara satu dengan lainnya.
Obyek-obyek dikelompokkan berdasarkan prinsip memaksimalkan kesamaan
obyek pada cluster yang sama dan memaksimalkan ketidaksamaan pada cluster
yang berbeda. Kesamaan obyek biasanya diperoleh dari nilai-nilai atribut yang
menjelaskan obyek data, sedangkan obyek-obyek data biasanya
direpresentasikan sebagai sebuah titik dalam ruang multidimensi. Dengan
menggunakan clusterisasi, kita dapat mengidentifikasi daerah yang mengalami
kemiskinan, menemukan pola-pola distribusi secara keseluruhan, dan
menemukan keterkaitan yang menarik antara atribut-atribut data. Dalam data
mining, usaha difokuskan pada metode-metode penemuan untuk cluster pada
basis data berukuran besar secara efektif dan efisien. Beberapa kebutuhan
clusterisasi dalam data mining meliputi skalabilitas, kemampuan untuk menangani
tipe atribut yang berbeda, mampu menangani dimensionalitas yang tinggi,
menangani data yang mempunyai noise, dan dapat diterjemahkan dengan
mudah.
14
2.2.3 K-Means
Algoritma K-means merupakan salah satu algoritma dengan
partitional, karena K-Means didasarkan pada penentuan jumlah awal
kelompok dengan mendefinisikan nilai centroid awalnya (Madhulatha,
2012). Algoritma K -means menggunakan proses secara berulang-ulang
untuk mendapatkan basis data cluster. Dibutuhkan jumlah cluster awal
yang diinginkan sebagai masukan dan menghasilkan titik centroid akhir
sebagai output. Metode K-means akan memilih pola k sebagai titik awal
centroid secara acak atau random. Jumlah iterasi untuk mencapai
cluster centroid akan dipengaruhi oleh calon cluster centroid awal
secara random. Sehingga didapat cara dalam pengembangan algoritma
dengan menentukan centroid cluster yang dilihat dari kepadatan data
awal yang tinggi agar mendapatkan kinerja yang lebih tinggi (HUNG et
al., 2005, Saranya & Punithavalli, 2011, Eltibi & Ashour, 2011). Dalam
penyelesaiannya, algoritma K-Means akan menghasilkan titik centroid
yang dijadikan tujuan dari algoritma K-Means. Setelah iterasi KMeans
berhenti , setiap objek dalam dataset menjadi anggota dari suatu cluster.
Nilai cluster ditentukan dengan mencari seluruh objek untuk
menemukan cluster dengan jarak terdekat ke objek . Algoritma K -means
akan mengelompokan item data dalam suatu dataset ke suatu cluster
berdasarkan jarak terdekat (Bangoria et al., 2013). Nilai centroid awal
yang dipilih secara acak yang menjadi titik pusat awal, akan dihitung
jarak dengan semua data menggunakan rumus Euclidean Distance.
Data yang memiliki jarak pendek terhadap centroid akan membuat
sebuah cluster. Proses ini berkelanjutan sampai tidak terjadi perubahan
pada setiap 15 kelompok (Agrawal & Gupta, 2013, Chaturved & Rajavat,
2013, Bhatia & Khurana, 2013).
16
2. Kodinariya & Makwana, (2013) mengusulkan beberapa cara
untuk menentukan nilai k sebagai jumlah cluster yang dibentuk
secara dinamis, salah satunya adalah dengan cara metode
elbow. Penelitian ini menyatakan bahwa metode elbow akan
menentukan jumlah cluster yang sebenarnya pada satu data
set. Nilai k akan terus meningkat pada setiap langkahnya dan
suatu saat nilai k akan mengalami penurunan dengan nilai
yang besar, saat seperti itulah akan terbentuk siku dari semua
nilai k yang didapat dan siku tersebut menjadi nilai k yang
diinginkan
17
2. Tentukan k centroid (titik pusat cluster) awal secara random
.Penentuan centroid awal dilakukan secara random/acak dari
objek-objek yang tersedia sebanyak k cluster, kemudian untuk
menghitung centroid cluster ke-i berikutnya, digunakan rumus
sebagai berikut :
∑𝑛
𝑖=1 𝑋𝑖
𝑣= 𝑖 = 1,2,3 … … … 𝑛
𝑛
Dimana;
v : centroid pada cluster
Xi : objek ke-i
n:banyaknya objek/jumlah objek yang
menjadi anggota cluster
Dimana;
Xi : objek x ke-i
Yi: daya y ke-i
n : banyaknya objek
18
titik pusat cluster tersebut.
𝑖
𝑉𝐼𝐹𝑖 = 1−𝑅2........................(1)
19
2.2.5 Memilih Ukuran Kemiripan
Untuk mengetahui seberapa mirip objek-objek yang diteliti dibutuhkan
ukuran jarak (distance-type measure). Dengan memiliki sebuah ukuran
kuantitatif, maka proses pengklasteran akan lebih mudah. Pada umumnya,
jarak yang biasa digunakan adalah Jarak Euclidean (Supranto, 2004).
Jika jarak antara titik P dan Q dengan koordinat P = (𝑥1, 𝑥2, … . 𝑥𝑝) dan
Q = (𝑦1, 𝑦2, 𝑦𝑝)maka,
𝑝
= √∑𝑖=1(𝑥𝑖 − 𝑦𝑖)2 ........................................(4)
20
Persamaan (4) jarak Euclidean. Meskipun pada awalnya tampak rumit,
kebanyakan teknik multivariat didasarkan pada konsep jarak yang sederhana,
salah satunya adalah jarak Euclidean (Jhonson dan Wichern, 2005)
Jika jarak Euclidean semakin kecil, maka semakin mirip kasus atau objek
tersebut. Akan tetapi, jarak Euclidean sangat sensitif terhadap ukuran sampel
dan besarnya varian. Jika objek yang diteliti memiliki varian yang sangat
berbeda, maka jarak Euclidean menjadi tidak akurat. Oleh sebab itu, perlu
dilakukan standardisasi terhadap variabel penelitian sebelum dilakukan proses
pengklasteran (Simamora, 2005).
𝑋𝑖𝑗−Ẋ𝑗
𝑍𝑖𝑗 = ............(6)
𝑆𝑗
dengan:
Ẋ𝑗 = Rata-rata variabel ke j
𝑘
1
𝐷𝐵𝐼 = ∑{𝑅𝑗}
𝑘
𝑖=1
dengan
21
𝑆𝑖+𝑆𝑗
𝑅𝑖 = max 𝑅𝑖𝑗, 𝑅𝑖𝑗 = 𝑑𝑖𝑗
dan
1⁄
2
1
𝑠𝑖 = [ ∑ 𝑑 2 (𝑥, 𝑣𝑖 )]
𝑛
𝑥∈𝑛𝑖
dimana:
k = Jumlah klaster
Rij = Ukuran kemiripan antara ni dan nj
Si = Ukuran dispersi klaster ke-i, i = 1, 2, .., k
dij = Jarak antara centroid klaster ke-i dan centroid klaster ke-j (dij = dji)
nI= Banyaknya anggota klaster ke-i, i = 1, 2, .., k
Vi= Centroid klaster dari ni
22
BAB III
METODOLOGI PENELITIAN
23
3.2 Perancangan/Pengembangan Sistem
3.2.1 Metode Pendekatan dan Pengembangan Sistem
Metode pengembangan sistem yang digunakan adalah dengan
menggunakan metode pendekatan prototype. Prototyping merupakan
salah satu metode pengembangan perangat lunak yang banyak
digunakan. Prototype dibangun untuk mendefinisikan kebutuhan.
Prototyping merupakan salah satu metode pengembangan perangat
lunak yang banyak digunakan. Dengan metode prototyping ini
pengembang dan user dapat saling berinteraksi selama proses
pembuatan sistem.
Sering terjadi seorang user hanya mendefinisikan secara umum
apa yang dikehendakinya tanpa menyebutkan secara detail output apa
saja yang dibutuhkan, pemrosesan dan data-data apa saja yang
dibutuhkan. Sebaliknya disisi pengembang kurang memperhatikan
efesiensi algoritma, kemampuan sistem operasi dan interface yang
menghubungkan manusia dan komputer. Untuk mengatasi ketidak
serasian antara user dan pengembang, maka harus dibutuhkan
kerjasama yang baik diantara keduanya sehingga pengembang akan
mengetahui dengan benar apa yang diinginkan user dengan tidak
mengesampingkan segi-segi teknis dan user akan mengetahui proses-
proses dalam menyelasaikan sistem yang diinginkan. Dengan demikian
akan menghasilkan sistem sesuai dengan jadwal waktu penyelesaian
yang telah ditentukan.
Kunci agar model prototype ini berhasil dengan baik adalah
dengan mendefinisikan aturan-aturan main pada saat awal, yaitu user dan
pengembang harus setuju bahwa prototype dibangun untuk
mendefinisikan kebutuhan. Prototype akan dihilangkan sebagian atau
seluruhnya dan perangkat lunak aktual aktual direkayasa dengan
kualitas dan implementasi yang sudah ditentukan.
24
Gambar 3.1 metode pengembangan sistem
b) Membangun Prototype
Membuat perancangan sementara dan bertanya kepada salah satu
user dalam pembangunan prototype yang sesuai dengan
permasalahan tulisan ini.
25
c) Evaluasi Prototyping
Setelah melakukan pengamatan kebutuhan dan membangun
prototype yang sesuai dengan permasalahan maka akan diadakan
evaluasi, jika sesuai maka akan dilanjutkan tetapi jika tidak sesuai
maka mengulang langkah 1,2,3.
d) Pengkodean
Dalam tahap ini prototyping yang sudah di sepakati diterjemaahkan
kedalam bahasa pemrograman yang sesuai.
e) Menguji Sistem
Setelah sistem sudah menjadi suatu perangkat lunnak yang siap
pakai, harus dites dahulu sebelum digunakan. Pengujian ini
dilakukan dengan Black Box.
f) Evaluasi Sistem
User mengevaluasi apakah sistem yang sudah jadi sudah sesuai
dengan yang diharapkan. Jika ya, langkah 7 dilakukan; jika tidak,
ulangi langkah 4 dan 5.
g) Menggunakan Sistem
Perangkat lunak yang telah diuji dan diterima siap untuk digunakan.
26
Microsoft Excel (.xlsatau.xlsx). Setelah itu file diimpor
ke dalam program,kemudian ditampung pada tabel tampungan
menggunakan database MySQL lalu kita tampilkan dengan bahasa
pemrograman php.Sehingga data yang diolah adalah data yang sudah
tertampung pada table. Selanjutnya memilih jumlah cluster yang
diinginkan. Setelah itu proses akan dilakukan dalam rapidminer dan
pada akhirnya akan didapatkan hasil clustering yang akan ditampilkan d
pada web yang akan dibuat.
Start
inisialisasi
Pilih Data
Tentukan
Jumlah Cluster
Tampilkan pada
Rapidminer
Koneksi ke php
sistem
Tampilkan data
clustering pada web
End
27
ketergantungan pada waktu dari suatu sistem. STD pada sistem
ini adalah sebagai berikut :
Gambar diatas adalah alur kerja pada menu utama, dimana user dapat
mengakses langsung ke menu utama tanpa harus login terlebih dahulu. Setelah
mengetahui menu-menu yang terdapat di dalam sistem ini serta alur pemanggilannya,
maka akan digambarkan flowchart sistem secara rinci yang akan menjelaskan alur
proses yang terjadi dalam sistem ini. Adapun dalam sistem ini terdapat beberapa
menu yang akan digambarkan dalam prosedur yang akan di rinci pada tahap
selanjutnya.
28
Gambar 3.4 Form Menu Utama
29
3.3 Teknik Analisis
3.3.1 Analisis Pengumpulan Data
Dalam pengumpulan data untuk populasi besar maka peneliti menentukan
ukuran sampel. Penentuan ukuran sampel atau jumlah responden dalam
penelitian ini menggunakan penghitungan statisitik yakni dengan
menggunakan Rumus Slovin (Kriyantono, 2006) berikut:
Keterangan :
n = Ukuran sampel
N = Ukuran Populasi
e = Kelonggaran ketidaktelitian karena kesalahan pengambilan
sampel yang dapat ditolerir, kemudian e ini dikuadratkan
Penentuan jumlah responden dalam penelitian ini, peneliti menggunakan
Rumus Slovin dengan asumsi kelonggaran ketidaktelitian dalam penelitian ini
sebesar 20% dengan harapan mendapatkan data dengan kesalahan minimum.
30
untuk mengetahui kendala dalam aktivitas melihat dan mengolah Data
Kemiskinan dan Ketimpangan terhadap 34 provinsi di Indonesia. Serta
melakukan wawancara kepada pemerintah untuk menentukan keadaan
suatu provinsi tertentu terutama untuk target penentuan bantuan yang
layak untuk provinsi yang mengalami kemiskinan yang sangat parah.
Manfaat wawancara tersebut untuk mendukung perancangan sistem
aplikasi yang akan dikembangkan. Dengan wawancara data yang
diperoleh akan lebih baik, karena mampu menggali pemikiran atau
pendapat secara detail.
31