Clustering Dokumen Berbahasa Indonesia Menggunakan: Fuzzy C-Means

CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN
FUZZY C-MEANS
ISNA MARIAM
DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2011
CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN
FUZZY C-MEANS
ISNA MARIAM
Skripsi
Sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2011
ii
ABSTRACT
ISNA MARIAM. Clustering Indonesian Documents Using Fuzzy C-Means. Supervise by JULIO
ADISANTOSO.
Document clustering enables a user to have a good overall view of the information
contained in the document. Most classical clustering algorithms assign each data to exactly one
cluster, thus forming a crisp partition of the given data. Recently, fuzzy clustering approach allows
for degrees of membership, to which a data belongs to different clusters. Document clustering
aims to make a cluster that is internally coherent but clearly different from other clusters. The
documents that are used in this research are several documents from journal of horticulture and
documents of medical plantations. All documents in the collections are clustered by using fuzzy C-
Means algorithm. Furthermore, in this research threshold is used to weight the words that engage
in the clustering process. The appropriate uses of threshold may give a better accuracy for the
clustering result. The best result in this research is obtained when the threshold value is 1.5 and
fuzzifier value is 2 for the documents from journal of horticulture, whereas for the documents of
medical plantations the best result is obtained when the threshold value is 0.75 and fuzzifier value
is 2.
Keywords : Document Clustering, Fuzzy C-Means Algorithm, Threshold
iii
Judul Penelitian : Clustering Dokumen Berbahasa Indonesia Menggunakan Fuzzy C-Means
Nama : Isna Mariam
NRP : G64070061
Menyetujui:
Pembimbing
Ir. Julio Adisantoso, M.Kom

NIP. 19620714 198601 1 002
Mengetahui:
Ketua Departemen Ilmu Komputer,
Dr. Ir. Sri Nurdiati, M.Sc

NIP. 19601126 198601 2 001
Tanggal Lulus:
iv
RIWAYAT HIDUP
Penulis lahir di Bandung pada tanggal 14 Juli 1989 yang merupakan anak kedua dari lima
bersaudara dengan ayah bernama Fatahudin dan Ibu bernama Siti Supriatin.
Tahun 2007 penulis lulus dari SMA Negeri 9 Bandung dan pada tahun yang sama penulis
lulus seleksi masuk IPB melalui jalur Ujian Saringan Masuk IPB (USMI), dan diterima
sebagai mahasiswa Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan
Alam Institut Pertanian Bogor. Pada tahun 2008 penulis aktif dalam organisasi Badan
Eksekutif Mahasiswa (BEM) FMIPA IPB sebagai staff Departemen Pengembangan Potensi
Sumber Daya Mahasiswa (PPSDM) BEM FMIPA IPB 2008/2009. Penulis menjadi asisten
praktikum Mata Kuliah Penerapan Komputer Departemen Ilmu Komputer IPB pada tahun 2010
dan asisten praktikum Mata Kuliah Basis Data Departemen Ilmu Komputer IPB pada tahun 2011.
v
PRAKATA
Alhamdulillahirabbil alamin, puji dan syukur Penulis panjatkan kepada Allah SWT atas
segala curahan rahmat dan karunia-Nya sehingga tugas akhir dengan judul Clustering Dokumen
Berbahasa Indonesia Menggunakan Fuzzy C-Means berhasil diselesaikan. Shalawat serta salam
Penulis sampaikan kepada Nabi Besar Muhammad SAW beserta keluarga dan sahabatnya.
Penulis berterima kasih kepada Bapak Ir. Julio Adisantoso, M.Kom selaku dosen
Pembimbing yang telah membimbing penulis selama penelitian berlangsung. Selain itu
kepada Ibu Dr. Yeni Herdiyeni, S.Si, M.Kom dan Bapak Sony Hartono Wijaya, S.kom, M.kom
selaku dosen Penguji serta staf pengajar Departemen Ilmu Komputer terima kasih atas ilmu yang
telah diberikan, serta tidak lupa kepada staf tata usaha yang membantu dalam administrasi selama
kuliah di Departemen Ilmu Komputer IPB.
Terima kasih sebesar-besarnya penulis sampaikan kepada Mama, Papa, Teteh, Aa,
Kakak dan Adik yang telah memberikan kasih sayang, perhatian, semangat dan doa untuk
keberhasilan Penulis. Kepada seluruh keluarga yang telah mendukung baik moral atau materil
penulis sampaikan terima kasih.
Terima kasih juga penulis sampaikan kepada Saudara Nazar Taufik Dihartika yang telah
memberikan dukungan dan semangat kepada penulis, teman-teman satu bimbingan Agus
Umriadi, Aprilia Ramadhina, Devi Dian Pramana, Fandi Rahmawan, Nova Maulizar, Nutri
Rahayuni, Woro Indriyani yang telah bersama-sama berjuang menyelesaikan tugas akhir, juga
teman-teman satu angkatan ilkom 44 yang telah memberikan pengalaman dan hari-hari yang
menyenangkan selama berkuliah di Ilmu Komputer, kepada teman-teman Wisma Mega 2
Endah Ratna Puri, Gian Puspita, Reni Syahab, Rika Kurnia, Yulianti Sri Rejeki yang telah
menemani hari-hari Penulis selama di kostan, serta masih banyak pihak yang membantu penulis
namun tidak dapat disebutkan disini.
Bogor, Agustus 2011
Isna Mariam
vi
DAFTAR ISI
Halaman
DAFTAR TABEL ..........................................................................................................................viii
DAFTAR GAMBAR .....................................................................................................................viii
DAFTAR LAMPIRAN ..................................................................................................................viii
PENDAHULUAN............................................................................................................................. 1
Latar Belakang .............................................................................................................................. 1
Tujuan Penelitian .......................................................................................................................... 1
Ruang Lingkup Penelitian ............................................................................................................ 1
Manfaat Penelitian ........................................................................................................................ 1
TINJAUAN PUSTAKA .................................................................................................................... 1
Information Retrieval (IR) ............................................................................................................ 1
Clustering ..................................................................................................................................... 2
Pemodelan Ruang Vektor ............................................................................................................. 2
Fuzzy C-Means ............................................................................................................................. 2
Confusion Matrix .......................................................................................................................... 2
F-Measure ..................................................................................................................................... 3
Sphinx Search ............................................................................................................................... 3
METODE PENELITIAN .................................................................................................................. 3
Koleksi Dokumen ......................................................................................................................... 4
Praproses ....................................................................................................................................... 4
Membentuk Inverted Index dengan menggunakan pembobotan tf.idf .......................................... 4
Implementasi Sistem ..................................................................................................................... 4
Evaluasi ........................................................................................................................................ 5
Lingkungan Implementasi ............................................................................................................ 5
HASIL DAN PEMBAHASAN ......................................................................................................... 5
Karakteristik Dokumen ................................................................................................................. 5
Pembuangan Stopwords dan Term ................................................................................................ 6
Clustering Dokumen dengan Fuzzy C-Means .............................................................................. 6
Temu Kembali Informasi ............................................................................................................ 10
KESIMPULAN DAN SARAN ....................................................................................................... 12
DAFTAR PUSTAKA ..................................................................................................................... 12
LAMPIRAN .................................................................................................................................... 13
vii
DAFTAR TABEL
Halaman
1 Format Confusion Matrix ............................................................................................................ 3

2 Keterangan penamaan cluster ..................................................................................................... 6
3 Nilai aktual-prediksi jurnal hortikultura dengan w = 2 dan threshold = 3 ................................ 7
4 Confusion matrix jurnal hortikultura dengan w = 2 dan threshold = 3 ....................................... 7
5 Nilai aktual-prediksi jurnal hortikultura dengan w = 2 dan threshold = 1.5 ............................. 7
6 Confusion matrix jurnal hortikultura dengan w = 2 dan threshold = 1.5 .................................... 7
7 Nilai aktual-prediksi jurnal hortikultura dengan w = 3 dan threshold = 1.5 ............................. 8
8 Confusion matrix jurnal hortikultura dengan w = 3 dan threshold = 1.5 .................................... 8
9 Hasil clustering terhadap empat cluster ...................................................................................... 9
10 Hasil clustering terhadap lima cluster ......................................................................................... 9
11 Nilai aktual-prediksi dokumen tanaman obat dengan w = 2 dan threshold = 1.5 ..................... 9
12 Confusion matrix dokumen tanaman obat dengan w = 2 dan threshold = 1.5 ............................ 9
13 Nilai aktual-prediksi dokumen tanaman obat dengan w = 2 dan threshold = 0.75 ................... 9
14 Confusion matrix dokumen tanaman obat dengan w = 2 dan threshold = 0.75 .......................... 9
DAFTAR GAMBAR
Halaman
1 Metode Penelitian. ....................................................................................................................... 4

2 Struktur dokumen jurnal hortikultura. ......................................................................................... 6
3 Struktur dokumen tanaman obat.................................................................................................. 6
4 Diagram akurasi nilai w = 2 dan T = 1.5 dengan nilai w = 2 dan T = 3 ................................... 7
5 Diagram akurasi nilai w = 2 dan T = 1.5 dengan nilai w = 3 dan T = 1.5 ................................ 8
6 Diagram akurasi nilai w = 2 dan T = 1.5 dengan nilai w = 2 dan T = 0.75 ............................ 10
7 Perintah indexing dokumen oleh Sphinx search ....................................................................... 10
8 Perintah pembuatan service Sphinx search ............................................................................... 10
9 Grafik R-P pencarian pada dokumen jurnal hortikultura .......................................................... 11
10 Grafik R-P pencarian pada dokumen tanaman obat .................................................................. 11
DAFTAR LAMPIRAN
Halaman
1 Gugus kueri dan jawaban dokumen jurnal hortikultura ............................................................ 14

2 Hasil analisis kinerja sistem temu kembali dokumen jurnal hortikultura .................................. 16
3 Gugus kueri dan jawaban dokumen tanaman obat .................................................................... 17
4 Hasil analisis kinerja sistem temu kembali dokumen tanaman obat ......................................... 19
5 Antarmuka sistem clustering dokumen ..................................................................................... 20
6 Antarmuka hasil temu kembali dokumen .................................................................................. 20
viii
PENDAHULUAN dokumen terkelompok ke dalam satu atau
lebih kelas.
Latar Belakang
Tujuan Penelitian
Informasi dapat terbagi menjadi
bermacam-macam topik bahasan, dan dari Tujuan utama penelitian ini adalah
topik-topik bahasan tersebut dapat terbagi melakukan clustering dokumen berbahasa
menjadi subtopik-subtopik bahasan yang Indonesia dengan menggunakan teknik fuzzy
lebih spesifik. Subtopik dari suatu informasi C-Means dan mengimplementasikannya ke
dapat mempersempit ruang lingkup dari dalam sistem temu kembali informasi.
informasi, sehingga pencarian informasi yang Ruang Lingkup Penelitian
sesuai dengan kebutuhan pengguna akan lebih
mudah. Pada saat ini banyak sekali informasi Dokumen yang digunakan dalam
yang beragam terkumpul menjadi satu yang penelitian ini adalah dokumen berbahasa
menyebabkan kesulitan bagi pengguna untuk Indonesia yang memiliki struktur XML yang
mendapatkan informasi yang sesuai. Untuk tersedia di laboratorium Temu Kembali
itu, diperlukan suatu teknik yang dapat Informasi dan laboratorium Computational
membentuk dan mengumpulkan informasi Intelligence Departemen Ilmu Komputer IPB.
berdasarkan topik dan subtopik yang dimiliki Dokumen ini merupakan dokumen jurnal
oleh informasi tersebut. Salah satu teknik pertanian yang berjumlah 324 dokumen dan
yang dapat membentuk dan mengumpulkan dokumen tanaman obat yang berjumlah 93
informasi berdasarkan topik dan subtopik dokumen.
yang dimilikinya adalah clustering dokumen. Manfaat Penelitian
Clustering dokumen akan Manfaat dari penelitian ini adalah
mengelompokkan dokumen yang mengelompokkan dokumen berbahasa
merepresentasikan satu topik tertentu ke Indonesia ke dalam cluster yang ada
dalam cluster tertentu pula. Menurut Manning berdasarkan derajat keanggotaan yang
et al. (2008) clustering dokumen bertujuan dimiliki setiap dokumen terhadap suatu
untuk membuat cluster yang koheren secara cluster. Dengan demikian, pada proses temu
internal, tetapi jelas berbeda dengan cluster kembali informasi, pencarian dokumen
lainnya. Hal tersebut menunjukkan bahwa relevan hanya dilakukan pada cluster yang
dokumen dalam cluster yang sama harus relevan. Teknik yang digunakan untuk
semirip mungkin dan dokumen dalam satu mengelompokkan dokumen berbahasa
cluster harus berbeda dari dokumen dalam Indonesia (jurnal hortikultura dan dokumen
cluster lain. tanaman obat) adalah teknik fuzzy C-Means.
Beberapa penelitian mengenai clustering
dokumen telah dilakukan, seperti penelitian
yang dilakukan oleh Wibisono dan Khodra TINJAUAN PUSTAKA
tahun 2005 yaitu clustering berita berbahasa
Indonesia dengan menggunakan algoritme K- Information Retrieval (IR)
Means. Hasil dari penelitian tersebut masih
memiliki kekurangan karena kualitas cluster Menurut Baeza-Yates & Ribeiro-Neto
yang dihasilkan belum terlalu baik. Penelitian information retrieval atau yang dalam bahasa
mengenai clustering selanjutnya adalah Indonesia adalah temu kembali informasi
penelitian yang dilakukan oleh Hizry berkaitan dengan representasi, organisasi,
Ramdani pada tahun 2011. Penelitian tersebut akses, dan penyimpanan informasi.
melakukan clustering konsep dokumen Representasi dan organisasi informasi harus
berbahasa Indonesia dengan menggunakan menyediakan kemudahan untuk mengakses
Bisecting K-Means. Metode yang digunakan informasi yang diinginkan oleh pengguna.
pada penelitian tersebut merupakan hard Akan tetapi, karakterisasi kebutuhan
clustering yang diterapkan pada enam kelas informasi pengguna bukan merupakan
dokumen yang berbeda. Dokumen sering perkara yang mudah. Oleh karena itu,
memiliki kecenderungan untuk pengguna harus menginterpretasikan
dikelompokkan ke dalam lebih dari satu informasi yang dibutuhkannya menjadi
kelas, sesuai dengan derajat keanggotaannya. sebuah query yang dapat diproses oleh search
Oleh karena itu perlu dilakukan engine (IR system). Query merupakan
pengelompokan dokumen menggunakan kumpulan kata kunci yang merangkum
Fuzzy C-Means yang memungkinkan deskripsi dari informasi yang dibutuhkan
1
pengguna, sehingga IR system akan didasarkan pada inverse document frequency
menemukembalikan informasi yang mungkin (IDF) dalam koleksi dokumen. Tujuan
berguna atau relevan dengan kebutuhan pembobotan ini adalah term yang muncul di
pengguna. banyak dokumen memiliki kekuatan yang
berbeda. Hal ini dilakukan dengan
Clustering
melakukan perkalian tiap term i dengan
Clutering merupakan proses log , dengan N adalah jumlah
pengelompokan sekumpulan objek ke
dokumen dalam koleksi dan adalah
dalam beberapa kelas. Tujuannya adalah
jumlah dokumen yang mengandung term i
untuk membuat cluster yang koheren secara
(document-frequency). Representasi tf-idf
internal, tetapi jelas berbeda dengan cluster
pada sebuah dokumen adalah sebagai
lainnya. Objek-objek dalam suatu cluster
berikut (Karypis G & Han E 2000):
yang sama harus semirip mungkin satu sama

lain dan objek-objek dalam suatu cluster = 1 log , 2 log , . . , log .
1 2
harus berbeda dengan objek-objek dalam
cluster lain (Manning et al. 2008). Fuzzy C-Means
Clustering merupakan teknik Fuzzy C-Means (FCM) adalah salah satu
unsupervised learning. Tidak adanya metode yang paling umum digunakan dalam
supervisi berarti tidak ada campur tangan fuzzy clustering. FCM adalah suatu teknik
manusia dalam memasukkan objek-objek ke clustering data yang keberadaan tiap titik data
dalam kelas yang ada. Secara garis besar suatu cluster ditentukan oleh derajat
metode clustering dibagi ke dalam dua keanggotan (membership degree). Teknik ini
grup yaitu flat clustering dan hierarchical pertama kali diperkenalkan oleh James
clustering. Pada flat clustering setiap objek Bezdek pada tahun 1981.
memiliki peluang yang sama untuk masuk ke Konsep dasar FCM adalah sebagai
kelas-kelas yang ada dan tidak memiliki level berikut:
tertentu untuk masuk ke dalam sebuah 1. Tentukan pusat cluster, yang akan
cluster. Selain itu, dalam flat clustering, menandai lokasi rata-rata untuk tiap-tiap
jumlah kelas yang akan diproses sudah cluster. Pada kondisi awal, pusat cluster
ditentukan sebelumnya. Pada hierarchical ini masih belum akurat. Tiap-tiap titik data
clustering setiap objek memiliki ukuran memiliki derajat keanggotaan untuk tiap-
tertentu sehingga objek tersebut masuk ke tiap cluster.
dalam cluster tertentu pula. Hierarchical 2. Perbaiki pusat cluster dan derajat
clustering digambarkan dalam bentuk keanggotaan tiap-tiap titik data secara
dendogram dan jumlah cluster dapat berulang, maka akan dapat dilihat bahwa
berjumlah berapa saja tergantung pada pusat cluster akan bergerak menuju suatu
pemotongan dendogram (Manning et al. lokasi yang tepat. Perulangan ini
2008). Clustering memiliki dua jenis, yaitu didasarkan pada minimisasi fungsi
hard clustering dan soft clustering. Pada hard objektif yang menggambarkan jarak dari
clustering, suatu objek merupakan anggota titik data yang diberikan ke pusat cluster
dari tepat satu cluster, sedangkan pada soft yang terboboti oleh derajat keanggotaan
clustering suatu objek dimungkinkan titik data tersebut.
berasosiasi dengan banyak cluster dengan Output dari FCM bukan merupakan fuzzy
adanya derajat keanggotaan (membership inference system, namun merupakan deretan
degree) antara setiap pasang objek dengan pusat cluster dan beberapa derajat
cluster (Kondadadi & Kozma 2002). keanggotaan untuk tiap-tiap titik data.
Pemodelan Ruang Vektor Informasi ini dapat digunakan untuk
membangun suatu fuzzy inference system
Dokumen-dokumen direpresentasikan (Hadi 2005).
sebagai vektor. Dalam sebuah koleksi, tiap
dokumen d dianggap sebagai vektor Confusion Matrix
dalam term-space. Masing-masing dokumen
digambarkan oleh term-frequency (TF) Confusion Matrix sering juga disebut
classification matrix merupakan sebuah
vektor = 1 , 2 , . . , dengan matriks yang memberikan gambaran penuh
adalah frekuensi term i dalam koleksi mengenai tingkat kesalahan serta kualitas
dokumen. Perbaikan model ini dilakukan prediksi sebuah model dengan format seperti
pada pembobotan masing-masing term pada Tabel 1. Beberapa definisi terkait
2
dengan evaluasi yang bisa dipakai melalui Menurut Manning et al. 2009,
confusion matrix (Antonius 2008) adalah memisahkan dokumen-dokumen yang mirip
sebagai berikut: kadang lebih buruk daripada menempatkan
pasangan dokumen yang tidak mirip ke
True Positive (TP) adalah proporsi dari
dalam cluster yang sama. Dengan demikian,
sample bernilai true yang diprediksi
dapat digunakan F-Measure dengan nilai
secara benar.
false negative lebih kuat dari nilai false
False Positive (FP) adalah proporsi antara
positive. Selanjutnya, akan diberikan nilai >
sample bernilai false yang salah
1 sehingga memberikan bobot yang lebih
diprediksi sebagai sample bernilai true.
untuk recall. F-Measure yang seimbang
False Negative (FN) adalah proporsi sample
memberikan bobot yang sama antara recall
bernilai true yang salah diprediksi sebagai 1
sample bernilai false. dan precision, dengan nilai = atau = 1.
2
True Negative (TN) adalah proporsi sample Hal ini dapat ditulis sebagai 1 atau
bernilai falseyang diprediksi secara benar. =1 sehingga persamaan menjadi:
Tabel 1 Format Confusion Matrix 2
=1 = .
+
Actual
Sphinx Search
TRUE FALSE
Sphinx search adalah full text search
True False engine yang merupakan salah satu teknik
Positive Positive untuk melakukan pencarian dokumen atau
TRUE
(TP) (FP) database yang disimpan dalam komputer.
Predicted False True Selama pencarian mesin pencari melewati
FALSE Negative Negative dan memeriksa seluruh kata yang ada pada
(FN) (TN) dokumen dan mencoba untuk mencocokkan
kata-kata tersebut dengan query yang
Dari confusion matrix dapat dihitung diberikan. pencarian seluruh kata yang
akurasi terhadap hasil klasifikasi data yang dilakukan secara lengkap pada dokumen
merupakan proporsi jumlah sample yang inilah yang disebut pencarian text lengkap
diprediksi secara tepat, terhadap jumlah (full-text search).
seluruh sample. Persamaan yang digunakan Full-text search unggul dalam pencarian
adalah: teks tidak terstruktur bervolume besar secara
+ cepat dan efisien serta memberikan hasil
= +++
. berdasarkan seberapa baik kemiripan suatu
F-Measure dokumen dengan query pengguna (Abbas
2011).
F-measure merupakan salah satu
perhitungan evaluasi dalam temu kembali
informasi yang mengombinasikan recall dan METODE PENELITIAN
precision. Nilai recall dan precision pada
suatu keadaan dapat memiliki bobot yang Penelitian ini secara garis besar
berbeda. Ukuran yang menampilkan timbal melakukan dua proses, yaitu proses training
balik antara recall dan precision adalah F- dan proses testing. Pada proses training
Measure yang merupakan bobot harmonic dilakukan pembentukan cluster dokumen,
mean dari recall dan precision. Berikut sedangkan pada proses testing dilakukan temu
adalah persamaan F-Measure: kembali dokumen hasil clustering
1 2 + 1 berdasarkan query yang diberikan pengguna,
= = kemudian hasil temu kembali tersebut
1 1 2 +
+ 1 dievaluasi. Secara garis besar metode

penelitian yang digunakan dalam penelitian
dengan
ini adalah seperti Gambar 1.
1
2 = , 0,1 dan 2 0, .

= + , = + .
3
Training terdiri atas minimal tiga huruf. Selain itu,
Praproses tanda baca yang terdapat dalam dokumen
dihilangkan sehingga tidak ikut diproses.
Stopwords merupakan daftar kata-kata
Clustering yang dianggap tidak memiliki makna. Kata
yang tercantum dalam daftar ini dibuang dan
tidak ikut diproses pada tahap selanjutnya.
Pada umumnya kata-kata yang masuk ke
Model dalam stopwords memiliki tingkat
Cluster kemunculan yang tinggi di setiap dokumen
sehingga kata tersebut tidak dapat
digunakan sebagai penciri suatu dokumen.
Search Membentuk Inverted Index dengan
Query Evaluasi
engine menggunakan pembobotan tf.idf
Hasil dari tahap praproses adalah term
Testing terpilih yang akan digunakan pada vector
space model. Pada term terpilih tersebut
Gambar 1 Metode Penelitian. dilakukan pembobotan dengan menggunakan
tf.idf. Pembobotan pada term dapat
Koleksi Dokumen membantu pembedaan istilah-istilah yang
Penelitian ini menggunakan dua koleksi lebih penting untuk tujuan penemukembalian
dokumen yang berjumlah 324 untuk (Ridha 2001). Pembobotan tf.idf merupakan
dokumen jurnal hortikultura dan 93 untuk perkalian antara frekuensi kemunculan term
dokumen tanaman obat. Koleksi dokumen dengan fungsi inverse document frequency
yang digunakan telah diketahui jumlah (Salton 1989 dalam Ridha 2002).
kelasnya. Dokumen jurnal hortikultura
memiliki tiga cluster, yaitu Ekofisiologi dan
= .log ,

Agronomi, Pemuliaan dan Teknologi Benih,
serta Proteksi. Jumlah cluster untuk dengan
mengelompokkan dokumen tanaman obat 1. adalah bobot term ke-j dokumen ke-i
adalah tujuh cluster yaitu Kronis, Kulit, 2. adalah frekuensi kemunculan term
Nyeri-Radang-Demam, Pencernaan,
ke-j dokumen ke-i
Perawatan, Pernapasan, dan Saluran kemih
3. adalah frekuensi dokumen yang
yang merupakan cluster dari dokumen yang
mengulas khasiat tanaman obat dalam mengandung term ke-j
mengobati penyakit. 4. adalah jumlah dokumen dalam koleksi.
Dokumen yang digunakan diperoleh dari Implementasi Sistem

koleksi dokumen (korpus) milik laboratorium Setelah tahap praproses dan pembobotan
Temu Kembali Informasi dan laboratorium selesai dilakukan, langkah selanjutnya adalah
Computational Intelligence Departemen Ilmu pembentukan cluster dokumen dengan
Komputer IPB. Isi dari dokumen tidak diubah menggunakan Fuzzy C-Means (FCM).
sehingga kesalahan ejaan dan tata bahasa Tujuan dari algoritme FCM adalah untuk
tidak diperbaiki. menemukan pusat cluster (centroid) dengan
Praproses meminimumkan fungsi objektif (Win & Mon
2010). Fungsi objektif yang digunakan pada
Pada tahap praproses dilakukan FCM adalah:
lowercasing, tokenisasi, dan pembuangan

stopwords. Lowercasing adalah proses untuk 2
mengubah semua huruf mejadi huruf non- =
capital agar menjadi case-insensitive pada =1 =1 =1
saat dilakukan pemrosesan teks dokumen.
dengan
Tokenisasi adalah suatu tahap pemrosesan
teks input yang dibagi menjadi unit-unit kecil 1. merupakan bobot term ke-j pada
yang disebut token. Dalam penelitian ini unit dokumen ke-i
terkecil yang digunakan adalah kata yang
4
2. merupakan centroid term ke-j clustering. Untuk menghitung F-Measure
terhadap cluster ke-k dibutuhkan pengetahuan mengenai
3. merupakan derajat keanggotaan pengelompokan dokumen yang telah
dokumen ke-i terhadap cluster ke-k dianggap benar. Dalam penelitian ini,
4. adalah indeks dokumen pengelompokan dokumen yang telah
5. adalah indeks term dianggap benar adalah pengelompokan yang
6. adalah indeks cluster dilakukan dengan cara manual (Ramdani
7. w adalah derajat fuzzy, w [1,]. 2011).
Algoritme Fuzzy C-Means secara Lingkungan Implementasi
keseluruhan adalah sebagai berikut: Lingkungan implementasi yang dalam
1. Memasukkan data yang akan penelitian ini adalah sebagai berikut:
dikelompokkan berupa martiks berukuran Perangkat lunak:
nxm (n adalah jumlah dokumen, m adalah
jumlah kata) dan tentukan parameter yang Sistem operasi Windows 7
terlibat, yaitu: PHP
Jumlah cluster (c); Sphinx
Tingkat fuzzy (w); Perangkat keras:
Maksimum iterasi (MaxIter); Processor Intel Core 2 Duo 1,50GHz
Error terkecil yang diharapkan (e); RAM 2 GB
Fungsi objektif awal ( 0 = 0); Hardisk dengan kapasitas 120 GB
Iterasi awal ( t = 1);
2. Membangkitkan bilangan acak ik sebagai
derajat keanggotaan, dengan i adalah HASIL DAN PEMBAHASAN
indeks dokumen (i=1,2,,n) dan k adalah
indeks cluster (k = 1,2,,c) sebagai Karakteristik Dokumen
elemen-elemen matriks partisi awal .
Dokumen yang digunakan dalam
3. Menghitung pusat cluster ke-k:
penelitian ini adalah dokumen berbahasa
dengan k = 1, 2, 3, ,c dan j=1, 2, 3, Indonesia yaitu dokumen jurnal hortikultura
,m.
dan dokumen tanaman obat. Jumlah dokumen
yang digunakan adalah 324 dokumen untuk
=1 x
= . jurnal hortikultura dan 93 dokumen tanaman

=1 obat. Koleksi dokumen jurnal hortikultura
terbagi ke dalam tiga cluster, yaitu
4. Menghitung fungsi objektif pada iterasi Ekofisiologi dan Agronomi, Pemuliaan dan
ke-t, Teknologi Benih, serta Proteksi. Dokumen
tanaman obat terbagi ke dalam tujuh cluster,
2
=
. yaitu Kronis, Kulit, Nyeri-Radang-Demam,
=1 =1 =1 Pencernaan, Perawatan, Pernapasan, dan
Saluran kemih.
5. Meng-update derajat keanggotaan
Seluruh dokumen yang digunakan dalam
1 penelitian ini berformat plain-text yang
2 1
=1 memiliki struktur XML. Struktur tulisan
= 1 . dokumen jurnal hortikultura dapat dilihat
2 1
=1 =1 pada Gambar 2, sedangkan struktur tulisan
dokumen tanaman obat dapat dilihat pada
6. Mengecek kondisi berhenti: Gambar 3.
Jika ( | 1 | < e) atau (t >
Dokumen dikelompokkan ke dalam beberapa
MaxIter) maka berhenti. tag sebagai berikut:
Jika tidak : t = t+1, mengulangi
kembali iterasi dimulai dari langkah <DOCID></DOCID>,
ke-3. menunjukkan ID dari dokumen
jurnal hortikultura.
Evaluasi <DOCNO></DOCNO>,
Evaluasi dilakukan dengan menghitung menunjukkan ID dari dokumen
F-Measure keseluruhan cluster hasil tanaman obat.
5
<content></content>, karakteristik dokumen yang berbeda. Ukuran
menunjukkan isi atau informasi dari threshold yang dipilih disesuaikan dengan
dokumen. seluruh koleksi dokumen, sehingga dari setiap
<nama></nama>, menunjukkan dokumen terdapat kata-kata yang memiliki
nama tanaman obat pada dokumen bobot lebih besar dari threshold dan
tanaman obat. merepresentasikan dokumennya. Karena
<namal></namal>, semakin sering suatu kata muncul pada suatu
menunjukkan nama latin tanaman dokumen (selain kata yang termasuk ke dalam
obat pada dokumen tanaman obat. stopwords), maka diduga semakin penting
kata itu untuk dokumen tersebut (Manning et
<fam></fam>,
al. 2009).
menunjukkan nama family dari
tamanan obat pada dokumen Clustering Dokumen dengan Fuzzy C-
tanaman obat.
Means
<penyakit></penyakit>,
Clustering dokumen jurnal hortikultura
menunjukkan penyakit yang
dan dokumen tanaman obat dilakukan
berkaitan dengan tanaman obat pada
dengan menggunakan algoritme Fuzzy C-
dokumen tanaman obat.
Means (FCM) dengan input sebagai berikut:
Dalam penelitian ini, pemrosesan text hanya
1. Term yang telah dihitung bobotnya
dilakukan pada text yang berada di antara tag
menggunakan tf.idf dan bernilai lebih dari
<content> dan </content>, sehingga
threshold
text yang berada di dalam tag lainnya tidak 2. Jumlah cluster (c), yaitu tiga cluster untuk
diproses. dokumen jurnal hortikultura dan tujuh
<docId>dok001.txt</docId>
cluster untuk dokumen tanaman obat
<content>Akhir-akhir ini kentang 3. Pengontrol tingkat fuzzy (w), yaitu dua
menjadi tanaman prioritas dan dan untuk pembanding sebesar tiga
mempunyai nilai ekonomi tinggi. 4. Jumlah maksimum iterasi (maxIter)
Produksi umbi kentang di sebesar 100 iterasi
Indonesia masih rendah sehingga 5. Nilai error (e) sebesar 110 .
</content>
Untuk meringkas dan memudahkan penulisan
Gambar 2 Struktur dokumen jurnal nama cluster, maka dilakukan penamaan
hortikultura. seperti pada Tabel 2.
Tabel 2 Keterangan penamaan cluster
<DOCNO>001</DOCNO>
<nama>Akar Kuning</nama> Dokumen Jurnal Hortikultura
<namal>Arcangelisia flava (L.)
C1 Ekofisiologi dan Agronomi
Merr.</namal>
<fam>Menispermaceae</fam> C2 Pemuliaan dan Teknologi Benih
<penyakit>Pencernaan</penyakit>
C3 Proteksi
<content> Famili:Menispermaceae
</content> Dokumen Tanaman Obat
Gambar 3 Struktur dokumen tanaman obat. C1 Kronis
C2 Kulit
Pembuangan Stopwords dan Term
Pada tahap praproses dilakukan C3 Nyeri-Radang-Demam
pembuangan term di dalam dokumen yang
C4 Pencernaan
termasuk ke dalam stopwords dan term yang
memiliki bobot (tf.idf) kurang dari threshold. C5 Perawatan
Threshold yang digunakan pada penelitian ini
adalah sebesar 1.5 dan 3 untuk dokumen C6 Pernapasan
jurnal hortikultura, sedangkan untuk dokumen C7 Saluran kemih
tanaman obat digunakan threshold sebesar 1.5
dan 0.75. Ukuran threshold yang berbeda
antara dokumen jurnal hortikultura dengan
dokumen tanaman obat dikarenakan
6
1. Clustering Dokumen Jurnal Hortikultura di atas menghasilkan F-Measure sebesar
67.28% dan akurasi sebesar 78.19%.
Perhitungan pertama adalah melakukan
clustering terhadap dokumen jurnal Tabel 5 Nilai aktual-prediksi jurnal
hortikultura dengan menggunakan nilai w = hortikultura dengan w = 2 dan threshold = 1.5
2 dan threshold = 3. Tabel aktual-prediksinya
dapat dilihat pada Tabel 3 dan Confusion Prediksi
Matrix dari hasil nilai aktual-prediksinya C1 C2 C3
ditunjukkan pada Tabel 4.
C1 72 19 17
Tabel 3 Nilai aktual-prediksi jurnal
hortikultura dengan w = 2 dan threshold = 3 aktual C2 8 78 16
Prediksi C3 28 18 68
C1 C2 C3
Tabel 6 Confusion matrix jurnal hortikultura
C1 81 17 10 dengan w = 2 dan threshold = 1.5
aktual C2 5 65 32 TRUE FALSE
C3 29 41 44 TP FP
TRUE
218 106
Tabel 4 Confusion matrix jurnal hortikultura
FN TN
dengan w = 2 dan threshold = 3
FALSE
106 542
TRUE FALSE
TP FP
TRUE Setelah dilakukan clustering pada
190 134
dokumen jurnal hortikultura, maka dapat
FN TN diketahui bahwa tingkat akurasi clustering
FALSE dengan nilai w = 2 dan threshold = 1.5 lebih
134 514
baik dibandingkan dengan clustering
menggunakan nilai w = 2 dan threshold = 3.
Berdasarkan Tabel 4, total pengujian
Diagram perbandingan akurasi hasil
koleksi dokumen jurnal hortikultura terhadap
clustering dengan menggunakan nilai w = 2
tiga cluster dengan nilai w = 2 dan threshold
dan threshold = 1.5 dengan nilai w = 2 dan
= 3 terdapat 190 dokumen yang
threshold = 3 ditunjukkan pada Gambar 4.
dikelompokkan secara benar, dan total
dokumen yang salah dikelompokkan
sebanyak 134 dokumen. Nilai recall untuk
hasil ini adalah 58.64% dan nilai precision 100.00%
adalah 58.64%. Oleh karena itu perhitungan 90.00% 78.19%
di atas menghasilkan F-Measure sebesar 80.00% 72.42%
58.64% dan akurasi sebesar 72.42%. 70.00%
Akurasi
60.00%
Perhitungan kedua adalah melakukan 50.00%
clustering terhadap dokumen jurnal 40.00%
hortikultura dengan menggunakan nilai w = 2 30.00%
dan threshold = 1.5. Tabel aktual-prediksinya 20.00%
dapat dilihat pada Tabel 5 dan Confusion 10.00%
Matrix dari hasil nilai aktual-prediksinya 0.00%
T=3 T = 1.5
ditunjukkan pada Tabel 6.
Series 1 72.42%
w=2 78.19%
w=2
Berdasarkan Tabel 6 dapat dilihat bahwa
total pengujian koleksi dokumen jurnal
hortikultura terhadap tiga cluster dengan nilai w dan threshold (T)
w = 2 dan threshold = 1.5 terdapat 218
dokumen yang dikelompokkan secara benar, Gambar 4 Diagram akurasi nilai w = 2 dan
dan total dokumen yang salah dikelompokkan T = 1.5 dengan nilai w = 2 dan T = 3
hasil ini adalah 67.28% dan nilai precision
adalah 67.28%. Oleh karena itu perhitungan
7
Selain menggunakan nilai threshold yang antara penggunaan nilai w = 2 dan w = 3
berbeda, untuk mengetahui pengaruh dapat dilihat pada Gambar 5.
parameter w terhadap hasil clustering dengan
menggunakan algoritme FCM, maka
100.00%
dilakukan perhitungan clustering dengan
90.00% 78.19%
menggunakan nilai w = 3 dengan nilai 73.87%
80.00%
threshold = 1.5. Tabel aktual-prediksinya
70.00%
dapat dilihat pada Tabel 7 dan Confusion
60.00%
Matrix dari hasil nilai aktual-prediksinya
Akurasi
50.00%
seperti pada Tabel 8.
40.00%
30.00%
Tabel 7 Nilai aktual-prediksi jurnal
20.00%
hortikultura dengan w = 3 dan threshold = 1.5
10.00%
Prediksi 0.00%
T = 1.5 T = 1.5
C1 C2 C3 w=2
Series 1 78.19% w =3
73.87%
C1 65 22 21
aktual C2 12 71 19 w dan threshold (T)
C3 33 20 61 Gambar 5 Diagram akurasi nilai w = 2 dan

T = 1.5 dengan nilai w = 3 dan T = 1.5
Tabel 8 Confusion matrix jurnal hortikultura Selisih jumlah dokumen hasil clustering
dengan w = 3 dan threshold = 1.5 dengan penggunaan nilai parameter w yang
TRUE FALSE berbeda tidak terlalu signifikan yang dapat
disebabkan oleh jumlah dokumen yang
TP FP
digunakan tidak terlalu besar. Menurut James
TRUE
197 127 Bezdek tahun 1984, tidak ada petunjuk secara
FN TN
teoritikal ataupun secara komputasional
FALSE mengenai penggunaan parameter w sebagai
127 521 parameter pengontrol tingkat fuzzy yang
optimal. Berdasarkan percobaan yang
dilakukan, penggunaan nilai w yang semakin
besar akan menyebabkan distribusi data
total pengujian koleksi dokumen jurnal
menjadi kurang baik, sehingga menyebabkan
hortikultura terhadap tiga cluster dengan nilai akurasi hasil clustering menurun. Oleh
w = 3 dan threshold = 1.5 terdapat 197 karena itu, untuk clustering dokumen
dokumen yang dikelompokkan secara benar, tanaman obat hanya akan digunakan nilai w =
dan total dokumen yang salah dikelompokkan 2.
hasil ini adalah 60.80% dan nilai precision Distribusi dokumen hasil clustering pada
adalah 60.80%. Oleh karena itu perhitungan umumnya akan berubah dengan penetapan
di atas menghasilkan F-Measure sebesar jumlah cluster yang berbeda-beda. Untuk
60.80% dan akurasi sebesar 73.87%. melihat distribusi dokumen jurnal hortikultura
terhadap jumlah cluster yang ditentukan,
Untuk melihat pengaruh nilai w terhadap maka selain dilakukan clustering menjadi tiga
hasil clustering dokumen jurnal hortikultura
cluster, dilakukan pula clustering menjadi
menggunakan algoritme FCM, dapat
empat cluster dan lima cluster (Tabel 9 dan
dibandingkan hasil yang diperoleh antara 10).
penggunaan nilai w = 2 dan threshold = 1.5
dengan w = 3 dan threshold = 1.5. Dari hasil Berdasarkan Tabel 9 dan 10, dapat
yang ditunjukkan sebelumnya oleh Tabel 6 diketahui bahwa koleksi dokumen jurnal
dan Tabel 8, dapat dilihat bahwa selisih hasil hortikultura yang terbagi ke dalam tiga cluster
dokumen yang secara benar dikelompokkan ternyata dapat dikelompokkan ke dalam
dengan menggunakan algoritme FCM adalah empat cluster dan lima cluster. Hal tersebut
21 dokumen, dengan w = 2 yang berhasil menandakan bahwa dari tiga cluster hasil
melakukan clustering terhadap 21 dokumen pengelompokan oleh manusia, ternyata dapat
tersebut dengan benar. Perbandingan akurasi dikelompokkan kembali menjadi sejumlah
8
cluster lain oleh sistem. Pengelompokan Tabel 12 Confusion matrix dokumen
yang dilakukan oleh sistem mampu tanaman obat dengan w = 2 dan threshold =
menghasilkan cluster dokumen baru yang 1.5
lebih spesifik, yang sebelumnya berdasarkan
pengelompokan oleh manusia dianggap TRUE FALSE
termasuk ke dalam cluster yang lebih umum. TP FP
TRUE
Tabel 9 Hasil clustering terhadap empat 49 44
cluster FN TN
FALSE
Prediksi 44 514
C1 C2 C3 C4 Berdasarkan Tabel 12 total pengujian

C1 69 13 9 5 koleksi dokumen tanaman obat terhadap
tujuh cluster dengan nilai w = 2 dan
aktual C2 21 89 14 3 threshold = 1.5 terdapat 49 dokumen yang
dikelompokkan secara benar, dan total
C3 13 11 74 3
dokumen yang salah dikelompokkan adalah
44 dokumen. Nilai recall untuk hasil ini
Tabel 10 Hasil clustering terhadap lima adalah 52.69% dan nilai precision adalah
cluster 52.69%. Oleh karena itu perhitungan di atas
menghasilkan F-Measure sebesar 52.69% dan
Prediksi
akurasi sebesar 86.48%.
C1 C2 C3 C4 C5
Perhitungan kedua untuk clustering
C1 72 23 11 1 1 dokumen tanaman obat adalah dengan
menggunakan nilai w = 2 dan threshold =
aktual C2 12 83 6 0 1
0.75. Tabel aktual-prediksinya dapat dilihat
C3 11 20 71 1 1 pada Tabel 13 dan Confusion Matrix dari
hasil nilai aktual-prediksinya ditunjukkan
pada Tabel 14.
2. Clustering Dokumen Tanaman Obat Tabel 13 Nilai aktual-prediksi dokumen
Clustering dokumen tanaman obat yang tanaman obat dengan w = 2 dan threshold =
berjumlah 93 dilakukan dengan menggunakan 0.75
nilai w = 2 dengan nilai threshold sebesar 1.5
Prediksi
dan 0.75. Perhitungan pertama untuk C1 C2 C3 C4 C5 C6 C7
clustering dokumen tanaman obat adalah C1 4 1 0 2 1 1 0
dengan menggunakan nilai w = 2 dan C2 0 6 1 1 0 2 0
threshold = 1.5. Tabel aktual-prediksinya C3 1 0 14 0 0 1 4
dapat dilihat pada Tabel 11 dan Confusion C4 5 2 0 12 0 1 0
Matrix dari hasil nilai aktual-prediksinya C5 1 0 7 2 13 1 0
dapat dilihat pada Tabel 12. C6 0 0 1 0 0 3 0
Tabel 11 Nilai aktual-prediksi dokumen C7 0 0 2 0 0 0 4
tanaman obat dengan w = 2 dan threshold =
1.5 Tabel 14 Confusion matrix dokumen tanaman
obat dengan w = 2 dan threshold = 0.75
Prediksi
C1 C2 C3 C4 C5 C6 C7 TRUE FALSE
C1 5 1 1 2 0 0 0
TP FP
C2 0 7 2 0 0 0 1 TRUE
C3 0 6 9 0 0 2 3 54 39
C4 2 4 0 13 0 1 0 FN TN
C5 0 2 3 3 10 4 2 FALSE
C6
39 519
0 2 0 0 0 2 0
C7 1 2 0 0 0 0 3
total pengujian koleksi dokumen tanaman
obat terhadap tujuh cluster dengan nilai w =
2 dan threshold = 0.75 terdapat 54 dokumen
9
yang dikelompokkan secara benar, dan total menggunakan w = 2 dengan threshold = 1.5
dokumen yang salah dikelompokkan adalah untuk dokumen jurnal hortikultura dan w = 2
39 dokumen. Nilai recall untuk hasil ini dengan threshold 0.75 untuk dokumen
adalah 58.06% dan nilai precision adalah tanaman obat.
58.06%. Oleh karena itu perhitungan di atas
Temu Kembali Informasi
menghasilkan F-Measure sebesar
58.06% dan akurasi sebesar 88.01%. Setelah hasil clustering didapat, maka
dokumen-dokumen yang ada dalam koleksi
Setelah clustering dokumen tanaman obat
sudah terkumpul dalam cluster masing-
dilakukan, maka dapat dilihat bahwa tingkat
masing berdasarkan algoritme FCM. Proses
akurasi clustering dengan nilai w = 2 dan
akhir dari penelitian ini adalah proses temu
threshold = 0.75 lebih baik dibandingkan
kembali informasi yang dibangun dengan
dengan clustering menggunakan nilai w = 2
menggunakan Sphinx search. Sebelum tahap
dan threshold = 1.5. Diagram perbandingan
temu kembali informasi dengan menggunakan
akurasi hasil clustering dokumen tanaman
Sphinx search dapat dilakukan, harus
obat dengan menggunakan nilai w = 2 dan
melakukan indexing terlebih dahulu terhadap
threshold = 1.5 dengan nilai w = 2 dan
seluruh dokumen dengan perintah seperti
threshold = 0.75 dapat dilihat pada Gambar 6.
pada Gambar 7.
C:\Sphinx\bin>indexer --
100.00% 88.01% config c:\sphinx\sphinx.conf
86.48%
90.00% --all
80.00%
70.00%
Gambar 7 Perintah indexing dokumen oleh
60.00%
Sphinx search
50.00%
Akurasi
40.00% Indexing dilakukan pada satu file XML

30.00% yang berisi seluruh koleksi dokumen yang ada
20.00% yang di dalamnya terdapat beberapa tag yang
10.00% dikenali oleh Sphinx search. Indexing yang
0.00% dilakukan oleh Sphinx search bertujuan agar
T = 1.5 T = 0.75 dokumen tersebut dapat dikenali dan dapat
Series 1 w=2
86.48% w =2
88.01% ditemu-kembalikan oleh Sphinx search.
Langkah selanjutnya adalah membuat
w dan threshold (T)
service untuk Sphinx search. Nama service
yang digunakan dalam penelitian ini yaitu
Gambar 6 Diagram akurasi nilai w = 2 dan SphinxJurnal untuk koleksi dokumen jurnal
T = 1.5 dengan nilai w = 2 dan T = 0.75 hortikultura dan SphinxTanob untuk koleksi
Berdasarkan seluruh hasil perhitungan dokumen tanaman obat. Pembuatan service
yang telah dilakukan terhadap dokumen untuk tanaman obat dilakukan dengan cara
jurnal hortikultura dan dokumen tanaman yang sama dengan mengganti servicename
obat, dapat dilihat bahwa penggunaan saja. Perintah untuk membuat service
threshold sebesar 1.5 untuk dokumen jurnal ditunjukkan oleh Gambar 8.
hortikultura dan threshold sebesar 0.75 untuk
dokumen tanaman obat memberikan hasil \Sphinx\bin\searchd --install
akurasi yang lebih baik. Berdasarkan hal --config
tersebut dapat diketahui bahwa penggunaan C:\Sphinx\sphinx.conf --
threshold yang sesuai dapat menghasilkan servicename SphinxJurnal
akurasi yang lebih baik. Karena dengan Gambar 8 Perintah pembuatan service Sphinx
penggunaan threshold yang terlalu besar, search
menyebabkan range bobot term yang masuk
dalam proses clustering menjadi lebih kecil Sphinx search menerima input query dari
dan menyebabkan tidak ikutnya term penciri pengguna dan mengembalikan dokumen-
yang bernilai lebih kecil dari threshold dalam dokumen yang sesuai dengan query.
proses clustering. Oleh karena itu, hasil Dokumen yang sesuai dengan query yang
clustering yang diimplementasikan pada ditemu-kembalikan oleh Sphinx search dapat
search engine adalah clustering dengan berupa dokumen-dokumen yang berasal dari
10
seluruh cluster yang ada, atau dapat berasal kemudian dihitung interpolasi maksimumnya
dari cluster tertentu saja. Apabila pengguna untuk mendapatkan nilai average precision
sudah mengetahui kelas dari informasi yang (AVP) yang menggambarkan kinerja sistem
dibutuhkannya terlebih dahulu, maka proses secara keseluruhan.
pencarian akan lebih efisien, karena fokus
Berdasarkan hasil pengujian terhadap
pencarian informasi hanya dilakukan pada
seluruh cluster pada dokumen tanaman obat
satu cluster saja.
didapat nilai average precision sebesar
Pengujian Kinerja Sistem 0.8931 (Lampiran 4). Hal tersebut
menunjukkan bahwa kinerja sistem temu
Proses pengujian kinerja sistem dilakukan
kembali terhadap hasil clustering dokumen
dengan melakukan pemeringkatan dokumen
tanaman obat sudah baik. Gambar 10
dengan memperhitungkan ukuran kesamaan
menunjukkan kinerja sistem pada pencarian
antara query dengan dokumen dan query
dokumen tanaman obat.
dengan pusat cluster. Ukuran kesamaan
antara query q dengan dokumen d pada c
adalah: 1
Sim(q,d|c) = aSim(q,d)+(1-a)Sim(q,c) , 0.9
0.8
dengan 0.7
Precision
0.6
1. Sim(q,d) adalah ukuran kesamaan antara 0.5
query q dengan dokumen d 0.4
2. Sim(q,c) adalah dot product antara query 0.3
q dengan pusat cluster c. 0.2
3. a adalah bobot (0 < a < 1). Pada 0.1
penelitian ini dipilih a = 0.5. 0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Pengujian pada Dokumen Jurnal
Hortikultura Recall
Proses pengujian kinerja sistem pada
keseluruhan koleksi dokumen tanaman obat Gambar 9 Grafik R-P pencarian pada
menggunakan 15 kueri uji (Lampiran 1). dokumen jurnal hortikultura
Pencarian dengan kueri uji bertujuan untuk
mendapatkan nilai recall dan precision dari
1
sistem temu kembali dokumen jurnal
0.9
hortikultura. Setelah nilai recall dan precision
0.8
didapat, kemudian dihitung interpolasi
maksimumnya untuk mendapatkan nilai 0.7
Precision
average precision (AVP) yang 0.6

menggambarkan kinerja sistem secara 0.5
keseluruhan. 0.4
0.3
Berdasarkan hasil pengujian terhadap 0.2
seluruh cluster pada dokumen jurnal 0.1
hortikultura didapat nilai average precision 0
sebesar 0.9562 (Lampiran 2). Hal tersebut
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
menunjukkan bahwa kinerja sistem temu
kembali terhadap hasil clustering dokumen Recall
jurnal hortikultura sudah baik. Gambar 9
menunjukkan kinerja sistem pada pencarian Gambar 10 Grafik R-P pencarian pada
dokumen jurnal hortikultura. dokumen tanaman obat
Pengujian pada Dokumen Tanaman Obat Pengujian pada dokumen jurnal
Proses pengujian kinerja sistem pada hortikultura mendapatkan hasil yang lebih
dokumen tanaman obat menggunakan 7 kueri baik dari pengujian dokumen tanaman obat.
uji (Lampiran 3). Pengujian ini dilakukan Hal ini karena dokumen jurnal hortikultura
untuk mendapat nilai recall dan precision dari lebih memiliki penciri yang berbeda dari
sistem temu kembali dokumen tanaman obat. dokumen lainnya dibandingkan dengan
Setelah nilai recall dan precision didapat, dokumen tanaman obat, sehingga sistem
11
dapat menemukembalikan dokumen relevan Baeza-Yates R, Ribeiro-Neto B. 1999.
yang lebih banyak. Modern Information Retrieval. England:
Addison Wesley.
Bezdek C James, Ehrlich R, Full W. 1984.
KESIMPULAN DAN SARAN FCM: The Fuzzy C-Means Clustering
Algorithm. Computers & Geosciences
Kesimpulan Vol. 10, No. 2-3, pp. 191-203. Pegamon
Berdasarkan hasil yang diperoleh, dapat Press Ltd. USA.
disimpulkan bahwa clustering dengan Hadi Y H. 2005. Pembagian Kelas Kuliah
menggunakan algoritme Fuzzy C-Means Mahasiswa Menggunakan Algoritma
dapat diterapkan pada dokumen berbahasa Pengklasteran Fuzzy. [skripsi]. Semarang:
Indonesia dengan topik pertanian. Ditinjau Jurusan Teknik Elektro, Universitas
dari segi hasil, kinerja sistem clustering Diponegoro.
terhadap dokumen jurnal hortikultura lebih
baik pada saat menggunakan nilai w = 2 Karypis G, Han E. 2000. Concept Indexing: A
sebagai parameter tingkat fuzzy dan threshold Fast Dimensionally Reduction Algorithm
= 1.5 sebagai batas minimun bobot term yang with Applications to Document Retrieval
diikutsertakan pada proses clustering. Kinerja & Categorization. Computer Science
sistem clustering terhadap dokumen tanaman and Engineering. University of
obat lebih baik pada saat menggunakan nilai Minnesota. Minneapolis.
w = 2 sebagai parameter tingkat fuzzy dan Kondadadi R, Kozma R. 2002. A Modified
threshold = 1.5. Penggunaan threshold pada Fuzzy ART for Soft Document Clustering.
tahap praproses dapat mengurangi dimensi Memphis: Division of Computer Science,
dokumen dan mempengaruhi hasil clustering. University of Memphis.
Clustering dokumen jurnal hortikultura Manning C D, Raghavan P, Schutze H.
yang dikelompokkan menjadi tiga cluster 2009. An Introduction to Information
oleh manusia ternyata dapat dikelompokkan Retrieval. Cambridge: Cambridge
menjadi empat cluster dan lima cluster oleh University Press.
sistem. Sistem mampu mendistribusikan
dokumen dan menghasilkan cluster dokumen Ramdani H. 2011. Clustering Konsep
baru yang lebih spesifik yang sebelumnya Dokumen Berbahasa Indonesia
berdasarkan pengelompokan oleh manusia menggunakan Bisecting K-Means.
dianggap termasuk ke dalam cluster yang [skripsi]. Bogor: Departemen Ilmu
lebih umum. Komputer, Institut Pertanian Bogor.
Saran Ridha A. 2002. Pengindeksan Otomatis

dengan Istilah Tunggal untuk Dokumen
Salah satu faktor yang menentukan tingkat Berbahasa Indonesia.[skripsi]. Bogor:
keakurasian hasil clustering adalah penentuan Departemen Ilmu Komputer, Institut
fitur atau penciri dokumen. Oleh karena itu Pertanian Bogor.
perlu dicobakan metode lain untuk
menentukan fitur dokumen. Win T T, Mon L. 2010. Document Clustering
by Fuzzy C-Mean Algorithm. IEEE : 978-
1-4244-5848-6/10.
DAFTAR PUSTAKA
Ali A. 2011. Sphinx Search Beginner's Guide.
Birmingham, England: Packt Publishing.
ISBN 978-1-84951-254-1.
Antonius T. 2008. Penggalian Pola Churn
Menggunakan Data Mining pada Institusi
Perbankan Nasional. [thesis].Jakarta:
Program Studi Magister Teknologi
Informasi, Universitas Indonesia.
12
LAMPIRAN
13
Lampiran 1 Gugus kueri dan jawaban dokumen jurnal hortikultura
Kueri Uji Dokumen Relevan Dokumen Hasil Temu

Kembali
cabai merah dok053.txt, dok059.txt, dok008.txt, dok053.txt,
dok061.txt, dok100.txt, dok059.txt, dok061.txt,
dok232.txt, dok283.txt dok223.txt, dok232.txt,
dok283.txt, dok298.txt
buah tropika dok025.txt, dok064.txt, dok025.txt, dok064.txt,
dok301.txt dok296.txt, dok301.txt
padi dok011.txt, dok089.txt, dok011.txt, dok089.txt,
dok108.txt, dok243.txt dok108.txt, dok243.txt
budidaya anggrek dok023.txt, dok110.txt, dok023.txt, dok110.txt,
dok186.txt dok186.txt
kultur in vitro dok023.txt, dok110.txt, dok023.txt, dok049.txt,
dok248.txt, dok259.txt dok135.txt, dok161.txt,
dok055.txt, dok061.txt,
dok307.txt
fungisida dok055.txt, dok061.txt, dok055.txt, dok061.txt,
genotip dok003.txt, dok015.txt, dok003.txt, dok015.txt,
hama penggerek dok051.txt, dok069.txt, dok051.txt, dok069.txt,
14
Lanjutan Lampiran 1 Gugus kueri dan jawaban dokumen jurnal hortikultura

Kembali
jagung dok051.txt, dok053.txt, dok051.txt, dok053.txt,
pupuk npk dok004.txt, dok007.txt, dok004.txt, dok007.txt,

dok244.txt dok160.txt, dok164.txt,
dok189.txt, dok244.txt
gladiol dok075.txt, dok099.txt, dok075.txt, dok099.txt,
tanah latosol dok024.txt, dok080.txt, dok024.txt, dok080.txt,
lalat buah dok064.txt, dok141.txt, dok064.txt, dok141.txt,
tunas dok033.txt, dok043.txt, dok033.txt, dok043.txt,
vaksin dok058.txt, dok297.txt, dok058.txt, dok297.txt,
15
Lampiran 2 Hasil analisis kinerja sistem temu kembali dokumen jurnal hortikultura
Titik Recall
Kueri Uji 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
cabai merah 1 1 1 1 0.9166667 0.9166667 0.9166667 0.9166667 0.9166667 0.9166667 0.8888889
buah tropika 1 1 1 1 0.9655172 0.9655172 0.9655172 0.9655172 0.9655172 0.9655172 0.9655172
padi 1 1 1 1 1 1 1 1 1 1 1
budidaya anggrek 1 1 1 1 1 1 1 1 1 1 1
kultur in vitro 0.6666667 0.6666667 0.6666667 0.6666667 0.5 0.5 0.5 0.4 0.4 0.4 0.4
fungisida 1 1 1 1 1 1 1 1 1 1 1
genotip 1 1 1 1 1 1 1 1 1 1 1
hama penggerek 1 1 1 1 1 1 1 0.9 0.9 0.9 0.9
jagung 1 1 1 1 1 1 1 1 1 1 1
pupuk npk 1 1 1 1 1 1 1 0.8461538 0.8064516 0.8064516 0.8064516
gladiol 1 1 1 1 1 1 1 1 1 1 1
tanah latosol 1 1 1 1 1 1 1 1 1 1 1
lalat buah 1 1 1 1 1 1 1 1 1 1 1
tunas 1 1 1 1 1 1 1 1 1 1 1
vaksin 1 1 1 1 1 1 1 1 1 1 1
Rata-rata
interpolasi 0.9777778 0.9777778 0.9777778 0.9777778 0.9588123 0.9588123 0.9588123 0.9352225 0.9325757 0.9325757 0.9307238
maksimum
0.9777778 +0.9777778 +0.9777778 +0.9777778 +0.9588123 +0.9588123 +0.9588123 +0.9352225 +0.9325757 +0.9325757 +0.9307238
AVP = 0.9562
11
16
Lampiran 3 Gugus kueri dan jawaban dokumen tanaman obat

Kembali
pencernaan 001.txt, 002.txt, 004.txt, 001.txt, 002.txt, 004.txt,
018.txt, 022.txt, 032.txt, 007.txt, 018.txt, 022.txt,
089.txt 063.txt, 065.txt, 070.txt,
072.txt, 073.txt, 074.txt,
076.txt, 078.txt, 079.txt,
081.txt, 085.txt, 088.txt,
089.txt
nyeri radang demam 003.txt, 008.txt, 016.txt, 003.txt, 005.txt, 008.txt,
085.txt, 086.txt 056.txt, 060.txt, 062.txt,
063.txt, 064.txt, 066.txt,
071.txt, 072.txt, 079.txt,
077.txt, 080.txt, 081.txt,
084.txt, 085.txt, 086.txt,
087.txt
kulit 005.txt, 017.txt, 026.txt, 002.txt, 005.txt, 006.txt,
091.txt 023.txt, 026.txt, 030.txt,
031.txt, 032.txt, 033.txt,
034.txt, 035.txt, 037.txt,
038.txt, 039.txt, 041.txt,
043.txt, 046.txt, 047.txt,
050.txt, 054.txt, 055.txt,
056.txt, 058.txt, 059.txt,
061.txt, 062.txt, 064.txt,
067.txt, 068.txt, 070.txt,
072.txt, 073.txt, 074.txt,
076.txt, 079.txt, 081.txt,
084.txt, 086.txt, 087.txt,
090.txt, 091.txt
perawatan 006.txt, 007.txt, 011.txt, 006.txt, 007.txt, 011.txt,
079.txt, 087.txt, 093.txt 061.txt, 064.txt, 068.txt,
069.txt, 071.txt, 075.txt,
076.txt, 079.txt, 087.txt,
092.txt, 093.txt
saluran kemih 009.txt, 025.txt, 042.txt, 009.txt, 025.txt, 042.txt,
081.txt, 086.txt, 090.txt
17
Lanjutan Lampiran 3 Gugus kueri dan jawaban dokumen tanaman obat

Kembali
pernapasan 010.txt, 024.txt, 040.txt, 010.txt, 013.txt, 016.txt,
045.txt, 060.txt 020.txt, 024.txt, 026.txt,
040.txt, 045.txt, 060.txt,
067.txt
kronis 014.txt, 015.txt, 020.txt, 006.txt, 014.txt, 015.txt,
047.txt, 048.txt, 051.txt,
052.txt, 064.txt, 065.txt,
074.txt, 077.txt, 078.txt,
080.txt, 088.txt, 082.txt,
083.txt, 092.txt
18
Lampiran 4 Hasil analisis kinerja sistem temu kembali dokumen tanaman obat
Titik Recall
Kueri Uji 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
kronis 1 1 1 1 1 0.4814815 0.4814815 0.4814815 0.4814815 0.4814815 0.4814815
kulit 1 0.875 0.875 0.875 0.875 0.875 0.875 0.3478261 0.3478261 0.3225806 0.3225806
nyeri radang
demam 1 1 1 1 1 1 1 1 1 1 0.7307692
pencernaan 1 1 1 1 1 1 1 0.9047619 0.9047619 0.9047619 0.9047619
perawatan 1 1 1 1 1 1 1 0.9444444 0.8518519 0.8518519 0.8297872
pernapasan 1 1 1 1 1 1 1 1 1 1 1
saluran kemih 1 1 1 1 1 1 1 1 1 0.7333333 0.7333333
Rata-rata
interpolasi 1 0.9821429 0.9821429 0.9821429 0.9821429 0.9080688 0.9080688 0.8112163 0.7979888 0.756287 0.7146734
maksimum
1+0.9821429 +0.9821429 +0.9821429 +0.9821429+0.9080688 +0.9080688 +0.8112163 +0.7979888 +0.756287 +0.7146734
AVP = 0.8931
11
19
Lampiran 5 Antarmuka sistem clustering dokumen
Lampiran 6 Antarmuka hasil temu kembali dokumen
20

Clustering Dokumen Berbahasa Indonesia Menggunakan: Fuzzy C-Means

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Clustering Dokumen Berbahasa Indonesia Menggunakan: Fuzzy C-Means

Uploaded by

Copyright:

Available Formats

CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN

DEPARTEMEN ILMU KOMPUTER

DEPARTEMEN ILMU KOMPUTER

Ir. Julio Adisantoso, M.Kom

Dr. Ir. Sri Nurdiati, M.Sc

Bogor, Agustus 2011

DAFTAR GAMBAR .....................................................................................................................viii

DAFTAR LAMPIRAN ..................................................................................................................viii

DAFTAR PUSTAKA ..................................................................................................................... 12

1 Format Confusion Matrix ............................................................................................................ 3

1 Metode Penelitian. ....................................................................................................................... 4

1 Gugus kueri dan jawaban dokumen jurnal hortikultura ............................................................ 14

Dokumen yang digunakan diperoleh dari Implementasi Sistem

C3 33 20 61 Gambar 5 Diagram akurasi nilai w = 2 dan

C1 C2 C3 C4 Berdasarkan Tabel 12 total pengujian

40.00% Indexing dilakukan pada satu file XML

average precision (AVP) yang 0.6

Saran Ridha A. 2002. Pengindeksan Otomatis

Kueri Uji Dokumen Relevan Dokumen Hasil Temu

Kueri Uji Dokumen Relevan Dokumen Hasil Temu

pupuk npk dok004.txt, dok007.txt, dok004.txt, dok007.txt,

Kueri Uji Dokumen Relevan Dokumen Hasil Temu

Kueri Uji Dokumen Relevan Dokumen Hasil Temu

Lampiran 6 Antarmuka hasil temu kembali dokumen

You might also like