Professional Documents
Culture Documents
LN10-Advance Method in Clustering-R1
LN10-Advance Method in Clustering-R1
LN10-Advance Method in Clustering-R1
Session 09
Bab IX
Overview
Pada bagian ini akan dijelaskan beberapa metode cluster dengan beberapa
pendekatan untuk permasalahan yang lebih kompleks dan real.
9.1. Pendahuluan
Pada pendekatan sederhana clustering dengan K-Means, klusterisasi
didasarkan pada nilai tengah dari setiap data, sehingga menghasilkan
cluster-cluster baru. Jumlah cluster pada awal clusterisasi juga sudah
didefinisikan dengan jelas. Pada pendekatan advanced method, terdapat
beberapa kompleksitas yang harus diselesaikan dengan tepat.
Advanced method in clustering terdiri atas 4 pendekatan utama di
antaranya probabilistic model-based clustering, clustering for high
dimensional data, clustering graph and network data dan clustering with
constraints.
Pada ilustrasi berikut ini akan dijelaskan contoh advanced dari fuzzy
clustering. Misalkan terdapat dataset seperti pada Tabel 2. Kita diminta
untuk meng-cluster data pada dua cluster, yaitu C1 dan C2. Pada cluster C1
dikhususkan untuk anggota “digital camera” dan “lens” sedangkan pada
cluster C2 untuk data komputer.
Tabel 2 Data set
Pada Teknik cut and cluster, terdapat dua potensi cut yang dapat dilakukan
yaitu C1 dan C2. Dalam hal ini, meskipun keduanya telah memenuhi
persyaratan graph cluster (minimum terdapat 1 cut dalam connected
graph) tetapi cut pada C2 adalah yang paling optimum karena mampu
mengcluster graph secara lebih natural.
Pada graph clustering terdapat beberapa tantangan yang perlu
diperhatikan diantaranya:
1 High computational cost. Many graphs cut problems are
computationally expensive. The sparsest cut problem is NP-hard
Need to tradeoff between efficiency/scalability and quality
2 Sophisticated graphs that it may involve weights and/or cycles.
3 High dimensionality that a graph can have many vertices. In a
similarity matrix, a vertex is represented as a vector (a row in the
matrix) whose dimensionality is the number of vertices in the graph
4 Sparsity A large graph is often sparse, meaning each vertex on
average connects to only a small number of other vertices. A
similarity matrix from a large sparse graph can also be sparse
Daftar Pustaka
Han J, Kamber M, Pei J. 2011. Data Mining. Concepts and Techniques, 3rd
Edition. Amsterdam: Morgan Kaufmann.
Zaki M, Meira W. 2013. Data Mining and Analysis: Fundamental Concepts and
Algorithms. Cambridge: Cambridge University Press.