LN10-Advance Method in Clustering-R1

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 9

LECTURE NOTES

ISYE8015 – Selected Topic in Industrial


Engineering

D6344 – Muhammad Asrol

Session 09

Advanced Method in Clustering

ISYE8015 – Selected Topic in Industrial Engineering


Daftar Isi

9 Advance Method in Clustering ................................................................................................ 3

9.1. Pendahuluan .................................................................................................................. 3

9.2. Probabilistic Model-Based Clustering.................................................................. 4

9.3. Clustering High Dimensional Data ........................................................................ 6

9.4. Graph clustering ........................................................................................................... 7

9.5. Clustering with constraint ........................................................................................ 8

Daftar Pustaka .............................................................................................................................. 9

ISYE8015 – Selected Topic in Industrial Engineering


9 Advance Method in Clustering 3

Bab IX

9 Advance Method in Clustering

Overview

Pada bagian ini akan dijelaskan beberapa metode cluster dengan beberapa
pendekatan untuk permasalahan yang lebih kompleks dan real.

9.1. Pendahuluan
Pada pendekatan sederhana clustering dengan K-Means, klusterisasi
didasarkan pada nilai tengah dari setiap data, sehingga menghasilkan
cluster-cluster baru. Jumlah cluster pada awal clusterisasi juga sudah
didefinisikan dengan jelas. Pada pendekatan advanced method, terdapat
beberapa kompleksitas yang harus diselesaikan dengan tepat.
Advanced method in clustering terdiri atas 4 pendekatan utama di
antaranya probabilistic model-based clustering, clustering for high

ISYE8015 – Selected Topic in Industrial Engineering


9 Advance Method in Clustering 4

dimensional data, clustering graph and network data dan clustering with
constraints.

9.2. Probabilistic Model-Based Clustering


Pada pendekatan probabilistic model-based clustering idenya adalah
setiap data memiliki probabilitas untuk dapat bergabung ke dalam suatu
cluster. Salah satu contoh Teknik dalam pendekatan ini adalah fuzzy cluster.
Pada fuzzy cluster, setiap data dalam data set memiliki derajat keanggotaan
[0,1] untuk dapat masuk ke dalam suatu cluster.
Untuk memudahkan analisis, berikut diberikan ilustrasi fuzzy
clustering. Misalkan ditetapkan bahwa pada suatu toko, jika suatu kamera
terjual lebih dari 1000 unit, maka derajat keanggotaannya adalah 1,
sedangkan jika terjual kurang dari 1000 unit, maka derajat keanggotaannya
adalah [0,1]. Constraint tersebut dapat dituliskan sebagai berikut:

Jika data penjualan kamera pada toko tersebut ditunjukan pada


Tabel 1, maka derajat keanggotaan setiap kamera berdasarkan constraint di
atas adalah sebagai berikut:
A(0.05), B(1), C(0.86), D(0.27)
Tabel 1. Data penjualan kamera

ISYE8015 – Selected Topic in Industrial Engineering


9 Advance Method in Clustering 5

Pada ilustrasi berikut ini akan dijelaskan contoh advanced dari fuzzy
clustering. Misalkan terdapat dataset seperti pada Tabel 2. Kita diminta
untuk meng-cluster data pada dua cluster, yaitu C1 dan C2. Pada cluster C1
dikhususkan untuk anggota “digital camera” dan “lens” sedangkan pada
cluster C2 untuk data komputer.
Tabel 2 Data set

Sehingga, berdasarkan komponen data dalam setiap data tupples, maka


dapat diketahui derajat keanggotaan pada setiap cluster, sebagai berikut:
C1 C2

Dapat dilihat bahwa pada data R4 ada kemungkinan data masuk ke


dalam dua cluster dengan derajat keanggotaan yang berbeda. Ini juga
menjadi dasar yang menyebutkan bahwa fuzzy clustering disebut juga
dengan soft clustering karena dapat meletakkan sebuah objek ke pada lebih
dari satu cluster berdasarkan derajat keanggotaannya.

ISYE8015 – Selected Topic in Industrial Engineering


9 Advance Method in Clustering 6

9.3. Clustering High Dimensional Data


Seperti diketahui, data science sering sekali berhadapan dengan data
data dengan dimensi yang sangat besar, yaitu atribut dan data tupples yang
sangat banyak. Pada permasalahan tersebut diperlukan clusterisasi khusus
untuk data-data dengan dimensi yang sangat besar tersebut. Untuk
menyelesaikan permasalahan tersebut, terdapat dua pendekatan, yaitu:
subscpace clustering approach dan dimensionality reduction.
Pada pendekatan subspace clustering, berupaya untuk mencari
cluster dengan atribut-atribut tertentu (subspace) dalam high dimensional
data. Ini sangat memungkinkan terjadi, karena dalam high dimensional data,
perlu dilihat terlebih dahulu beberapa potensi cluster berdasarkan atribut
tertentu. Untuk mencari cluster dengan pendekatan subspace, terdapat
beberapa metode yang diusulkan, sebagai berikut:
a Subspace search methods: Search various subspaces to find clusters
• Bottom-up approaches
• Top-down approaches
b Correlation-based clustering methods, E.g., PCA based approaches
c Bi-clustering methods
• Optimization-based methods
• Enumeration methods

Pada pendekatan dimensionality reduction method berupaya untuk


mengcluster data dengan membuat data baru dengan pendekatan reduksi
data. Untuk membuat data baru dari high-dimensional data, digunakan
pendekatan pendekatan high-dimensionality reduction seperti feature

ISYE8015 – Selected Topic in Industrial Engineering


9 Advance Method in Clustering 7

selection and extraction serta spectral clustering. Untuk pendekatan


spectral clustering, secara ilustratif ditunjukkan pada Gambar 1.

Gambar 1 Spectral clustering

9.4. Graph clustering


Graph clustering berupaya untuk mencari relasi antar data dalam
high dimensional data. Graph clustering telah banyak diaplikasikan dalam
relasi customer and products, web search engine dan social network.
Ada beberapa Teknik dalam clustering, berikut ini adalah contoh
teknik cuts and cluster. Misalkan terdapat sebuat graph seperti pada
Gambar 1. Pada gambar tersebut terdapat 2 cluster graph, yaitu {a,b,c,d,e,f}
dan {g,h,i,j,k} dan outlier l.

Gambar 2 Graph example using cut and cluster

ISYE8015 – Selected Topic in Industrial Engineering


9 Advance Method in Clustering 8

Pada Teknik cut and cluster, terdapat dua potensi cut yang dapat dilakukan
yaitu C1 dan C2. Dalam hal ini, meskipun keduanya telah memenuhi
persyaratan graph cluster (minimum terdapat 1 cut dalam connected
graph) tetapi cut pada C2 adalah yang paling optimum karena mampu
mengcluster graph secara lebih natural.
Pada graph clustering terdapat beberapa tantangan yang perlu
diperhatikan diantaranya:
1 High computational cost. Many graphs cut problems are
computationally expensive. The sparsest cut problem is NP-hard
Need to tradeoff between efficiency/scalability and quality
2 Sophisticated graphs that it may involve weights and/or cycles.
3 High dimensionality that a graph can have many vertices. In a
similarity matrix, a vertex is represented as a vector (a row in the
matrix) whose dimensionality is the number of vertices in the graph
4 Sparsity A large graph is often sparse, meaning each vertex on
average connects to only a small number of other vertices. A
similarity matrix from a large sparse graph can also be sparse

9.5. Clustering with constraint


Pada pendekatan ini, clustering dilakukan secara lebih advanced
dengan memperhatikan beberapa Batasan. Batasan yang sering
dipertimbangkan dalam clustering di antaranya must-link constraint dan
cannot link constraint.

ISYE8015 – Selected Topic in Industrial Engineering


9 Advance Method in Clustering 9

Daftar Pustaka
Han J, Kamber M, Pei J. 2011. Data Mining. Concepts and Techniques, 3rd
Edition. Amsterdam: Morgan Kaufmann.

Zaki M, Meira W. 2013. Data Mining and Analysis: Fundamental Concepts and
Algorithms. Cambridge: Cambridge University Press.

ISYE8015 – Selected Topic in Industrial Engineering

You might also like