LN10-Advance Method in Clustering-R1

LECTURE NOTES
ISYE8015 – Selected Topic in Industrial

Engineering
D6344 – Muhammad Asrol
Session 09
Advanced Method in Clustering
ISYE8015 – Selected Topic in Industrial Engineering

Daftar Isi
9 Advance Method in Clustering ................................................................................................ 3
9.1. Pendahuluan .................................................................................................................. 3
9.2. Probabilistic Model-Based Clustering.................................................................. 4
9.3. Clustering High Dimensional Data ........................................................................ 6
9.4. Graph clustering ........................................................................................................... 7
9.5. Clustering with constraint ........................................................................................ 8
Daftar Pustaka .............................................................................................................................. 9

9 Advance Method in Clustering 3
Bab IX
9 Advance Method in Clustering
Overview
Pada bagian ini akan dijelaskan beberapa metode cluster dengan beberapa
pendekatan untuk permasalahan yang lebih kompleks dan real.
9.1. Pendahuluan
Pada pendekatan sederhana clustering dengan K-Means, klusterisasi
didasarkan pada nilai tengah dari setiap data, sehingga menghasilkan
cluster-cluster baru. Jumlah cluster pada awal clusterisasi juga sudah
didefinisikan dengan jelas. Pada pendekatan advanced method, terdapat
beberapa kompleksitas yang harus diselesaikan dengan tepat.
Advanced method in clustering terdiri atas 4 pendekatan utama di
antaranya probabilistic model-based clustering, clustering for high

dimensional data, clustering graph and network data dan clustering with
constraints.
9.2. Probabilistic Model-Based Clustering

Pada pendekatan probabilistic model-based clustering idenya adalah
setiap data memiliki probabilitas untuk dapat bergabung ke dalam suatu
cluster. Salah satu contoh Teknik dalam pendekatan ini adalah fuzzy cluster.
Pada fuzzy cluster, setiap data dalam data set memiliki derajat keanggotaan
[0,1] untuk dapat masuk ke dalam suatu cluster.
Untuk memudahkan analisis, berikut diberikan ilustrasi fuzzy
clustering. Misalkan ditetapkan bahwa pada suatu toko, jika suatu kamera
terjual lebih dari 1000 unit, maka derajat keanggotaannya adalah 1,
sedangkan jika terjual kurang dari 1000 unit, maka derajat keanggotaannya
adalah [0,1]. Constraint tersebut dapat dituliskan sebagai berikut:
Jika data penjualan kamera pada toko tersebut ditunjukan pada

Tabel 1, maka derajat keanggotaan setiap kamera berdasarkan constraint di
atas adalah sebagai berikut:
A(0.05), B(1), C(0.86), D(0.27)
Tabel 1. Data penjualan kamera

Pada ilustrasi berikut ini akan dijelaskan contoh advanced dari fuzzy
clustering. Misalkan terdapat dataset seperti pada Tabel 2. Kita diminta
untuk meng-cluster data pada dua cluster, yaitu C1 dan C2. Pada cluster C1
dikhususkan untuk anggota “digital camera” dan “lens” sedangkan pada
cluster C2 untuk data komputer.
Tabel 2 Data set
Sehingga, berdasarkan komponen data dalam setiap data tupples, maka

dapat diketahui derajat keanggotaan pada setiap cluster, sebagai berikut:
C1 C2
Dapat dilihat bahwa pada data R4 ada kemungkinan data masuk ke

dalam dua cluster dengan derajat keanggotaan yang berbeda. Ini juga
menjadi dasar yang menyebutkan bahwa fuzzy clustering disebut juga
dengan soft clustering karena dapat meletakkan sebuah objek ke pada lebih
dari satu cluster berdasarkan derajat keanggotaannya.

9.3. Clustering High Dimensional Data

Seperti diketahui, data science sering sekali berhadapan dengan data
data dengan dimensi yang sangat besar, yaitu atribut dan data tupples yang
sangat banyak. Pada permasalahan tersebut diperlukan clusterisasi khusus
untuk data-data dengan dimensi yang sangat besar tersebut. Untuk
menyelesaikan permasalahan tersebut, terdapat dua pendekatan, yaitu:
subscpace clustering approach dan dimensionality reduction.
Pada pendekatan subspace clustering, berupaya untuk mencari
cluster dengan atribut-atribut tertentu (subspace) dalam high dimensional
data. Ini sangat memungkinkan terjadi, karena dalam high dimensional data,
perlu dilihat terlebih dahulu beberapa potensi cluster berdasarkan atribut
tertentu. Untuk mencari cluster dengan pendekatan subspace, terdapat
beberapa metode yang diusulkan, sebagai berikut:
a Subspace search methods: Search various subspaces to find clusters
• Bottom-up approaches
• Top-down approaches
b Correlation-based clustering methods, E.g., PCA based approaches
c Bi-clustering methods
• Optimization-based methods
• Enumeration methods
Pada pendekatan dimensionality reduction method berupaya untuk

mengcluster data dengan membuat data baru dengan pendekatan reduksi
data. Untuk membuat data baru dari high-dimensional data, digunakan
pendekatan pendekatan high-dimensionality reduction seperti feature

selection and extraction serta spectral clustering. Untuk pendekatan

spectral clustering, secara ilustratif ditunjukkan pada Gambar 1.
Gambar 1 Spectral clustering
9.4. Graph clustering

Graph clustering berupaya untuk mencari relasi antar data dalam
high dimensional data. Graph clustering telah banyak diaplikasikan dalam
relasi customer and products, web search engine dan social network.
Ada beberapa Teknik dalam clustering, berikut ini adalah contoh
teknik cuts and cluster. Misalkan terdapat sebuat graph seperti pada
Gambar 1. Pada gambar tersebut terdapat 2 cluster graph, yaitu {a,b,c,d,e,f}
dan {g,h,i,j,k} dan outlier l.
Gambar 2 Graph example using cut and cluster

Pada Teknik cut and cluster, terdapat dua potensi cut yang dapat dilakukan
yaitu C1 dan C2. Dalam hal ini, meskipun keduanya telah memenuhi
persyaratan graph cluster (minimum terdapat 1 cut dalam connected
graph) tetapi cut pada C2 adalah yang paling optimum karena mampu
mengcluster graph secara lebih natural.
Pada graph clustering terdapat beberapa tantangan yang perlu
diperhatikan diantaranya:
1 High computational cost. Many graphs cut problems are
computationally expensive. The sparsest cut problem is NP-hard
Need to tradeoff between efficiency/scalability and quality
2 Sophisticated graphs that it may involve weights and/or cycles.
3 High dimensionality that a graph can have many vertices. In a
similarity matrix, a vertex is represented as a vector (a row in the
matrix) whose dimensionality is the number of vertices in the graph
4 Sparsity A large graph is often sparse, meaning each vertex on
average connects to only a small number of other vertices. A
similarity matrix from a large sparse graph can also be sparse
9.5. Clustering with constraint

Pada pendekatan ini, clustering dilakukan secara lebih advanced
dengan memperhatikan beberapa Batasan. Batasan yang sering
dipertimbangkan dalam clustering di antaranya must-link constraint dan
cannot link constraint.

Daftar Pustaka
Han J, Kamber M, Pei J. 2011. Data Mining. Concepts and Techniques, 3rd
Edition. Amsterdam: Morgan Kaufmann.
Zaki M, Meira W. 2013. Data Mining and Analysis: Fundamental Concepts and
Algorithms. Cambridge: Cambridge University Press.

LN10-Advance Method in Clustering-R1

Uploaded by

Copyright:

Available Formats

You might also like

LN10-Advance Method in Clustering-R1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

LN10-Advance Method in Clustering-R1

Uploaded by

Copyright:

Available Formats

LECTURE NOTES

ISYE8015 – Selected Topic in Industrial

D6344 – Muhammad Asrol

Advanced Method in Clustering

ISYE8015 – Selected Topic in Industrial Engineering

9 Advance Method in Clustering ................................................................................................ 3

9.1. Pendahuluan .................................................................................................................. 3

9.2. Probabilistic Model-Based Clustering.................................................................. 4

9.3. Clustering High Dimensional Data ........................................................................ 6

9.4. Graph clustering ........................................................................................................... 7

9.5. Clustering with constraint ........................................................................................ 8

Daftar Pustaka .............................................................................................................................. 9

ISYE8015 – Selected Topic in Industrial Engineering

9 Advance Method in Clustering

ISYE8015 – Selected Topic in Industrial Engineering

9.2. Probabilistic Model-Based Clustering

Jika data penjualan kamera pada toko tersebut ditunjukan pada

ISYE8015 – Selected Topic in Industrial Engineering

Sehingga, berdasarkan komponen data dalam setiap data tupples, maka

Dapat dilihat bahwa pada data R4 ada kemungkinan data masuk ke

ISYE8015 – Selected Topic in Industrial Engineering

9.3. Clustering High Dimensional Data

Pada pendekatan dimensionality reduction method berupaya untuk

ISYE8015 – Selected Topic in Industrial Engineering

selection and extraction serta spectral clustering. Untuk pendekatan

Gambar 1 Spectral clustering

9.4. Graph clustering

Gambar 2 Graph example using cut and cluster

ISYE8015 – Selected Topic in Industrial Engineering

9.5. Clustering with constraint

ISYE8015 – Selected Topic in Industrial Engineering

ISYE8015 – Selected Topic in Industrial Engineering

You might also like