Welcome to Scribd!

Lecture 23 - Clustring

Uploaded by

0% found this document useful (0 votes)

2 views14 pages

Clustering involves grouping data into clusters so that objects within a cluster are similar to each other but dissimilar to objects in other clusters. It is an unsupervised learning technique with no predefined classes. Clustering is used for data visualization, as a preprocessing step for other algorithms, and in applications like image processing, web mining, and bioinformatics. Common clustering algorithms include k-means, which assigns objects to the closest of k randomly selected centroids, iteratively updating the centroids until clusters stabilize. The quality of clustering depends on achieving high intra-cluster similarity and low inter-cluster similarity.

Original Description:

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as pdf or txt

0% found this document useful (0 votes)

2 views14 pages

Lecture 23 - Clustring

Uploaded by

bscs-20f-0009

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as pdf or txt

Jump to Page

You are on page 1of 14

Search inside document

Clustering

What Is Clustering?
• Group data into clusters
• Similar to one another within the same cluster
• Dissimilar to the objects in other clusters
• Unsupervised learning: no predefined classes

Outliers
Cluster 1
Cluster 2
Outliers
• Outliers are objects that do not belong to any cluster or
form clusters of very small cardinality

cluster

outliers

• In some applications we are interested in discovering

outliers, not clusters (outlier analysis)
Why do we cluster?
• Clustering : given a collection of data objects group them so that
• Similar to one another within the same cluster
• Dissimilar to the objects in other clusters

• Clustering results are used:

• As a stand-alone tool to get insight into data distribution
• Visualization of clusters may unveil important information
• As a preprocessing step for other algorithms
• Efficient indexing or compression often relies on clustering
Applications of clustering?
• Image Processing
• cluster images based on their visual content
• Web
• Cluster groups of users based on their access patterns on
webpages
• Cluster webpages based on their content
• Bioinformatics
• Cluster similar proteins together (similarity wrt chemical
structure and/or functionality etc)
• Many more…
Observations to cluster
• Real-value attributes/variables
• e.g., salary, height

• Binary attributes
• e.g., gender (M/F), has_cancer(T/F)

• Nominal (categorical) attributes

• e.g., religion (Christian, Muslim, Buddhist, Hindu, etc.)

• Ordinal/Ranked attributes
• e.g., military rank (soldier, sergeant, lutenant, captain, etc.)

• Variables of mixed types

• multiple attributes with various types
What Is A Good Clustering?
• High intra-class similarity and low inter-class similarity
• Depending on the similarity measure
• The ability to discover some or all of the hidden patterns
How Good Is A Clustering?
• Dissimilarity/similarity depends on distance function
• Different applications have different functions
• Judgment of clustering quality is typically highly subjective
Similarity and Dissimilarity Between Objects
• Distances are normally used measures
• Distance: a generalization

• If q = 2, d is Euclidean distance
• If q = 1, d is Manhattan distance
• Weighed distance
K-means algorithm
• Step-1: Select the value of K, to decide the number of clusters to be
formed.
• Step-2: Select random K points which will act as centroids.
• Step-3: Assign each data point, based on their distance from the randomly
selected points (Centroid), to the nearest/closest centroid which will form
the predefined clusters.
• Step-4: place a new centroid of each cluster.
• Step-5: Repeat step no.3, which reassign each datapoint to the new closest
centroid of each cluster.
• Step-6: If any reassignment occurs, then go to step-4 else go to Step 7.
• Step-7: FINISH
K-Means: Example
10
10
9
9
8
8
7
7
6
6
5
5
4
4
Assign Update 3
3

2 each the 2

1
objects cluster 1

0
0
0 1 2 3 4 5 6 7 8 9 10 to most means 0 1 2 3 4 5 6 7 8 9 10

similar
center reassign reassign

K=2
Arbitrarily choose K
object as initial
cluster center Update
the
cluster
means
K mean clustering with k=4
Implementation in python
• from sklearn.cluster import Kmeans
• kmeans = KMeans(n_clusters=2)
• kmeans.fit(X)
• https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KM
eans.html

UCB - Data Is The New Drug
Document8 pages
UCB - Data Is The New Drug
Ajay Ahire
17% (6)
ASDM Group Assignment PDF
Document30 pages
ASDM Group Assignment PDF
Chellappan Thirunavukkarasu
50% (2)
A Student's Guide to Python for Physical Modeling: Second Edition
From Everand
A Student's Guide to Python for Physical Modeling: Second Edition
Jesse M. Kinder
No ratings yet
WS 2020 ORBA - Motivation - Letter - Formular 04 2020 SK
Document4 pages
WS 2020 ORBA - Motivation - Letter - Formular 04 2020 SK
Pankaj Khandelwal
No ratings yet
Practical Research 2 - q1 - Mod3 v2
Document46 pages
Practical Research 2 - q1 - Mod3 v2
PeterClomaJr.
85% (20)
Daily Bazar Case Study
Document8 pages
Daily Bazar Case Study
Shubham Parihar
No ratings yet
Lect 10 DM
Document36 pages
Lect 10 DM
Saba Tariq
No ratings yet
Clustering
Document125 pages
Clustering
Fariya Afrin
No ratings yet
Clustering Data Mining
Document27 pages
Clustering Data Mining
Andrew
No ratings yet
Lecture 2 - Clustering Methods
Document19 pages
Lecture 2 - Clustering Methods
Manikandan M
No ratings yet
Clustering
Document84 pages
Clustering
manmeet singh tuteja
No ratings yet
Cluster
Document20 pages
Cluster
sondaravalli
No ratings yet
CH-6 DM Clustering
Document28 pages
CH-6 DM Clustering
addis alemayhu
No ratings yet
Clustering Partitioning Methods
Document20 pages
Clustering Partitioning Methods
2K19/BMBA/13 RITIKA
No ratings yet
Module5 - Outlier - Analysis: Reference: "Data Mining The Text Book", Charu C. Aggarwal, Springer, 2015. (Chapters 8)
Document21 pages
Module5 - Outlier - Analysis: Reference: "Data Mining The Text Book", Charu C. Aggarwal, Springer, 2015. (Chapters 8)
Rohith Roh
No ratings yet
Unit - 5 Cluster Analysis
Document83 pages
Unit - 5 Cluster Analysis
nimmaladinesh82
No ratings yet
2 ADA Cluster Analysis
Document12 pages
2 ADA Cluster Analysis
Ash
No ratings yet
Introduction To Data Mining Clustering Analysis
Document84 pages
Introduction To Data Mining Clustering Analysis
ak
No ratings yet
M8 Klastering
Document83 pages
M8 Klastering
Teofilus Evan
No ratings yet
Data Mining: I Gede Mahendra Darmawiguna
Document25 pages
Data Mining: I Gede Mahendra Darmawiguna
Bitboxk
No ratings yet
5 Algoritma Klastering
Document85 pages
5 Algoritma Klastering
icobes ur
No ratings yet
Clustering
Document45 pages
Clustering
sujan.cseru
No ratings yet
8.hierarchical AGNES DIANA
Document46 pages
8.hierarchical AGNES DIANA
Shreyas Paraj
No ratings yet
Clustering
Document24 pages
Clustering
Amey Chaudhari
No ratings yet
DMW Unit-V
Document47 pages
DMW Unit-V
Ravindra Pawar
No ratings yet
Clustering
Document61 pages
Clustering
Rashul Chutani
No ratings yet
Agrupamento 19-10-22
Document45 pages
Agrupamento 19-10-22
PabloSchueng
No ratings yet
Clustering
Document80 pages
Clustering
Aatmaj Salunke
No ratings yet
Chapter 3: Cluster Analysis: 3.1 Basic Concepts of Clustering
Document33 pages
Chapter 3: Cluster Analysis: 3.1 Basic Concepts of Clustering
preetam
No ratings yet
What Is Cluster Analysis?: - Cluster: A Collection of Data Objects
Document42 pages
What Is Cluster Analysis?: - Cluster: A Collection of Data Objects
Dineshkannan Ravi
No ratings yet
Pertemuan-X - Manajemen Data Bagian 2
Document31 pages
Pertemuan-X - Manajemen Data Bagian 2
Roisyal Bariz
No ratings yet
Concepts and Techniques: Data Mining
Document50 pages
Concepts and Techniques: Data Mining
Hasibur Rahman Porag
No ratings yet
Assignment No. A6: 1 Title
Document5 pages
Assignment No. A6: 1 Title
Pallavi Vetal
No ratings yet
Clustering Algorithm: An Unsupervised Learning Approach
Document23 pages
Clustering Algorithm: An Unsupervised Learning Approach
SyedDabeerAli
No ratings yet
Clustering: Dr. Vani Vasudevan
Document75 pages
Clustering: Dr. Vani Vasudevan
Pavan Kumar
No ratings yet
DM Chapter 5 (Clustering)
Document40 pages
DM Chapter 5 (Clustering)
world channel
No ratings yet
Lecture 3. Partitioning-Based Clustering Methods
Document27 pages
Lecture 3. Partitioning-Based Clustering Methods
sharathdhamodaran
No ratings yet
Clustering
Document104 pages
Clustering
Dev kartik Agarwal
No ratings yet
06 Cluster Analysis
Document34 pages
06 Cluster Analysis
hawariya abel
No ratings yet
Technical Seminar On K-Means Clustering in Data Mining: Darshna Sharma 1HK18IS086 Guide: Prof. Priyanka K
Document22 pages
Technical Seminar On K-Means Clustering in Data Mining: Darshna Sharma 1HK18IS086 Guide: Prof. Priyanka K
Darshna Sharma
No ratings yet
13 Clustering and Classifier
Document123 pages
13 Clustering and Classifier
Rishabh Kumar
No ratings yet
Data Mining Unit 3 Cluster Analysis: Types of Clusters
Document11 pages
Data Mining Unit 3 Cluster Analysis: Types of Clusters
rohan
No ratings yet
Clustering
Document75 pages
Clustering
BAKKA VISHNU VARDHAN REDDY 20BEC1279
No ratings yet
Clustering: Prof. Ankur Sinha
Document10 pages
Clustering: Prof. Ankur Sinha
Vibhuti Batra
No ratings yet
4.3 K-Medoids
Document31 pages
4.3 K-Medoids
Pynshngain
No ratings yet
Session 3: Clustering Techniques - Partitioning & Hierarchical Methods
Document27 pages
Session 3: Clustering Techniques - Partitioning & Hierarchical Methods
emperor penguin
No ratings yet
Unsupervised Learning Models Overview, K-Means Algorithm: Sir Syed University of Engineering & Technology, Karachi
Document36 pages
Unsupervised Learning Models Overview, K-Means Algorithm: Sir Syed University of Engineering & Technology, Karachi
Fahama Bin Ekram
No ratings yet
02 Data Mining-Partitioning Method
Document8 pages
02 Data Mining-Partitioning Method
Raj Endran
No ratings yet
w6 Clustering
Document29 pages
w6 Clustering
Srisha Prasad Rath
No ratings yet
W6 Clustering
Document29 pages
W6 Clustering
5599RAJNISH SINGH
No ratings yet
Clustering Techniques - Hierarchical, K-Means Clustering
Document22 pages
Clustering Techniques - Hierarchical, K-Means Clustering
Tanya Sharma
No ratings yet
(PML ITS - Week 10) - Clustering
Document42 pages
(PML ITS - Week 10) - Clustering
HIkma Ramadhan
No ratings yet
Data Mining CH - 5
Document18 pages
Data Mining CH - 5
Hasset Tiss Abay Genji
No ratings yet
CT075!3!2 DTM Topic 10 Cluster Analysis
Document21 pages
CT075!3!2 DTM Topic 10 Cluster Analysis
kishanselvarajah80
No ratings yet
Week 10
Document41 pages
Week 10
sirajquirish
No ratings yet
Concepts and Techniques: Data Mining
Document43 pages
Concepts and Techniques: Data Mining
Esraa Samir
No ratings yet
CT075!3!2-DTM-Topic 5-Data Preprocessing PART 1
Document44 pages
CT075!3!2-DTM-Topic 5-Data Preprocessing PART 1
kishanselvarajah80
No ratings yet
K Means
Document23 pages
K Means
Fadila Ahmad
No ratings yet
K Means Clustering
Document17 pages
K Means Clustering
Wet
No ratings yet
Lecture5 - Clustering (K Means and K Medoids)
Document36 pages
Lecture5 - Clustering (K Means and K Medoids)
Khaledun Nahar
No ratings yet
Unsupervised Learning Modi
Document16 pages
Unsupervised Learning Modi
SatishKakarla
No ratings yet
SVTB 2005.06 LG 04
Document10 pages
SVTB 2005.06 LG 04
Heekwan Son
No ratings yet
Clustering Lecture
Document46 pages
Clustering Lecture
ahmetdursun03
No ratings yet
Spatial Data Mining: Clustering Techniques
Document56 pages
Spatial Data Mining: Clustering Techniques
bwcastillo
No ratings yet
Multivariate Analysis of Ecological Data with ade4
From Everand
Multivariate Analysis of Ecological Data with ade4
Jean Thioulouse
No ratings yet
Final Report - Eram Fatima - 20C PDF
Document107 pages
Final Report - Eram Fatima - 20C PDF
Himani Patel
No ratings yet
FR2202mock Exam
Document6 pages
FR2202mock Exam
Sunny Le
No ratings yet
Boczar Kramer Final Poster
Document1 page
Boczar Kramer Final Poster
dylanboczar
No ratings yet
Exponential Smoothing
Document27 pages
Exponential Smoothing
Satyan Sonkar
No ratings yet
Types of Research & Research Process
Document32 pages
Types of Research & Research Process
itishaagrawal41
No ratings yet
Oxford Handbooks Online: Applied Linguistics: A Twenty-First-Century Discipline
Document11 pages
Oxford Handbooks Online: Applied Linguistics: A Twenty-First-Century Discipline
Macarena Oliverio
No ratings yet
Thesis
Document45 pages
Thesis
Prastyo Hari Yadi
No ratings yet
Top 30 Data Analyst Interview Questions & Answers (2022)
Document16 pages
Top 30 Data Analyst Interview Questions & Answers (2022)
wesaltarron
No ratings yet
Homoscedasticity
Document4 pages
Homoscedasticity
callanant
No ratings yet
Extensions Beyond Linear Regression: Topics in Data Science
Document66 pages
Extensions Beyond Linear Regression: Topics in Data Science
Kadir
No ratings yet
Epidemiology of Injuries in The Philippines An Analysis of Secondary Data
Document7 pages
Epidemiology of Injuries in The Philippines An Analysis of Secondary Data
Priscilla Jean Umengan
No ratings yet
International Valuation Standards 7
Document76 pages
International Valuation Standards 7
On Hiatus
100% (1)
Quantitative Techniques: Suman Kumar Deb B.Sc. Math (Hons), M.Sc. Stats, PGDM & Six Sigma Black Belt
Document17 pages
Quantitative Techniques: Suman Kumar Deb B.Sc. Math (Hons), M.Sc. Stats, PGDM & Six Sigma Black Belt
PRIYA KUMARI
No ratings yet
Loan Prediction Using Artificial Intelligence and Machine Learning
Document24 pages
Loan Prediction Using Artificial Intelligence and Machine Learning
Sumit
No ratings yet
Mra Project Milestone 2: Kirtesh Tiwari PGP - Data Science and Business Analytics - Pgpdsba Online Sep - C 2021
Document24 pages
Mra Project Milestone 2: Kirtesh Tiwari PGP - Data Science and Business Analytics - Pgpdsba Online Sep - C 2021
S for Sassyyy
100% (3)
Variance and Standard Deviation
Document14 pages
Variance and Standard Deviation
Bryan Mendoza
No ratings yet
StarPoint GettingStarted
Document23 pages
StarPoint GettingStarted
Windiarto
No ratings yet
The Importance of Getting Automated Grammar Feedback Via Grammarly, For Increasing Students' English Language Proficiency
Document11 pages
The Importance of Getting Automated Grammar Feedback Via Grammarly, For Increasing Students' English Language Proficiency
mariam shamsali
No ratings yet
Econometrics - Classical Regression Assumptions
Document15 pages
Econometrics - Classical Regression Assumptions
Abigail V
No ratings yet
SSK Ijet-13971 Scopus
Document10 pages
SSK Ijet-13971 Scopus
charanssit
No ratings yet
From High-Speed Running To Hobbling On Crutches: A Machine Learning Perspective On The Relationships Between Training Doses and Match Injury Trends
Document11 pages
From High-Speed Running To Hobbling On Crutches: A Machine Learning Perspective On The Relationships Between Training Doses and Match Injury Trends
mikilampre
No ratings yet
Tugas Geostat Ke-1 - Elvira Mutiara S - 12117019 PDF
Document15 pages
Tugas Geostat Ke-1 - Elvira Mutiara S - 12117019 PDF
Elvira M Shaumi
No ratings yet
POM199.2 Group Final Paper
Document23 pages
POM199.2 Group Final Paper
Matthew Bentley Sy
No ratings yet
Ep. 17 - Data - Analyst
Document2 pages
Ep. 17 - Data - Analyst
Brigette Domingo
No ratings yet
Distribution Type PDF
Document8 pages
Distribution Type PDF
Rajesh Dhanambal
No ratings yet