Welcome to Scribd!

0% found this document useful (0 votes)

36 views

Chapter 2 Introduction Data Mining

Uploaded by

Data preprocessing is an important step that involves cleaning, transforming, and reducing raw data to prepare it for analysis. This helps ensure quality data and results by addressing issues like incomplete, inconsistent, noisy or duplicate data. The major tasks of data preprocessing are data cleaning, integration, transformation, and discretization to handle things like missing values, outliers, data volume reduction and normalization. Performing these preprocessing steps can lead to more accurate and useful analytics for decision making.

Copyright:

Attribution Non-Commercial (BY-NC)

Available Formats

Download as DOC, PDF, TXT or read online from Scribd

Flag for inappropriate content

Data Quality Concepts PDF
Document83 pages
Data Quality Concepts PDF
Sugumar Kanniyappan
100% (3)
Employability Skills
Document62 pages
Employability Skills
bharathimanian
75% (4)
Introduction of Chief Guest Speech
Document2 pages
Introduction of Chief Guest Speech
bharathimanian
81% (47)
Data Preprocessing
Document12 pages
Data Preprocessing
Prashant Sahu
No ratings yet
Dat Collection Foundation
Document24 pages
Dat Collection Foundation
LOICE HAZVINEI KUMIRE
No ratings yet
DataPreprocessing 2
Document68 pages
DataPreprocessing 2
Rehan Khalid
No ratings yet
Week 04
Document48 pages
Week 04
Batool Al-Sowaiq
No ratings yet
03-Data Preprocessing 2021
Document33 pages
03-Data Preprocessing 2021
Lakshmi Priya B
No ratings yet
Data Pre-Processing: Overview & Data Cleaning: Data Warehouse and Mining
Document20 pages
Data Pre-Processing: Overview & Data Cleaning: Data Warehouse and Mining
Shubham Sharma
No ratings yet
Chap 1 Data Preprocessing
Document17 pages
Chap 1 Data Preprocessing
Ma. Jessabel Azurin
No ratings yet
Pre Processing
Document60 pages
Pre Processing
vani_V_prakash
No ratings yet
3 Persiapan Data Mining
Document83 pages
3 Persiapan Data Mining
icobes ur
No ratings yet
Data Preprocessing Part 1
Document14 pages
Data Preprocessing Part 1
new acc jeet
No ratings yet
Dwina DM 03 Persiapan 2018
Document82 pages
Dwina DM 03 Persiapan 2018
Hanny Febrii Elizabeth
No ratings yet
Data Pre-Processing Data Cleaning
Document13 pages
Data Pre-Processing Data Cleaning
Tanish Saajan
No ratings yet
Data Warehouse: Bilal Hussain
Document20 pages
Data Warehouse: Bilal Hussain
Daneil Radcliffe
No ratings yet
Romi DM 03 Persiapan Mar2016
Document82 pages
Romi DM 03 Persiapan Mar2016
Tri Indah Sari
No ratings yet
Data Preprocessing
Document22 pages
Data Preprocessing
Prashant Sharma
No ratings yet
Data Processing and Data Analysis - 104910 1
Document8 pages
Data Processing and Data Analysis - 104910 1
Gurya
No ratings yet
DMW Mod2, AJS
Document63 pages
DMW Mod2, AJS
Rahul S.Kumar
No ratings yet
Data Quality and Data Cleaning: An Overview
Document132 pages
Data Quality and Data Cleaning: An Overview
payalpatil
0% (1)
Math211101020
Document12 pages
Math211101020
Saba Shaheen
No ratings yet
Data Mining Pertemuan 6
Document28 pages
Data Mining Pertemuan 6
musim.jengkol
No ratings yet
468 - DM Bok 2
Document157 pages
468 - DM Bok 2
alexander acosta
No ratings yet
COS10022 - Lecture 03 - Data Preparation PDF
Document61 pages
COS10022 - Lecture 03 - Data Preparation PDF
Papersdock Taha
No ratings yet
Unit 2
Document30 pages
Unit 2
Dakshkohli31 Kohli
No ratings yet
Unit-2-Part-1 Data Mining
Document12 pages
Unit-2-Part-1 Data Mining
basapurprathik
No ratings yet
Data Quality and Data Cleaning: An Overview
Document27 pages
Data Quality and Data Cleaning: An Overview
SohaibNasir
No ratings yet
Unit - 2 Machine Learning
Document42 pages
Unit - 2 Machine Learning
Nishtha Singh
No ratings yet
Unit1-Data Science Fundamentals
Document35 pages
Unit1-Data Science Fundamentals
vedantbailmare22
No ratings yet
Down 2
Document61 pages
Down 2
pavunkumar
No ratings yet
Data Mining and Predictive Modelling: Lecture 4: Data Pre-Processing
Document19 pages
Data Mining and Predictive Modelling: Lecture 4: Data Pre-Processing
Mohit
No ratings yet
Data Quality: A Raising Data Warehousing Concern: Presented By: Chowdhury, Mohammad Aminul Hoque
Document39 pages
Data Quality: A Raising Data Warehousing Concern: Presented By: Chowdhury, Mohammad Aminul Hoque
Ajinder Singh
No ratings yet
Data Quality: A Raising Data Warehousing Concern: Presented By: Chowdhury, Mohammad Aminul Hoque
Document39 pages
Data Quality: A Raising Data Warehousing Concern: Presented By: Chowdhury, Mohammad Aminul Hoque
Ajinder Singh
No ratings yet
Module 1
Document36 pages
Module 1
Mhd Aslam
No ratings yet
Data Preparation
Document9 pages
Data Preparation
Aathmika Vijay
No ratings yet
4.1 - Data Preprocessing
Document28 pages
4.1 - Data Preprocessing
mactabios23
No ratings yet
Unit 2 - Data Munging PDF
Document54 pages
Unit 2 - Data Munging PDF
test test
No ratings yet
CH1-data Preprocessing
Document49 pages
CH1-data Preprocessing
selsabilrouahi
No ratings yet
Data and DW Lab Manual Updated
Document44 pages
Data and DW Lab Manual Updated
Vineet Aggarwal
No ratings yet
Data Science - Module 1.3
Document34 pages
Data Science - Module 1.3
Amisha Shetty
No ratings yet
3 Ravi
Document82 pages
3 Ravi
Krishna Chauhan
No ratings yet
Data Cleaning, Integration, and Data Transformation Techniques
Document7 pages
Data Cleaning, Integration, and Data Transformation Techniques
samforresume
No ratings yet
DM Lect3
Document41 pages
DM Lect3
هارون المقطري
No ratings yet
Why Data Preprocessing
Document7 pages
Why Data Preprocessing
kusamee0
No ratings yet
Preprocessing
Document13 pages
Preprocessing
mba20238
No ratings yet
BECE352E Module 2
Document58 pages
BECE352E Module 2
zistavodro
No ratings yet
03 Preprocessing
Document42 pages
03 Preprocessing
hawariya abel
No ratings yet
Research Methodology (Data Analysis)
Document7 pages
Research Methodology (Data Analysis)
Masood Shaikh
No ratings yet
Bafpred Module 2 Week 5 6
Document35 pages
Bafpred Module 2 Week 5 6
Nicole Kang
No ratings yet
What Is Data Processing ?
Document15 pages
What Is Data Processing ?
aman
No ratings yet
CSC 3301-Lecture06 Introduction To Machine Learning
Document56 pages
CSC 3301-Lecture06 Introduction To Machine Learning
AmalienaHilmy
No ratings yet
Data Preprocessing
Document33 pages
Data Preprocessing
Stephen Paul
No ratings yet
Data Warehousing: Defined and Its Applications
Document31 pages
Data Warehousing: Defined and Its Applications
Indumathi K
No ratings yet
Unit 1 - Lecture 1.2,3- Data Science & Big Data
Document34 pages
Unit 1 - Lecture 1.2,3- Data Science & Big Data
thilagavathis
No ratings yet
Explaratory Data Analysis - Python
Document16 pages
Explaratory Data Analysis - Python
octalblue5
No ratings yet
NDC 100: Data Management UNIT CODE 061220: Stephen Karuru
Document63 pages
NDC 100: Data Management UNIT CODE 061220: Stephen Karuru
madvincy
No ratings yet
Chapter 8 BBM-1
Document29 pages
Chapter 8 BBM-1
heloo world
No ratings yet
Bi 20soeit11002 Antala Krishnaa
Document5 pages
Bi 20soeit11002 Antala Krishnaa
Krishna Antala
No ratings yet
Data Processing ACC 114: Management Information: System
Document38 pages
Data Processing ACC 114: Management Information: System
Akinbami Olorunnifemi
No ratings yet
Data Preprocessing: Enhancing Data for Analysis. The Art of Preprocessing
From Everand
Data Preprocessing: Enhancing Data for Analysis. The Art of Preprocessing
Daniel Garfield
No ratings yet
Data Preprocessing: Optimizing Data Quality and Structure for Effective Analysis and Machine Learning
From Everand
Data Preprocessing: Optimizing Data Quality and Structure for Effective Analysis and Machine Learning
Brian Murray
No ratings yet
Basics of Data Flow Testing
Document13 pages
Basics of Data Flow Testing
bharathimanian
100% (1)
Shri Krishnaswamy College For Women
Document2 pages
Shri Krishnaswamy College For Women
bharathimanian
No ratings yet
Index
Document1 page
Index
bharathimanian
No ratings yet
A Software
Document9 pages
A Software
priyaaram
No ratings yet
Path Testing Criteria
Document11 pages
Path Testing Criteria
bharathimanian
50% (2)
Pipe
Document1 page
Pipe
bharathimanian
No ratings yet
Contract Mangement
Document9 pages
Contract Mangement
bharathimanian
No ratings yet
Software Project Management
Document2 pages
Software Project Management
bharathimanian
No ratings yet
Ug
Document34 pages
Ug
bharathimanian
No ratings yet
Implementation of Lru Page Replacement Algorithm: Result
Document1 page
Implementation of Lru Page Replacement Algorithm: Result
bharathimanian
No ratings yet
Signaling Process Aim: To Implement Signaling Processes Algorithm: 1. Start The Program
Document1 page
Signaling Process Aim: To Implement Signaling Processes Algorithm: 1. Start The Program
bharathimanian
No ratings yet
Reader Writer Problem Using Semaphore
Document1 page
Reader Writer Problem Using Semaphore
bharathimanian
No ratings yet
CHAPTER 1 The Eight Elements of TQM
Document13 pages
CHAPTER 1 The Eight Elements of TQM
bharathimanian
No ratings yet
Round Robin Scheduling
Document1 page
Round Robin Scheduling
bharathimanian
No ratings yet
First
Document1 page
First
bharathimanian
No ratings yet
Monitoring & Control SPM
Document27 pages
Monitoring & Control SPM
bharathimanian
No ratings yet

Chapter 2 Introduction Data Mining

Uploaded by

bharathimanian

0% found this document useful (0 votes)

36 views2 pages

Original Description:

Original Title

Chapter 2 Introduction data mining

Copyright

Available Formats

DOC, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Attribution Non-Commercial (BY-NC)

Available Formats

Download as DOC, PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as doc, pdf, or txt

0% found this document useful (0 votes)

36 views2 pages

Chapter 2 Introduction Data Mining

Uploaded by

bharathimanian

Copyright:

Attribution Non-Commercial (BY-NC)

Available Formats

Download as DOC, PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as doc, pdf, or txt

Jump to Page

You are on page 1of 2

Search inside document

Chapter 2: Data Preprocessing 2.1 Why Data Preprocessing?

Incomplete data may come from o o o o o o o o Not applicable data value when collected Different considerations between the time when the data was collected and when it is analyzed. Human/hardware/software problems Faulty data collection instruments Human or computer error at data entry Errors in data transmission Different data sources Functional dependency violation (e.g., modify some linked data) Duplicate records also need data cleaning Noisy data (incorrect values) may come from

Inconsistent data may come from

Why Is Data Preprocessing Important? No quality data, no quality mining results! o Quality decisions must be based on quality data o Data e.g., duplicate or missing data may cause incorrect or even misleading statistics. Data warehouse needs consistent integration of quality data extraction, cleaning, and transformation comprises the majority of the work of building a data warehouse Multi-Dimensional Measure of Data Quality A well-accepted multidimensional view: o o o o o o o o Accuracy Completeness Consistency Timeliness Believability Value added Interpretability Accessibility

Broad categories: o Intrinsic, accessibility contextual, representational, and

Major Tasks in Data Preprocessing Data cleaning o Fill in missing values, smooth noisy data, identify or remove outliers, and resolve inconsistencies Data integration o Integration files Data transformation o o Normalization and aggregation Obtains reduced representation in volume but produces the same or similar analytical results Data discretization o Part of data reduction but with particular importance, especially for numerical data Forms of Data Preprocessing Data reduction of multiple databases, data cubes, or

Data preprocessing is an important step in the knowledge discovery process, because quality decisions must be based on quality data. Detecting data anomalies, rectifying them early, and reducing the data to be analyzed can lead to huge payoffs for decision making.

Data Quality Concepts PDF
Document83 pages
Data Quality Concepts PDF
Sugumar Kanniyappan
100% (3)
Employability Skills
Document62 pages
Employability Skills
bharathimanian
75% (4)
Introduction of Chief Guest Speech
Document2 pages
Introduction of Chief Guest Speech
bharathimanian
81% (47)
Data Preprocessing
Document12 pages
Data Preprocessing
Prashant Sahu
No ratings yet
Dat Collection Foundation
Document24 pages
Dat Collection Foundation
LOICE HAZVINEI KUMIRE
No ratings yet
DataPreprocessing 2
Document68 pages
DataPreprocessing 2
Rehan Khalid
No ratings yet
Week 04
Document48 pages
Week 04
Batool Al-Sowaiq
No ratings yet
03-Data Preprocessing 2021
Document33 pages
03-Data Preprocessing 2021
Lakshmi Priya B
No ratings yet
Data Pre-Processing: Overview & Data Cleaning: Data Warehouse and Mining
Document20 pages
Data Pre-Processing: Overview & Data Cleaning: Data Warehouse and Mining
Shubham Sharma
No ratings yet
Chap 1 Data Preprocessing
Document17 pages
Chap 1 Data Preprocessing
Ma. Jessabel Azurin
No ratings yet
Pre Processing
Document60 pages
Pre Processing
vani_V_prakash
No ratings yet
3 Persiapan Data Mining
Document83 pages
3 Persiapan Data Mining
icobes ur
No ratings yet
Data Preprocessing Part 1
Document14 pages
Data Preprocessing Part 1
new acc jeet
No ratings yet
Dwina DM 03 Persiapan 2018
Document82 pages
Dwina DM 03 Persiapan 2018
Hanny Febrii Elizabeth
No ratings yet
Data Pre-Processing Data Cleaning
Document13 pages
Data Pre-Processing Data Cleaning
Tanish Saajan
No ratings yet
Data Warehouse: Bilal Hussain
Document20 pages
Data Warehouse: Bilal Hussain
Daneil Radcliffe
No ratings yet
Romi DM 03 Persiapan Mar2016
Document82 pages
Romi DM 03 Persiapan Mar2016
Tri Indah Sari
No ratings yet
Data Preprocessing
Document22 pages
Data Preprocessing
Prashant Sharma
No ratings yet
Data Processing and Data Analysis - 104910 1
Document8 pages
Data Processing and Data Analysis - 104910 1
Gurya
No ratings yet
DMW Mod2, AJS
Document63 pages
DMW Mod2, AJS
Rahul S.Kumar
No ratings yet
Data Quality and Data Cleaning: An Overview
Document132 pages
Data Quality and Data Cleaning: An Overview
payalpatil
0% (1)
Math211101020
Document12 pages
Math211101020
Saba Shaheen
No ratings yet
Data Mining Pertemuan 6
Document28 pages
Data Mining Pertemuan 6
musim.jengkol
No ratings yet
468 - DM Bok 2
Document157 pages
468 - DM Bok 2
alexander acosta
No ratings yet
COS10022 - Lecture 03 - Data Preparation PDF
Document61 pages
COS10022 - Lecture 03 - Data Preparation PDF
Papersdock Taha
No ratings yet
Unit 2
Document30 pages
Unit 2
Dakshkohli31 Kohli
No ratings yet
Unit-2-Part-1 Data Mining
Document12 pages
Unit-2-Part-1 Data Mining
basapurprathik
No ratings yet
Data Quality and Data Cleaning: An Overview
Document27 pages
Data Quality and Data Cleaning: An Overview
SohaibNasir
No ratings yet
Unit - 2 Machine Learning
Document42 pages
Unit - 2 Machine Learning
Nishtha Singh
No ratings yet
Unit1-Data Science Fundamentals
Document35 pages
Unit1-Data Science Fundamentals
vedantbailmare22
No ratings yet
Down 2
Document61 pages
Down 2
pavunkumar
No ratings yet
Data Mining and Predictive Modelling: Lecture 4: Data Pre-Processing
Document19 pages
Data Mining and Predictive Modelling: Lecture 4: Data Pre-Processing
Mohit
No ratings yet
Data Quality: A Raising Data Warehousing Concern: Presented By: Chowdhury, Mohammad Aminul Hoque
Document39 pages
Data Quality: A Raising Data Warehousing Concern: Presented By: Chowdhury, Mohammad Aminul Hoque
Ajinder Singh
No ratings yet
Data Quality: A Raising Data Warehousing Concern: Presented By: Chowdhury, Mohammad Aminul Hoque
Document39 pages
Data Quality: A Raising Data Warehousing Concern: Presented By: Chowdhury, Mohammad Aminul Hoque
Ajinder Singh
No ratings yet
Module 1
Document36 pages
Module 1
Mhd Aslam
No ratings yet
Data Preparation
Document9 pages
Data Preparation
Aathmika Vijay
No ratings yet
4.1 - Data Preprocessing
Document28 pages
4.1 - Data Preprocessing
mactabios23
No ratings yet
Unit 2 - Data Munging PDF
Document54 pages
Unit 2 - Data Munging PDF
test test
No ratings yet
CH1-data Preprocessing
Document49 pages
CH1-data Preprocessing
selsabilrouahi
No ratings yet
Data and DW Lab Manual Updated
Document44 pages
Data and DW Lab Manual Updated
Vineet Aggarwal
No ratings yet
Data Science - Module 1.3
Document34 pages
Data Science - Module 1.3
Amisha Shetty
No ratings yet
3 Ravi
Document82 pages
3 Ravi
Krishna Chauhan
No ratings yet
Data Cleaning, Integration, and Data Transformation Techniques
Document7 pages
Data Cleaning, Integration, and Data Transformation Techniques
samforresume
No ratings yet
DM Lect3
Document41 pages
DM Lect3
هارون المقطري
No ratings yet
Why Data Preprocessing
Document7 pages
Why Data Preprocessing
kusamee0
No ratings yet
Preprocessing
Document13 pages
Preprocessing
mba20238
No ratings yet
BECE352E Module 2
Document58 pages
BECE352E Module 2
zistavodro
No ratings yet
03 Preprocessing
Document42 pages
03 Preprocessing
hawariya abel
No ratings yet
Research Methodology (Data Analysis)
Document7 pages
Research Methodology (Data Analysis)
Masood Shaikh
No ratings yet
Bafpred Module 2 Week 5 6
Document35 pages
Bafpred Module 2 Week 5 6
Nicole Kang
No ratings yet
What Is Data Processing ?
Document15 pages
What Is Data Processing ?
aman
No ratings yet
CSC 3301-Lecture06 Introduction To Machine Learning
Document56 pages
CSC 3301-Lecture06 Introduction To Machine Learning
AmalienaHilmy
No ratings yet
Data Preprocessing
Document33 pages
Data Preprocessing
Stephen Paul
No ratings yet
Data Warehousing: Defined and Its Applications
Document31 pages
Data Warehousing: Defined and Its Applications
Indumathi K
No ratings yet
Unit 1 - Lecture 1.2,3- Data Science & Big Data
Document34 pages
Unit 1 - Lecture 1.2,3- Data Science & Big Data
thilagavathis
No ratings yet
Explaratory Data Analysis - Python
Document16 pages
Explaratory Data Analysis - Python
octalblue5
No ratings yet
NDC 100: Data Management UNIT CODE 061220: Stephen Karuru
Document63 pages
NDC 100: Data Management UNIT CODE 061220: Stephen Karuru
madvincy
No ratings yet
Chapter 8 BBM-1
Document29 pages
Chapter 8 BBM-1
heloo world
No ratings yet
Bi 20soeit11002 Antala Krishnaa
Document5 pages
Bi 20soeit11002 Antala Krishnaa
Krishna Antala
No ratings yet
Data Processing ACC 114: Management Information: System
Document38 pages
Data Processing ACC 114: Management Information: System
Akinbami Olorunnifemi
No ratings yet
Data Preprocessing: Enhancing Data for Analysis. The Art of Preprocessing
From Everand
Data Preprocessing: Enhancing Data for Analysis. The Art of Preprocessing
Daniel Garfield
No ratings yet
Data Preprocessing: Optimizing Data Quality and Structure for Effective Analysis and Machine Learning
From Everand
Data Preprocessing: Optimizing Data Quality and Structure for Effective Analysis and Machine Learning
Brian Murray
No ratings yet
Basics of Data Flow Testing
Document13 pages
Basics of Data Flow Testing
bharathimanian
100% (1)
Shri Krishnaswamy College For Women
Document2 pages
Shri Krishnaswamy College For Women
bharathimanian
No ratings yet
Index
Document1 page
Index
bharathimanian
No ratings yet
A Software
Document9 pages
A Software
priyaaram
No ratings yet
Path Testing Criteria
Document11 pages
Path Testing Criteria
bharathimanian
50% (2)
Pipe
Document1 page
Pipe
bharathimanian
No ratings yet
Contract Mangement
Document9 pages
Contract Mangement
bharathimanian
No ratings yet
Software Project Management
Document2 pages
Software Project Management
bharathimanian
No ratings yet
Ug
Document34 pages
Ug
bharathimanian
No ratings yet
Implementation of Lru Page Replacement Algorithm: Result
Document1 page
Implementation of Lru Page Replacement Algorithm: Result
bharathimanian
No ratings yet
Signaling Process Aim: To Implement Signaling Processes Algorithm: 1. Start The Program
Document1 page
Signaling Process Aim: To Implement Signaling Processes Algorithm: 1. Start The Program
bharathimanian
No ratings yet
Reader Writer Problem Using Semaphore
Document1 page
Reader Writer Problem Using Semaphore
bharathimanian
No ratings yet
CHAPTER 1 The Eight Elements of TQM
Document13 pages
CHAPTER 1 The Eight Elements of TQM
bharathimanian
No ratings yet
Round Robin Scheduling
Document1 page
Round Robin Scheduling
bharathimanian
No ratings yet
First
Document1 page
First
bharathimanian
No ratings yet
Monitoring & Control SPM
Document27 pages
Monitoring & Control SPM
bharathimanian
No ratings yet

Chapter 2 Introduction Data Mining

Uploaded by

Copyright:

Available Formats

You might also like

Chapter 2 Introduction Data Mining

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Chapter 2 Introduction Data Mining

Uploaded by

Copyright:

Available Formats

Chapter 2: Data Preprocessing 2.1 Why Data Preprocessing?

Inconsistent data may come from

Broad categories: o Intrinsic, accessibility contextual, representational, and

You might also like