Welcome to Scribd!

Pre-Processing Example - 1

Uploaded by

0% found this document useful (0 votes)

10 views4 pages

The document discusses preprocessing steps for machine learning including: 1) Importing and examining a dataset to understand the columns, data types, missing values. 2) Cleaning experience values by extracting minimum and maximum values from ranges. 3) Encoding categorical location and salary columns. 4) Splitting the preprocessed data into training and validation sets for modeling. 5) Fitting a naive Bayes classifier to the training data and evaluating it on the validation set by calculating a confusion matrix and accuracy.

Original Description:

Original Title

Pre Processing

Copyright

Available Formats

DOCX, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as DOCX, PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as docx, pdf, or txt

0% found this document useful (0 votes)

10 views4 pages

Pre-Processing Example - 1

Uploaded by

Ishani Mehta

Copyright:

Available Formats

Download as DOCX, PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as docx, pdf, or txt

Jump to Page

You are on page 1of 4

Search inside document

Pre-Processing

Example – 1:

import pandas as pd

data = pd.read_csv("J:\Machine Learning\Class\Practical\Practical_1\RawData.csv")

print(data.columns)

print(len(data.columns))

print(len(data))

print(data.dtypes)

print(data.isnull().values.any())

print("\nTotal empty cells by column :\n", data.isnull().sum(), "\n\n")

print("\n\nNumber of Unique Locations : ", len(data['Location'].unique()))

print("\n\nNumber of Unique Salaries : ", len(data['Salary'].unique()))

print(len(data['Salary'].unique()))

print("\n\nUnique Salaries:\n", data['Salary'].unique())

#Cleaning the experience

exp = list(data.Experience)

print(exp)

min_ex = []

max_ex = []

for i in range(len(exp)):

exp[i] = exp[i].replace("yrs","").strip()

min_ex.append(int(exp[i].split("-")[0].strip()))

max_ex.append(int(exp[i].split("-")[1].strip()))
#Attaching the new experiences to the original dataset

data["minimum_exp"] = min_ex

data["maximum_exp"] = max_ex

#Label encoding location and salary

from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()

data['Location'] = le.fit_transform(data['Location'])

data['Salary'] = le.fit_transform(data['Salary'])

print(data['Location'])

print(data['Salary'])

print(data)

Index=data['Index']

Company=data['Company']

Location = data['Location']

Salary = data['Salary']

minimum_exp = data['minimum_exp']

maximum_exp = data['maximum_exp']

# dictionary of lists

dict = {'Index': Index, 'Company': Company, 'Location': Location, 'Salary':Salary,

'minimum_exp':minimum_exp, 'maximum_exp':maximum_exp}

df = pd.DataFrame(dict)

# saving the dataframe

df.to_csv('J:\Machine Learning\Class\Practical\Practical_1\File4.csv')

#Read New dataset

data = pd.read_csv("J:\Machine Learning\Class\Practical\Practical_1\File4.csv")

#Splitting the dataset into training and validation sets

from sklearn.model_selection import train_test_split

training_set, validation_set = train_test_split(data, test_size = 0.2, random_state = 21)

#classifying the predictors and target variables as X and Y

X_train = training_set.iloc[:,0:-1].values

Y_train = training_set.iloc[:,-1].values

X_val = validation_set.iloc[:,0:-1].values

y_val = validation_set.iloc[:,-1].values

X_train

Y_train

X_val

y_val

def accuracy(confusion_matrix):

diagonal_sum = confusion_matrix.trace()

sum_of_all_elements = confusion_matrix.sum()

return diagonal_sum / sum_of_all_elements

#Importing the library

from sklearn.naive_bayes import GaussianNB

#Initializing the classifier

classifier = GaussianNB()

#Fitting the training data

classifier.fit(X_train, Y_train)

y_pred = classifier.predict(X_val)

#Generating the confusion Matrix

from sklearn.metrics import confusion_matrix

cm = confusion_matrix(y_val, y_pred)

print(cm)

print("__ACCURACY = ",accuracy(cm))

Example – 2:

import pandas as pd

dataset = pd.read_csv('J:\\Machine Learning\\Class\Practical\\Preprocessing\\Data1.csv')

print(dataset.columns)

dataset

dataset.info()

#Creating Independent variable

X = dataset.iloc[:, :-1].values #Takes all rows of all columns except the last column

#Creating Dependent variable

Y = dataset.iloc[:, -1].values # Takes all rows of the last column

#Dealing with missing values with mean imputer

from sklearn.preprocessing import Imputer

imputer=Imputer(missing_values='NaN',strategy='mean',axis=0)

imputer.fit(X[:,1:3])

X[:,1:3]=imputer.transform(X[:,1:3])

SAM Admin Guide 8.0 Rev A
Document610 pages
SAM Admin Guide 8.0 Rev A
Branislav Ostojic
No ratings yet
Machine Learning Algorithms PDF
Document148 pages
Machine Learning Algorithms PDF
jeff omanga
No ratings yet
Delivering Safety Nuros Approach
Document33 pages
Delivering Safety Nuros Approach
ahawkins8223
100% (4)
Machine Learning Lab (17CSL76)
Document48 pages
Machine Learning Lab (17CSL76)
Ravi Shankar
No ratings yet
Machine Learning Lab Record: Dr. Sarika Hegde
Document23 pages
Machine Learning Lab Record: Dr. Sarika Hegde
4NM18CS142 SACHIN SINGH
No ratings yet
Machine File
Document27 pages
Machine File
Jyoti Godara
No ratings yet
Pre-Processing Example - 1
Document6 pages
Pre-Processing Example - 1
Ishani Mehta
No ratings yet
ML Lab Manual PDF
Document9 pages
ML Lab Manual PDF
Anonymous KvIcYF
No ratings yet
Machine Learning Programs
Document17 pages
Machine Learning Programs
Rachana Medehal
No ratings yet
ML Record
Document18 pages
ML Record
harshitsr1234
No ratings yet
ML - LAB - 7 - Jupyter Notebook
Document7 pages
ML - LAB - 7 - Jupyter Notebook
suman
100% (1)
6 Task RBF
Document6 pages
6 Task RBF
Janmejaya Sahoo
No ratings yet
ML Lab
Document7 pages
ML Lab
Sharan Patil
No ratings yet
Jntuk R20 ML
Document43 pages
Jntuk R20 ML
Sush
No ratings yet
Pramkk
Document10 pages
Pramkk
71762105097
No ratings yet
ML
Document7 pages
ML
21eg105f37
No ratings yet
#Print ("/n",gain) : Len Len
Document3 pages
#Print ("/n",gain) : Len Len
ass08889
No ratings yet
Pandasmatplotlib Practical File
Document15 pages
Pandasmatplotlib Practical File
godayushshrivastava
No ratings yet
Import Numpy As NP
Document4 pages
Import Numpy As NP
4AL19CS059 BHAGYASREE
No ratings yet
Find S-Algo
Document2 pages
Find S-Algo
sachin
No ratings yet
Aiml Ex3
Document1 page
Aiml Ex3
Tasmiya Dz
No ratings yet
Machine Learning Hands-On Programs Program 1: Linear Regression - Single Variable Linear Regression
Document22 pages
Machine Learning Hands-On Programs Program 1: Linear Regression - Single Variable Linear Regression
KANTESH kantesh
100% (1)
Email Spam Classifier
Document22 pages
Email Spam Classifier
phenomenal beast
No ratings yet
LAB-4 Report
Document21 pages
LAB-4 Report
jithentar.cs21
No ratings yet
Machine Learnin
Document23 pages
Machine Learnin
Manoj Kumar 1183
100% (2)
Naive Bayes
Document58 pages
Naive Bayes
Dhaleshwar Prasad
No ratings yet
Is Lab Aman Agarwal PDF
Document8 pages
Is Lab Aman Agarwal PDF
Aman Bansal
No ratings yet
Is Lab 7
Document7 pages
Is Lab 7
Aman Bansal
No ratings yet
Is Lab 7
Document7 pages
Is Lab 7
Aman Bansal
No ratings yet
Machine
Document45 pages
Machine
Gagan Sharma
100% (1)
Name: Suprit Darshan Shrestha Reg - no:19BCE2584: Lab DA1 Machine Learning Lab
Document9 pages
Name: Suprit Darshan Shrestha Reg - no:19BCE2584: Lab DA1 Machine Learning Lab
Suprit D. Shrestha
No ratings yet
Aiml Lab
Document14 pages
Aiml Lab
1DT19IS146Triveni
No ratings yet
(P) Program AIO
Document22 pages
(P) Program AIO
Yash Pravesh
No ratings yet
Big Data Merged
Document7 pages
Big Data Merged
Ingame Id
No ratings yet
ML Practical 205160694034
Document33 pages
ML Practical 205160694034
09Samrat Bikram Shah
No ratings yet
Sodapdf
Document1 page
Sodapdf
Nathon Mine
No ratings yet
Data Science Lab Manual
Document32 pages
Data Science Lab Manual
Ravishankar Gautam
No ratings yet
Machine Learning
Document54 pages
Machine Learning
Jacob
No ratings yet
ML 1-10
Document53 pages
ML 1-10
22128008
No ratings yet
2023 Aug How To Produce Data For A Neural networkORG
Document6 pages
2023 Aug How To Produce Data For A Neural networkORG
Ali Riza SARAL
No ratings yet
Raw Nitex
Document5 pages
Raw Nitex
neel neelanti
No ratings yet
ML RECORD
Document24 pages
ML RECORD
mkesav3070
No ratings yet
ML Record
Document24 pages
ML Record
mkesav3070
No ratings yet
ML NEW Final Format
Document37 pages
ML NEW Final Format
Tharun Kumar
No ratings yet
Ip-12-2023-24 Practical File
Document19 pages
Ip-12-2023-24 Practical File
kashinathchandak
No ratings yet
B2 40 Practical 5A
Document6 pages
B2 40 Practical 5A
Alex
No ratings yet
Lab-5 Report
Document11 pages
Lab-5 Report
jithentar.cs21
No ratings yet
Abdimas Hki3f52b4c6
Document6 pages
Abdimas Hki3f52b4c6
M. Rynaldi Iqbal , S.Si
No ratings yet
C121 Exp1
Document32 pages
C121 Exp1
Devanshu Maheshwari
No ratings yet
DL Lab Manual
Document35 pages
DL Lab Manual
lavanya penumudi
100% (1)
Program 6 Naive Bayes Classifier
Document2 pages
Program 6 Naive Bayes Classifier
amrithm48
No ratings yet
ML Final-1
Document7 pages
ML Final-1
shrinivaspawar350
No ratings yet
Decision Tree
Document3 pages
Decision Tree
saba
No ratings yet
IR - 754 All Practical
Document21 pages
IR - 754 All Practical
754Durgesh Vishwakarma
No ratings yet
PRJ Car Price Prediction For Data Science
Document10 pages
PRJ Car Price Prediction For Data Science
shivaybhargava33
No ratings yet
16BCB0126 VL2018195002535 Pe003
Document40 pages
16BCB0126 VL2018195002535 Pe003
Mohit
No ratings yet
Sample
Document6 pages
Sample
www.santhoshvjd123
No ratings yet
Decision Tree
Document3 pages
Decision Tree
G Suriyanaraynan
No ratings yet
ML Lab Programs 1-10-Converted NAM COLLEGE PDF
Document33 pages
ML Lab Programs 1-10-Converted NAM COLLEGE PDF
Pradyumna A Kubear
No ratings yet
Sample
Document2 pages
Sample
MAHAKAL (Tushar)
No ratings yet
Pattern Recognition
Document26 pages
Pattern Recognition
Aryan Attri
No ratings yet
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
Ausa Mixers 500RX-X1100RH-ENG PDF
Document2 pages
Ausa Mixers 500RX-X1100RH-ENG PDF
Asad Aijaz
No ratings yet
Saketh Rao Data Analyst
Document2 pages
Saketh Rao Data Analyst
valish silverspace
100% (1)
Bartlett and Ghoshal, 1988
Document22 pages
Bartlett and Ghoshal, 1988
aghosh_8
No ratings yet
Activity Guide - Functions Make - Unit 4 Lesson 11
Document3 pages
Activity Guide - Functions Make - Unit 4 Lesson 11
Devin Phillips
No ratings yet
Survival Guide For Odoo Customers - English Version
Document34 pages
Survival Guide For Odoo Customers - English Version
razvan777
No ratings yet
RTL Compiler Synthesis
Document22 pages
RTL Compiler Synthesis
sureg7
No ratings yet
BCSL-022 Solved Assignment 2023-24 - Protected-1
Document14 pages
BCSL-022 Solved Assignment 2023-24 - Protected-1
Rohit
No ratings yet
BABOK v2 Study Material
Document129 pages
BABOK v2 Study Material
Ng Flong
No ratings yet
Isc 2SC1969: Silicon NPN RF Power Transistor
Document2 pages
Isc 2SC1969: Silicon NPN RF Power Transistor
Alessandro
No ratings yet
Kafka My Kafka Note v67
Document55 pages
Kafka My Kafka Note v67
abhi garg
No ratings yet
M. Karthikeyan - 139556013
Document3 pages
M. Karthikeyan - 139556013
madhubaddapuri
No ratings yet
RBS 6601
Document15 pages
RBS 6601
River
No ratings yet
P 0456 Automatic Solar Rad Tracker
Document95 pages
P 0456 Automatic Solar Rad Tracker
Sam Mathew
100% (1)
When Standardization Meets Customization: by Jeremy Rautenbach
Document3 pages
When Standardization Meets Customization: by Jeremy Rautenbach
Vishal Marhatta
No ratings yet
Final ORK 2016-2018 Goal Meth 11-30-15 With Appendix
Document37 pages
Final ORK 2016-2018 Goal Meth 11-30-15 With Appendix
JAGUAR GAMING
No ratings yet
Money Pad
Document15 pages
Money Pad
Subhash Pbs
No ratings yet
Browser Automation PDF
Document1 page
Browser Automation PDF
Aries Lhi
No ratings yet
Honeywell Experion
Document18 pages
Honeywell Experion
Anonymous NwnJNO
No ratings yet
LG Multi V - VRF Catalogue 2016
Document119 pages
LG Multi V - VRF Catalogue 2016
Hung Tran
50% (2)
Cek Rekomendasi Tokopedia
Document1 page
Cek Rekomendasi Tokopedia
Ahmad Dedi
No ratings yet
OPCEasyArchiverUserGuide3 0rev2
Document259 pages
OPCEasyArchiverUserGuide3 0rev2
Luis Claudio Ramos
No ratings yet
From Information Security To Cyber Security: Rossouw Von Solms, Johan Van Niekerk
Document6 pages
From Information Security To Cyber Security: Rossouw Von Solms, Johan Van Niekerk
Eslam Awad
No ratings yet
DeveloperReference 3
Document100 pages
DeveloperReference 3
Ramon Corazao
No ratings yet
Iddq
Document66 pages
Iddq
RajasekharVenkata
No ratings yet
Unidad 8
Document1 page
Unidad 8
CRISTIAN ALVARO MURILLO PINAYA
No ratings yet
Pwnable - KR - Bof - 0xrick
Document7 pages
Pwnable - KR - Bof - 0xrick
Marcos F. M.
No ratings yet
Aktivasi Paket Petugas Batch 1
Document16 pages
Aktivasi Paket Petugas Batch 1
Muhammad Kadhafi
No ratings yet