Welcome to Scribd!

Skip carousel

Cammd Aims Lecture2

Uploaded by

RV Whatsapp status

0% found this document useful (0 votes)

2 views12 pages

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as pdf or txt

0% found this document useful (0 votes)

2 views12 pages

Cammd Aims Lecture2

Uploaded by

RV Whatsapp status

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as pdf or txt

Jump to Page

You are on page 1of 12

Search inside document

Materials Informatics

Practical Concepts in ML
Rohit Batra
rbatra@iitm.ac.in

LECTURE 2 (Afternoon, June 7, 2024)

Machine learning and Artificial Intelligence in Materials Science

Use the following concepts to improve your ML model performance

• Overfitting
• Regularization
• Normalization
• Feature selection (dimensionality reduction, curse of dimensionality)
• Ensemble models (e.g., random forest)
• Generally, simple methods generalize better on smaller (less datapoints or less features) datasets
Other important concepts in ML

• Error metrics (mean square error, R2 score)

• Train, Validation, Test error
• Cross-validation
• Overfitting
• Regularization
• Normalization
• Feature selection (dimensionality reduction, curse of dimensionality)

Rohit Batra, Materials Informatics Lab, MME, IIT Madras 2

Polynomial Regression
We assume that a linear model can explain the data
1-Dimensional example
𝑦! = 𝑓 𝒙 = 𝑤! + 𝑤" 𝑥" + 𝑤# 𝑥"#
&
Quadratic model
= * 𝑤$ 𝑥"&
y

$%!

Linear model = 𝒘( 𝒙

𝒙 = (𝑥' , 𝑥" , 𝑥" )

𝒘 = (𝑤' , 𝑤" , 𝑤# )
x

+ of the “line”
How to find the parameters (𝒘)
that best fits the data?

Rohit Batra, Materials Informatics Lab, MME, IIT Madras 3

Error Metrics

1-Dimensional example
Error 𝑒$ = 𝑦$ − 𝑦+$
y

Error )
1
Mean square error *(𝑒$ )#
𝑁
$%"

∑)
$%"(𝑒$ )
#
x Coefficient of 1− )
determination (R )
2 5 #
∑$%"(𝑦$ − 𝑦)

Mean of 𝒚

Rohit Batra, Materials Informatics Lab, MME, IIT Madras 4

Example:
Cross-Validation (CV)
Four-fold CV

All training data

hype-parameter estimation
Use validation errors for
Validation CV training
CV iteration

CV training Validation CV training

CV training Validation

Final model training using hyper-parameters from CV

Rohit Batra, Materials Informatics Lab, MME, IIT Madras 5

Overfitting

How to resolve overfitting?

Use regularization and cross-validation

Rohit Batra, Materials Informatics Lab, MME, IIT Madras 6

Regularization
)
1
Change cost (or loss) function from *(𝑒$ )#
𝑁
$%"

)
1
to *(𝑒$ )# + 𝜆 𝒘 #
𝑁
$%"

Caution other variations are

Solution that minimizes the new cost function (𝑋 ( 𝑋 + 𝜆𝐼)𝒘
+ = 𝑋( 𝒚 possible depending on what
is regularized!

We impose constraints on 𝒘 to avoid over-fitting

How to decide 𝜆?

Rohit Batra, Materials Informatics Lab, MME, IIT Madras 7

Curse of dimensionality
https://medium.com/analytics-vidhya/the-curse-of-dimensionality-and-its-cure-f9891ab72e5c

More features à Higher data sparsity

More features à More no. of training samples needed

Rohit Batra, Materials Informatics Lab, MME, IIT Madras 8

Feature Selection
Iteration 1
Feature set Selected Feature set
E1
E2
Model training
E3
E4

Iteration 2 Feature set Selected Feature set

Model training E2
E3

Continue iteration until error decreases…

Will this result in optimal set of features?
Rohit Batra, Materials Informatics Lab, MME, IIT Madras 9
Support Vector Regression

• A linear model can explain the data

• Cost function includes regularization term and slack
variables, subject to constraints
• Kernel trick is used to learn non-linear models

Good resources:
https://in.mathworks.com/help/stats/understanding-support-vector-machine-regression.html

Rohit Batra, Materials Informatics Lab, MME, IIT Madras 10

Ensemble Models

• Multiple weak learners (models) together result

in a more accurate prediction
• Methods to build ensemble models
• Bootstrap
• Boosting
• Combining models of different nature

Why ensemble methods work?

Source: https://towardsdatascience.com/what-are-ensemble-methods-in-machine-learning-cac1d17ed349

Rohit Batra, Materials Informatics Lab, MME, IIT Madras 11

Random Forest

• Ensemble of decision trees

• Bootstrapping for better accuracy
• Split strategy based on reduction in MSE

Rohit Batra, Materials Informatics Lab, MME, IIT Madras 12

SRM Formula Sheet
Document10 pages
SRM Formula Sheet
YU XUAN LEE
No ratings yet
Course Material - Computer Fundamentals
Document32 pages
Course Material - Computer Fundamentals
Kobe Martinez
No ratings yet
4th - How We Express Ourselves
Document10 pages
4th - How We Express Ourselves
danijelapj
No ratings yet
A Comparitive Study On Different Classification Algorithms Using Airline Dataset
Document4 pages
A Comparitive Study On Different Classification Algorithms Using Airline Dataset
Editor IJRITCC
No ratings yet
Model Evaluation Metrics
Document21 pages
Model Evaluation Metrics
Youssef Missaoui
No ratings yet
Module - 4 (R Training) - Basic Stats & Modeling
Document15 pages
Module - 4 (R Training) - Basic Stats & Modeling
RohitGahlan
No ratings yet
Data Scientist 1
Document96 pages
Data Scientist 1
Farah Diba
No ratings yet
Lecture 4 - Systems of Linear Equations (DONE!!)
Document44 pages
Lecture 4 - Systems of Linear Equations (DONE!!)
Sharelle Tew
No ratings yet
The Basics of R Programming Language
Document6 pages
The Basics of R Programming Language
Guilliane Gallano
No ratings yet
The Basics of R Programming Language
Document6 pages
The Basics of R Programming Language
Guilliane Gallano
No ratings yet
Estimation Problems: Adapted From
Document41 pages
Estimation Problems: Adapted From
Edma Nadhif Oktariani
No ratings yet
Lecture 3 - MachineLearning-CrashCourse2023
Document99 pages
Lecture 3 - MachineLearning-CrashCourse2023
Giorgio Aduso
No ratings yet
Individual Assignment #3 Regression P (2241565)
Document8 pages
Individual Assignment #3 Regression P (2241565)
Ohmymel
No ratings yet
Model Evaluation
Document80 pages
Model Evaluation
Deva Hema D
No ratings yet
K-Means Clustering Tutorial - Matlab Code
Document3 pages
K-Means Clustering Tutorial - Matlab Code
akumar5189
No ratings yet
Data Science I: Lesson #01 - Outline Presentation
Document20 pages
Data Science I: Lesson #01 - Outline Presentation
alesy
No ratings yet
Case Study 1 v2
Document28 pages
Case Study 1 v2
Aiman Nazeer Ahmed
No ratings yet
CV 2024022910202935
Document3 pages
CV 2024022910202935
info4nirbhay
No ratings yet
Format Practical Index
Document4 pages
Format Practical Index
Bdej
No ratings yet
Random Sample Consensus
Document10 pages
Random Sample Consensus
sophia787
No ratings yet
Enhancing Clustering Mechanism by Implementation of EM Algorithm For Gaussian Mixture Model
Document4 pages
Enhancing Clustering Mechanism by Implementation of EM Algorithm For Gaussian Mixture Model
International Journal of Application or Innovation in Engineering & Management
No ratings yet
Unit 4 - DS
Document118 pages
Unit 4 - DS
ramya ravindran
No ratings yet
Data Analysis:: Quantitative and Qualitative
Document73 pages
Data Analysis:: Quantitative and Qualitative
Chu Wan
No ratings yet
Mathematical Modeling
Document33 pages
Mathematical Modeling
Isma Ollshop
No ratings yet
41 j48 Naive Bayes Weka
Document5 pages
41 j48 Naive Bayes Weka
praveennallavelly
No ratings yet
Regression and Classification - Supervised Machine Learning - GeeksforGeeks
Document9 pages
Regression and Classification - Supervised Machine Learning - GeeksforGeeks
bsudheertec
No ratings yet
Quick Reference Guide The Math Class: AP Computer Science A Home Exam Reference Sheet
Document26 pages
Quick Reference Guide The Math Class: AP Computer Science A Home Exam Reference Sheet
Ryan
No ratings yet
Data Mining Lab Maual Through Python 031023
Document22 pages
Data Mining Lab Maual Through Python 031023
Manish Kumar
No ratings yet
SRM Formula Sheet-2
Document11 pages
SRM Formula Sheet-2
colore admistre
No ratings yet
Machine Learning Algorithms - A Review - ART20203995
Document6 pages
Machine Learning Algorithms - A Review - ART20203995
sdsdfs
No ratings yet
Supplementary eBioMedicine 2023 Meningioma
Document10 pages
Supplementary eBioMedicine 2023 Meningioma
statyoung
No ratings yet
Paper 2
Document4 pages
Paper 2
syed sakib
No ratings yet
Machine Learning Algorithm
Document8 pages
Machine Learning Algorithm
Shivaprakash D M
No ratings yet
CV 202402291017286
Document3 pages
CV 202402291017286
info4nirbhay
No ratings yet
Glossary of Terms Journal of Machine Learning
Document4 pages
Glossary of Terms Journal of Machine Learning
assistant0849
No ratings yet
Css Model Ans 22519 W 2022
Document23 pages
Css Model Ans 22519 W 2022
verycutestbaby
No ratings yet
Quiz-1 Notes
Document4 pages
Quiz-1 Notes
Shruthi Shetty
No ratings yet
RMIT - Cfd.lecture.08 230605a
Document36 pages
RMIT - Cfd.lecture.08 230605a
Attila Dr. Kiss
No ratings yet
Group A Assignment No2 Writeup
Document9 pages
Group A Assignment No2 Writeup
403 Chaudhari Sanika Sagar
No ratings yet
Assignment 1 - LP1
Document14 pages
Assignment 1 - LP1
bbad070105
No ratings yet
Lecture 1
Document31 pages
Lecture 1
Varun Anto
No ratings yet
Numerical Computation Presentation
Document34 pages
Numerical Computation Presentation
Chrono2erge
No ratings yet
Pointer (Data Structures) - Javatpoint
Document8 pages
Pointer (Data Structures) - Javatpoint
madsamael004
No ratings yet
Missing Data Analysis: University College London, 2015
Document37 pages
Missing Data Analysis: University College London, 2015
charudattasonawane55
No ratings yet
Cappstone
Document2 pages
Cappstone
Ankita Mishra
No ratings yet
Sakhil Capstone
Document20 pages
Sakhil Capstone
Jenish
No ratings yet
UNIT-III Lecture Notes
Document18 pages
UNIT-III Lecture Notes
nikhilsinha789
No ratings yet
Machine Learning Presentation
Document18 pages
Machine Learning Presentation
Lallu Bhai YT
No ratings yet
Programming Concepts
Document17 pages
Programming Concepts
bea f
No ratings yet
Instant Download PDF Essentials of MATLAB Programming 3rd Edition Chapman Solutions Manual Full Chapter
Document78 pages
Instant Download PDF Essentials of MATLAB Programming 3rd Edition Chapman Solutions Manual Full Chapter
balaliugay
100% (9)
R20 - R Program - P
Document29 pages
R20 - R Program - P
narayanababu
No ratings yet
Random Sample Consensus: Robust Estimation in Computer Vision
From Everand
Random Sample Consensus: Robust Estimation in Computer Vision
Fouad Sabry
No ratings yet
Lesson 4 Gradient Descent
Document13 pages
Lesson 4 Gradient Descent
John Veksler Lingal
No ratings yet
C Program To Find Transpose of A Matrix
Document1 page
C Program To Find Transpose of A Matrix
Vishwas Shukla
No ratings yet
Confusion Matrix
Document5 pages
Confusion Matrix
Nugroho Anis Rahmanto
No ratings yet
CS 461 - Fall 2021 - Neural Networks - Machine Learning
Document5 pages
CS 461 - Fall 2021 - Neural Networks - Machine Learning
Victor Ruto
No ratings yet
Essentials of MATLAB Programming 3rd Edition Chapman Solutions Manual instant download all chapter
Document78 pages
Essentials of MATLAB Programming 3rd Edition Chapman Solutions Manual instant download all chapter
cubanamarton
100% (5)
Machine Learning Algorithms - A Review: January 2019
Document7 pages
Machine Learning Algorithms - A Review: January 2019
Nitin Prasad
No ratings yet
Introduction To Algorithms: Chapter 2 - Principles of Data Structures Using C and by Vinu V Das
Document34 pages
Introduction To Algorithms: Chapter 2 - Principles of Data Structures Using C and by Vinu V Das
Aamir Chohan
No ratings yet
UNIT-1 Regression vs. Classification
Document25 pages
UNIT-1 Regression vs. Classification
Hii
No ratings yet
DATA MINING and MACHINE LEARNING. PREDICTIVE TECHNIQUES: ENSEMBLE METHODS, BOOSTING, BAGGING, RANDOM FOREST, DECISION TREES and REGRESSION TREES.: Examples with MATLAB
From Everand
DATA MINING and MACHINE LEARNING. PREDICTIVE TECHNIQUES: ENSEMBLE METHODS, BOOSTING, BAGGING, RANDOM FOREST, DECISION TREES and REGRESSION TREES.: Examples with MATLAB
César Pérez López
No ratings yet
Curriculum Mapping 2nd Term
Document35 pages
Curriculum Mapping 2nd Term
rose
No ratings yet
Engl 1301 Revised Proposal Self Yaretcy Leza
Document5 pages
Engl 1301 Revised Proposal Self Yaretcy Leza
api-533836907
No ratings yet
Naop Level 1 & Level 2 Qualifications in Occupational Testing and Assessment
Document8 pages
Naop Level 1 & Level 2 Qualifications in Occupational Testing and Assessment
Prateek Varma
No ratings yet
BIG BIG: Think, Dream Think
Document15 pages
BIG BIG: Think, Dream Think
graceyluz
100% (1)
English Scheme of Work For Year 5
Document42 pages
English Scheme of Work For Year 5
Mohamad Tarmidzi
0% (1)
Audu Maryam Project
Document57 pages
Audu Maryam Project
UGWUEKE CHINYERE
No ratings yet
Technology For Teaching and Learning : Direction
Document13 pages
Technology For Teaching and Learning : Direction
Joan Pangyan
100% (1)
SBF Form 16-Application Form For Scholarship of Higher Education To Railway Employees
Document1 page
SBF Form 16-Application Form For Scholarship of Higher Education To Railway Employees
Akizuki Takao
No ratings yet
APC 309 Assignment Jan 2014
Document4 pages
APC 309 Assignment Jan 2014
Milky Way
No ratings yet
Lesson Plan Health
Document3 pages
Lesson Plan Health
Вікторія Атаманюк
No ratings yet
Effectiveness of Subtitles in Second Language Acquisition
Document6 pages
Effectiveness of Subtitles in Second Language Acquisition
Kyle Dumalaog
No ratings yet
Ped SG
Document120 pages
Ped SG
Tshepi Carol Davids
No ratings yet
Curriculum Vitae: W Earnest Preetham Jaikar
Document6 pages
Curriculum Vitae: W Earnest Preetham Jaikar
Paul Philiphs
No ratings yet
Laptop Initiatives Summary of Research Across Seven States
Document20 pages
Laptop Initiatives Summary of Research Across Seven States
chintan darji
No ratings yet
CC 101 Project Proposal Template
Document3 pages
CC 101 Project Proposal Template
kayjejustintv
No ratings yet
Starter Activity: - Recap Previous Lesson and Discussion About The Homework Task
Document7 pages
Starter Activity: - Recap Previous Lesson and Discussion About The Homework Task
Mary Lin
100% (1)
New National Curriculum of Pakistan - 2
Document428 pages
New National Curriculum of Pakistan - 2
Muzamil Hafeez
No ratings yet
Instructional Design Models, Theories & Methodology
Document2 pages
Instructional Design Models, Theories & Methodology
Ronnil Fernandez
No ratings yet
Jurnal Internasional 1 PDF
Document5 pages
Jurnal Internasional 1 PDF
Opi
No ratings yet
Bowling Lesson Plan 1
Document2 pages
Bowling Lesson Plan 1
api-280553324
No ratings yet
ACCOMPLISHMENT REPORT 2022 School Head
Document5 pages
ACCOMPLISHMENT REPORT 2022 School Head
MARCK JOHN EUSTAQUIO
100% (3)
Lorma TM 1 Checklist - of - Requirements - 20191
Document2 pages
Lorma TM 1 Checklist - of - Requirements - 20191
Khael Angelo Zheus Jacla
No ratings yet
How To Approach The Advanced Audit and Assurance (AAA) Exam
Document1 page
How To Approach The Advanced Audit and Assurance (AAA) Exam
Raghav
No ratings yet
Learning Activity Sheet: Learn
Document3 pages
Learning Activity Sheet: Learn
Chinn R. Legaspi
No ratings yet
Learning Competencies The Learner
Document4 pages
Learning Competencies The Learner
Jennifer J. Pascua
No ratings yet
2023 Schneider Global Student Experience - FAQs
Document6 pages
2023 Schneider Global Student Experience - FAQs
Kamil M. Ahmed
No ratings yet
Marylin B. Tarongoy Bsed-Math 3 Ed-Asl1 MR - Ionell Jay Terogo
Document1 page
Marylin B. Tarongoy Bsed-Math 3 Ed-Asl1 MR - Ionell Jay Terogo
Marylin Tarongoy
No ratings yet
Endorsement Letter New
Document9 pages
Endorsement Letter New
Rodj Eli Mikael Viernes-Incognito
No ratings yet
Proposal For IM's Preparation Program Matrix
Document4 pages
Proposal For IM's Preparation Program Matrix
Azzel Arieta
No ratings yet