Welcome to Scribd!

Machine Learning Exponential Family: Dmitrij Schlesinger

Uploaded by

0% found this document useful (0 votes)

20 views11 pages

1) The exponential family is a general form for probability distributions with properties including natural parameters, sufficient statistics, and a log-partition function. Many common distributions like Gaussian fall under the exponential family. 2) Machine learning models based on the exponential family can be generative, modeling the joint distribution of inputs and outputs, or discriminative, modeling the conditional distribution of outputs given inputs. 3) For these models, maximum likelihood and related training objectives result in gradients that are the difference between expectations of sufficient statistics under the data and model distributions. Maximizing this difference serves to make the model distribution better match the data.

Original Description:

Original Title

ml_06_ef

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as pdf or txt

0% found this document useful (0 votes)

20 views11 pages

Machine Learning Exponential Family: Dmitrij Schlesinger

Uploaded by

Sakshi Badoni

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as pdf or txt

Jump to Page

You are on page 1of 11

Search inside document

Machine Learning

Exponential Family
Dmitrij Schlesinger
WS2013/2014, 22.11.2013
General form
h i
p(x; θ) = h(x) exp hη(θ), T (x)i − A(θ)
with
– x is a random variable
– θ is a parameter
– η(θ) is a natural parameter, vector (often η(θ) = θ)
– T (x) is a sufficient statistic
– A(θ) is the log-partition function

Almost all probability distributions you can imagine are

members of the exponential family

Example – Gaussian (board)

ML: Exponential Family 22.11.2013 2

Our models
Let x be an observed variable and y be a hidden one

1. The joint probability distribution is in the exponential

family (a generative model):
1 h i
p(x, y; w) = exp hφ(x, y), wi
Z(w)
X h i
Z(w) = exp hφ(x, y), wi
x,y

2. The conditional probability distribution is in the exponential

family (a discriminative model):
p(x, y; w) = p(x) · p(y|x; w)
1 h i
p(y|x; w) = exp hφ(x, y), wi
Z(w, x)
X h i
Z(w, x) = exp hφ(x, y), wi ∀x
y

ML: Exponential Family 22.11.2013 3

Our learning schemes

– Generative model, supervised → Maximum Likelihood,

Gradient

– Discriminative model, supervised → Maximum

Conditional Likelihood, Gradient

– Generative model, unsupervised → Maximum Likelihood,

Expectation Maximization, Gradient for the M-step

ML: Exponential Family 22.11.2013 4

Generative model, supervised
Model:
1 h i
p(x, y; w) = exp hφ(x, y), wi
Z(w)
X h i
Z(w) = exp hφ(x, y), wi
x,y

Training set: L = (xl , y l ) . . .

Maximum Likelihood:
Xh i
hφ(xl , y l ), wi − ln Z(w) → min
w
l

Gradient:
∂ 1 X ∂ ln Z(w)
= φ(xl , y l ) −
∂w |L| l ∂w

ML: Exponential Family 22.11.2013 5

Generative model, supervised
Partition function:
X h i
Z(w) = exp hφ(x, y), wi
x,y

Gradient of the log-partition function:

∂ ln Z(w)
=
∂w
1 X h i
= exp hφ(x, y), wi · φ(x, y)
Z(w) x,y
X
= p(x, y; w) · φ(x, y) = Ep(x,y;w) [φ]
x,y

The Gradient is the difference of expectations:

∂ 1 X
= φ(xl , y l ) − Ep(x,y;w) [φ] = EL [φ] − Ep(x,y;w) [φ]
∂w |L| l

ML: Exponential Family 22.11.2013 6

Discriminative model (posterior), supervised
Model:
1 h i
p(y|x; w) = exp hφ(x, y), wi
Z(w, x)
X h i
Z(w, x) = exp hφ(x, y), wi ∀x
y

Training set: L = (xl , y l ) . . .

Maximum Conditional Likelihood:

Xh i
hφ(xl , y l ), wi − ln Z(w, xl ) → min
w
l

Gradient:
∂ 1 X 1 X ∂ ln Z(w, xl )
= φ(xl , y l ) −
∂w |L| l |L| l ∂w

ML: Exponential Family 22.11.2013 7

Discriminative model (posterior), supervised
Partition function:
X h i
Z(w, x) = exp hφ(x, y), wi
y

Gradient of the log-partition function for a particular xl :

∂ ln Z(w, xl )
=
∂w
1 h
l
i
· φ(xl , y)
X
= l
exp hφ(x , y), wi
Z(w, x ) y
h i
p(y|xl ; w) · φ(xl , y) = Ep(y|xl ;w) φ(xl )
X
=
y

The Gradient is again the difference of expectations:

∂ 1 X h i
= EL [φ] − Ep(y|xl ;w) φ(xl )
∂w |L| l

ML: Exponential Family 22.11.2013 8

Generative model, unsupervised
Model:
1 h i
p(x, y; w) = exp hφ(x, y), wi
Z(w)
X h i
Z(w) = exp hφ(x, y), wi
x,y

Training set (incomplete): L = xl . . .

Expectation:
αl (y) = p(y|xl ; w) ∀l, y
Maximization:
XX
αl (y) ln p(x, y; w) → max
w
l y

ML: Exponential Family 22.11.2013 9

Generative model, unsupervised
Maximization:
XX
αl (y) ln p(x, y; w) =
l y
h i
αl (y) hφ(xl , y), wi − ln Z(w) =
XX
=
l y

αl (y)hφ(xl , y), wi −
XX XX
= αl (y) ln Z(w) =
l y l y

αl (y)hφ(xl , y), wi − |L| · ln Z(w)

XX
=
l y

The gradient is again a difference of expectations:

∂ 1 XX
= αl (y)φ(xl , y) − Ep(x,y;w) [φ] =
∂w |L| l y
1 X l
= E l [φ(x )] − Ep(x,y;w) [φ]
|L| l p(y|x )

ML: Exponential Family 22.11.2013 10

Conclusion

In all variants the gradient of the log-likelihood is a difference

between expectations of the sufficient statistic:

∂ ln L
= Edata [φ] − Emodel [φ]
∂w

→ the likelihood is in optimum if they coincide

In supervised cases the “data” expectation is the simple

average over the training set → Edata does not depend on w
→ the problem is concave → global optimum.

ML: Exponential Family 22.11.2013 11

Bigner, Jerry J. - Gerhardt, Clara - Parent-Child Relations - An Introduction To Parenting-Pearson (2014)
Document399 pages
Bigner, Jerry J. - Gerhardt, Clara - Parent-Child Relations - An Introduction To Parenting-Pearson (2014)
Claudia Horeanu
No ratings yet
Econometric S Cheat Sheet
Document3 pages
Econometric S Cheat Sheet
Vane
No ratings yet
Structured Output SVM
Document15 pages
Structured Output SVM
apopop
No ratings yet
Lec 1
Document12 pages
Lec 1
khodang
No ratings yet
Matrix Calculus4ml
Document20 pages
Matrix Calculus4ml
Almog Benda
No ratings yet
Symmetry Analysis of Differential Equations
Document88 pages
Symmetry Analysis of Differential Equations
Shabbir Chaudhary
No ratings yet
Lecture 8: Channel Capacity, Continuous Random Variables: 1.1 Examples
Document6 pages
Lecture 8: Channel Capacity, Continuous Random Variables: 1.1 Examples
sanjay singh
No ratings yet
Chapter 4: Multiple Random Variables
Document34 pages
Chapter 4: Multiple Random Variables
Maximiliano Olivares
No ratings yet
Assignment 1: Probability : Partial Solution
Document7 pages
Assignment 1: Probability : Partial Solution
Virda Setyani
No ratings yet
1.017/1.010 Class 11 Multivariate Probability: Multiple Random Variables
Document3 pages
1.017/1.010 Class 11 Multivariate Probability: Multiple Random Variables
Dr. Ir. R. Didin Kusdian, MT.
No ratings yet
Ee5143 Pset1 PDF
Document4 pages
Ee5143 Pset1 PDF
Sarthak Vora
No ratings yet
Sol Advriskmin 2
Document3 pages
Sol Advriskmin 2
toluei.s29
No ratings yet
4.3 Random Variable Bivariate Rev1
Document12 pages
4.3 Random Variable Bivariate Rev1
hardadi nur aziz
No ratings yet
Pair of RVs
Document20 pages
Pair of RVs
Hải Vũ Trần
No ratings yet
8mmpjoint Annotated
Document25 pages
8mmpjoint Annotated
Antal Tóth
No ratings yet
Lecture12 Multiple Random Variables and Independence
Document6 pages
Lecture12 Multiple Random Variables and Independence
sourav kumar ray
No ratings yet
Lecture 4
Document8 pages
Lecture 4
djaberdj
No ratings yet
Lecture Notes 1: Brief Review of Basic Probability (Casella and Berger Chapters 1-4)
Document14 pages
Lecture Notes 1: Brief Review of Basic Probability (Casella and Berger Chapters 1-4)
ravikumar rayala
No ratings yet
Kriging Course Mnmuq2014 Hal
Document40 pages
Kriging Course Mnmuq2014 Hal
ghaieth
No ratings yet
Introduction To Kriging: To Cite This Version
Document40 pages
Introduction To Kriging: To Cite This Version
Breno Nogueira
No ratings yet
CS 229, Public Course Problem Set #4 Solutions: Unsupervised Learn-Ing and Reinforcement Learning
Document12 pages
CS 229, Public Course Problem Set #4 Solutions: Unsupervised Learn-Ing and Reinforcement Learning
lalm9931
No ratings yet
Lec 16
Document15 pages
Lec 16
Thiago Salles
No ratings yet
Imaging Summary
Document39 pages
Imaging Summary
lepenguin
No ratings yet
Introduction To Probability Theory
Document13 pages
Introduction To Probability Theory
arjunvenugopalachary
No ratings yet
Joint Probability Distribution
Document47 pages
Joint Probability Distribution
Kiel John
No ratings yet
Multi-Variate Continuous Distributions: Stm2Pm
Document9 pages
Multi-Variate Continuous Distributions: Stm2Pm
ClintonM.Orenge
No ratings yet
G.C. Calafiore (Politecnico Di Torino)
Document23 pages
G.C. Calafiore (Politecnico Di Torino)
Daniel Andres Montoya Espinosa
No ratings yet
P9-Conditional Distribution
Document11 pages
P9-Conditional Distribution
ching chau
No ratings yet
Joint Distributions: He Shuangchi
Document36 pages
Joint Distributions: He Shuangchi
ZhengYang Chin
No ratings yet
11: Derived Distributions: Y Ax B
Document15 pages
11: Derived Distributions: Y Ax B
Āñīn Abrìtí Wåri
No ratings yet
CSD311: Artificial Intelligence
Document33 pages
CSD311: Artificial Intelligence
Ayaan Khan
No ratings yet
Assignment: Qualitative Theory
Document70 pages
Assignment: Qualitative Theory
Tahera Parvin
No ratings yet
CS 725: Foundations of Machine Learning: Lecture 2. Overview of Probability Theory For ML
Document23 pages
CS 725: Foundations of Machine Learning: Lecture 2. Overview of Probability Theory For ML
Anonymous d0rFT76B
No ratings yet
Covariance and Correlation Class 7, 18.05 Jeremy Orloff and Jonathan Bloom
Document9 pages
Covariance and Correlation Class 7, 18.05 Jeremy Orloff and Jonathan Bloom
Hofidis
No ratings yet
Joint Probability Distribution
Document4 pages
Joint Probability Distribution
Ariel Raye Rica
No ratings yet
5.1 Intro
Document1 page
5.1 Intro
Hashem Mansi
No ratings yet
Instructor: DR - Saleem AL Ashhab Al Ba'At University Mathmatical Class Second Year Master Dgree
Document13 pages
Instructor: DR - Saleem AL Ashhab Al Ba'At University Mathmatical Class Second Year Master Dgree
Nazmi O. Abu Joudah
No ratings yet
Fu Lec06 2017nine
Document7 pages
Fu Lec06 2017nine
Luiz Alberto Silva
No ratings yet
Lecture 21
Document30 pages
Lecture 21
Saumitra Pandey
No ratings yet
Mathematical Problems and Solutions On Information Theory
Document28 pages
Mathematical Problems and Solutions On Information Theory
Alvi Rownok
No ratings yet
EE250: Lecture Note Nonlinear Systems and Linearization
Document5 pages
EE250: Lecture Note Nonlinear Systems and Linearization
fghstrh
100% (1)
Bregman Divergence and Mirror Descent
Document8 pages
Bregman Divergence and Mirror Descent
Champumaharaj
No ratings yet
ST 1010 2020 Week 1-Function of Random Variables
Document4 pages
ST 1010 2020 Week 1-Function of Random Variables
Anon son
No ratings yet
Mit6 041SCF13 L07
Document3 pages
Mit6 041SCF13 L07
DevendraReddyPoreddy
No ratings yet
Lecture 1: Review of Probability and Forward/Futures Pricing
Document8 pages
Lecture 1: Review of Probability and Forward/Futures Pricing
Jason
No ratings yet
Lecture 1: Entropy and Mutual Information: 2.1 Example
Document8 pages
Lecture 1: Entropy and Mutual Information: 2.1 Example
Lokesh Singh
No ratings yet
Entropy
Document21 pages
Entropy
Gyana Ranjan Mati
No ratings yet
Reason Isomorphically!: Ralf Hinze Daniel W. H. James
Document12 pages
Reason Isomorphically!: Ralf Hinze Daniel W. H. James
randombrein
No ratings yet
Conditional Distribution
Document3 pages
Conditional Distribution
abhi_bhatye
No ratings yet
P8-Properties of Distributions
Document12 pages
P8-Properties of Distributions
ching chau
No ratings yet
Partial Differential Equations With Applications: Examples To Supplement Chapter 1 On First Order Pdes
Document10 pages
Partial Differential Equations With Applications: Examples To Supplement Chapter 1 On First Order Pdes
Johnny Pujols
No ratings yet
Multiple Random Variables
Document33 pages
Multiple Random Variables
Jose Leonardo Simancas Garcia
No ratings yet
Xy Xy
Document6 pages
Xy Xy
Amine Abdellatif
No ratings yet
February 23
Document5 pages
February 23
hint_2006
No ratings yet
Training Exercises
Document2 pages
Training Exercises
max muster
No ratings yet
Sums of Random Variables
Document1 page
Sums of Random Variables
Kylo Ren
No ratings yet
Sum of Two Independent Random Variables: September 16, 2012
Document4 pages
Sum of Two Independent Random Variables: September 16, 2012
Aditya Gupta
No ratings yet
Stability
Document35 pages
Stability
SHIVAM KUMAR SINGHWAL
No ratings yet
Problem Set 4 Solutions
Document6 pages
Problem Set 4 Solutions
andrewlimjf
No ratings yet
Slides Lecture6
Document12 pages
Slides Lecture6
Tudor Constantin
No ratings yet
Discrete Series of GLn Over a Finite Field. (AM-81), Volume 81
From Everand
Discrete Series of GLn Over a Finite Field. (AM-81), Volume 81
George Lusztig
No ratings yet
Egr - XXX Egreneuse
Document9 pages
Egr - XXX Egreneuse
nicodem kayembe
No ratings yet
Mathematics PDF
Document198 pages
Mathematics PDF
Bakari Hamisi
No ratings yet
3544 - SP2023 - Assignment Brief
Document3 pages
3544 - SP2023 - Assignment Brief
Lee Nam
No ratings yet
Supply Chain Integration and Logistics Performance: The Role of Supply Chain Dynamism
Document18 pages
Supply Chain Integration and Logistics Performance: The Role of Supply Chain Dynamism
محمود احمد
No ratings yet
Status Terkini Penerbitan Buku Advances in Oil Palm Research Second Edition
Document4 pages
Status Terkini Penerbitan Buku Advances in Oil Palm Research Second Edition
khairul najmi
No ratings yet
140 Mbio-Final Notes
Document89 pages
140 Mbio-Final Notes
Mourice Miyawa
No ratings yet
Physics Notes
Document19 pages
Physics Notes
sharmapiyush5783
No ratings yet
Heat Rate Condenser
Document4 pages
Heat Rate Condenser
anwikusuma
No ratings yet
Dentifrice PDF
Document16 pages
Dentifrice PDF
divyarati
100% (1)
3º Eso Reinforcement Conditional Eso
Document5 pages
3º Eso Reinforcement Conditional Eso
Marian Gonzalez
No ratings yet
A Comprehensive Review of The Psychological Effect of Brainwave Entrainment
Document12 pages
A Comprehensive Review of The Psychological Effect of Brainwave Entrainment
Miassss
No ratings yet
Detaila
Document5 pages
Detaila
Noneta Motsi
No ratings yet
Types of Speech Context Types of Speech Context
Document4 pages
Types of Speech Context Types of Speech Context
noriko
No ratings yet
OGE VSYo Slovoobrazovanie Iz Otkrytogo Banka
Document6 pages
OGE VSYo Slovoobrazovanie Iz Otkrytogo Banka
Анна
No ratings yet
Parlinski sfn201112008 2011
Document6 pages
Parlinski sfn201112008 2011
Ivan
No ratings yet
Sae J47-2020
Document7 pages
Sae J47-2020
Marcos Rosenberg
No ratings yet
Tinjauan Alur Prosedur Pelayanan Pasien Rawat Jalan Peserta BPJS Di RSU Imelda Pekerja Indonesia Medan
Document7 pages
Tinjauan Alur Prosedur Pelayanan Pasien Rawat Jalan Peserta BPJS Di RSU Imelda Pekerja Indonesia Medan
nurintan kurnia
No ratings yet
Purposive Communication (Part 1) Purposive Communication (Part 1)
Document14 pages
Purposive Communication (Part 1) Purposive Communication (Part 1)
Tricia Mae Comia Atienza
No ratings yet
Enterprise 1-Workbook
Document80 pages
Enterprise 1-Workbook
Melissa Gerván
No ratings yet
A Scoping Study of Negros Lsland's Power Sector Transformation
Document61 pages
A Scoping Study of Negros Lsland's Power Sector Transformation
supreme
100% (1)
Module 2 Chapter 2: Content and Contextual Analysis of Selected Sources in The Philippine History
Document57 pages
Module 2 Chapter 2: Content and Contextual Analysis of Selected Sources in The Philippine History
Ela Sofia Arnaiz
No ratings yet
WMRT Schaltbild R1.00
Document1 page
WMRT Schaltbild R1.00
ropi
No ratings yet
District Environment Plan Hoshangabad
Document87 pages
District Environment Plan Hoshangabad
Sabareesh Suresh
No ratings yet
VL2020210500609 Da
Document24 pages
VL2020210500609 Da
shubhamrpawar2021
No ratings yet
Maeon Laboratories: No:14, Lakshmikanthammal 1st Street, Rajiv Nagar, Vanagaram, Chennai
Document1 page
Maeon Laboratories: No:14, Lakshmikanthammal 1st Street, Rajiv Nagar, Vanagaram, Chennai
Maeon Laboratories
No ratings yet
Probability
Document3 pages
Probability
noer_rizal
No ratings yet
The Fourth Ray
Document11 pages
The Fourth Ray
Qizhi Neo
No ratings yet
5.class XII Indian Society @CivilServices - UPSC
Document172 pages
5.class XII Indian Society @CivilServices - UPSC
XTREAM X-PRO
No ratings yet
Plate Tectonics
Document32 pages
Plate Tectonics
Jericho Luiz Sipin Ramos
No ratings yet