Professional Documents
Culture Documents
Introduction PDF
Introduction PDF
• • •
• •
•• •
•• • •• • • • •• ••• •
• ••• •• • • •
• • • •
• •• •• ••
• • • •
•
•
•
•
2 / 29
Next Article in Technology (1 of 20) »
For Today’s Graduate, Just One Word: Statistics
By STEVE LOHR
Published: August 5, 2009
SIGN IN TO
RECOMMEND
MOUNTAIN VIEW, Calif. — At Harvard, Carrie Grimes majored in
SIGN IN TO
anthropology and archaeology and ventured to places like Honduras, E-MAIL
where she studied Mayan settlement patterns by mapping where
PRINT
artifacts were found. But she was drawn to what she calls “all the
REPRINTS
computer and math stuff” that was part of the job.
3 / 29
4 / 29
Statistical Learning Problems
• Identify the risk factors for prostate cancer.
• Classify a recorded phoneme based on a log-periodogram.
• Predict whether someone will have a heart attack on the basis
of demographic, diet and clinical measurements.
• Customize an email spam detection system.
• Identify the numbers in a handwritten zip code.
• Classify a tissue sample into one of several cancer classes,
based on a gene expression profile.
• Establish the relationship between salary and demographic
variables in population survey data.
• Classify the pixels in a LANDSAT image, by usage.
5 / 29
−1 1 2 3 4 40 50 60 70 80 0.0 0.4 0.8 6.0 7.0 8.0 9.0
o o o o o o o oo o
o o o o o o o o
o o o
oo o
o
o oo
o
o o
o o o o
o
o o oo o o o o o oo o o
o o o o o o
o
oooo ooooooo o ooooooooo oo oooooooooo ooo oo o
o o o oo o oo oo
o
o
o o
o
o
o
o oooooo oo ooo o o
o
o o
o oo oo oo ooooo oo o o oooooooo oo oooo o ooo o o oo
ooo
o o oooo ooo o o o o o ooo oooo o o o o
lpsa o
oo
oooo
ooo
o o
o ooooo oooooooo
o o oo
oooooo
ooo
oooooo ooo
ooooo
o o oo
o oo ooo
oo oooo
oooo
ooooo oo
oooo
o
o
o
o
o o
o o
ooo o oo
ooooo
ooo oooooooo
o
o
o
o
o
o
o
o
o
o oo
o
o
o
oo o
oo o o oooo
o
o
o o
o
o
o
o
o
o
o
o
o
o o
o
o
o
o ooo ooo oo oo oo oooooooo
oo o ooo ooooo o
o
o
o o
o
o
o
o o
o oo o
o o
o
o o o oo o oo o oo o
o o o o
o o
o o
o
o o o o o o o
oo oo oo oo o o o o
o o
o o
o o
o o
4
o o o o o o o
o o ooo oo o o oo o o
o oooo ooo o o oo
o
oo o o
o
o o o o
o o o o
o
ooo o oo oo o oo ooooo oooo o
3
o oooo o ooo o o ooo o o
o o o o
ooo ooo oooo o ooooo ooo o oooo o oo o o
o o
o
o o o o o
o ooooooo oo o oo
oo oo oo o oooooo o o o o oo o oooo oo o o
o
2
ooo oo
ooooooooo oooo oooooooo o ooo
oo oo o o oooo o o oo oo
o o o o oo oo o o o o
o o
ooo ooooooo o o ooo o oooo o o o o o o
ooo oooo lcavol oooo oo oo o oooooooooooooo o
o
o o o o ooo o oo o
o
o o o
o
o o ooooo o
o o
o
o
1
o oooooooo o o o o o oo o o o
oo
ooo o o oooo oo o o
o o oooooo
oo o o
o o
o o
o o o
oooo o ooo o o o o o o
oo o o
o o
o o
o o
o o
o
oo o oooo o oo oooo o o o o o o ooo o o
o
o o o o o
o
o
o
o
o
o o
o
o
o
−1
o o
o ooo o o oo o
o o
o o
o o
o
o o o o o o
o o o o o o o o o o o o o
o
oo o o o oo oo oo o
o o o o o
oo o o o o oo o o oo o
o o
o o o
o
ooo o
ooooo oo ooo oo oo oo oo o o o o oo o
o o
o oo oo o
o o
o
ooooo oo oo
oo
oo
ooo oo
oooo
o o ooo ooooo o o o
o o oo oooooo oo
o
o o
oooo o o ooo o oooo ooooo o o o ooo o o o oo
o ooooooooo o
o o
o o
o o o ooo
o o
o o
oo oooo
oooooo o
o oooooooo o o
oooo oooooo
oo o o o o ooooo ooooooo
o o
oo o oo o oooo o
o
ooooo oo
oo
o lweight o oo o
oo
o
o
o o o ooo
oo
ooo
o
ooo
ooooo oo
ooooo oo o
o o
o
o
o
o o o o
oo ooo
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o oo o oo
o oo o
o o oo o o o
o
oo oo
o
o
o
o
o
o
o
o
o
o
o o
o ooo
ooooooo oooo
o o o
o o o oo
o
o o ooo o o o o
o o
o
o oo
oo
oo oo o o
o
o
o oo o
o
o
o o oo
o
o
o o
o
o
oo oo o o
o o
o o
o o o
o o o o o o o
80
o ooo ooo o o oo o o o o o
o o o
o o ooo oo o o o o
o o o o o
o
o
o
o o
o o
o o o o o oo
o
o
o
o
oo oo o
oo o oo oo o o o ooo o oo oo o o o oo oo o o
o
o o
o o o
o o o o
70
o o oo o oo o ooooooooo o o o o o o
o oo o oo o o o
oooo o o o
o
o o o o
o
o o o
o o
o
oo o o o
oo o o
o o o o
o oo o o o o o
50
o o o oo o o o o
o o
o o
o
o o o o o o o o o o o o
o o o o o o o
o o o o oo o
o o
o o
o o
o
40
o ooo oo o oo ooo
oo o
oooooo o
o ooo
o o o o
oo o o
o o oo o
o o
o
o
o
oo ooo oo oo o oooo ooo o oo oooooo o oooo
o o
o o o
o o
o
o o o o
o o
o ooooooooooo o o o oooooooo
o o oo
o oooo ooo
o o
o
o o o o
o
oooo
o
o o
o
oo o oo o o o o o oooo o oo o o oooooo o o oo oo o o o ooo o
o o
o o
o
o o o o o o oo o o o o
o o o o o o o
o o ooo o
oo
o
o o ooo oooo o o
o
ooooo o o
o
o
o ooooooo oo
o
lbph o
o
o o
o
o
o
o o
o o o o
o
o
o
o
o
o
o
o
o o o o o o o o o o o o o o
o o o o o o o
o ooooooooooooooooooooooooooooo
oo oooooo ooooooooo
oooooooooooooo o o oooooooo
oo
ooooooooooooo o o ooo o ooo ooooooo
oo
oooooo oo o o o ooo oooo o oooooo
ooo o o o
ooooooooo
ooooooo ooooo oo
ooooooooo oooooooooooo o o o ooooooooo ooo o o o o o ooo oo o oooo oooooooo
ooooo o o
0.8
svi
0.4
0.0
oo
o oo
ooooooooooooooooooooooooooo ooooooo oooooooooooooo
ooooooooooooooo oo o oooo
oo
ooooo
oo
ooooooo
ooooo
oo
o
oo
ooooo
ooooooooooo o oo oo
o o oooooooooo
ooo
oo
ooooooooo oo o oo ooooo ooooooo
oo
oooooooo
oo
oo o oooooooo o oooooo o o o o o
o oo o o o ooooo
o
ooooo oo
o
o o o oo oo
o o o
o
o
o o o o
o
o
o
o
o o
oooo o
o oo oo o
ooooo o
o
o o o o
o o
o
ooo o o ooooooo oo
ooooo oo oo
o o oooo o o
o
o o o
oo ooooo o o ooo o o ooo o o
oo o
oo o
o o oo o o
o
o
o
o
o
o
o
o
o
o
o
o
o oooo
o o oo oo
o oooo o o o oo o
oo
o
oo
ooooooo o
o o
o
o o o o
o
o
o
o
o
o lcp o
o
o
o oo oo oooooo o
oo o o
o o o oo o o o
o
o
o o
o
o
ooooooooooo o o oooo o oo
o o o o ooooooo oo o
o ooo oooo
oo oo
o
o
o ooo oo o o
o
o
o
o
o
o
o
o
oo oooooooooooooooooooooooo
o oo ooooooo oooooooo oooooooo o oo o oo ooooo
ooooooooooooooooooo
oo oo ooo o ooooooo
ooooooooooo oo o o ooo oooooooooooo o o o o o
9.0
oooo o o o oo oo o oo o o o o o o o o o o o o oo o
8.0
o o o o o o o
gleason
7.0
o ooooooooooooooooooooo
ooooooo oo oooooooooooooooo
oo
oooooooo o o oooooooooooooo
ooo
oooo
ooooooooo oo o o o ooooooooo
oooooooooo
oo o o o oooo o oooo
oo
oooooooo
ooo o o o ooooooooooo ooooooooo
ooo o
6.0
oo
o oo
oooooooooooooooo oo oooooo ooooooo ooooooooo o o oooo
oo
oooooooooooo oo oo oo ooo o oo ooo
ooooooooo o o o o oooooooooo o o oo o o
oo o o o o o o o o
o o o o o o o o o o oo o
o
oo o oo o o oo o oo o o o o o o o o o o o o
o oo oo o o oo o ooooo oo oo o o oo o o
o o o o oo o o
o o
o ooooooo ooo oo o ooo oo o o o o ooooo o o o oo o o o oo ooo o
o oo o oo o oo o o o o o o o o o o
ooo o o ooo oo o o o ooooo o oo oo o o ooooo o o o o o o ooo o
oo o o oo o o o o o ooo o o o ooo oo o o o o oo o o
o o o oo o
o
o oooo oooooo o o oo oo oooooo o o o o o o ooo ooo o oo oo ooooo oo o o oo ooo oo o o
o o o o o
o o oo o o
o
oooo o ooo o o o oo oo o oo oo oo o o o o oo o o o o o
o o o
o o
o o
o oooo oo o o o
o
o o
oo oooooooooooooooo
o oo o
ooo oooooo ooooooooooo
ooo
oooo ooo o oooooooooooooo ooo oo o
ooooooo
oo ooo ooooo
oo o ooooooooo
o ooo o o
o o o o ooooooooooo
o o
o o
o oo o o
6 / 29
-1 1 3 40 60 80 0.0 0.4 0.8 6.0 7.5 9.0
o o o o o o o oo o o
o o oo o o o o o o
0 1 2 3 4 5
o oo oo o o
ooo o
o
o oo o o
o
o
o oo o
o
o
o o oo o
o
o
o
o
o o o
o o
o o
oooo
o oooooo oooooo oooo oo oooooo
ooo o o oo o
o o o oo o o oo o o o
o o ooooo oo ooo o o
o o o o oo o o o
oo o
o ooooooooooooo ooo o oooo oo oo
oo ooo
oooooooo ooo oooo o
ooo o o oooo ooo o o o oo ooo oooooooo o o o
o o oooooo o o o o oo
lpsa oo o oo oooo
oo o
oooo o
o
o oo ooo ooo o o o
o oo o o o o o o
o
oo oo o
o
oooooo oooo
ooo o o o ooooooo oooo o o o oooo
oo
ooo o o ooo ooooooooooo
o
o
o o
o o oo
o o ooooo o
o
o
o o o ooo
oo
o o oo oo o
oo oo oooo oooooo o o o
o oo o o oo o o
o o o oo
o ooo o
ooo oo oo oo o
o
o
oo o
oo oo ooooo o o
o
o o o
o
o o
o oo o o
o
o o
o o
o
o o oo o oo o
o o o o
o o
o o
o o
o
oooo oo o o o o o
o o
o o
o o
o o o
o o
-1 0 1 2 3 4
o o o o o o o o o
o ooo o ooooooo
o o ooo
oo o o
o oo
o o o
o
o o oo o o
o
o ooo o o o o o o oo
oooooooooo oo oooooooo o
ooooo o o ooooo
o o
oo o o o
o oo o o o o
o
o o o o oo oooooo oooo o
o o oo oo o oo
ooo oooo ooo o o o
o o o oo
ooo oooooo
oo oo ooo
ooooooo
ooo oooo o oooooo
oo ooo
oo
o
o
o
o
o oooo oooooooo o
o
o
o
o
o
o
o oo oo o
oo oo
oooo o
o
o
o
o o o
o oooo
oo o o oo o
ooo
oo oooo lcavol oo ooooooo o o oooooooo
oo
oooooooo o o
o o oo o ooo o oo o
o o o
o oooooo o
o o
o o o oo
o ooo o o oo
oo
oo ooo o o
oo o ooooo o oooo o oo oooooo o o
o o o o o
o ooo oo o o o
o o
o
ooooo o o ooooo o
o o o
o oo oo
oo o
o
o o o
o
o
o
oo
o
o
o o o
o
o
o o
o
oo oooo o oo ooo o o o oo o ooo o o o o o o
o o o o
o o o
o oo
o
o oo ooooo o ooo
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o o o o o o o o
6
5
oooo
o o
o oo ooo o
o o oo
ooo o
o o
o o o oo o o o o
oooooo
oooo ooo o ooooooo oooooooo lweight ooo
o
o o o ooooooo oo
o
o
o o
o
o
oo o ooooooo oo
o
o
o
o
o o
o
o o oo o o
oooo
oooo o o o oooooo o ooo oooo oo o o o o
o o o o ooo o
4
ooooooo
o o ooo ooo oo
oooo oooooooooooo o o o oo oooo
o o o o oo
ooo o oooo
oo ooooooo oooooooo oo o oo o
o o o
o o oo
o ooo ooo ooooo ooo
o o o
o o
o o o o o o ooooo o
ooo ooooo
ooooooo oooo o ooooooooooooooooooooooo oo oooooooooo
ooooooooo ooo o o
o o oooooooo ooo o
o
o o
o o
o oo oooo o o
o
o
o
o
o
o o o
o oooooo
ooo o o o o o
oo oo oo o oo oo ooo ooo o o o o
3
oo o o o
o o o o
o o o
o o o o o o o o
40 50 60 70 80
oooo oo oo o ooo o o o o o o o
o o o o o
o o o o o
o o o oo o
o
o
o oo
o o
o ooo o oo oo o oo o o ooo o o o ooo oo o ooo o oo o o o ooooo o o
o o o
oooooo ooooooo oo o oo ooo oooo oo oooooo o oooooooooo o ooooo oooo ooo o
o o
oo
o o o o o o o o
o o
oooo oooo o ooo oo ooooo o oo ooooooooooo o o o o
o o o ooo oooooo o o
o o oooo o ooooo
oo o o
o oo
oooooooo oooooooo o oo ooooo
ooooooo
oo oo o ooo oo oo o o
o ooo ooooo o
o oo
o
o o o
oo oo oo ooo oo o o o o
ooo o oooo
o o oo o o oo oo o oooooooooo o ooooooooo o age o
o
o o o ooo o
o o o o oo
o o oo o
o
o
o oo o
o o oo o o o o
oo oo o o oo o
o o oo o o o o
o o o o o o o o ooo
o o o oo o o oo o o
o o o o o o o o
o
o o o o o o o o o o o o oo
o o o o o o o o o
o o o o oo o
o o
o o o
o o
o
o o o o
o o oo o
oo o o
o o
oooo ooo o oo oo o
o o oo
o o o
o o
ooooo
o oo o o ooooo oooo oooooooooooo o o o oo oo oo o o
o o o ooo o o o o
2
o o
o ooooooooooooo o o oo o o
o oooo
ooooooo ooo o o
o o o oo o o
o
o o o oo o o
ooo o o o o o o oooo o oo o oo oooooo o oo oo o
o o ooo
o o o o o o
o o
o o oo oo o o oo
o oo o o o o o o o
1
o o o o o o o
o o oooo oooo ooo o o oooo o oooooooo lbph o o o o o o o oo o o o
o o o o oo oo o
o o
o o o oo o o
o o o o
o o o o o o o o
0
oo o o o o ooo o oo o
o o o o o o o o o o o
-1
ooooooooooooooooooooooooo oooo
oooooooooooo
oooooooooooooo o ooooooo
oo
oooooooooooooo ooooooooooooo ooooooooo
oo o o o ooo ooooo ooooooooo o o o oooooo o o o o o o o
ooooooooooooooo ooooo oooooooooo oooooo ooo
oooo o o o oooo ooooo ooo o o o o o ooooo o oooooooooooo
ooooo o o ooo ooo o o ooo o o
0.8
svi
0.4
0.0
oooo
ooooooooooooooooooooooooo
ooooooooooooooo
ooooooooooooooo ooooooo
ooo
ooo
o
oo
oooo
ooo
oo
oooooo
o
oo
ooooooo o oo o
ooo ooooooooo
oo
oo
oo
oooo
oo
ooooooo o oo oooo oooooo
oo
oooooooo
oo o ooooooooooooooo o o o o o o
oo
oooooo o o o o o o
3
o ooo oo ooo o oooooo o
o o o
o o
o o o
o o o o o
oooo o o o oo o o o o oooooo o
o oo o o o
o
o o
o
o o ooo oo
o
2
oo o o ooooooo oooooo
oo oo o o oooo o o o o o oo oo o o o
oooo oooo o o ooo o oooooo o
oo o
o o oo o
o o oo
o
o
o
o
o
o
o o
o
o
o o
o o o o oo o
1
o o
o oooo oo o oooo
oo
ooooo
ooo
o o o
oo
oooooo
oo o o
o
o
o o
o
o
o
o
o
o lcp o
o
o o o
oo o oo oo o
ooo oo oooooo oooooo oo oooooo o
o oo o o o
o o o
o o oo
-1 0
o o oo
ooooooooooo ooooo o o o
oo ooooo o o o
oo o oo
o
o
o ooo oo o o
o
o
o
o
o
o
o
o
oo o o
oo o o
oooooooooooooooooo
oooo ooo oooooooooooooo o oo
ooooo oooooo oooooooooo
ooo
oo ooooo o oo ooo o oooooooooooooooooo o o ooo oooooooooo o o o o o oooooo o o o
6.0 7.0 8.0 9.0
o o o o o o o o
gleason
o oooooooooooooooooooooooo oo oooooooooooooo
oo
oooooooo oooooooooooo
oo
oo
oo
oooooooooo oo o ooooooo
oo
oooo
oooooooooo o o oooo oooo
oo
ooooooo
ooo o o o oooooooooooooooooooo
oooo ooooooooo o o ooo
oo
ooo
oooooooooooo oo oooooooooooo ooooooooo o ooooooo
o
oo
ooooooooooo o oo ooo o oooooooooooo o o oo ooooooooo o o oo o o o
100
oo o o o o o o o o
o o o oo o o o o o oo o
o
oo o oo o o oo o oo o o o o o o o o o o o o
o oo ooo o oo o ooo oooo o o oo o o
o o o o oo o o
o o
60
o ooooooo oo oo o oooo oo ooooooo o o o oo o o o oo ooo o
o
o oo
oo o o o
o
o o oo
oo
o o
o oo
oo oo o
oo
oooo o
o
o
o
o ooooo
o
o
o
o
o o
o o o o ooo
o o
o pgg45
oo o o oo o oo oo o ooooo ooo o o o o o oo o o
o o oo oooo o o o
o
o
oo oo oooo ooo o o o oo oo oooooo o o
0 20
o oooo ooo o oooooo oo
ooo ooo o oo oooo oo o o o o
ooooo o o o ooooooooo ooo o oo ooooooooo o o o
o o o o
o o
o o
o ooo o o o
o o
oo ooooooooooooooooo oo
ooo oooo
oooo
ooooooooooooooo ooooooooo
oo
oo
ooo ooooooooooo o oo o ooooo
oooooooooo o
o o ooo oooooooooo
o o
o o
o ooo ooo o o o
0 2 4 3 4 5 6 -1 0 1 2 -1 1 2 3 0 40 80
7 / 29
Statistical Learning Problems
• Identify the risk factors for prostate cancer.
• Classify a recorded phoneme based on a log-periodogram.
• Predict whether someone will have a heart attack on the basis
of demographic, diet and clinical measurements.
• Customize an email spam detection system.
• Identify the numbers in a handwritten zip code.
• Classify a tissue sample into one of several cancer classes,
based on a gene expression profile.
• Establish the relationship between salary and demographic
variables in population survey data.
• Classify the pixels in a LANDSAT image, by usage.
8 / 29
Phoneme Examples
25
aa
ao
20
Log-periodogram
15
10
5
0
Frequency
0.2
0.0
-0.2
-0.4
Frequency
9 / 29
Statistical Learning Problems
• Identify the risk factors for prostate cancer.
• Classify a recorded phoneme based on a log-periodogram.
• Predict whether someone will have a heart attack on the basis
of demographic, diet and clinical measurements.
• Customize an email spam detection system.
• Identify the numbers in a handwritten zip code.
• Classify a tissue sample into one of several cancer classes,
based on a gene expression profile.
• Establish the relationship between salary and demographic
variables in population survey data.
• Classify the pixels in a LANDSAT image, by usage.
10 / 29
0 10 20 30 0.0 0.4 0.8 0 50 100
220
o o ooo o o oo o o oo oooo o o o o oo
oo ooo o
o ooo o o o o ooo
o o o o o ooo
ooo
o o ooooo o oo oo ooo oo o ooo o
oo ooo ooo
ooooooooo o ooooooo oooo
o
ooo oooooo o oo ooooo o oooooooo
oo ooooooo oooooo o ooooooo oooo o o o oooooooo
oooo oo o o o
o oooooooooooo
ooooooo oooo o o o
oo o ooooooooo ooo oooooooooo o
oo o
oo ooooooo ooooooooooo o o ooooooo oo ooooo
160
sbp o
o oo oo oooo o oo ooooo o oo o o oooooooo oo o ooooo ooo
oooo
oo
ooo
o
o o o o ooo o o o oooo o o oo o oo
oo
o o o
o o
o o
o o
oo
o o
ooo o ooo o ooo
ooooooo
oo ooooooooo o o ooo o oo o oo o o
o o o o oo
ooooooooo
o oooo oooo
oo o
oooo ooo
oo ooooooooo
o oooooooooo o oooooooo oo ooooooooooooooooo oo
o oo
o o oo
o oooo ooooooooo oo
o oooooo o oooooooo oooo ooooooooooo oo oo o oo oooooooooooooo
oooooooooooooooooooooo oooo
ooo oooooo
oo
o
oo
oo ooo
oo
ooo
ooo oo
oo oooo
oooooo
oooooooo
o o oo
o oooooo
ooo
o oo o
oooooooo
oo
ooo
oooo o
oooooooo
oooo ooo oo o
o o
o
ooo o
oo o ooo
o oooo o
o oo o
o ooooo
o
oo o o
o
oooooooo
ooooo
ooooo
oooooooooo
ooo oo
ooooo
ooo oooooo
ooooooooooooo
ooooo
ooo o
oo
o ooooo ooooooo
ooo
o ooo ooooo
oo o
ooo
oo
o
ooo ooo
o
oooo
ooo
oooooooooooo oo
o
ooo
ooo ooo
o oooo o
ooooo oo
oo
oooooooo oo o o
oo
oo o o oooooooooooo oo
oooo o
oo o
oo
o oooo
oo oooooooo
oo oooooo o ooo
ooooo
ooooo oooooo
o oo
ooo ooo o
oo
ooooo ooo
oo
oo oo oooooo o
o
ooooooo
oooo
o oo ooo oo
ooo oo
oo oo ooo
oo oooooooo ooo o o
ooooo oooo o o
o oo o oo
o o o o
ooooooooooooooo o oo
o o
oo
ooooo o o o
o oo o
oooo oo oo o oo o oo o o o ooo
o o
ooooooooooo
o
oo o oo o
o
oo ooooooooooo o oo o oo o
o o o o
oooo
o
o o ooooo o o o o o o
ooooooooooooooooo oooo oo
ooo
ooo
ooooooo ooooooo o oo
ooo ooooooooo oo
100
oooo oo oo oooo o o
o o o
30
o o o
o o o o o
20 o o o
o o o o
oo oo o o o
o ooo o ooo o ooooo o ooo o o o o ooo
o o
o ooooo oo
o o
o
ooooooo tobacco oooo ooo oooooo o
o
oo o ooo
o
o ooo oo oo o oooo
oo oooo oo oo o
o
o
oooo o o o o
ooooooo o o
o o
oo o oo oooooo
o oooo ooo
o o o o ooooo
o o oooo o o o o o o o o o o
10
o o o
ooooooooooooooooooooooooooo o oo o o o o o o oooooo
oooooo oooo oo
ooooooooooo o oo
ooooooo o
oo
oo
o o o
oo o ooooooooooo ooooooo oooo ooooo
o oooo o oooooooooooooo oo
o o oooooooooo oo oo o o oo ooo ooooooooo ooo
ooooo ooo o
ooooo ooooooo oo
o ooooooooooooo oo
oooooo
o
o oo oooo ooooo ooo ooo
ooo oo oo ooo ooooo oooo o oooo oo ooo
oooo
ooo oooooooo oooooooooo
ooooo o ooooooooo
oooooooooo
o oooooooo ooo ooo ooooooo oo
ooooo
ooo
ooo oooo ooooo
oo oo
ooooooo ooooo oo o
o o
o o oooo
o oooooo
oo oo
oo oo
ooo oooooooooo
oooo oooo oo
o
o ooo oo oo ooooooooooo o
oooooooooooooo oo oo ooo
ooo
ooooooooooo
oooo
ooooooooooooo oooo
oooo
oo
o ooooooo
oooooo
oooo
ooo oo
ooo
oo
oo
o oooo
ooo
o
ooo
o o
oo
oo
ooo
oo ooo
oo
o
oo oooo
oooo ooooooo
oooooo oooooo ooo
ooo
ooo
oooo o
oo
oo
ooo
oo
oo
oooo
oo
oo
ooo
oo
ooooo o
ooooooo
ooooo
o oooooooo ooooooo o o
o
o
oo
oo
oo
o
o
oo
o o
oo
o
o ooo
ooo
ooooo
oo
oooooo o
ooo ooooooo
oo ooooo oooo
o ooo
oooo
oooooooooooooooooo o
oo
o
o
ooooooo
oo
oo
o
oooo
o
oo oooo
o ooooooo
ooooo
o ooo
ooo oooooooo
oo ooo oooooo
oo o
ooooooooooooooo
ooo
oo
oo ooooo oo
oooooo oooo
ooo
o
oooo
oooo
ooooo
oooo
0
o oo o o o o o o
o o o o o o
o
10 14
o o o o o
ooo o o oooo
o o oooo o oo oo o o o oo o o o
o oo o ooooo oo
oo ooo o ooo oooo o o
o oo o oo
ooo ooo
o ooo o o
oooo o ooooo ooooo o ooooooooo o o oo o
ooooooooo ooooooooo o
ooooooo o o o o o
oooooo
oo o
oooooo o
oooooooo ldl ooo o ooooo ooo oooooooooo o o oo oo o oo ooooooooooooooooooooooo
oooo o o o oo ooo o oo o oo o oooo oo o oooo oooo
o oo o oo o o ooooo oo ooooo o o
oo
o o oo oooo ooooooooo o oo ooooooooooo oooooooo ooooooo ooo oo o
ooooo oooo o oooooooo oo
ooo o
oooooooo o
ooo oooooo o o
ooo ooo
oooooo o o o oooo ooooooooo o
oo o o o oo oooooo
o o
ooo o
ooo oooooo
oo oo oooo
ooooo o oooo oooo oo oo ooooo ooooooooooo
6
ooooooo ooo
oo ooo
ooooo oo o oo ooo oooo
oo ooooooo ooo oo o ooo o o o o oooo
o oooooo
ooo
ooo ooooooo oo oo oo oo oo
ooo oo ooooooooooo o
oo o oooooo ooo
oo ooo oooo
oo oo
oo
oo
oo ooooo oo oo
oooooo ooo ooooooo oooooooooooo oo ooo
oooo
o o oooo oo oo o ooo
o o ooooo ooooooo o oo oooo
oo oooooooooo
oo o o
o o o o
o o
o o
o o
oo
oooooo o o oo o oooo oo o
o
o o o
o
oooooooo o oo
oooooooooooo
o o oo o oo o
ooo o
oooo o ooo
ooooo oooo
o
oooo
ooooo oo o oo
oo oo
oo oo oo
o oo o ooooo o o
oo oo
o
o oo
ooooooooo
oo oooooooo oooooooo o o o o oo
o o
o
oo o
ooo
o o
o oo oooooooo
o
oo ooo o o
ooooooooooooooo oooo oo o
o
oo oooooooooooo
oooooooo ooooooooo oooo oo o o o ooo
oooo oooooooooo oooo ooooo ooooooo
o
oooooo o
o o oo o
ooooooooooo oo oo
ooo o o o oo o o o o o o
o oooooo
oooooo oo o o o o o
ooo o ooo
o o ooo oooooooo oooo
ooo oo o oo oo o ooooooooo
o o ooo
o ooooooooooooo ooooooo ooo oo
2
o o ooooooo ooo o o ooo oo
o ooo
ooooo
ooo
oooooo
ooooooooooo
ooo
oo oooooooooooooooooo
ooo ooo oooooooooooooo
oo
ooo
ooo
o
oo oo
ooooooooooo o o
oo oo
ooooooo ooooo
oooo
oo oooooooo
oooooo ooooo oooo o oo ooooooo
ooooooo
ooo ooo
oo
o
o o ooooooooooooooo
oooooo
oooo
oo
oo o
o
oo
o ooooooooooo
oooooooo ooooo oo oo
ooooooo ooooooooooo
oooooooo
ooooo oooooooooooooo
ooo
oooooooo ooo
o
ooooooo
oooo
oo
0.8
famhist
0.4
0.0
ooooo oooo
oooooooo
oooooo
ooooo
ooooo oo
ooo oo
oooooooooooooo
oo ooooooooooooooooooooo ooooo oooooo
o o
ooooooooo ooo ooooooooooooooooo
oo oo ooo oo
oooooo
oooo ooooooo
ooooo oo
ooo
ooo
oo ooooo
ooo ooooooooooo o o o o
ooooo
oo
ooooooooo
o oo ooo
ooo
oo
oo oo
oo oo
ooo
oo oooooo
oooooooooo o ooo
oo
oo
o
oo
o
ooooo
oo
oo o
oo
oo ooo
ooooooo ooooooooooooooooo ooo oooooooooo
oo
ooo ooooooooo
o
oooooo ooo oooooooooo
ooooo ooooo
ooo oooo oooo
oo oooooooooo
ooo
o o o o o o oo oo o o
45
o o oo oo oo o oo
o o o
o o o oo oo o o
oooo o o oo oo o
o oooo o
oo oooooo oooooooooo oo o oooooooooooo o oo
35
oooooo ooo o o o oo oo oooooooooo oooooooo
oo ooooo oooo o ooooooo o
ooooooooo ooo oooooooo ooo oooooooo o ooo oooooooooooooooooooo o o o
ooooo
o o
o o oo obesity ooooo oooooo oo ooooo ooooooooo oo ooooooooooo
ooo
oooooooo oo ooo ooo ooo oooo ooo o o oo oo oooooooo ooooooooo o oooooooo
o o oo oo ooooo ooooooooooo o oooo oooo o
o ooooo
o
oo oo
oooo ooooo ooo o oooo
ooooooooooo oooo oooooooooooooooooo
ooo ooooooo
oo ooo
ooo
oo
ooo
o oo
o o
ooooooo oooo oo
oooooooooo
oo ooooooo ooo ooo oo oo
oo o o
o
ooooo ooooo
o oooo
oo
o o
oo oooooo ooooooooooo o oooooo o oo
oo
oooo
oo
oo
o ooooo
ooooooooo o
oooooooo o o o
oo
o oooo
o o
ooo o o
o ooo
ooo o oooooooooo
ooooo ooo
oooo
oo
oooo ooooooo
oooo ooooo ooooo
oo oooooooo ooo oooo o
oo o
ooooo
ooooo oooooo ooooo
oo oooooooo
oo
oo
o ooo o o ooo oo
o ooooo oooooo
25
oooooo oo oo oo o ooo oo oooooooo o
oo
o oo o o o o o o o oo oo oooo oooo
ooo oooo
oo o
oo
ooo oooo oo
oooo ooo o ooooo ooo ooo
oo ooo ooooooo oo ooo oooooo o
ooooo oooo oooo o oooo oo
ooooooooo o
oo
oo
oo oo
o o
oooooooooo
oooooooooooo o o oo o o
oo o
o ooo oo
o
ooo
oooooo
o ooooooooooooooo oo o oo oooo oooooooo oo
oo
oooo ooo
oooo ooooo oooooooo
o ooo ooooo
oooooo o o o o o oo o o o o oo o ooo
o oooooo ooo ooooooo o ooooooooo
ooo o
o o oooo o
o ooooo
oo o o o
oo o
o o o o ooo
o o oo o oo o o oo
o
oooooooo
o
ooooooooo o o o ooo o
o oooo
o ooo o o
ooo oo ooo
o ooo o oo oo o o o
oooo ooo
o
o
15
o o o o o o
ooo o oo o oo o oo o o o
o o o oo o o
oo o o oo o ooo
100
o o o o o o
oo ooooo o o o o o ooo ooo oo ooo oo o ooo oo oo oo ooo
oooooo oo o
o
o ooooo
o o
oooo o oo
ooooooooo o o
o oo ooooooo ooo oo oooooo oo o o
ooo o ooo
oo o o ooooo o oooo alcohol o ooo ooooo ooo
o
oo o ooooooo
o o oooooooooo o o
o o o oo oo o o o ooooo o
50
oo
ooo
o ooooo oooo o
oooooo oo oooo
oo o oooo oooooooo oooooo o oo o o ooo ooo
oooooooo ooooo o oo o o ooooo
o oo ooo oo o oooo ooo
oooooooooo oooooo
ooooo
o o o ooooo
ooo ooooooooo oo o
o oooo oo o o
o oo
oooooooo o oooooooooooooooooooo ooo oooo
o
ooo
oo
oooooooooo
oooo
ooooo
ooo ooooooooo oooo
o oooo oo
o oooooo oooo
ooooo ooooo o oo oo
o oooooooooo
oo oo
ooo
oo ooo ooo oo oooooo oo oo ooo oooooo oooo oooooooooooooooo oooo
ooooo
ooooo ooooo o
ooooo oooo ooo o
oo ooo oooo o oooooooooo
ooo o o ooooo oo ooooo ooooooo
oo
ooooooo o o o
o o
ooooo
oooooooo oo
ooo o o
ooo
oo o
oooo
o oo o ooo o o o oo o o o o o o
ooo o oo oo ooo o ooo
oooooooo
o o oo
ooo o oo
ooooooooooo
oooooooooo
o ooooooooooo
oo ooo
ooo ooooo oo oooooo
ooooooo ooo oo
o
oooo oo
oo oo
ooo oooo ooo
oo ooooo oo
oo oooooo oooooo ooooo ooo ooo ooooooooooo oo ooooo oooooooo o ooo
oooo oo
oooo ooooooo
oooo ooo oo
ooo ooooooooooooooo o
ooo oo
o oo
o oo o
oo oo o oooo
ooo oo
oo
ooooo
ooo oo ooooo
oo oo ooooo oo oo
oo ooooooo
ooo oo oo
ooooooooooo
oooo oooo
oooooo ooooo o
oooooooo
oo ooo oooooo
ooo o
oo
0
o o o o oo
o o o o o o o o o o o o o o o o o o
oo ooooo ooo
o oooooo oo oooooooo oo o o o
oooooooo o o oooo o ooooooo oo o o
o oo oo oo oo oooo oooooo ooooo
oooooo
oooooo o oooooooo oooo ooooo o oo o o ooooo ooo
ooo oooooooooooo
o
ooo o o
ooo o ooo ooooo oo ooooo ooooooo
o ooooooooooo
60
oo ooo o ooooo
oo ooooooooo oo
o o
o oooooo oooooo o ooo oo ooooo oo oo oooo o oooo ooooo ooo oooo oo
oooo oo ooo ooo oo o o o o oo
o o o o o o o o oooo
o o
o oo
o
ooo oooooooooooooo
oo o
oo ooo o o oo
oooooooooo ooo oooooo oo oooooooooooo o o o oo oooo ooooooooooooo ooo oo o ooooo oooo ooo oo ooo ooooooo o
oooooooooooo o
oo
ooo
oo o ooooo oooooo o
ooooo
ooo oooo oooooooo o ooooo o o
oo oo oo oooo
oo ooooooo o o
oooooo o o o
ooooo o o
o o o o
oooooo o oo
ooooooooooo
o ooo o
o oooooo
o o
oo
oo oo
oooo o ooo o o o
ooooooo o oo
o o
ooooooooooo o o o o
o o
ooo oooooooooooo
o o ooo
oooo ooooooooo ooo oooo o o oooooo oooooo oooooooo o oooo o
o o ooo o o ooooo oo ooo o
ooooo ooo
ooo oooo oooo oo o ooooo oooo oooo
ooooo ooo
o oo
oo o oo o
oooooooooo oo o
oo oo
oo
oo
oooo oo
oo
o ooo oooo oooooooo oooo o o
ooo oo oo o
oo ooo o
oo o ooooo oo
40
ooooooo ooooooo oo oo ooo oo ooo ooooo ooo o o ooo oo ooooooo oo oo ooo
o age
oo
o
oo
o o o o oo o o oo o
o o o
oooo
o
ooo o o oo o o
o oo o oo ooooo ooooooo oooooooo ooo
o o o o o o
ooooo
oooooooo
oo ooooooo oooo
oo ooo
o ooooooooo oo oooo
o ooooo
ooo
ooooo o
oooooooooooooo
o
oo oo ooo o oooo ooooooooo oooooo oo
oo o oooooooooo oooo
o
ooo ooo ooo o ooooooooo ooo oooo o
o o oo o
ooooo oo oooooo oooo oooooooooooooooo oo o
ooo
oooo oo ooooo o o ooo
o oooooooooo o o
o
oooo o oo oooooo oooo ooooo
o
oooooooo
o o o oooo oo o o o oo o
20
o o ooooooo oo o oo o oooooooo o oo oo o
ooooo oo ooo
o oo
oooo oo
oo
oooooo oooo oo
oo
o
o ooo
o ooooooooooooo oo ooo o
oo
o oo o o
oo
o oo oooooo
ooooo oo ooooo o oo oooo
o oooo o
100 160 220 2 6 10 14 15 25 35 45 20 40 60
11 / 29
Statistical Learning Problems
• Identify the risk factors for prostate cancer.
• Classify a recorded phoneme based on a log-periodogram.
• Predict whether someone will have a heart attack on the basis
of demographic, diet and clinical measurements.
• Customize an email spam detection system.
• Identify the numbers in a handwritten zip code.
• Classify a tissue sample into one of several cancer classes,
based on a gene expression profile.
• Establish the relationship between salary and demographic
variables in population survey data.
• Classify the pixels in a LANDSAT image, by usage.
12 / 29
Spam Detection
• data from 4601 emails sent to an individual (named George,
at HP labs, before 2000). Each is labeled as spam or email.
• goal: build a customized spam filter.
• input features: relative frequencies of 57 of the most
commonly occurring words and punctuation marks in these
email messages.
13 / 29
Statistical Learning Problems
• Identify the risk factors for prostate cancer.
• Classify a recorded phoneme based on a log-periodogram.
• Predict whether someone will have a heart attack on the basis
of demographic, diet and clinical measurements.
• Customize an email spam detection system.
• Identify the numbers in a handwritten zip code.
• Classify a tissue sample into one of several cancer classes,
based on a gene expression profile.
• Establish the relationship between salary and demographic
variables in population survey data.
• Classify the pixels in a LANDSAT image, by usage.
14 / 29
15 / 29
Statistical Learning Problems
• Identify the risk factors for prostate cancer.
• Classify a recorded phoneme based on a log-periodogram.
• Predict whether someone will have a heart attack on the basis
of demographic, diet and clinical measurements.
• Customize an email spam detection system.
• Identify the numbers in a handwritten zip code.
• Classify a tissue sample into one of several cancer classes,
based on a gene expression profile.
• Establish the relationship between salary and demographic
variables in population survey data.
• Classify the pixels in a LANDSAT image, by usage.
16 / 29
17 / 29
Statistical Learning Problems
• Identify the risk factors for prostate cancer.
• Classify a recorded phoneme based on a log-periodogram.
• Predict whether someone will have a heart attack on the basis
of demographic, diet and clinical measurements.
• Customize an email spam detection system.
• Identify the numbers in a handwritten zip code.
• Classify a tissue sample into one of several cancer classes,
based on a gene expression profile.
• Establish the relationship between salary and demographic
variables in population survey data.
• Classify the pixels in a LANDSAT image, by usage.
18 / 29
300
300
300
200
200
200
Wage
Wage
Wage
50 100
50 100
50 100
20 40 60 80 2003 2006 2009 1 2 3 4 5
Income survey data for males from the central Atlantic region
of the USA in 2009.
19 / 29
Statistical Learning Problems
• Identify the risk factors for prostate cancer.
• Classify a recorded phoneme based on a log-periodogram.
• Predict whether someone will have a heart attack on the basis
of demographic, diet and clinical measurements.
• Customize an email spam detection system.
• Identify the numbers in a handwritten zip code.
• Classify a tissue sample into one of several cancer classes,
based on a gene expression profile.
• Establish the relationship between salary and demographic
variables in population survey data.
• Classify the pixels in a LANDSAT image, by usage.
20 / 29
Spectral Band 1 Spectral Band 2 Spectral Band 3
Usage ∈ {red soil, cotton, vegetation stubble, mixture, gray soil, damp
gray soil}
21 / 29
The Supervised Learning Problem
Starting point:
• Outcome measurement Y (also called dependent variable,
response, target).
• Vector of p predictor measurements X (also called inputs,
regressors, covariates, features, independent variables).
• In the regression problem, Y is quantitative (e.g price,
blood pressure).
• In the classification problem, Y takes values in a finite,
unordered set (survived/died, digit 0-9, cancer class of
tissue sample).
• We have training data (x1 , y1 ), . . . , (xN , yN ). These are
observations (examples, instances) of these measurements.
22 / 29
Objectives
23 / 29
Philosophy
24 / 29
Unsupervised learning
25 / 29
The Netflix prize
26 / 29
BellKor’s Pragmatic Chaos wins, beating The Ensemble by a
narrow margin. 27 / 29
Statistical Learning versus Machine Learning
28 / 29
Course Texts
STS
Springer Texts in Statistics
James · Witten · Hastie · Tibshirani
1
orial on implementing the
ar open source statistical
me Friedman
Trevor Hastie This Springer book (ESL) is more mathematically
rning Robert Tibshirani
h is statistical, the
re given, with a liberal
s and anyone interested
from supervised learning
ral networks, support
Second Edition
of topics. The book is available from Springer and
ors of statistics at
stie and Tibshirani
that title. Hastie co-
nt in R/S-PLUS and
o and is co-author of the
-inventor of many data-
nt boosting.