Download as pdf or txt
Download as pdf or txt
You are on page 1of 69

Statistical Methods for Climate

Scientists Timothy Delsole


Visit to download the full and correct content document:
https://ebookmeta.com/product/statistical-methods-for-climate-scientists-timothy-dels
ole/
More products digital (pdf, epub, mobi) instant
download maybe you interests ...

Statistical Models and Methods for Data Science


Leonardo Grilli

https://ebookmeta.com/product/statistical-models-and-methods-for-
data-science-leonardo-grilli/

Statistical Methods for Survival Data Analysis 3rd


Edition Lee

https://ebookmeta.com/product/statistical-methods-for-survival-
data-analysis-3rd-edition-lee/

Statistical Methods for Handling Incomplete Data 2nd


Edition Kim

https://ebookmeta.com/product/statistical-methods-for-handling-
incomplete-data-2nd-edition-kim/

Numerical Methods for Engineers and Scientists 3rd


Edition Amos Gilat

https://ebookmeta.com/product/numerical-methods-for-engineers-
and-scientists-3rd-edition-amos-gilat/
Modern Statistical Methods for Health Research 1st
Edition Yichuan Zhao

https://ebookmeta.com/product/modern-statistical-methods-for-
health-research-1st-edition-yichuan-zhao/

Statistical Methods 4th Edition Donna Mohr

https://ebookmeta.com/product/statistical-methods-4th-edition-
donna-mohr/

Multivariate Statistical Machine Learning Methods for


Genomic Prediction Montesinos López

https://ebookmeta.com/product/multivariate-statistical-machine-
learning-methods-for-genomic-prediction-montesinos-lopez/

Statistical Methods for Healthcare Performance


Monitoring 1st Edition Alex Bottle Paul Aylin

https://ebookmeta.com/product/statistical-methods-for-healthcare-
performance-monitoring-1st-edition-alex-bottle-paul-aylin/

Applied Numerical Methods with MATLAB for Engineers and


Scientists, 5th Edition Steven Chapra

https://ebookmeta.com/product/applied-numerical-methods-with-
matlab-for-engineers-and-scientists-5th-edition-steven-chapra/
S TAT I S T I C A L M E T H O D S F O R C L I M AT E S C I E N T I S T S

This book provides a comprehensive introduction to the most commonly used statistical
methods relevant in atmospheric, oceanic, and climate sciences. Each method is described
step-by-step using plain language, and illustrated with concrete examples, with relevant
statistical and scientific concepts explained as needed. Particular attention is paid to nuances
and pitfalls, with sufficient detail to enable the reader to write relevant code. Topics covered
include hypothesis testing, time series analysis, linear regression, data assimilation, extreme
value analysis, Principal Component Analysis, Canonical Correlation Analysis, Predictable
Component Analysis, and Covariance Discriminant Analysis. The specific statistical chal-
lenges that arise in climate applications are also discussed, including model selection prob-
lems associated with Canonical Correlation Analysis, Predictable Component Analysis, and
Covariance Discriminant Analysis. Requiring no previous background in statistics, this is
a highly accessible textbook and reference for students and early career researchers in the
climate sciences.

t i m o t h y m . d e l s o l e is Professor in the Department of Atmospheric, Oceanic


and Earth Sciences, and Senior Scientist at the Center for Oceanic Atmospheric, and
Land Studies, at George Mason University, Virginia. He has published more than
100 peer-reviewed papers in climate science and served as co-editor-in-chief of the
Journal of Climate.
m i c h a e l k . t i p p e t t is an associate professor at Columbia University. His
research includes forecasting El Niño and relating extreme weather (tornadoes and
hurricanes) with climate, now and in the future. He analyzes data from computer
models and weather observations to find patterns that improve understanding, facil-
itate prediction, and help manage risk.
Includes both the mathematics and the intuition needed for climate data analysis.

–Professor Dennis L Hartmann, University of Washington


S TAT I S T I C A L M E T H O D S F O R
C L I M AT E S C I E N T I S T S

T I M OT H Y M . D E L S O L E
George Mason University

MICHAEL K. TIPPETT
Columbia University
University Printing House, Cambridge CB2 8BS, United Kingdom
One Liberty Plaza, 20th Floor, New York, NY 10006, USA
477 Williamstown Road, Port Melbourne, VIC 3207, Australia
314-321, 3rd Floor, Plot 3, Splendor Forum, Jasola District Centre, New Delhi – 110025, India
103 Penang Road, #05–06/07, Visioncrest Commercial, Singapore 238467

Cambridge University Press is part of the University of Cambridge.


It furthers the University’s mission by disseminating knowledge in the pursuit of
education, learning, and research at the highest international levels of excellence.

www.cambridge.org
Information on this title: www.cambridge.org/9781108472418
DOI: 10.1017/9781108659055
© Cambridge University Press 2022
This publication is in copyright. Subject to statutory exception
and to the provisions of relevant collective licensing agreements,
no reproduction of any part may take place without the written
permission of Cambridge University Press.
First published 2022
Printed in the United Kingdom by TJ Books Limited, Padstow Cornwall
A catalogue record for this publication is available from the British Library.
Library of Congress Cataloging-in-Publication Data
Names: DelSole, Timothy M., author.
Title: Statistical methods for climate scientists / Timothy M. DelSole and Michael K. Tippett.
Description: New York : Cambridge University Press, 2021. | Includes
bibliographical references and index.
Identifiers: LCCN 2021024712 (print) | LCCN 2021024713 (ebook) |
ISBN 9781108472418 (hardback) | ISBN 9781108659055 (epub)
Subjects: LCSH: Climatology–Statistical methods. | Atmospheric
science–Statistical methods. | Marine sciences–Statistical methods. |
BISAC: SCIENCE / Earth Sciences / Meteorology & Climatology
Classification: LCC QC866 .D38 2021 (print) | LCC QC866 (ebook) |
DDC 551.601/5118–dc23
LC record available at https://lccn.loc.gov/2021024712
LC ebook record available at https://lccn.loc.gov/2021024713
ISBN 978-1-108-47241-8 Hardback
Additional resources for this publication at www.cambridge.org/9781108472418.
Cambridge University Press has no responsibility for the persistence or accuracy of
URLs for external or third-party internet websites referred to in this publication
and does not guarantee that any content on such websites is, or will remain,
accurate or appropriate.
Contents

Preface page xiii

1 Basic Concepts in Probability and Statistics 1


1.1 Graphical Description of Data 2
1.2 Measures of Central Value: Mean, Median, and Mode 4
1.3 Measures of Variation: Percentile Ranges and Variance 6
1.4 Population versus a Sample 8
1.5 Elements of Probability Theory 8
1.6 Expectation 11
1.7 More Than One Random Variable 13
1.8 Independence 16
1.9 Estimating Population Quantities from Samples 18
1.10 Normal Distribution and Associated Theorems 20
1.11 Independence versus Zero Correlation 27
1.12 Further Topics 28
1.13 Conceptual Questions 29

2 Hypothesis Tests 30
2.1 The Problem 31
2.2 Introduction to Hypothesis Testing 33
2.3 Further Comments on the t-test 40
2.4 Examples of Hypothesis Tests 43
2.5 Summary of Common Significance Tests 49
2.6 Further Topics 50
2.7 Conceptual Questions 51

3 Confidence Intervals 52
3.1 The Problem 53

v
vi Contents

3.2 Confidence Interval for a Difference in Means 53


3.3 Interpretation of the Confidence Interval 55
3.4 A Pitfall about Confidence Intervals 57
3.5 Common Procedures for Confidence Intervals 57
3.6 Bootstrap Confidence Intervals 64
3.7 Further Topics 67
3.8 Conceptual Questions 68

4 Statistical Tests Based on Ranks 69


4.1 The Problem 70
4.2 Exchangeability and Ranks 71
4.3 The Wilcoxon Rank-Sum Test 73
4.4 Stochastic Dominance 78
4.5 Comparison with the t-test 79
4.6 Kruskal–Wallis Test 81
4.7 Test for Equality of Dispersions 83
4.8 Rank Correlation 85
4.9 Derivation of the Mean and Variance of the Rank Sum 88
4.10 Further Topics 92
4.11 Conceptual Questions 93

5 Introduction to Stochastic Processes 94


5.1 The Problem 95
5.2 Stochastic Processes 100
5.3 Why Should I Care if My Data Are Serially Correlated? 105
5.4 The First-Order Autoregressive Model 109
5.5 The AR(2) Model 117
5.6 Pitfalls in Interpreting ACFs 119
5.7 Solutions of the AR(2) Model 121
5.8 Further Topics 122
5.9 Conceptual Questions 124

6 The Power Spectrum 126


6.1 The Problem 127
6.2 The Discrete Fourier Transform 129
6.3 Parseval’s Identity 133
6.4 The Periodogram 134
6.5 The Power Spectrum 135
6.6 Periodogram of Gaussian White Noise 138
6.7 Impact of a Deterministic Periodic Component 139
Contents vii

6.8 Estimation of the Power Spectrum 140


6.9 Presence of Trends and Jump Discontinuities 144
6.10 Linear Filters 146
6.11 Tying Up Loose Ends 150
6.12 Further Topics 152
6.13 Conceptual Questions 155

7 Introduction to Multivariate Methods 156


7.1 The Problem 157
7.2 Vectors 159
7.3 The Linear Transformation 160
7.4 Linear Independence 163
7.5 Matrix Operations 166
7.6 Invertible Transformations 168
7.7 Orthogonal Transformations 170
7.8 Random Vectors 172
7.9 Diagonalizing a Covariance Matrix 175
7.10 Multivariate Normal Distribution 178
7.11 Hotelling’s T-squared Test 179
7.12 Multivariate Acceptance and Rejection Regions 181
7.13 Further Topics 182
7.14 Conceptual Questions 183

8 Linear Regression: Least Squares Estimation 185


8.1 The Problem 186
8.2 Method of Least Squares 188
8.3 Properties of the Least Squares Solution 192
8.4 Geometric Interpretation of Least Squares Solutions 196
8.5 Illustration Using Atmospheric CO2 Concentration 199
8.6 The Line Fit 205
8.7 Always Include the Intercept Term 206
8.8 Further Topics 207
8.9 Conceptual Questions 209

9 Linear Regression: Inference 210


9.1 The Problem 211
9.2 The Model 212
9.3 Distribution of the Residuals 212
9.4 Distribution of the Least Squares Estimates 213
9.5 Inferences about Individual Regression Parameters 215
viii Contents

9.6 Controlling for the Influence of Other Variables 216


9.7 Equivalence to “Regressing Out” Predictors 218
9.8 Seasonality as a Confounding Variable 222
9.9 Equivalence between the Correlation Test and Slope Test 224
9.10 Generalized Least Squares 225
9.11 Detection and Attribution of Climate Change 226
9.12 The General Linear Hypothesis 233
9.13 Tying Up Loose Ends 234
9.14 Conceptual Questions 236

10 Model Selection 237


10.1 The Problem 238
10.2 Bias–Variance Trade off 240
10.3 Out-of-Sample Errors 243
10.4 Model Selection Criteria 245
10.5 Pitfalls 249
10.6 Further Topics 253
10.7 Conceptual Questions 254

11 Screening: A Pitfall in Statistics 255


11.1 The Problem 256
11.2 Screening iid Test Statistics 259
11.3 The Bonferroni Procedure 262
11.4 Screening Based on Correlation Maps 262
11.5 Can You Trust Relations Inferred from Correlation Maps? 265
11.6 Screening Based on Change Points 265
11.7 Screening with a Validation Sample 268
11.8 The Screening Game: Can You Find the Statistical Flaw? 268
11.9 Screening Always Exists in Some Form 271
11.10 Conceptual Questions 272

12 Principal Component Analysis 273


12.1 The Problem 274
12.2 Examples 276
12.3 Solution by Singular Value Decomposition 283
12.4 Relation between PCA and the Population 285
12.5 Special Considerations for Climate Data 289
12.6 Further Topics 295
12.7 Conceptual Questions 297
Contents ix

13 Field Significance 298


13.1 The Problem 299
13.2 The Livezey–Chen Field Significance Test 303
13.3 Field Significance Test Based on Linear Regression 305
13.4 False Discovery Rate 310
13.5 Why Different Tests for Field Significance? 311
13.6 Further Topics 312
13.7 Conceptual Questions 312

14 Multivariate Linear Regression 314


14.1 The Problem 315
14.2 Review of Univariate Regression 317
14.3 Estimating Multivariate Regression Models 320
14.4 Hypothesis Testing in Multivariate Regression 323
14.5 Selecting X 324
14.6 Selecting Both X and Y 328
14.7 Some Details about Regression with Principal Components 331
14.8 Regression Maps and Projecting Data 332
14.9 Conceptual Questions 333

15 Canonical Correlation Analysis 335


15.1 The Problem 336
15.2 Summary and Illustration of Canonical Correlation Analysis 337
15.3 Population Canonical Correlation Analysis 343
15.4 Relation between CCA and Linear Regression 347
15.5 Invariance to Affine Transformation 349
15.6 Solving CCA Using the Singular Value Decomposition 350
15.7 Model Selection 357
15.8 Hypothesis Testing 359
15.9 Proof of the Maximization Properties 362
15.10 Further Topics 364
15.11 Conceptual Questions 364

16 Covariance Discriminant Analysis 366


16.1 The Problem 367
16.2 Illustration: Most Detectable Climate Change Signals 370
16.3 Hypothesis Testing 378
16.4 The Solution 382
16.5 Solution in a Reduced-Dimensional Subspace 388
16.6 Variable Selection 392
x Contents

16.7 Further Topics 395


16.8 Conceptual Questions 398

17 Analysis of Variance and Predictability 399


17.1 The Problem 400
17.2 Framing the Problem 401
17.3 Test Equality of Variance 403
17.4 Test Equality of Means: ANOVA 404
17.5 Comments about ANOVA 406
17.6 Weather Predictability 407
17.7 Measures of Predictability 411
17.8 What Is the Difference between Predictability and Skill? 414
17.9 Chaos and Predictability 416
17.10 Conceptual Questions 417

18 Predictable Component Analysis 418


18.1 The Problem 419
18.2 Illustration of Predictable Component Analysis 422
18.3 Multivariate Analysis of Variance 424
18.4 Predictable Component Analysis 427
18.5 Variable Selection in PrCA 430
18.6 PrCA Based on Other Measures of Predictability 432
18.7 Skill Component Analysis 435
18.8 Connection to Multivariate Linear Regression and CCA 437
18.9 Further Properties of PrCA 439
18.10 Conceptual Questions 445

19 Extreme Value Theory 446


19.1 The Problem and a Summary of the Solution 447
19.2 Distribution of the Maximal Value 453
19.3 Maximum Likelihood Estimation 459
19.4 Nonstationarity: Changing Characteristics of Extremes 463
19.5 Further Topics 466
19.6 Conceptual Questions 467

20 Data Assimilation 468


20.1 The Problem 469
20.2 A Univariate Example 469
20.3 Some Important Properties and Interpretations 473
20.4 Multivariate Gaussian Data Assimilation 475
Contents xi

20.5 Sequential Processing of Observations 477


20.6 Multivariate Example 478
20.7 Further Topics 481
20.8 Conceptual Questions 487

21 Ensemble Square Root Filters 489


21.1 The Problem 490
21.2 Filter Divergence 497
21.3 Monitoring the Innovations 499
21.4 Multiplicative Inflation 500
21.5 Covariance Localization 503
21.6 Further Topics 507
21.7 Conceptual Questions 509

Appendix 510
A.1 Useful Mathematical Relations 510
A.2 Generalized Eigenvalue Problems 511
A.3 Derivatives of Quadratic Forms and Traces 512

References 514
Index 523
Preface

This book provides an introduction to the most commonly used statistical methods
in atmospheric, oceanic, and climate sciences. The material in this book assumes
no background in statistical methods and can be understood by students with only a
semester of calculus and physics. Also, no advanced knowledge about atmospheric,
oceanic, and climate sciences is presumed. Most chapters are self-contained and
explain relevant statistical and scientific concepts as needed. A familiarity with
calculus is presumed, but the student need not solve calculus problems to perform
the statistical analyses covered in this book.
The need for this book became clear several years ago when one of us joined
a journal club to read “classic” papers in climate science. Specifically, students in
the club had difficulty understanding certain papers because these papers contained
unfamiliar statistical concepts, such as empirical orthogonal functions (EOFs), sig-
nificance tests, and power spectra. It became clear that our PhD curriculum was
not adequately preparing students to be “literate” in climate science. To rectify this
situation, we decided that students should take a statistics class. However, at that
time, there did not exist a single self-contained course that covered all the topics
that we considered to be essential for success in climate science. Therefore, we
designed a single course that covered these topics (which eventually expanded into
a two-semester course). This book is based on this course and embodies over a
decade of experience in teaching this material.
This book covers six key statistical methods that are essential to understanding
modern climate research: (1) hypothesis testing; (2) time series models and power
spectra; (3) linear regression; (4) Principal Component Analysis (PCA), and related
multivariate decomposition methods such as Canonical Correlation Analysis (CCA)
and Predictable Component Analysis, (5) data assimilation; and (6) extreme value
analysis. Chapter 1 reviews basic probabilistic concepts that are used throughout the
book. Chapter 2 discusses hypothesis testing. Although the likelihood ratio provides
a general framework for hypothesis testing, beginners often find this framework

xiii
xiv Preface

daunting. Accordingly, Chapter 2 explains hypothesis testing based on heuristic


arguments for Gaussian distributions, which most students find intuitive. The frame-
work discussed in Chapter 2 provides the foundation for hypothesis testing that
is used in the rest of the book. The related concept of confidence intervals, as
well as bootstrap methods and distribution-free tests, is discussed in Chapters 3
and 4. Fundamental concepts in time series analysis, especially stochastic processes
and power spectra, are discussed in Chapters 5 and 6, respectively. Certain topics
that typically are included in statistical texts are omitted because they are seldom
used in climate science; for instance, moving average models are not discussed in
detail because they are used much less often in climate science than autoregressive
models.
The second half of this book covers multivariate methods. We have striven
to convey our hard-learned experience about these methods collected over many
years. Basic concepts in linear algebra and multivariate distributions are outlined in
Chapter 7. Linear regression is discussed in Chapters 8 and 9. Pitfalls in linear
regression are discussed in detail, especially model selection (Chapter 10) and
screening (Chapter 11). These concepts are critical for proper usage and interpreta-
tion of statistical methods, especially in statistical prediction, but are not easy to find
in introductory texts. Principal Component Analysis is the most commonly used
multivariate method in climate science, hence our discussion in Chapter 12 is very
detailed. Subsequent chapters discuss field significance (Chapter 13), Multivariate
Linear Regression (Chapter 14), Canonical Correlation Analysis (Chapter 15),
Covariance Discriminant Analysis (Chapter 16), Analysis of Variance (Chapter 17),
and Predictable Component Analysis (Chapter 18). An introduction to extreme
value theory is provided in Chapter 19. Data assimilation and ensemble square root
filters are discussed in Chapters 20 and 21 with the goal of introducing essential
ideas and common practical problems that we believe every user of data assimilation
products should be aware of.
This book is designed for either a one-semester or a two-semester course. Consid-
erable effort has been made to select and arrange the material in a logical order that
facilitates teaching and learning. We have used this book to teach a one-semester
course covering Chapters 1–13 at approximately one chapter per week. For more
advanced students, a second-semester course is offered covering Chapters 14–21.
The homework sets are available at the Cambridge University Press website asso-
ciated with this book.
The multivariate part of this book is distinguished from previous books in an
important way. Typical climate data sets are much bigger in the spatial dimen-
sion than in the time dimension. This creates major difficulties for applying such
multivariate techniques as Canonical Correlation Analysis, Predictable Component
Analysis, and Covariance Discriminant Analysis to climate data, although these
Preface xv

difficulties are rarely discussed in standard statistics texts. In the climate literature,
the standard approach to this problem is to apply these techniques to a few principal
components of the data, so that the time dimension is much bigger than the state
dimension. The most outstanding barrier in this approach is choosing the number
of principal components. Unfortunately, no standard criterion for selecting the num-
ber of principal components exists for these multivariate techniques. This gap was
sorely felt each time this material was taught and motivated us to conduct our own
independent research into this problem. This research culminated in the discovery
of a criterion that was consistent with standard information criteria and could be
applied to all of the problems discussed in this book. For regression models and
CCA, this criterion is called Mutual Information Criterion (MIC) and is introduced
in Chapter 14 (for full details, see DelSole and Tippett, 2021a). After formulating
this criterion, we discovered that it was consistent with many of the criteria derived
by Fujikoshi et al. (2010) based on likelihood ratio methods, which supports the
soundness of MIC. However, MIC is considerably easier to derive and apply. We
believe that MIC will be of wide interest to statisticians and to scientists in other
fields who use these multivariate methods.
The development of this book is somewhat unique. Initially, we followed our
own personal experience by giving formal lectures on each chapter. Inspired by
recent educational research, we began using a “flipped classroom” format, in which
students read each chapter and sent questions and comments electronically before
coming to class. The class itself was devoted to going over the questions/comments
from students. We explicitly asked students to tell us where the text failed to help
their understanding. To invite feedback, we told students that we needed their help
in writing this book, because over the ten years that we have been teaching this topic,
we have become accustomed to the concepts and could no longer see what is wrong
with the text. The resulting response in the first year was more feedback than we had
obtained in all the previous years combined. This approach not only revolutionized
the way we teach this material but gave us concrete feedback about where precisely
the text could be improved. With each subsequent year, we experimented with new
material and, if it did not work, tried different ways. This textbook is the outcome
of this process over many years, and we feel that it introduces statistical concepts
much more clearly and in a more accessible manner than most other texts.
Each chapter begins with a brief description of a statistical method and a concrete
problem to which it can be applied. This format allows a student to quickly ascertain
if the statistical method is the one that is needed. Each problem was chosen after
careful thought based on intrinsic interest, importance in real climate applications,
and instructional value.
Each statistical method is discussed in enough detail to allow readers to write
their own code to implement the method (except in one case, namely extreme value
xvi Preface

theory, for which there exists easy-to-use software in R). The reason for giving this
level of detail is to ensure that the material is complete, self-contained, and covers
the nuances and points of confusion that arise in practice. Indeed, we, as active
researchers, often feel that we do not adequately understand a statistical method
unless we have written computer code to perform that method. Our experience is
that students gain fundamental and long-lasting confidence by coding each method
themselves. This sentiment was expressed in an end-of-year course evaluation, in
which one of our students wrote, “Before this course, I had used someone else’s
program to compute an EOF, but I didn’t really understand it. Having to write my
own program really helped me understand this method.”
The methods covered in this book share a common theme: to quantify and exploit
dependencies between X and Y . Different methods arise because each method is tai-
lored to a particular probability distribution or data format. Specifically, the methods
depend on whether X and Y are scalar or vector, whether the values are categorical
or continuous, whether the distributions are Gaussian or not, and whether one vari-
able is held fixed for multiple realizations of the other. The most general method for
quantifying X-Y dependencies for multivariate Gaussian distributions is Canonical
Correlation Analysis. Special cases include univariate regression (scalar Y ), field
significance (scalar X), or correlation (scalar X and scalar Y ). In climate studies,
multiple realizations of Y for fixed X characterize ensemble data sets. The most gen-
eral method for quantifying X-Y dependencies in ensemble data sets is Predictable
Component Analysis (or equivalently, Multivariate Analysis of Variance). Special
cases include Analysis of Variance (scalar Y ), and the t-test (scalar X and scalar Y ).
Many of these techniques have non-Gaussian versions. Linear regression provides
a framework for exploiting dependencies to predict one variable from the other.
Autoregressive models and power spectra quantify dependencies across time. Data
assimilation provides a framework for exploiting dependencies to infer Y given X
while incorporating “prior knowledge” about Y . The techniques for the different
cases, and the chapter in which they are discussed, are summarized in Table 0.1.

Table 0.1. Summary of methods for quantifying dependencies between X and Y .

Y X Statistic or Procedure Chapter


Vector Vector Canonical Correlation Analysis 15
Scalar Vector Multiple regression 9
Vector Scalar Field significance 13
Scalar Scalar Scalar regression or correlation 1
Ensemble and vector Categorical Predictable Component Analysis 18
Ensemble and scalar Categorical Analysis of Variance 17
Ensemble and scalar Two categories t-test 2
Preface xvii

It is a pleasure to acknowledge helpful comments from colleagues who gra-


ciously gave up some of their busy time to read selected chapters in this book,
including Jeffrey Anderson, Grant Branstator, Ian Jolliffe, and Jagadish Shukla.
We thank our (former) students whose feedback was invaluable to finding the best
pedagogical approach to this material, especially Paul Buchman, Xia Feng, Rachael
Gaal, Olivia Gozdz, Liwei Jia, Keri Kodama, Emerson LaJoie, Douglas Nedza,
Abhishekh Srivastava, Xiaoqin Yan, and M. Tugrul Yilmaz. We are indebted to
Anthony Barnston, Grant Branstator, Ping Chang, Ben Kirtman, Andy Majda, Tapio
Schneider, Jagadish Shukla, and David Straus for discussions over many years that
have shaped the material presented in this book. We thank Vera Akum for assistance
in acquiring the permissions for the quotes that open each chapter. Special thanks
to Tony Barnston for suggesting the example used in Chapter 9. Any errors or
inaccuracies in this book rest solely with the authors. We will be grateful to readers
who notify us of errors or suggestions for improvement of this book.
1
Basic Concepts in Probability and Statistics

Probability theory is nothing more than common sense reduced to


calculation.
Pierre Simon Laplace

This chapter reviews some essential concepts of probability and statistics, including
the following:

• line plots, histograms, scatter plots


• mean, median, quantiles, variance
• random variables
• probability density function
• expectation of a random variable
• covariance and correlation
• independence
• the normal distribution (also known as the Gaussian distribution)
• the chi-squared distribution.
These concepts provide the foundation for the statistical methods discussed in the
rest of this book.

1
2 Basic Concepts in Probability and Statistics

Nino 3.4 index (raw)


29
Nino 3.4 index (°C)

27
25

1990 1992 1994 1996 1998 2000


year

Figure 1.1 A time series of the monthly Niño 3.4 index over the period 1990–2000.

1.1 Graphical Description of Data


Scientific knowledge is based on observations. However, a mere list of observational
facts rarely advances science. Instead, the data need to be organized in ways that
help the scientist interpret the data in a scientific interpret the data in a scientific
framework and formulate new hypotheses that can be checked in independent data
or experiments. To illustrate ways of describing the main characteristics of a data set,
consider a specific observable quantity: the area-average sea surface temperature in
the equatorial Pacific in the region 170◦ W − 120◦ W and 5◦ S − 5◦ N. This quantity
is called the Niño 3.4 index and is an indicator of seasonal climate variations. The
monthly average value of this index over a period of 50 or more years is readily avail-
able from various data portals. What are some ways of describing such a data set?
Data taken sequentially in time are known as time series. A natural way to visual-
ize time series is to plot them as a function of time. A time series plot of Niño 3.4 is
shown in Figure 1.1. The figure reveals that peaks and valleys occur at nearly peri-
odic intervals, reflecting the annual cycle for this region. The figure also reveals that
the time series is “smooth” – the value at one time is close to the value at neighboring
times. Such time series are said to be serially correlated or autocorrelated and
will be studied in Chapter 5. Another feature is that the minimum values generally
decreased from 1993 to 2000, suggesting a possible long-term change. Methods for
quantifying long-term changes in time series will be discussed in Chapters 8 and 9.
Note how much has been learned simply by plotting the time series.
Another way to visualize data is by a histogram.
Definition 1.1 (Histogram) A histogram is a plot obtained by partitioning the
range of data into intervals, often equal-sized, called bins, and then plotting a
1.1 Graphical Description of Data 3

Nino 3.4 index (raw) 1948–2018 Nino 3.4 index (raw) 1948−2018

0.4

0.4
Frequency

Frequency
0.2

0.2
0.0

0.0
24 25 26 27 28 29 24 25 26 27 28 29
Nino 3.4 index (°C)  3.4 index (°C)
Nino

Figure 1.2 Histograms of the monthly mean Niño 3.4 index over the period 1948–
2017. The two histograms show the same data, but the left histogram uses a wider
bin size than the right.

rectangle over each bin such that the area of each rectangle equals the empirical
frequency with which samples fall into the bin. The total area of the rectangles equals
one. (Sometimes, histograms may be defined such that the total area of the rectangles
equals the total number of samples, in which case the area of each rectangle equals
the number of samples that fall into that bin.)

Histograms of the Niño 3.4 index for different bin sizes are shown in Figure 1.2.
The figure shows that this index varied between 24◦ C and 29.5◦ C over the period
1948–2017. Also, values around 27◦ occur more frequently than values around 25◦
or 29◦ . However, the shape of the histogram is sensitive to bin size (e.g., compare
Figures 1.2a and b); hence, the conclusions one draws from a histogram can be
sensitive to bin size. There exist guidelines for choosing the bin size, e.g., Sturges’
rule and the Freedman–Diaconis rule, but we will not discuss these. They often are
implemented automatically in standard statistical software.
The scatterplot provides a way to visualize the relation between two variables. If
X and Y are two time series over the same time steps, then each point on the scatter-
plot shows the point (X(t),Y (t)) for each value of t. Some examples of scatterplots
are illustrated in Figure 1.3. Scatterplots can reveal distinctive relations between X
and Y . For instance, Figure 1.3a shows a tendency for large values of X to occur
at the same time as large values of Y . Such a tendency can be used to predict one
variable based on knowledge of the other. For instance, if X were known to be
at the upper extreme value, then it is very likely that Y also will be at its upper
extreme. Figure 1.3b shows a similar tendency, except that the relation is weaker,
and therefore a prediction of one variable based on the other would have more
uncertainty. Figure 1.3c does not immediately reveal a relation between the two
variables. Figure 1.3d shows that X and Y tend to be negatively related to each other,
4 Basic Concepts in Probability and Statistics

Figure 1.3 Scatterplots of X versus Y for various types of relation. The correlation
coefficient ρ, given in the title of each panel, measures the degree of linear
relation between X and Y . The data were generated using the model discussed
in Example 1.7, except for data in the bottom right panel, which was generated by
the model Y = X 2 , where X is drawn from a standardized Gaussian.

when one goes up, the other goes down. Methods for quantifying these relations are
discussed in Section 1.7.

1.2 Measures of Central Value: Mean, Median, and Mode


Visual plots are informative, but ultimately data must be described quantitatively.
A basic descriptor of a set of numbers is their central value. For instance, the
central value could be identified with the most frequent value, called the mode. The
mode could be estimated by the location of the peak of a histogram, although this
definition would depend on bin size. Also, for the Niño 3.4 time series, each value
occurs only once, so there is no “most frequent value.” Other measures of central
value are the mean and median. When these quantities are computed from data, the
qualifier sample is used to emphasize its dependence on data.

Definition 1.2 (Sample Mean) The sample mean (or average) of N numbers
X1, . . . ,XN is denoted μ̂X and equals the sum of the numbers divided by N
1.2 Measures of Central Value: Mean, Median, and Mode 5

Nino 3.4 index (raw) 1948 – 2018

mean – 2 * sd mean + 2 * sd
x
mean median
0.4
Frequency

5% 95%
0.2
0.0

24 25 26 27 28 29
 3.4 index (°C)
Nino

Figure 1.4 Histogram of the monthly mean (raw) Niño 3.4 index over the period
1948–2017, as in Figure 1.2, but with measures of central value and dispersion
superimposed. The mean and median are indicated by dashed and dotted vertical
lines, respectively. The dash-dotted lines indicate the 5th and 95th percentiles. The
horizontal “error bar” at the top indicates the mean plus or minus two standard
deviations. The empirical mode is between 27◦ C and 27.5◦ C.

1 
N
X1 + X2 + · · · + XN
μ̂X = = Xn . (1.1)
N N
n=1

The mean of the Niño 3.4 index is indicated in Figure 1.4 by the dashed vertical
line. The mean is always bounded by the largest and smallest elements.
Another measure of central value is the median.
Definition 1.3 (Sample Median) The sample median of N numbers X1, . . . ,XN
is the middle value when the data are arranged from smallest to largest. If N is odd,
the median is the unique middle value. If N is even, then two middle values exist and
the median is defined to be their average.

The median effectively divides the data into two equal halves: 50% of the data
lie above the median, and 50% of the data lie below the median. The median of the
Niño 3.4 index is shown by the dotted vertical line in Figure 1.4 and is close to the
mean. In general, the mean and median are equal for symmetrically distributed data,
but differ for asymmetrical distributions, as the following two examples illustrate.
Example 1.1 (The Sample Median and Mean for N Odd) Question: What is
the mean and median of the following data?
2 8 5 9 3. (1.2)
Answer: To compute the median, first order the data:
2 3 5 8 9. (1.3)
6 Basic Concepts in Probability and Statistics

The middle value is 5, hence the median is 5. The mean is


2+3+5+8+9
= 5.4. (1.4)
5
Example 1.2 (The Sample Median and Mean for N Even) Question: What is
the mean and median of the following data?
2 8 5 9 3 100. (1.5)
Answer: To compute the median, first order the data:
2 3 5 8 9 100. (1.6)
The two middle values are 5 and 8, hence the median is their average, namely 6.5. In
contrast, the mean is 21.2, which differs considerably from the median (contrary to
example 1.1). Note that if the value of 100 were changed to some higher value X, the
median would remain at 6.5 regardless of the value X, but the mean would increase
with X. This example shows that the mean is sensitive to extreme values in a data set,
whereas the median is not.

1.3 Measures of Variation: Percentile Ranges and Variance


Two data sets can have similar central values but differ by how they vary about the
central value. Two common measures of variation are quantile ranges and variance.
Sample quantiles are points that divide the sample into equal parts. Common quan-
tiles have special names. For instance, terciles divide the sample into three equal
parts; quartiles divide a sample into four equal parts. One of the most common
quantiles is the percentile.
Definition 1.4 (Sample Percentiles) A (sample) percentile is indicated by a num-
ber p, such that after the data are ordered from smallest to largest, at least p · 100%
of the data are at or below this value, and at least 100(1 − p)% are at or above this
value. The resulting value is said to be the 100p-th percentile (e.g., the 90th percentile
corresponds to p = 0.9).

The median is a special case of a percentile: It is the 50th percentile (i.e., p = 0.5).
The above definition states merely that at least p · 100% of the data lies below the
100p’th percentile, hence the sample percentile is not unique. There are several
definitions of sample quantiles; for instance, Hyndman and Fan (1996) discuss nine
different algorithms for computing sample quantiles. The differences between these
sample quantiles have no practical importance for large N and will not be of concern
in this book. Mathematical software packages such as Matlab, R, and Python have
built-in functions for computing quantiles.
The percentile range is the interval between two specified percentile points. For
instance, the 5–95% range includes all values between the 5th and 95th precentiles.
This percentile range is a measure of variation in the sense that it specifies an interval
in which a random number from the population will fall 90% of the time. The 5th
1.3 Measures of Variation: Percentile Ranges and Variance 7

and 95th percentiles of the Niño 3.4 index are indicated in Figure 1.4 by the two
dash-dot lines.
Another measure of variation is the variance.
Definition 1.5 (Sample Variance) The sample variance of N numbers X1, . . . ,XN
is denoted σ̂X2 and defined as

1 
N
σ̂X2 = (Xn − μ̂X )2, (1.7)
N −1
n=1

where μ̂X is the sample mean of the data, defined in (1.1).

The reader ought to be curious why the sum in (1.7) is divided by N − 1, whereas
the sum for the mean (1.1) was divided by N. The reason for this will be discussed in
Section 1.10 (e.g., see discussion after Theorem 1.4). Based on its similarity to the
definition of the mean, the variance is approximately the average squared difference
from the sample mean.
Definition 1.6 (Standard Deviation) The standard deviation is the (positive)
square root of the variance:

σ̂X = σ̂X2 . (1.8)
The standard deviation has the same units as X.

Among the different measures listed above, the ones that will be used most often
in this book are the mean for central tendency, and the variance for variation. The
main reason for this is that the mean and variance are algebraic combinations of
the data (i.e., they involve summations and powers of the data); hence, they are
easier to deal with theoretically compared to mode, median, and percentiles (which
require ranking the data). Using the mean and variance, a standard description of
variability is the mean value plus and minus one or two standard deviations. For the
Niño 3.4 index shown in Figure 1.4, the mean plus or minus two standard deviations
is indicated by the error bar at the top of the figure.

Selected Properties of the Sample Variance


If σ̂X2 is the sample variance of X1, . . . ,XN and k is a constant, then

• variance of k times each Xn : σ̂(kX) = k σ̂X .


2 2 2

• variance of k plus each Xn : σ̂(X+k) = σ̂X .


2 2

An identity that is occasionally useful is


 N 
σ̂X2 = μ̂(X2 ) − μ̂2X . (1.9)
N −1
Numerically, computation of sample variance based on (1.7) requires two passes of
the data: one to compute the mean, and a second to compute deviations from the
8 Basic Concepts in Probability and Statistics

mean. With (1.9), the sample variance can be computed from one pass of the data,
but requires tracking two quantities, namely the means of X and X2 . The sample
variance is nonnegative, but in practice (1.9) can be (slightly) negative owing to
numerical precision error.

1.4 Population versus a Sample


An observation is defined as the outcome of an experiment performed on nature. We
will conceive of a theoretical collection of all possible outcomes, and then interpret
an observation as a random draw from this theoretical collection. The theoretical
collection of all possible observations is called the population, while a random draw
from this collection is called a sample or realization. The goal of statistics is to
make inferences or decisions about a population based on information derived from
a sample.
In nature, population properties are never known with complete certainty. Knowl-
edge of population properties is tantamount to knowledge of the “inner machinery”
of the system. Except in idealized settings, we never know the inner workings of
the system on which we experiment, and therefore we can never be sure about
the population properties. Rather, we can only infer population properties based
on the outcome of experiments. We might attempt to approximate the population
probability of an event by measuring the relative frequency with which the event
occurs in a large number of independent samples, but this approach meets funda-
mental difficulties with defining “large,” “approximate,” and “independent.” These
and other subtle problems can be avoided by defining probability in axiomatic terms,
much like geometry is developed strictly from a set of axioms and rules of logic.
This is the approach mathematicians have adopted. For the problem considered in
this book, this axiomatic abstraction is not required. Therefore, we briefly review
basic concepts in probability theory that are needed to get started. Most text books
on statistics and probability cover these concepts in detail and can be consulted for
further information.

1.5 Elements of Probability Theory


What is the probability of tossing a fair coin and getting heads? A typical 10-year-
old child knows that the probability is 50%. However, that same 10-year-old child
can become confused by an experiment where 6 out of 10 tosses are heads, since
6/10 is not 50%. The child eventually learns that “50% probability” refers to the idea
that in a long sequence of coin tosses the relative frequency of heads approaches
50%. However, the relative frequency of heads in a small number of experiments
1.5 Elements of Probability Theory 9

can differ considerably from 50%. Asserting that heads occurs with 50% probability
is tantamount to asserting knowledge of the “inner machinery” of nature. We refer
to the “50% probability” as a population property, to distinguish it from the results
of a particular experiment, e.g., “6 out of 10 tosses,” which is a sample property.
Much confusion can be avoided by clearly distinguishing population and sample
properties. In particular, it is a mistake to equate the relative frequency with which
an event occurs in an experiment with the probability of the event in the population.
A random variable is a function that assigns a real number to each outcome of
an experiment. If the outcome is numerical, such as the temperature reading from
a thermometer, then the random variable often is the number itself. If the outcome
is not numerical, then the role of the function is to assign a real number to each
outcome. For example, the outcome of a coin toss is heads or tails, i.e., not a number,
but a function may assign 1 to heads and 0 to tails, thereby producing a random
variable whose only two values are 0 and 1. This is an example of a discrete random
variable, whose possible values can be counted. In contrast, a random variable is said
to be continuous if its values can be any of the infinitely many values in one or more
line intervals.
Sometimes a random variable needs to be distinguished from the value that it
takes on. The standard notation is to denote a random variable by an uppercase
letter, i.e. X, and denote the specific value of a random draw from the population by
a lowercase letter, i.e. x. We will adopt this notation in this chapter. However, this
notation will be adhered to only lightly, since later we will use uppercase letters to
denote matrices and lowercase letters to denote vectors, a distinction that is more
important in multivariate analysis.
If a variable is discrete, then it has a countable number of possible realizations
X1,X2, . . .. The corresponding probabilities are denoted p1,p2, . . . and called the
probability mass function. If a random variable is continuous, then we consider a
class of variables X such that the probability of {x1 ≤ X ≤ x2 }, for all values of
x1 ≤ x2 , can be expressed as
 x2
P (x1 ≤ X ≤ x2 ) = pX (x)dx, (1.10)
x1

where pX (x) is a nonnegative function called the density function. By this definition,
the probability of X falling between x1 and x2 corresponds to the area under the
density function. This area is illustrated in Figure 1.5a for a particular distribution.
If an experiment always yields some real value of X, then that probability is 100%
and it follows that
 ∞
pX (x)dx = 1. (1.11)
−∞
10 Basic Concepts in Probability and Statistics

Figure 1.5 Schematic showing (a) a probability density function for X and the fact
that the probability that X lies between 1/2 and 1 is given by the area under the
density function p(x), and (b) the corresponding cumulative distribution function
F (x) and the values at x = 0.5 and x = 1, the difference of which equals the area
of the shaded region in (a).

The histogram provides an estimate of the density function, provided the histogram
is expressed in terms of relative frequencies. Another function is
 x
F (x) = P (X ≤ x) = pX (u)du, (1.12)
−∞

which is called the cumulative distribution function and illustrated in Figure 1.5b.
The probability that X lies between x1 and x2 can be expressed equivalently as
P (x1 ≤ X ≤ x2 ) = F (x2 ) − F (x1 ). (1.13)
The above properties do not uniquely specify the density function pX (x), as there
is more than one pX (x) that gives the same left-hand side of (1.10) (e.g., two density
functions could differ at isolated points and still yield the same probability of the
1.6 Expectation 11

same event). A more precise definition of the density function requires measure
theory, which is beyond the scope of this book. Such subtleties play no role in the
problems discussed in this book. Suffice it to say that distributions considered in
this book are absolutely continuous. A property of this class is that the probability
of the event {X = x1 } vanishes:
 x1
P (X = x1 ) = pX (x)dx = 0. (1.14)
x1

Although continuous random variables are defined with integrals, you need not
explicitly evaluate integrals to do statistics – all integrals needed in this book can
be obtained from web pages, statistical software packages, or tables in the back of
most statistical texts.

1.6 Expectation
Just as a sample can be characterized by its mean and variance, so too can the
population.

Definition 1.7 (Expectation) If X is a continuous random variable with probability


density p(x), then the expectation of the function f (X) is
 ∞
EX [f (X)] = f (x)pX (x)dx. (1.15)
−∞

The special case f (x) = x gives


 ∞
μX = EX [X] = xpX (x)dx, (1.16)
−∞

which is called the “population mean,” or the “mean,” of X.

If the random variable is discrete and takes on discrete values X1,X2, . . . ,XN
with probabilities p1,p2, . . . ,pN , then the expectation is defined as


N
EX [X] = Xn pn . (1.17)
n=1

This expression is merely the discrete version of (1.16).


The term “mean” has been used to characterize both (1.1) and (1.16), yet the
expressions look different. To understand why the term is appropriate, consider
samples of a discrete random variable in which values X1, . . . ,XK occur N1, . . . ,NK
12 Basic Concepts in Probability and Statistics

times, respectively. Then, the sum in (1.1) involves N1 terms equal to x1 , N2 terms
equal to x2 , and so on; hence, the sample mean is

x1 N1 + x2 N2 + ... + xK NK K N
μ̂X = = xn fn, (1.18)
N1 + N2 + ... + NK n=1

where fn = Nn /(N1 + N2 + · · · + NK ) is the relative frequency of Xn . Comparing


(1.18) and (1.17) reveals the connection: The sample mean and the expectation
are both expressible as a sum of values weighted by the respective frequency or
probability. Just to be clear, an important difference between these expressions is
that the sample mean in (1.18) is a random variable while (1.15)–(1.17) define fixed
properties of the population.

Notation
We use carets ˆ to distinguish sample quantities from population quantities; for
example,

1  1 
N N
μ̂x = xn, μ̂X = Xn and μX = EX [X]. (1.19)
N n=1 N n=1

The sample mean μ̂x is a specific numerical value obtained from a given sample,
μ̂X is a random variable because it is a sum of random variables, and μX is a fixed
population quantity. Because μ̂X is a random variable, it can be described by a
probability distribution with its own expectation. This fact can lead to potentially
confusing terminology, such as “the mean of the mean.” In such cases, we say
“expectation of the sample mean.”

Selected Properties of Expectation (these should be obvious)


If k1 and k2 are constants and X and Y are random variables, then

• EX [k1 ] = k1
• EX [k1 X] = k1 EX [X]
• EX [k1 X + k2 Y ] = k1 EX [X] + k2 EX [Y ]
Definition 1.8 (Variance) The variance of the random variable X is defined as
var[X] = EX [(X − EX [X])2 ]. (1.20)
The variance of X often is denoted by σX2 . The standard deviation σX is the positive
square root of the variance.

Interpretation
Variance is a measure of dispersion or scatter of a random variable about its mean.
Small variance indicates that the variables tend to be concentrated near the mean.
1.7 More Than One Random Variable 13

Selected Properties of Variance


If k is a constant and X is a random variable, then

• var[k] = 0
• var[X] = EX [X 2 ] − (EX [X])2
• var[kX] = k 2 var[X]
• var[X + k] = var[X]

Example 1.3 (Standardized Random Variables) Question: Suppose X has pop-


ulation mean μX and variance σX2 . A random variable of the form
X − μX
Z= (1.21)
σX
is called a standardized random variable. Show that E[Z] = 0 and var[Z] = 1. This
result is very useful and will be used many times in this book.
Answer:
 
X − μX E[X] − μX μX μX
E[Z] =E = = − = 0.
σX σX σX σX
and

2
X − μX
var[Z] = E (Z − E[Z])2 = E Z 2 = E
σX
 
E (X − μX )2 σX2
= = = 1.
σX2 σX2

1.7 More Than One Random Variable


The concept of a probability distribution can be generalized to more than one vari-
able. Instead of considering a single event, such as X ≤ x2 , we consider a collection
of events, called a joint event. The joint event is said to occur if and only if every
event in the collection occurs. Joint events can be interpreted as propositions about
events connected by the word “and.” For example, a joint event could be a heads on
the first toss and a heads on the second toss of a coin. The probability of the joint
event {x1 ≤ X ≤ x2 } and {y1 ≤ Y ≤ y2 } is defined through a joint probability
density pXY as
 x2  y2
P (x1 ≤ X ≤ x2,y1 ≤ Y ≤ y2 ) = pXY (x,y)dxdy. (1.22)
x1 y1

In general, a comma separating two events is shorthand for “and.” The probability
of the single event {x1 ≤ X ≤ x2 } can be computed from the joint density p(x,y)
by integrating over all outcomes of Y :
14 Basic Concepts in Probability and Statistics
 x2  ∞
P (x1 ≤ X ≤ x2, − ∞ ≤ Y ≤ ∞) = pXY (x,y)dxdy. (1.23)
x1 −∞

However, this probability already appears in (1.10). Since this is true for all x1 and
x2 , it follows that
 ∞
pX (x) = pXY (x,y)dy. (1.24)
−∞

To emphasize that only a single variable is considered, the density pX (x) often is
called the unconditional or marginal probability density of X.

Notation
Technically, the distributions of X and Y should be denoted by separate functions,
say pX (x) and pY (y). Moreover, the arguments can be arbitrary, say pX (w) and
pY (z). For conciseness, the subscripts are dropped with the understanding that the
argument specifies the specific function in question. For example, p(x) denotes the
density function pX (x). Similarly, p(x,y) denotes the joint density pXY (x,y). The
expectation follows a similar convention: The expectation is taken with respect to the
joint distribution of all random variables that appear in the argument. For instance,
E[f (X)] denotes the expectation of f (x) with respect to pX (x), and E[g(X,Y )]
denotes the expectation with respect to the joint distribution of X and Y ; that is,
 ∞ ∞
E[g(X,Y )] = g(x,y)pXY (x,y)dxdy. (1.25)
−∞ −∞

An important measure of the joint relation between random variables is the


covariance.
Definition 1.9 (Covariance) Let X and Y be two random variables with respective
means μX and μY and joint density p(x,y). Then, the covariance between X and Y is
defined as
 ∞ ∞
cov[X,Y ] = (x − μX )(y − μY )p(x,y)dxdy, (1.26)
−∞ −∞
or equivalently,
cov[X,Y ] = E[(X − E[X])(Y − E[Y ])], (1.27)
where the outermost expectation denotes the expectation over the joint distribution
p(x,y).

Variance is a special case of covariance: var[X] = cov[X,X]. The sign of the


covariance indicates how two variables are linearly related. For instance, if X and
Y tend to go up and down together, as in Figure 1.3a, then the covariance is positive.
Conversely, if X tends to increase when Y decreases, as illustrated in Figure 1.3d,
then the covariance is negative.
1.7 More Than One Random Variable 15

Selected Properties of the Covariance


Let X,Y,Z be three arbitrary random variables, and let k1,k2 be constants. Then:

• cov[X,Y ] = E[XY ] − E[X]E[Y ].


• |cov[X,Y ]| ≤ σX σY .
• cov[X,k1 ] = 0.
• cov[k1 X + k2 Y,Z] = k1 cov[X,Z] + k2 cov[Y,Z].

Example 1.4 (Variance of a Sum)


Question: What is the variance of X + Y , where X and Y are random variables?
Answer:

var[X + Y ] = E[(X + Y − E[X + Y ])2 ] (definition of variance (1.20))


= E[((X − E[X]) + (Y − E[Y ])) ] 2

= E[(X − E[X])2 ] + E[(Y − E[Y ])2 ] + 2E[(X − E[X])(Y − E[Y ])]


= var[X] + var[Y ] + 2 cov[X,Y ] (1.28)

The variance of a sum generally differs from the sum of the individual variances.

The covariance of X and Y depends on the (arbitrary) units in which the variables
are measured. However, if the two variables are standardized, then the resulting
covariance is independent of measurement units, and has other attractive properties,
as discussed next.

Definition 1.10 (Correlation Coefficient) The correlation coefficient between X


and Y is
cov[X,Y ]
ρXY = √ . (1.29)
var[X] var[Y ]
ρXY also is called Pearson’s product-moment correlation coefficient, to distinguish
it from other measures, such as the rank correlation (see Chapter 4). The correlation
coefficient can be written equivalently as the expectation of the product of standard-
ized variables:
 
X − μX Y − μY
ρXY = E . (1.30)
σX σY
It can be shown that the correlation coefficient satisfies −1 ≤ ρXY ≤ 1.

Selected Properties of the Correlation Coefficient


• The correlation coefficient is exactly 1 if and only if Y = βX + k for β > 0.
• The correlation coefficient is exactly −1 if and only if Y = βX + k for β < 0.
• The correlation coefficient is symmetric with respect to X and Y ; that is, ρXY =
ρY X .
16 Basic Concepts in Probability and Statistics

• The correlation coefficient does not change under the transformations X →


aX + b and Y → cY + d, for any a,b,c,d where ac > 0. The above trans-
formations are called affine transformations. If ac > 0, then the transformations
are invertible. The correlation coefficient is said to be invariant to invertible affine
transformations of the two variables.
The above properties suggest that ρXY is a measure of the degree of linear rela-
tion between X and Y : values at ±1 indicate that X and Y are exactly linearly
related, while independent variables (which are defined in the next section) have
zero correlation. Examples of scatter plots and the associated correlation are shown
in Figure 1.3.

1.8 Independence
A fundamental concept in statistical analysis is independence:

Definition 1.11 (Independence) The variables X and Y are independent if and


only if

p(x,y) = p(x)p(y), (1.31)

for all x and y.

If two variables are independent, then any functions of them are also independent.
If two random variables are not independent, then they are dependent. Dependence
between two random variables can be quantified by its conditional distribution.

Definition 1.12 (Conditional Distribution) The conditional distribution of Y


given that X = x has occurred is denoted p(y|x) and defined by
p(x,y)
p(y|x) = provided p(x) = 0. (1.32)
p(x)
The symbol “p(y|x)” is read “probability density of Y given that the random
variable X equals x,” or more concisely, “the probability of Y given x.” The condi-
tional distribution tells how the probability of an event depends on the occurrence
of another event.

Example 1.5 Question: What is p(y|x) if X and Y are independent?


Answer:
p(x,y) p(x)p(y)
p(y|x) = = = p(y). (1.33)
p(x) p(x)
This result ought to be intuitive: If X and Y are independent, then knowing X tells
us nothing about Y that was not already known from the unconditional distribution
p(y).
1.8 Independence 17

Important property
If X and Y are independent, then cov[X,Y ] = 0. This fact can be shown as follows:
 ∞ ∞
cov[X,Y ] = (x − μX )(y − μY )p(x,y)dxdy
−∞ −∞
 ∞ ∞
= (x − μX )(y − μY )p(x)p(y)dxdy
−∞ −∞
 ∞  ∞
= (x − μX )p(x)dx (y − μY )p(y)dy
−∞ −∞
= E[X − μX ]E[Y − μY ]
= 0. (1.34)
It follows as a corollary that if X and Y are independent, then ρXY = 0. This fact is
one of the most important facts in statistics!
While covariance vanishes if two variables are independent, the converse of this
statement is not true: the covariance can vanish even if the variables are dependent.
Figure 1.3f shows a counter example (see also Section 1.11). The fact that indepen-
dence implies vanishing of the covariance is a valuable property that is exploited
repeatedly in statistics.
Example 1.6 (Variance of a Sum of Independent Variables) Question: What
is the variance of X + Y , where X and Y are independent? Answer: According to
example (1.4)
var[X + Y ] = var[X] + var[Y ] + 2 cov[XY ] (1.35)
= var[X] + var[Y ], (1.36)
where we have used cov[X,Y ] = 0 for independent X and Y . This result shows that
if variables are independent, the variance of the sum equals the sum of the variances.
This result will be used repeatedly throughout this book.

Example 1.7 (A Model for Generating X and Y with Prescribed Correlation)


Question: Suppose X and Z are independent random variables each with zero mean
and unit variance. Define

Y = ρX + Z 1 − ρ 2 . (1.37)
Show that the correlation between Y and X is ρ. This model is extremely useful in
numerical simulations. In particular, it provides a way to generate random num-
bers (X,Y ) from a population with a prescribed correlation ρ. (In fact, this is how
Figure 1.3 was generated.)
Answer: Because X and Z are independent, the variance of their sum equals the sum
of their variances. Therefore,

var[Y ] = var[ρX + 1 − ρ 2 Z] = ρ 2 var[X] + (1 − ρ 2 ) var[Z] = 1. (1.38)
18 Basic Concepts in Probability and Statistics

The last equality follows from the fact that var[X] = var[Z] = 1. The covariance is
 
cov[X,Y ] = cov[X,ρX + 1 − ρ 2 Z] = ρ var[X] + 1 − ρ 2 cov[X,Z] = ρ,
(1.39)
where we have used selected properties of the covariance, cov[X,X] = var[X], and
cov[X,Z] = 0 because X and Z are independent. Consolidating these results yields
cov[X,Y ]
cor[X,Y ] = √ = ρ. (1.40)
var[X] var[Y ]

1.9 Estimating Population Quantities from Samples


In practice, the population is unknown. Its characteristics are inferred using sam-
ples drawn from that population. However, a finite sample cannot fully specify a
continuous density function. Accordingly, we will be satisfied with characterizing a
population with a few numbers, known as population parameters. For instance, the
mean μX and variance σX2 are population parameters that characterize the probabil-
ity distribution of X. Our goal is to estimate population parameters using samples
drawn from that population. A function of random variables that is used to estimate
a population parameter is known as an estimator.
Example 1.8 Question: Suppose X1 , X2 , . . ., XN are drawn from a distribution with
the same population mean. What is the expectation of the sample mean? Answer:

1  1 
N N
1
E[μ̂X ] = E Xi = E [Xi ] = E [X] N = E [X] . (1.41)
N N N
i=1 i=1

This example shows that the expectation of the sample mean equals the popu-
lation mean. As a result, the sample mean is a useful estimator of the population
mean. The expectation E[X] = μ is a population parameter, while the sample mean
μ̂ is an estimator of μ.
Definition 1.13 (Unbiased Estimator) If the expectation of an estimator equals
the corresponding population parameter, then it is called an unbiased estimator. Oth-
erwise it is called a biased estimator.

Example 1.9 The sample mean is an unbiased estimator of μ because E[μ̂] = μ


(see Example 1.8).

Example 1.10 The sample variance (1.7) is an unbiased estimator; that is, E[σ̂X2 ] =
σX2 . Had the sample variance been defined by dividing the sum by N instead of N − 1,
as in
1 
N

σ̂B2 = xn − μ̂X , (1.42)
N
n=1
1.9 Estimating Population Quantities from Samples 19

then the resulting estimator σ̂B2 would have been biased, in the sense that E[σ̂B2 ] = σX2 .
In fact, it can be shown that E[σ̂B2 ] = σX2 (N − 1)/N .

Example 1.11 (Variance of the Sample Mean: Independent Variables) Let X1 ,


X2 , . . ., XN be independent random variables drawn from the same distribution with
population mean μX and variance σX2 . What is the variance of the sample mean μ̂X ?

var[μ̂X ] = E[(μ̂X − μX )2 ] = E[(μ̂X − μX )(μ̂X − μX )]


⎡ ⎛ ⎞⎤
1 N
1 N
= E⎣ (xi − μX ) ⎝ (xj − μX )⎠⎦
N N
i=1 j =1
⎡ ⎤
1 
N  N
= E⎣ 2 (xi − μX )(xj − μX )⎦
N
i=1 j =1

1 
N 
N
= cov[Xi ,Xj ] (1.43)
N2
i=1 j =1

The first line follows by definition of variance. The second line follows by definition
of sample mean, and the fact that μX is constant. Importantly, the two summations
in the second line have different indices. The reason for this is that the sum should be
computed first then squared, which is equivalent to computing the sum two separate
times then multiplying them together. The third line follows by algebra. The last line
follows from the definition of covariance. Since the variables are independent and
identically distributed,

0 if i = j
cov[Xi ,Xj ] = . (1.44)
σX if i = j
2

Thus, the double sum in (1.43) vanishes whenever i = j , and it equals σX2 whenever
i = j . It follows that (1.43) can be simplified to

1  2
N
σ2
var[μ̂X ] = 2 σX = X . (1.45)
N N
i=1

The standard deviation σX / N is known as the standard error of the mean.

This result is important! It states that as the number of independent samples


grows, the variability of their arithmetic mean shrinks. In the limit of large N , the
variance of the sample mean shrinks toward zero, implying that the sample mean
converges (in some mathematical sense) to the population mean; that is, μ̂X → μX
as N → ∞. Intuitively, samples from a population are scattered randomly about the
mean: sometimes the value is above the mean and sometimes it is below the mean.
When the arithmetic average is computed, random fluctuations above and below the
20 Basic Concepts in Probability and Statistics

mean tend to cancel, yielding a number that is closer to the mean (on average) than
the individual random variables.
This result embodies a fundamental principle in statistics: arithmetic averages
have less variability than the variables being averaged. One way or another, every
statistical method involves some type of averaging to reduce random variability.

Acronym
Samples that are drawn independently from the same population are said to be
independent and identically distributed. This property is often abbreviated as iid.

1.10 Normal Distribution and Associated Theorems


The most important distribution in statistics is the Normal Distribution.

Definition 1.14 (Normal Distribution) The probability density of a normally dis-


tributed random variable X is
1 1 − (x−μ)2 2
p(x) = √ e 2σ , (1.46)
2π σ
where σ > 0. For this distribution, E[X] = μ and var[X] = σ 2 . The normal distribu-
tion is also known as the Gaussian distribution.

This distribution is illustrated in Figure 1.6. It has a characteristic “bell shape,” is


symmetric about μ, and decays monotonically to zero away from μ. We often need
to know the probability that x is between two numbers. A standard quantity is zα/2 ,
defined as

Figure 1.6 The normal probability density function p(x).


1.10 Normal Distribution and Associated Theorems 21

Table 1.1. Values of (α, zα/2 ) that satisfy P (−zα/2 < Z < zα/2 ) = 1 − α for a standardized
normal distribution. The value of 1 − α is the fractional area under a standardized normal
distribution contained in the interval (−zα/2 , zα/2 ).

zα/2 3.00 2.58 2.00 1.96 1.645 1.00


α 0.27% 1% 4.55% 5% 10% 31.70%
1−α 99.73% 99% 95.45% 95% 90% 68.27%

Figure 1.7 Illustration of the definition of zα/2 for a standardized normal distribu-
tion (i.e., a normal distribution with zero mean and unit variance).

 
P −zα/2 ≤ Z < zα/2 = 1 − α, (1.47)
or equivalently, as
P (μ − σ zα/2 < X < μ + σ zα/2 ) = 1 − α, (1.48)
where Z = (X − μ)/σ (i.e., a standardized Gaussian). The meaning of zα/2 is illus-
trated in Figure 1.7, and values of zα for some common choices of α are tabulated
in Table 1.1.

Notation
The statement that X is normally distributed with mean μ and variance σ 2 is denoted
as X ∼ N (μ,σX2 ). The symbol ∼ means “is distributed as.” A standardized normal
distribution is a normal distribution with zero mean and unit variance, N (0,1).

Example 1.12 If X ∼ N (μ,σ ), what is the probability that X is within two


standard deviations of its mean? Answer: The question asks for the probability that
{μ − 2σ ≤ X < μ + 2σ }, or equivalently, in terms of the standardized variable
Z = (X − μ)/σ , the probability that {−2 ≤ Z < 2}. According to Table 1.1, the
probability is 95.45%.
22 Basic Concepts in Probability and Statistics

The normal distribution can be generalized to multiple random variables. The


associated joint density function is expressed most simply in terms of vectors and
matrices, hence its expression is postponed until Chapter 7. An important fact is that
any linear combination of joint normally distributed random variables is normally
distributed. In the case of two variables, the joint normal distribution is known as the
bivariate normal distribution. The bivariate normal distribution is described com-
pletely by five population parameters: the means and variances of the two variables,
and the correlation between the two variables.
Why is the normal distribution the most important distribution in statistics?
Because of the Central Limit Theorem:

Theorem 1.1 (Central Limit Theorem) Suppose X1 , . . ., XN are independent


and identically distributed random variables with mean μX and finite variance σX2 ,
but the distribution from which they are drawn is not necessarily Gaussian. Then the
random variable
μ̂X − μX
Z=   (1.49)
σX

N

approaches (in some mathematical sense) the normal distribution N (0,1) as N →


∞. Equivalently, as N → ∞
 
σX2
μ̂X ∼ N μX, . (1.50)
N

In essence, the Central Limit Theorem states that the sum of iid variables tends
to have a normal distribution, even if the original variables do not have a normal
distribution.
To illustrate the Central Limit Theorem, consider a discrete random variable X
that takes on only two values, −1 or 1, with equal probability. Thus, the probability
mass function of X is P (X = −1) = P (X = 1) = 1/2, and is zero otherwise.
A histogram of samples from this distribution is shown in the far left panel of
Figure 1.8. This histogram is very unlike a normal distribution. The mean and vari-
ance of this distribution are derived from (1.17):
1 1
E[X] = (−1) + (1) = 0 (1.51)
2 2
1 1
var[X] = (−1) + (1)2 = 1.
2
(1.52)
2 2
Now suppose the arithmetic mean of N = 10 random samples of X is computed.
Computing this arithmetic average repeatedly for different samples yields the his-
togram in the middle. The histogram now has a clear Gaussian shape. Although the
1.10 Normal Distribution and Associated Theorems 23

N=1 N = 10 N = 100

5
2.5

1.2
1.0

4
2.0

0.8

3
1.5
Density

0.6
1.0

2
0.4
0.5

1
0.2
0.0

0.0

0
−1.0 0.0 0.5 1.0 −1.0 0.0 0.5 1.0 −1.0 0.0 0.5 1.0
mean of x mean of x mean of x

Figure 1.8 An illustration of the Central Limit Theorem using randomly gen-
erated ±1s. The random number is either +1 or −1 with equal probability. A
histogram of a large number of samples of this random variable is shown in
the far left panel – it is characterized by two peaks at ±1, which looks very
different from a Gaussian distribution (e.g., it has two peaks rather than one).
The mean of the population distribution is zero and the variance is 1. The
middle panel shows the result of taking the average of N =10 random ±1s over
many repeated independent trials. Superimposed on this histogram is a Gaussian
distribution with mean zero and variance 1/N, as predicted by the Central Limit
Theorem (1.50). The right panel shows the result of averaging N = 100 random
variables.

Central Limit Theorem applies only for large N , this example shows that theorem
is relevant even for N = 10. For reference, the middle panel of Figure 1.8 also
shows a normal distribution evaluated from (1.50), using μX = 0 and σX = 1 from
(1.51) and (1.52). The histogram matches the predicted normal distribution fairly
well. Repeating this experiment with N = 100 yields the histogram on the far right
panel, which matches a normal distribution even better.
This example is an illustration of a Monte Carlo technique. A Monte Carlo tech-
nique is a computational procedure in which random numbers are generated from
a prescribed population and then processed in some way. The technique is useful
for solving problems in which the population is known but the distribution of some
function of random variables from the population is difficult or impossible to derive
analytically. In the example, the distribution of a sum of variables from a discrete
distribution was not readily computable, but was easily and quickly estimated using
a Monte Carlo technique.
An important property of the normal distribution is that a sum of independent
normally distributed random variables also has a normal distribution.
24 Basic Concepts in Probability and Statistics

Theorem 1.2 (Sum of Gaussian Variables is Gaussian) Let X1 , X2 , . . ., XN be


independent random variables with the following normal distributions:
X1 ∼ N (μ1,σ12 ), X2 ∼ N (μ2,σ22 ), ... XN ∼ N (μN ,σN2 ). (1.53)
Then the linear combination
Y = c1 X1 + c2 X2 + ... + cN XN , (1.54)
where c1 , c2 , . . ., cN are constants, is also normally distributed with mean
μY = c1 μ1 + c2 μ2 + ... + cN μN , (1.55)
and variance
σY2 = c12 σ12 + c22 σ22 + ... + cN
2 2
σN . (1.56)
More concisely,
N 
 
N
Y ∼N ci μi , ci2 σi2 . (1.57)
i=1 i=1

Comment
From our theorems about expectations, we already knew the mean and variance of
iid variables. What is new in Theorem 1.2 is that if the X’s are normally distributed,
then Y is also normally distributed. In other words, we now know the distribution
of Y .
Example 1.13 (Distribution of the Sample Mean of Gaussian Variables) Ques-
tion: Let X1 , X2 , . . ., XN be independent random variables drawn from the normal
distribution N (μ,σX2 ). What is the distribution of the sample mean of these variables?
Answer: The sample mean is a sum of independent normally distributed random
variables. Therefore, by Theorem 1.2, the sample mean also has a normal distribu-
tion. Moreover, the expectation of the sample mean was shown in Example 1.8 to be
μX , and the variance of the sample mean was shown in Example 1.11 to be σX2 /N .
Therefore, the sample mean is normally distributed as
 
σX2
μ̂X ∼ N μX, . (1.58)
N

The distributions (1.50) and (1.58) are identical, but the latter is exact because
the original variables were known to be normally distributed, whereas the former
holds only for large N because the original variables were not necessarily normally
distributed.
Recall that the sample variance (1.7) involves squares of a variable. Importantly,
X and X2 do not have the same distribution. The relevant distribution for squares
of normally distributed random variables is the chi-squared distribution.
1.10 Normal Distribution and Associated Theorems 25

Theorem 1.3 (The χ 2 Distribution) Let X1 , X2 , . . ., XN be independent and


identically distributed random variables from the normal distribution N (μX,σX2 ).
Then the variable

(X1 − μX )2 + (X2 − μX )2 + ... + (XN − μX )2


Y2 = (1.59)
σX2

has a chi-squared distribution with N degrees of freedom. This statement is expres-


sed as

Y 2 ∼ χN2 . (1.60)

A corollary of Theorem 1.3 is that if Z1, . . . ,ZN are independent variables from
a standardized normal distribution then

Z12 + Z22 + · · · + ZN2 ∼ χN2 . (1.61)

The chi-squared distribution is completely specified by one parameter, degrees


of freedom. Although the chi-squared distribution is defined using population quan-
tities μX and σX , which are usually unknown in practical applications, this distribu-
tion is extremely useful, as will be shown in various places in this book. Examples
of the chi-squared distribution are shown in Figure 1.9. The explicit density function
of χN2 is
0.5

Q=1
Chi−squared Density Function

Q=2
0.4

Q=5
0.3
0.2
0.1
0.0

0 2 4 6 8 10
x

Figure 1.9 Illustration of the chi-squared distribution for three different values of
the degrees of freedom.
26 Basic Concepts in Probability and Statistics
⎧ N/2−1 −x/2

⎪ x e
⎨ N/2 , x>0
2 (N/2)
p(x) = , (1.62)



0, otherwise
where (·) denotes the gamma function (a standard function in mathematics).
Computations involving this distribution rarely require working with the explicit
form (1.62). Instead, they can be performed using standard tables or statistical
packages.

Selected Properties of the χ 2 Distribution


• E[χN ] = N
2

• var[χN ] = 2N
2
2 2
• If χN1 and χN2 are two independent random variables with chi-squared distribu-
tions having N1 and N2 degrees of freedom, respectively, then χN2 1 + χN2 2 also
has a chi-squared distribution with N1 + N2 degrees of freedom. This additivity
property implies that the sum of any number of independent chi-squared variables
is also chi-squared distributed, with the degrees of freedom equal to the sum of
the degrees of freedom of the individual variables.

Theorem 1.4 (Distribution of the Sample Variance) Suppose X1 , X2 , . . ., XN


are independent and identically distributed random variables drawn from normal dis-
tribution N (μ,σX2 ). Then the sample variance of these variables has the distribution

(N − 1)σ̂X2
∼ χN−1
2
. (1.63)
σX2

The reader may be curious as to why this χ 2 distribution involves N − 1 degrees


of freedom, rather than N . To understand this, note that the sample variance (1.7)
involves the variables X1 − μ̂X,X2 − μ̂X, . . . ,XN − μ̂X . Importantly, these variables
satisfy


N 
N 
N
(Xn − μ̂X ) = Xn − μ̂X = N μ̂X − N μ̂X = 0. (1.64)
n=1 n=1 n=1

This constraint holds for all realizations of X1, . . . ,XN and does not depend on pop-
ulation or whether the variables are iid. The constraint is a simple consequence of the
definition of the sample mean. Because of this constraint, the variables (Xn − μ̂X )
are not independent, even if X1, . . . ,XN are themselves independent. After all,
if we know any N − 1 values of (Xn − μ̂X ), we know the N’th value exactly,
hence the N ’th value is not random. Because the variables are not independent,
Theorem 1.3 cannot be invoked directly. The constraint (1.64) is a linear function
Another random document with
no related content on Scribd:
entraînements auxquelles elle était livrée. Il fallait s'arrêter au point
juste, entre les tendances rétrogrades et les tendances follement
novatrices en fait de mariage, d'héritage, de testament, etc.
Napoléon n'avait que l'instruction qu'il est possible de recevoir dans
une bonne école militaire; mais il était né au milieu des vérités de
1789, et ces vérités qu'on peut méconnaître avant qu'elles soient
révélées, une fois connues deviennent la lumière à la lueur de
laquelle on aperçoit toutes choses. Se faisant chaque jour instruire
par MM. Portalis, Cambacérès et surtout Tronchet, de la matière
qu'on devait traiter le lendemain au Conseil d'État, il y pensait vingt-
quatre heures, écoutait ensuite la discussion, puis, avec un
souverain bon sens, fixait exactement le point où il fallait s'arrêter
entre l'ordre ancien et l'ordre nouveau, et de plus, avec sa puissance
d'application, forçait tout le monde à travailler. Il contribua ainsi de
deux manières décisives à la confection de nos codes, en
déterminant le degré de l'innovation, et en poussant l'œuvre à terme.
Plusieurs fois avant lui on avait entrepris cette œuvre, et chaque fois
cédant au vent du jour, on s'était livré à des exagérations dont
bientôt on avait eu honte et regret, après quoi l'œuvre avait été
abandonnée. Napoléon prit ce vaisseau échoué sur la rive, le mit à
flot et le poussa au port. Ce navire c'était le Code civil, et personne
ne peut nier que ce code ne soit celui du monde civilisé moderne.
C'est assurément pour un jeune militaire une belle et pure gloire que
d'avoir mérité d'attacher son nom à l'organisation civile de la société
moderne, et c'en est une bien belle également pour la France, chez
laquelle cette œuvre s'est accomplie! On pourra dire en effet que si
l'Angleterre a eu le mérite de donner la meilleure forme politique des
États modernes, la France a eu celui de donner par le Code civil la
meilleure forme de l'état social, beau et noble partage de gloire entre
deux nations les plus civilisées du globe!

Tandis que Napoléon s'occupait ainsi de la


Génie
administratif de législation civile, il appliquait aussi à
Napoléon. l'administration sa main expéditive et créatrice.
Trouvant l'administration des provinces dans le
même état que les autres parties du gouvernement, il fit comme pour
la législation civile la part des notions du passé, des exagérations du
présent, et, empruntant le vrai ici et là, il créa l'administration
moderne. Le passé nous avait montré des états provinciaux
s'administrant eux-mêmes, et jouissant, pour ce qui concernait les
intérêts locaux, d'une étendue de pouvoirs presque complète.
Pourvu qu'en fait de subsides la part de l'État fût assurée, la royauté
laissait les provinces faire ce qu'elles voulaient, soit par un reste de
respect pour les anciens traités de réunion, soit parce qu'elle avait
ce sentiment confus que, ne donnant aucune liberté au centre, elle
en devait laisser beaucoup aux extrémités. La royauté s'adjugeait
ainsi tout pouvoir quant aux affaires générales, et abandonnait au
pays le règlement des affaires locales. Ce contrat tacite devait
tomber devant le grand phénomène de la Révolution française. Il
n'était ni juste que la royauté pût tout sur les grandes destinées du
pays, ni juste que les provinces pussent tout sur les affaires locales,
car les destinées du pays devaient être ramenées à la volonté du
pays lui-même, comme les intérêts de province à son inspection.
Ces richesses, dont les provinces disposent en
Vrais principes
sur lesquels il ordonnant leurs dépenses, sont une partie de la
établit richesse générale qu'elles ne doivent pas dissiper
l'administration abusivement; ces règlements locaux que les
française. communes établissent chez elles, touchant à
l'industrie, aux marchés, à la nature des impôts,
sont une partie de la législation sociale qu'il ne doit pas leur être
permis d'établir d'après leurs vues particulières.

Le grand phénomène de l'unité moderne devait consister en ceci,


que la royauté renonçant à tout faire seule quant aux affaires
générales, les provinces renonceraient de leur côté à tout faire
seules quant aux affaires particulières, qu'elles se pénétreraient
mutuellement en quelque sorte, et se confondraient dans une
puissante unité, dirigée par l'intelligence commune de la nation. Il
devait dès lors y avoir au centre de l'État un chef du pouvoir exécutif
entouré des principaux citoyens de la France pour les affaires
générales, et dans les départements des chefs d'administration
entourés des citoyens notables de la localité pour les affaires
particulières, mais soumis eux-mêmes pour les affaires du
gouvernement à son autorité, pour celles du département à sa
surveillance. De là résultèrent le préfet et le conseil de département.
Si les circonstances avaient permis au Premier Consul d'être
conséquent avec les principes posés, il aurait dû rendre les conseils
de département électifs. Mais au lendemain des affreuses
convulsions qu'on venait de traverser, entre les furieux de 1793,
odieux au pays, et les grands propriétaires revenant de l'émigration,
l'élection eût été impossible, ou du moins sujette à de graves
inconvénients. Il se la réserva, et choisit des hommes sages,
modérés, qui pussent administrer tolérablement. C'était une
conséquence de sa dictature, qui devait être passagère et
disparaître avec lui. Toutefois le principe était posé, celui d'un chef
ou préfet administrant sous le contrôle d'un conseil, destiné à être
électif quand nos terribles divisions seraient suffisamment apaisées.

Mais cette surveillance de l'État, pour l'étendue


Sa véritable part
dans la création des dépenses, le système des impôts, la nature
de des règlements, il fallait l'exercer, et on ne pouvait
l'administration la déléguer sans garantie au pouvoir exécutif,
française. représentant de l'État. Napoléon se servit d'une
institution que Sieyès lui avait fournie en
l'empruntant à l'ancienne monarchie. Le Conseil royal, entre autres
affaires dont il s'occupait jadis, donnait son avis sur celles qui
naissaient des relations de l'État avec les provinces. Ces relations
étant devenues plus étroites sous le nouveau régime, devaient
naturellement revenir au Conseil d'État. Napoléon, sans procéder
théoriquement, mais se servant de ce qu'il avait sous la main pour
l'accomplissement de ses desseins, fit du Conseil d'État le
dépositaire de cette surveillance supérieure, qui constitue
essentiellement ce qu'on appelle la centralisation. Voulant que le
budget des communes et des départements fût contrôlé par l'État,
que leurs règlements fussent ramenés aux principes de 1789, que
telle commune ne pût pas rétablir les jurandes, telle autre établir des
impôts contraires aux doctrines modernes, que les conflits entre
elles eussent un arbitre, il confia ces diverses questions au Conseil
d'État, en le présidant lui-même avec une constance et une
application infatigables. Sans ce régulateur, notre centralisation
serait devenue le plus intolérable des despotismes. Mais conseil de
prudence s'il s'agit des dépenses communales, modérateur s'il s'agit
de laisser plaider les communes les unes contre les autres,
législateur enfin s'il s'agit des règlements municipaux, le Conseil
d'État est un régulateur éclairé, ferme, et même indépendant
quoique nommé par le Pouvoir exécutif, parce qu'il puise dans ses
fonctions un esprit administratif qui prévaut sur l'esprit de servilité, et
qui, sous tous les régimes, après une docilité d'un moment au
gouvernement nouveau, se relève presque involontairement, et
reparaît, comme chez les végétaux vigoureux les branches
reprennent leur direction après une gêne momentanée.

C'est en présidant ce conseil assidûment quand il n'était pas à la


guerre, et le présidant sept et huit heures de suite, avec une force
d'application, une rectitude de bon sens rares, et un respect de
l'opinion d'autrui qu'il observait toujours dans les matières spéciales,
que, tantôt statuant sur les faits, tantôt imaginant ou modifiant
suivant le besoin nos lois administratives, créant ainsi tout à la fois la
législation et la jurisprudence, il est devenu le véritable auteur de
cette administration, ferme, active, probe, qui fait de notre
comptabilité la plus claire que l'on connaisse, de notre puissance la
plus disponible qu'il y ait en Europe, et qui, lorsque sous l'influence
des révolutions nos gouvernements délirent, seule ne délire pas,
conduit sagement, invariablement les affaires courantes du pays,
perçoit les impôts, les encaisse avec ordre, les applique exactement
aux dépenses, lève les soldats, les instruit, les discipline, pourvoit
aux dépenses des villes, des provinces, sans que rien périclite,
maintient la France debout quand la tête de cette France chancelle,
et donne l'idée d'un bâtiment mû par la puissance de la mécanique
moderne, laquelle au milieu de la tempête marcherait encore
régulièrement avec un équipage inactif ou troublé.

Ainsi la guerre avait fait de Napoléon un mauvais politique en le


rendant irrésistible, mais elle en avait fait en revanche l'un des plus
grands organisateurs qui aient paru dans le monde, et là comme en
toutes choses il avait été le double produit de la nature et des
événements. Il nous reste à le considérer sous le rapport principal
pour lui, sous celui du génie militaire, qui lui a valu, non sa gloire la
plus pure, mais la plus éclatante.

Pour apprécier sa véritable place parmi les


Napoléon
homme de capitaines de tous les temps, il faudrait retracer en
guerre. quelque sorte l'histoire de cet art puissant, qui
crée, élève, défend les empires, et comme l'art de
les gouverner repose sur la réunion si rare des qualités de l'esprit et
du caractère. Malheureusement cette histoire est à faire. Machiavel,
Montesquieu, Frédéric, Napoléon, en ont jeté çà et là quelques
traits; mais considérée dans sa suite, rattachée aux progrès des
sciences, aux révolutions des empires, à la marche de l'esprit
humain, cette histoire est à créer, et par ce motif les places des
grands capitaines sont difficiles à déterminer.
Précis des
révolutions de la Pourtant il y a dans l'histoire de l'art militaire
grande guerre. quelques linéaments principaux, qui saisissent
l'esprit dès qu'on y jette les yeux, et avec le
secours desquels il est permis de tracer la marche générale des
choses, et de fixer quelques places principales que la postérité, dans
la diversité de ses jugements, n'a guère changées.

Ce qu'on appelle communément la grande guerre n'a pas souvent


apparu dans le monde, parce qu'il faut à la fois de grandes nations,
de grands événements, et de grands hommes. Ce n'est pas
seulement l'importance des bouleversements qui en fait le caractère,
car alors on pourrait dire que les conquérants de l'Asie ont pratiqué
la grande guerre. Il y faut la science, le génie des combinaisons, ce
qui suppose d'énergiques et habiles résistances opposées au
vainqueur. Ainsi, bien qu'Alexandre à son époque
Alexandre.
ait changé la face de l'univers civilisé, la stupidité
asiatique dont il eut à triompher fut telle qu'on ose à peine dire qu'il
ait pratiqué la grande guerre. La combinaison tant admirée par
Montesquieu, et qui avait consisté à ne s'enfoncer en Asie qu'après
avoir conquis le littoral de la Syrie, lui était tellement commandée par
le défaut de marine, que les moindres officiers de l'armée
macédonienne étaient de cet avis, et que ce fut de la part
d'Alexandre un acte d'instinct plutôt qu'un trait de génie. Les trois
batailles qui lui valurent la conquête de l'Asie furent des actes
d'héroïque témérité, toujours décidées par la cavalerie qu'Alexandre
commandait en personne, et qui fondant sur des masses confuses
de cavaliers aussi lâches qu'ignorants, leur donnait le signal de la
fuite, invariablement suivi par l'infanterie persane. Le véritable
vainqueur des Perses, ce fut la discipline macédonienne, conduite, il
est vrai, à d'immenses distances par l'audace inspirée d'Alexandre.

Ce n'est pas ainsi qu'Annibal et César combattirent. Là ce fut


héroïsme contre héroïsme, science contre science, grands hommes
contre grands hommes. César toutefois, malgré la vigueur de son
caractère et la hardiesse mêlée de prudence de ses entreprises,
laissa voir dans ses mouvements une certaine gêne, résultant des
habitudes militaires de son temps, et dont Annibal seul parut
entièrement dégagé. En effet les Romains, faisant
Les
campements la guerre dans des pays sauvages, et songeant
dans l'antiquité constamment à se garder contre la fougue aveugle
retiennent des barbares, campaient avec un art infini, et,
l'essor de la arrivés le soir sur un terrain toujours choisi avec un
grande guerre. coup d'œil exercé, s'établissaient en quelques
heures dans une vraie place forte, construite en
palissades, entourée d'un fossé, et presque inexpugnable. Sous le
rapport des campements ils n'ont été ni dépassés, ni même égalés,
et, comme Napoléon l'a remarqué avec son incomparable sagacité,
on n'a pas dû y songer, car devant l'artillerie moderne un camp
semblable ne tiendrait pas deux heures. Mais de ce soin à camper
tous les soirs, il résultait une timidité de mouvements, une lenteur de
résultats singulières, et les batailles qui, en ensanglantant la terre,
diminuent cependant l'horreur des guerres qu'elles abrégent,
n'étaient possibles que lorsque les deux adversaires le voulaient
bien. Si l'un des deux s'y refusait, la guerre pouvait durer
indéfiniment, ou bien il fallait la faire aboutir à un siége, en attaquant
ou régulièrement ou brusquement le camp ennemi.
Opérations de
César. Aussi voit-on César, le plus hardi des généraux
romains, se mouvoir librement dans les Gaules
devant la fougue ignorante des Gaulois, les amener au combat
quand il veut, parce que leur aveugle bravoure est facile à tenter,
mais en Espagne, en Épire, lorsqu'il a affaire aux Romains eux-
mêmes, changer de méthode, s'épuiser sur la Segre en
combinaisons ingénieuses pour arracher Afranius de son camp, ne
l'y déterminer qu'en l'affamant, puis, lorsqu'il l'a décidé à changer de
position, ne finir la campagne qu'en l'affamant encore. En Épire, à
Dyrrachium, il s'était rendu par le campement invulnérable pour
Pompée, qui, de son côté, s'était rendu invulnérable pour lui. Puis,
ne sachant plus comment terminer cette guerre interminable, on le
vit s'enfoncer en Macédoine pour y attirer Pompée, qu'il y attira en
effet, et là encore, trouvant l'inexpugnabilité du camp romain, il serait
resté dans l'impossibilité d'atteindre son adversaire, si, l'impatience
d'en finir s'emparant de la noblesse romaine, Pompée n'était
descendu dans les plaines de Pharsale, où l'empire du monde fut
donné à César par la supériorité des légions des Gaules.

Il y a là sans doute des combinaisons très-habiles, et souvent très-


hardies pour amener au combat l'adversaire qui ne veut pas
combattre, mais ce n'est pas la grande guerre avec toute la liberté,
l'étendue et la justesse de ses mouvements, telle que nous l'avons
vue dans notre siècle, décider en quelques jours des luttes qui jadis
auraient duré des années. Un seul homme dans
Supériorité
d'Annibal dans les temps anciens se présente avec cette liberté,
la grande cette sûreté d'allure, c'est Annibal, et aussi,
guerre. comme vigueur, audace, fécondité, bonheur de
combinaisons, peut-on dire qu'il n'a pas d'égal
dans l'antiquité. C'était l'opinion de Napoléon, juge suprême en ces
matières, et on peut l'adopter après lui.

Pendant le moyen âge l'art militaire n'offre rien


Barbarie de l'art
dans le moyen qui attire et mérite les regards de la postérité. La
âge. politique a sous les yeux d'immenses spectacles
où le sang coule à torrents, où le cœur humain
déploie ses passions accoutumées, il y a des lâches et des héros,
des crimes et des vertus, mais il n'y a ni César ni Annibal. Ce n'est
pas seulement la grande guerre qui disparaît, c'est l'art même de la
guerre. La barbarie avec son courage aveugle se précipite sur la
civilisation romaine décrépite, ayant un savoir que les vertus
guerrières n'animent plus, et quand d'innombrables peuplades
barbares, se poussant comme les flots de la mer, après avoir détruit
l'empire romain, ont inondé le monde civilisé, on trouve çà et là de
vaillants hommes comme Clovis, comme les Pepin, commandant la
hache d'armes à la main, on trouve même un incomparable chef
d'empire, Charlemagne, mais on ne rencontre pas un véritable
capitaine. Dans cet âge de la force individuelle, la poésie elle-même,
seule histoire de ces temps, prend la forme des choses, et célèbre
les paladins guerroyant à cheval pour le Christ contre les Sarrasins
guerroyant à cheval pour Mahomet. C'est l'âge de
Grande
révolution de la chevalerie, dont le nom seul indique la nature,
l'art militaire due c'est-à-dire l'homme à cheval, vêtu de fer,
au progrès combattant l'épée à la main, dans la mesure de
social. son adresse et de sa force physique. Cependant
cet état de choses allait changer bientôt par les
progrès de la société européenne. Le commerce, l'industrie, en
faisant naître dans les villes une population nombreuse, aisée, que
le besoin de se défendre devait rendre courageuse, donnèrent
naissance au soldat à pied, c'est-à-dire à l'infanterie. Les Suisses en
se défendant dans leurs montagnes, les citoyens
Naissance de
l'infanterie. des villes italiennes et allemandes derrière leurs
murailles, ceux des villes hollandaises derrière
leurs digues, constituèrent l'arme de l'infanterie, et lui valurent une
importance que le temps ne fit qu'accroître. Une
Invention de la
poudre. grande découverte, due également au progrès de
la société européenne, celle des matières
explosibles, contribua puissamment au même phénomène. Devant
les projectiles lancés par la poudre, la cuirasse devenait non-
seulement dérisoire, mais dangereuse. Dès cet instant l'homme
devait se présenter à découvert; débarrassé du poids d'un vêtement
de fer inutile, et l'intelligence, le courage réfléchi, devaient remplacer
la force physique. Par le même motif les villes, qui
Création de la
fortification montraient saillantes et menaçantes leurs
moderne. murailles, changèrent tout à coup de forme et
d'aspect. Elles enfoncèrent en terre leurs murailles
pour les soustraire au canon; au lieu de tours hautes et rondes, elles
s'entourèrent de bastions peu élevés, à face droite et anguleuse,
pour que le canon les protégeât dans tout leur profil, et on vit naître
la savante fortification moderne.

Cette révolution commencée en Italie, se continua, se


perfectionna en Hollande contre Philippe II, et alors se produisirent
dans le monde trois grands hommes, les Nassau! Le véritable art de
la guerre reparut, mais timide encore, gêné dans ses mouvements,
et n'ayant rien des allures de cet art sous Annibal et César. C'est
autour des places de la Hollande, couvertes de digues, de bastions
savamment disposés, que la guerre s'établit, et resta comme
enchaînée. Se porter devant une place, l'investir, se garder par des
lignes de contrevallation contre les assiégés, de circonvallation
contre les armées de secours, s'y assurer des vivres, tandis que de
son côté l'ennemi tâchait de secourir la place en coupant les
provisions à l'assiégeant, ou en le détournant de son entreprise,
composa toute la science des capitaines. On n'y
Génie spécial
des Nassau, et voyait ni grands mouvements, ni batailles
leur système de décisives, et au contraire beaucoup de feintes,
guerre. pour couper des convois ou détourner l'assiégeant
de son objet, à ce point que dans la carrière des
Nassau, de 1579 à 1648, c'est-à-dire de la proclamation à la
reconnaissance de l'indépendance hollandaise, il y eut tout au plus
cinq ou six batailles dignes de ce nom, et une centaine de siéges
grands ou petits. Durant cette guerre de siéges, qui remplit les deux
tiers d'un siècle, les Hollandais à qui la mer restait ouverte, prenaient
patience parce qu'ils avaient la sécurité, gagnaient de quoi payer
leurs soldats, et par cette patience aidaient, créaient presque la
constance si justement vantée des Nassau.

À cette époque, la création de l'infanterie (effet et cause tout à la


fois de l'indépendance des nations), commencée par la lutte des
Suisses contre les maisons d'Autriche et de Bourgogne, continuée
par celle des villes hollandaises contre l'Espagne, recevait un
nouveau développement dans la lutte du protestantisme contre le
catholicisme. Pendant la guerre dite de trente ans,
Gustave-
Adolphe. un héros justement populaire, Gustave-Adolphe,
donna à l'art militaire moderne la plus forte
impulsion après les Nassau. Roi d'une nation
Sa carrière
politique et pauvre, mais robuste et brave, ayant à se défendre
militaire. contre un prétendant, son cousin, roi de Pologne,
et roi par conséquent d'une nation à cheval, il
cherchait sa force dans l'infanterie, et mettait toute son application,
toute son intelligence à la bien organiser. Cette infanterie était alors
une espèce de phalange macédonienne, épaisse et profonde, se
défendant par des piques d'une extrême longueur, et ayant sur son
front, sur ses ailes, quelques hommes armés de mousquets. Ces
phalanges étaient peu maniables, et Gustave-Adolphe s'étudia, avec
le soin d'un véritable instructeur d'infanterie, à mêler le mieux
possible les piquiers et les fusiliers, à faire disparaître l'armure qui
était inutile devant le boulet, à donner ainsi plus de mobilité aux
armées, à multiplier et à rendre l'artillerie plus légère. Bien qu'il fût
loin d'avoir achevé le triomphe de l'infanterie, par cela seul qu'il avait
fait faire à cette arme un notable progrès, il vainquit le roi de
Pologne, qui n'était fort qu'en cavalerie, le força de renoncer à ses
prétentions sur la couronne de Suède, et répondant à l'appel des
protestants vaincus par Tilly et Wallenstein, descendit en Allemagne,
où le poussaient une foi sincère et l'amour de la gloire. Chose digne
de remarque, et qui prouve bien la lenteur des progrès de ce qu'on
appelle la grande guerre, ce héros, l'un des mortels les plus vaillants
que Dieu ait donnés au monde, se montra dans ses mouvements
d'une timidité extrême. Élève des Nassau, il pivota autour des
places, ne voulut pas quitter les bords de la Baltique qu'il n'eût
conquis toutes les forteresses de l'Oder, et parce que l'électeur de
Saxe ne consentit pas à lui prêter Wittenberg afin de passer l'Elbe
en sûreté, il laissa Tilly prendre Magdebourg sous ses yeux, et faire
de cette ville infortunée une exécution effroyable, qui retentit alors
dans l'Europe entière et fit douter un moment du caractère du héros
suédois. Cependant appelé à grands cris par les
L'art reste
timide encore Saxons, ne pouvant résister à leurs instances,
du temps de ayant d'ailleurs essayé dans plusieurs occasions la
Gustave- valeur de son infanterie, il accepta une première
Adolphe. rencontre avec Tilly dans la plaine de Leipzig,
gagna une bataille qui mit à ses pieds la maison
d'Autriche, et alors, quand Oxenstiern plus hardi que son roi, lui
conseillait de marcher sur Vienne pour y terminer la guerre, il alla
d'abord triompher à Francfort, perdre ensuite une année au milieu
de la Bavière en marches incertaines, passer quelques mois à
couvrir Nuremberg contre Wallenstein, le suivre enfin à Lutzen, et
presque malgré lui livrer et gagner dans cette plaine célèbre la
seconde grande bataille de sa carrière héroïque, où il mourut
comme Épaminondas au sein de la victoire. Certes, par la hauteur
du courage, la noblesse des sentiments, l'étendue et la justesse de
l'esprit, Gustave-Adolphe est un des personnages les plus accomplis
de l'humanité, et on se tromperait si on imputait à sa timidité
personnelle la timidité et l'incertitude de ses mouvements. Ce n'est
pas lui qui était timide, c'était l'art. Mais l'art devait
Condé,
Turenne, et bientôt changer d'allure; une nouvelle révolution
Vauban. allait s'y opérer en trois actes, dont le premier
devait s'accomplir en France par Condé, Turenne
et Vauban, le second en Prusse par Frédéric, le troisième en France
encore, par Napoléon. Ainsi pour l'immortelle gloire de notre patrie,
c'était elle qui allait commencer cette révolution, et la finir!

Comme on vient de le voir, l'art de la guerre, réduit à pivoter


autour d'une place pour la prendre ou la secourir, était comme un
oiseau fixé par un lien à la terre, ne pouvant ni marcher, ni encore
moins voler à son but, c'est-à-dire au point décisif de la guerre.
Gustave avait été élève des Nassau, et les Français le furent
d'abord de Gustave. Beaucoup de nos officiers, notamment le brave
Gassion, s'étaient formés à son école, et en rapportèrent les leçons
en France, lorsque le génie de Richelieu nous engageant dans la
guerre de trente ans, nous succédâmes dans cette lice aux Suédois,
que la mort de Gustave avait privés du premier rôle. Naturellement
ce fut sur la frontière du Rhin et des Pays-Bas que nos généraux
rencontrèrent les généraux de l'Autriche et de l'Espagne, récemment
séparées mais toujours alliées. Des siéges à conduire à fin, ou à
troubler, composèrent toute la guerre. Vauban
Condé et
Turenne prenant des mains des Hollandais l'art des siéges,
commencent la le porta à un degré de perfection qui n'a point été
grande guerre dépassé, même dans notre siècle. Cependant l'art
dans les temps militaire restait enchaîné autour des places,
modernes, l'un lorsque tout à coup un jeune prince, doué d'un
par sa esprit sagace, impétueux, amoureux de la gloire,
hardiesse à
que Dieu avait fait aussi confiant qu'Alexandre, et
livrer bataille,
l'autre par ses que sa qualité de prince du sang plaçait au-dessus
hardis des timidités de la responsabilité ordinaire, entra
mouvements. en lice, et s'ennuyant pour ainsi dire de la guerre
méthodique des Nassau, dans laquelle on ne livrait
bataille qu'à la dernière extrémité, sortit du cercle où le génie des
capitaines semblait enfermé. La première fois qu'il commanda,
entouré de conseillers que la cour lui avait donnés pour le contenir, il
n'en tint compte, n'écouta que Gassion, aussi hardi que lui, surprit
un défilé qui conduisait dans les plaines de Rocroy, déboucha
audacieusement en face d'un ennemi brave et expérimenté, l'assaillit
sur ses deux ailes, composées de cavalerie suivant la méthode du
temps, les mit en déroute, puis se retourna contre l'infanterie restée
au centre comme une citadelle qui réparerait ses brèches, l'entama
avec du canon, et la détruisit dans cette journée qui fut la dernière
de l'infanterie espagnole. Certes ce jour-là Condé ne changea rien à
l'art de combattre, qui était encore ce qu'il avait été à Pharsale et à
Arbelles; mais en quoi il se montra un vrai novateur, ce fut dans la
résolution de livrer bataille, et d'aller tout de suite au but de la
guerre, manière de procéder la plus humaine, quoique un moment la
plus sanglante.

Condé devint ainsi l'audacieux Condé. Bientôt à Fribourg


méprisant les difficultés du terrain, à Nordlingen ne s'inquiétant pas
d'avoir une aile battue et son centre entamé, il regagnait une bataille
presque perdue à force de persistance dans l'audace. Heureux
mélange de hardiesse et de coup d'œil, il devint ainsi le plus grand
général de bataille connu jusqu'alors dans les temps modernes. À
ses côtés, avant lui, puis sous lui, et bientôt sans lui, se formait un
capitaine destiné à être son émule, moins hardi sur le champ de
bataille, mais plus hardi dans les marches et la conception générale
de ses campagnes: tout le monde a nommé Turenne. Condé, traité
en prince du sang, n'était pas chargé sans doute des choses faciles,
car il n'y en a pas de faciles à la guerre, mais des plus grandes, et
pour lesquelles les ressources étaient prodiguées. Turenne qui avec
le temps devint le préféré de la royauté, Turenne fut d'abord chargé,
notamment sur le Rhin, des tâches ingrates, celles où il fallait avec
des forces insuffisantes tenir tête à un ennemi supérieur, et on le vit
exécuter des marches d'une hardiesse incroyable, tantôt lorsqu'en
1646 il descendait le Rhin, qu'il allait passer à Wesel, pour joindre
les Suédois et forcer l'électeur de Bavière à la paix; tantôt lorsque,
feignant en 1674 de s'endormir de fatigue à la fin d'une campagne, il
sortait tout à coup de ses cantonnements, fondait à l'improviste sur
les quartiers d'hiver de l'ennemi, le mettait en fuite et le rejetait au
delà des frontières. Ainsi on peut dire que Condé avait donné à l'art
l'audace des batailles, et Turenne celle des marches. Après ces
deux célèbres capitaines, l'art allait s'arrêter, tâtonner encore
jusqu'au milieu du dix-huitième siècle, époque où une immense lutte
devait lui faire franchir son second pas, et l'amener à ce qu'on peut
vraiment appeler la grande guerre.

Pour se figurer exactement ce qu'on avait fait, ce


Composition
des armées à la qui restait à faire, il faut se rappeler quelles étaient
fin du dix- alors la composition des armées, la proportion et
septième siècle. l'emploi des différentes armes, et la manière de
livrer bataille. On peut voir tout cela décrit avec
une remarquable exactitude dans les mémoires de l'un des plus
savants généraux de ce temps, l'illustre Montecuculli. Malgré le
développement que l'infanterie avait déjà reçu, elle ne comprenait
guère plus de la moitié des troupes réunies sur un champ de
bataille, tandis que la cavalerie formait l'autre moitié. L'artillerie était
peu nombreuse, tout au plus d'une pièce par mille hommes, et très-
difficile à mouvoir. L'ordre de bataille était ce que
Manière de
combattre. nous le voyons dans les historiens du temps
d'Annibal et de César (seuls maîtres qu'on étudiât
alors), c'est-à-dire que l'infanterie était toujours au centre, la
cavalerie sur les ailes, l'artillerie (remplaçant les machines des
anciens) sur le front, sans tenir autre compte du terrain, sinon que la
cavalerie se serrait, se reployait en arrière, faisait, en un mot comme
elle pouvait, si le terrain des ailes n'était pas favorable à son
déploiement. L'artillerie commençait par canonner l'ennemi afin de
l'ébranler, puis la cavalerie des ailes chargeait celle qui lui était
opposée, et, si elle avait l'avantage, se rabattait sur le centre où les
troupes de pied étaient aux prises, et abordant en flanc ou à revers
l'infanterie de l'ennemi achevait sa défaite. On citerait peu de
batailles du temps de Gustave-Adolphe, de Turenne et de Condé,
qui se soient passées différemment. Les plus fameuses, celles de
Lutzen, de Rocroy et des Dunes, n'offrent pas un autre spectacle.
Ce n'est pas ainsi qu'on agit de nos jours. La cavalerie n'est pas sur
les ailes, l'infanterie au centre, l'artillerie sur le front. Chaque arme
est placée selon le terrain, l'infanterie dans les endroits difficiles, la
cavalerie en plaine, l'artillerie partout où elle peut se servir de ses
feux avec avantage. L'infanterie représentant aujourd'hui les quatre
cinquièmes des combattants, est le fond des armées. Elle a sa
portion de cavalerie pour s'éclairer, sa portion d'artillerie pour
l'appuyer, plus ou moins selon le terrain, et s'il existe, comme sous
l'Empire, une grosse réserve de cavalerie et d'artillerie, c'est dans
les mains du général en chef qu'elle se trouve, pour frapper les
coups décisifs, s'il sait user de ses ressources avec l'à-propos du
génie.

Ce qui avait porté à placer la cavalerie sur les ailes, chez les
anciens et chez les modernes, c'était le besoin de couvrir les flancs
de l'infanterie qui ne savait pas manœuvrer comme aujourd'hui, et
faire front de tous les côtés en se formant en carré.
Organisation et
armement de L'infanterie était jusqu'à la fin du dix-septième
l'infanterie. siècle une vraie phalange macédonienne, une
sorte de carré long, présentant à l'ennemi sa face
allongée, laquelle était composée de piquiers, entremêlés de
quelques mousquetaires. Ces derniers placés ordinairement sur le
front, et couverts par la longueur des piques, faisaient feu, puis
quand on approchait de l'ennemi couraient le long du bataillon, et
venaient se ranger sur ses ailes, laissant aux piquiers le soin
d'exécuter la charge ou de la repousser à l'arme blanche. Il est facile
de comprendre que si les feux avaient eu alors l'importance qu'ils
ont de notre temps, un tel bataillon eût été bientôt détruit. Les
boulets entrant dans une masse où seize, quelquefois vingt-quatre
hommes étaient rangés les uns derrière les autres, y auraient causé
d'affreux ravages. Ce même bataillon, n'ayant des piques que sur
son front, était dans l'impossibilité de défendre ses flancs contre une
attaque de la cavalerie.

Aussi, pour parer aux inconvénients de cette disposition, n'était-il


pas rare de voir, comme à Lutzen, comme à Rocroy, les infanteries
autrichienne et espagnole se former en quatre grandes masses qui
faisaient face de tous les côtés, et composer de la sorte un seul gros
carré de toutes les troupes à pied.

Aujourd'hui le problème est résolu, et il l'a été


Invention du
fusil à grâce à l'invention du fusil à baïonnette, due à
baïonnette par notre admirable Vauban, qui par cette invention est
Vauban. le véritable auteur de la tactique moderne. En effet,
en attachant au moyen de la baïonnette un fer de
lance au bout de l'ancien mousquet, il fit cesser la distinction du
piquier et du mousquetaire. Il ne dut plus y avoir dès lors qu'une
sorte de fantassin, pouvant à la fois fournir des feux et opposer au
cavalier une pointe de fer. De cet important
On ne tire pas
d'abord de cette changement à la formation moderne de l'infanterie,
invention toutes la conséquence était forcée. Mais ce n'est pas tout
ses de suite que l'on tire les conséquences d'un
conséquences. principe, et surtout ce n'est pas durant la guerre
qu'on profite des leçons qu'elle a données. C'est
au milieu du silence et des méditations de la paix.

Pendant les dernières guerres de Louis XIV, le fusil à baïonnette


ne produisit pas toutes ses conséquences. On tâtonna d'abord, et on
se borna à diminuer les rangs de l'infanterie pour présenter moins de
prise aux feux de l'ennemi, et fournir soi-même plus de feux en
ayant plus de déploiement.

Mais au milieu du dix-huitième siècle, qui devait


Désir et
recherche du être si fécond en révolutions de tout genre, se
nouveau dans préparait la révolution de l'art de la guerre. Dans
le dix-huitièmece siècle de doute, d'examen, de recherches, où
siècle. un même esprit remuait sourdement toutes les
professions, les militaires se mirent aussi en quête
de procédés nouveaux. Il y avait une monarchie allemande, presque
aussi forte que la Bavière, mais mieux placée qu'elle pour résister à
la puissance impériale, parce que située au nord elle était difficile à
atteindre, appuyée sur un peuple robuste et brave, ayant marqué
dans les guerres du dix-septième siècle et conçu dès lors une vaste
ambition, animée de l'esprit protestant et prête à faire à la catholique
Autriche une opposition redoutable: cette puissance était la Prusse.
Elle avait eu dans le grand électeur un souverain
Rôle et ambition
de la Prusse. militaire. Elle eut dans son successeur un prince
vain, épris du titre de roi, qu'il acheta de l'empereur
en lui livrant ses forces. Pourtant ce titre, tout vain qu'il paraissait,
était un engagement avec la grandeur, et la Prusse, convertie en
royaume, était devenue tout à coup aussi ambitieuse qu'elle était
titrée. Au prince qui s'était fait roi avait succédé un
Succession des
quatre princes prince maladif, morose, emporté jusqu'à la
qui ont fait sa démence, mais doué de qualités réelles, avare du
grandeur. sang et de l'argent de ses sujets, sentant que la
Prusse érigée en royaume devait se préparer à
soutenir son rang, et dans cette vue amassant des trésors et formant
des soldats, quoique personnellement il n'aimât point la guerre et ne
la voulût point entreprendre. Sa passion pour les beaux grenadiers
est restée fameuse, et était si connue alors, que ceux qui voulaient
acquérir de l'influence sur son esprit lui offraient en cadeau des
hommes de haute taille, comme à certains monarques on adresse
des chevaux ou des tableaux. Ce prince, dont
Le père du
grand Frédéric; l'esprit obsédé de sombres vapeurs, était impropre
ses soins pour à supporter continûment le poids de la couronne,
l'armée. s'en était déchargé sur deux favoris, un pour la
politique, M. de Seckendorf, un pour le militaire, le
prince d'Anhalt-Dessau, le premier intrigant, habile, le second doué
d'un vrai génie pour la guerre. Le prince d'Anhalt-
Le prince
d'Anhalt- Dessau avait fait les dernières campagnes de
Dessau. Louis XIV, s'était distingué à Malplaquet, à la tête
de l'infanterie prussienne, et avait acquis la
conviction que c'était avec les troupes à pied qu'il fallait décider à
l'avenir du sort des empires. Manœuvrant du matin au soir sur
l'esplanade de Potsdam avec l'infanterie prussienne, il finit par
comprendre toute la portée de l'invention de Vauban, arma cette
infanterie de fusils à baïonnette, la disposa sur trois rangs, et arriva
presque complétement à l'organisation du bataillon moderne. Il ne
se borna pas à cette création, il anima l'infanterie
Il place
l'infanterie sur prussienne qu'il faisait tous les jours manœuvrer
trois rangs. sous ses yeux, d'un esprit aussi énergique que le
sien, autre service non moins grand, car dans une
armée, si le mécanisme importe beaucoup, le moral n'importe pas
moins, et, sans le moral, l'armée la mieux organisée est une habile
machine dépourvue de moteur.

Son roi l'approuvait, le secondait, et bien résolu à ne pas faire la


guerre lui-même, voulait néanmoins que tout son peuple fût prêt à la
faire. Un instinct profond, confus, indéfinissable, le poussait sans
qu'il le sût, sans même qu'il se doutât de l'œuvre à laquelle il
travaillait, à ce point qu'il ne devina pas dans son fils celui qui
emploierait les moyens qu'il préparait si bien.

Ce fils, élevé par des protestants français et bientôt des mains des
protestants passant à celles des philosophes, plein de génie et
d'impertinence, tenant le passé du monde pour une extravagance
tyrannique, regardant les religions comme un préjugé ridicule, ne
reconnaissant d'autre autorité que celle de l'esprit, avait pris en
dégoût le pédantisme militaire régnant à la cour de Berlin, et par ce
motif devint odieux à son père, lequel dans un accès de colère battit
à coups de canne celui qui devait être le grand Frédéric. Le grand
Frédéric, battu et détenu dans une forteresse pour ne pas assez
aimer le militaire, est certainement un de ces spectacles singuliers
tels que l'histoire en offre quelquefois! Mais ce
Avénement du
grand Frédéric. père étrange mourut en 1740, et aussitôt son fils
se jeta sur les armes d'Achille qu'il n'avait pas
d'abord reconnues pour les siennes. L'empereur Charles VI venait
de mourir, laissant pour unique héritière une fille, Marie-Thérèse,
que personne ne croyait capable de défendre son héritage. Chacun
en convoitait une partie. La Bavière désirait la couronne impériale, la
France aspirait à conquérir tout ce que l'Autriche possédait à la
gauche du Rhin, l'Espagne avait elle-même des vues sur l'Italie, et le
jeune Frédéric songeait à rendre ses États dignes par leur
dimension du titre de royaume. Cependant, tandis que tout le monde
dévorait des yeux une partie de l'héritage de Marie-Thérèse,
personne n'osait y porter la main. Frédéric fit
À peine monté
sur le trône, il comme les gens qui mettent le feu à une maison
se jette sur la qu'ils veulent dépouiller: il se jeta sur la Silésie, fut
Silésie. bientôt imité par toute l'Europe, et alluma ainsi
l'incendie dont il devait si bien profiter. Ayant reçu
de son père un trésor bien fourni et une armée toujours tenue sur le
pied de guerre, il entra en Silésie en octobre 1740 (six mois après
être monté sur le trône), avait conquis cette province tout entière en
décembre, l'Autriche n'ayant presque pas d'armée à lui opposer, et
prouvait ainsi la supériorité d'un petit prince qui est prêt sur un grand
qui ne l'est pas.

Pourtant il n'y eut qu'un cri en Europe, c'est que le jeune roi de
Prusse était un étourdi, et qu'en janvier suivant il expierait sa
témérité. Les Autrichiens en effet, ayant réuni leurs forces,
débouchèrent de Bohême en Silésie, et Frédéric avait si peu
d'expérience qu'il laissa les Autrichiens s'établir sur ses derrières, et
le couper de la Prusse. Il se retourna, marcha à
Bataille de
Molwitz. eux avec l'audace qui inspirait toutes ses actions,
et livra bataille, bien qu'il n'eût jamais fait
manœuvrer un bataillon, ayant le dos tourné vers l'Autriche, tandis
que les Autrichiens l'avaient vers la Prusse. S'il eût été battu, il
n'aurait pas revu Berlin; et, chose singulière, dans cette première
bataille il n'eut pas d'autre tactique que celle du temps passé. Sa
belle infanterie, commandée par le brave maréchal
Comment elle
fut gagnée. Schwerin, était au centre, sa cavalerie sur les
ailes, son artillerie sur le front, comme à Rocroy,
aux Dunes, à Lutzen. La cavalerie autrichienne qui était disposée
aussi sur les ailes, et fort supérieure en force et en qualité, s'ébranla
au galop, et emporta la cavalerie prussienne ( procella equestris),
avec le jeune Frédéric, qui n'avait jamais assisté à pareille scène.
Mais, tandis que les deux cavaleries, l'une poursuivant l'autre,
couraient sur les derrières, la solide infanterie prussienne était
restée ferme en ligne. Si les choses s'étaient passées comme du
temps de Condé ou d'Alexandre, la cavalerie autrichienne, revenant
sur l'infanterie prussienne, l'eût prise sur les deux flancs et bientôt
détruite. Il n'en fut point ainsi: le vieux maréchal Schwerin, demeuré
inébranlable, se porta en avant, enleva le ruisseau et le moulin de
Molwitz, et, quand la cavalerie autrichienne revint victorieuse, elle
trouva son infanterie battue et la bataille perdue. Frédéric triompha
ainsi par la valeur de son infanterie, qui avait vaincu pendant qu'il
était entraîné sur les derrières. Mais, il l'a dit lui-même, la leçon était
bonne, et bientôt il devint général. L'Europe cria au miracle,
proclama Frédéric un homme de guerre, et plus du tout un étourdi,
mais ce qui importait davantage, l'infanterie prussienne venait
d'acquérir un ascendant qu'elle conserva jusqu'en 1792, lorsqu'elle
rencontra l'infanterie de la Révolution française.

Les années suivantes, Frédéric remporta une


Bonheur avec
lequel se deuxième, une troisième, une quatrième victoire,
termine pour le et, après diverses alternatives, tandis que la
grand Frédéric Bavière et la France s'étaient épuisées sans
la guerre de la obtenir, l'une la couronne impériale, l'autre la
succession gauche du Rhin, Frédéric seul arrivait au but qu'il
d'Autriche. s'était proposé, et gagnait la Silésie, juste prix
d'une politique profonde, et d'une guerre conduite
d'après des principes excellents et nouveaux.

Pourtant, ce n'est pas en une fois qu'on gagne


Guerre de sept
ans que ou qu'on perd une province telle que la Silésie. La
Frédéric s'attirepieuse Marie-Thérèse avait deux motifs pour être
par sa faute. implacable, le regret de son patrimoine démembré,
et l'orgueil de la maison d'Autriche humilié par un
jeune novateur, contempteur de Dieu et de l'Empire. Elle attendait
l'occasion de se venger, et ne devait pas l'attendre longtemps. Chez
ce Frédéric, si maître de lui en politique et en guerre, il y avait
quelque chose qui n'était pas gouverné, c'était l'esprit railleur, et
l'Europe lui en fournissait un emploi dont il ne savait pas se
défendre. À Paris, une femme élégante et spirituelle, représentant la
société polie, gouvernait l'indifférence débauchée de Louis XV. Une
femme belle et licencieuse, l'impératrice Élisabeth, gouvernait
l'ignorance de la cour de Russie. Frédéric, en les offensant toutes
deux par ses propos, et en les faisant ainsi les alliées de Marie-
Thérèse, s'attira la terrible guerre de sept ans, où il eut à lutter
contre tout le continent, à peine soutenu par l'or de l'Angleterre.
C'est dans cette guerre que l'art prit son grand essor.

On a vu Frédéric se battre à Molwitz comme on


Changements
que Frédéric se battait à Rocroy, à Pharsale, à Arbelles,
opère dans la l'infanterie au centre, la cavalerie sur les ailes.
tactique. Frappé de la supériorité de la cavalerie
autrichienne, il s'appliqua d'abord à procurer à la
sienne, dont il avait grand besoin dans les plaines de la Silésie, ce
qui lui manquait de qualités militaires, et il parvint à lui donner une
solidité que n'avait pas la cavalerie autrichienne. Mais c'est sur
l'infanterie prussienne qu'il établit principalement sa puissance. Il y
était encouragé par deux motifs, l'excellence même de cette
infanterie à laquelle il devait ses premiers succès, et la nature du sol
où il était appelé à combattre. La Silésie est une plaine, mais ce
n'était pas en Silésie qu'il fallait disputer la Silésie, c'était en
Bohême, et surtout dans les montagnes qui séparent les deux
provinces. Il sentit ainsi la nécessité de se servir spécialement de
l'infanterie, et d'employer l'artillerie, la cavalerie comme auxiliaires
indispensables de l'infanterie, plus ou moins importants suivant le
sol où l'on combattait. En un mot, il y apprit l'art d'employer les
armes selon le terrain.

Ainsi l'homme qui à Molwitz avait mis son


Batailles de
Leuthen et de infanterie au centre, sa cavalerie sur les ailes,
Rosbach. faisait bientôt tout autrement à Leuthen, à
Rosbach. À Leuthen, bataille que Napoléon a
déclarée le chef-d'œuvre du grand Frédéric, il voit les Autrichiens
appuyant leur gauche à une hauteur boisée, celle de Leuthen, et
étendant leur droite en plaine. Il profite d'un rideau de coteaux qui le
sépare de l'ennemi, fait défiler derrière ce rideau la plus grande
partie de son infanterie, la porte sur la gauche des Autrichiens, leur
enlève la position de Leuthen, puis, après les avoir dépostés, les
accable en plaine des charges de sa cavalerie, et, tandis qu'il était à

You might also like