Professional Documents
Culture Documents
Notas de Mecánica Cuántica - Rodolfo A. Díaz S.
Notas de Mecánica Cuántica - Rodolfo A. Díaz S.
4 de agosto de 2010
Índice general
We shall describe the most important properties of linear or vector spaces. This treatment is not rigorous at all,
and only some simple proofs are shown. Our aim limits to provide a framework for our subsequent developments.
2. If xi , xj ∈ V , then xi + xj ∈ V
3. xi + xj = xj + xi , ∀xi , xj ∈ V
8. 1xi = xi ; ∀xi ∈ V
The element 0 is usually called the null vector or the origin. The element −x is called the additive inverse of
x. We should distinguish the symbols 0 (scalar) and 0 (vector). The two operations defined here (sum and product
by scalars) are called linear operations. A linear space is real (complex) if we consider the scalars as the set of real
(complex) numbers.
Let us see some simple examples
Example 1.1 The set of all real (complex) numbers with ordinary addition and multiplication taken as the linear
operations. This is a real (complex) linear space.
Example 1.2 The set Rn (C n ) of all n-tuples of real (complex) numbers is a real (complex) linear space under the
following linear operations
x ≡ (x1 , x2 , . . . , xn ) ; y ≡ (y1 , y2 , . . . , yn )
αx ≡ (αx1 , αx2 , , αxn ) ; x + y ≡ (x1 + y1 , x2 + y2 , . . . , xn + yn )
1.2. ALGEBRAIC PROPERTIES 11
Example 1.3 The set of all bounded continuous real functions defined on a given interval [a, b] of the real line,
with the linear operations defined pointwise as
We can see that a linear or vector space forms an abelian group whose elements are the vectors, and with
addition as the law of combination. However, the vector space introduce an additional structure by considering
multiplication by scalars which is not a group property.
Some very important kinds of vector spaces are the ones containing certain sets of functions with some specific
properties. We can consider for example, the set of functions defined on certain interval with some condition of
continuity integrability etc. For instance, in quantum mechanics we use a vector space of functions.
xi + xk = xj + xk ⇒ xi = xj to see it, we simply add −xk on both sides. This property is usually called the
rearrangement lemma.
α · 0 = 0 we see it from α · 0 + αx = α · (0 + x) = αx = 0 + αx and applying the rearrangement lemma.
0 · x = 0 it proceeds from 0 · x + αx = (0 + α) x = αx = 0 + αx and using the rearrangement lemma.
(−1) x = −x we see it from x+ (−1) x = 1·x+(−1) x = (1 + (−1)) x = 0x = 0 = x+ (−x) and the rearrangement
lemma.
αx = 0 thenα = 0 or x = 0; for if α 6= 0 we can multiply both sides of the equation by α −1 to give α−1 (αx) =
α 0 ⇒ α−1 α x = 0 ⇒ 1x = 0 ⇒ x = 0. If x 6= 0 we prove that α = 0 by assuming α 6= 0 and finding a
−1
contradiction. This is inmediate from the above procedure that shows that starting with α 6= 0 we arrive to x = 0.
It is customary to simplify the notation in x + (−y) and write it as x − y. The operation is called substraction.
This is equivalent to the condition that M contains all sums, negatives and scalar multiples. The other properties
are derived directly from the superset V . Further, since −x = (−1) x it reduces to say that M must be closed under
addition and scalar multiplication.
When M is a proper subset of V it is called a proper subspace of V . The zero space {0} and the full space V
itself are trivial subspaces of V .
The following concept is useful to study the structure of vector subspaces of a given vector space,
Definition 1.2 Let S = {x1 , .., xn } be a non-empty finite subset of V , then the vector
x = α 1 x1 + α 2 x2 + . . . + α n xn (1.1)
We can redefine a vector subspace by saying that a non-empty subset M of V is a linear subspace if it is closed
under the formation of linear combinations. If S is a subset of V we can see that the set of all linear combinations
of vectors in S is a vector subspace of V , we denote this subspace as [S] and call it the vector subspace spanned by
12 CAPÍTULO 1. LINEAR OR VECTOR SPACES
S. It is clear that [S] is the smallest subspace of V that contains S. Similarly, for a given subspace M a non-empty
subset S of M is said to span M if [S] = M . Note that the closure of a vector space under an arbitrary linear
combination can be proved by induction from the closure property of vector spaces under linear operations. Notice
additionally, that the proof of induction only guarantees the closure under any finite sum of terms, if we have an
infinite sum of terms (e.g. a series) we cannot ensure that the result is an element of the space, this is the reason
to define linear combinations as finite sums. If we want a property of closure under some infinite sums additional
structure should be added as we shall see later.
Suppose now that M and N are subspaces of V . Consider the set M + N of all sums of the form x + y with
x ∈ M and y ∈ N . Since M and N are subspaces, this sum is the subspace spanned by the union of both subspaces
M + N = [M ∪ N ]. It could happen that M + N = V in this case we say that V is the sum of M and N . In turn
it means that every vector in V is expressible as a sum of a vector in M plus a vector in N . Further, in some cases
any element z of V is expressible in a unique way as such a sum, in this case we say that V is the direct sum of
M and N and it is denoted by
V =M ⊕N
we shall establish the conditions for a sum to become a direct sum
Theorem 1.1 Let a vector space V be the sum of two of its subspaces V = M +N . Then V = M ⊕N ⇔ M ∩N = {0}
Proof: Assume first that V = M ⊕N , we shall suppose that ∃ z 6= 0 with z ∈ M ∩N , and deduce a contradiction
from it. We can express z in two different ways z = z + 0 with z ∈ M and 0 ∈ N or z = 0 + z with 0 ∈ M and
z ∈ N . This contradicts the definition of a direct sum.
Now assume M ∩ N = {0}, by hypothesis V = M + N so that any z ∈ V can be expressed by z = x 1 + y1 with
x1 ∈ M and y1 ∈ N . Suppose that there is another decomposition z = x 2 + y2 with x2 ∈ M and y2 ∈ N . Hence
x1 + y1 = x2 + y2 ⇒ x1 − x2 = y1 − y2 ; but x1 − x2 ∈ M and y1 − y2 ∈ N . Since they are equal, then both belong
to the intersection so x1 − x2 = y1 − y2 = 0 then x1 = x2 and y1 = y2 showing that the decomposition must be
unique. QED.
When two vector subspaces of a given space have only the zero vector in common, it is customary to call them
disjoint subspaces. It is understood that it does not correspond to disjointness in the set-theoretical sense, after all
two subspaces of a given space cannot be disjoint as sets, since any subspace must contain 0. Thus no confusion
arises from this practice.
The concept of direct sum can be generalized when more subspaces are involved. We say that V is the direct
sum of a collection of subspaces {M1 , .., Mn } and denote it as
V = M 1 ⊕ M2 ⊕ . . . ⊕ M n
when each z ∈ V can be expressed uniquely in the form
z = x 1 + x2 + . . . + x n ; xi ∈ Mi
In this case if V = M1 + .. + Mn , this sum becomes a direct sum if and only if each M i is disjoint from the subspace
spanned by the others. To see it, it is enough to realize that
V = M1 + M2 + .. + Mn = M1 + [M2 + .. + Mn ] = M1 + [∪ni=2 Mi ]
then V = M1 ⊕ [M2 + .. + Mn ] if and only if M1 ∩ [∪ni=2 Mi ] = {0}, proceeding similarly for the other M i0 s we arrive
at the condition above. Note that this condition is stronger than the condition that any given M i is disjoint from
each of the others.
The previous facts can be illustrated by a simple example. The most general non-zero proper subspaces of R 3
are lines or planes that passes through the origin. Thus let us define
M1 = {(x1 , 0, 0)} , M2 = {(0, x2 , 0)} , M3 = {(0, 0, x3 )}
M4 = {(0, x2 , x3 )} , M5 = {(x1 , 0, x3 )} , M6 = {(x1 , x2 , 0)}
M1 , M2 , M3 are the coordinate axes of R 3 and M4 , M5 , M6 are its coordinate planes. R 3 can be expressed by direct
sums of these spaces in several ways
R 3 = M1 ⊕ M2 ⊕ M3 = M1 ⊕ M4 = M2 ⊕ M5 = M3 ⊕ M6
1.4. DIMENSION AND BASES IN VECTOR SPACES 13
for the case of R3 = M1 ⊕M2 ⊕M3 we see that the subspace spanned by M 2 and M3 i.e. M2 +M3 = [M2 ∪ M3 ] = M4
is disjoint from M1 . Similarly M2 ∩ [M1 ∪ M3 ] = {0} = M3 ∩ [M1 ∪ M2 ]. It is because of this, that we have a direct
sum.
Now let us take M3 , M6 and M 0 defined as a line on the plane M4 that passes through the origin making an
angle θ with the axis x3 such that 0 < θ < π/2, since R 3 = M3 + M6 it is clear that
R3 = M3 + M6 + M 0 ; M3 ∩ M6 = M3 ∩ M 0 = M6 ∩ M 0 = {0} (1.2)
however this is not a direct sum because M 3 + M6 = R3 so that M 0 ∩ (M3 + M6 ) 6= {0}. Despite each subspace
is disjoint from each other, there is at least one subspace that is not disjoint from the subspace spanned by the
others. Let us show that there are many decompositions for a given vector z ∈ R 3 when we use the sum in (1.2).
Since R3 = M3 + M6 a possible decomposition is z = x + y + 0 with x ∈ M 3 , y ∈ M6 , 0 ∈ M 0 . Now let us take an
arbitrary non-zero element w of M 0 ; clearly M3 + M6 = R3 contains M 0 so that w = x0 + y0 with x0 ∈ M3 , y0 ∈ M6 .
Now we write z = x + y = (x − x0 ) + (y − y0 ) + x0 + y0 then z = (x − x0 ) + (y − y0 ) + w. We see that (x − x0 ) is in
M3 and (y − y0 ) is in M6 . Now, since w ∈ M 0 and w 6= 0 this is clearly a different decomposition with respect to
the original one. An infinite number of different decompositions are possible since w is arbitrary.
Finally, it can be proved that for any given subspace M in V it is always possible to find another subspace N in
V such that V = M ⊕ N . Nevertheless, for a given M the subspace N is not neccesarily unique. A simple example
is the following, in R2 any line crossing the origin is a subspace M and we can define N as any line crossing the
origin as long as it is not collinear with M ; for any N accomplishing this condition we have V = M ⊕ N .
Theorem 1.2 If S is a linearly independent set of vectors in a vector space V , there exists a basis B in V such
that S ⊆ B.
In words, given a linearly independent set, it is always possible to add some elements to S for it to become a
basis. A linearly independent set is non-empty by definition and cannot contain the null vector. Hence, we see that
if V = {0} it does not contain any basis, but if V 6= {0} and we can take a non-zero element x of V , the set {x} is
linearly independent and the previous theorem guarantees that V has a basis that contains {x}, it means that
Now, since any set consisting of a single non-zero vector can be enlarged to become a basis it is clear that any
non-zero vector space contains an infinite number of bases. It worths looking for general features shared by all bases
of a given linear space. Tne first theorem in such a direction is the following
Theorem 1.4 Let S = {x1 , x2 , .., xn } be a finite, odered, non-empty subset of the linear space V . If n = 1 then S is
linearly dependent⇔ x1 = 0. If n > 1 and x1 6= 0 then S is linearly dependent if and only if some one of the vectors
x2 , ..., xn is a linear combination of the vectors in the ordered set S that precede it.
Proof: The first assertion is trivial. Then we settle n > 1 and x 1 6= 0. Assuming that one of the vectors x i in
the set x2 , ..., xn is a linear combination of the preceding ones we have
since the coefficient of xi is 1, this is a non-trivial linear combination of elements of S that equals zero. Thus S is
linearly dependent. We now assume that S is linearly dependent hence the equation
α1 x1 + ... + αn xn = 0
has a solution with at least one non-zero coefficcient. Let us define α i as the last non zero coefficient, since x 1 6= 0
then i > 1 then we have
α1 αi−1
α1 x1 + ... + αi xi + 0 · xi+1 + ... + 0 · xn = 0 ⇒ xi = − x1 + ... + − xi−1
αi αi
and xi is written as a linear combination of the vectors that precede it in the ordered set S. QED
The next theorem provides an important structural feature of the set of bases in certain linear spaces
Theorem 1.5 If a given non-zero linear space V has a finite basis B 1 = {e1 , ..., en } with n elements, then any
other basis B2 = {fi } of V must be finite and also with n elements.
The following theorem (that we give without proof) gives a complete structure to this part of the theory of
vector spaces
Theorem 1.6 Let V be a non-zero vector space. If B 1 = {ei } and B2 = {uj } are two bases of the vector space,
then B1 and B2 are sets with the same cardinality.
These theorem is valid even for sets with infinite cardinality. This result says that the cardinality of a basis is
a universal attribute of the vector space since it does not depend on the particular basis used. Hence the following
are natural definitions
Definition 1.5 The dimension of a non-zero vector space is the cadinality of any of its basis. If V = {0} the
dimension is defined to be zero.
Definition 1.6 A vector space is finite-dimensional if its dimension is a non negative integer. Otherwise, it is
infinite-dimensional.
1.5. MAPPINGS AND TRANSFORMATIONS IN VECTOR SPACES 15
As any abstract algebraic system, vector spaces requires a theory of representations in which the most abstract
set is replaced by another set with more tangible objects. However, for the representation to preserve the abstract
properties of the vector space, set equivalence and linear operations must be preserved. This induces the following
definition
Definition 1.7 Let V and V 0 two vector spaces with the same system of scalars. An isomorphism of V onto V 0 is
a one-to-one mapping f of V onto V 0 such that f (x + y) = f (x) + f (y) and f (αx) = αf (x)
Definition 1.8 Two vector spaces with the same system of scalars are called isomorphic if there exists an isomor-
phism of one onto the other.
To say that two vector spaces are isomorphic means that they are abstractly identical with respect to their
structure as vector spaces.
Now let V be a non zero finite dimensional space. If n is its dimension, there exists a basis B = {e 1 , .., en } whose
elements are written in a definite order. Each vector x in V can be written uniquely in the form
x = α1 e1 + .. + αn en
so the n−tuple (α1 , .., αn ) is uniquely determined by x. If we define a mapping f by f (x) = (α 1 , .., αn ) we see that
this is an isomorphism of V onto R n or C n depending on the system of scalars defined for V .
Theorem 1.7 Any real (complex) non-zero finite dimensional vector space of dimension n is isomorphic to R n
(C n ).
Indeed, this theorem can be extended to vector spaces of arbitrary dimensions, we shall not discuss this topic
here. By now, it suffices to realize that the isomorphism establishes here is not unique for it depends on the basis
chosen and even on the order of vectors in a given basis. It can be shown also that two vector spaces V and V 0 are
isomorphic if and only if they have the same scalars and the same dimension.
From the results above, we could then be tempted to say that the abstract concept of vector space is no
useful anymore. However, this is not true because on one hand the isomorphism depends on the basis chosen and
most results are desirable to be written in a basis independent way. But even more important, almost all vector
spaces studied in Mathematics and Physics posses some additional structure (topological or algebraic) that are not
neccesarily preserve by the previous isomorphisms.
we shall see later that the states of our physical systems are vectors of a given vector space. Hence, the transforma-
tions of these vectors are also important in Physics because they will represent transformations in the states of our
system. We shall see later that the set of all linear transformations are in turn vector spaces with their own internal
organization.
Let us now define some basic operations with linear transformations, a natural definition of the sum of two linear
transformations is of the form
(T + U ) (x) ≡ T (x) + U (x) (1.6)
and a natural definition of multiplication by scalars is
Theorem 1.8 Let V and V 0 be two vector spaces with the same system of scalars. The set of all linear transfor-
mations of V into V 0 with the linear operations defined by Eqs. (1.6, 1.7, 1.8) is itself a vector space.
The most interesting cases are the linear transformations of V into itself and the linear transformations of V
into the space of scalars (real or complex). We shall study now the first case.
T (U V ) = (T U ) V ; T (U + V ) = T U + T V
(T + U ) V = T V + U V ; α (T U ) = (αT ) U = T (αU )
commutativity does not hold in general. It is also possible for the product of two non-zero linear transformation to
be zero. An example of non commutativity is the following: we define on the space P of polynomials p (x) the linear
operators M and D
dp dp
M (p) ≡ xp ; D (p) = ⇒ (M D) (p) = M (D (p)) = xD (p) = x
dx dx
dp
(DM ) (p) = D (M (p)) = D (xp) = x +p
dx
and M D 6= DM. Suppose now the linear transformations on R 2 given by
I (x) ≡ x
it is well known that for a mapping from V to V 0 to admit an inverse from V 0 to V requires to be one-to-one and
onto. In this context this induces the definition
Definition 1.9 A linear transformation T on V is non-singular if it is one-to-one and onto, and singular otherwise.
1.6. LINEAR TRANSFORMATIONS OF A VECTOR SPACE INTO ITSELF 17
T T −1 = T −1 T = I
Theorem 1.9 If T is a linear transformation on V , then T is non-singular⇔ T (B) is a basis for V whenever B
is.
P (z) = x
it is easy to show that this transformation is linear and is called the projection on M along N . The most important
property of these transformations is that they are idempotent i.e. P 2 = P we can see it taking into account that
the unique decomposition of x is x = x + 0 so that
The opposite is also true i.e. a given linear idempotent linear transformation induces a decomposition of the space
V in a direct sum of two subspaces
Proof : We already showed that decomposition in a direct sum induces a projection, to prove the opposite let
define M and N in the form
M ≡ {P (z) : z ∈ V } ; N = {z : P (z) = 0}
M and N are subspaces and correspond to the range and the null space of the transformation P respectively. We
show first that M + N = V , this follows from the identity
thus (I − P ) (z) belongs to the null space N so M + N = V . To prove that this is a direct sum we must show that
M and N are disjoint (theorem 1.1). For this, assume that we have a given element P (z) in M that is also in N
then
P (P (z)) = 0 ⇒ P 2 (z) = P (z) = 0
thus the common element P (z) must be the zero element. Hence, M and N are disjoint and V = M ⊕ N . Further,
from (1.10) P is the projection on M along N .
Of course in z = x + y with x ∈ M , y ∈ N we can define a projection P 0 (z) = y on N along M . In this case
V = M ⊕ N = N ⊕ M but now M is the null space and N is the range. It is easy to see that P 0 = I − P .
On the other hand, we have seen that for a given subspace M in V we can always find another subspace N such
that V = M ⊕ N so for a given M we can find a projector with range M and null space N . However, N is not
unique so that different projections can be defined on M .
Finally, it is easy to see that the range of a projector P corresponds to the set of points fixed under P i.e.
M = {P (z) : z ∈ V } = {z : P (z) = z}.
18 CAPÍTULO 1. LINEAR OR VECTOR SPACES
Definition 1.10 A normed vector space N is a vector space in which to each vector x there corresponds a real
number denoted by kxk with the following properties: (1) kxk ≥ 0 and kxk = 0 ⇔ x = 0.(2) kx + yk ≤ kxk + kyk
(3) kαxk = |α| kxk
As well as allowing to define a length for vectors, the norm permits to define a distance between two vectors x
and y in the following way
d (x, y) ≡ kx − yk
it is easy to verify that this definition accomplishes the properties of a metric
in turn, the introduction of a metric permits to define two crucial concepts: (a) convergence of sequences, (b)
continuity of functions of N into itself (or into any metric space).
We shall examine both concepts briefly
is convergent if there exists a point x in X such that for each ε > 0, there exists a positive integer n 0 such that
d (xn , x) < ε for all n ≥ n0 . x is called the limit of the sequence. A very important fact in metric spaces is that any
convergent sequence has a unique limit.
Further, assume that x is the limit of a convergent sequence, it is clear that for each ε > 0 there exists n 0 such
that m, n ≥ n0 ⇒ d (x, xm ) < ε/2 and d (x, xn ) < ε/2 using the properties of the metric we have
ε ε
m, n ≥ n0 ⇒ d (xm , xn ) ≤ d (xm , x) + d (x, xn ) < + =ε
2 2
a sequence with this property is called a cauchy sequence. Thus, any convergent sequence is a cauchy sequence.
The opposite is not necessarily true. As an example let X be the interval (0, 1] the sequence x n = 1/n is a cauchy
sequence but is not convergent since the point 0 (which it wants to converge to) is not in X. Then, convergence
depends not only on the sequence itself, but also on the space in which it lies. Some authors call cauchy sequences
“intrinsically convergent” sequences.
A complete metric space is a metric space in which any cauchy sequence is convergent. The space (0, 1] is not
complete but it can be made complete by adding the point 0 to form [0, 1]. In fact, any non complete metric space
can be completed by adjoining some appropiate points. It is a fundamental fact that the real line, the complex plane
and Rn , C n are complete metric spaces.
We define an open sphere of radius r centered at x 0 as the set of points such that
and an open set is a subset A of the metric space such that for any x ∈ A there exists an open sphere S r (x) such
that Sr (x) ⊆ A.
For a given subset A of X a point x in X is a limit point of A if each open sphere centered on x contains at
least one point of A different from x.
A subset A is a closed set if it contains all its limit points. There is an important theorem concerning closed
metric subspaces of a complete metric space
Theorem 1.11 Let X be a complete metric space and Y a metric subspace of X. Then Y is complete⇔it is closed.
1.7. NORMED VECTOR SPACES 19
with ψn being functions in our space that describe physical states and c n are some appropiate coefficients. For this
series to have any physical sense, it must be convergent. To analyze convergence we should construct the sequence
of partial sums
( 1 2 3
)
X X X
cn ψn , cn ψn , cn ψn , ...
n=1 n=1 n=1
if this series is “intrisically” convergent the corresponding sequence of partial sums should be a cauchy sequence.
Any series that defines a cauchy sequence has a bounded norm
∞
X
cn ψn
< ∞
n=1
it would then be desirable that an intrinsically convergent series given by a superposition of physical states ψ n be
another physical state ψ. In other words, the limit of the partial sums should be within the vector space that describe
our physical states. To ensure this property we should demand completeness of the vector space that describe the
physical states of the system.
On the other hand, it would be usual to work with subspaces of the general physical space. If we want to
guarantee for a series in a given subspace to be also convergent, we should require for the subspace to be complete
by itself, and according to theorem 1.11 it is equivalent to require the subspace to be closed with respect to the
total space. Therefore, closed subspaces of the general space of states would be particularly important in quantum
mechanics.
Definition 1.11 If X, Y are two metric spaces with metrics d 1 and d2 a mapping f of X into Y is an isometry if
d1 (x, x0 ) = d2 (f (x) , f (x0 )) ∀x, x0 ∈ X. If there exists an isometry of X onto Y , we say that X is isometric to Y .
It is clear that an isometry is necessarily one-to-one. If X is isometric to Y then the points of these spaces can
be put in a one to one correspondence in such a way that the distance between pairs of corresponding points are the
same. In that sense, isometric spaces are abstractly identical as metric spaces. For instance, if we endow a vector
space V with a metric then another metric vector space V 0 will be identical to V as metric and vector space if and
only if there is an isometric isomorphism between them. Isometry preserves metric (distances) while isomorphism
preserve vector structure (linear operations). Of course a norm-preserving mapping is an isometry for the metric
induced by such a norm. Thus for our purposes norm preserving mappings will be isometries.
20 CAPÍTULO 1. LINEAR OR VECTOR SPACES
As in any vector space, linear transformations are crucial in the characterization of Banach spaces. Since a notion
of continuity is present in these spaces and continuity is associated with well behavior in Physics, it is natural to
concentrate our attention in continuous linear transformations of a banach space B into itself or into the set of
scalars. Transformations of B into itself will be useful when we want to study posible modifications of the vectors
(for instance the time evolution of the vectors describing the state of the system). On the other hand, transformations
of B into the scalars will be useful when we are interested in connecting the state of a system (represented by a
vector) with a measurement (which is a number).
Before considering each specific type of continuous linear transformation, we should clarify what the meaning
of continuity of a linear transformation is. Since continuity depends on the metric induced on the space, we should
define for a given space of linear transformations on a Banach space B, a given metric. We shall do it by first
defining a norm, specifically we shall define the following norm
kT k = sup {|T (x)| : kxk ≤ 1} (1.11)
We shall refer to the metric induce by this norm when we talk about the continuity of any linear transformation
of a Banach space into itself or into the scalars. It can be shown that for this norm continuity is equivalent to
boundedness.
Definition 1.13 A real (or complex) functional is a continuous linear transformation of a real (or complex) normed
linear space into R (or C).
Definition 1.14 The set of all functionals on a normed linear space N is called the conjugate space of N and is
denoted by N ∗ .
For the case of general normed spaces (and even for Banach spaces), the structure of their conjugate spaces is in
general very intrincate. However we shall see that conjugate spaces are much simpler when an additional structure
(inner product) is added to Banach spaces.
Definition 1.15 An operator is a continuous linear transformation of a normed space into itself.
Theorem 1.12 If a one-to-one linear transformation T of a Banach space onto itself is continuous, then its inverse
is automatically continuous
Though we do not provide a proof, it is important to note that this result requires the explicit use of completeness
(it is not valid for a general normed space). We see then that completeness gives us another desirable property in
Physics: if a given transformation is continuous and its inverse exist, this inverse transformation is also continuous.
Let us now turn to projectors on Banach spaces. For general vector spaces projectors are defined as idempotent
linear transformations. For Banach spaces we will required an additional structure which is continuity
1.8. BANACH SPACES 21
The consequences of the additional structure of continuity for projectors in Banach spaces are of particular
interest in quantum mechanics
Theorem 1.13 If P is a projection on a Banach space B, and if M and N are its range and null space. Then M
and N are closed subspaces of B such that B = M ⊕ N
Theorem 1.14 Let B be a banach space and let M and N be closed subspaces of B such that B = M ⊕ N . If
z = x + y is the unique representation of a vector z in B with x in M and y in N . Then the mapping P defined by
P (z) = x is a projection on B whose range and null space are M and N respectively.
These properties are interesting in the sense that the subspaces generated by projectors are closed subspaces
of a complete space, and then they are complete by themselves. We have already said that dealing with complete
subspaces is particularly important in quantum mechanics.
There is an important limitation with Banach spaces. If a closed subspace M is given, though we can always
find many subspaces N such that B = M ⊕ N there is not guarantee that any of them be closed. So there is not
guarantee that M alone generates a projection in our present sense. The solution of this inconvenience is another
motivation to endow B with an additional structure (inner product).
Finally, the definition of the conjugate N ∗ of a normed linear space N , induces to associate to each operator in
the normed linear space N and operator on N ∗ in the following way. Let us form a complex number c 0 with three
objects, an operator T on N , a functional f on N and an element x ∈ N , we take this procedure: we map x in
T (x) and then map this new element of N into the scalar c 0 through the functional f
x → T (x) → f (T (x)) = c0
Now we get the same number with other set of three objects an operator T ∗ on N ∗ , a functional f on N (the same
functional of the previous procedure) and an element x ∈ N (the same element stated before), the steps are now
the following, we start with the functional f in N ∗ and map it into another functional through T ∗ , then we apply
this new functional to the element x and produce the number c 0 . Schematically it is
f → T ∗ (f ) → [T ∗ (f )] (x) = c0
with this we are defining an apropiate mapping f 0 such that f 0 (x) gives our number. In turn it induces an operator
on N ∗ that maps f in f 0 and this is the newly defined operator T ∗ on N ∗ . In summary this definition reads
kT ∗ k = sup {kT ∗ (f )k : kf k ≤ 1}
since linear operations are preserved the mapping T → T ∗ is an isometric isomorphism. However, the product is
reversed under the mappping, this shows that the spaces ß(T ) and ß(T ∗ ) are equivalent as metric and vector spaces
but they are not equivalent as algebras (the spaces are not isomorphic as algebras).
22 CAPÍTULO 1. LINEAR OR VECTOR SPACES
the dot product is a good mathematical tool for many purposes in solid analytic geometry. If we accept the statement
that the zero vector is orthogonal to every vector we can say that the dot product is null if and only if both vectors
are orthogonal. Let {vi } be a given basis (non necessarily orthonormal) of R 3 ; any two vectors in R3 are expressed
in the form
x = α i vi ; y = β j vj (1.16)
the dot product and the norm of these two vectors can be written
These expressions can be in general complicated. Notice that these and other algebraic operations with dot products
become much easier when an orthonormal basis is used since in this case we have m ij = δij so that x · y = αi βi and
x · x = αi αi . These facts put orthonormal basis in a privileged position among other bases.
Further, an attempt of extension of these ideas to C 3 permits to define the inner product in this space in the
following way, given the vectors (1.16) where α and β are complex we define
the conjugate on α appears to obtain the norm of a complex vectors with the inner product of such a vector with
itself, as can be seen by using an orthonormal basis in which m ij = δij
the simplification above comes from the extension of the concept of orthogonality two complex vectors, they are
orthogonal if and only if (x, y) = 0.
In both the real and complex cases, the concept of orthogonality was very important not only because of the
geometry but also because of the algebra. We observe for instance, that no angle like the one in (1.15) can be defined
in the complex case, but the algebra of inner products continues being simple and useful. On the same ground, we
were able to talk about orthogonality in the complex case via the inner product and exploit the advantages of
orthonormal sets, although two vectors of the complex plane are not “perpendicular”.
In the same way, in abstract vector spaces is not so clear how to use the concept of orthogonality in a geometrical
way, but from the discussion above it is clear that the extension of the concept would represent great simplifications
from the algebraic sense. Notwithstanding, we shall see that the extension of the concept of inner product will also
provide some geometrical interpretations.
As always in mathematics, a natural extension should come from the extrapolation of the essential properties
of the concept in the restricted way, the inner product in the complex and real spaces has the following properties
Definition 1.17 A Hilbert space is a real or complex Banach space whose norm arises from an inner product, which
in turn is defined as a complex function (x, y) of the vectors x and y with the following properties
Definition 1.18 Two vectors x, y in a Hilbert space are said to be orthogonal if (x, y) = 0, we denote it as x ⊥ y.
A vector is said to be normal or unitary if (x, x) = 1.
Theorem 1.15 If M and N are closed vector subspaces of a Hilbert space H such that M ⊥ N , then the linear
subspace M + N is also closed
Thus we see that the expansion of the union of closed subspaces preserves the closure property and so the
completeness property too. In addition, theorem 1.16 says that given a closed subspace of H we can always find
a closed subspace to generate H by direct sum. Besides, the closed space that makes the work is the orthogonal
complement. It means that for any given closed subspace M we can define a projection with range M and null
space M ⊥ . Contrast this with the problem arising in Banach spaces in which we cannot guarantee the closure of
the complementary space.
Theorem 1.17 Let {e1 , .., en } be a finite orthonormal set in H. If x is a vector in H we have
n
X
|(ei , x)|2 ≤ kxk2 (1.21)
i=1
Xn
x− (ei , x) ei ⊥ ej ; j = 1, .., n (1.22)
i=1
24 CAPÍTULO 1. LINEAR OR VECTOR SPACES
We can give the following interpretation of this theorem: Eq. (1.21) says that the sum of the components of a
vector in the various orthogonal directions defined by the ortonormal set, cannot exceed the length of the vector.
Similarly, Eq. (1.22) says that if we substract from a vector its components in several perpendicular directions the
resultant has no components left in those directions.
The following theorem shows that the coefficients obtained for a given vector from an orthonormal set are not
arbitrary
Theorem
n 1.18 Ifo {ei } is an orthonormal set in a Hilbert space H, and if x is any vector in H, the set S =
ei : |(ei , x)|2 6= 0 is either empty or countable.
These results permit to extend theorem 1.17 for arbitrary orthonormal sets
Definition 1.19 An orthonormal set in H is said to be complete if it is maximal, that is, if it is impossible to add
an element e to the set while preserving the orthonormality in the new set.
Theorem 1.20 Every orthonormal set in a Hilbert space is contained in a complete orthonormal set
Theorem 1.21 Every non-zero Hilbert space contains a complete orthonormal set
Theorem 1.23 Let H be a Hilbert space and {e i } an orthonormal set in H. The following conditions are equivalent
to one another
This is perhaps the most important theorem in terms of applications in Physics, and in particular quantum
mechanics. It is convenient to discuss some terminology related with it. The numbers (x, e i ) are called the Fourier
coeeficients of x and Eq. (1.27) is its Fourier expansion. Eq. (1.28) is called Parseval’s equation. All these equations
refer to a given complete orthonormal set.
This sequence of theorems are similar to the ones explained in the general theory of vector spaces in which
complete orthonormal sets replaced the concept of bases, and fourier expansions replaced linear combinations.
It is clear that for finite dimensional spaces Fourier expansions become linear combinations. On the other hand,
since orthonormal sets are linearly independent (Theorem 1.22), it is easy to see that in the case of finite dimensional
spaces complete orthonormal sets are linearly independent sets that generate any vector by linear combinations.
Hence, complete orthonormal sets are bases.
For infinite dimensional spaces there is a different story. If we remember that linear combinations are finite by
definition, we see that in this case Fourier expansions are not linear combinations. For a given linearly independent
set to be a basis, it is necessary for any vector of the space to be written as a linear combination of such a set, basis
1.9. HILBERT SPACES 25
certainly exists for Hilbert spaces according to theorem 1.3 but complete orthonormal sets are NOT basis in the
sense defined for the general theory of vector spaces.
Moreover theorem 1.18 shows that the Fourier expansion given in Eq. (1.27) is always countable, this is a
remarkable result because it means that the fourier expansion for a given complete orthonormal set is always a
series, even if the cardinality of the complete orthonormal set is higher than the aleph (cardinality of the integers).
The informal discussion above can be formally proved to produce the following statement
Theorem 1.24 A Hilbert space is finite dimensional if and only if every complete orthonormal set is a basis.
However, owing to the analogy between bases and complete orthonormal sets the following theorem is quite
expected
Theorem 1.25 Any two complete orthonormal sets of a given Hilbert space have the same cardinality.
Definition 1.20 The orthogonal dimension of a Hilbert space H is the cardinality of any complete orthonormal set
in H.
It is important to keep in mind the difference between the dimension and the orthogonal dimension of a Hilbert
space of infinite dimension.
then fy is bounded and so continuous. Indeed it can be shown that |f y (x)| = kyk. We then have found an algorithm
to generate some functionals from the mapping
y → fy (1.30)
described above, this is a norm preserving mapping of H into H ∗ . However, it can be shown that indeed this is a
mapping of H onto H ∗ as stated in this
Theorem 1.26 Let H be a Hilbert space, and f an arbitrary functional in H ∗ . Then there exists a unique vector
y ∈ H such that
f (x) = (y, x) ∀x ∈ H
26 CAPÍTULO 1. LINEAR OR VECTOR SPACES
since the mapping (1.30) is norm preserving, we wonder if it is linear, this is not the case because
fy1 +y2 (x) = (y1 + y2 , x) = (y1 , x) + (y2 , x) = fy1 (x) + fy2 (x)
fαy (x) = (αy, x) = α∗ (y, x) = α∗ fy (x)
such that
fy1 +y2 = fy1 + fy2 ; fαy = α∗ fy (1.31)
kfx − fy k = kfx−y k = kx − yk
Theorem 1.27 H ∗ is a Hilbert space with respect to the inner product defined by (f x , fy ) = (y, x).
and Eqs. (1.13, 1.14) says that T → T ∗ is an isometric isomorphism between the spaces of linear operators on H
and H ∗ . We shall see that the natural correspondence between H and H ∗ permits to induce in turn an operator
T † in H from the operator T ∗ in H ∗ . The procedure is the following: starting from a vector y in H we map it into
its corresponding functional fy , then we map fy by the operator T ∗ to get another functional fz then we map this
functional into its (unique) corresponding vector z in H the scheme reads
y → f y → T ∗ fy = f z → z
the whole process is a mapping of y to z i.e. of H into itself. We shall write it as a single mapping of H into itself
in the form
y → z ≡ T †y
the operator T † induced in this way from T ∗ is called the adjoint operator. Its action can be understood in the
context of H only as we shall see. For every vector x ∈ H we use the definition of T ∗ Eq. (1.32) to write
so that
(y, T x) = T † y, x ∀x, y ∈ H (1.33)
we can see that Eq. (1.33) defines T † uniquely and we can take it as an alternative definition of the adjoint operator
associated with T . It can also be verified that T † is indeed an operator, i.e. that it is continuous and linear. We can
also prove the following
1.10. NORMAL OPERATORS 27
Theorem 1.28 The adjoint operation T → T † is a one-to-one onto mapping with these properties
†
(T1 + T2 )† = T1† + T2† , (αT )† = α∗ T † , T † = T
(T1 T2 )† = T2† T1† ;
T †
= kT k ;
T † T
=
T T †
= kT k2
0∗ = 0 , I ∗ = I (1.34)
†
Notice for instance that T † = T implies that
(T y, x) = y, T † x ∀x, y ∈ H (1.35)
[T1 , T2 ] ≡ T1 T2 − T2 T1
There are two reasons to study normal operators (a) From the mathematical point of view they are the most
general type of operators for which a simple structure theory is possible. (b) they contain as special cases the most
important operators in Physics: self-adjoint and unitary operators.
It is clear that if N is normal then αN is. Further, the limit N of any convergent sequence of normal operators
{Nk } is also normal
†
† †
†
N N † − N † N
≤
N N † − Nk Nk
+
Nk Nk − Nk Nk
+
Nk Nk − N † N
=
N N † − Nk Nk†
+
Nk† Nk − N † N
→ 0
Theorem 1.29 The set of all normal operators on H is a closed subset of ß(H) that is closed under scalar multi-
plication
It is natural to wonder whether the sum and product of normal operators is normal. They are not, but we can
establish some conditions for these closure relations to occur
Theorem 1.30 If N1 and N2 are normal operators on H with the property that either commutes with the adjoint
of the other, the N1 + N2 and N1 N2 are normal.
The following are useful properties for the sake of calculations in quantum mechanics
Theorem 1.31 An operator N on H is normal⇔ kN xk =
N † x
∀x ∈ H
Theorem 1.32 If N is a normal operator on H then
N 2
= kN k2
Theorem 1.33 The self-adjoint operators in ß(H) are a closed real linear subspace of ß(H) and therefore a real
Banach space which contains the identity transformation
Unfortunately, the product of self-adjoint operators is not necessarily self-adjoint hence they do not form an
algebra. The only statement in that sense is the following
Theorem 1.34 If T1 , T2 are self-adjoint operators on H, their product is self-adjoint if and only if [T 1 , T2 ] = 0
It can be easily proved that T = 0 ⇔ (x, T y) = 0 ∀x, y ∈ H. It can be seen also that
It should be emphasized that the proof makes explicit use of the fact that the scalars are complex numbers and
not merely the real system.
The following theorem shows that the analogy between self-adjoint operators and real numbers goes beyond the
simple analogy from which the former arise
Theorem 1.37 A positive operator on H is a self-adjoint operator such that (x, T x) ≥ 0, ∀x ∈ H. Further, if
(x, T x) ≥ 0, and (x, T x) = 0 ⇔ x = 0 we say that the operator is positive-definite.
It is clear that the following operators are positive: 0, I, T T † , T † T note also that all the analoguous elements
in the complex plane are non-negative numbers 0, 1, zz ∗ = z ∗ z = |z|2 .
Continuing the analogy between ß(H) and the algebra of complex numbers, we can see that a complex number
can be written as its real and imaginary parts in the form
z + z∗ z − z∗
z = a1 + ia2 ; a1 ≡ , a2 ≡
2 2i
in a similar way we can decompose an arbitrary operator T on H in the form
T + T† T − T†
T = A1 + iA2 ; A1 ≡ ; A2 ≡ (1.42)
2 2i
it is clear that A1 and A2 are self-adjoint so they can be called the “real” and “imaginary” components of the
T operator. If T is self-adjoint its imaginary part is zero as expected. We can see that it is precisely because of the
non commutativity of the self-adjoint operators that non-normal operators exist
Theorem 1.39 If T is an operator on H it is normal ⇔ its real and imaginary parts commute
Unitary operators are thus the analogues of complex numbers of unitary absolute value. In words, unitary
operators are those non-singular operators whose inverses equal their adjoints, they are thus mappings of H onto
itself. The geometric significance of these operators can be clarified with the following theorem
Theorem 1.40 If T is an operator on H, the following conditions are equivalent to one another
T †T = I (1.43)
(T x, T y) = (x, y) ∀x, y ∈ H (1.44)
kT (x)k = kxk ∀x ∈ H (1.45)
In general an operator T with any of the properties (1.43-1.45), is an isometric isomorphism of H into itself,
since T preserves linear operations, the inner product and the norm (and thus the metric). For finite-dimensional
spaces any of them are necessary and sufficient conditions for T to be unitary. Nevertheless, this is not the case
when we treat with infinite-dimensional spaces, let us see an example: consider the operator T in C ∞ given by
which preserves norms but has no inverse. The point is that this is an isometric isomorphism into H but not onto
H (the image does not contain any element of C ∞ with a non-null first component). So in the case of infinite
dimension, the condition to be onto must be added to the conditions (1.43-1.44) for an operator to be unitary.
In words, unitary operators are those one-to-one and onto operators that preserve all structure relevant for a
Hilbert space: linear operations, inner products, norm and metric.
In practice, unitary operators usually appear in Physics as operations that keep the norm of the vectors unaltered
(like rotations in ordinary space), even this is usually the definition utilized in Physics books.
There is another theorem useful in the theory of representations for Hilbert spaces which is also used sometimes
as the definition
Theorem 1.44 If P is a projection (with the definition given in Banach spaces) on H with range M and null space
N then M ⊥ N ⇔ P = P † and in this case N = M ⊥ .
A projection in which its range and null space are perpendicular is called an orthogonal projection. Indeed,
orthogonal projections are the only ones that are relevant in the theory of operators on Hilbert spaces, then we shall
redefine the concept of projection once again
Definition 1.23 A projection on a Hilbert space will be defined as an idempotent, continuous, and self-adjoint
linear transformation. If idempotent, continuous, non-self adjoint linear transformations are of some use, we call
them non-orthogonal projections.
The following facts are easy to show, 0 and I are projections and they are distinct if and only if H 6= {0}. P is
the projection on M ⇔ I − P is the projection on M ⊥ .
We can also see that
x ∈ M ⇔ P x = x ⇔ kP xk = kxk
it can also be seen that P is a positive operator and kP k ≤ 1.
Sometimes occur in Physics that a given operator T on H maps a proper subspace M of H into itself. The
following chain of definitions permits to study this kind of operators
Definition 1.24 Let T be an operator on H, and M a closed vector subspace of H. M is said to be invariant under
T if T (M ) ⊆ M .
In this case the restriction of T to M can be regarded as an operator of M into itself. A more interesting situation
occurs when M and M ⊥ are invariant under T
Definition 1.25 If both M and M ⊥ are invariant under T , we say that M reduces T or that T is reduced by M .
This situation invites us to study T by restricting its domain to M and M ⊥ . The projections provide the most
relevant information for these scenarios
1.14. BASIC THEORY OF REPRESENTATIONS IN A GENERAL FINITE DIMENSIONAL VECTOR SPACE31
Theorem 1.45 A closed vector subspace M is invariant under an operator T ⇔ M ⊥ is invariant under T †
Theorem 1.46 A closed vector subspace M reduces an operator T ⇔ M is invariant under both T and T †
Theorem 1.47 If P is the projection on a closed vector subspace M of H, M is invariant under an operator
T ⇔ TP = PTP
Theorem 1.49 If P and Q are projections on closed linear subspaces M and N then M ⊥ N ⇔ P Q = 0 ⇔ QP = 0
We wonder whether the sum of projections in our present sense is also a projection. This is the case only under
certain conditions
Theorem 1.50 If P1 , .., Pn are projections on closed subspaces M 1 , .., Mn of a Hilbert space H, then the sum
P = P1 + .. + Pn is a projection ⇔the Pi0 s are pairwise orthogonal i.e. Pi Pj = δij Pi , in that case P is the projection
on M = M1 + .. + Mn .
x = x i ui (1.46)
The coefficients xi are called the coordinates of the vector x, relative to the ordered basis {u i }. Linear independence
ensures that the set of coordinates (x 1 , .., xn ) is unique when the basis is ordered in a well-defined way.
A mapping T of V into itself, associates each vector x with another vector y in V
y = Tx
x = T −1 y
T (αx+βy) = αT x + βT y ∀x, y ∈ V
where α and β are complex numbers. The definition of T is intrinsic and does not depend on the particular basis
chosen for the vector space. Notwithstanding, for many practical purposes we define a representation of both the
vectors and operators in a basis {ui }. In that case, we can describe the action of T by a transformation of coordinates
(in the same basis)
yi = Ti (x1 , x2 , . . . , xn ) i = 1, . . . , n
1
If the mapping is only one-to-one but not onto, the inverse still exist but restricted to the vector subspace in which all the vectors
x ∈ V are mapped.
32 CAPÍTULO 1. LINEAR OR VECTOR SPACES
y = T x = T (xi ui ) = xi T ui (1.47)
Eq. (1.47) says that y is a linear combination of the vectors T u i , and the coefficients of the combination
(coordinates) coincide with the coordinates of x in the basis u i . The vectors T ui must be linear combinations
of {uj } and we denote the coefficients of these linear combinations as T ji
vi ≡ T ui = uj Tji (1.48)
the real or complex coefficients Tji can be organized in a square arrangement of the form
T11 T12 · · · T1n
T21 T22 · · · T2n
T≡ . .. ..
.. . ··· .
Tn1 Tn2 · · · Tnn
this square arrangement symbolized as T is called the matrix representative of the linear transformation T relative
to the ordered basis {ui }. Substituting in Eq. (1.47)
yj uj = uj Tji xi
we examine first the product by a scalar, according to the definition (1.7) we have
T T −1 = T −1 T = I
since the representation of the identity is always [I] ij = δij , the corresponding matrix representation of this equation
is
[T ]ik T −1 kj = T −1 ik [T ]kj = δij (1.50)
this equation can be considered as the definition of the inverse of a matrix if it exists. A natural definition is then
Definition 1.26 A matrix which does not admit an inverse is called a singular matrix. Otherwise, we call it a
non-singular matrix.
Since T −1 is unique, the corresponding matrix is also unique, so the inverse of a matrix is unique when it exists.
A necessary and sufficient condition for a matrix to have an inverse is that its determinant must be non-zero.
The algebra of matrices of dimension n × n is called the total matrix algebra A n , the preceding discussion can
be summarized in the following
Theorem 1.51 if B = {u1 , .., un } is an ordered basis of a vector space V of dimension n, the mapping T → [T ]
which assigns to every linear transformation on V its matrix relative to B, is an isomorphism of the algebra of the
set of all linear transformations on V onto the total matrix algebra A n .
Theorem 1.52 if B = {u1 , .., un } is an ordered basis of a vector space V of dimension n, and T a linear trans-
matrix relative to B is [a ij ]. Then T is non-singular ⇔ [aij ] is non-singular and in this case
formation whose
[aij ]−1 = T −1 .
34 CAPÍTULO 1. LINEAR OR VECTOR SPACES
u0 = Au (1.53)
the new set {u0i } is a basis if and only if the matrix A is non-singular. Any vector x can be written in both bases
where ãij ≡ aji indicates the transpose of the matrix A. In matrix form we have
0
u0 = Au , x = Ãx (1.55)
x0 = Ã−1 x (1.56)
observe that if the original basis transform to the new one by a non-singular matrix A (Eq. 1.53), the original
g
coordinates transform to the new ones by the matrix Ã−1 (Eq. 1.56). It is easy to show that Ã−1 = A e is
−1 then A
non-singular if and only if A is non-singular. Hence Eq. (1.56) makes sense whenever A is non-singular.
Defining the transpose of a column matrix as
x̃ = (x1 , x2 , . . . , xn )
1.14.3. Change of the matrix representative of linear transformations under a change of basis
Let us define an intrinsic equation for a linear transformation T of V into itself
y = Tx (1.57)
1.14. BASIC THEORY OF REPRESENTATIONS IN A GENERAL FINITE DIMENSIONAL VECTOR SPACE35
y and x denote here intrinsic vectors while y, x are their representation in coordinates under a given ordered basis.
Starting with the ordered basis {ui } we write equation (1.57) in matrix form
y = Tx (1.58)
for any other ordered basis {u0i } the matrix and coordinate representatives are different and we write them as
y 0 = T 0 x0 (1.59)
we remark that Eqs. (1.58) and (1.59) represents the same intrinsic Equation (1.57).
Since we know the relation between the coordinate representatives given by Eq. (1.56), our goal here is to know
the relation between the matrix representatives of T . Using Eq. (1.56) we find
−1 −1 −1
y0 = Ã−1 y = Ã Tx = Ã TÃÃ x = Ã−1 TÃ Ã−1 x
y 0 = T 0 x0 (1.60)
Definition 1.27 The transform of a matrix A (also called a similarity transformation) by a non singular matrix
S, is defined as A0 = SAS−1 . The matrices A0 and A are said to be equivalent.
Eq. (1.61) shows that the new matrix representation of T (i.e. T 0 ), is equivalent2 to the old matrix representation
T, and the transform of T by Ã−1 is T0 .
We can also consider a transformation S from a vector space V into another V 0
x0 = Sx, x = S −1 x0
For S −1 to be linear, it is necessary that V and V 0 be of the same dimensionality. If a linear operator T is defined in
V , then T and S induce a linear operator in V 0 in the following way let map x0 of V 0 into y0 of V 0 in the following
way
x0 → x = S −1 x0 → y = T x = T S −1 x0 → y0 = Sy = S T S −1 x0
hence the mapping x0 → y0 has been performed as
x0 → y0 = ST S −1 x0
or course, we can define a mapping T 0 of V 0 into itself that makes the work in a single step, thus
T 0 ≡ ST S −1 ; y0 = ST S −1 x0 (1.62)
The transformation given by (1.62) is also a similarity transformation. Although the transformations shown in 1.61
and 1.62 resembles, they have fundamental differences. In 1.61 we are representing the same mathematical object by
taking different bases, and is a matrix equation. By contrast, Eq. (1.62) expresses a relation between two different
mathematical transformations acting on different spaces 3 , and the equation is intrinsic, independent of the basis.
2
Similarity transformations provides an equivalence relation between two matrices. Thus, the expression equivalent matrices becomes
logical. In addition, we see that T and T0 describe the same mathematical object (though in different bases), so that the term equivalence
acquires more sense in this context.
3
It could be argued that both spaces are identical since they have the same dimensionality. This is true only for their properties as
general vector spaces, but not necessarily for any additional algebraic or topological structure on them.
36 CAPÍTULO 1. LINEAR OR VECTOR SPACES
the definition of the inner product is intrinsic (basis independent). The norm of a vector is defined as kxk 2 ≡ (x, x).
This in turn allows us to normalized the vectors, i.e. construct vectors with norm or “length” equal to one by the
rule
xi xi
ui = p = (1.63)
(x, x) kxi k
such that (ui , ui ) = 1. Different inner products defined into the same vector space, lead to different Hilbert spaces.
Another important concept that arises from the inner product is that of orthogonality. An orthonormal set is a set
{xi } with xi ∈ H such that
(xi , xj ) = δij
The theory of representations of a finite dimensional Hilbert space is particularly simple if we realize that in finite
dimension, the Fourier expansion given by Eq. (1.27) becomes a linear combination, the series in (1.28) to calculate
the norm becomes a finite sum, and finally complete orthonormal sets become bases. These are the main ideas that
lead to the theory of representations in a Hilbert space
Our first goal is to find the way in which the coordinates of a given vector are obtained from the inner product.
We first see the form of the coordinates when the basis consists of a complete orthonormal basis. Rewriting the
Fourier expansion (1.27) in finite dimension and using sum over repeated indices we have
x = (ui , x) ui = xi ui
xi = (ui , x)
Let us now see how an arbitrary inner product can be calculated using an orthonormal basis
if the basis {vi } is not an orthonormal set, we can express the scalar product by determining the numbers
the properties of the inner product lead to m ij = m∗ji . This numbers form a matrix that we shall call the metric
matrix. Defining (Aij )† ≡ A∗ji (the adjoint or hermitian conjugate of the matrix A) we find that m = m † , from
the definition of the adjoint matrix we see that (AB) † = B† A† . A matrix that coincides with its adjoint is called
self-adjoint or hermitian. The metric matrix is hermitian. We shall see now that knowing the metric matrix in a
certain basis, we can find any possible inner product
now we substract from x2 its component along u1 to obtain x2 − (u1 , x2 ) u1 and normalized it
x2 − (u1 , x2 ) u1
u2 =
kx2 − (u1 , x2 ) u1 k
it should be emphasized that x2 is not a scalar multiple of x1 so that the denominator above is non-zero. It is clear
that u2 is a linear combination of x1 , x2 and that x2 is a linear combination of u1 , u2 . Therefore, {u1 , u2 } spans the
same subspace as {x1 , x2 }. The next step is to substract from x 3 its components in the directions u1 and u2 to get
a vector orthogonal to u1 and u2 according with Eq. (1.24). Then we normalize the result and find
x3 − (u1 , x3 ) u1 − (u2 , x3 ) u2
u3 =
kx3 − (u1 , x3 ) u1 − (u2 , x3 ) u2 k
once again {u1 , u2 , u3 } spans the same subspace as {x1 , x2 , x3 }. Continuing this way we clearly obtain an orthonor-
mal set {u1 , u2 , .., un , ...} with the stated properties.
Many important orthonormal sets arise from sequences of simple functions over which we apply the Gram-
Schmidt process
In the space L2 of square integrable functions associated with the interval [−1, 1], the functions x n (n = 0, 1, 2, ..)
are linearly independent. Applying the Gram Schmidt procedure to this set we obtain the orthonormal set of the
Legendre Polynomials.
4
An inner product guarantees that the hermitian form constructed with the metric matrix are positive-definite. However, it is usual
in relativity to define a pseudo-metric that leads to non positive definite hermitian forms. Observe that the metric tensor in relativity
has some negative diagonal elements which would be forbidden if they arose from an authentic inner product.
38 CAPÍTULO 1. LINEAR OR VECTOR SPACES
2
In the space L2 of square integrable functions associated with the entire real line, the functions x n e−x /2 (n =
0, 1, 2, ..) are linearly independent. Applying the Gram Schmidt procedure to this set we obtain the normalized
Hermite functions.
In the space L2 associated with the interval [0, +∞), the functions x n e−x (n = 0, 1, 2, ..) are linearly independent.
Orthonormalizing it we obtain the normalized Laguerre functions.
Each of these orthonormal sets described above can be shown to be complete in their corresponding Hilbert
spaces.
Eq. (1.68) gives the way to construct an element of the matrix representative of an operator T on H through the
inner product and using an orthonormal basis.
Now we turn to the problem of finding a relation between the matrix representative of an operator and the
matrix representative of its adjoint. If we have a linear operator T on a Hilbert space, another operator called its
adjoint and denoted as T † exists such that
(T x, y) = x, T † y ∀x, y ∈ V
the matrix representative of T † has a rather simple relation with the matrix representative of T when an orthonormal
basis is used
(T (xi ui ) , yk uk ) = (xi T (ui ) , yk uk ) = x∗i yk (T ui , uk )
and using (1.48) we find
x∗i yk (uj Tji , uk ) = x∗i yk Tji∗ δjk = x∗i yk Tki
∗
= x∗i Teik
∗
yk
on the other hand we have
x, T † y = x∗i T † yk
ik
and taking into account that x and y are arbitrary, we have
T† = Teik
∗ e∗
⇒ T† = T (1.69)
ik
and so the matrix representative of T † is the conjugate transposed of the matrix representative of T . Once again, it is
important to emphasize that it is only valid in an orthonormal basis, it can easily be proved that for an arbitrary basis
described by the metric matrix m, the matrix representation of T † is m−1 T e ∗ m. Remembering that an operator
is hermitian or self-adjoint if it coincides with its adjoint operator (T = T † ) i.e. (T x, y) = (x, T y) , ∀x, y ∈ V,
we conclude that in an orthonormal basis, hermitian operators are represented by hermitian matrices.
In particular, the form to calculate the norm described in (1.65), is usually taken for granted and is easy to
forget that it only applies in orthonormal bases as we can see from (1.67). This is because the coordinates of a
vector with respect to {vi } are not given by Fourier coefficients of the form described in Eq. (1.27)
Now assume that we go from an orthonormal basis u i into another orthonormal basis u0i . We know from theorem
1.42 that a linear operator is unitary if and only if it transforms a complete orthonormal set into another complete
orthonormal set, then if A is a unitary operator we have
δij = (Aui , Auj ) = u0i , u0j = (uk aki , um amj ) = a∗ki amj (uk , um ) = a∗ki amj δkm
δij = a∗ki akj = e
a∗ik akj
1.17. DETERMINANTS AND TRACES 39
A† A = 1
now, if we demand for the matrix to be non-singular it must have a unique inverse such that
A† A = AA† = 1
therefore a matrix that transform an orthonormal basis into another orthonormal basis must satisfy
A† = A−1
by theorem 1.51 these matrices are associated with unitary operators as long as we use an orthonormal basis, thus
it is natural to call them unitary matrices.
a for the conjugate matrix (in which we conjugate each of its elements) we get
Additionally it can be demostrated that the determinant of the product is the product of the determinants
so that −1
A = |A|−1 (1.73)
if any row or column is multiplied by a scalar α, the determinant is also multiplied by the scalar. For example in
three dimensions
α a11 α a12 α a13 a11 α a12 a13 a11 a12 a13
a21 a22 a23 a22 a23
= a21 α a22 a23 = α a21 (1.74)
a31 a32 a33 a31 α a32 a33 a31 a32 a33
in particular
|−A| = (−1)n |A| (1.76)
another important property is the trace of the matrix defined as the sum of its diagonal elements
T rA = aii (1.77)
40 CAPÍTULO 1. LINEAR OR VECTOR SPACES
in this way
T r [AB] = (AB)ii = aik bki = bki aik = (BA)kk = T r [BA]
it is important to see that the trace is cyclic invariant, i.e.
h i h i
T r A(1) A(2) . . . A(n−2) A(n−1) A(n) = T r A(n) A(1) A(2) . . . A(n−2) A(n−1)
h i
= T r A(n−1) A(n) A(1) A(2) . . . A(n−2) (1.79)
and taking into account that the indices (1) , (2) , ... are dumb, any cyclic change is posible. It worths saying that
property (1.78) does not mean that the matrices can be commuted to calculate the trace, for instance for three or
more matrices the trace is not the same for any order of the matrices, only cyclic changes are possible. In that sense,
we should interpret (1.78) as a cyclic change and not as a commutation.
But the most important properties of the traces and determinants is that they are invariant under a similarity
transformation
0
A = BAB−1 = |B| · |A| · B−1 = |B| · |A| · |B|−1
⇒ A0 = |A|
alternatively we can see it by using the cyclic invariance of the trace(see Eq. 1.79), such that
T r A0 = T r BAB−1 = T r B−1 BA = T rA
the invariance of determinants and traces under similarity transformations are facts of major importance because
all representations of a given linear transformation are related each other by similarity transformations. It means
that determinants and traces are intrinsic quantities that can be attributed to the linear trasnformations thus
Definition 1.28 We define the trace and the determinant of a given linear transformation of V into itself by
calculating the trace and determinant of the matrix representative of the linear transformation in any basis.
(A)ik = aik ; i = 1, . . . , m ; k = 1, . . . , n
1.19. THE EIGENVALUE PROBLEM 41
the transpose of this matrix would have dimensions n × m. A column vector arrangement (from now on, we shall
call it simply a “vector”, though it is not neccesarily a vector in all the sense of the word) is a rectangular matrix
of dimension m × 1, its transpose (a row “vector”) is a rectangular matrix of dimensions 1 × m.
Now, it would be desirable to extrapolate the algorithm of square matrices composition to calculate products of
rectangular matrices
cij ≡ aik bkj
It is observed that this extrapolation of the matrix product to the case of rectangular matrices C = AB, can be
defined consistently only if the number of columns of A coincides with the number of rows of B.
In particular, the product of a column vector (m × 1 matrix) with a m × m matrix in the form xA cannot be
defined. Nevertheless, the product of the transpose of the vector (row vector) and the matrix A in the form xeA
can be defined. In a similar fashion, the product Ae
x cannot be defined but Ax can. From these considerations the
quantities Ax and x eA correspond to a new column vector and a new row vector respectively.
From the dimensions of the rectangular matrices we see that
T x = λx (1.80)
a non-zero vector x such that Eq. (1.80) holds, is called an eigenvector of T , and the corresponding scalar λ is
called an eigenvalue of T . Each eigenvalue has one or more eigenvectors associated with it and to each eigenvector
corresponds a unique eigenvalue.
Let us assume for a moment that the set of eigenvalues for a given T is non-empty. For a given λ consider the
(λ)
set M of all its eigenvectors together with the vector 0 (which is not an eigenvector), we denote this vectors as x i .
M is a linear subspace of H, we see it by taking an arbitrary linear combination of vectors in M
(λ) (λ) (λ) (λ)
T αi xi = α i T xi = αi λxi = λ αi xi ⇒
(λ) (λ)
T αi xi = λ αi xi
such that a linear combination is also an eigenvector with the same eigenvalue. Indeed, for Hilbert spaces it can
be shown that M is a closed vector subspace of H. As any vector space, M has many basis and if H is finite
dimensional, complete orthonormal sets are basis. The dimension of M is thus the maximum number of linearly
independent eigenvectors associated with λ. M is called the vector eigenspace generated by the eigenvalue λ. This
discussion induces the following
Definition 1.29 A given eigenvalue λ in Eq. (1.80) is called n−fold degenerate if n is the dimension of the
eigenspace M of H generated by λ. In other words, n is the maximum number of linearly independent eigenvectors
of λ. If n = 1 we say that λ is non-degenerate.
42 CAPÍTULO 1. LINEAR OR VECTOR SPACES
Even for non-degenerate eigenvalues we always have an infinite number of eigenvectors, for if x (λ) is an eigen-
vector, then αx(λ) is also an eigenvector for any scalar α. Eq. (1.80) can be written equivalently as
(T − λI) x = 0 (1.81)
we return to the problem of the existence of eigenvalues, the operator T on C ∞ given by
T {x1 , x2 , ...} = {0, x1 , x2 , ...}
is an operator on a Hilbert space that has no eigenvalues. We confront then the problem of characterizing the type
of operators that admit eigenvalues. In the finite dimensional case, we shall see that the theory of representations
and the fundamental theorem of algebra ensures the existence of eigenvalues for an arbitrary operator.
Theorem 1.53 If two n × n matrices are equivalent i.e. T 0 = ST S −1 then both have the same set of eigenvalues.
In summary, the fundamental theorem of Algebra together with the intrinsic meaning of the set of eigenvalues,
solves the problem of the existence of eigenvalues for linear transformations on finite-dimensional vector spaces.
Definition 1.30 The set of eigenvalues of T is called its spectrum and is denoted by σ (T ).
Theorem 1.54 If T is an arbitrary linear transformation on a finite dimensional complex vector space, the spectrum
of T constitute a non-empty finite subset of the complex plane. The number of elements in this subset does not exceed
the dimension n of the space.
Some other important theorems related with the set of eigenvalues are the following
More information about the spectral resolution of some types of operators in a Hilbert space will be given by
means of the spectral theorem. By now, we turn to the problem of the sets of eigenvectors and its relation with the
canonical problem of matrices.
Eqs. (1.83) are written for each eigenvalue λ k and its corresponding eigenvector X k in the form
writing Eqs. (1.88) in components with respect to the basis {u i } we get (for n dimensions)
n
X
Tij Xjk = λk Xik ⇒
j=1
Xn n
X
Tij Xjk = Xij δjk λk (1.89)
j=1 j=1
44 CAPÍTULO 1. LINEAR OR VECTOR SPACES
in the two previous equations there is no sum over the repeated index k. The X jk element is the j−th component of
the Xk vector. Now, the quantity δjk λk can be associated with a diagonal matrix, in three dimensions this matrix
is written as
λ1 0 0
λ ≡ 0 λ2 0 (1.90)
0 0 λ3
in matrix form Eq. (1.89) reads
TX = Xλ
multiplying on left by X−1 we find
X−1 TX = λ (1.91)
it corresponds to a similarity transformation acting on T. Note that the matrix X built from the eigenvectors is the
transformation matrix (comparing with 1.86 we have X ≡ A). e We see then that matrix T is diagonalized by X by
means of a similarity transformation and the elements of the diagonal correspond to the eigenvalues (λ k associated
with the column vector Xk of the matrix X in Eq. 1.87). When there are some degenerate eigenvalues i.e. some
of them acquire the same value, it is not always possible to diagonalize the matrix T. It is because in that case,
the eigenvectors that form the matrix X are not necessarily linearly independent. If any given column vector of the
matrix is linearly dependent with the others, the determinant of X is zero and X −1 does not exist.
On the other hand, when diagonalization is possible, the determinant and the trace of T can be calculated taking
into account that such quantities are invariant under a similarity transformation, therefore
det T = det X−1 TX = det λ = λ1 λ2 . . . λn (1.92)
T rT = T r X−1 TX = T rλ = λ1 + λ2 + . . . + λn (1.93)
so that the determinant and the trace of a diagonalizable matrix are simply the product and sum of its eigenvalues
respectively.
In summary, a canonical form of a given matrix can be obtained as long as the eigenvectors of the matrix form
a basis, the question is now open for the conditions for the eigenvectors to form a basis, and this is part of the
program of the spectral theorem.
x = x1 + .. + xm ; xi ∈ Mi ; (xi , xj ) = 0 f or i 6= j (1.94)
T x = T x1 + .. + T xm = λ1 x1 + .. + λm xm (1.95)
this shows the action of T on each element of H in an apparent pattern from the geometrical point of view. It is
convenient to write it in terms of projections on each M i . Taking into account that Mj ⊆ Mi⊥ for each i and for
every j 6= i we obtain from Eq. (1.94) that
Pi x = x i
1.20. NORMAL OPERATORS AND THE SPECTRAL THEOREM 45
Ix = x = x1 + .. + xm = P1 x + .. + Pm x
Ix = (P1 + .. + Pm ) x ; ∀x ∈ H
therefore
m
X
I= Pi (1.96)
i=1
T x = λ1 x1 + .. + λm xm = λ1 P1 x + .. + λm Pm x
T x = (λ1 P1 + .. + λm Pm ) x ; ∀x ∈ H
hence
m
X
T = λi Pi (1.97)
i=1
Eq. (1.97) is called the spectral resolution of the operator T . In this resolution it is to be understood that all the λ 0i s
are distinct and that the Pi0 s are non-zero projections which are pairwise orthogonal and satisfy condition (1.96).
It can be shown that the spectral resolution is unique when it exists.
Now, we look for the conditions that the operator must satisfies to be decomposed as Eq. (1.97). From Eq. (1.97)
we see that
T † = λ∗1 P1 + . . . + λ∗m Pm (1.98)
and multiplying (1.97) with (1.98) and using the fact that the P i0 s are pairwise orthogonal we have
m
! m ! m Xm m Xm
X X X X
TT† = λi Pi λ∗k Pk = λi λ∗k Pi Pk = λi λ∗k Pi2 δik
i=1 k=1 i=1 k=1 i=1 k=1
m
X
TT† = |λk |2 Pk (1.99)
k=1
and the operator must be normal. We have proved that I)→II)→III). To complete the proof we should show that
III)→I) i.e. that every normal operator T on H satisfies conditions I).
This task is accomplished by the following chain of theorems
Theorem 1.61 If T is normal, two eigenvectors of T corresponding to different eigenvalues are orthogonal. In
particular this is valid for self-adjoint and unitary operators.
Assume that T = T † , since for a given eigenvector x there is a unique eigenvalue λ we see from theorem 1.57
that λ = λ∗ so the corresponding eigenvalues are real. Now assume for a normal operator T that σ (T ) is a subset
of the real line, using the spectral resolution of T † Eq. (1.98) we find
T † = λ∗1 P1 + . . . + λ∗m Pm = λ1 P1 + . . . + λm Pm = T
we have the following
Theorem 1.62 Let T be a normal operator on a Hilbert space of finite dimension H with distinct eigenvalues
{λ1 , .., λm }, then T is self-adjoint ⇔each λi is real.
It is important to emphasize that the hypothesis of real eigenvalues leads to the self-adjointness of the operator
only if normality is part of the hypothesis (because of the use of the spectral thoerem). It does not discard the
possibility of having non-normal operators with real spectrum, in that case such operators would not be self-adjoint.
In addition, it worths remembering that self-adjoint operators where constructed as the analogous of “the real line
subset” in the algebra of operators. So the fact that its eigenvalues are all real is a quite expected result.
An special type of self-adjoint operators are the positive operators for which
(x, T x) ≥ 0 ∀x ∈ H (1.101)
applying the spectral resolution of T on x i ∈ Mi , we have
m
X m
X
T xi = λk Pk xi = λk xi δik = λi xi
k=1 k=1
Theorem 1.63 Let T be a normal operator on a Hilbert space of finite dimension H with distinct eigenvalues
{λ1 , .., λm }, then T is positive ⇔ λi ≥ 0.
Now, for a normal operator T , a necessary and sufficient condition for T to be unitary is that T † T = I (in finite
dimension is not necessary to show that T T † = I) using Eq. (1.99) the condition for unitarity is
m
X m
X m
X
T †T = I ⇒ |λk |2 Pk = I ⇒ |λk |2 Pk = Pk
k=1 k=1 k=1
so that |λi | = 1. This procedure also shows that if T is a normal operator in which |λ i | = 1 for each i, then T T † = I
and T is unitary, then we have
1.20. NORMAL OPERATORS AND THE SPECTRAL THEOREM 47
Theorem 1.64 Let T be a normal operator on a Hilbert space of finite dimension H with distinct eigenvalues
{λ1 , .., λm }, then T is unitary ⇔ |λi | = 1 for each i.
Now, remembering that unitary operators where constructed as the analogous of “the unitary circle subset” in
the algebra of operators, the fact that its eigenvalues lie in the unitary circle of the complex plane is pretty natural.
Now we are prepared to discuss the canonical problem for normal matrices. We denote n i the dimension of each
eigenspace Mi it is clear that
n1 + n2 + ... + nm = n
i
Mi contains
i ni i linearly
independent vectors x1 , .., xini that can be orthonormalized by a Gram Schmidt process
to say u1 , .., uni . If we do this for each Mi the set form by the union of these orthonormal sets
i
{u} ≡ ∪m i
i=1 u1 , .., uni
is clearly an orthonormal set because all vectors corresponding with different M i0 s are orthogonal according to
theorem 1.58. In addition, since the M i0 s span H according to theorem 1.60 this orthonormal set is complete and
therefore a basis. Therefore, for any normal operator T of H we can always form an orthonormal complete set of
eigenvectors. If we use this orthonormal complete eigenvectors to form the matrix of diagonalization Eq. (1.87) we
see that the matrix obtained is a unitary matrix, it is clear that for this matrices the inverse always exists since
λi 6= 0 for each i and therefore the diagonalization can be carried out. Then we have the following
Theorem 1.65 The diagonalization of a normal matrix T can be performed by a similarity transformation of the
form T0 = U TU−1 where U is a unitary matrix.
This is of particular interest because it means that given a matrix representative of T in a basis consisting
of a complete orthonormal set, there exists another complete orthonormal set for which the matrix representative
acquires its canonical form. Further, it is easy to see that the canonical form of a normal matrix is given by
λ1
..
.
λ 1
λ2
..
.
λ2
..
.
λm
. .
.
λm
where the elements out of the diagonal are zero and each λ i is repeated ni times (λi is ni −fold degenerate). It is
easily seen that the matrix representation of P i in this orthonormal basis is
0n1 ×n1 0 0
1n1 ×n1 0 0 0
P1 = ; P2 = 0 1n2 ×n2 0 ; Pm =
0 0 0 1nm ×nm
0 0 0
and the matrix representation of the spectral decomposition becomes clear.
1.20.1. A qualitative discussion of the spectral theorem in infinite dimensional Hilbert spaces
The rigorous discussion of the infinite dimensional case for the spectral theorem is out of the scope of this survey.
We shall only speak qualitatively about the difficulties that arises when we go to infinite dimension. For simplicity
we assume that A is a self-adjoint operator, the spectral resolution is given by
m
X
A= λi Pi
i=1
48 CAPÍTULO 1. LINEAR OR VECTOR SPACES
since the eigenvalues are real we can order them in a natural way in the form λ 1 < λ2 < .. < λm and we use the
Pi0 s to define new projections
P λ0 = 0
P λ1 = P1
P λ2 = P1 + P2
....
P λm = P1 + ... + Pm = I
A = λ1 P1 + λ2 P2 + ... + λm Pm
= λ1 (Pλ1 − Pλ0 ) + λ2 (Pλ2 − Pλ1 ) + ... + λm Pλm − Pλm−1
Xm
A = λi Pλi − Pλi−1
i=1
if we define
∆Pλi ≡ Pλi − Pλi−1
we can rewrite the decomposition of A as
m
X
A= λi ∆Pλi
i=1
which suggest an integral representation Z
A= λ dPλ (1.102)
in this form, the spectral decomposition of a self-adjoint operator is valid for infinite dimensional Hilbert spaces.
For normal operators we have a similar pattern
Z
N = λ dPλ (1.103)
The first problem to carry out this generalization is that an operator on H need not have eigenvalues at all. In
this general case the spectrum of T is defined as
σ (T ) = {λ : T − λI is singular}
when H is finite dimensional, σ (T ) consists entirely of eigenvalues. In the infinite dimensional case we only can say
that σ (T ) is non-empty, closed and bounded. Once this difficulty is overcome we should give a precise meaning to
the integrals (1.102, 1.103) and prove the validity of those relations. We shall use this decomposition in a practical
form without any attempt of rigorous proof.
It worths emphasizing that the existence of eigenvalues in the finite dimensional case came from the fundamental
theorem of algebra, which in turn came from the fact that the characteristic equation of a finite dimensional matrix
is a polynomial equation. An extension to infinite dimension clearly does not lead to a polynomial equation.
Definition 1.31 A given self-adjoint operator A on H is called an observable, if there exists a complete orthonormal
set of eigenvectors of A.
50 CAPÍTULO 1. LINEAR OR VECTOR SPACES
Theorem 1.66 If two operators A and B commute and if x is an eigenvector of A, then Bx is also an eigenvector
of A with the same eigenvalue. If λ is non-degenerate x is also an eigenvector of B. If λ is n−fold degenerate, the
eigensubspace Mλ is invariant under B.
A (Bx) = λ (Bx)
which proves that Bx is an eigenvector of A with eigenvalue λ. Observe that if λ is non-degenerate all its eigenvectors
are “colinear” hence Bx must be colinear with x i.e. Bx = cx and x is also an eigenvector of B.
On the other hand, if λ is n−fold degenerate, we can only say that Bx lies in the n dimensional eigensubspace
Mλ of A. In other words, if x ∈ Mλ then Bx ∈ Mλ
Another way to express the previous theorem is
Theorem 1.67 If two operators A and B commute, every eigensubspace of A is invariant under B.
Theorem 1.68 If two normal operators A and B commute, and if x 1 , x2 are two eigenvectors of A with different
eigenvalues, then (x1 , Bx2 ) = 0
By hypothesis we have
Ax1 = λ1 x1 ; Ax2 = λ2 x2
but from theorem 1.66 Bx2 is an eigenvector of A with eigenvalue λ 2 . Now from theorem 1.61 since λ1 6= λ2 then
Bx2 is orthogonal to x1 and the theorem is proved.
The previous theorems do not use the concept of observable, but the following one does
Theorem 1.69 Let A and B be two observables in a Hilbert space H. Then A and B commute⇔one can construct
a complete orthonormal set in H with eigenvectors common to A and B.
where gn is the degree of degeneration of λn . For n 6= n0 the eigenvectors are orthogonal and for n = n 0 and i 6= i0
we can always orthonormalized the vectors in each eigensubspace of A, so that
i j
un , uk = δnk δij
let us write H as a decomposition of the eigenspaces of A (taking into account that A is an observable)
H = M1 ⊕ M2 ⊕ M3 ⊕ ...
there are two cases. For each one dimensional M k (each non-degenerate λk ) all vectors in Mk are “colinear” and
they are also eigenvectors of B.
In the other case, gp > 1 then Mp is gp dimensional. We can only say that Mp is invariant under B. Consider
the restriction of A and B to the subspace M p . Since the vectors uip in Mp are eigenvectors of A, the restriction of
(p)
A to Mp has a matrix representative Aij of the form
(p)
Aij = vpi , Avpj = vpi , λp vpj = λp vpi , vpj = λp δij
1.23. COMPLETE SETS OF COMMUTING OBSERVABLES (C.S.C.O.) 51
thus the matrix representation of A(p) is λp I for any orthonormal set complete in M p (not neccesarily the original).
Now let us see the matrix representative of the restriction B (p) of B on Mp , writing this representation in our
original orthonormal set
(p)
Bij = uip , Bujp
since B is a self-adjoint operator this matrix is self-adjoint, and according to theorem 1.65 they can always be
diagonalized by a unitary transformation, which in turn means that there exists an orthonormal set vpi in Mp for
which the matrix representative of B (p) is diagonal, hence
(p) (p)
Bij = vpi , Bvpj = Bi δij
which means that the new orthonormal set complete in M p consists of eigenvectors of B
(p)
Bvpi = Bi vpi
and since Mp contains only eigenvectors of A, it is clear that vpi is an orthonormal set complete in Mp that
are common eigenvectors of A and B. Proceeding in this way with all eigensubspaces of A with more than one
dimension, we obtain a complete orthonormal set in H in which the elements of the set are common eigenvectors of
A and B.
It is important to emphasize that for a given M p the orthonormal set chosen a priori does not in general consist
of eigenvectors of B, but it is always possible to obtain another orthonormal set that are eigenvectors of B and by
definition they are also eigenvectors of A.
Now let us prove that if A and B are observables with a complete orthonormal set of common eigenvectors then
they commute. Let us denote the complete orthonormal set of common eigenvectors as u in,p then
therefore
[A, B] uin,p = 0
since uin,p form a complete orthonormal set, then [A, B] = 0.
It is also very simple to show that if A and B are commuting observables with eigenvalues a n and bp and with
common eigenvectors uin,p then
C =A+B
is also an observable with eigenvectors u in,p and eigenvalues cn,p = an + bp .
In theorem 1.69 we constructed the complete orthonormal set common to A and B by solving the eigenvalue
equation of B within each eigensubspace defined by A. For A and B to constitute a C.S.C.O. it is necessary and
sufficient that within each Mn the gn eigenvalues of B be distinct6 . In this case, since all eigenvectors v ni in each
(n)
Mn have the same eigenvalue an of A, they will be distinguished by the g n distinct eigenvalues bi associated with
these eigenvectors of B. Note that it is not necessary that the eigenvalues of B be non-degenerate, we can have two
(or more) equal eigenvalues of B associated with two (or more) distinct eigensubspaces M n and Mk of A. We only
require not to have degeneration of the eigenvalues of B within a given eigensubspace M n of A. Indeed, if B were
non-degenerate it would be a C.S.C.O. by itself.
On the other hand, if for at least one pair {a n , bp } there exist two or more linearly independent eigenvectors
common to A and B they are not a C.S.C.O.. Let us add a third observable C that commutes with both A and B,
and proceeds as above. When to the pair {a n , bp } corresponds only one eigenvector common to A and B, then it is
automatically an eigenvector of C as well. On the contrary, if the eigensubspace M n,p is gn,p dimensional, we can
construct within it, an orthonormal set of eigenvectors of C. Proceeding in this way with each M n,p we can construct
a complete orthonormal set with eigenvectors common to A, B, C. These three observables are a C.S.C.O. if this
complete orthonormal set is unique (except for multiplicative phase factors). Once again, if M n,p has the eigenvectors
(n,p)
uin,p common to A and B this occurs if and only if all g n,p eigenvalues of C denoted as ck are distinct. As before,
C can be degenerate, but as long as degenerate eigenvalues are not repeated within a single eigenspace M n,p of A
and B. Therefore, a given triple of eigenvalues {a n , bp , ck } of A, B, C has a unique common eigenvector within a
multiplicative factor. If two or more linearly independent eigenvectors common to A, B, C can be constructed for a
given set {an , bp , ck }, we can add a fourth observable D that commute with those three operators and so on.
Definition 1.32 A set of observables {A, B, C, ..} is called a complete set of commuting observables (C.S.C.O.) if
(i) All observables commute pairwise, (ii) specifying the set of eigenvalues {a n , bp , ck , ..} of the observables determines
a unique (within phase factors) complete orthonormal set of eigenvectors common to all the observables.
Definition 1.33 A set of observables {A, B, C, ..} is called a complete set of commuting observables (C.S.C.O.) if
there is a unique complete orthonormal set (within phase factors) of common eigenvectors.
It is obvious that if a given set is a C.S.C.O. we can add any observable that commutes with the observables
of the set and the new set is also a C.S.C.O. However, for most of our purposes we shall be interested in “minimal
C.S.C.O.” in the sense that by removing any observable of the set, the new set is not complete.
If a given set {A1 , .., An } of observables is a C.S.C.O., an eigenvector associated with a set {a k1 , .., akn } determines
a unique common normal eigenvector (within a phase factor) so it is natural to denote the vector as u ak1 ,ak2 ,akn . We
shall see later that in quantum mechanics a global phase has no Physical information. Therefore, all normal vectors
associated with {ak1 , .., akn } have the same Physical information, this fact enhance the qualification of “unique”
for these vectors, although they are not unique from the mathematical point of view.
usually call the dual space of H. The vectors in our Hilbert space are called kets, while the correponding elements
in the dual space (the functionals) are called bras.
In addition the Hilbert space we work with, is a separable space so that its dimension is countable (countably
infinite). We shall resort however to some hyperbases which are of continuous cardinality, the elements of these
hyperbases do not belong to our Hilbert space. Consequently, the elements of the hyperbasis will not be physical
states, but we shall call them continuous basis. Nevertheless, they will be very useful for practical calculations.
In addition there will be a change of notation to facilitate the mathematical calculations, it is called Dirac
notation
the integration extends over all space. However, in certain cases we could assume that the particle is in a given
confined volume and the integral will be restricted to such a volume.
The discussion above leads to the fact that the space of Physical states of one particle should be described by
a square-integrable wave function. The state space is then the Hilbert space L 2 of the square-integrable functions
in a given volume. For a system of several particles we will have a space with similar features, but by now we will
concentrate on the space that describes a single particle.
For several reasons we cannot specified in general the state space of a particle. First of all, several physical
considerations can lead us to the fact that the particl is confined to a certain bounded volume. For instance, in
one dimension it is not the same the space of functions that are square integrable in the whole real line, as (say)
the space of functions that are square integrable in a bounded interval. In other words, different regions of square
integrability leads us to different L 2 spaces. On the other hand, it is usual to demand as well as square integrability,
that the functions accomplish additional features of regularity. For example, to be defined all along the interval, or
to be continuous, derivable, etc. The specific conditions depend on the particular context, and they are required to
define the state space completely.
For example, it has no physical meaning to have a function that is discontinuous at a given point since no
experiment can measure a real phenomenon at scales below certain threshold. We could then be tempted to say
that we must demand the functions to be continuous. However, this is not necessarily the case since some non-
physical functions could help us to figure out what is happening. Let us take some familiar examples in classical
mechanics, it is usual in electrostatics to assume the presence of a surface charge, which leads to a discontinuity
in the electric field, in the real world a charge is distributed in a very thin but finite layer and the discontinuity is
replaced by a very slopy curve. Indeed, a surface charge is equivalent to an infinite volume density, but we have seen
that this assumption provides a simple picture of many electrostatic phenomena though it is not a real physical
state. Classical waves represented by a single plane wave in optics are other good examples, since it is not possible
to have a real wave being totally monochromatic (a physical state is always a superposition of several plane waves),
but many of the wave phenomena are easier to study with these non physical states, and indeed many real physical
phenomena such as the laws of geometric optics are predicted by using them.
In summary, depending on our purposes (and attitudes) we could demand to have only physical states or to
decide to study some non-physical ones that are obtain when some physical parameters are settle at extreme values.
Quantum mechanics is not the exception for this strategy, and our assumptions on the functions to work with,
affects the definition of the Hilbert space of states that we should use as a framework.
Hence, given the volume V in which the particle can stay, we say that our space of states is a subspace of the
Hilbert space L2 of the square integrable functions in the volume V . We denote by z the subspace of states in which
z ⊆ L2 . For this subspace to be a Hilbert space, it must be closed (for completeness to be maintained).
54 CAPÍTULO 1. LINEAR OR VECTOR SPACES
it can be shown that this integral always converges if ϕ and ψ belong to L 2 . We should check that this definition
accomplishes the properties of an inner product, the properties arise directly from the definition
(ϕ, λ1 ψ1 + λ2 ψ2 ) = λ1 (ϕ, ψ1 ) + λ2 (ϕ, ψ2 ) ; (λ1 ϕ1 + λ2 ϕ2 , ψ) = λ∗1 (ϕ1 , ψ) + λ∗2 (ϕ2 , ψ)
(ϕ, ψ) = (ψ, ϕ) ∗ ; (ψ, ψ) ≡ kψk2 ≥ 0 and (ψ, ψ) = 0 ⇔ ψ = 0
let us mention some important linear oprators on functions ψ (r) ∈ z.
The parity opeartor defined as
Πψ (x, y, z) = ψ (−x, −y, −z)
the product operator X defined as
Xψ (x, y, z) = xψ (x, y, z)
and the differentiation operator with respect to x denoted as D x
∂ψ (x, y, z)
Dx ψ (x, y, z) =
∂x
it is important to notice that the operators X and D x acting on a function ψ (r) ∈ z, can transform it into a
function that is not square integrable. Thus it is not an operator of z into z nor onto z. However, the non-physical
states obtained are frequently useful for practical calculations.
The commutator of the product and differentiation operator is of central importance in quantum mechanics
∂ ∂ ∂ ∂
[X, Dx ] ψ (r) = x − x ψ (r) = x ψ (r) − [xψ (r)]
∂x ∂x ∂x ∂x
∂ ∂
= x ψ (r) − x ψ (r) − ψ (r)
∂x ∂x
[X, Dx ] ψ (r) = −ψ (r) ∀ψ (r) ∈ z
therefore
[X, Dx ] = −I (1.104)
1.26. DISCRETE ORTHONORMAL BASIS 55
the expansion of any wave function (vector) of this space is given by the Fourier expansion described by Eq. (1.27)
X Z
ψ (r) = ci ui (r) ; ci = (ui , ψ) = d3 r u∗i (r) ψ (r) (1.105)
i
using the terminology for finite dimensional spaces we call the series a linear combination and c i are the components
or coordinates, which correspond to the Fourier coefficients. Such coordinates provide the representation of ψ (r) in
the basis {ui (r)}. It is very important to emphasize that the expansion of a given ψ (r) must be unique for {u i } to
be a basis, in this case this is guranteen by the form of the Fourier coefficients.
Now if the Fourier expansion of two wave functions are
X X
ϕ (r) = bj uj (r) ; ψ (r) = ci ui (r)
j i
The scalar product and the norm can be expressed in terms of the components or coordinates of the vectors according
with Eqs. (1.64, 1.65) X X 2
(ϕ, ψ) = b∗i ci ; (ψ, ψ) = |ci | (1.106)
i i
and the matrix representation of an operator T in a given orthonormal basis {u i } is obtained from Eq. (1.68)
Tij ≡ (ui , T uj )
mencionaremos incidentalmente que con esta distribución es posible escribir una densidad de carga (o masa)
puntual (ubicada en r0 ) como una densidad volumétrica equivalente
ρ (r) = qδ r0 − r0 (1.107)
esta densidad reproduce adecuadamente tanto la carga total como el potencial y el campo que genera, una vez que
se hagan las integrales apropiadas.
7 ∞ si r = 0 R
Es usual definir la “función” delta de Dirac como δ (r) = y δ (x) dx = 1. Esta definición se basa en una
0 si r = 6 0
concepción errónea de la distribución delta de Dirac como una función. A pesar de ello, hablaremos de ahora en adelante de la función
delta de Dirac para estar acorde con la literatura.
56 CAPÍTULO 1. LINEAR OR VECTOR SPACES
Hay varias sucesiones de distribuciones que convergen a la función Delta de Dirac, una de las mas utilizadas es
la sucesión definida por
n 2 2
fn (x − a) = √ e−n (x−a) (1.108)
π
se puede demostrar que al tomar el lı́mite cuando n → ∞ se reproduce la definición y todas las propiedades básicas
de la distribución delta de Dirac. Nótese que todas las distribuciones gaussianas contenidas en esta sucesión tienen
área unidad y están centradas en a. De otra parte, a medida que aumenta n las campanas gaussianas se vuelven
más agudas y más altas a fin de conservar el área, para valores n suficientemente altos, el área se concentra en
una vecindad cada vez más pequeña alrededor de a. En el lı́mite cuando n → ∞, toda el área se concentra en un
intervalo arbitrariamente pequeño alrededor de a.
Algunas propiedades básicas son las siguientes:
R∞
1. −∞ δ (x − a) dx = 1
R∞
2. −∞ f (x) ∇δ (r − r0 ) dV = − ∇f |r=r0
1
3. δ (ax) = |a| δ (x)
4. δ (r − r0 ) = δ (r0 − r)
5. xδ (x) = 0
1
6. δ x2 − e 2 = 2|e| [δ (x + e) + δ (x − e)]
Vale enfatizar que debido a su naturaleza de distribución, la función delta de Dirac no tiene sentido por sı́ sola,
1
sino únicamente dentro de una integral. Por ejemplo cuando decimos que δ (ax) = |a| δ (x), no estamos hablando de
una coincidencia numérica entre ambos miembros, sino de una identidad que se debe aplicar al espacio vectorial de
funciones en que estemos trabajando, es decir
Z c Z c
1
f (x) δ (ax) dx = f (x) δ (x) dx ∀ f (x) ∈ V y ∀ a ∈ R
b b |a|
Estrictamente, el mapeo también se puede hacer sobre los números complejos con propiedades análogas. En este
mismo espı́ritu, es necesario aclarar que la densidad volumétrica equivalente de una carga puntual (y todas las
densidades equivalentes que se pueden formar con la delta) es realmente una distribución. Por ejemplo, la densidad
descrita por (1.107), solo tiene realmente sentido dentro de integrales que generan la carga total, el potencial o el
campo. Las densidades ordinarias son funciones, pero las densidades equivalentes son distribuciones. En sı́ntesis, lo
que se construye con la densidad volumétrica equivalente es una distribución que me produzca el mapeo adecuado
para reproducir la carga total, el potencial y el campo.
En más de una dimensión la delta se convierte simplemente en productos de deltas unidimensionales, la propiedad
R (n)
δ (x) dn x = 1, aplicada a n dimensiones, nos dice que la delta no es adimensional, sus dimensiones son de
x−n .
De momento, el uso que le daremos a la delta estará relacionado con la completez del sistema orthonormal
que usemos. Nótese que en dimension finita la completez se comprueba simplemente asegurándonos de tener igual
número de vectores linealmente independientes que la dimensión del espacio. En espacios de dimension infinita en
cambio podrı́amos tener un conjunto infinito contable que no fuera completo y que se vuelve completo al agregarle
otro conjunto finito o infinito contable, pues en tal caso la cardinalidad no cambia. En dimensión infinita un conjunto
ortonormal puede tener la cardinalidad de la dimensión ortogonal del espacio y sin embargo no ser completo. Es
por esto que la prueba de completez es particularmente importante.
donde la integral con lı́mites A y B significa una integral triple de volumen. Por otro lado
Z B
ψ (r) = ψ r0 δ r − r 0 d3 r0
A
Igualando las dos últimas expresiones, y teniendo en cuenta que ψ (r 0 ) es arbitraria se obtiene
X
u∗n r0 un (r) = δ r − r0 (1.109)
n
retrocediendo en nuestros pasos vemos que la relación anterior nos garantiza que cualquier función arbitraria dentro
del espacio se puede expandir en términos del conjunto {u n (r)}. A su vez vemos que la expansion para una base
ordenada dada {un (r)} es única, lo cual se obtiene gracias a la independencia lineal del conjunto. Por tanto a la
Ec. (1.109), se le conoce como relación de completez.
We shall study several complete sets that consequently accomplish property (1.109). The proof of completeness
of these sets is however out of the scope of this manuscript.
then we have
Z d Z d
(uk0 , ψ) = uk 0 , c (k) u (k, r) dk = c (k) (uk0 , uk ) dk
c c
Z d
= c (k) δ k − k 0 dk = c k 0
c
8
From now on we shall say continuous bases, on the understanding that they are indeed hyperbases.
58 CAPÍTULO 1. LINEAR OR VECTOR SPACES
from which the fourier coefficients of the continuous expansion are evaluated as
c k 0 = (uk0 , ψ) (1.111)
when the Fourier coefficients are associated with continuous linear combinations (integrals) they are usually called
Fourier transforms. In this case, a vector is represented as a continuous set of coordinates or components, where
the components or coordinates are precisely the Fourier transforms.
Therefore, in terms of the inner product, the calculation of the Fourier coefficients in a continuous basis (Fourier
transforms) given by Eq. (1.111) coincides with the calculation of them with discrete bases Eq. (1.105). Eq. (1.111)
in turn guarantees that the expansion for a given ordered continuous bases is unique 9 . Those facts in turn depends
strongly on our definition of orthonormality in the continuous regime Eq. (1.110) showing the consistency of such a
definition. After all, we should remember that hyperbases are constructed as useful tools and not as physical states,
in that sense we should not expect a “truly orthonormality relation” between them 10 .
Let us see the closure relation
Z d Z d
ψ (r) = c (k) u (k, r) dk = (uk , ψ) u (k, r) dk
c c
Z d Z B
∗ 0
0
3 0
ψ (r) = u k, r ψ r d r u (k, r) dk
c A
Z B Z d
ψ (r) = u∗ k, r0 u (k, r) dk ψ r0 d3 r0
A c
which defines us the closure relation for a continuous basis {u (k, r)}.
From the discussion above, the closure relations for discrete or continuous basis can be interpreted as “rep-
resentations” of the Dirac delta function. Similar situation occurs with the orthonormality relation but only for
continuous bases.
It worths emphasizing at this point that a given representation of the delta in a given space cannot be applied to
another space. For example, it is Ppossible to have a r−dimensional vector space of functions V 1 with a basis {vn (r)},
that defines a closure relation rn=1 vn∗ (r0 ) vn (r) = δ1 (r − r0 ), let us think about another r + k dimensional vector
space denoted by V2 and such that V2 ⊃ V1 , such that Pr+ka basis {um } of V2 includes the previous basis plus other
linearly independent vectors; the closure relation is: n=1 u∗n (r0 ) un (r) = δ2 (r − r0 ). What is the difference between
δ1 (r − r0 ) and δ2 (r − r0 )?, the answer lies in the distribution nature of the badly called Dirac delta function; the
fundamental property of this distribution tells us that for all functions ψ (r 0 ) that belongs to V1 we have that
Z " # Z
B X B
0
ψ (r) = ψ r vn∗ 0
r vn (r) d r = 3 0
ψ r0 δ1 r − r 0 d3 r0
A n A
however, if the function ψ (r) does not belong to V 1 but it belongs to V2 then δ1 (r − r0 ) is not an adequate distribution
to represent this function. This is a general property of the distributions, since they are defined solely by means of
the way in which they map the functions of a specific vector space into the scalars. A representation of the Dirac
delta (and in general of any distribution) is linked to a very specific vector space of functions.
9
Remember that for a given set of vectors to constitute a basis, it is important not only to be able to expand any vector with the
elements of the set, it is also necessary for the expansion of each vector to be unique. In normal basis (not hyperbasis) this is guaranteed
by the linear independence, in our continuous set it is guranteed by our definition of orthonormality in such a set.
10
It is clear for example that with r = r0 the “orthonormality” relation diverge, so it is not a normalization in the mathematical sense.
1.30. INNER PRODUCT AND NORM IN TERMS OF THE COMPONENTS OF A VECTOR IN A HYPERBASES59
now the idea is to write the scalar product of them in terms of the continuous set of components of each vector i.e.
in terms of their Fourier transforms c (k) and b (k 0 ). The scalar product is
Z B Z d Z d Z B
3 ∗ 0 ∗ 0
(ϕ, ψ) = d r ϕ (r) ψ (r) = dk dk b k c (k) d3 r u∗ k 0 , r u (k, r)
A c c A
Eqs. (1.113, 1.114) are clearly the continuous analogs of Eq. (1.106) for discrete basis.
In summary, the basic relations obtained in discrete bases (inner products, norms, fourier coefficients, orthonor-
mality, completeness etc.) possses the same structure in continuous bases but with the following replacements
X Z
i(discrete) ↔ k(continuous) , ↔ dk , δij ↔ δ k − k 0
i
where p is the continuous index that labels the different vectors of the basis. Indeed, p represents three continuous
indices px , py , pz . By now ~ is simply a mathematical constant, but it will become highly relevant in Physics. We
consider the space of square integrable functions over the whole space, all integrals are undestood to be triple
integrals. The continuous linear combination of a given square integrable function is given by
3/2 Z ∞
1
ψ (r) = d3 p ψ̄ (p) eip·r/~
2π~ −∞
it is clear that ψ̄ (p) provides the continuous set of coordinates of the vector ψ (r) under our continuous basis.
They are thus the Fourier transforms of ψ (r) with respect to the basis of plane waves. It is useful to define
by comparing it with Eq. (1.112), we see that (1.117) expresses the completeness relation for the continuous basis
{vp } in the space of functions that are square-integrable in the whole physical space. The orthonormality relation
can also be obtained from the property (1.116) but with the assignments k → zr and u → p − p 0
Z ∞
1 0
d3 r e−i ~ (p−p ) = δ 3 p0 − p = δ 3 p − p0
r
v p , v p0 = 3 (1.118)
(2π~) −∞
by using p = p0 in Eq. (1.118) it is clear that kvp k2 = (vp , vp ) is divergent. Thus, the plane waves are not square-
integrable in the whole space. Therefore, the elements of this continuous basis do not belong to the Hilbert space
under study.
{ξr0 (r)} represents the set of delta functions centered at each of the points r 0 of the whole space. These functions
are not square-integrable so {ξr0 (r)} ∈/ z. Nevertheless, the following relations are valid for functions that belong
to z
Z
ψ (r) = d3 r0 ψ (r0 ) δ (r − r0 )
Z
ψ (r0 ) = d3 r ψ (r) δ (r0 − r)
Eq. (1.120) gives ψ (r) ∈ z as a continuous linear combination of the set {ξ r0 }, where ψ (r0 ) are the fourier
transforms. On the other hand, (1.121) indicates that the fourier transforms are evaluated as usual.
By using the properties of the Dirac delta function, it is possible to prove that the set {ξ r0 } accomplishes
orthonormality and completeness relations
Z
ξr0 , ξr00 = d3 r δ (r − r0 ) δ r − r00 = δ r0 − r00
and Z Z
d3 r0 ξr∗0 r0 ξr0 (r) = d3 r0 δ r0 − r 0 δ (r − r0 ) = δ r − r0
1.32. TENSOR PRODUCTS OF VECTOR SPACES, DEFINITION AND PROPERTIES 61
note that the non-physical functions that constitute a continuous basis can usually be seen as limits in which one
or more parameters of a physically realizable state are taken at extreme (non-physical) values.
As an example the Dirac function can be taken as the limit of gaussians given by Eq. (1.108)
n 2 2
fn (x − a) = √ e−n (x−a)
π
for each value of n these functions are square integrable, continuous, and derivable, they could describe a physical
system. Notwithstanding, by taking n → ∞, the functions are no longer square-integrable and lose all properties of
well-behavior.
Concerning plane waves, physical states (in both classical and quantum mechanics) consists of a superposition of
plane waves with a finite width spectrum of frecuencies ∆ν, by taking the limit ∆ν → 0 we obtain a monochromatic
(non-physical) wave, corresponding to a single plane wave.
Definition 1.34 The vector space V is called the tensor product of V 1 and V2
V ≡ V 1 ⊗ V2
if there is associated with each pair of vectors x (1) ∈ V 1 and y (2) ∈ V2 a vector in V denoted by x (1) ⊗ y (2) and
called the tensor product of x (1) and y (2), and in which this correspondence satisfies the following conditions: (a)
It is linear with respect to multiplication by a scalar
[αx (1)] ⊗ y (2) = α [x (1) ⊗ y (2)] ; x (1) ⊗ [βy (2)] = β [x (1) ⊗ y (2)] (1.122)
(c) When a basis is chosen in each space, say {u i (1)} in V1 and {vj (2)} in V2 , the set of vectors ui (1) ⊗ vj (2)
constitutes a basis in V . If n1 and n2 are finite, the dimension of the tensor product space V is n 1 n2 .
An arbitrary couple of vectors x (1), y (2) can be written in terms of the bases {u i (1)} and {vj (2)} respectively,
in the form X X
x (1) = ai ui (1) ; y (2) = bj vj (2)
i j
Using Eqs. (1.122, 1.123) we see that the expansion of the tensor product is given by
XX
x (1) ⊗ y (2) = ai bj ui (1) ⊗ vj (2)
i j
so that the components of the tensor product of two vectors are the products of the components of the two vectors of
the product. It is clear that the tensor product is commutative i.e. V 1 ⊗ V2 = V2 ⊗ V1 and x (1) ⊗ y (2) = y (2) ⊗ x (1)
On the other hand, it is important to emphasize that there exist in V some vectors that cannot be written as
tensor products of a vector in V1 with a vector in V2 . Nevertheless, since {ui (1) ⊗ vj (2)} is a basis in V any vector
in V can be expanded in it XX
ψ= cij ui (1) ⊗ vj (2) (1.124)
i j
in other words, given a set of n1 n2 coefficients of the form cij it is not always possible to write them as products
of the form ai bj of n1 numbers ai and n2 numbers bj , we cannot find always a couple of vectors in V 1 and V2 such
that ψ = x (1) ⊗ y (2).
62 CAPÍTULO 1. LINEAR OR VECTOR SPACES
where the symbols (, )(1) and (, )(2) denote the inner product of each of the spaces of the product. From this, we can
see that if the bases {ui (1)} and {vj (2)} are orthonormal in V1 and V2 respectively, then the basis {ui (1) ⊗ vj (2)}
also is
(ui (1) ⊗ vj (2) , uk (1) ⊗ vm (2)) = (ui (1) , uk (1))(1) (vj (2) , vm (2))(2) = δik δjm
Now, for an arbitrary vector in V , we use the expansion (1.124) and the basic properties of the inner product
XX XX
(ψ, φ) = cij ui (1) ⊗ vj (2) , bkm uk (1) ⊗ vm (2)
i j k m
X X X X
= c∗ij bkm (ui (1) ⊗ vj (2) , uk (1) ⊗ vm (2)) = c∗ij bkm δik δjm
i,j k,m i,j k,m
X
(ψ, φ) = c∗ij bij
i,j
it is easy to show that with these definitions the new product accomplishes the axioms of an inner product.
when the operator is applied to an arbitrary vector in V , this definition is easily extended because of the linearity
of the transformation
XX XX
Ae (1) ψ = A e (1) cij ui (1) ⊗ vj (2) = e (1) [ui (1) ⊗ vj (2)]
cij A
i j i j
XX
e (1) ψ =
A cij [A (1) ui (1)] ⊗ vj (2) (1.125)
i j
finally, if we consider two operators A (1) , B (2) defined in V 1 and V2 respectively, we can define their tensor product
A (1) ⊗ B (2) as
XX
[A (1) ⊗ B (2)] ψ = cij [A (1) ui (1)] ⊗ [B (2) vj (2)] (1.126)
i j
it is easy to show that A (1) ⊗ B (2) is also a linear operator. From Eqs. (1.125, 1.126) we can realize that the
extension of the operator A (1) on V1 to an operator A e (1) on V can be seen as the tensor product of A (1) with the
e (2)
identity operator I (2) on V2 . A similar situation occurs with the extension B
e (1) B
Now let us put the operators A (1) ⊗ B (2) and A e (2) to act on an arbitrary element of a basis {u i (1) ⊗ vj (2)}
of V
e (1) and B
therefore, the tensor product A (1) ⊗ B (2) coincides with the ordinary product of two operators A e (2) on
V
A (1) ⊗ B (2) = Ae (1) B
e (2)
additionally, it can be shown that operators of the form A e (1) and B e (2) commute in V . To see it, we put their
products in both orders to act on an arbitrary vector of a basis {u i (1) ⊗ vj (2)} of V
h i
e (1) B
A e (2) ui (1) ⊗ vj (2) = Ae (1) {ui (1) ⊗ [B (2) vj (2)]} = [A (1) ui (1)] ⊗ [B (2) vj (2)]
h i
e (2) A
B e (1) ui (1) ⊗ vj (2) = Be (2) {[A (1) ui (1)] ⊗ vj (2)} = [A (1) ui (1)] ⊗ [B (2) vj (2)]
therefore we have h i
e (1) , B
A e (2) = 0 or A (1) ⊗ B (2) = B (2) ⊗ A (1)
an important special case of linear operators are the projectors, as any other linear operator, the projector in V is
the tensor product of the projectors in V 1 and V2 . Let M1 and N1 be the range and null space of a projector in V 1
and M2 , N2 the range and null space of a projector in V 2
finally, as in the case of vectors, there exists some operators on V that cannot be written as tensor products of the
form A (1) ⊗ B (2).
where gn is the degeneration associated with a n . We want to solve the eigenvalue problem for the extension of this
operator in V = V1 ⊗ V2
e (1) ψ = λψ ; ψ ∈ V1 ⊗ V2
A
from the definition of such an extension, we see that a vector of the form x in (1) ⊗ y (2) for any y (2) ∈ V2 is an
e (1) with eigenvalue an
eigenvector of A
Ae (1) xin (1) ⊗ y (2) = A (1) xin (1) ⊗ y (2) = an xin (1) ⊗ y (2) ⇒
Ae (1) xi (1) ⊗ y (2) = an xi (1) ⊗ y (2)
n n
64 CAPÍTULO 1. LINEAR OR VECTOR SPACES
it is natural to ask whether any eigenvector of A e (1) can be generated in this way. We shall see that it is true if
A (1) is an observable in V1 . Assuming it, the set of orthonormal eigenvectors xin (1) forms a basis in V1 . If we
now take an orthonormal basis {ym (2)} in V2 , then the set of vectors
i,m i
ψn ≡ xn (1) ⊗ ym (2)
n o
forms an orthonormal basis in V . It is clear that the set ψni,m consists of eigenvectors of A e (1) with eigenvalues
an , and since they are a basis, a complete orthonormal set of eigenvectors of A e (1) have been generated with the
procedure explained above. This in turn means that if A (1) is an observable in V 1 , its extension A e (1) is also an
observable in V . Further, the spectrum of A e (1) coincides with the spectrum of A (1). Notwithstanding, it worths to
say that if N2 is the dimension of V2 , if an is gn −fold degenerate in V1 , it will be gn · N2 −degenerate in V . This is
because for a given eigenvector xin (1) in V1 , there are N2 eigenvectors ψni,m ≡ xin (1) ⊗ ym (2) since m = 1, . . . , N2 .
We know that each eigenvalue an of A (1) in V1 defines an eigensubspace V1,an in V1 with gn dimension. The
corresponding eigensubspace generated by a n in V is a N2 · gn subspace Van . The projector onto V1,an is written by
⊥
V1 = V1,an ⊕ V1,a n
; x (1) = xan (1) + x⊥ ⊥ ⊥
an (1) ; xan (1) ∈ V1,an , xan (1) ∈ V1,an
P1an (x (1)) = xan (1)
where A (1) and B (2) are observables in their corresponding spaces, with the following eigenvalues and eigenvectors
So that if C = A e (1) + B
e (2) the eigenvalues of C are the sums of the eigenvalues of A e (1) and B e (2). Besides, we
can form a basis of eigenvectors of C by taking the tensor product of the basis of A (1) and B (2).
It is important to emphasize that even if a n and bm are non-degenerate, it is posible that c nm be degenerate. As-
sume that an and bm are non-degenerate, and for a given c nm let us define all the sets of pairs {(n j , mj ) : j = 1, . . . , q}
such that anj +bmj = cnm . In that case, the eigenvalue cnm is q−fold degenerate, and every eigenvector corresponding
to this eigenvalue can be written as
Xq
cj xnj (1) ⊗ ymj (2)
j=1
in this case there are eigenvectors of C that are not tensor products.
1.33. RESTRICTIONS TO AN OPERATOR TO A SUBSPACE 65
these three expressions are in general different from each other unless [A, B] = 0. We see by direct inspection of
Eqs. (1.130, 1.131, 1.132) that if A and B commute, then F (A) and F (B) also do. Notice that when A, B commute
they can be diagonalized simultaneously and so F (A) and F (B), which is another way to see that if [A, B] = 0
then [F (A) , F (B)] = 0.
which shows the validity of Eq. (1.137). Replacing Eq. (1.137) in Eq. (1.136), we find
∞
X
[A, F (B)] = [A, B] fn nB n−1 = [A, B] F 0 (B)
n=0
Corollary 1.71 It is straightforward to show that if both operators commute with their commutator we see that
equations
[A, F (B)] = [A, B] F 0 (B) ; [G (A) , B] = [A, B] G0 (B) (1.138)
are satisfied simultaneously. A very important case in Physics occurs when [A, B] = αI. In that case, we have
since dA/dz is another operator, it makes sense to talk about its matrix representation
dA (z) dA (z) dA (z) dA (z)
x= xi ui = x i ui = x i uj (1.142)
dz dz dz dz ji
Applying the derivative on both extremes of Eq. (1.141), and taking into account that the basis {u i } is independent
of z, we have
d dAji (z)
A (z) x = xi uj (1.143)
dz dz
comparing Eqs. (1.142, 1.143) we obtain
dA (z) dAji (z)
=
dz ji dz
so the matrix representative of the derivative of A is obtained by taking the derivative of each of its elements 11 .
The differentiation rules are similar to the ones in ordinary calculus
d dF dG d dF dG
(F + G) = + ; (F G) = G+F (1.144)
dz dz dz dz dt dt
except that care must be taken with the order of appearance for the operators involved. Let us examine the second
of this equations, applying F G to an arbitrary vector x and using a basis {u i } we have
(F G) x = xi uj (F G)ji
X∞ X∞ X∞
d At An An (At)n−1
e = ntn−1 =0+ ntn−1 =A
dt n=0
n! n=1
n! n=1
(n − 1)!
"∞ # "∞ #
d At X (At)k X (At)k
e = A = A
dt k! k!
k=0 k=0
11
Care must be taken to distinguish between the derivative in Eq. (1.135) and the derivative in Eq. (1.140). In Eq. (1.135) the derivative
is taken with respect to B as the “variable of derivation”. On the other hand, in Eq. (1.140) the variable to derive with, is a parameter
z from which our matrix depend on.
1.36. STATE SPACE AND DIRAC NOTATION 69
where we have used the assignment k = n − 1. The series in the brackets is e At once again, so we have
d At
e = AeAt = eAt A (1.145)
dt
in this case eAt and A commutes because only one operator is involved. Suppose that we want to differentiate e At eBt .
Applying Eqs. (1.144, 1.145) we have
d At Bt d eAt Bt At d e
Bt
e e = e +e = AeAt eBt + eAt BeBt
dt dt dt
the operator A can pass over eAt if desired but not over eBt unless that A and B commute. Similarly, B can pass
over eBt but not over eAt .
However, even if a single operator appears we should be careful with the order sometimes. For instance, if A (t)
is an arbitrary function of time then
d A(t) dA A(t)
e 6= e (1.146)
dt dt
it could be checked that A (t) and dA (t) /dt must commute with each other for the equality to be valid.
Consider again two operators that commute with their commutator, we shall show that
1
[A, [A, B]] = [B, [A, B]] = 0 ⇒ eA eB = eA+B e 2 [A,B] (Glauber 0 s f ormula) (1.147)
dF (t)
F (t) ≡ eAt eBt ; = AeAt eBt + eAt BeBt = A eAt eBt + eAt Be−At eAt eBt
dt
dF (t) At −At
= A + e Be F (t) (1.148)
dt
since A, B commute with their commutator, we can apply Eq. (1.138), so that
At
e , B = t [A, B] eAt ⇒ eAt B = BeAt + t [A, B] eAt
⇒ eAt Be−At = B + t [A, B]
dF (t)
= {A + B + t [A, B]} F (t) (1.149)
dt
by hypothesis, A + B commutes with [A, B], so that the differential equation (1.149) can be integrated as if A + B
and [A, B] were numbers
1 2
F (t) = F (0) e(A+B)t+ 2 [A,B]t
setting t = 0 we see that F (0) = I, thus we obtain
1 2
F (t) = e(A+B)t+ 2 [A,B]t
setting t = 1 and taking into account again that A + B commutes with [A, B], we obtain (1.147). It is necessary to
emphasize that this equation is valid only if A and B commutes with [A, B].
numerable set of coordinates (Fourier coefficients) while in the case of continuous bases, the set of coordinates is
continuous as well (Fourier transforms). In particular, the continuous basis denoted as ξ r0 (r) shows that the function
ψ (r) can be considered as a coordiante system as well, because in this basis, each coordinate is defined as ψ (r 0 )
i.e. the value of ψ at each fixed point r 0 of the volume12 .
We have now a situation similar to the one obtained in R 3 , we can define a vector by a triple of coordinates in
any basis defined by a set of coordinate axes. However, vectors in R 3 can be defined geometrically (intrinsically),
and its algebra can be performed in a coordinate-free form.
In the same way, we wish to define our state vector in a coordinate free (or intrinsic) way. The abstract space of
state vectors of a particle is denoted as E r which should be isometrically isomorphic with z. We should also define
the notation and algebra on the Er space.
Though we initially start with Er as identical to z, we shall see that it permits a generalization of the formalism
when the states in zdo not contain all the Physical information of the system, as is the case when spin degrees of
freedom are introduced in the formalism. Hence, the algebra that we shall develop now will be valid when these
generalizations are carried out. In developing this algebra we are going to present the Dirac notation which is useful
in practical calculations
Dirac notation designates f|ψi as hψ| which is called a bra. The correspondence above and the inner product will
be written as
|ψi ∈ Er ↔ hψ| ∈ Er∗ ; hψ| (|ϕi) ≡ (|ψi , |ϕi)
it induces a natural notation for the inner product
this is also called a bracket (i.e. the union of a bra with a ket). Let us now write the properties developed in section
1.9.2 Eq. (1.31), with this new notation
since the functionals (bras) are linear by definition, a linear combination of kets gives
now since
lı́m ξx(ε)
0
/ zx
∈
ε→0
since the square of itsD norm tend to 1/ε and diverges. Nevertheless, in the limit ε → 0 the expression (1.151) is still
(ε)
well-defined, so that ξx0 is still associated with a functional that can be applied to any element of the state space,
we shall denote this bra as hξx0 | and this functional associates with each vector |ψi ∈ E x the value ψ (x0 ) taken on
by the associated wave function in zx at the point x0
D
lı́m ξx(ε)
0
= hξx0 | ∈ Ex∗ if |ψi ∈ Ex ⇒ hξx0 | ψi = ψ (x0 )
ε→0
then the bra hξx0 | ∈ Ex∗ exists but there is not a ket associated with it in the hyperbasis.
This dissymetry is associated with the use of a hyperbasis. The elements of the hyperbasis do not belong to z x
and so has no elements associated in E x either. However, the inner product of it with any element of z x is well-
defined and it permits to associate a bra belonging to E x∗ . Indeed, by the theory of Hilbert spaces the corresponding
ket must exists, what really happens is that we cannot construct it as an element of our hyperbasis, this is perfectly
undestandable since such elements are out of our Hilbert space.
Notice that we have indeed extended the concept of inner product and we have applied it to elements out of our
Hilbert space. For practical reasons it is usual to associate the bras hξ x0 | ∈ Ex∗ to the “generalized ket” |ξx0 i that
are not physical states but are advantageous from the practical point of view.
72 CAPÍTULO 1. LINEAR OR VECTOR SPACES
Another example is the continuous basis consisting of plane waves truncated outside an interval of width L
1 L L
vp(L) (x) = √ eip0 x/~ ; − ≤x≤
0
2π~ 2 2
(L)
with the function vp0 (x) going rapidly
E to zero outside of that interval, but keeping continuity and differentiability.
(L)
The ket associated is denoted as vp0
E
(L)
vp(L)
0
(x) ∈ z x ↔ v p 0
∈ Ex
D Z L/2
1
vp(L)
0
ψi = v (L)
p0 , ψ ' √ dx e−ip0 x/~
2π~ −L/2
in the limit L → ∞ we find ψ̄ (p0 ) i.e. the Fourier transform of ψ (x) evaluated at p = p 0 . From which we see that
the inner product converges and is well-defined
D
lı́m vp(L)
0
≡ hvp0 | ∈ Ex∗
L→∞
E
(L)
but it does not correspond to the ket associated with the limit of kets of the form vp0 .
E
(ε)
We could take the results above with the following point of view, the ket |ξ x0 i means the ket given by ξx0 with
ε much smaller than any other length involved in the problem, so we are really working in E x . The results obtained
at
the E end depends very little on ε as long as it is much smaller than any other length in the problem. Certainly,
(ε)
ξx0 does not form an orthonormal basis, and do not satisfy a closure realtion with ε 6= 0, but it aproaches the
orthonormality and closure conditions as ε becomes very small.
The introduction of generalized kets, will ensure that we balance bras and kets in the limits concerned above.
Generalized kets do not have finite norm, but they can acquire a finite inner product with kets of our space of states.
it is also important to calculate the inner product between |ϕi and |ψ 0 i = A |ψi in the form
|ϕi , ψ 0 = (|ϕi , A |ψi) = hϕ| (A |ψi)
1.38.1. Projectors
The simplest of all projectors are the ones in which the range are one dimensional subspaces of the Hilbert
space. Let {|ψi} be the one dimensional space spanned by the single non-zero ket |ψi. The projector P |ψi takes an
arbitrary ket |ϕi ∈ Ex and maps it into {|ψi} i.e.
P|ψi ≡ |ψi hψ| ; P|ψi |ϕi = (|ψi hψ|) |ϕi = |ψi hψ| ϕi = α |ψi (1.152)
so the definition of P|ψi Eq. (1.152) as a projector is consistent only if |ψi is normalized.
Now we can write the projector onto a subspace of more than one dimension. If n j is the dimension of the
(n )
subspace Mj j ⊆ Ex we can define the projector from a complete orthonormal set
i
uj ; i = 1, .., nj (1.153)
(n1 ) (nj )
Ex = M 1 ⊕ . . . ⊕ Mj ⊕ ...
x = x1 + . . . + x j + . . .
n1 nj
X (1) i
X (j)
x = αi u1 + . . . + αi uij + . . .
i=1 i=1
(n)
αk ≡ ukn , x
nj
X (j)
P Mj x = x j = αi uij
i=1
nj
X
P Mj x = uij , x uij
i=1
in Dirac notation it is
nj n
X i Xj
i
i
PMj |xi = huij
|xi uj = u uj |xi
j
i=1 i=1
thus a direct notation for the projector is
nj
X i
i
P Mj ≡ uj uj (1.154)
i=1
(nj )
it is clear that this is a projector as long as Eq. (1.153) defines an orthonormal set that spans M j of dimension
nj .
nj ! nj ! nj nj
X i
i X E D X X ED
2 uj uj k k i i k
P Mj = u
j u j = u j hu j uj ukj
i=1 k=1 i=1 k=1
nj nj D X nj
X X i
i
2 i k uj uj = P M
PM j
= uj δik uj = j
i=1 k=1 i=1
74 CAPÍTULO 1. LINEAR OR VECTOR SPACES
If we have an observable A, its spectrum of eigenvectors forms a basis and we can construct a complete orthonormal
set. In that case, the spectral theorem (assuming it can be extended to infinite dimension for observables) says that
the identity and the observable A itself can be decomposed by means of the projectors built on each eigensubspace
of the observable, if Mi is the eigensubspace generated by the eigenvalue λ i of A we have that
Ex = M 1 ⊕ . . . ⊕ M i ⊕ . . .
x = x1 + . . . + x i + . . .
Pi x = x i
n o
these forms will be applied frequently in quantum mechanics. Notice that Eq. (1.155) is valid if and only if uji
is a complete orthonormal set. Thus the decomposition of the identity in projectors is usually taken as the closure
relation for the basis (or hyperbasis) in which we are working.
It is also usual to work with a more general type of projector of the form
this is a projector on the one dimensional subspace {|ψi}. This operator is idempotent only if hϕ| is normal, however
it defines a non-orthogonal projection, since we shall see later that this operator is not self-adjoint or hermitian.
A
f|ϕi ≡ hϕ| → gA|ϕi ≡ hϕ| A (1.159)
we should check that g is indeed a functional i.e. that it is a continuous linear mapping of the vectors into the
complex numbers, the basic properties of functionals are reproduced
gαA|ϕi+βA|χi (ψ) = α∗ gA|ϕi (|ψi) + β ∗ gA|χi (|ψi)
gA|ϕi (α |ψi + β |χi) = αgA|ϕi (|ψi) + βgA|ϕi (|χi)
Further, the association (1.159) is linear, to see it, we write a linear combination of bras
hϕ| = λ1 hϕ1 | + λ2 hϕ2 |
which means that
hϕ| ψi = λ1 hϕ1 | ψi + λ2 hϕ2 | ψi ; ∀ |ψi ∈ Ex
then
(hϕ| A) (|ψi) = hϕ| (A |ψi) = (λ1 hϕ1 | + λ2 hϕ2 |) (A |ψi)
= λ1 hϕ1 | (A |ψi) + λ2 hϕ2 | (A |ψi)
= λ1 (hϕ1 | A) |ψi + λ2 (hϕ2 | A) |ψi
since ψ is arbitrary we find
hϕ| A = λ1 hϕ1 | A + λ2 hϕ2 | A
notice that is different to start with a linear combination of kets from starting with a linear combination of bras,
because the linear combination of a ket corresponds to a linear combination with conjugate coefficients in the bras
(antilinearity). The order is important, the new bra induced from hϕ| by the operator A is written as hϕ| A and not
in the form A hϕ|. For instance if we apply this relations to a ket the first expression hϕ| A |ψi is a complex number,
while the second A hϕ| ψi = αA is another operator.
to elucidate the answer we apply an arbitrary vector |ϕi to the functional we want to find
fA|ψi (|ϕi) = f|ψ0 i (|ϕi) = hψ 0 |ϕi = hAψ| ϕi = hψ| A† ϕi
where we have applied property (1.35). Now we apply property (1.160) to get
E
f|ψ0 i (|ϕi) = hψ| A† ϕ = hψ| A† (|ϕi)
we see that
hψ| A† |ϕi = hϕ| A |ψi∗ (1.161)
and we remember the most important properties of the adjoint operators (see Eqs. (1.34))
†
A† = A , (αA + βB)† = α∗ A† + β ∗ B † (1.162)
(AB)† = B † A† (1.163)
are all distinct each other, the first and second are complex numbers, while the last two are operators, as can be
verified by applying an arbitrary vector on the right-hand side of these objects. However, expressions like
are all equal, indeed we could think about the multiplication by a scalar as equivalent to the operator λI which
commutes with everything.
We shall now define a useful operation that we call hermitian conjugation. Our basic objects are kets, bras,
operators and scalars. In general words, hermitian conjugations are mappings induced by the existence of the dual
E ∗ of our Hilbert space E.
A ket |ψi ∈ E is naturally mapped into a bra hψ| ∈ E ∗ .
A bra hψ| ∈ E ∗ is naturally mapped into an element of the conjugate space of E ∗ , i.e on E ∗∗ . However, for Hilbert
spaces it can be shown that E ∗∗ = E hence the bra is mapped into its corresponding ket 15 .
An operator A in ß(E) is mapped naturally into the conjugate vector A ∗ in ß(E ∗ ) but the inner product structure
permits in turn to define another operator A † in ß(E) from A∗ and from the practical point of view we regard A ∗
and A† as identical. Thus the hermitian conjugation in this case will be the mapping A → A † .
Now finally for scalars. Taking into account that for all practical uses scalars λ can be considered as operators
in ß(E) of the form λI we see that the natural hermitian conjugation gives λI → (λI) † = λ∗ . Therefore, the natural
conjugation operation is λ → λ∗ .
We notice now that the hermitian conjugation reverses the order of the objects to which it is applied. We have
seen that (A |ψi)† = hψ| A† , Eq. (1.163) shows that the order of a product of operators is reversed when we apply
the “adjointness” (or hermitian conjugation) on that product, when scalars are involved the place in which scalars
are located is irrelevant.
By the same token, let us see what is the conjugate of the non orthogonal projection defined in (1.157)
hχ| (|ψi hϕ|)† |ηi = [hη| (|ψi hϕ|) |χi]∗ = hη| ψi∗ hϕ| χi∗ = hχ| ϕi hψ| ηi
hχ| (|ψi hϕ|)† |ηi = hχ| (|ϕi hψ|) |ηi ; ∀ |ηi , |χi ∈ E
then we have
(|ψi hϕ|)† = |ϕi hψ| (1.165)
15
In Banach spaces, the property B ∗∗ = B is called reflexibity and is not in general satisfied. For Hilbert spaces, reflexibity is automatic
from which we can assign the dual element of a dual element to the original vector. This is another satisfying property of Hilbert spaces,
not accomplished by general Banach spaces.
1.40. THEORY OF REPRESENTATIONS OF E IN DIRAC NOTATION 77
once again, the hermitian conjugation converts each object in its hermitian conjugate and reverse the order of such
objects.
These observations permit to give a rule to obtain the hermitian conjugate of a mathematical object composed
by a juxtaposition of bras, kets, operators and scalars. The rule is (a) replace each object by its hermitian conjugate
and (b) reverse the order of the factors, taking into account that the position of the scalars are not relevant.
The hermitian conjugate of the objects defined in (1.164) are given by
in the first two expressions the original mathematical objects are scalars and hence the hermitian conjugates are also
scalars (the complex conjugates of the original scalars). In the third expression the original object is an operator
and its hermitian conjugate is also an operator (the adjoint of the original operator). In the fourth expression, the
original object is a product of two operators and a scalar (a scalar times a projection times the operator B) and the
adjoint is the product of the scalar and adjoint of each of the operators in reverse order. In each case, the scalars
are located in the most convenient place since their positions are unimportant. Indeed, we can put the conjugate of
the scalars in any place, for instance in the case
that coincides with the rules when we take into account Eq. (1.161).
It is important to see that according to (1.165) the projectors given by (1.152) are hermitian, thus according to
theorem 1.44, they are orthogonal projectors (i.e. projectors in the sense of a Hilbert space), this in turn says that
the sums in (1.154) are also orthogonal projectors (see theorem 1.50). On the other hand, the projectors described
by (1.157) with |ϕi 6= |ψi are non-hermitian and consequently they are non-orthogonal projections.
we emphasize once again that hwα |wα i diverges so that |wα i does not have a bounded norm and thus it does not
belong to our state space. We call |w α i generalized kets because they can be used to expand any ket of our state
space.
A discrete set {ui } or a continuous one {wα } constitutes a basis if each ket |ψi of our state space can be expanded
in a unique way on each of these sets
X Z
|ψi = ci |ui i ; |ψi = dα c (α) |wα i (1.166)
i
78 CAPÍTULO 1. LINEAR OR VECTOR SPACES
the problem is considerably simplified if we asume that the bases are orthonormal, because in that case we can
extract the coefficients by applying a bra hu k | or hwα0 | on both sides of these equations
X Z
huk |ψi = huk | ci |ui i ; hwα0 |ψi = hwα0 | dα c (α) |wα i
i
X X
huk |ψi = ci huk | ui i = ci δki = ck
Zi i
Z
hw |ψi =
α0 dα c (α) hw | wα i =
α0 dα c (α) δ α − α0 = c α0
since this is valid for any ket |ψi ∈ E the operators in parenthesis must be the identity operator on E
X Z
P{ui } ≡ |ui i hui | = I ; P{wα } ≡ dα |wα i hwα | = 1 (1.168)
i
we can reverse the steps and show that applying the identity in the form given by Eqs. (1.168) we obtain that any
|ψi ∈ E must be a unique linear combination of {|u i i} or {|wα i}
!
X X
|ψi = I |ψi = P{ui } |ψi = |ui i hui | |ψi = |ui i hui | ψi
i i
X
|ψi = ci |ui i ; ci ≡ hui | ψi (1.169)
i
Z Z
|ψi = I |ψi = P{wα } |ψi = dα |wα i hwα | |ψi = dα |wα i hwα | ψi
Z
|ψi = dα c (α) |wα i ; c (α) ≡ hwα | ψi
these facts show that Eqs. (1.168) manifest a closure relation in Dirac notation. This is consistent with our discussion
in Sec. 1.38.1 that led to Eq. (1.155), in which we saw that each element of the form |u i i hui | is a projector operator
and Eqs. (1.168) are decompositions of the identity in projectors 16 . In other words, the projector given by the sums
in (1.168) has the whole space as its range. In the case of the continuous basis, they are “hyperprojectors” but we
shall call them projectors from now on.
Hence the representation of a ket |ψi in a discrete basis is given by the set of its fourier coefficients {hu i | ψi} it
is usually written in matrix form as a column matrix
hu1 | ψi c1
hu2 | ψi c2
.. ..
|ψi = .
= .
hui | ψi ci
.. ..
. .
16
In Eq. (1.155) the lower index labels the eigenvalue and the upper index indicates the degree of degeneracy of the given eigenvalue.
In Eq. (1.168) the single index runs over all different eigenvectors.
1.40. THEORY OF REPRESENTATIONS OF E IN DIRAC NOTATION 79
the representation of a ket |ψi in a continuous basis is given by the set of its fourier transforms {hu i | ψi} it is usually
written in continuous matrix form as a column matrix
.. ..
. .
|ψi =
hw α | ψi = c (α)
.. ..
. .
the representation of a bra can be obtain by the same insertion of the identity as follows
X
hψ| = hψ| I = hψ| P{ui } = hψ| ui i hui |
i
X
hψ| = c∗i hui | ; ci = hui | ψi
i
which can also be obtained by taking the hermitian conjugation of Eq. (1.169) and applying (1.150). For continuous
basis the process is similar
Z
hψ| = hψ| I = hψ| P{wα } = dα hψ| wα i hwα |
Z
hψ| = dα c∗ (α) hwα | ; c (α) = hwα | ψi
in matrix notation the bra is represented as a one row matrix of the coefficients, in both the discrete and continuous
cases
hψ| = hψ| u1 i hψ| u2 i · · · hψ| ui i · · ·
hψ| = c∗1 c∗2 · · · c∗3 · · ·
hψ| = ··· c∗ (α) · · ·
by comparing the representation of the corresponding ket |ψi we see that the representation of the bra is obtained
by transposing the matrix representative of the ket (i.e. converting the column in a row) and taking the conjugate
of each element.
Let us reproduce the inner product expressions (1.106) and (1.113) by insertion of the identity with projectors
X
hϕ| ψi = hϕ| I |ψi = hϕ| P{ui } |ψi = hϕ| ui ihui |ψi
i
X
hϕ| ψi = b∗i ci ; bi = hui | ϕi ; ci = hui |ψi
i
Z
hϕ| ψi = hϕ| I |ψi = hϕ| P{wα } |ψi = dα hϕ| wα ihwα |ψi
Z
hϕ| ψi = dα b∗ (α) c (α) ; b (α) = hwα | ϕi ; c (α) = hwα |ψi
in matrix form we can see the inner product as the product of a row vector times a column vector
c1
c2
X
..
hϕ| ψi = b∗1 b∗2 · · · b∗3 ···
=
b∗i ci
.
ci i
..
.
80 CAPÍTULO 1. LINEAR OR VECTOR SPACES
which coincides with the algorithm for matrix multiplication developed in Sec. 1.14.1, Eq. (1.49). We can develop
easily the matrix multiplication algorithm with continuum matrices
(AB) (α, β) = hwα | AB |wβ i = hwα | AIB |wβ i = hwα | AP{ui } B |wβ i
Z
(AB) (α, β) = dγ hwα | A |wγ i hwγ | B |wβ i
Z
(AB) (α, β) = dγ A (α, γ) B (γ, β) (1.170)
Therefore, the bra hψ| A is represented by the product of the row matrix that represents hψ| times the square
matrix representing A respecting the order
A11 A12 · · · A1j ···
A21 A22 · · · A2j ···
.. .. ..
hψ| A = c1 c2 · · · c3 · · ·
∗ ∗ ∗
. . .
Ai1 Ai2 ··· Aij ···
.. .. ..
. . .
observe that the matrix product is not defined in the opposite order, thus we cannot give meaning to A hψ|.
In many cases, it is also interesting to calculate the element hϕ| A |ψi in terms of the coordinates of the bra and
the ket and in terms of the components of A. To do it, we insert an expansion of the identity twice
XX
hϕ| A |ψi = hϕ| IAI |ψi = hϕ| P{ui } AP{ui } |ψi = hϕ| ui i hui | A |uj i huj |ψi
i j
XX
hϕ| A |ψi = b∗i Aij cj ; bi = hui | ϕi, Aij = hui | A |uj i , cj = huj |ψi
i j
this is the natural way of superposing the representations of hϕ|, A, and |ψi respecting the order. The result is of
course a number. The extension for continuous bases is
Z Z
hϕ| A |ψi = hϕ| P{wα } AP{wβ } |ψi = dα dβ hϕ| wα i hwα | A |wβ i hwβ |ψi
82 CAPÍTULO 1. LINEAR OR VECTOR SPACES
and we obtain
Z Z
hϕ| A |ψi = dα dβ b∗ (α) A (α, β) c (β)
b (α) = hwα | ϕi ; A (α, β) = hwα | A |wβ i ; c (β) = hwβ |ψi
notice that Eq. (1.160) expresses the associativity of the matrix expressions given by Eq. (1.171).
Finally, the projection operator P = |ψi hψ| has matrix representative given by
this representation is particularly simple when P = |u k i huk | i.e. when the ket that forms the projector is part of
the basis.
The matrix representation of the adjoint operator is obtained by using property (1.161)
A† = hui | A† |uj i = huj | A |ui i∗ = A∗ji
ij
A† (α, β) = hwα | A† |wβ i = hwβ | A |wα i∗ = A∗ (β, α)
these results coincide with the one obtained in Eq. (1.69). If A is hermitian then A = A † and
in particular applying these conditions for i = j or α = β we see that the diagonal elements of an hermitian matrix
are real. These facts are valid only if the basis is orthonormal, otherwise the matrix representative of the adjoint of
the matrix takes another form.
(k)
To give a geometrical meaning to S, let define V i ≡ Sik and V(k) the k−th column vector with components S ik .
Then, it is clear that V (k) is the matrix representative (column matrix) of the element |t k i in the basis {|ui i}. We
then construct a square matrix by putting these column vectors side by side
S11 S12 S11 S12 · · ·
S = V(1) V(2) · · · = S21 S22 · · · = S21 S22 · · ·
.. .. .. ..
. . . .
17
This problem is a bit lees general that the one treated in Sec. (1.14), because in that section the bases involved are non necessarily
orthonormal. However, in this case we are treating the problem in infinite dimension.
1.41. CHANGE OF REPRESENTATIONS 83
consequently
S † S = SS † = I
On the other hand, we will also require the closure and orthonormalization relations with both bases
X
P{ui } = |ui i hui | = I ; hui | uj i = δij
i
X
P{tk } = |tk i htk | = I ; htk | tm i = δkm
k
similarly
c∗(u) = e
e c∗(t) S †
A |ψi = λ |ψi
we want to construct its matrix representation in a basis {u i }. We first multiply by a bra of the form hu i | on both
sides
hui | A |ψi = λhui |ψi
and insert an identity
X
hui | A |uj i huj |ψi = λhui |ψi
j
X
Aij cj = λci ; ci ≡ hui |ψi ; Aij ≡ hui | A |uj i
j
with ci and Aij the matrix elements of |ψi and A in the basis {u i }. This expression can be rewritten as
X
[Aij − λδij ] cj = 0
j
which is the well known expression for the eigenvalue problem in matrix form.
Er will describe the state space of a spinless particle. We have discussed before that ψ (r) can also be interpreted
as a representation of the abstract ket |ψi in the continuous basis {ξ r (r0 )} defined in Eq. (1.119). We also saw that
ξr (r0 ) are not elements of z, but they can be used to expand any element of z in a unique way. We call ξ r (r0 )
“generalized wave functions” and it is natural to associate with them some “generalized kets” denoted as |ri that
do not belong to Er but can expand any element of Er in such a way that if ψ (r) ↔ |ψi then the expansion of ψ (r)
under ξr (r0 ) has the same coefficients as the expansion of |ψi under |ri
Z Z
ψ (r) = dr c r ξr0 (r) ; |ψi = dr0 c r0 r0
0 0
We denote this association as ξr ↔ |ri. Similarly, for the continuous basis defined in Eq. (1.115) by {v p (r)} which
has plane waves as “generalized wave functions”, we shall have a continuous basis of E r denoted as |p0 i
ξr r0 ↔ |ri ; vp (r) ↔ |pi
therefore, using the bases {ξr (r0 )} and {vp (r)} of z we have defined two continuous basis in E r denoted as
{|ri} and {|pi}. Consequently, all bras, kets and operators in E r will have a continuous matrix representation
in these bases. The basis {|ri} is labeled by three continuous indices x, y, z which are the coordinates of a point
in three dimensional space. Similarly, the basis {|pi} is labeled by three continuous indices p x , py , pz which are
components of a cartesian vector.
hr r0 = δ r − r0 (1.175)
similarly
Z Z Z
1 3 0 1 3 0
hp p0 = d3 r vp∗ (r) vp0 (r) = d3 r e−ip·r/~ eip ·r = d3 r e−i(p−p )·r/~
2π~ 2π~
hp p0 = δ p − p0
where we have used property (1.116). The closure relations for {|ri} and {|pi} are written according with the second
of Eqs. (1.168) integrating over three indices instead of one. The orthonormality and closure relations for these bases
are then
hr r0 = δ r − r0 ; hp p0 = δ p − p0 (1.176)
Z Z
d3 r |ri hr| = I ; d3 p |pi hp| = I (1.177)
the coefficients c (r) = hr| ψi and c̄ (p) = hp| ψi are calculated as follows
Z Z
hr| ψi = d r ξr r ψ r = d3 r0 δ r0 − r ψ r0 = ψ (r)
3 0 ∗ 0 0
Z 3/2 Z
3 1
hp| ψi = d r vp∗ (r) ψ (r) = d3 r e−ip·r/~ ψ (r) = ψ̄ (p)
2π~
86 CAPÍTULO 1. LINEAR OR VECTOR SPACES
hence
c (r) = hr| ψi = ψ (r) ; c̄ (p) = hp| ψi = ψ̄ (p) (1.179)
the coefficients c (r) of the expansion of |ψi under {|ri} are the wave functions evaluated at the point r, this fact
reinforces the interpretation of the wave function as the representation of |ψi under the basis |ri. The coefficients
c̄ (p) are the fourier transforms of the wave function, this coefficients ψ̄ (p) are usually called “wave functions in
momentum space”, since they represent the same abstract vector |ψi it is clear that ψ (r) and ψ̄ (p) contain the
same physical information, this can also be seen by taking into account that given ψ (r) then ψ̄ (p) is uniquely
determined and vice versa. On the other hand, by comparing Eqs. (1.178, 1.179) with Eqs. (1.120, 1.121) we see
that if ψ (r) ↔ |ψi then the expansion of ψ (r) under ξ r (r0 ) has the same coefficients as the expansion of |ψi under
|ri as we demanded. Similar situation occurs with the basis {v p } in z and the basis |pi in Er .
An important particular case arises when |ψi = |pi which is indeed a generalized ket. Assuming that all the
relations above are also valid for generalized kets, and taking into account that |pi ↔ v p (r), then Eq. (1.179) gives
3/2
1
hr| pi = vp (r) = eip·r/~ (1.180)
2π~
the same result is obtained by taking into account the equality of the inner product of vectors in z and vectors in
Er when this equality is extended to generalized vectors
Z Z
hr| pi = (|ri , |pi) = (ξr , vp ) = d r ξr r vp r = d3 r0 δ r0 − r vp r0 = vp (r)
3 0 ∗ 0 0
applying Eq. (1.179) for |ψi = |r0 i ↔ ψ (r) = ξr0 (r) we find
hr| r0 i = ξr0 (r) = δ r − r0
Assume that we have an orthonormal basis {u i (r)} in z and an orthonormal basis {|u i i} in Er such that
ui (r) ↔ |ui i. Starting with the closure relation for {|u i i} in Er
X
|ui i hui | = I
i
which is the closure relation as it was expressed in Eq. (1.109) for {u i (r)} in z, reversing the steps we can obtain
the closure relation for {|ui i} in Er starting from the closure relation for {u i (r)} in z18 .
Notice that the inner product of two kets in terms of their coordinates under the basis {|ri} is a particular case
of Eq. (1.113). Equivalently, we obtain it by insertion of the identity
Z
hϕ |ψi = d3 r hϕ |ri hr |ψi
18
Notice that I (r, r0 ) = hr0 | I |ri = hr0 | ri = δ (r − r0 ) shows that the Dirac delta can be seen as the representation of the identity
under the continuous hyperbasis {|ri}.
1.43. THE CONTINUOUS BASES |Ri AND |Pi 87
1.43.3. Changing from the {|ri} representation to {|pi} representation and vice versa
The procedure is similar to the one in section 1.41 but for continuous basis. If we consider the change from
{|ri} to {|pi}, the unitary matrix S of changing the basis is
1 3/2 ip·r/~
S (r, p) = hr |pi = e (1.181)
2π~
a ket |ψi is represented as ψ (r) in {|ri} and we know well that in {|pi} it is given by ψ̄ (p). Here we see that it is
consistent with the formalism developed in Sec. 1.41
Z Z
3
hp |ψi = d r hp |ri hr |ψi = d3 r S† (r, p) hr |ψi
3/2 Z
1
ψ̄ (p) = d3 r e−ip·r/~ ψ (r) (1.182)
2π~
similarly
Z Z
3
hr |ψi = d p hr |pi hp |ψi = d3 p S (r, p) hp |ψi
3/2 Z
1
ψ (r) = d3 p eip·r/~ ψ̄ (p) (1.183)
2π~
the representation of bras can be obtained by hermitian conjugation of the relations with kets.
Now for a given operator, the matrix elements in {|pi} read A (p 0 , p) = hp0 | A |pi inserting two identities we get
Z Z
0
p A |pi = 3 0
d r d3 r p0 r0 i r0 A |ri hr |pi
Z Z
0
p A |pi = 3 0
d r d3 r S † r0 , p0 A r0 , r S (r, p)
such that in the {|ri} representation the associated wave function ψ 0 (r) = ψ (x, y, z) is given by
so in the {|ri} representation, it corresponds to the operator that multiplies the wave function by x. We should
emphasize however, that the operator X is defined on the E r state space. Eq. (1.184) can be expressed by
hr| X |ψi = xhr |ψi , hr| Y |ψi = yhr |ψi , hr| Z |ψi = zhr |ψi ; |ri = |x, y, zi (1.185)
we can consider X, Y, Z as the “components” of a “vector operator” R, by now it only means a condensed notation
inspired in the fact that x, y, z are the components of the ordinary vector r.
These operators can be easily manipulated in the {|ri} representation. For instance, the element hϕ| X |ψi can
be calculated as Z Z
hϕ| X |ψi = d3 r hϕ| ri hr| X |ψi = d3 r ϕ∗ (r) x ψ (r)
similarly, we define the operators Px , Py , Pz that forms the “vector operator” P, such that their action in the {|pi}
representation is given by
hp| Px |ψi = px hp |ψi , hp| Py |ψi = py hp |ψi , hp| Pz |ψi = pz hp |ψi ; |pi = |px , py , pz i (1.186)
however, when we require to work with both operators simultaneously, we should choose only one basis. Hence, it is
important to know how the operator P acts in the {|ri} representation, and how the operator R acts in the {|pi}
representation.
Let us first look for the way in which the operator P acts in the {|ri} representation. For this, we use Eqs.
(1.179, 1.180, 1.186) to evaluate
Z Z Z
3 3 1 3/2
hr| Px |ψi = d p hr| pi hp| Px |ψi = d p hr| pipx hp| ψi = d3 p eip·r/~ px ψ̄ (p) (1.187)
2π~
to evaluate this term we start with the expression of the Fourier transform Eq. (1.183)
Z
1 3/2 ∞ 3 ip·r/~
ψ (r) = d pe ψ̄ (p)
2π~ −∞
Z
∂ψ (r) 1 3/2 ∞ 3 ∂ ip·r/~
= d p e ψ̄ (p)
∂x 2π~ −∞ ∂x
Z
∂ψ (r) 1 3/2 ∞ 3 i ip·r/~
= d p px e ψ̄ (p)
∂x 2π~ −∞ ~
19
The operator X does not belong to ß(Er ), because for some square integrable functions ψ (r), the function ψ 0 (r) defined in Eq.
(1.184) is not square integrable.
1.43. THE CONTINUOUS BASES |Ri AND |Pi 89
~
hr| P |ψi = ∇hr |ψi (1.189)
i
in the {|ri} representation, the operator P coincides with the differential operator acting on the wave functions.
Let us calculate hϕ| Px |ψi in the {|ri} representation
Z Z
~ ∂
hϕ| Px |ψi = d3 r hϕ |ri hr| Px |ψi = d3 r ϕ∗ (r) ψ (r) (1.190)
i ∂x
of great importance are the commutators among the components P i , Ri . We shall calculate them in the {|ri}
representation, for instance
hr| [X, Px ] |ψi = hr| (XPx − Px X) |ψi = hr| (XPx ) |ψi − hr| (Px X) |ψi
~ ∂
= hr| X |Px ψi − hr| Px |Xψi = x hr| Px ψi − hr| Xψi
i ∂x
~ ∂ ~ ∂ ~ ∂
= x hr| Px |ψi − hr| X |ψi = x hr| ψi − [x hr| ψi]
i ∂x i ∂x i ∂x
~ ∂ ~ ∂ ~
= x hr| ψi − x [hr| ψi] − hr| ψi
i ∂x i ∂x i
so that
hr| [X, Px ] |ψi = i~ hr| ψi
since this is valid for any ket |ψi and any generalized ket |ri of the basis, we conclude that
[X, Px ] = i~I
it is usual to omit the identity operator since it is not important for practical calculations. In a similar way, we can
calculate the other commutators, to condense notation it is convenient to define
R1 ≡ X, R2 ≡ Y, R3 ≡ Z, P1 ≡ Px , P2 ≡ Py , P3 ≡ Pz
to write
[Ri , Rj ] = [Pi , Pj ] = 0 ; [Ri , Pj ] = i~δij (1.191)
they are called canonical commutation relations. These relations are intrinsic and should not depend on the basis
in which we derive them.
We can show that R and P are hermitian operators. For example let us show that X is hermitian
Z Z Z ∗
hϕ| X |ψi = d3 r hϕ |ri hr| X |ψi = d3 r ϕ∗ (r) x ψ (r) = d3 r ψ (r)∗ x ϕ (r)
since this is valid for arbitrary kets |ψi and |ϕi, and taking into account Eq. (1.161) we conclude that X = X † . For
Px we see that
Z Z Z ∗
3 3 ∗ 3 ∗
hϕ| Px |ψi = d p hϕ |pi hp| Px |ψi = d p ϕ̄ (p) px ψ̄ (p) = d p ψ̄ (p) px ϕ̄ (p)
and Px = Px† . The procedure is the same for the other components of R and P
R = R† , P = P †
There is an alternative proof of the hermiticity of P by using its action in the {|ri} representation given by Eq.
(1.189). Integrating Eq. (1.190) by parts we have
Z Z ∞
~ ∗ ∂
hϕ| Px |ψi = dy dz dx ϕ (r) ψ (r)
i −∞ ∂x
Z Z ∞
~ ∗ x=∞ ∂ ∗
= dy dz [ϕ (r) ψ (r)]x=−∞ − dx ψ (r) ϕ (r)
i −∞ ∂x
since the scalar product hϕ| ψi is convergent, ϕ ∗ (r) ψ (r) approaches zero when x → ±∞. Hence the first term on
the right-hand side vanishes and we find
Z Z ∗
~ ∂ ∗ ~ ∂
hϕ| Px |ψi = − d3 r ψ (r) ϕ (r) = d3 r ψ ∗ (r) ϕ (r)
i ∂x i ∂x
∗
hϕ| Px |ψi = hψ| Px |ϕi
two things deserve attention, first the presence of the i factor is essential because i∂/∂x is hermitian but ∂/∂x is
not. Second, we have used explicitly the fact that |ψi and |ϕi belong to E r by assuming that the scalar product
hϕ| ψi is convergent, so this proof is not valid for generalized kets.
so the components of the ket X |ri in the {|r 0 i} representation are equal to the ones of the ket |ri = |x, y, zi
multiplied by x
X |ri = x |ri
we proceed in the same way for Y and Z
the kets |ri are eigenkets common to X, Y, Z. The set {|ri} of common eigenvectors of X, Y, Z forms a basis
showing that {X, Y, Z} is a complete set of commuting observables. On the other hand, the specification of the
three eigenvalues x0 , y0 , z0 determines uniquely the “normalized” eigenvector |r 0 i except for a phase eiθ . In the {|ri}
representation the coordinates of |r 0 i are δ (x − x0 ) δ (y − y0 ) δ (z − z0 ). Therefore, the set {X, Y, Z} constitutes a
C.S.C.O. in Er .
Analogous reasoning shows that for the commuting observables {P x , Py , Pz } the eigenvalues and eigenvectors
are
Px |pi = px |pi , Py |pi = py |pi , Pz |pi = pz |pi ; |pi = |px , py , pz i
since {|pi} is a basis the operators P x , Py , Pz are observables. Because the set of eigenvalues (p 0x , p0y , p0z ) determines
uniquely the vector |p0 i the set {Px , Py , Pz } constitutes as C.S.C.O. in Er .
1.44. GENERAL PROPERTIES OF TWO CONJUGATE OBSERVABLES 91
It worths pointing out that X is not a C.S.C.O. by itself in the E r state space because when x0 is specified y0
and z0 can take any real values. Therefore, x 0 is an infinitely degenerate eigenvalue. Notwithstanding in the state
space Ex of a particle in one dimension, X constitutes a C.S.C.O. since the eigenvalue x 0 determines uniquely the
eigenvector |x0 i, and its coordinates in the {|xi} representation are given by δ (x − x 0 ).
It can also be shown that the set {X, P y , Pz } constitutes a C.S.C.O. since they commute with each other, and
for a set of eigenvalues {x0 , p0y , p0z } there is a unique eigenvector whose associated wave function is
{Y, Px , Pz } , {Z, Px , Py }
[Q, P ] = i~ (1.192)
such couples of observables are frequently encountered in quantum mechanics. The position and momentum ob-
servables are good examples. However, in what follows all properties are derived from the commutation rule (1.192)
regardless the specific form of the operators. Let us define the operator S (λ) that depends on a real parameter λ as
now we calculate the commutator [Q, S (λ)]. To do it, we take into account that [Q, P ] = i~ clearly commutes with
Q and P , therefore we can apply theorem 1.70, Eq. (1.134) to obtain
iλ −iλP/~
[Q, S (P )] = [Q, P ] S 0 (P ) = i~ − e = λS (P )
~
where we have written S (P ) instead of S (λ) to emphasize that when applying Eq. (1.134) we are considering S as
a function of the operator P (so the derivative is with respect to P ). Rewriting it in the old notation we have
therefore, S (λ) |qi is also an eigenvector of Q with eigenvalue q + λ. Note that S (λ) |qi is non-zero because S (λ)
is unitary so the norm of |qi is preserved. On the other hand, since λ can take any real value, we conclude that by
starting with an eigenvector of Q, we can construct another eigenvector of Q with any real eigenvalue by applying
the appropiate S (λ). Consequently, the spectrum of Q is continuous and consists of all real values.
Note that this result shows in particular that conjugate operators Q, P cannot exist in finite dimensional vector
spaces since for the latter the spectrum must be finite. Even they do not exist strictly in spaces of denumerable
dimension such as L2 , (for which the spectrum must be at most denumerable), so the eigenvectors |qi will form
hyperbasis in L2 .
Let us now show that if any given q is non-degenerate, then all the other eigenvalues of Q are also non-degenerate.
For this we assume that the eigenvalue q + λ is at least two-fold degenerate and arrive to a contradiction. From this
hypothesis, there are at least two orthogonal eigenvectors |q + λ, αi and |q + λ, βi associated with the eigenvalue
q+λ
hq + λ, β |q + λ, αi = 0 (1.199)
now consider the two vectors S (−λ) |q + λ, αi and S (−λ) |q + λ, βi from Eq. (1.198) we see that
so S (−λ) |q + λ, αi and S (−λ) |q + λ, βi are two eigenvectors associated with the eigenvalue q. Calculating the
inner product of them
hq + λ, β| S † (−λ) S (−λ) |q + λ, αi = hq + λ, β |q + λ, αi = 0
where we have used Eq. (1.199) and the fact that S (λ) is unitary. Thus, we arrive to the fact that S (−λ) |q + λ, αi
and S (−λ) |q + λ, βi are two orthogonal (and so linearly independent) eigenvectors associated with q, contradicting
the hypothesis that q is non-degenerate. This result can be extended to find that the eigenvalues of Q must all have
the same degree of degeneracy.
We now look for the eigenvectors. We fix the relative phses of the diffrent eigenvectors of Q with respect to the
eigenvector |0i associated with the eigenvalue 0, by setting
where we have replaced λ → −λ in the last step. In summary the action of S (λ) on the eigenvectors |qi of Q are
given by
S (λ) |qi = |q + λi ; hq| S (λ) = hq − λ| (1.201)
now we can characterize the action of the operators P, Q and S (λ) in either the {|qi} basis or the {|pi} basis.
where we have used (1.197) and the hermiticity of Q. The action of Q on |ψi reduces to a simple multiplication
with its associated eigenvalue. The action of S (λ) on |ψi in this basis is also simple
where we have used (1.201). Note that a function f (x − a) is the function that at the point x = x 0 + a, takes on the
value f (x0 ), so that it is the function obtained from f (x)by a translation of +a. Therefore, Eq. (1.202, shows that
the action of S (λ) on |ψi in the basis {|qi} , can be described as a translation of the wave function over a distance
+λ parallel to the q−axis. So S (λ) is usually called the translation operator.
The action of P on |ψi in the {|qi} basis is a bit longer to obtain. Let ε be an infinitesimal quantity such that
ε
S (−ε) = eiεP/~ = I + i P + O ε2
~
therefore
h ε i ε
hq| S (−ε) |ψi = hq| I + i P + O ε2 |ψi = hq |ψi + i hq| P |ψi + O ε2
~ ~
ε 2
hq| S (−ε) |ψi = ψ (q) + i hq| P |ψi + O ε (1.203)
~
on the other hand, from Eq. (1.202) we have
~ ψ (q + ε) − ψ (q)
hq| P |ψi = lı́m
i ε→0 ε
~ d
hq| P |ψi = ψ (q) (1.205)
i dq
~ d
so the action of P on a ket in the {|qi} basis is that of i dq .
1.44.3. Representation in the {|pi} basis and the symmetrical role of P and Q
From Eq. (1.205), we can obtain the wave function v p (q) associated in the {|qi} basis, with the eigenvector |pi
of P with eigenvalue p
1
vp (q) = hq |pi = √ eipq/~
2π~
we can then write Z ∞
1
|pi = √ dqeipq/~ |qi
2π~ −∞
It can be shown that the action of the P operator in the {|pi} repesentation is associated with multiplication
by p, while the representation of X corresponds to the operations i~d/dp. Therefore, the results are symmetrical in
the {|qi} and {|pi} bases. It comes from the fact that we can interchange Q and P with no more cost than changing
the sign of the conmutator in (1.192). The analogous of the translation operation in the {|pi} basis is the operator
defined by
T (α) = eiαQ/~
which acts as a translation in the momentum space. The arguments developed for the basis {|qi} can be repeated in
the basis {|pi} by interchanging P by Q and i by −i everywhere. As a matter of curiosity, in Classical Mechanics,
the Hamilton equations are also symmetrical in the conjugate variables (Q, P ) and we can interchange them with
no more cost that a change in sign.
We emphasize again that the results obtained in this section only depend on the canonica rule of commutation
(1.192) and not on the explicit form of the Q and P operators.
an hermitian operator is described by an hermitian matrix when the basis used is orthonormal. Therefore,
∗ ∗ ∗
H11 = H11 ; H22 = H22 ; H12 = H21
so that diagonal elements are real. Let us express the matrix in Eq. (1.206) in the equivalent form
1 1
2 (H11 + H22 ) 0 2 (H11 − H22 ) H12
H = 1 +
0 2 (H11 + H22 ) H21 − 12 (H11 − H22 )
2H21∗ !
1 1 0 1 1 (H −H )
H = (H11 + H22 ) + (H11 − H22 ) 2H21
11 22
2 0 1 2 (H11 −H22 ) −1
2H21 ∗ !
1 1 1 (H11 −H22 )
H = (H11 + H22 ) I + (H11 − H22 ) K ; K ≡ 2H21 (1.207)
2 2 (H11 −H22 ) −1
and I is the identity matrix. Let |ψ± i be two linearly independent eigenvectors of K
note that the problem reduces to find the eigenvectors of K (which coincide with the ones of H) and also its
eigenvalues (which are related with the eigenvalues of H through Eq. 1.209). Solving the problem for K is equivalent
to choose the origin of the eigenvalues in (H 11 + H22 ) /2 = (T rH)/2. Note that this shift is independent of the basis
chosen to write H.
2 |H21 |
tan θ = , 0≤θ<π (1.210)
H11 − H22
H21 = |H21 | eiϕ , 0 ≤ ϕ < 2π (1.211)
so ϕ is the argument of the term H21 . Matrix K in Eq. (1.207) can be written as
2|H21 |e−iϕ
!
1 (H11 −H22 ) 1 tan θ e−iϕ
K= 2|H21 |eiϕ
= (1.212)
−1 tan θ eiϕ −1
(H11 −H22 )
let us find the eigenvectors of K. We denote as a and b the components of |ψ + i in the basis {|ϕ1 i , |ϕ2 i}. From
Eqs. (1.212, 1.213) this eigenvector must satisfy
1 tan θ e−iϕ a 1 a
iϕ =
tan θ e −1 b cos θ b
of course only one of the two equations is linearly independent since only quotients between the coefficients can be
determined, therefore
−iϕ a −iϕ 1
a + b tan θ e = ⇒ b tan θ e =a −1
cos θ cos θ
multiplying by eiϕ/2 and defining 2α ≡ θ this equation yields
sin 2α −iϕ/2 1 − cos 2α iϕ/2
b e = a e
cos 2α cos 2α
b sin 2α e−iϕ/2 = a (1 − cos 2α) eiϕ/2
b (2 sin α cos α) e−iϕ/2 = a 1 − 1 − 2 sin2 α eiϕ/2
2b sinα cos α e−iϕ/2 2
= 2a sin α e
iϕ/2
in terms of θ we get
θ −iϕ/2 θ
e = a sin eiϕ/2
b cos (1.215)
2 2
we demand normalization with the additional requirement of positivity for the coefficient a, so we have
a sin θ eiϕ/2 2
2 2 2 2
|a| + |b| = 1 ⇒ |a| + =1
cos θ2 e−iϕ/2
2
θ θ
|a| + a tan e = 1 ⇒ |a|2 + |a|2 tan2 = 1
2 iϕ
2 2
θ θ
|a|2 1 + tan2 = 1 ⇒ |a|2 = cos2
2 2
so that
θ
a = cos ≥0 since 0 ≤ θ < π (1.216)
2
replacing (1.216) in (1.215) we get
θ −iϕ/2 θ θ θ
b cos e = cos sin eiϕ/2 ⇒ b = sin eiϕ
2 2 2 2
so that the eigenvector |ψ+ i0 associated with the eigenvalue κ+ reads
θ θ
|ψ+ i0 = a |ϕ1 i + b |ϕ2 i = cos |ϕ1 i + sin eiϕ |ϕ2 i
2 2
it is clear that |ψ+ i ≡ e−iϕ/2 |ψ+ i0 is also an eigenvector of K with the same eigenvalue κ + and this vector looks
more symmetrical. Thus, we define the eigenvector |ψ + i as20
θ −iϕ/2 θ
|ψ+ i = cos e |ϕ1 i + sin eiϕ/2 |ϕ2 i (1.217)
2 2
an analogous calculation gives the eigenvector of K corresponding to κ − = −1/ cos θ
θ −iϕ/2 θ
|ψ− i = − sin e |ϕ1 i + cos eiϕ/2 |ϕ2 i (1.218)
2 2
the eigenvalues of H are obtained by combining Eqs. (1.209, 1.214)
1
E± ≡ [(H11 + H22 ) + (H11 − H22 ) κ± ]
2 s
" #
1 (H11 − H22 )2 + 4 |H21 |2
= (H11 + H22 ) ± (H11 − H22 )
2 (H11 − H22 )2
q
1 2 2
E± ≡ (H11 + H22 ) ± (H11 − H22 ) + 4 |H21 |
2
it worths saying that the eigenvalue problem can be solved directly without resorting to the angles θ and ϕ defined
in Eq. (1.210, 1.211). This procedure is advantageous only if we have to calculate the eigenvectors as well.
in agreement with Eq. (1.92, 1.93). From Eq. (1.220), the spectrum becomes degenerate i.e. E + = E− when
(H11 − H22 )2 + 4 |H21 |2 = 0. That is when H11 = H22 and H12 = H21 = 0. So a 2 × 2 hermitian matrix has a
degenerate spectrum if and only if it is proportional to the identity.
It worths remarking that although functions of θ are expressed simply in terms of the H ij elements by means of
Eqs. (1.223), it is not the case when functions of θ/2 appears. Thus, when we do calculations with the eigenvectors
(1.221, 1.222), it is convenient to keep the results in terms of θ/2 up to the end of the calculation instead of replacing
it in terms of the Hij quantities.
Capı́tulo 2
Nuestro presente entendimiento de la naturaleza requiere reevaluar las leyes de la mecánica clásica, especialmente
en lo referente a los fenómenos atómicos y subatómicos. No obstante, existen manifestaciones macroscópicas de los
procesos cuánticos. A manera de ejemplo, la existencia misma de los sólidos solo se puede explicar en un contexto
cuántico, y los modelos sobre calor especı́fico de los sólidos no se pueden explicar con un modelo clásico.
A finales del siglo diecinueve, se identificaban en la fı́sica dos tipos de entidades bien diferenciadas: la materia y
la radiación. Las leyes de Newton permitı́an explicar los fenómenos relativos a la materia en la escala macroscópica
y las ecuaciones de Maxwell proporcionaban una excelente descripción de la dinámica de la radiación 1 . Finalmente,
la interacción de la materia con la radiación la proporcionaba la ley de fuerza de Lorentz. Es notable el hecho de que
la teorı́a de Maxwell habia logrado la unificación de fenómenos que antes se consideraban separados: la electricidad,
el magnetismo y la óptica.
No obstante, a finales del siglo diecinueve y principios del veinte una serie de experimentos condujeron a reevaluar
la estructura fundamental de la materia y además a replantear las leyes que rigen a estas estructuras fundamentales.
La mecánica cuántica es entonces el resultado de estos replanteamientos. Vale decir por supuesto que al menos en
principio, el mundo macroscópico también se rige por la leyes de la cuántica, si bien para la mayorı́a de fenómenos a
escala humana, la Fı́sica clásica representa una descripción mucho más simple y al mismo tiempo bastante adecuada.
A continuación se realizará una breve descripción de los experimentos que dieron lugar a las nuevas ideas sobre
el mundo microscópico, con el fin de dejar claros los puntos que es necesario reevaluar en la mecánica clásica. La
descripción de estos experimentos no pretende ser completa ni exhaustiva, solo pretende mostrar las ideas que estos
experimentos nos arrojan sobre el comportamiento de la naturaleza a nivel microscópico (atómico y subatómico)
h
E = hν ; p = ~k ; ~ ≡ ; h ' 6,62 × 10−34 Joul × seg (2.1)
2π
De otra parte, los experimentos espectroscópicos nos muestran que la radiación emitida o absorbida debida a
transiciones electrónicas en los átomos solo nos arroja ciertos valores dicretos de la energı́a fundamental del cuanto.
Esto implica que los niveles de energı́a permitidos para un electrón ligado a un átomo también están cuantizados.
Lo anterior llevó a Bohr a postular la cuantización del momento angular asociado al electrón junto con la hipótesis
de ausencia de radiación en contraste con las predicciones de la mecánica clásica. La cuantización de los estados de
energı́a atómicos fué corroborada por los experimentos de Franck y Hertz, en tanto que las reglas de cuantización
fueron perfeccionadas por Wilson y Sommerfeld.
Una vez caracterizada la dualidad onda partı́cula de la radiación, es natural preguntarse si esta dualidad está tam-
bién presente en los objetos fı́sicos que tradicionalmente llamamos materia, por ejemplo en los electrones. Esta
pregunta condujo a De Broglie a postular que el movimiento de una partı́cula está gobernado por la propagación
ondulatoria de ciertas ondas piloto asociadas con la partı́cula. Asumiendo que la energı́a E y el momento p de la
partı́cula también cumplen las relaciones (2.1) dadas para el fotón, De Broglie estimó la frecuencia y la longitud de
onda de las ondas piloto
λ = h/p ; ν = E/h (2.2)
Este postulado fué confirmado por los experimentos de Davidson y Germer sobre difracción de electrones.
Naturalmente, el momento y la energı́a totales se deben conservar en cada proceso, en donde los momentos y
energı́as de la radiación y la materia están dados por los postulados anteriores.
100CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS DE LA MECÁNICA CUÁNTI
Vamos ahora a examinar en más detalle el experimento de Young de la doble rendija. Veremos que este análisis
aportará ideas adicionales con respecto al comportamiento de la naturaleza a nivel subatómico
Figura 2.1: (a) Montaje del experimento de Young con doble rendija. (b) Patrón de intensidades asociado a la
exposición por una sola rendija. La lı́nea punteada indica la suma de los dos patrones de intensidad. (c) Patrón
de intensidades obtenido con la apertura simultánea de las dos rendijas. El contraste con la gráfica punteada nos
muestra que la intensidad resultante no es la suma de las intensidades obtenidas con la apertura de una sola rendija,
revelando la existencia de un patrón de interferencia.
Hemos visto que es necesario incorporar aspectos corpusculares al comportamiento de la radiación electro-
magnética, la pregunta es si debemos abandonar la teorı́a ondulatoria de la radiación electromagnética. Veremos
que no es posible con una teorı́a puramente corpuscular explicar todos los fenómenos relacionados con los fotones,
de manera que tendremos que incorporar tanto los aspectos ondulatorios como corpusculares de la radiación.
El dispositivo utilizado se muestra en la Fig. 2.1, y consiste en una fuente aproximadamente monocromática
frente a la cual se coloca una placa opaca P con dos rendijas pequeñas F 1 y F2 (pequeñas con respecto a la longitud
de onda emitida), detrás de esta placa opaca se ubica una pantalla de observación O que es usualmente una placa
fotográfica. Es importante que las dimensiones de las rendijas sean menores que la longitud de onda, ya que de lo
contrario las intensidades recogidas en la pantalla O serán compatibles con la óptica geométrica que puede explicarse
2.7. EL EXPERIMENTO DE YOUNG DE LA DOBLE RENDIJA 101
con una teorı́a corpuscular. En contraste, el fenómeno de difracción que se presenta cuando las rendijas son pequeñas
nos muestra la naturaleza ondulatoria del fenómeno.
Cuando obstruı́mos la rendija F2 obtenemos sobre la pantalla O una distribución de intensidades I 1 (x) que es
el patrón de difracción generado por la rendija F 1 . Análogamente, al cerrar F1 obtenemos el patrón de intensidades
I2 (x). Si ahora abrimos las dos rendijas simultáneamente obtendremos un nuevo patrón de intensidades I (x). La
primera observación es que la intensidad resultante NO es la suma de las intensidades obtenidas con una sola rendija
¿como podrı́an explicarse estos resultados a la luz de una teorı́a corpuscular?. Es bien conocido que el patrón de
Difracción generado por una sola rendija no puede ser explicado con una teorı́a corpuscular cuando la rendija tiene
una dimensión menor que la longitud de onda incidente. Sin embargo, veremos que aún cuando pudiésemos explicar
el fenómeno de una rendija con una teorı́a corpuscular, el patrón de interferencia que se forma cuando se abren
las dos rendijas entra en conflicto con una teorı́a puramente corpuscular. Asumamos que el patrón de interferencia
que se observa, es generado por la interacción de tipo corpuscular entre los fotones que pasan por la rendija F 1 con
aquellos que pasan por la rendija F2 . De ser ası́, tendrı́amos que si regulamos la potencia de la fuente de tal manera
que los fotones salgan prácticamente uno por uno, se eliminarı́an estas interacciones y por tanto deberı́a desaparecer
este patrón de interferencia, incluso si se espera mucho tiempo para que se depositen mucho fotones sobre O.
Veamos ahora cual serı́a la predicción de una teorı́a puramente ondulatoria. La teorı́a ondulatoria predice que
la intensidad en un punto dado I (x) es proporcional a la amplitud al cuadrado del campo eléctrico evaluado en tal
punto. Cuando las dos rendijas están abiertas es claro que el campo total resultante en tal punto es la superposición
de los dos campos generados por la onda que pasa por cada rendija
si E1 (x) y E2 (x) se escriben en notación compleja, el término de interferencia resultante dependerá de la diferencia
en las fases complejas asociadas a E1 (x) y E2 (x). Esta interferencia explica el patrón de franjas que ocurre en
el fenómeno de difracción por dos rendijas. Si disminuı́mos la potencia de la fuente, las franjas de interferencia
disminuirán en intensidad pero no desaparecerán. De por sı́ este fue uno de los experimentos determinantes en favor
de la teorı́a ondulatoria en el siglo XIX.
Sin embargo, los resultados obtenidos cuando la potencia de la fuente es tal que los fotones se liberan uno a uno,
son realmente sorprendentes y entran en conflicto con la teorı́a puramente corpuscular pero también con la teorı́a
puramente ondulatoria.
Por una parte, si hacemos que el tiempo de exposición sea muy largo de manera que una gran cantidad de fotones
impactan la placa fotográfica, vemos que las franjas de interferencia no desaparecen a pesar de haber eliminado la
interacción entre los fotones. Por tanto, la teorı́a corpuscular no puede predecir este fenómeno. La teorı́a ondulatoria
en cambio ofrece una explicación satisfactoria al respecto.
De otra parte, si el tiempo de exposición lo hacemos muy corto de modo que solo unos pocos fotones impacten
la pantalla, vemos que los impactos sobre la placa son muy localizados como se esperarı́a de un comportamiento
corpuscular, y no se observa el patrón de interferencia con baja intensidad que predecirı́a la teorı́a ondulatoria.
Mas aún si el experimento para tiempos cortos de exposición se repite muchas veces para las mismas condiciones
iniciales (el mismo dispositivo con fotones de la misma energı́a y momento, ası́ como igual tiempo de exposición),
vemos que los pocos impactos localizados en cada experimento pueden tener una distribución muy diferente. Esto
indica que el proceso tiene un carácter altamente aleatorio que no es atribuı́ble al desconocimiento o falta de control
en las condiciones iniciales.
Si en cambio repetimos el experimento muchas veces bajo las mismas condiciones iniciales pero para tiempos
de exposición muy grandes, en los cuales muchos fotones han impactado la placa, vemos que el patrón contı́nuo de
intensidades se forma según lo indicado en la teorı́a ondulatoria, es decir con los patrones adecuados de interferencia.
Para este caso el fenómeno es altamente reproducible, es decir la distribución de intensidades es esencialmente la
misma en cada experimento.
102CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS DE LA MECÁNICA CUÁNTI
Si se hacen experimentos para tiempos de exposición especı́ficos y estos tiempos de exposición se van incre-
mentando gradualmente, vemos que a medida que el tiempo de exposición aumenta el experimento se vuelve más
reproducible, pasando desde resultados muy aleatorios para tiempos de exposición cortos (pocos fotones incidentes)
hasta resultados altamente reproducibles para tiempos muy largos de exposición (muchos fotones incidentes). Esto
revela que la ley fundamental que rige al fenómeno debe ser de naturaleza probabilı́stica, ya que un modelo prob-
abilı́stico en general falla en sus predicciones cuando una muestra posee muy pocos elementos o eventos, pero es
altamente predictivo cuando la muestra consta de un enorme número de elementos o de eventos. En nuestro caso
los eventos son los impactos de los fotones sobre la placa y lo que vemos es que el patrón de interferencia se va
construyendo a medida que los fotones van impactando la placa.
Un aspecto que no hemos tocado hasta aquı́, es el referente a la determinación de la rendija por la cual pasa
cada fotón. Si queremos determinar por cual rendija pasa cada uno de los fotones que se emiten uno por uno,
podemos colocar dos detectores (digamos dos fotomultiplicadores) sobre cada rendija F 1 y F2 , en tal caso podemos
determinar completamente la rendija a través de la cual pasa cada fotón, ya que cuando se emite un fotón una
señal es registrada en uno de los detectores pero no en ambos al tiempo. Sin embargo, en este caso todos los fotones
detectados son absorbidos por los detectores y no alcanzan la pantalla. En otras palabras, la completa determinación
de la rendija por la cual pasa cada fotón destruyó completamente la información sobre el patrón de difracción. Por
otro lado, si dejamos un detector solo en F 1 y dejamos abierto F2 veremos que cuando han pasado muchos fotones
cerca del 50 % han sido detectados (con respecto al experimento anterior). Concluı́mos que los demás han pasado
por F2 pero entonces el patrón de difracción que se construirá gradualmente sobre la pantalla será el correspondiente
a la difracción por una rendija, no se observará entonces el fenómeno de interferencia inherente al experimento con
dos rendijas. Una vez más el proceso de medición (determinación de la rendija de paso) ha alterado la evolución
posterior del sistema.
En lo referente al carácter probabilı́stico cuántico, es necesario distinguirlo de los aspectos probabilı́sticos que se
emplean usualmente en mecánica clásica. En la termodinámica y especialmente en la mecánica estadı́stica clásica, se
utilizan conceptos de probabilidad y estadı́stica debido a que en la práctica (experimental) no es posible determinar
o controlar las condiciones iniciales de muchas partı́culas, aunado con la dificultad práctica (teórica) de resolver un
gran número de ecuaciones diferenciales acopladas. Se asume sin embargo en las teorı́as clásicas que si conozco todas
las condiciones iniciales puedo al menos en principio predecir las trayectorias exactas de las partı́culas y por tanto
de mi sistema como un todo. En cuántica nos vemos avocados a usar la probabilidad incluso con el conocimiento
y/o control de las condiciones iniciales del sistema, estamos hablando entonces de un comportamiento probabilı́stico
esencial e inherente a las leyes de la naturaleza, al menos en nuestra presente interpretación de los fenómenos.
afirmación será reforzada más adelante cuando discutamos el principio de incertidumbre de Heisenberg. Para resolver
esta paradoja es necesario abandonar la idea de que cada fotón pasará inevitablemente por una rendija especı́fica,
lo cual nos lleva a su vez a cuestionar el concepto de trayectoria, tan firmemente establecido en la mecánica clásica.
Ahora bien, hemos visto que cuando unos pocos fotones han impactado la pantalla, la distribución de estos
fotones no es reproducible a pesar de que los experimentos se repitan bajo las mismas condiciones iniciales. Esto
implica que para un fotón dado no podemos predecir con total certeza en qué punto golpeará a la pantalla incluso
si conocemos sus condiciones iniciales. En consecuencia, el conocimiento de las condiciones iniciales de un sistema
no determina completamente el movimiento subsecuente de éste. No obstante, el hecho de que el mismo patrón de
interferencia se construya cuando el número de fotones es muy alto, nos indica que las condiciones iniciales nos
pueden determinar una distribución de probabilidad que sı́ puede ser especificada por alguna ecuación dinámica. En
este caso especı́fico, la probabilidad de que un fotón golpee la pantalla dentro de un intervalo entre el punto x y el
punto x + dx, es proporcional a I (x) dx calculado con la teorı́a ondulatoria, es decir será proporcional a |E (x)| 2 dx.
Nótese que el principio de superposición que rige el comportamiento de los fenómenos ópticos clásicos está basado
en el hecho de que las ecuaciones de Maxwell sin fuentes son ecuaciones lineales y homogéneas, para las cuales vale
el principio de superposición, si E 1 y E2 son soluciones de las Ecs. de Maxwell sin fuentes, una combinación lineal
de ellas también lo es.
Los anteriores hechos se pueden entonces postular en la siguiente forma:
Los aspectos corpusculares y ondulatorios de la luz son inseparables. De modo que la luz se comporta simultánea-
mente como onda y como flujo de partı́culas. Las predicciones sobre el comportamiento del fotón son solo de carácter
probabilı́stico. El comportamiento ondulatorio nos dictamina la distribución de probabilidad de su manifestación co-
mo partı́cula (fotón). La información fı́sica sobre el fotón en un momento dado está determinada por la componente
E (r, t) de la onda electromagnética que es solución de las ecuaciones de Maxwell. El campo E (r, t) caracteriza al
estado de los fotones en el tiempo t. Dicho campo se interpreta como la amplitud de probabilidad de que un fotón
aparezca en el punto r en el tiempo t. Esto implica que la correspondiente probabilidad de que un fotón esté en el
volumen d3 r centrado r está dada por |E (r, t)| 2 d3 r.
Más adelante veremos que la amplitud de probabilidad E (r, t) tendrá su análogo para la materia en la denom-
inada función de onda ψ (r, t). Si bien existen muchas analogı́as entre E (r, t) y ψ (r, t) también existen algunas
diferencias importantes, por ejemplo E (r, t) no caracteriza completamente al estado de un fotón, en tanto que la
función de onda caracteriza completamente el estado de una partı́cula sin espı́n. La función de onda es esencial-
mente compleja en tanto que E se hace complejo solo por conveniencia. La teorı́a cuántica completa para los fotones
(electrodinámica cuántica) debe tener en cuenta el carácter eminentemente relativista de las ecuaciones de Maxwell
y además corresponde a la cuantización de un medio que es clásicamente contı́nuo (campos electromagnéticos).
En contraste, la mecánica cuántica para partı́culas corresponde a la cuantización de un medio que clásicamente
se considera discreto (partı́culas puntuales) y que en muchos casos se puede tratar como no-relativista. Aquı́ solo
trabajaremos la mecánica cuántica no relativista de medios clásicamente discretos y por tanto no trabajaremos el
problema concerniente al proceso matemático de cuantización del fotón.
Figura 2.2: (a) Montaje experimental para medidas de polarización. En z < 0 tenemos luz no polarizada que en
z = 0 se polariza en la dirección up . El analizador A suprimirá la componente u y del campo eléctrico polarizado.
que surge básicamente de la eliminación de la componente a lo largo de u y en la Ec. (2.3). La intensidad de la onda
que pasó el analizador está dada por |E 00 |2 es decir
I 0 = I cos2 θ
El experimento muestra además el siguiente resultado, si el fotón está polarizado a lo largo de u x dicho fotón
pasará con toda certeza el analizador (con probabilidad 1). Análogamente, si el fotón está polarizado a lo largo de u y
hay una certeza total de que este fotón será absorbido (probabilidad cero para pasar). Estas aseveraciones requieren
naturalmente de una repetición de una gran cantidad de experimentos que muestren la naturaleza probabilı́stica
para fotones con estas polarizaciones. Adicionalmente, se observa que estos son los únicos estados de polarización
que conducen a una total certeza en la medida. Por esta razón llamaremos a estos estados de polarización estados
propios o autoestados. Vemos además que a cada resultado propio le corresponde un estado propio, el resultado
propio “fotón que cruza” está asociado con el estado propio de polarización a lo largo de u x . El resultado propio
“fotón que se absorbe” está asociado a fotones con polarización u y . En otras palabras, para un estado propio tenemos
total certeza de obtener su correspondiente resultado propio. Matemáticamente podemos describir nuestros dos
estados propios como
u(1) (2)
p = ux ; up = uy
La siguiente pregunta obvia es ¿cuál es la probabilidad de obtener un resultado propio dado, cuando el estado
es una superposición de los estados propios? es decir cuando el estado de polarización del fotón es arbitrario i.e.
para obtener la distribución de probabilidad es necesario tener una gran cantidad de eventos para cada estado de
polarización. Esto se logra midiendo muchos fotones que poseen las mismas condiciones iniciales 2 y se encuentra
experimentalmente que para un número N (grande) de fotones con polarización dada por un ángulo θ en (2.4) un
número N cos2 θ de ellos pasará, y N sin2 θ de ellos será absorbido. Por tanto, un fotón especı́fico con polarización
definida por θ tiene una probabilidad cos 2 θ de ser transmitido y una posibilidad sin 2 θ de ser absorbido. Esto
coincide con la ley clásica de Malus como esperábamos cuando el número de fotones es grande.
Lo anterior nos indica que la probabilidad de obtener un cierto resultado propio es proporcional al cuadrado del
valor absoluto del coeficiente del estado propio asociado, al coeficiente lo llamamos la amplitud de probabilidad, las
amplitudes de probabilidad A (i) y las probabilidades P (i) para cada resultado propio son en este caso
D D 2
(1)
A (1) = cos θ = u(1)
p u p i ; P (1) = cos 2
θ = u p u p i
D D 2
(2)
A (2) = sin θ = u(2) 2
p up i ; P (2) = sin θ = up up i
en algunos casos será necesario colocar una constante de proporcionalidad para garantizar que la suma de las
probabilidades de todos los resultados propios sea uno.
Esto nos induce a postular que si tenemos un conjunto de autoresultados {R i } asociados a autoestados {ψi } un
estado arbitrario se escribirá como superposición de los autoestados
X
ψ= ci ψi (2.5)
i
|ck |2
P (Rk ) = P 2 (2.6)
i |ci |
o equivalentemente
|hψk | ψi|2
P (Rk ) = (2.7)
hψ| ψi
donde el denominador me asegura la conservación de la probabilidad
X
P (Ri ) = 1
i
2
Nótese que el polarizador tiene el papel de reproducir las mismas condiciones iniciales en cada conjunto de experimentos.
106CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS DE LA MECÁNICA CUÁNTI
puesto que el conjunto de todos los autoresultados es por definición el conjunto de todos los resultados experimentales
que podemos obtener al medir el sistema. Esta afirmación se denomina el principio de descomposición espectral.
El ejemplo de los fotones polarizados nos indica además que la descomposición espectral especı́fica depende del
tipo de instrumento de medición dado que hay que utilizar los autoestados que corresponden a este aparato. Por
ejemplo, si el analizador (aparato de medición) tiene una orientación diferente, los autoestados estarán definidos
según esta nueva dirección. Si en vez de un analizador tenemos un medidor de otra variable fı́sica (por ejemplo el
espı́n) los autoresultados deben definirse correspondientemente y por lo tanto los autoestados.
Supongamos que dos fotones poseen la misma polarización pero se diferencian en otros observables fı́sicos (mo-
mento, espı́n, etc.), un aparato que mide polarización solo puede dicernir los diferentes valores de este observable,
por tanto si existen otros observables que caracterizan a mi partı́cula, al autovalor de polarización {a}, le corre-
sponde mas de un autoestado ya que todos los autoestados con polarización {a} están asociados a este autovalor
sin importar cuales sean los valores de los otros observables. Decimos que los autoestados están degenerados con
respecto al observable o autovalor {a} lo cual según la presente discusión indica que solo tenemos una información
parcial sobre el sistema. Volveremos sobre el tema de la degeneración más adelante.
La consistencia de estos resultados se puede analizar poniendo un segundo analizador A 0 después de A y que
permita el paso de fotones con polarización en u x . Dado que todos los fotones que pasaron por A quedaron “prepara-
dos” en el estado de polarización u x , todos estos fotones están en un solo autoestado del nuevo analizador A 0 con
autoresultado “el fotón pasa”. Por tanto, todos los fotones que pasaron por A deben pasar por A 0 . Similarmente, si
A0 está orientado según uy , todos los fotones que vienen de A deben ser absorbidos en A 0 . Estas predicciones están
confirmadas por los experimentos.
Analicemos ahora un aspecto de la medición directamente asociado con la naturaleza cuántica de la radiación.
Al ser el fotón un cuanto indivisible solo existe la posibilidad de transmisión o absorción, esto desembocó en el
hecho de que a partir de un estado arbitrario de polarización, hay un cambio abrupto luego de la medición para
los fotones que pasan, pues estos pasan de la polarización u p a la polarización ux que corresponde a un autoestado
de mi aparato. Existe entonces una perturbación fundamental que altera el estado del sistema y que no puede ser
disminuı́da. Nótese que después de la medición (preparación del fotón en un autoestado) tenemos una información
adicional “el fotón ha pasado el analizador”.
Lo anterior es entonces una confirmación de que el proceso de medición perturba de manera fundamental el estado
del sistema. Podrı́amos en este punto postular que luego del proceso de medición, el sistema queda preparado en
un estado propio definido por el sistema mismo y por el aparato de medición.
E = hν = ~ω ; p = ~k (2.8)
una estimación de la longitud de onda de la materia ordinaria nos permite comprender porqué no observamos la
naturaleza ondulatoria de la materia ordinaria en el mundo macroscópico.
En virtud de la gran simetrı́a que parece existir entre la radiación y la materia, vamos a incorporar las ideas
ya recogidas de los experimentos ópticos para incorporarlas a la naturaleza de las partı́culas materiales. Estas
extrapolaciones están soportadas en el hecho de que experimentos similares a los ópticos se pueden realizar con
los electrones y otras partı́culas materiales, y observar que el comportamiento es muy similar al mostrado por los
fotones.
Comenzaremos entonces por mencionar que el concepto clásico de trayectoria será sustituı́do por el concepto de
una distribución dinámica (dependiente del tiempo) de probabilidad de que la partı́cula esté en cierta región del
espacio. Para ello será necesario encontrar una amplitud de probabilidad ψ (r, t) que estará asociada a un campo
escalar. A esta amplitud de probabilidad se le conoce como función de onda y me define el estado de una partı́cula
en un instante dado, es decir contiene toda la información posible sobre la partı́cula. La probabilidad de encontrar
a la partı́cula en un volumen d3 r está dada por
donde C es una constante de normalización. Puesto que los experimentos muestran que esta distribución de proba-
bilidad presenta las propiedades ondulatorias, es necesario que la ecuación de movimiento que la genera sea lineal y
homogénea para que se cumpla el principio de superposición que se requiere para los fenómenos de interferencia. Es
claro que estos fenómenos de interferencia se verán reflejados en la probabilidad (al igual que en la intensidad en los
fenómenos ópticos), al elevar al cuadrado la cantidad ψ (r) (el análogo a E (r, t) en óptica). Dado que la partı́cula
debe estar siempre en algún lugar, es claro que la probabilidad total debe ser igual a la unidad
Z
C |ψ (r, t)|2 d3 r = 1 (2.10)
esto nos indica entonces que los estados fı́sicos ψ (r, t) deben ser funciones de cuadrado integrable en todas las
regiones accesibles a la partı́cula (es posible que ciertas condiciones fı́sicas hagan que algunas regiones no sean
accesibles). En otras palabras, la integral sobre el volumen accesible de la partı́cula debe ser convergente.
Asumiremos además que se cumple el principio de descomposición espectral aplicado a la medida de una cantidad
fı́sica arbitraria. Esto significa que (a) El resultado de la medida debe pertenecer a un conjunto de autoresultados
{a}. (b) Con cada autovalor a se asocia un autoestado, es decir una autofunción ψ a (r). Esta autofunción cumple la
condición de que si ψ (r, t0 ) = ψa (r) siendo t0 el instante en el cual se realiza la medida, el resultado de tal medida
nos dará con toda certeza el autovalor a. (c) Para todo estado ψ (r, t) la probabilidad P a de obtener el autovalor
a cuando se realiza una medida en el tiempo t 0 , se encuentra descomponiendo ψ (r, t) en los autoestados ψ a (r, t)
X |ca |2 X
ψ (r, t0 ) = ca ψa (r) ; Pa = P 2 ; Pa = 1
a b |cb | a
en virtud de la arbitrariedad del estado inicial ψ (r, t 0 ), lo anterior implica que los autoestados ψ a (r) deben ser
completos, es decir deben formar una base para el conjunto de todos los estados fı́sicos posibles, esto nos llevará de
manera natural al concepto de observable. (d) Si la medida nos arroja un autovalor a, la partı́cula quedará en su
autoestado asociado ψa (r). (e) La ecuación que describe la evolución del sistema (evolución temporal de la amplitud
de probabilidad) debe ser lineal y homogénea en ψ. Debe tener soluciones de naturaleza ondulatoria compatibles
con las relaciones de De Broglie, en la siguiente sección estudiaremos con más detalle estas propiedades.
Es importante observar que cuando realizamos el paso de suplantar la trayectoria de una partı́cula (clásicamente
puntual), por una distribución dinámica de probabilidad (un campo) estamos reemplazando un estado clásico de
partı́cula puntual de seis parámetros en cada tiempo (tres coordenadas de posición y tres de velocidad), por un
estado cuántico determinado por un número infinito de parámetros: el valor de la función de onda en cada punto
del espacio (y en el tiempo dado). El hecho de que la distribución de probabilidad dependa del tiempo nos llevará al
concepto de propagación de la onda asociada con la partı́cula. A manera de ejemplo, en el experimento de la doble
rendija de Young cuando se observa el patrón de interferencia no poseemos información sobre la rendija por la cual
pasó cada fotón (también vale para electrones u otras partı́culas materiales), en realidad la onda asociada para por
ambas rendijas y solo podemos calcular la probabilidad de que pase por una de ellas.
108CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS DE LA MECÁNICA CUÁNTI
Es importante mencionar sin embargo, que la simetrı́a materia radiación exhibida hasta el momento posee
una excepción importante: los fotones son en general emitidos (creados) o absorbidos (destruı́dos) durante un
experimento. En contraste, las partı́culas materiales no se crean ni se destruyen en los experimentos tı́picos. Por
ejemplo, un electrón emitido por un filamento caliente ya existı́a previamente en el filamento. De la misma forma
un electrón absorbido en un detector no desaparece, simplemente se vuelve parte de un átomo del detector o de una
corriente en éste. En realidad la teorı́a de la relatividad predice que es posible la creación y aniquilación de partı́culas
materiales: por ejemplo un fotón de alta energı́a que pasa cerca a un átomo puede crear un par electrón positrón
(partı́cula antipartı́cula). Recı́procamente, una colisión electrón positrón aniquila a ambas partı́culas emitiendo un
fotón, esta conversión radiación materia o viceversa es posible gracias a la equivalencia energética de la masa. Sin
embargo, en el lı́mite no relativista la materia no se puede crear ni destruı́r, lo cual nos lleva a una ley importante de
conservación del número de partı́culas. En particular, para sistemas de una partı́cula podemos hacer la afirmación
de que la partı́cula está en alguna parte para todo tiempo, lo cual nos indica una conservación de la probabilidad
(la integral de volumen 2.10 debe ser la unidad para todo tiempo).
Resumamos entonces las diferencias importantes entre materia y radiación que nos conducen a que la teorı́a
cuántica para la materia es más sencilla. (a) Los fotones son irremediablemente relativistas, la materia en cambio
puede estar en un régimen no relativista y de hecho para sólidos a temperaturas normales los electrones y núcleos
tienen velocidades mucho menores que la de la luz. Por tanto, para la materia tiene sentido una teorı́a cuántica no
relativista pero no para la radiación. (b) La naturaleza relativista de los fotones (y de la materia a altas energı́as)
conduce a que el número de fotones no se conserva en el tiempo, por tanto la distribución de probabilidad debe
colapsar para tiempos anteriores a la emisión y posteriores a la absorción, la Ec. (2.10) no es válida para todo
tiempo y debe incorporarse una ecuación o ecuaciones que me den cuenta de la dinámica en el número de partı́culas
(dinámica de creación y destrucción). (c) Desde el punto de vista clásico las partı́culas suelen modelarse como medios
discretos (partı́culas puntuales), en tanto que el escenario clásico del fotón corresponde a medios contı́nuos (campos
electromagnéticos). La cuantización de la materia se asocia entonces a menudo con la cuantización de un medio
clásicamente discreto (teorı́a cuántica “ordinaria”), en tanto que la cuantización de la radiación está necesariamente
asociada a la cuantización de un medio clásicamente contı́nuo (teorı́a cuántica de campos).
La Fig. 2.3 muestra la forma de cada una de estas tres ondas (sus partes reales) y de la superposición. La Ec.
(2.20) muestra que |ψ (x)| es máximo cuando x = 0, lo cual se aprecia en la Fig. 2.3 en virtud de que en x = 0
las tres ondas están en fase y por lo tanto interfieren constructivamente. A medida que nos movemos desde x = 0
(hacia la izquierda o la derecha) las ondas están cada vez más en desfase de modo que |ψ (x)| va disminuyendo,
hasta que la interferencia se vuelve totalmente destructiva en ciertos puntos x n (posiciones de los nodos), cuando la
diferencia de fase entre eik0 x y ei(k0 ±∆k/2)x es igual a (2n + 1) π, siendo n un entero no negativo. Los nodos x n más
cercanos a x = 0 están asociados a una diferencia de fase π
∆k ∆k
k0 xn − k0 xn ± xn = π⇒∓ xn = π
2 2
∆k 2π
xn = ∓π ⇒ xn = ∓
2 ∆k
Dado que el paquete es simétrico y está centrado en x = 0, el ancho del paquete es ∆x = 2 |x n |
4π
∆x = ⇒ (∆x) (∆k) = 4π (2.21)
∆k
esto nos muestra que a medida que el ancho ∆k de la función ψ̄ (k) decrece, el ancho ∆x de la función |ψ (x)|
aumenta, siendo ∆x la distancia entre dos ceros de |ψ (x)|. Similarmente, si el ancho del paquete ∆x disminuye
(paquete más localizado), el ancho ∆k de ψ̄ (k) debe aumentar a fin de mantener la relación (2.21).
Si asumimos ik0 x es mucho mayor a la frecuencia del término
∆k
que k0 >> ∆k entonces la frecuencia del término e
1 + cos 2 x . Por lo tanto, la parte oscilante en x para la Ec. (2.20) está dada por la función e ik0 x y la envolvente
(modulación de la amplitud de oscilación) está dada por
g (k0 ) ∆k
|ψ (x)| = √ 1 + cos x
2π 2
2.9. ASPECTOS ONDULATORIOS DE UNA PART ÍCULA MATERIAL 111
esta amplitud de la envolvente o función moduladora de la amplitud se ilustra como lı́nea punteada en la Fig. 2.3.
En este caso, vemos que la envolvente dada por |ψ (x)| es periódica en x de modo que tenemos un tren infinito de
paquetes de onda con una serie de nodos y máximos. Este hecho se debe a que la superposición es de un número
finito de ondas planas. Para una superposición contı́nua de un número infinito de ondas como el dado en (2.17), este
fenómeno no ocurre y tendremos en general un solo máximo para el perfil |ψ (x, 0)|. En realidad, lo que esperamos
de una onda piloto asociada a una partı́cula es un solo paquete relativamente “localizado” alrededor del máximo
del paquete (región de mayor probabilidad de localizar a la partı́cula).
Retornemos ahora al caso general de una superposición contı́nua de la forma (2.17), aquı́ el fenómeno de in-
terferencia es más complejo pero de nuevo tendremos un máximo en |ψ (x, 0)| cuando las diferentes ondas viajeras
interfieran constructivamente.
Escribamos, ψ̄ (k, 0) en notación polar con α (k) el argumento y ψ̄ (k, 0) la longitud del fasor
ψ̄ (k, 0) = ψ̄ (k, 0) eiα(k) (2.22)
ahora
asumamos
que α (k) varı́a lentamente en el intervalo [k 0 − ∆k/2, k0 + ∆k/2] donde la longitud del fasor
ψ̄ (k, 0) es apreciable. Cuando ∆k es suficientemente pequeño, podemos expandir a α (k) en las vecindades de
k = k0
dα
α (k) ' α (k0 ) + (k − k0 )
dk k=k0
reemplazando esta expansión en (2.17) se obtiene
Z ∞ Z ∞
1 1
ψ (x, 0) = √ ψ̄ (k) eikx dk = √ ψ̄ (k) eiα(k) eikx dk (2.23)
2π −∞ 2π −∞
Z k0 + ∆k h i
1 2 i α(k0 )+(k−k0 )[ dα
dk ]k=k0
+kx
' √
ψ̄ (k) e dk
2π k0 − ∆k 2
Z k0 + ∆k h i
1 2 i α(k0 )+(k−k0 )[ dα
dk ]k=k0
+kx−k0 x+k0 x
= √
ψ̄ (k) e dk
2π k0 − ∆k 2
Z k0 + ∆k h i
1 2 i α(k0 )+(k−k0 )[ dα
dk ]k=k0
+(k−k0 )x+k0 x
= √
ψ̄ (k) e dk
2π k0 − ∆k 2
Z ∆k n o
ei[α(k0 )+k0 x] k0 + 2 i (k−k0 ) [ dα ]
+x
= √ ψ̄ (k) e dk k=k0
dk (2.24)
2π k0 − ∆k
2
quedando finalmente
Z k0 + ∆k
ei[k0 x+α(k0 )] 2
ψ (x, 0) ' √ ψ̄ (k) ei(k−k0 )(x−x0 ) dk (2.25)
2π k0 − ∆k
2
dα
x0 ≡ − (2.26)
dk k=k0
La expresión (2.25) es útil para un análisis cualitativo de las variaciones de |ψ (x, 0)| con x. Partiendo de k = k 0 el
siguiente valor kb para el cual se ha ejecutado una oscilación es
2π
(kb − k0 ) (x − x0 ) = 2π ⇒ (kb − k0 ) =
(x − x0 )
De modo que el valor de |x − x0 | nos dice si |kb − k0 | es mayor o menor que ∆k/2 o en otras palabras, si en el
intervalo de integración definido en (2.25) el integrando ha logrado o no completar una oscilación. Cuando |x − x 0 |
es grande i.e. cuando |x − x0 | >> 2π/∆k, se tiene que
2π
(kb − k0 ) = << ∆k
(x − x0 )
112CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS DE LA MECÁNICA CUÁNTI
Figura 2.4: Variaciones con respecto a k, de la parte real del integrando en la Ec. (2.25) (a) cuando x es fijo en un
valor tal que |x − x0 | > 1/∆k, en tal caso la función oscila varias veces en el intervalo ∆k. (b) Cuando x es fijo en
un valor tal que |x − x0 | < 1/∆k, en tal caso la función oscila muy poco en tal intervalo y la función ψ (x, 0) toma
valores grandes. Por tanto, el centro del paquete
de ondas (punto donde |ψ (x, 0)| es máximo) se ubica en x=x 0 .
En todo el análisis se ha supuesto que ψ (k) es una función simétrica centrada en k 0 , con un perfil similar a una
campana de Gauss.
de modo que una oscilación en el integrando de (2.25) se realiza en un intervalo mucho menor que el ancho de
integración. En consecuencia, la función de k que se integra en (2.25) oscila muchas veces dentro del intervalo ∆k
y las contribuciones de las sucesivas oscilaciones se cancelan entre sı́ (Fig. 2.4a); por tanto, la integral sobre k se
vuelve muy pequeña. Es decir que cuando x está fijo en un valor lejano a x 0 las fases de las diversas ondas que
constituyen a ψ (x, 0) varı́an muy rápidamente en el dominio ∆k, y forman entre ellas una interferencia destructiva.
Por otra parte, cuando x ' x0 , o en otras palabras cuando
|x − x0 | << 1/∆k
se tiene que
|kb − k0 | >> 2π∆k > ∆k
la función que se integra sobre k solo realiza una pequeña fracción de la oscilación a partir de k 0 y dado que
|k − k0 | < ∆k para un k que esté en el intervalo de integración, se tiene que
1 ∆k ∆k
|k − k0 | |x − x0 | < < ∆k = 1 , k ∈ k0 − , k0 +
∆k 2 2
ψ̄ (k) ei(k−k0 )(x−x0 ) ' ψ̄ (k) (2.27)
de modo que la exponencial apenas modifica un poco el perfil de ψ̄ (k) (Fig. 2.4b), y en el proceso de integración
la fase se mantiene casi constante, por tanto la interferencia es constructiva y |ψ (x, 0)| es máximo.
De otra parte, la Ec. (2.27) se convierte en una igualdad para la posición x M tal que xM = x0 , en cuyo caso no
hay oscilación y la interferencia es completamente constructiva. Por tanto, la posición x M (0) = x0 corresponde al
centro del paquete de onda (máximo del módulo del paquete) que de acuerdo con la Ec. (2.26) viene dada por:
dα
xM (0) = x0 = − (2.28)
dk k=k0
alternativamente, se puede ver que (2.28) nos da la posición del centro del paquete teniendo en cuenta que la Ec.
(2.17) adquiere su máximo en valor absoluto cuando las ondas de mayor amplitud (aquellas con k cercano a k 0 )
interfieren constructivamente. Esto ocurre cuando las fases que dependen de k de estas ondas varı́an lentamente
2.9. ASPECTOS ONDULATORIOS DE UNA PART ÍCULA MATERIAL 113
alrededor de k0 . Para obtener el centro del paquete se impone que la derivada con respecto a k de la fase sea cero
para k = k0 , esta fase se puede ver en la segunda igualdad de la Ec. (2.23) y se obtiene
d dα
[kx + α (k)]k=k0 = 0 ⇒ x + =0 (2.29)
dk dk k=k0
∆k · |x − x0 | & 2π
donde hemos definido el “umbral” para |x − x 0 | como el valor para el cual se ejecuta una oscilación. Si definimos
∆x ≡ |x − x0 | /2π como el ancho tı́pico del paquete, tenemos
∆k ∆x & 1 (2.30)
lo cual nos da una relación entre los anchos de dos funciones que son transformadas de Fourier una de otra.
Observemos de nuevo que no hay una única manera de definir el ancho ∆x, por ejemplo podemos definir este ancho
con dos oscilaciones, con tres etc, entre mayor sea el número de oscilaciones mayor es el efecto de cancelación, el
ancho será mayor y estaremos tomando una mayor porción del área bajo la curva. De la misma forma, puedo tomar
el ancho ∆k cuando la altura ψ̄ (k) es 1/2, 1/e, 1/3 etc, es decir puedo ensanchar ∆k para tomar una porción más
grande del área bajo la curva y tener mejores aproximaciones. En vista de lo anterior, el hecho importante es que
este producto tiene una cota inferior, ya que el valor preciso de esta cota depende de la definición de los anchos ∆k
y ∆x. Esta es la razón para utilizar el sı́mbolo & en la Ec. (2.30) en lugar de ≥.
La relación (2.30) nos dice además que no es posible construı́r paquetes cuyo producto de anchos sea mucho
menor que uno, pero en cambio sı́ es posible construı́r paquetes cuyo producto de anchos sea mucho mayor que uno.
Nótese que este análisis ha sido completamente matemático, k y x pueden ser variables arbitrarias siempre
que ψ (x, 0) y ψ̄ (k) sean transformadas de Fourier la una de la otra. No existe ninguna suposición fı́sica en estos
argumentos.
El presente análisis se utiliza en ondas clásicas asignando a k el número de onda y a x la variable espacial en
una dimensión. La Ec. (2.30) demuestra que a medida que un paquete de ondas se hace más monocromático (a
medida que se reduce ∆k) el ancho ∆x del paquete de onda espacial se hace mayor. En un paquete estrictamente
monocromático ∆k → 0 y por tanto ∆x → ∞, por lo cual las ondas monocromáticas no corresponden a estados
fı́sicos. Este mismo principio nos muestra que no existe un tren de ondas electromagnéticas para el cual se pueda
definir la posición y la longitud de onda con infinita precisión al mismo tiempo.
ψ̄ (k) = δ (k − k0 ) ; ∆k → 0
114CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS DE LA MECÁNICA CUÁNTI
donde el hecho de que ∆k → 0 se vé claramente si vemos a la delta de Dirac como el lı́mite de Gaussianas cada vez
más altas y agudas. La relación ∆k → 0 junto con la Ec. (2.30) nos lleva a que ∆x → ∞ como ya se dijo.
A la luz del principio de descomposición espectral este resultado se puede ver de la siguiente forma: A la
partı́cula en t = 0 le hemos asignado una función de onda ψ (x, 0) = Ae ikx y hemos visto que posee un momento
bien determinado. Es decir que una medida del momento en t = 0 dará definitivamente el valor p = ~k 3 . De esto se
deduce que Aeikx caracteriza al autoestado correspondiente al autovalor p = ~k. Puesto que existen ondas planas
para todos los valores de k, los autovalores de p que se pueden obtener en una medición del momento sobre un estado
arbitrario son todos los valores reales. En este caso no hay cuantización de los autoresultados, todos los valores del
momento son permitidos como en la mecánica clásica. Ahora bien, la total determinación de p viene acompañada
por una completa incertidumbre en x.
Volvamos ahora al caso de un paquete como el dado por (2.17). Como ψ (x, 0) es una superposición lineal de
autofunciones del momento eikx con coeficientes ψ̄ (k, 0), el principio de descomposición espectral nos conduce a
2
interpretar a ψ̄ (k, 0) dk (con un posible factor de normalización) como la probabilidad de encontrar un valor de
momento entre p = ~k y p + dp = ~ (k + dk), cuando hacemos una medida en t = 0 del momento de una partı́cula
cuyo estado es descrito por ψ (x, 0) en (2.17). Esta interpretación es necesaria cuando el autovalor tiene un espectro
contı́nuo ya que en este caso la probabilidad de estar en un
punto2 matemático especı́fico serı́a cero y solo es finita la
probabilidad de estar en un intervalo dado. En este caso ψ̄ (k, 0) serı́a una densidad de probabilidad (probabilidad
por unidad de volumen unidimensional), y no una probabilidad como ocurre en el caso discreto.
Ahora bien, dado que para una partı́cula es más usual hacer medidas de momento y energı́a que de frecuencia
angular y número de onda, es más adecuado escribir las expresiones en términos de E y p usando las relaciones de
De Broglie Ecs. (2.8)4 . En particular, la Ec. (2.17) se reescribe como
Z
1
ψ (x, 0) = √ ψ̄ (p, 0) eipx/~ dp
2π~
dado que las transformadas de Fourier satisfacen la relación de Bessel parseval (invarianza de la norma)
Z ∞ Z ∞
hψ| ψi (0) = 2
|ψ (x, 0)| dx = ψ̄ (p, 0)2 dp ≡ C
−∞ −∞
∆x ∆p & ~ (2.31)
para dar una interpretación fı́sica a (2.31), supongamos que el estado de una partı́cula está definido por el paquete
de onda (2.16). En tal caso, la probabilidad de encontrar la partı́cula en t = 0 dentro del intervalo [x 0 − ∆x/2,
x0 + ∆x/2] es prácticamente uno. Decimos entonces que ∆x es la incertidumbre en la medida de la posición de la
partı́cula. Similarmente, si medimos el momento de la partı́cula en el mismo tiempo (t = 0) tal probabilidad es casi
uno dentro del intervalo [p0 − ∆p/2, p0 + ∆p/2]. Es decir que ∆p mide la incertidumbre en la determinación del
momento de la partı́cula.
A la luz de lo anterior la Ec. (2.31) expresa que es imposible medir al mismo tiempo la posición y el momento
de la partı́cula con grado arbitrario de exactitud. Cuando alcanzamos el lı́mite inferior en (2.31) una disminución en
∆x (es decir un aumento en la exactitud de la medición de la posición) conduce a un aumento en ∆p (es decir un
aumento en la incertidumbre de la medida del momento, o equivalentemente una disminución en la exactitud de tal
3
Este punto es quizás el más adecuado para decir que siempre hemos tratado con medidas ideales. Decir que la medida del momento
está completamente definida no es experimentalmente cierto. Lo que en realidad se quiere decir es que en este caso no hay una perturbación
fundamental que cambie drásticamente el sistema y por tanto las demás perturbaciones se puede hacer cada vez más pequeñas.
4
En otras palabras, es más usual medir parámetros de materia que parámetros de onda.
2.10. EL PRINCIPIO DE COMPLEMENTARIEDAD PARA LA DUALIDAD ONDA PART ÍCULA Y SU RELACIÓN
medida) y viceversa. Este enunciado se conoce como el principio de incertidumbre de Heisenberg. Notemos
que el valor del término de la derecha en (2.31) nos expresa más bien un orden de magnitud que un lı́mite inferior
preciso.
Es de anotar que si bien hay un análogo clásico del principio de incertidumbre para las ondas, no hay un análogo
clásico para las partı́culas. En realidad hemos visto que el principio de incertidumbre está asociado inicialmente a
los parámetros de onda, que se conectan a los parámetros de partı́cula por medio de las relaciones de De Broglie,
estas a su vez están asociadas a la dualidad onda partı́cula que es una caracterı́stica cuántica. La pequeñez de ~
hace que este principio de incertidumbre no se manifieste en los sistemas macroscópicos.
Figura 2.5: Variante del experimento de Young de la doble rendija, para el cual la placa opaca P, puede desplazarse
verticalmente.
La discusión sobre el experimento de la doble rendija nos ha mostrado que si bien la dualidad onda partı́cula
es necesaria para explicar los resultados, ambas manifestaciones parecen ser mutuamente excluyentes. La perfecta
determinación de las propiedades ondulatorias (patrón de interferencia con doble rendija) nos conduce a una total
ignorancia sobre la rendija por la cual pasa cada fotón (propiedad de “trayectoria” asociada a una partı́cula). Por
otro lado, la perfecta determinación de la rendija por la cual pasa cada fotón (determinación de sus propiedades de
partı́cula) conduce a la completa destrucción del patrón de interferencia (i.e. de sus propiedades ondulatorias). Se
dice entonces que los aspectos ondulatorio y material de la partı́cula son complementarios.
Vamos ahora a reconsiderar el experimento de la doble rendija para demostrar la profunda relación entre el
principio de complementariedad y el principio de incertidumbre de Heisenberg. Para ello analizaremos una variante
del experimento de la doble rendija ilustrada en la Fig. 2.5.
Asumamos que la placa opaca P sobre la cual se perforan las rendijas está montada sobre cojinetes que permiten
su desplazamiento vertical. Asumiremos que el foco de los fotones está muy lejos, de modo que podemos suponer
116CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS DE LA MECÁNICA CUÁNTI
que todos los fotones inciden perpendicularmente sobre la placa P. Un fotón que golpea la placa de observación O
en el punto M (de coordenada x respecto al origen O), tuvo que sufrir un cambio de momento que fué absorbido
por P a fin de mantener el momento conservado. Nótese que si el fotón de momento p = hν/c pasa por la rendija
F1 , el momento transferido a P es
hν
p1 = − sin θ1 (2.32)
c
y si pasa por la rendija F2 , tal momento transferido es
hν
p2 = − sin θ2 (2.33)
c
Siendo θ1 el ángulo de deflexión del fotón cuando cruza la rendija F 1 e impacta en el punto M . El ángulo θ2 se
define similarmente con la rendija F 2 . Por tanto, el momento transferido a P depende de la trayectoria del fotón,
puesto que depende de la rendija por la que pase.
Enviando los fotones uno por uno podemos construir el patrón de interferencia gradualmente sobre la pantalla
de observación. Aparentemente, este dispositivo nos permite construir tal patrón de interferencia asociado a la doble
rendija al tiempo que permite determinar la rendija por la cual pasa cada fotón. A priori pareciera que podemos
determinar completamente las caracterı́sticas corpusculares y ondulatorias de los fotones en forma simultánea.
Sin embargo, las franjas de interferencia no son visibles con este montaje. El error consiste en asumir que solo
los fotones poseen un carácter cuántico. Sin embargo, la placa P aunque es un objeto macroscópico también posee
un carácter cuántico. Si queremos discriminar por cual rendija pasó el fotón, la incertidumbre ∆p en la medida del
momento vertical de P debe ser suficientemente pequeña para determinar la diferencia entre p 1 y p2
∆p << |p2 − p1 |
aplicando las relaciones de incertidumbre, la posición de la placa P se puede conocer a lo más dentro de un intervalo
de incertidumbre dado por
~ h
∆x & >> (2.34)
∆p |p2 − p1 |
si denotamos a la distancia entre las rendijas y d la distancia entre la placa P y la pantalla O, y si asumimos que
θ1 y θ2 son pequeños (i.e. a/d << 1 y x/d << 1) obtenemos
x − a/2 x + a/2
θ1 ' tan θ1 = ; θ2 ' tan θ2 =
d d
a
|θ2 − θ1 | '
d
los momentos p1 y p2 dados en las Ecs. (2.32, 2.33) nos dan
hν hν hν a ha
|p2 − p1 | = |sin θ2 − sin θ1 | ' |θ2 − θ1 | ' =
c c c d λd
siendo λ la longitud de onda asociada al fotón. Sustituyendo esta relación en (2.34) se obtiene
λd
∆x >> (2.35)
a
pero (λd) /a es precisamente la separación entre franjas que se espera encontrar en el patrón de difracción sobre
la pantalla O. Ahora bien, si la posición vertical de las rendijas solo se puede determinar en un intervalo de
incertidumbre mayor a la separación de las franjas, es imposible observar el patrón de interferencia.
La discusión anterior nos muestra que la construcción de una teorı́a cuántica de la radiación requiere de la
construcción de una teorı́a cuántica de la materia para evitar contradicciones. En el ejemplo anterior, si trabajamos
la placa P como un sistema clásico material, invalidamos el principio de complementariedad de los dos aspectos
corpuscular y ondulatorio de la luz y por tanto, la teorı́a cuántica de la radiación. Se puede demostrar que dificultades
análogas surgen cuando se considera que solo la materia posee carácter cuántico. Por tanto, la consistencia del
principio de complementariedad requiere que tanto la materia como la radiación tengan caracterı́sticas cuánticas.
Otro aspecto que vale la pena discutir, es que en este ejemplo la naturaleza cuántica de P es esencial para un
adecuado entendimiento del fenómeno, a pesar de ser un sistema macroscópico. La razón estriba es que si bien el
sistema es macroscópico, las incertidumbres combinadas para el momento y la posición que se requieren en dicho
sistema para soslayar el principio de complementariedad, están en un umbral no permitido por las relaciones de
incertidumbre.
2.11. EVOLUCIÓN TEMPORAL DE PAQUETES DE ONDAS LIBRE 117
puesto que las tres ondas tiene números de onda k 0 y k0 ± ∆k, es claro que k0 es el número de onda promedio.
Similarmente, ω0 es la frecuencia angular promedio.
De la Ec. (2.39) se vé claramente que el máximo de |ψ (x, t)| que estaba en x = 0 cuando t = 0 está ahora en el
punto
∆ω
xM (t) = t (2.40)
∆k
y no en el punto x = ω0 t/k0 . El origen de este resultado se puede apreciar en la Fig. 2.6, en (a) se representa la
Figura 2.6: Posición de tres máximos consecutivos (1) (2) (3) para cada una de las tres ondas planas de la super-
posición en la Ec. (2.39). (a) Configuración de los máximos en t = 0, para el cual hay interferencia constructiva
en x = 0, que se da con los máximos rotulados por (2). (b) Configuración en un instante posterior en el cual la
interferencia totalmente constructiva se da a la derecha de x con los máximos (3).
posición en t = 0 de tres máximos consecutivos de cada una de las partes reales de las tres ondas. Puesto que los
máximos denotados con (2) coinciden en x = 0, hay una interferencia constructiva en este punto lo cual nos da el
máximo de |ψ (x, t = 0)|. Puesto que la velocidad de fase aumenta con k según (2.37), tenemos que el máximo (3) de
la onda k0 + ∆k2 termina alcanzando al máximo de la onda k 0 también denotado por tres. Similarmente el máximo
(3) de k0 alcanzará al máximo de k0 − ∆k 2 denotado por (3). Un análisis detallado muestra que todos coinciden
en cierto tiempo t, determinando entonces el máximo x M (t) de |ψ (x, t)| por interferencia constructiva. El cálculo
detallado del punto donde esto ocurre reproduce la Ec. (2.40).
Analicemos finalmente el caso en el cual el paquete de ondas es arbitrario y consta de una superposición contı́nua
de ondas planas como en la Ec. (2.16). El corrimiento del centro del paquete se encuentra aplicando de nuevo el
método de fase estacionaria. Comparando la forma de ψ (x, t) con la de ψ (x, 0) Ecs. (2.16, 2.17) vemos que ψ (x, t)
se obtiene a partir de ψ (x, 0) con la asignación ψ̄ (k) → ψ̄ (k) e−iω(k)t . Por tanto, el razonamiento dado en la pág.
112 se mantiene válido reemplazando el argumento α (k) de ψ̄ (k) en la Ec. (2.22), por el argumento
que nos reproduce una vez más el resultado (2.40) solo que en este caso ∆ω y ∆k tienden a cero ya que hay un
barrido contı́nuo en estas variables. La velocidad del máximo del paquete de ondas es
dxM (t) dω
Vg (k0 ) = =
dt dk k=k0
2.12. CARACTERIZACIÓN DE PAQUETES DE ONDA GAUSSIANOS 119
conocida como velocidad de grupo del paquete. Con la relación de dispersión (2.13) para partı́cula libre tenemos
que
~k0
Vg (k0 ) = = 2Vf (k0 ) (2.41)
m
Notamos entonces dos diferencias importantes entre la onda asociada a la partı́cula libre cuántica y la solución
ondulatoria proveniente de la ecuación de onda. Las ondas clásicas libres no presentan dispersión y su velocidad de
grupo es menor que su velocidad de fase 5 .
Nótese que el resultado (2.41) reproduce adecuadamente el lı́mite clásico ya que si ∆x y ∆p son ambos despre-
ciables, podemos hablar de la posición x M (t) y del momento p0 de la partı́cula. Pero entonces su velocidad debe ser
p0 /m según la mecánica clásica, esto es compatible con la Ec. (2.41) obtenida en el marco cuántico con p 0 = ~k0 ,
siempre que ∆x y ∆p sean ambos despreciables V g se puede asociar a la velocidad de la partı́cula, que es la velocidad
del máximo del paquete.
Es posible también estudiar la forma en que evoluciona la forma del paquete. Si por ejemplo ∆p es una constante
de movimiento entonces ∆x se incrementa con el tiempo, (dipersión del paquete).
que la integral no depende de β. Si se satisface la condición |Arg (α)| < π/4 (lo cual siempre es posible si
de modo
Re α2 > 0), esta integral se puede escribir como
1
I (α, 0) = I (1, 0)
α
y solo resta calcular I (1, 0), lo cual se puede hacer como una integral doble en el plano XY usando coordenadas
polares Z ∞
2 √
I (1, 0) = e−ξ dξ = π
−∞
de lo cual se obtiene Z √
∞
2 (ξ+β)2 π
I (α, β) = e−α dξ = (2.42)
−∞ α
5
Nótese que el hecho de que la velocidad de grupo sea mayor a la de fase no entra en contradicción con la relatividad, puesto que
nuestros resultados solo son válidos en un régimen no relativista, ya que la relación de dispersión (2.13) proviene de la ecuación (2.12),
la cual es no relativista.
120CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS DE LA MECÁNICA CUÁNTI
el cual resulta de superponer ondas planas e ikx con coeficientes de Fourier de la forma
√
1 a − a2 (k−k0 )2
√ ψ̄ (k, 0) = e 4 (2.44)
2π (2π)3/4
para calcular ψ (x, 0) es conveniente reescribir la exponencial en (2.43) de modo que los términos en k queden como
un cuadrado perfecto a fin de compararlos con (2.42)
a2 2 a2 2ix 2 x2
− (k − k0 ) + ikx = − k − k0 − 2 + ik0 x − 2
4 4 a a
vemos entonces que la transformada de Fourier de un paquete gaussiano es también gaussiana. El módulo al cuadrado
del paquete en t = 0 (que estará relacionado con la densidad de probabilidad asociada a la posición para una partı́cula
en t = 0) es r
2 2 − 2x22
|ψ (x, 0)| = e a
πa2
y la curva asociada a este módulo es una tı́pica campana de Gauss. El centro del paquete de onda corresponde al
máximo de |ψ (x, 0)|2 y se sitúa en x = 0. Esto resultado también se puede obtener por aplicación de la Ec. (2.28).
a 1 ~
∆x = ; ∆k = ⇒ ∆p =
2 a a
con lo cual se obtiene
~
(∆x) · (∆p) =
2
relación que es compatible con el principio de incertidumbre. Nótese además que el principio de incertidumbre se
escribe en general en la forma (∆x) · (∆p) & ~/2. Esto implica que el principio de incertidumbre permite en general,
que el producto del ancho de la función con el ancho de su transformada de Fourier adquiera un valor mayor al
lı́mite inferior. Si aceptamos a ~/2 como el lı́mite inferior, vemos que los paquetes de onda gaussianos predicen una
igualdad, es decir que los productos de las incertidumbres siempre tienen el menor valor posible. En tal sentido
decimos que los paquetes de onda gaussianos son paquetes de “mı́nima incertidumbre”.
2.13. EVOLUCIÓN TEMPORAL DE PAQUETES DE ONDA GAUSSIANOS (OPCIONAL) 121
una forma serı́a empleando (2.42) para integrar (2.48). No obstante, es más simple observar de la expresión (2.47)
que la transformada de Fourier de ψ (x, t) viene dada por
por tanto, la norma del paquete es independiente del tiempo y por tanto también la integral (2.49). Este resultado es
importante para la conservación de la probabilidad y de hecho para la consistencia de la interpretación de |ψ (x, t)| 2
como una densidad de probabilidad. Veremos más adelante que esto resulta del hecho de que el Hamiltoniano de la
partı́cula libre es hermı́tico.
Ahora bien, la Ec. (2.48) nos dice que la densidad de probabilidad es gaussiana centrada en
~k0
xM = V 0 t ; V 0 ≡
m
donde V0 es la velocidad del paquete. Esta expresión es consistente con la velocidad de grupo dada por la Ec. (2.41).
Figura 2.7: Dispersión de un paquete de onda Gaussiano libre. El ancho del paquete se reduce a medida que se
propaga desde t = −∞ hasta t=0. Posteriormente, el paquete comienza a ensancharce indefinidamente a medida
que se propaga.
decrece y alcanza su valor mı́nimo en t = 0, a partir de entonces el paquete se ensancha indefinidamente (dispersión
del paquete de onda). Esta situación se ilustra en la Fig. 2.7.
Adicionalmente, la Ec. (2.48) para el perfil del paquete nos muestra que la altura también varı́a, pero de forma
opuesta al ancho, de tal manera que la norma de ψ (x, t) permanece constante.
Es natural ahora preguntarse por el comportamiento de la forma del “paquete de ondas en el espacio de los
momentos (o espacio recı́proco)” con el tiempo. Las propiedades de la transformada de Fourier ψ̄ (k, t) son totalmente
distintas, vemos por ejemplo que de acuerdo a la Ec. (2.50) se tiene que
ψ̄ (k, t) = ψ̄ (k, 0)
de modo que el momento promedio del paquete ~k 0 y la dispersión del momento ~∆k son constantes en el tiempo.
Veremos más adelante que esto es una consecuencia de que el momento lineal es una constante de movimiento para
la partı́cula libre. En virtud de la ausencia de interacción, la distribución de momentos de una partı́cula libre no
cambia.
Figura 2.8: Comparación entre el comportamiento con el tiempo de un ∆x cuántico (hipérbola) y su análogo clásico
∆xcl (rectas).
Cuánticamente, la existencia de una dispersión del momento ∆p = ~∆k significa que la velocidad de la partı́cula
solo se conoce en un intervalo ∆v = ∆p/m = ~/ma. Este hecho posee un interesante análogo clásico: imaginemos
un conjunto de partı́culas clásicas que en t = 0 están localizadas en x = 0 y que tienen una dispersión ∆v de sus
velocidades. Es claro que en el tiempo t la dispersión de sus posiciones será
~ |t|
∆xcl = |t| ∆v = (2.52)
ma
2.13. EVOLUCIÓN TEMPORAL DE PAQUETES DE ONDA GAUSSIANOS (OPCIONAL) 123
donde estamos asumiendo que se calcula su dispersión también para tiempos negativos anteriores a t = 0. La
dispersión decrece linealmente para la evolución temporal desde un t < 0 y crece linealmente con t a partir de
t = 0. La Fig. 2.8, muestra una comparación entre el comportamiento temporal de los anchos clásico ∆x cl y
cuántico ∆x dados por las Ecs. (2.51, 2.52). Vemos que cuando |t| → ∞ las dos gráficas coinciden, dado que las
rectas correspondientes al ancho clásico son las ası́ntotas de la hipérbola cuántica. Por tanto, para |t| muy grande
podemos decir que hay un comportamiento cuasi-clásico del ancho cuántico ∆x. Sin embargo, cuando |t| → 0, el
comportamiento cuántico difiere cada vez más del clásico. Esto se debe a que la partı́cula cuántica debe siempre
satisfacer el principio de incertidumbre de Heisenberg ∆x ∆p ≥ ~/2 y dado que ∆p es fijo, éste impone un lı́mite
inferior para ∆x que el sistema clásico no tiene que obedecer (efectivamente nuestro sistema clásico no poseı́a
dispersión en t = 0 ya que todas las partı́culas estaban en x = 0). No obstante, este análogo clásico debe tomarse
con cuidado. Por ejemplo, en nuestro sistema clásico la dispersión se generó con un conjunto de partı́culas, en tanto
que la dispersión cuántica esta asociada a un conjunto de ondas asociadas a UNA SOLA partı́cula.
Vale la pena anotar que aunque hemos analizado la dispersión de un paquete de ondas libres cuya condición
inicial consta de componentes gaussianas, la dispersión se presenta para un paquete libre bajo cualquier forma inicial
del paquete, y la variación del ancho del paquete con el tiempo tiene la forma mostrada en la Fig. 2.8.
????????????????
????????????????
Capı́tulo 3
Hemos estudiado la dualidad onda partı́cula partiendo de los postulados de De Broglie y hemos analizado el
comportamiento de la onda asociada a una partı́cula libre. Sin embargo, si consideramos un sistema de una o más
partı́culas interactuantes será necesario generar una ecuación de movimiento que gobierne la dinámica de la onda
asociada. Si bien esta ecuación de movimiento se postulará, existen ciertos argumentos de plausibilidad para su
construcción.
ahora bien, a pesar de que las relaciones de De Broglie son consistentes con la teorı́a de la relatividad (de hecho,
fueron empleadas primero en los fotones), vamos a plantear una formulación no relativista, esto con el fin de evitar
el problema del manejo de la probabilidad que surge de la posibilidad de creación y aniquilación de partı́culas
materiales. Tomaremos entonces la relación no relativista (corpuscular) entre energı́a y momento
p2
E= +V (3.2)
2m
siendo m = m0 la masa en reposo de la partı́cula. La Ec. (3.1) nos muestra que un cambio en la definición de energı́a
(por ejemplo si tomáramos la relación relativista) nos cambiarı́a el valor de ν. Los experimentos descritos hasta
ahora no han explorado la validez de la relación (3.2), de modo que las predicciones que la ecuación dinámica haga
sobre una partı́cula interactuante deben ser corroboradas por los experimentos.
Es claro que para una partı́cula libre, los resultados deben poder obtenerse con cualquier potencial constante (no
necesariamente cero) aplicado a la Ec. (3.2). Es fácil verificar que un potencial constante predice que la velocidad
de grupo de la onda piloto corresponde a p/m y por tanto a la velocidad de la partı́cula, combinando (3.1) con (3.2)
se tiene que
E p2 V 1 p
ν= = + ; K≡ =
h 2mh h λ h
teniendo en cuenta que V es constante, tenemos
2p dp dp
dν = , dK =
2mh h
Ahora bien, teniendo en cuenta que
k ≡ 2πK ; ω ≡ 2πν
3.1. PLAUSIBILIDAD DE LA ECUACIÓN DE SCHRÖDINGER 125
p = ~k ; E = ~ω (3.3)
~2 k 2
+ V (x, t) = ~ω (3.4)
2m
tomaremos como prototipo la ecuación para la partı́cula libre con potencial constante. Las consideraciones anteriores
nos dicen que la ecuación de movimiento que genere la función de onda ψ (x, t) (i.e. la dinámica de las ondas piloto),
debe cumplir las siguientes propiedades
1. Debe ser consistente con las Ecs. (3.1, 3.2). Es decir debe cumplir los postulados de De Broglie y la relación
no relativista entre E y p.
2. Debe ser lineal y homogénea en ψ (x, t) con el fin de que sea válido el principio de superposición que a su vez
nos genera los fenómenos ondulatorios de interferencia. Esto implica que si ψ 1 (x, t) y ψ2 (x, t) son soluciones
de la ecuación una combinación lineal de ellas también es solución.
3. En general, consideraremos potenciales que solo dependen de la posición y el tiempo V = V (x, t). Cuando el
potencial es constante la partı́cula es libre y por tanto se deben conservar E y p, lo cual a su vez implica que
se conservan λ = 2π/k y ν de acuerdo con las relaciones (3.1).
4. Las soluciones para partı́cula libre son funcionalmente idénticas a las soluciones homogéneas de la ecuación de
onda, pero deben cumplir con una relación de dispersión que sea consistente con la Ec. (3.4) con V constante,
en vez de la relación de dispersión para ondas libres dada por (2.14), lo cual nos dice que la ecuación de onda
no es la ecuación dinámica para la función de onda ψ (r, t). Entonces la ecuación de movimiento para partı́cula
libre debe tener soluciones en forma de ondas viajeras con número de onda y frecuencia constantes.
La linealidad y homogeneidad prohibe términos del tipo [ψ (x, t)] 2 (no lineales) o términos independientes de
ψ (x, t) (términos inhomogéneos o fuentes). Puesto que la mayorı́a de ecuaciones dinámicas de la Fı́sica son a lo más
de segundo orden, postularemos que los términos lineales son a lo más de segundo orden en el espacio y el tiempo,
y posiblemente un término lineal en ψ (x, t). Parametrizaremos a la ecuación en la forma siguiente
−a2 k 2 cos (kx − ωt) + V cos (kx − ωt) = b1 ω sin (kx − ωt)
V − a2 k 2 cos (kx − ωt) = b1 ω sin (kx − ωt)
pero no es posible ajustar los parámetros para que esta relación sea válida para todo x, t, de modo que la solución
clásica dada por (3.6) no es compatible con la relación de dispersión de la teorı́a. Aún podemos tratar de encontrar
una solución real si agregamos una fase adicional en la forma cos (kx − ωt + δ) que es equivalente a escribir una
solución de la forma
ψ (x, t) = cos (kx − ωt) + γ sin (kx − ωt) (3.7)
lo cual también se puede postular observando que en tal caso ambas derivadas tendrán senos y cosenos que permitirán
igualar coeficientes adecuadamente
∂ 2 ψ (x, t)
= −k 2 cos (kx − ωt) − γk 2 sin (kx − ωt)
∂x2
∂ψ
= ω sin (kx − ωt) − γω cos (kx − ωt)
∂t
que al insertarlos en (3.5) nos da
−a2 k 2 [cos (kx − ωt) + γ sin (kx − ωt)] + V [cos (kx − ωt) + γ sin (kx − ωt)]
= b1 ω [sin (kx − ωt) − γ cos (kx − ωt)]
quedando
−a2 k 2 + V + b1 ωγ cos (kx − ωt) + −a2 k 2 γ + V γ − b1 ω sin (kx − ωt) = 0
Los coeficientes de seno y coseno deben anularse para que esta relación sea válida para todo x, t. Tenemos
entonces dos ecuaciones con tres incógnitas (a 2 , b1 , γ) que junto con la relación de dispersión (3.4), nos da
~2 k 2
−a2 k 2 + V + b1 ωγ = 0 ; −a2 k 2 γ + V γ − b1 ω = 0 ; + V = ~ω (3.8)
2m
las dos primeras ecuaciones se pueden reescribir como
b1 b1
−a2 k 2 + V = −b1 ωγ ; −a2 k 2 + V = ω ⇒ −b1 ωγ = ω
γ γ
1
⇒ −γ = ⇒ γ 2 = −1
γ
tenemos entonces √
γ = ± −1 = ±i
sustituyendo en la primera de las Ecs. (3.8)
~2
−a2 = ; ∓ib1 = ~
2m
tenemos entonces dos soluciones que dependen de la elección del signo de γ, la elección más usual es
~2
γ = i ; a2 = − ; b1 = i~
2m
3.2. ECUACIÓN DE SCHRÖDINGER PARA UNA PARTÍCULA SOMETIDA A UN POTENCIAL ESCALAR INDE
~2 ∂ 2 ψ ∂ψ
− 2
+ V (x, t) ψ = i~ (3.9)
2m ∂x ∂t
expresión conocida como la ecuación de Schrödinger. Por supuesto podemos postular su extensión a tres dimensiones
como
~2 2 ∂ψ (r, t)
− ∇ ψ (r, t) + V (r, t) ψ (r, t) = i~ (3.10)
2m ∂t
Nótese que γ = ±i, lo cual indica que la pretendida solución real (3.7) nos proporciona inevitablemente una
solución compleja tipo onda plana. Vemos que hay una diferencia con las soluciones de onda clásica que se toman
complejas solo por conveniencia, para la ecuación de Schrödinger en cambio, no pudimos encontrar una solución
real consistente para partı́cula libre, el carácter de la solución es en esencia complejo. Esto se refleja en el factor
imaginario que aparece a la derecha de la ecuación (3.9) de Schrödinger.
~2 ∂χ (t)
− χ (t) ∇2 ϕ (r) + V (r) χ (t) ϕ (r) = i~ϕ (r)
2m ∂t
dividiendo a ambos lados por χ (t) ϕ (r) se escribe
~2 ∇2 ϕ (r) 1 ∂χ (t)
− + V (r) = i~
2m ϕ (r) χ (t) ∂t
el miembro izquierdo solo depende de la posición en tanto el derecho depende solo del tiempo. Por tanto ambos
miembros deben ser iguales a una constante que por comodidad la tomaremos como ~ω, de momento ω es solo una
constante a ajustar, aunque es claro que debe tener dimensiones de frecuencia angular. Tenemos entonces que
1 ∂χ (t) ∂χ (t)
i~ = ~ω ⇒ = −iωχ (t)
χ (t) ∂t ∂t
χ (t) = Ae−iωt
~2 ∇2 ϕ (r)
− + V (r) = ~ω ⇒
2m ϕ (r)
~2 2
− ∇ ϕ (r) + V (r) ϕ (r) = ~ωϕ (r) (3.12)
2m
128 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES
y vemos que (3.15) es una ecuación de valores propios para el operador H en la cual ϕ (r) son las funciones propias
(vectores propios) y las energı́as E son los valores propios. Las energı́as permitidas para la partı́cula son entonces
los valores propios del operador H. Nótese que no cualquier solución ϕ (r) de la ecuación de Schrödinger es una
solución fı́sica, debemos imponer que sea de cuadrado integrable, esta imposición restringirá los valores permitidos
de energı́a y nos llevará a una cuantización de esta cantidad.
A la Ec. (3.15) se le llama usualmente ecuación de Schrödinger independiente del tiempo, en tanto que a (3.11)
se le denomina ecuación de Schrödinger dependiente del tiempo. La Ec. (3.11) nos da la evolución de la función de
onda para un estado arbitrario de la partı́cula, en tanto que la Ec. (3.15) solo nos da los estados estacionarios de
ésta.
Dado que tenemos un conjunto de valores permitidos de la energı́a (autoresultados o autovalores), vamos a
rotular las energı́as y las autofunciones de la forma
donde tanto n como m pueden simbolizar un ı́ndice contı́nuo o discreto o incluso varios ı́ndices. El ı́ndice m me
indica la posibilidad de degeneración, es decir de varias autofunciones linealmente independientes que pertenecen al
mismo valor propio En . Los estados estacionarios de la partı́cula son de la forma
ψn,m (r, t) es una solución de la ecuación de Schrödinger Ec. (3.11), y en virtud de la linealidad de esta ecuación,
una superposición de las soluciones estacionarias es también solución
XX
ψ (r, t) = cnm ϕn,m (r) e−iEn t/~ (3.16)
n m
en realidad es usual que se requiera la superposición puesto que soluciones arbitrarias no satisfacen en general
las condiciones iniciales y de frontera que pide un problema especı́fico. La superposición garantiza que podemos
obtener cualquier estado siempre que las funciones ϕ nm (r) sean completas como funciones espaciales (las funciones
3.3. PROPIEDADES GENERALES DE LA ECUACI ÓN DE SCHRÖDINGER 129
temporales son ondas planas y por tanto completas), esto requiere a su vez que el operador H tenga el carácter de
observable.
Para t = 0 la Ec. (3.16) nos da XX
ψ (r, 0) = cnm ϕn,m (r) (3.17)
n m
de modo que si conocemos el estado inicial del sistema (el cual es en principio arbitrario) podemos descomponerlo
en la base de las autofunciones ϕn,m de H (siempre que H sea un observable). Para obtener la evolución temporal
basta con multiplicar cada término en (3.17) por e −iEn t/~ , debe aclararse que cada término corresponde a una fase
diferente y por tanto la superposición ya no corresponde en general a un estado estacionario.
para todo tiempo, i.e. en cualquier instante la partı́cula debe encontrarse en algún lugar del espacio (excepto cuando
hay procesos de creación y destrucción de partı́culas que no incluı́mos en el presente formalismo). Esto significa que
la norma de un ket |ψ (t)i debe ser constante en el tiempo. Es necesario por tanto que la ecuación de Schrödinger
mantenga invariante en el tiempo la norma de los vectores, con el fin de dar una interpretación probabilı́stica
coherente.
Para mirar la conservación de la probabilidad debemos evaluar la derivada total de la norma en el tiempo
d d d
hψ (t)| ψ (t)i = hψ (t)| |ψ (t)i + hψ (t)| |ψ (t)i (3.22)
dt dt dt
la derivada temporal del ket se obtiene directamente de la ecuación de Schrödinger Ec. (3.20)
d 1
|ψ (t)i = H (t) |ψ (t)i (3.23)
dt i~
para obtener la derivada temporal del bra, sacamos el hermı́tico conjugado de dicha ecuación
d 1 1
hψ (t)| = − hψ (t)| H † (t) = − hψ (t)| H (t) (3.24)
dt i~ i~
donde hemos usado la hermiticidad de H. Reemplazando (3.23) y (3.24) en (3.22) se obtiene
d 1 1
hψ (t)| ψ (t)i = − hψ (t)| H (t) |ψ (t)i + hψ (t)| H (t) |ψ (t)i = 0
dt i~ i~
esto implica entonces que si normalizamos el estado inicial, el estado en cualquier tiempo continuará normalizado.
Nótese la importancia de la hermiticidad de H para lograr la conservación de la norma y por tanto, de la probabilidad.
3.3. PROPIEDADES GENERALES DE LA ECUACI ÓN DE SCHRÖDINGER 131
tenemos que Z
PT ≡ ρ (r, t) dV = 1
para todo tiempo, de modo que PT representa una “carga generalizada” que se conserva. Por supuesto esto no
significa que la distribución de esta “carga” (distribución de probabilidad), permanezca igual en el tiempo para cada
punto r, las variaciones de ρ (r, t) con el tiempo generan una propagación de la distribución de carga generalizada
(corriente de probabilidad). Recordemos que el volumen no es necesariamente todo el espacio si existen regiones con
probabilidad cero. Lo importante es que no cruce corriente de probabilidad en la superficie que delimita al volumen
de integración, ya que si esto ocurre, habrá probabilidad diferente de cero en regiones que en tiempos anteriores
eran inaccesibles. Esta situación es análoga al caso en que ρ (r, t) simbolizaba una densidad de carga eléctrica a la
cual le podemos asociar una densidad de corriente J (r, t).
Es bien conocido que la conservación global de la carga generalizada proviene de una ley de conservación local
que prohibe la creación espontánea de carga generalizada neta. Esto implica que si tomamos un volumen por cuya
superficie limitadora cruza corriente de carga generalizada, el flujo neto de carga por la superficie hacia afuera
(adentro) debe estar compensado por una disminución (aumento) en la carga interior al volumen, el enunciado
preciso de esta ley local de conservación es
∂
ρ (r, t) + ∇ · J (r, t) = 0 (3.26)
∂t
siendo ρ la densidad de carga generalizada y J la densidad de corriente generalizada, esta expresión es conocida
como ecuación de continuidad. Puesto que hemos encontrado la carga conservada (probabilidad total) y definido ya
la densidad de probabilidad, debemos encontrar una densidad de corriente de probabilidad que nos dé una ecuación
de la forma (3.26), en este caso estamos tratando a la probabilidad como un fluı́do o medio contı́nuo.
Volveremos a la ecuación de Schrödinger en representación de coordenadas dado por (3.10)
~2 2 ∂ψ (r, t)
− ∇ ψ (r, t) + V (r, t) ψ (r, t) = i~ (3.27)
2m ∂t
el potencial V (r, t) debe ser real para que H sea hermı́tico (lo cual es esencial para la conservación de la probabilidad
como ya vimos). La ecuación compleja conjugada de la Ec. de Schrödinger es
~2 2 ∗ ∂ψ ∗ (r, t)
− ∇ ψ (r, t) + V (r, t) ψ ∗ (r, t) = −i~ (3.28)
2m ∂t
~2 ∗ ∂ψ (r, t)
− ψ (r, t) ∇2 ψ (r, t) + V (r, t) ψ ∗ (r, t) ψ (r, t) = i~ψ ∗ (r, t)
2m ∂t
~2 ∂ψ ∗ (r, t)
ψ (r, t) ∇2 ψ ∗ (r, t) − V (r, t) ψ (r, t) ψ ∗ (r, t) = i~ψ (r, t)
2m ∂t
quedando
~2 ∗ 2 ∂ψ ∂ψ ∗
− ψ ∇ ψ − ψ∇2 ψ ∗ = i~ ψ ∗ +ψ
2m ∂t ∂t
~ ∗ 2 ∂ ∗
− ψ ∇ ψ − ψ∇2 ψ ∗ = [ψ ψ]
2mi ∂t
132 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES
si sustituı́mos esta expresión polar en la Ec. (3.30) para la densidad de corriente de probabilidad encontramos que 3
~ n h i h io
J (r) = α (r) e−iξ(r) ∇ α (r) eiξ(r) − α (r) eiξ(r) ∇ α (r) e−iξ(r)
2mi
~ n o
= α (r) e−iξ(r) eiξ(r) [∇α (r) + i∇ξ (r)] − α (r) eiξ(r) e−iξ(r) [∇α (r) − i∇ξ (r)]
2mi
~
J (r) = α (r) ∇ξ (r) (3.32)
m
3
Por simplicidad hemos omitido la posible dependencia explı́cita del tiempo pero esto no altera los resultados.
3.4. APLICACIÓN DE LA ECUACIÓN DE SCHRÖDINGER A POTENCIALES DISCONTÍNUOS 133
vemos que ρ (r) solo depende del módulo del complejo ψ (r), en tanto que J (r) depende del módulo y del gradiente
de la fase. Por ejemplo, si la fase es constante en el espacio, J (r) es cero, aunque la densidad no lo sea. Las Ecs.
(3.32, 3.33) nos dan a J (r) y ρ (r) cuando conocemos ψ (r), vale preguntarse si inversamente podemos determinar
unı́vocamente a ψ (r) con base en el conocimiento de J (r) y ρ (r). La Ec. (3.33) nos da a ρ (r) en función del módulo
de ψ (r). Por otro lado, dividiendo las Ecs. (3.32, 3.33) resulta
m J (r)
∇ξ (r) =
~ ρ (r)
F (x) = F0 δ (x − x0 ) − F1 δ (x − x1 )
134 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES
En primer lugar las predicciones de la mecánica clásica son inmediatas, por ejemplo si V (x) es una energı́a
potencial gravitacional, el perfil del potencial representa el perfil de la superficie sobre la cual se mueve la partı́cula,
los valores de x para los cuales E < V estarán prohibidos. En las regiones de potencial constante la velocidad de la
partı́cula es constante ya que es libre, solo en las discontinuidades experimenta una fuerza y si pasa a la otra región
(si E > V ) su energı́a cinética se verá aumentada (disminuı́da) si pasa a una zona de menor (mayor) potencial.
Como el potencial no depende del tiempo podemos encontrar soluciones estacionarias para la ecuación de
Schrödinger. En la región de potencial constante V , la ecuación de Schrödinger independiente del tiempo nos
da
~2 d2
− + V ϕ (x) = Eϕ (x)
2m dx2
2
d 2m
+ 2 (E − V ) ϕ (x) = 0 (3.36)
dx2 ~
escrita en esta forma la ecuación tiene un interesante análogo óptico. Consideremos un medio transparente de ı́ndice
de refracción n independiente de la posición y el tiempo. En tal medio puede haber ondas electromagnéticas con
campo eléctrico independiente de y y z
E (r, t) = uE (x) e−iΩt (3.37)
siendo u un vector unitario perpendicular al eje x, teniendo en cuenta que E satisface la ecuación de onda y las
ecuaciones de Maxwell, resulta 2
d n2 Ω2
+ 2 E (x) = 0 (3.38)
dx2 c
las Ecs. (3.36) y (3.38) son idénticas si hacemos la asignación
2m n2 Ω2
(E − V ) = (3.39)
~2 c2
adicionalmente, en los lugares en donde V (y por tanto n) son discontı́nuos las condiciones de frontera para ϕ (x) y
E (x) son las mismas: las soluciones y sus primeras derivadas deben permanecer contı́nuas (lo veremos más adelante
para las ϕ (x)). Esta analogı́a permite asociar al problema de una partı́cula en un potencial del tipo (3.35) un
problema óptico asociado a la propagación de una onda electromagnética de frecuencia angular Ω en un medio cuyo
ı́ndice de refracción n tiene discontinuidades del mismo tipo. En la Ec. (3.39) podemos despejar para n (Ω) y obtener
1 p
n (Ω) = 2mc2 (E − V ) (3.40)
~Ω
nótese que para la onda electromagnética, la región con E > V corresponde a un medio transparente con ı́ndice de
refracción real y la onda es de la forma e ikx . Por otro lado, cuando E < V corresponde a un medio con un ı́ndice de
refracción imaginario de modo que n 2 < 0 y al reemplazar esto en (3.38) se obtiene una solución de la forma e −ρx
que es del tipo de onda evanescente.
Debe tenerse en cuenta que si bien obtendremos un comportamiento funcional análogo al óptico, la interpretación
probabilı́stica es muy diferente a la interpretación clásica para onda electromagnética.
~2 k 2
E−V ≡ (3.42)
2m
3.5. POTENCIALES RECTANGULARES, AN ÁLOGO ÓPTICO 135
~2 ρ2
V −E ≡ (3.45)
2m
y la Ec. (3.41) queda
d2 2
− ρ ϕ (x) = 0 (3.46)
dx2
con solución
ϕ (x) = Beρx + B 0 e−ρx (3.47)
siendo B y B 0 constantes complejas.
(c) E = V , en este caso
d2 ϕ (x)
= 0 ⇒ ϕ (x) = Cx + C 0
dx2
Ahora veamos el comportamiento de las soluciones en la discontinuidad. La primera tentación es pensar que la
función de onda debe ser discontı́nua en un punto donde el potencial lo sea, veremos sin embargo que tanto ϕ (x)
como dϕ (x) /dx deben ser contı́nuas y solo es la segunda derivada d 2 ϕ (x) /dx2 la que es discontı́nua en el punto.
Para ver esto, recordemos que un potencial con una discontinuidad de salto en x 1 representa en fı́sica el lı́mite
cuando ε → 0 de un potencial Vε (x) que es igual a V (x) fuera del intervalo [x 1 − ε, x1 + ε], pero que varı́a de forma
contı́nua en dicho intervalo. Consideremos la ecuación
d2 2m
2
ϕε (x) + 2 [E − Vε (x)] ϕε (x) = 0 (3.48)
dx ~
asumimos que Vε (x) está acotado en el intervalo [x 1 − ε, x1 + ε], y que esta cota no depende del parámetro ε. Esto
se cumple en la mayorı́a de los casos, ya que usualmente V ε estará definido dentro de los valores [V 0 , V1 ] que se tienen
en la discontinuidad de salto a la izquierda y la derecha de x 1 . Escogemos una solución ϕε (x) que para x < x1 − ε
y para x > x1 + ε coincida con una solución dada de la Ec. (3.41). La idea es demostrar que cuando ε → 0 entonces
ϕε (x) tiende a una función ϕ (x) contı́nua y diferenciable a primer orden en x 1 . Es posible probar a través de las
propiedades de la ecuación diferencial (3.41) que ϕ ε (x) permanece acotada para cualquier valor de ε con una cota
independiente de ε, en la vecindad de x = x 1 . Esto fı́sicamente implica que la densidad de probabilidad permanece
finita. Integrando la Ec. (3.48) en el intervalo [x 1 − η, x1 + η] resulta
Z x1 +η Z
d d 2m x1 +η
ϕε (x) dx + 2 [E − Vε (x)] ϕε (x) dx = 0
x1 −η dx dx ~ x1 −η
Z x1 +η
dϕε (x1 + η) dϕε (x1 − η) 2m
− = 2 [Vε (x) − E] ϕε (x) dx (3.49)
dx dx ~ x1 −η
y dado que Vε (x) y ϕε (x) permanecen acotados con cotas independientes de ε, la integral a la derecha de la Ec.
(3.49) tiende a cero cuando η tiende a cero. Por lo tanto
dϕε (x1 + η) dϕε (x1 − η)
lı́m − =0
η→0 dx dx
136 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES
por tanto, en este lı́mite, dϕ/dx es contı́nua en x = x 1 y por tanto también ϕ (x) ya que es la integral de una función
contı́nua. Por otro lado, d2 ϕ/dx2 es discontı́nua en x = x1 puesto que en la Ec. (3.41) vemos que
d2 ϕ (x1 + η) 2m
lı́m + 2 [E − V (x1 + η)] ϕ (x1 + η) =0
η→0+ dx2 ~
d2 ϕ (x1 + η) 2m
lı́m = lı́m {[V (x1 + η) − E] ϕ (x1 + η)}
η→0+ dx2 η→0+ ~2
2
d ϕ (x1 + η) 2m
lı́m = {[V1 − E] ϕ (x1 )}
η→0+ dx2 ~2
d2 ϕ (x1 + η) 2m
lı́m = 2 {[V0 − E] ϕ (x1 )}
η→0− dx2 ~
siendo V0 el valor del potencial a la izquierda de x 1 . Tenemos entonces que en x1 la segunda derivada presenta un
salto dado por
2 2
d ϕ (x1 + η) d ϕ (x1 + η) 2m
lı́m 2
− lı́m 2
= 2 (V1 − V0 ) ϕ (x1 )
η→0+ dx η→0− dx ~
esto es una discontinuidad de salto para la segunda derivada ya que V 1 6= V0 . Nótese sin embargo, que la segunda
derivada permanece acotada. Es importante resaltar la importancia de que V ε (x) permanezca acotado. Por ejemplo,
si V (x) = aδ (x) tenemos una función cuya integral permanece finita pero que no es acotada. En tal caso, ϕ (x)
permanece contı́nua pero no la primera derivada.
Por tanto, para encontrar la solución de los estados estacionarios cuando el potencial es contı́nuo a trozos con
discontinuidades de salto finito, calculamos primero las soluciones para las regiones en donde el potencial es constante
(con E > V ó E < V según el caso), y hacemos el “empalme” en los puntos donde hay discontinuidades exigiendo
la continuidad de la solución y de su primera derivada.
Por simplicidad consideraremos un problema unidimensional de una partı́cula colocada en un potencial constante
V0 . Aunque este caso corresponde a partı́cula libre, resulta interesante obtener la corriente en términos de V 0 ya que
después consideraremos la posibilidad de regiones con potencial constante pero diferente en cada región. Como la
corriente (3.31) depende de la solución para la función de onda estacionaria debemos considerar varios casos según
la sección 3.5.1
(a) E > V0 , en tal caso la solución estacionaria viene dada por la Ec. (3.44)
~
Jx = [ϕ∗ ∂x ϕ − ϕ∂x ϕ∗ ]
2mi
~ h ∗ −ikx i
Jx = A e + A0∗ eikx ∂x Aeikx + A0 e−ikx − Aeikx + A0 e−ikx ∂x A∗ e−ikx + A0∗ eikx
2mi
~ h ∗ −ikx i
Jx = A e + A0∗ eikx ikAeikx − ikA0 e−ikx − Aeikx + A0 e−ikx −ikA∗ e−ikx + ikA0∗ eikx
2mi
~k h ∗ −ikx
Jx = A e + A0∗ eikx Aeikx − A∗ e−ikx + A0∗ eikx A0 e−ikx
2m i
+ Aeikx + A0 e−ikx A∗ e−ikx − Aeikx + A0 e−ikx A0∗ eikx
~k h ∗ i
Jx = A A + A0∗ Ae2ikx − A∗ A0 e−2ikx − A0∗ A0 + AA∗ + A0 A∗ e−2ikx − AA0∗ e2ikx − A0 A0∗
2m
~k h 2 i
Jx = 2 |A|2 + A0∗ Ae2ikx − AA0∗ e2ikx − A∗ A0 e−2ikx + A0 A∗ e−2ikx − 2 A0
2m
~k h 2 0 2 i
Jx = |A| − A (3.51)
m
el signo relativo se puede entender teniendo en cuenta que la función de onda (3.50) representa dos ondas con
momentos opuestos p = ±~k con densidades de probabilidad |A| 2 y |A0 |2 , además ~k p
m = m = vg nos dice que Jx es
de la forma ρvg como era de esperarse.
(b) Cuando E < V0 la solución está dada por las Ecs. (3.45, 3.47)
cuyo perfil se ilustra en la Fig. 3.1. Asumiremos que la partı́cula viene desde x = −∞ en t = −∞ de modo que
inicialmente solo hay una onda viajera que se propaga hacia la derecha. Distinguiremos dos casos
ası́ mismo las soluciones en las dos regiones son de la forma (3.44)
ϕI (x) = A1 eik1 x + A01 e−ik1 x ; ϕII (x) = A2 eik2 x + A02 e−ik2 x (3.57)
dϕI (x) dϕII (x)
= ik1 A1 eik1 x − A01 e−ik1 x ; = ik2 A2 eik2 x − A02 e−ik2 x (3.58)
dx dx
y puesto que la ecuación (3.41) es homogénea, si ϕ es solución también lo será ϕ/A, siendo A una constante. Esto
implica que solo podemos determinar los cocientes entre las amplitudes pero no todas las amplitudes. Ahora bien,
puesto que la amplitud de entrada es la de la onda incidente, es decir la de la onda que viaja hacia la derecha
en la región I, tenemos que A1 es el parámetro de entrada y todos los demás deben compararse con él. Por tanto
determinaremos los cocientes
A01 A2 A02
, , .
A1 A1 A1
Veamos la información que nos dan las condiciones de empalme, la continuidad de la función en x = 0 nos da
como solo tenemos dos ecuaciones (3.59) y (3.60) para los tres cocientes, debemos fijar una amplitud para poder
determinar los cocientes. Para ello tengamos en cuenta que cuando la función de onda penetra la región II vuelve
a ser una función de onda libre (potencial constante) y ya hemos visto que la función de onda libre es una onda
viajera en una sola dirección, de modo que no es de esperarse que surja una onda reflejada en el interior de la región
II (solo en el lı́mite entre I y II donde sı́ hay interacción). En consecuencia, no habrá onda reflejada en la región II,
por lo cual según la Ec. (3.57) vemos que
A02 = 0 (3.61)
nótese que esto está relacionado con el hecho de que hayamos tomado el caso de una partı́cula incidente que proviene
de x = −∞ (condiciones iniciales)4 . Las Ecs. (3.59, 3.60) se simplifican a
A1 + A01 = A2 ; k1 A1 − A01 = k2 A2 (3.62)
A1 + A01 A2 k1 (A1 − A01 ) A2
= ; = k2
A1 A1 A1 A1
0
0
A A2 k1 A A2
1+ 1 = ; 1− 1 = (3.63)
A1 A1 k2 A1 A1
igualando las dos Ecs. (3.63)
A01 k1 A0 k1 k1 A01 k2 − k 1 k2 + k1 A01
1+ = 1− 1 ⇒1− =− 1+ ⇒ =−
A1 k2 A1 k2 k2 A1 k2 k2 A1
A01 k1 − k 2
=
A1 k1 + k 2
y reemplazando en la primera de las Ecs. (3.63)
k1 − k 2 A2 2k1 A2
1+ = ⇒ =
k1 + k 2 A1 k1 + k 2 A1
tenemos entonces que las condiciones iniciales y de empalme nos llevan a
A01 k1 − k 2 A2 2k1
A02 = 0 ; = >0 ; = >0 (3.64)
A1 k1 + k 2 A1 k1 + k 2
donde el hecho de que el primer cociente es positivo proviene de las expresiones para k 1 y k2 Ecs. (3.55, 3.56).
Ahora bien, para E > V0 , la función ϕI (x) en la Ec. (3.57) representa dos ondas con momentos opuestos, es decir
propagándose en direcciones opuestas. La onda proporcional a A 1 se propaga de izquierda a derecha de modo que
representa una partı́cula incidente (p = ~k 1 ), la onda proporcional a A01 tiene momento p = −~k1 por lo cual
representa una partı́cula reflejada. Puesto que A 02 = 0 tenemos que ϕII (x) en la Ec. (3.57) representa solo una
onda que corresponde a una partı́cula transmitida. Es natural entonces preguntarse por la probabilidad de que una
partı́cula que incide desde x = −∞ pase el escalón de potencial o rebote en él. A tales cantidades las llamaremos
coeficientes de transmisión T y de reflexión R respectivamente. Para calcular estas cantidades debemos calcular
primero la corriente asociada a cada región de potencial constante. Para el caso E > V 0 esta corriente viene dada
por las Ecs. (3.50, 3.51), que aplicadas a las soluciones (3.57) y con la condición A 02 = 0 Ec. (3.61) nos da
~k1 h 2 i
JI (x) = |A1 |2 − A01 (3.65)
m
~k2
JII (x) = |A2 |2 (3.66)
m
JI es la superposición entre la corriente incidente y la corriente reflejada, en tanto que J II es la corriente transmitida,
por lo tanto
~k1 ~k1 0 2
JI (x) = Jinc + Jref l ; Jinc = |A1 |2 ; Jref l = − A1
m m
~k2
JII (x) = Jtr = |A2 |2
m
4
Si la partı́cula proviniera de x = +∞ y viajara hacia la izquierda, esperarı́amos onda incidente y reflejada en la región II y solo onda
transmitida en la región I.
140 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES
Ahora bien, la corriente incidente J inc se divide en dos términos cuando incide sobre la discontinuidad: la corriente
reflejada y la transmitida
Jinc = Jtr + Jref l
El coeficiente de reflexión del escalón es entonces el cociente entre la corriente reflejada sobre la corriente incidente
Jref l A01 2
R = = (3.67)
Jinc A1
ahora bien, en un experimento concreto es claro que la partı́cula debe reflejarse o transmitirse, y esto se traduce en
que necesariamente
R+T =1
lo cual es consistente con las Ecs. (3.69). Es de enfatizar que contrario a las predicciones de la mecánica clásica,
tenemos una probabilidad diferente de cero de que la partı́cula se devuelva.
Ahora estamos preparados para la analogı́a óptica: De las Ecs. (3.40) vemos que un escalón de potencial con
V = 0 para x < x1 (región I) y V = V0 < E para x > x1 (región II), corresponde a una onda electromagnética que
se propaga de izquierda a derecha desde una región I de ı́ndice real n 1 dado por
c √
n1 = 2mE
~Ω
hacia una región II (separada de la región I por el punto x = x 1 ) de ı́ndice de refracción real n2
c p
n2 = 2m (E − V0 )
~Ω
de modo que tenemos una interfase plana en x = x 1 con n1 > n2 (la región I podrı́a ser vidrio y la región II podria
ser aire o el vacı́o). Ambos medios son transparentes. En este caso la onda incidente (con dirección de propagación
normal a la interfase) se parte en una onda transmitida (o refractada) y una onda reflejada. Ahora bien, las Ecs.
(3.64) muestran que los cocientes A01 /A1 y A2 /A1 son reales positivos, i.e. A01 y A2 tienen la misma fase que A1 5 .
Fı́sicamente, esto significa que no hay corrimiento de fase en la onda reflejada ni en la transmitida, con respecto a
la onda incidente. Por tanto, la partı́cula cuántica no es retardada por su reflexión o transmisión.
5
Para el cociente de dos amplitudes complejas podemos escribir tales cocientes en forma polar i.e A1 /A2 = |A1 | eiδ1 / |A2 | eiδ2 . De
modo que si el cociente es positivo entonces δ1 = δ2 , si el cociente es negativo hay una diferencia de fase π y si el cociente es complejo
hay una diferencia de fase arbitraria diferente a cero y π.
3.6. EL POTENCIAL ESCALÓN 141
Es interesante ver lo que ocurre en el lı́mite cuando E >> V 0 . De las definiciones de k1 y k2 en las Ecs. (3.55,
3.56), junto con las Ecs. (3.69) es fácil ver que
q q
√ p
2mE 2m(E−V0 )
4 ~ 2 ~ 2 8m E (E − V 0 )
4k1 k2
T = = q q 2 = √ p 2
(k1 + k2 )2 2mE 2m(E−V0 ) 2mE + 2m (E − V )
~2 +
0
~2
hp i hp i h√ i
4 E(E−V0 )
8m E (E − V0 ) 4 E (E − V0 )
E
T = h√ √ √ i 2 = h √ √ i2 = √ √ 2
2m E + E − V0 E + E − V0 [( E+ E−V0 )]
E
q q
4 1 − VE0 4 1 − VE0
4
T = √ √ 2 = q 2 ≈ =1
( E+√ E−V0 ) V0 [1 + 1]2
E
1+ 1− E
por tanto si E >> V0 entonces R ∼ =0yT ∼ = 1, de modo que para energı́as suficientemente grandes comparadas con
la altura del potencial, la partı́cula saltará el escalón prácticamente con toda certeza.
La diferencia en la interpretación en óptica y en cuántica se puede apreciar con el proceso de medición. Si justo
después de que la onda incidente se parte en dos, colocamos dos detectores en la regiones I y II, en un experimento
óptico los dos aparatos detectarán una onda cada una con intensidad menor a la incidente (siendo la suma de las
dos intensidades la intensidad incidente). En un experimento cuántico solo uno de los detectores detectará una
partı́cula, pero si repetimos el experimento muchas veces, la partı́cula será detectada en uno u otro detector en cada
experimento, en una proporción dada por el patrón de probabilidad.
De modo que la solución en la región I es del tipo armónico Ec. (3.44) y en la región II es del tipo exponencial
Ec. (3.47)
B2 = 0 (3.74)
dϕ (x) dϕ (x)
lı́m ϕ (x) = lı́m ϕ (x) ; lı́m
= lı́m ⇒
x→0− x→0+ dx x→0−x→0 + dx
dϕI dϕII
ϕI (x = 0) = ϕII (x = 0) ; (x = 0) = (x = 0) (3.75)
dx dx
6
En x → −∞ la solución es oscilante ya que estamos en la región I. Por lo tanto, no hay problemas de divergencia.
142 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES
Debido a la nulidad de B2 , podremos encontrar todos los cocientes de la forma A 01 /A1 y B20 /A1 sin ninguna suposición
adicional. Dividiendo las Ecs. (3.76) por A 1 queda
A01 B20 A01 B0
1+ = ; ik1 1 − = −ρ2 2
A1 A1 A1 A1
A01 B20 ik1 A01 B20
1+ = ; − 1− = (3.77)
A1 A1 ρ2 A1 A1
k1 − iρ2 B0 B0 2k1
1+ = 2 ⇒ 2 =
k1 + iρ2 A1 A1 k1 + iρ2
tenemos que los cocientes están dados por
Las expresiones finales para ϕI (x) y ϕII (x) están dadas por las Ecs. (3.72, 3.73, 3.74)
~k h 2 i
JI = |A1 |2 − A01
m
Por otro lado, usando la segunda de las Ecs. (3.79) en la Ec. (3.54) y teniendo en cuenta que en la Ec. (3.54)
los dos coeficientes deben ser no nulos para que exista corriente, se tiene que
JII = 0
de modo que el flujo transmitido es cero.
En el análogo óptico, cuando E < V0 el ı́ndice n2 correspondiente a la región II (x > x 1 ) se vuelve puramente
imaginario y la onda se refleja completamente. Sin embargo, la onda evanescente para la región II muestra que una
fracción de la intensidad de la onda cruza la frontera (onda sobreamortiguada i.e. sin oscilación). Similarmente en
el caso cuántico la partı́cula es siempre reflejada (reflexión total) pero hay una probabilidad diferente de cero de
que la partı́cula pase a la región II 7 , esto difiere sin embargo del comportamiento clásico de una partı́cula para la
cual esta región estarı́a estrictamente prohibida. No obstante, en el caso cuántico, esta probabilidad disminuye con
x exponencialmente de modo que se vuelve despreciable cuando x es mayor a la “longitud de penetración” 1/ρ 2 de
7
Hablamos de reflexión total en el sentido de que solo las funciones de onda incidente y reflejada oscilan. La onda transmitida está en
cambio sobreamortiguada.
3.7. BARRERA DE POTENCIAL 143
la onda evanescente. Adicionalmente, las Ecs. (3.78) nos dicen que el coeficiente A 01 /A1 es complejo de modo que
hay cierto corrimiento de fase en la reflexión que fı́sicamente se debe a que la partı́cula es retardada cuando penetra
la región II. Este fenómeno es parcialmente análogo al efecto piel de penetración de una onda en un metal, aunque
en el efecto piel hay una parte oscilante y una de amortiguamiento (subamortiguamiento), en tanto que en el caso
presente solo hay término amortiguado (sobreamortiguamiento).
Surge una aparente paradoja teniendo en cuenta que en la región II, la corriente de probabilidad es cero en tanto
que la probabilidad de que la partı́cula esté en esta región es no nula. Un análisis mas detallado del paquete de
onda incidente muestra que parte del paquete de onda incidente entra en la región II clásicamente prohibida para la
partı́cula y se refleja después de haber penetrado, esta onda reflejada desde la región II interfiere destructivamente
con la onda incidente que está penetrando de modo que se anula la corriente en la región II.
Vale decir que esta interferencia perfectamente destructiva solo aparece en el caso unidimensional. Un análisis
del caso bidimensional muestra que efectivamente aparece una corriente no nula en la región II cuando la incidencia
es oblı́cua.
Es interesante analizar el caso en el cual V 0 → ∞, de la definición para ρ2 en (3.71) vemos que ρ2 → ∞ de
modo que la segunda de las Ecs. (3.78) nos da B 20 → 0, y usando esto en la primera de las Ecs. (3.78) se obtiene
A01 /A1 → −1 es decir
A01 → −A1 ; B20 → 0 (3.81)
y la segunda de las Ecs. (3.79) muestra que en la región II la función de onda tiende a cero, ası́ como el rango de
penetración 1/ρ2 de ésta8 . Aplicando los lı́mites (3.81) a las Ecs. (3.79)
lı́m ϕ (x) = ϕI (0) = A1 + A01 → 0 , lı́m ϕ (x) = ϕII (0) = B20 → 0 (3.82)
x→0− x→0+
la función de onda ϕ (x) se va para cero en x = x 1 de manera que se mantiene contı́nua en el punto de discontinuidad
del potencial. Veamos ahora los lı́mites laterales en la derivadas, Ecs. (3.80)
el valor de este lı́mite dependerá del crecimiento comparativo entre ρ 2 y x. Por ejemplo si suponemos que el potencial
V0 crece como x−3 tenemos que r r
2m 2m −3/2
ρ2 → 2
V0 → x ≡ kx−3/2
~ ~2
con lo cual la Ec. (3.83) queda
dϕ (x) −1/2
lı́m = 2ik1 A1 lı́m e−ρ2 x = 2ik1 A1 lı́m e−kx =0
x→0+ dx x→0+ x→0+
Vemos entonces que la derivada puede cambiar abruptamente del valor 2ikA 1 a cero, en cuyo caso no serı́a
contı́nua. Esto se debe a que el potencial no es acotado (requisito para la validez del desarrollo en la sección 3.5.1)
de modo que la integral en la Ec. (3.49) no necesariamente tiende a cero cuando η → 0.
0 si x < 0 (región I)
V (x) = V >0 si 0 < x < L (región II)
0
0 si L < x (región III)
Para E > V0 veremos que la transmisión es total para ciertos valores del ancho de la barrera, fenómeno conocido
como resonancia en la transmisión. También hay ciertos anchos especı́ficos de la barrera para los cuales la reflexión
es maxima, aunque la transmisión nunca se anula completamente.
Para E < V0 , una partı́cula clásica debe rebotar. Si el ancho de la barrera no es mucho mayor que la longitud
de penetración 1/ρ de la onda evanescente, veremos que parte de la onda incidente se transmite a la región III. En
consecuencia, incluso para E < V0 la probabilidad de que la partı́cula cruce la barrera es diferente de cero. Este
hecho se conoce como efecto túnel.
ası́ mismo las soluciones en las tres regiones son de la forma (3.44)
ϕI (x) = A1 eik1 x + A01 e−ik1 x ; ϕII (x) = A2 eik2 x + A02 e−ik2 x ; ϕIII (x) = A3 eik1 x + A03 e−ik1 x (3.87)
dϕI (x) dϕII (x)
= ik1 A1 eik1 x − A01 e−ik1 x ; = ik2 A2 eik2 x − A02 e−ik2 x
dx dx
dϕIII (x)
ik1 x 0 −ik1 x
= ik1 A3 e − A3 e (3.88)
dx
donde hemos usado la segunda de las Ecs. (3.86). Como antes se tiene que
A03 = 0 (3.89)
3.7. BARRERA DE POTENCIAL 145
ya que asumimos una onda incidente desde x → −∞ y no es de esperarse una onda reflejada desde el interior de la
región III. Usando (3.89), las condiciones de empalme aplicadas a las Ecs. (3.87) en x = 0 y en x = L quedan
una vez más podemos determinar los cocientes A 01 /A1 , A2 /A1 , A02 /A1 , A3 /A1 . Es decir, normalizados con respecto
a la amplitud de la onda incidente. Con respecto a estos cocientes las ecuaciones quedan
despejando A01 /A1 en la primera de las Ecs. (3.90) y en la primera de las Ecs. (3.91) e igualando resulta
A2 A02 k2 A2 A02 A2 k2 A02 k2
+ −1 = 1− − ⇒ 1+ + 1− =2
A1 A1 k1 A1 A1 A1 k1 A1 k1
A2 A0 A02 2k1 A2 (k1 + k2 )
(k1 + k2 ) + 2 (k1 − k2 ) = 2k1 ⇒ = − (3.92)
A1 A1 A1 (k1 − k2 ) A1 (k1 − k2 )
igualando la segunda de las Ecs. (3.90) con la segunda de las Ecs. (3.91), resulta
A2 ik2 L A02 −ik2 L k2 A2 ik2 L A02 −ik2 L A02 −ik2 L k2 A2 ik2 L k2
e + e = e − e ⇒ e 1+ = e −1 (3.93)
A1 A1 k1 A1 A1 A1 k1 A1 k1
A2
−i k12 + k22 sin k2 L + 2k1 k2 cos k2 L = k1 (k1 + k2 ) e−ik2 L
A1
A2 k1 (k1 + k2 ) e−ik2 L
= (3.95)
A1 −i k12 + k22 sin k2 L + 2k1 k2 cos k2 L
146 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES
despejando A01 /A1 en la primera de las Ecs. (3.90) y reemplazando las Ecs. (3.95,3.96) en la ecuación resultante se
obtiene
A01 A2 A02 k1 (k1 + k2 ) e−ik2 L k1 (k1 − k2 ) eik2 L
= + −1= − −1
A1 A1 A1 −i k12 + k22 sin k2 L + 2k1 k2 cos k2 L −i k12 + k22 sin k2 L + 2k1 k2 cos k2 L
−k12 eik2 L − e−ik2 L + k1 k2 eik2 L + e−ik2 L −2ik12 sin k2 L + 2k1 k2 cos k2 L
= − 1 = −1
−i k12 + k22 sin k2 L + 2k1 k2 cos k2 L −i k12 + k22 sin k2 L + 2k1 k2 cos k2 L
−2ik12 sin k2 L + 2k1 k2 cos k2 L − −i k12 + k22 sin k2 L + 2k1 k2 cos k2 L
=
−i k12 + k22 sin k2 L + 2k1 k2 cos k2 L
A01 −2ik12 sin k2 L + 2k1 k2 cos k2 L + i k12 + k22 sin k2 L − 2k1 k2 cos k2 L
=
A1 −i k12 + k22 sin k2 L + 2k1 k2 cos k2 L
A01 i k22 − k12 sin k2 L M
= 2 2
≡ (3.97)
A1 −i k1 + k2 sin k2 L + 2k1 k2 cos k2 L N
reemplazando las Ecs. (3.95,3.96) en la ecuación segunda de las Ecs. (3.90) resulta
A3 2k1 k2 e−ik1 L P
= 2 2
≡ (3.98)
A1 −i k1 + k2 sin k2 L + 2k1 k2 cos k2 L N
ahora calculamos los coeficientes de reflexión y transmisión por medio de las Ecs. 3.97
2
Jref l A01 2 M M ∗ |M |2 k22 − k12 sin2 k2 L
R = = = = = (3.99)
Jinc A1 N N∗ |N |2 |N |2
2 2
Jtrans A3 2 2
T = = = |P | = 4k1 k2 (3.100)
Jinc A1 |N | 2
|N |2
calculamos ahora la magnitud al cuadrado del denominador N
|N |2 = N N ∗ = 2k1 k2 cos k2 L − i k12 + k22 sin k2 L 2k1 k2 cos k2 L + i k12 + k22 sin k2 L
2
= 4k12 k22 cos2 k2 L + k12 + k22 sin2 k2 L = 4k12 k22 1 − sin2 k2 L + k14 + k24 + 2k12 k22 sin2 k2 L
= 4k12 k22 + k14 + k24 − 2k12 k22 sin2 k2 L
2
|N |2 = 4k12 k22 + k22 − k12 sin2 k2 L (3.101)
reemplazando (3.101) en las Ecs.(3.99, 3.100), los coeficientes de reflexión y transmisión quedan
0 2
2 − k 2 2 sin2 k L
A1 k 2 1 2
R = = 2 2 (3.102)
A1 2 2 2 2
4k1 k2 + k2 − k1 sin k2 L
2
A3 4k12 k22
T = = 2 (3.103)
A1 4k12 k22 + k22 − k12 sin2 k2 L
se vé inmediatamente que R + T = 1. Es más útil escribir a R y T en términos de cantidades Fı́sicas más directas
como E y V0 . Para ello reemplazamos las expresiones (3.84, 3.85) en la Ec. (3.103)
2mE
h 2m(E−V0 ) i
2 2
4k1 k2 4 ~2 ~2
T = = h i h i √
2
4k12 k22 + k22 − k12 sin2 k2 L 2mE
2m(E−V0 ) 2mE 2m(E−V0 ) 2 2 2m(E−V0 )
4 ~2 ~2
+ ~2 − ~2
sin ~ L
4E (E − V0 )
= √
2 2 2m(E−V0 )
4E (E − V0 ) + [E − (E − V0 )] sin ~ L
4E (E − V0 )
T = √ (3.104)
2 2 2m(E−V0 )
4E (E − V0 ) + V0 sin ~ L
si hacemos una gráfica de T contra L con valores fijos de E, V 0 y m (ver Fig 3.3), y tenemos en cuenta que sin2 x
es periódica en x con periodo π, entonces T es periódica en L con periodo
π π~
∆L = =p (3.105)
k2 2m (E − V0 )
El mı́nimo de T se obtiene cuando el seno al cuadrado adquiere el valor 1 y el máximo se obtiene cuando el seno al
cuadrado adquiere el valor cero. Es claro entonces que
4E (E − V0 )
Tmı́n = > 0 ; Tmáx = 1 (3.106)
4E (E − V0 ) + V02
vemos que se obtienen valores de L para los cuales la transmisión es total (T = 1), lo cual ocurre cuando L n =
n∆L = nπ/k2 o equivalentemente
nπ nπ~
Ln = =p (3.107)
k2 2m (E − V0 )
148 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES
Figura 3.3: Gráfica de T vs L, con E, V 0 y m fijos, para una barrera de potencial como la indicada en la Fig. 3.2
con la condición E > V0 .
decimos entonces que se obtienen resonancias en la transmisión para estos valores de L n , los cuales corresponden
a múltiplos enteros de la semilongitud de onda de la partı́cula en la región II 9 . Estos hechos se ilustran en la Fig.
3.3. Este es el análogo cuántico de la transmisión en un interferómetro de Fabry-Perot en óptica, en el cual también
se observan estas resonancias en la transmisión. Cuando E > V 0 , se tiene que la reflexión de la partı́cula en cada
discontinuidad del potencial (i.e. en x = 0, L) ocurre sin corrimiento de fase de la función de onda. Por esta razón,
la condición de resonancia k2 L = nπ coincide con los valores de L para los cuales pueden existir ondas estacionarias
en la región II. Por otro lado, cuando L 6= L n surge un corrimiento de fase en las reflexiones que genera interferencia
destructiva, la cual se maximiza lejos de la resonancia, es decir cuando L = (n + 1/2) π, como se aprecia en la Fig.
3.3 esto genera el valor mı́nimo de T . Nótese que en L = (n + 1/2) π tendrı́amos una resonancia en la reflexión,
pero la reflexión no es total ya que la transmisión nunca es nula 10 .
Un estudio del comportamiento del paquete de onda en una barrera de potencial con E > V 0 muestra que cuando
se cumple la condición de resonancia, el paquete de onda pasa un tiempo relativamente grande en la región II. En
mecánica cuántica esto se denomina resonancia en el scattering, ya que en un problema de dispersión por este
tipo de potencial el paquete de onda estarı́a pasando un tiempo relativamente largo en la región de colisión (que
serı́a la región II).
En el análogo óptico, tenemos una capa de ancho L con ı́ndice de refracción imaginario (región II) rodeado de
un medio transparente (regiones I y III). En este caso las regiones I y III poseen ondas oscilantes en tanto que la
9
El hecho de que sean múltiplos enteros de semilongitudes de onda (y no de las longitudes de onda) proviene del hecho de que la Ec.
(3.104), depende de sin2 x cuyo periodo π es la mitad del periodo de la función sin x.
10
Naturalmente, la condición de resonancia en la transmisión Ec. (3.107) puede interpretarse para L fijo como los valores k 2n de número
de onda que producen dicha resonancia. Si asumimos por ejemplo que L, V0 y m son fijos, lo que estamos obteniendo son las energı́as de
resonancia En , que implicarán unas frecuencias de resonancia En = hνn .
3.7. BARRERA DE POTENCIAL 149
comparando las Ecs. (3.108, 3.109, 3.110) con las Ecs. (3.84, 3.85, 3.86), vemos que podemos utilizar las soluciones
anteriores reemplazando k2 por −iρ2 con lo cual se obtiene
2
A3 4E (V0 − E)
T = = √ ; R =1−T (3.111)
A1 2 2 2m(V0 −E)
4E (V0 − E) + V0 sinh ~ L
para una partı́cula clásica que en t → −∞ está en x → −∞, es decir en la región I, las regiones II y III están
prohibidas. Contrario a las predicciones para una partı́cula clásica, vemos que en el caso cuántico las probabilidades
en las regiones II y III son distintas de cero. En particular esto implica una probabilidad diferente de cero de que la
partı́cula cruce la barrera de potencial, fenómeno conocido como efecto túnel. En la región II el comportamiento es
de onda evanescente de rango 1/ρ2 . Cuando L . 1/ρ2 la partı́cula tiene una probabilidad considerable de cruzar la
barrera por efecto túnel. Este efecto tiene muchas aplicaciones en Fı́sica tales como el efecto Josephson, la inversión
de la molécula de amonio, el diodo túnel etc.
Es natural entonces comparar la longitud o rango de penetración 1/ρ 2 de la onda evanescente, con el ancho L de
la barrera. Si el ancho de la barrera es mucho mayor que el rango de la onda evanescente tenemos que L >> 1/ρ 2
de modo que ρ2 L >> 1, usando la Ec. (3.109) esta condición queda
r
2m (V0 − E) ex
ρ2 L = L >> 1 ; sinh x ' ; x >> 1
~2 2
Figura 3.4: Perfil de un pozo de potencial de profundidad V 0 , con discontinuidades en x = −a/2 y x = a/2.
Para esta situación, definiremos el pozo de potencial en la forma (ver Fig. 3.4)
0 si x < − a2 (región I)
V (x) = −V0 < 0 si − a2 < x < a2 (región II)
0 si a2 < x (región III)
donde hemos elegido colocar el origen de tal modo que V (x) = V (−x).
Una partı́cula clásica en un pozo de potencial como éste, y con energı́a E negativa (pero mayor que −V 0 ) solo
puede oscilar entre −a/2 y a/2 con energı́a cinética E k = E +V0 . En el análogo óptico, para la situación −V 0 < E < 0
los ı́ndices de refracción n1 y n3 en las regiones I y III son imaginarios, en tanto que n 2 es real. Esto es equivalente
a una capa de aire de ancho “a” entre dos medios reflectivos. Las diferentes ondas que se reflejan sucesivamente en
x = −a/2 y x = a/2 se destruyen unas a otras excepto para ciertas frecuencias muy especı́ficas (modos normales)
3.8. POZO DE POTENCIAL 151
que permiten la formación de ondas estacionarias. Desde el punto de vista cuántico, esto significa que las energı́as
negativas de la partı́cula están cuantizadas. En contraste, para la partı́cula clásica todos los valores de energı́a entre
−V0 y cero son posibles. Vale la pena mencionar que los valores permitidos de la energı́a no están dados por la bien
conocida condición a = kλ2 /2, ya que existen ondas evanescentes que generan un corrimiento de fase en los puntos
de reflexión x = −a/2 y x = a/2.
En las regiones I, II y III las soluciones de la ecuación de Schrödinger independiente del tiempo son
r
ρx 0 −ρx 2mE
ϕI (x) = B1 e + B1 e ; ρ= − 2 >0 (3.113)
~
r
2m (E + V0 )
ϕII (x) = A2 eikx + A02 e−ikx ; k = >0 (3.114)
r ~2
2mE
ϕIII (x) = B3 eρx + B30 e−ρx ; ρ = − 2 > 0 (3.115)
~
asumiremos de nuevo la condición inicial de que la onda viaja inicialmente desde la región I. A fin de que estas
funciones sean acotadas en la región I (x → −∞) y en la región III (x → ∞) se requiere que
B10 = B3 = 0 (3.116)
ϕI (x) = B1 eρx ; ϕII (x) = A2 eikx + A02 e−ikx ; ϕIII (x) = B30 e−ρx (3.117)
en este caso la amplitud incidente es B 1 (aunque de una onda evanescente) y por tanto los cocientes se normalizan
con esta cantidad. Las Ecs. (3.118) quedan
A2 (ρ−ik) a A02 (ρ+ik) a ik A2 (ρ−ik) a A02 (ρ+ik) a
1 = e 2 + e 2 ; 1= e 2 − e 2 (3.119)
B1 B1 ρ B1 B1
B30 A2 (ρ+ik) a A02 (ρ−ik) a B30 ik A02 (ρ−ik) a A2 (ρ+ik) a
= e 2 + e 2 ; = e 2 − e 2 (3.120)
B1 B1 B1 B1 ρ B1 B1
ρ + ik (−ρ+ik) a2 (ρ+ik) a2 ρ − ik −(ρ+ik) a2 a ik ρ − ik −(ρ+ik) a2 a
e e + − e e(ρ−ik) 2 = − e e(ρ−ik) 2
2ik 2ik ρ 2ik
ρ + ik (−ρ+ik) a2 (ρ+ik) a2
− e e
2ik
ρ + ik ika ρ − ik −ik n o
e − e−ika = (ρ − ik) e−ika + (ρ + ik) eika
2ik 2ik 2ikρ
−ik n o
(ρ + ik) eika − (ρ − ik) e−ika = (ρ − ik) e−ika + (ρ + ik) eika
ρ
ρ + ik ρ − ik −ik n o
eika − e−ika = (ρ − ik) e−ika + (ρ + ik) eika
2ik 2ik 2ikρ
−ik n o
(ρ + ik) eika − (ρ − ik) e−ika = (ρ − ik) e−ika + (ρ + ik) eika
ρ
dividiendo ambos miembros por ρ + ik resulta
(ρ − ik) −ika −ik (ρ − ik) −ika ik (ρ − ik) −ika ik
eika − e = e + eika ⇒ eika 1 + = e 1−
(ρ + ik) ρ (ρ + ik) ρ (ρ + ik) ρ
2ika ρ + ik (ρ − ik) ρ − ik
e =
ρ (ρ + ik) ρ
(ρ − ik)2
e2ika = (3.125)
(ρ + ik)2
vale la pena discutir la estrategia de solución antes de seguir adelante. A priori podrı́a pensarse que las Ecs. (3.118)
nos pueden dar solución para todas las amplitudes B 1 , A2 , A02 y B3 , puesto que tenemos cuatro ecuaciones. Sin
embargo, no es lógico fı́sicamente que la amplitud de entrada B 1 pueda ser determinada por las condiciones de
empalme ya que esta amplitud tiene relación con las condiciones iniciales, las cuales puedo acomodar en principio
arbitrariamente. Por esta razón la estrategia de solución se interpreta diciendo que las cuatro ecuaciones (3.118) nos
brindan soluciones para los tres cocientes A 2 /B1 , A02 /B1 , B30 /B1 mas una ligadura entre las cantidades ρ y k dada
por la Ec. (3.125).
3.8. POZO DE POTENCIAL 153
Por otro lado, las Ecs. (3.113, 3.114) nos muestran que ρ y k están relacionadas con la energı́a E de la partı́cula.
Esto implica que la ligadura (3.125) solo se satisface para ciertos valores de la energı́a. Por tanto, al imponer el
acotamiento de ϕ (x) hemos llegado a una cuantización de la energı́a. Esto se puede ver teniendo en cuenta que
la ligadura (3.125) provino del hecho de que el sistema de cuatro ecuaciones (3.119, 3.120) está sobredeterminado
para el conjunto de tres cocientes A 2 /B1 , A02 /B1 , B30 /B1 ; pero esto a su vez ocurre debido a la eliminación de las
amplitudes Ec. (3.116) que se realizó para mantener acotada la solución.
En resumen, para un pozo de potencial como el de la Fig. 3.4 de profundidad V 0 y de ancho a, la función de
onda (acotada) en las tres regiones en que el potencial divide al espacio vienen dadas por
ϕI (x) = B1 eρx ; ϕII (x) = A2 eikx + A02 e−ikx ; ϕIII (x) = B30 e−ρx (3.126)
r r
2mE 2m (E + V0 )
ρ = − 2 >0 ; k= >0 (3.127)
~ ~2
A2 ρ + ik (−ρ+ik) a2 A02 ρ − ik a B30 ρ
= e ; =− e−(ρ+ik) 2 ; = sin ka + cos ka (3.128)
B1 2ik B1 2ik B1 k
(ρ − ik)2
e2ika = (3.129)
(ρ + ik)2
donde hemos supuesto que la partı́cula incide desde la región I.
quedando finalmente
ρ ka
= tan (3.131)
k 2
definimos la magnitud del complejo ρ + ik en la forma
r
p 2mV0
k0 ≡ k 2 + ρ 2 = (3.132)
~2
donde hemos tenido en cuenta las Ecs. (3.127). Usando identidades trigonométricas y las Ecs. (3.131, 3.132), tenemos
que
1 ka ρ2 k 2 + ρ2
ka
= 1 + tan2 =1+ 2 =
cos2 2
2 k k2
2
1 k0
ka
= (3.133)
cos2 2
k
de modo que la Ec. (3.130) es equivalente a las Ecs. (3.131, 3.133) que se pueden sintentizar en las ecuaciones
cos ka = k ; tan
ka
>0 (3.134)
2 k0 2
Donde hemos tenido en cuenta que la Ec. (3.133) proviene de la Ec. (3.131), pero sustituyendo una tangente al
154 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES
Figura 3.5: Solución gráfica de las Ecs. (3.134, 3.138). La intersección de la lı́nea recta con las lı́neas punteadas
cosenoidales nos dan los puntos denotados por P , correspondientes a soluciones de las Ecs. (3.134) y asociados a
funciones de onda pares. La intersección de la recta con las lı́neas punteadas del arco senoidal nos dan los puntos
denotados por I, correspondientes a soluciones de las Ecs. (3.138) y asociados a funciones de onda impares.
cuadrado con lo cual se pierde la información del signo de esta tangente al llegar a la Ec.
(3.133).
La primera de las Ecs. (3.134) se puede solucionar graficando la parte izquierda y = cos ka 2
y la parte derecha
y = k/k0 y encontrando la intersección entre las dos gráficas. Es decir graficamos los arcos cosenoidales (arcos del
coseno con nodos en (2q + 1) π/a de la Fig. 3.5 con q entero no negativo) y la lı́nea recta de pendiente 1/k 0 para
obtener tal intersección. Ahora bien, las franjas ascendentes del coseno (lı́neas contı́nuas del arco cosenoidal en la
Fig. 3.5) violan la condición dada por la segunda ecuación (3.134), en tanto que las franjas descendentes (lı́neas
punteadas del arco cosenoidal en la Fig. 3.5) satisfacen tal condición 11 . Los puntos de intersección de la recta con
las lı́neas punteadas del coseno se denotan en la Fig. 3.5 con la letra P , y sus componentes x nos dan los valores k n
que cuantizan al número de onda y por tanto a la energı́a, la cual viene dada por la ecuación (3.127)
r
2m (En + V0 )
kn = (3.135)
~2
Por otro lado, dividiendo las dos primeras Ecs. (3.128) se obtiene
a
ρ−ik
0
A2 − 2ik e−(ρ+ik) 2 (ρ − ik) e−ik 2
a
(ρ − ik) −ika
= =− ik a2
=− e
A2 ρ+ik (−ρ+ik) a2 (ρ + ik) e (ρ + ik)
2ik e
En conclusión la Ec. (3.130) que define el caso 1 de nuestro análisis, conduce a las relaciones
ϕI (x) = B1 eρx ; ϕII (x) = 2A2 cos kx ; ϕIII (x) = B1 e−ρx (3.137)
para −a/2 ≤ x ≤ a/2 (región II), es claro que −x también pertenece a la región II. Si x pertenece a la región I (x ≤
−a/2) entonces −x pertenece a la región III (−x ≥ a/2). Similarmente, si x está en la región III entonces −x está en
la región I. Vemos además que la Ec. (3.137) nos dice que
lo cual nos lleva a la conclusión de que en el caso 1 caracterizado por la Ec. (3.130), la función de onda es par en
todas las regiones i.e.
ϕ (−x) = ϕ (x) ; x ∈ (−∞, ∞)
la Fig. 3.5 muestra la intersección entre la recta de pendiente 1/k 0 y los arcos senoidales (arcos del seno con nodos
en k = 2qπ/a siendo q entero no negativo). La intersección entre la recta y la parte punteada (descendente) de los
arcos senoidales, nos da los puntos denotados por I en la Fig. 3.5, cuya abcisa nos da el valor cuantizado de k n , con
el cual se encuentra la energı́a cuantizada usando la Ec. (3.135). Nótese que los niveles encontrados se encuentran
entre los niveles hallados para el primer caso. Puede similarmente demostrarse que la función de onda asociada es
impar.
Para el ejemplo de la figura 3.5 tenemos que 4π/a < k 0 < 5π/a, de modo que p = 2. El número de estados pares es
[2 + 1] = 3, el número de estados impares es 2 + 12 = 2.
Es útil escribir la condición (3.139), en términos de parámetros más fı́sicos. De la definición (3.132) podemos
escribir la condición (3.139) en la forma
r 2 2
2pπ 2mV0 (2p + 1) π 2pπ 2mV0 (2p + 1) π
≤ ≤ ⇒ ≤ ≤
a ~2 a a ~2 a
π ~2
2 π 2 ~2
(2p)2 ≤ V0 ≤ (2p + 1)2
2ma2 2ma2
π 2 ~2 1 3 5
(2p)2 V1 ≤ V0 ≤ (2p + 1)2 V1 ; V1 ≡ ; p = 0, , 1, , 2, , . . . (3.140)
2ma2 2 2 2
La Ec. (3.140), nos sugiere definir a V 1 como un potencial umbral. Por ejemplo si p = 0 tenemos que 0 ≤ V 0 ≤ V1
conduce a un estado par y ningún estado impar. Si p = 1/2, la condición queda V 1 ≤ V0 ≤ 4V1 que conduce a una
función par y otra impar y ası́ sucesivamente.
Si V0 >> V1 (de modo que p >> 1) entonces la pendiente de la recta 1/k 0 es muy pequeña y los primeros números
de onda prácticamente coinciden con los nodos de los arcos senoidal y cosenoidal. Es decir, para los números de
onda más bajos tenemos que
nπ
k' ; para n entero y n << p
a
y aplicando la Ec. (3.135), la energı́a queda
n2 π 2 ~2
E' − V0 ; para n entero y n << p (3.141)
2ma2
ϕ (0) = 0 = A + A0 ⇒ A = −A0 ⇒
ϕ (x) = A eikx − e−ikx = 2iA sin kx (3.143)
con el fin de poder comparar con los resultados de la sección 3.7.1. Cuando la partı́cula clásica tiene energı́a positiva
y viene desde −∞, viaja con energı́a cinética constante E k = E hasta x = 0, donde experimenta un aumento
abrupto en su energı́a cinética a E k = E + V0 , y luego una desaceleración similar en x = L, continuando hacia la
derecha con energı́a cinética constante E k = E.
Para E > 0, en el análogo óptico todos los ı́ndices de refracción son reales
c 1√ c 1p
n1 = n 3 = 2mE ; n2 = 2m (E + V0 )
Ω~ Ω~
y los resultados se pueden extraer de la Sec. 3.7.1, con la asignación V 0 → −V0 . Puesto que n2 es mayor que n1
y n3 la situación óptica es análoga a tener una capa de vidrio en medio del aire 13 . Para obtener la onda reflejada
para x < 0, o la onda transmitida para x > L, es necesario superponer un número infinito de ondas que surgen
de la reflexión sucesiva entre x = 0 y x = L (interferómetro múltiple análogo a un Fabry-Pérot). Se encuentra que
para ciertas frecuencias incidentes la onda es completamente transmitida (asumiendo que L, V 0 y m son fijos). En el
caso cuántico, la partı́cula tiene cierta probabilidad de ser reflejada, pero existen ciertos valores llamados energı́as
resonantes para los cuales la probabilidad de transmisión es 1 y por tanto la probabilidad de reflexión es cero.
12
Si tomáramos la raı́z negativa en la Ec. (3.142) tendrı́amos la misma solución de la función de onda.
13
En la Sec. 3.7.1, la situación óptica era la de una capa de aire rodeada de vidrio.
Capı́tulo 4
a esta cantidad cuando se escribe enteramente en términos del conjunto {q i , pi }, la llamamos el Hamiltoniano del
sistema y actúa como generador de ecuaciones de movimiento para el sistema {q i , pi }, a través de las llamadas
ecuaciones de Hamilton
∂H ∂H
q̇i = ; ṗi = −
∂pi ∂qi
La resolución de estas ecuaciones nos genera el comportamiento de q i y pi como función del tiempo y por tanto
toda la información fı́sica del sistema. El Hamiltoniano es una función que puede variar tanto funcional como
numéricamente cuando se hace un cambio en el sistema coordenado. El uso directo de las ecuaciones de Hamilton
permite demostrar que
dH ∂H
=
dt ∂t
En consecuencia, si para un sistema coordenado dado el Hamiltoniano no es función explı́cita del tiempo, esta
cantidad será una constante de movimiento y si una cierta coordenada generalizada q i no aparece en el Hamiltoniano,
pero sı́ aparece su momento conjugado p i , se tiene que este momento conjugado será una constante de movimiento.
Adicionalmente, para muchos casos de interés el Hamiltoniano corresponde a la energı́a total del sistema, para que el
4.1. LOS FENÓMENOS CLÁSICOS 159
Hamiltoniano sea la energı́a del sistema se deben cumplir los siguientes requisitos (como condiciones de suficiencia):
(a) El lagrangiano asociado debe poder descomponerse en la forma
siendo Li con i = 0, 1, 2 una función homogénea de grados 0, 1 y 2 en las variables q̇ i . (b) La transformación que
lleva de las coordenadas cartesianas a las coordenadas generalizadas
ri = ri (q1 , ..., qn )
no debe depender explı́citamente del tiempo, y (c) el potencial asociado solo debe ser función de las coordenadas y
el tiempo. Para los sistemas microscópicos estas condiciones se cumplen en casi todos los casos de interés. Vale decir
que la condición (c) es violada por los potenciales asociados a las interacciones electromagnéticas para las cuales el
potencial depende también de las q̇ i . No obstante, se puede demostrar que aún con la violación de esta condición,
el Hamiltoniano sigue siendo la energı́a del sistema para el caso especial de interacciones electromagnéticas. Nótese
que esto tiene que ver con el hecho de que estas son condiciones de suficiencia pero no de necesidad.
En virtud de la discusión anterior, asumiremos para nuestros propósitos que el Hamiltoniano corresponde numéri-
camente a la energı́a total del sistema. De particular importancia será el Hamiltoniano asociado a una partı́cula no
relativista, no ligada y sometida a un potencial que no depende de las velocidades generalizadas. En este caso el
Hamiltoniano corresponde a la energı́a total de la partı́cula y se podrá escribir en la forma
p2
H= + V (r, t)
2m
si usamos como coordenadas generalizadas las coordenadas cartesianas de la partı́cula, se tendrá que el momento
lineal pi será el momento canónicamente conjugado a la variable x i con i = 1, 2, 3. Si aplicamos las ecuaciones de
Hamilton a este Hamiltoniano, las ecuaciones de movimiento quedan
pi ∂V
ẋi = ; ṗi = −
m ∂xi
que coinciden con las leyes Newtonianas básicas.
Por otro lado, existen en la mecánica clásica los fenómenos ondulatorios, estos aparecen de manera natural
como excitaciones o perturbaciones colectivas de un sistema de partı́culas, como es el caso de las cuerdas vibrantes
o las olas en el agua, estos fenómenos colectivos se pueden entender a la luz de las leyes de Newton pero no
se presentan fenómenos ondulatorios clásicos para una sola partı́cula. Más bien se trata de una perturbación
que se transmite de una partı́cula a otra generando propiedades de propagación. Por otro lado, existen fenómenos
ondulatorios (electromagnéticos) que no están asociados clásicamente a partı́culas y que no están regidos por las
leyes de Newton sino por las denominadas ecuaciones de Maxwell. Podemos entonces por un lado hablar de materia
(regida por la mecánica Newtoniana) que genera los fenómenos corpusculares y las ondas mecánicas, y la radiación
(regida por las ecuaciones de Maxwell, que genera fenómenos ondulatorios que clásicamente no están asociados a
la materia). De otra parte, podemos hablar de fenómenos corpusculares generados por las partı́culas individuales y
fenómenos ondulatorios generados por los campos electromagnéticos o por perturbaciones colectivas en la materia.
En todo caso, salvo por la ley de Lorentz que nos da la interacción de la radiación con la materia, estos dos tipos de
entes fı́sicos radiación y materia son completamente distintos en mecánica clásica y se rigen por leyes muy distintas.
Por otro lado, una partı́cula individual no puede generar fenómenos ondulatorios de modo que el comportamiento
corpuscular está bien diferenciado del comportamiento ondulatorio.
De la anterior discusión podemos inferir las principales caracterı́sticas de los sistemas clásicos
(1) El estado de un sistema en un tiempo t queda totalmente especificado por el valor de sus coordenadas y
momentos conjugados en tal tiempo. Esto equivale a conocer sus posiciones, masas y velocidades en dicho instante.
(2) Al especificar el estado del sistema en cierto tiempo, cualquier cantidad fı́sica tiene un valor único que se
reflejará en el proceso de medida (con ciertas incertidumbres de ı́ndole experimental).
(3) Las ecuaciones de Hamilton son un posible conjunto de ecuaciones de movimiento. De ellas se observa que
dados los valores de qi (t0 ) , pi (t0 ) para un tiempo inicial t0 , la evolución de qi , pi es única de modo que los valores
qi (t) , pi (t), están completamtne determinados para todo tiempo. En consecuencia el estado del sistema se conoce
160 CAPÍTULO 4. ENUNCIADO MATEMÁTICO DE LOS POSTULADOS DE LA MECÁNICA CUÁNTICA
completamente para cualquier tiempo t ≥ t 0 si lo conocemos para t0 . Esto a su vez implica que cualquier cantidad
fı́sica evoluciona de manera única y su valor al ser medido será único en cualquier instante.
(4) En principio todos valores reales de q i , pi son posibles de obtener en un sistema mecánico (al menos dentro de
ciertos intervalos). Por tanto un observable F (q i , pi ) también posee valores en un espectro contı́nuo al menos dentro
de cierto intervalo. Además en el proceso de medición estos serán también los valores accesibles de las cantidades
fı́sicas.
(5) Las ecuaciones de Maxwell nos dan cuenta de la radiación a través de grados de libertad contı́nuos caracter-
izados por los campos eléctricos y magnéticos. La evolución de estas ecuaciones es única para condiciones iniciales
y de frontera adecuadas, junto con el conocimiento de la distribución de cargas y corrientes.
sabemos que si queremos medir una cantidad fı́sica A asociada a un observable A no podemos hacer una predicción
del resultado con toda certeza sino solo una predicción de la probabilidad de obtener un valor dado accesible, es
decir un autovalor dado de A.
Asumamos por ahora que el espectro de A es totalmente discreto y no degenerado, en tal caso a cada valor
propio an le corresponde un único vector propio normalizado |u n i (excepto por una fase constante). La ecuación de
valores propios de A es
A |un i = an |un i
162 CAPÍTULO 4. ENUNCIADO MATEMÁTICO DE LOS POSTULADOS DE LA MECÁNICA CUÁNTICA
y dado que A es un observable, los vectores propios {|u n i} forman una base ortonormal en E. El vector de estado
|ψi se puede entonces expandir en esta base X
|ψi = cn |un i
n
y postularemos siguiendo el principio de descomposición espectral (sección 2.7.2 Ecs. 2.5, 2.6, 2.7), que la probabil-
idad de obtener el valor propio ak está dada por
¿Que ocurre si el autovalor es degenerado?, en este caso varios vectores ortonormales corresponden a este valor
propio
A uin = an uin ; i = 1, ..., gn
dado que A es observable, el conjunto uin forma una base de modo que podemos expandir el estado |ψi en dicha
base
XX gn
|ψi = cin uin (4.1)
n i=1
en este caso la probabilidad P (ak ) debe involucrar a todos los coeficientes asociados a los estados propios con valor
propio ak
gk
X gk
i 2 X i
P (ak ) =
ck = hu |ψi2
k
i=1 i=1
con lo cual estableceremos el cuarto postulado para espectros discretos
Cuarto postulado (caso de espectro discreto): Cuando se mide una cantidad fı́sica A sobre un sistema que
está en el estado normalizado |ψi, la probabilidad P (a k ) de obtener el autovalor ak correspondiente al observable
A es
gk
X i
P (ak ) = hu |ψi2 (4.2)
k
i=1
siendo gk el grado de degeneración de ak y uik i = 1, ..., gk un conjunto ortonormal de vectores que forman una
base en el autosubespacio Ek generado por el valor propio ak del observable A.
Naturalmente, cuando ak no es degenerado, entonces gk = 1 y la suma solo contiene un término, siendo el
autoespacio Ek de una dimensión.
Nótese que para
que este postulado tenga sentido, es necesario que el cálculo de la probabilidad no dependa de
i
la base especı́fica uk que se use. Esto se puede ver fácilmente considerando la descomposición de E como suma
directa de los autoespacios Ek
E = E 1 ⊕ E2 ⊕ . . . ⊕ E k ⊕ . . . (4.3)
nótese que para poder hacer esta descomposición, es necesario que el operador sea un observable (extensión del
teorema espectral a dimensión infinita). Si retomamos la Ec. (4.1) y la reescribimos adecuadamente resulta
g1
X g2 gk
i X X
|ψi = ci1 u + i i
c2 u2 + . . . + cik uik + . . .
1
i=1 i=1 i=1
y es claro que
gm
X
|ψm i ≡ cim uim ∈ Em (4.4)
i=1
de modo que
|ψi = |ψ1 i + |ψ2 i + . . . + |ψk i + . . . ; |ψm i ∈ Em (4.5)
Por otro lado, en virtud de la descomposición (4.3), existe una única expansión de |ψi en vectores de cada autoespacio.
En otras palabras, cada |ψm i en la expansión es único. En términos de proyectores tenemos que
la probabilidad es
gk
X gk gk
i 2 X i X
P (ak ) = ck = huk |ψi2 = hψ uik huik |ψi
i=1 i=1 i=1
P (ak ) = hψ| Pk |ψi (4.6)
pero dado que |ψk i es único y su norma es independiente de la base en que se calcule, vemos que esta probabilidad
es independiente de la base como se esperaba. La Ec. (4.6) es una forma alternativa de calcular esta probabilidad.
Veamos el caso de un espectro contı́nuo no degenerado. La ecuación de valores propios de A es
A |vα i = α |vα i
siendo α un ı́ndice contı́nuo y siendo |v α i ortonormal en el sentido extendido. Siendo A un observable (también en
el sentido extendido), podemos expandir el ket |ψi en términos de los autoestados de A
Z
|ψi = dα c (α) |vα i
puesto que el conjunto de medidas accesibles de A es contı́nuo, debemos definir una densidad de probabilidad, tal
como lo hicimos con la función de onda ψ (r, t) y su transformada de Fourier ψ̄ (p, t). En el caso de estas funciones
la probabilidad de encontrar a la partı́cula en un volumen d 3 r o dentro de un intervalo tridimensional de momento
d3 p están dados por
siendo dP (α) la probabilidad de obtener un valor dentro del intervalo entre α y α + dα. Naturalmente, α puede
estar indicando varios ı́ndices contı́nuos.
Cuarto postulado (caso contı́nuo no degenerado): Cuando se mide la cantidad fı́sica A sobre un sistema
que está en el estado normalizado |ψi, la probabilidad de obtener un valor dentro del intervalo entre α y α + dα
está dada por
dP (α) = |hvα |ψi|2 dα ≡ ρ (α) dα (4.7)
siendo |vα i el autovector correspondiente al autovalor α del observable A asociado a la cantidad Fı́sica A. A la
cantidad ρ (α) la llamamos la densidad de probabilidad asociada al autovalor α.
164 CAPÍTULO 4. ENUNCIADO MATEMÁTICO DE LOS POSTULADOS DE LA MECÁNICA CUÁNTICA
Nótese que tanto en el contı́nuo como en el discreto, la probabilidad de obtener cualquier valor accesible es igual
a la unidad como debe ser
X X X
P (ak ) = hψ| Pk |ψi = hψ| Pk |ψi = hψ| I |ψi = hψ |ψi = 1
k k k
o alternativamente
X gk
XX i 2
P (ak ) = c = hψ |ψi = 1
k
k k i=1
en el caso contı́nuo
Z b Z b Z b Z b
2
dP (α) = |hvα |ψi| dα = hψ |vα i hvα |ψi dα = hψ| |vα i hvα | dα |ψi = hψ| I |ψi = 1
a a a a
siendo [a, b] el intervalo en donde se define la variable contı́nua α. Por supuesto, si la función es de cuadrado
integrable pero no está normalizada, estas probabilidades se pueden calcular normalizando a |ψi
0
ψ = p 1 |ψi
hψ |ψi
es importante enfatizar que el carácter de observable de A es vital para la construcción del cuarto postulado, ya
que éste depende de que un estado (arbitrario) pueda expandirse en términos de los autovectores de A.
Si el espectro contı́nuo es degenerado podemos escribir
E E
A vαβ = α vαβ β ∈ [c, d]
y la densidad de probabilidad asociada a α se obtiene sumando sobre todos los vectores propios con valor propio α
Z d 2 Z d 2
β β
ρ (α) = hvα |ψi dβ ; dP (α) = hvα |ψi dβ dα
c c
la extensión a casos en donde parte del espectro es contı́nuo y parte discreto es relativamente simple y será ilustrada
posteriormente con ejemplos.
siendo θ un número real. Es fácil ver que los dos vectores poseen la misma norma y que la probabilidad predicha
para una medición arbitraria es la misma para ambos kets.
hψ 0 ψ 0 = hψ| e−iθ eiθ |ψi = hψ |ψi
i 0 2 iθ i i
hu |ψ i e hu |ψi2 hu |ψi2
k k k
= =
hψ 0 |ψ 0 i hψ |ψi hψ |ψi
también contienen la misma información fı́sica, ya que estrictamente los observables solo se calculan con kets
normalizados. En consecuencia, dos kets linealmente dependientes representan el mismo estado del sistema fı́sico.
Este resultado debe interpretarse con cuidado. Por ejemplo, sea el estado
donde λ1 y λ2 son complejos. De lo anterior, sabemos que e iθ1 |ψ1 i representa al mismo estado que |ψ1 i y que
eiθ2 |ψ2 i representa al mismo estado que |ψ2 i, no obstante el estado
no representa el mismo estado fı́sico que |ψi, ya que la diferencia de fase θ 2 − θ1 dará lugar a fenómenos de
interferencia, volveremos sobre esto más adelante. Por el momento mencionaremos que los dos estados describirán
la misma fı́sica solo si θ1 = θ2 + 2nπ, siendo n un entero. Pues en tal caso e iθ1 = eiθ2 y resulta
de modo que un factor de fase global no afecta las predicciones fı́sicas, pero las fases relativas de los coeficientes de
una expansión son significativas.
Quinto postulado: Si la medida de la cantidad fı́sica A sobre el sistema en el estado |ψi, nos da el valor propio
ak , el estado del sistema inmediatamente después de la medida está dado por la proyección normalizada de |ψi sobre
el autoespacio Ek asociado con ak
gk
X
(ak ) Pk |ψi 1 1
|ψi −→ p =p |ψk i = qP 2 cik uik (4.8)
hψ| Pk |ψi hψk |ψk i gk cm i=1
m=1 k
166 CAPÍTULO 4. ENUNCIADO MATEMÁTICO DE LOS POSTULADOS DE LA MECÁNICA CUÁNTICA
el estado del sistema inmediatamente después de la medición es entonces un autovector de A con autovalor a k . Pero
no un autovector cualquiera de Ek , sino la componente sobre este autoespacio del estado |ψi que se tenı́a antes de
la medición. Cuando hay ausencia de degeneración g k = 1 y se tiene que el estado después de la medición es
(ak ) 1 1
|ψi −→ q ck |uk i = |ck | eiα |uk i
2 |ck |
|ck |
(ak )
|ψi −→ eiα |uk i
el cual es fı́sicamente idéntico a |u k i. Efectivamente en este caso salvo por una constante de proporcionalidad, el au-
tovector asociado a ak es único. Este postulado nos da cuenta de los cambios abruptos en el estado, o perturbaciones
fundamentales que se aprecian en diversos experimentos.
p2 P2 ~2 2
+ V (r) → + V (R) = − ∇ + V (r)
2m 2m 2m
H (r, p, t) → H (R, P, t)
siendo P y R los operadores de momento y posición definidos en la sección 1.43.4. En lo anterior hemos usado el
hecho de que en la representación de la base {|ri}, el operador P está representado por el operador diferencial −i~∇,
y el operador R está representado por la multiplicación por el valor de posición R → r (ver Ecs. 1.184, 1.189).
Nuevamente, extenderemos este algoritmo a la construcción de un operador A asociado a una cantidad fı́sica
A que está definida en la mecánica clásica. Consideremos una partı́cula sin espı́n sujeta a un potencial escalar,
estableceremos la siguiente regla de cuantización
4.3. ESTABLECIMIENTO DE LOS POSTULADOS 167
por tanto, dado que una cantidad fı́sica clásica A se puede escribir en términos de r, p, t i.e. A (r, p, t), el corre-
spondiente observable A se obtendrá reemplazando las variables dinámicas r, p en la expresión A (r, p, t) por los
observables R y P
A (t) = A (R, P, t)
sin embargo, este algoritmo puede generar algunas ambigüedades e inconsistencias. Asumamos por ejemplo que en
la cantidad fı́sica A (r, p, t) aparece un término de la forma
en mecánica clásica, el producto r · p es conmutativo, de modo que también podemos escribirlo como
p · r = p x x + py y + pz z
pero en el proceso de cuantización, ambos términos conducen a operadores diferentes ya que R y P no conmutan
R · P 6= P · R
la segunda de las Ecs. (1.42) nos sugiere la forma de generar un operador hermı́tico con este producto
en este caso particular en virtud del sexto postulado la cuación de Schrödinger queda
2
d P
i~ |ψ (t)i = + V (R) |ψ (t)i
dt 2m
(b) Veamos ahora el Hamiltoniano de una partı́cula sometida a una interacción electromagnética, en tal caso el
Hamiltoniano clásico se escribe en la forma
1
H (r, p) = [p − qA (r, t)]2 + qφ (r, t) (4.10)
2m
siendo A (r, t) , φ (r, t) los potenciales vectorial y escalar, p es el momento canónicamente conjugado a r y está dado
por
dr
p = m + qA (R, t) = mv + qA (R, t)
dt
nótese que el momento p canónicamente conjugado a r, no es el momento lineal de la partı́cula, esto se debe a
que para una partı́cula en un campo electromagnético, el potencial generalizado asociado depende de la velocidad
generalizada y no solo de la posición. De nuevo la cuantización es sencilla puesto que no hay operadores para
simetrizar, el Hamiltoniano como observable queda
1
H (R, P) = [P − qA (R, t)]2 + V (R, t) ; V (R, t) ≡ qφ (R, t)
2m
y la ecuación de Schrödinger resulta
d 1 2
i~ |ψ (t)i = [P − qA (R, t)] + V (R, t) |ψ (t)i
dt 2m
habiamos mencionado antes que a pesar de que el potencial generalizado depende de la velocidad, el Hamiltoniano
continúa siendo la energı́a del sistema, esto se puede ver teniendo en cuenta que el momento lineal de la partı́cula
que denotaremos por p~ está relacionado con el momento conjugado a la variable r en la forma
~ = p − qA
p
Ya hemos estudiado los kets de posición |ri y los kets de momento |pi ası́ como los operadores de posición y
momento R y P. Por simplicidad usaremos el caso unidimensional, las ecuaciones de valores propios para X, P x son
estos operadores tienen un espectro contı́nuo lo cual coincide con el hecho experimental de que todos los valores
reales son posibles para las posiciones y momentos de la partı́cula. Si utilizamos el cuarto postulado podemos
calcular la probabilidad de obtener una posición dentro del intervalo entre x y x + dx o la probabilidad de obtener
un momento en el intervalo entre px y px + dpx .
2
dP (x) = |hx |ψi|2 dx = |ψ (x)|2 dx ; dP̄ (p) = |hp |ψi|2 dp = ψ̄ (p) dp
de hecho estas expresiones fueron usadas para establecer el cuarto postulado. No obstante, es de particular interés
la interpretación a la luz de este postulado del caso en el que el estado del sistema está descrito justamente por |x 0 i
o |p0 i, en tal caso estas probabilidades quedan
2 2 2 2
dP (x) = hx x0 dx = δ x − x0 dx ; dP̄ (p) = hp p0 dp = δ p − p0 dp
e−ipx0 /~
x0 (x) = hx x0 = δ x − x0 ; x̄0 (p) = hp x0 = √
2π~
ya se discutió para el principio de incertidumbre de Heisenberg. Un análisis similar se puede hacer para el estado
impropio |p0 i. Como X, P tiene como valores propios las posiciones y momentos de estos estados colapsados, tiene
sentido que la regla de cuantización reemplace x por X y p por P .
Vale la pena mencionar que para interpretar adecuadamente una función de onda, es esencial conocer la base
en la que está escrita. A manera de ejemplo, obsérvese que el ket |xi corresponde a una partı́cula perfectamente
localizada en x y con incertidumbre total del momento, en tanto que el ket |−pi corresponde a una partı́cula con
momento perfectamente definido −p y con total incertidumbre en la posición. Ahora veamos como se escribe |xi en
la base {|pi} y como se escribe |−pi en la base {|xi}
e−ipx/~ e−ipx/~
x̄ (p) = hp |xi = √ ; −p (x) = hx |−pi = √
2π~ 2π~
nótese que dos estados totalmente distintos pueden ser descritos con la misma forma funcional si ambos están
escritos en bases diferentes. Una onda plana en la base {|pi} corresponde a una partı́cula bien localizada, en tanto
que la misma onda plana en la base {|xi} está asociada a una partı́cula con momento bien definido.
Como ya se mencionó, en algunos casos la ecuación de valores propios (establecida en el tercer postulado)
conduce a un espectro discreto y en otros casos a un espectro contı́nuo, lo cual nos generará la discretización de
ciertas cantidades fı́sicas. Lo interesante es que tanto para los casos discretos como para los contı́nuos hay una
excelente concordancia con los experimentos.
Los postulados cuatro y cinco plantean ciertos problemas fundamentales inherentes al proceso de medida. Por
ejemplo, la existencia de una perturbación fundamental implica que el sistema no se puede considerar independien-
temente al aparato de medida, en realidad el conjunto sistema fı́sico-aparato de medida deben considerarse como un
todo. El punto es que el proceso de observación requiere de una interacción entre el sistema y el aparato. Además el
aparato de medida (para un sistema fı́sico dado) define tanto los autoresultados como los autoestados que se pueden
obtener en el proceso de medición, como se discutió en la sección 2.7.2, página 106 sobre la medición de fotones
polarizados. Esto conlleva a preguntas delicadas sobre el proceso de medida que no discutiremos aquı́.
Nótese que de acuerdo con los postulados cuarto y quinto, la indeterminación en el proceso de medida indica
por un lado la existencia de la perturbación fundamental pero también la no determinación de su comportamiento
especı́fico, ya que a partir del estado antes de la medida (que se puede obtener en forma totalmente determinista), la
medida nos lleva a un cambio abrupto que no se puede determinar con certeza. Puesto que la ecuación de Schrödinger
es totalmente determinista, la generación de la perturbación fundamental y de la indeterminación son inherentes al
proceso de medida.
En lo que sigue consideraremos solo medidas ideales. Esto significa que se asume que el aparato de medida es
perfecto, de modo que solo se generan las perturbaciones e incertidumbres inherentes a las leyes cuánticas. En la
realidad, los aparatos son imperfectos y por tanto presentan una incertidumbre experimental que afecta de manera
adicional a la medida. Por ejemplo, un analizador deja pasar ondas polarizadas no solo en una dirección fija sino
en cierto intervalo alrededor de esta dirección. Sin embargo, a diferencia de las incertidumbres y perturbaciones
cuánticas, estas incertidumbres y perturbaciones experimentales pueden disminuı́rse indefinidamente (al menos en
principio) para acercarse cada vez más al lı́mite ideal.
La idea es poder predecir el valor esperado con base en los postulados. Comencemos primero con el caso de
espectro discreto. Si se realizan N experimentos para idénticos sistemas cada uno en el estado |ψi y se obtiene el
autovalor an para el observable A un número N (an ) de veces, la probabilidad de obtener dicho autovalor se define
como
N (an )
P (an ) ≡ lı́m (5.1)
N →∞ N
y es claro que X
N (an ) = N
n
el valor medio es simplemente la suma de todas las medidas obtenidas dividida por el número N de medidas. Por
supuesto, cuando un número N (an ) de medidas han dado el mismo resultado a n , la suma con que contribuyen estos
eventos se escribe simplemente como a n N (an ) y se suma sobre los resultados diferentes obtenidos
1 X
hAi|ψi = an N (an )
N n
a N (an ) se le conoce como la frecuencia del evento. Si tomamos el lı́mite cuando N → ∞ y usamos la definición
(5.1) de probabilidad se tiene que X
hAi|ψi = an P (an )
n
X gn
X gn
i 2 X X
hAi|ψi = an hψ u = a n hψ uin huin |ψi
n
n i=1 n i=1
donde uin son los vectores propios (ortonormalizados) de A asociados al valor propio a n
A uin = an uin
de modo que
gn
XX gn
XX
hAi|ψi = hψ| an uin huin |ψi = hψ| A uin huin |ψi
n i=1 n i=1
" gn
# " #
XX i
i X
hAi|ψi = hψ| A un un |ψi = hψ| A Pn |ψi = hψ| AI |ψi
n i=1 n
donde hemos usado la relación de completez para el discreto Ec. (1.168), nótese que el uso de la completez requiere
una vez más que A sea un observable. Finalmente, la expresión para el valor esperado queda
para el caso del espectro contı́nuo no degenerado, el argumento es similar. Consideremos N experimentos idénticos
y denominemos dN (α) el número de experimentos cuyo resultado esté incluı́do entre α y α + dα, la probabilidad
la definimos similarmente como
dN (α)
dP (α) = lı́m
N →∞ N
el valor medio o esperado se escribe como
Z Z
1
hAi|ψi = lı́m α dN (α) = α dP (α)
N →∞ N
usando de nuevo el cuarto postulado (para espectro contı́nuo), sustituı́mos dP (α) por su valor en la Ec. (4.7)
Z Z
hAi|ψi = α |hψ |vα i|2 dα = α hψ |vα i hvα |ψi dα
172CAPÍTULO 5. CONSECUENCIAS DE LOS POSTULADOS SOBRE LOS OBSERVABLES Y SUS MEDIDAS
y dado que
A |vα i = α |vα i
se obtiene
Z Z Z
hAi|ψi = α |hψ |vα i|2 dα = hψ| α |vα i hvα |ψi dα = hψ| A |vα i hvα |ψi dα
Z
hAi|ψi = hψ| A |vα i hvα | dα |ψi = hψ| AI |ψi = hψ| A |ψi
donde hemos usado la relación de completez para el contı́nuo Ec. (1.168). Por tanto, se obtiene de nuevo la Ec.
(5.2). Es importante aclarar que hAi |ψi es un promedio realizado sobre un conjunto de mediciones idénticas, y no
debe confundirse con los promedios temporales que se utilizan con frecuencia en fı́sica para estados que dependen
del tiempo.
Si el ket no está normalizado, la Ec. (5.2) se debe convertir en
hψ| A |ψi
hAi|ψi =
hψ |ψi
esto significa que podemos escribir el commutador entre dos operadores hermı́ticos como
[A, B] = iC ; C = C †
siendo C un operador hermı́tico, los valores propios de iC son puramente imaginarios al igual que su valor esperado
con respecto a cualquier estado |ψi. Podemos escribir entonces
h[A, B]i = iM
siendo M un número real. Vemos que si A y B son observables, su commutador no es un observable ya que no es
hermı́tico.
5.1. CONSIDERACIONES ESTADÍSTICAS 173
donde el promedio de A se reescribió multiplicando α k por su frecuencia nk (número de datos con el mismo resultado)
y sumando sobre los datos diferentes (k = 1, .., n). Similarmente en el contı́nuo
Z α1
1
hD (A)i = hhAi − αi = hAi − ρ (α) α dα
α 1 − α 0 α0
hD (A)i = hAi − hAi = 0
donde el ρ (α) dα es la frecuencia diferencial en el contı́nuo (densidad por diferencial de volumen). La anulación de la
desviación promedio tiene que ver con la definición misma de valor promedio o esperado, en el cual las desviaciones
negativas se compensan con las positivas. Para evitar este fenómeno de cancelación, podemos definir las desviaciones
cuadráticas en la forma D E
(∆A)2 ≡ (A − hAi)2
y definimos entonces la raı́z de la desviación media cuadrática como
rD E
∆A = (A − hAi)2 (5.6)
y usando la expresión para el valor medio o esperado dada por la Ec. (5.2) obtenemos
q
∆A = hψ| (A − hAi)2 |ψi
[A, B] = 0
asumiremos por simplicidad que ambos espectros son discretos. El teorema 1.69 nos dice que existe un conjunto
completo de vectores propios comunes a ambos observables, es usual denotar esta base como {|a n , bp , ii}, o aún más
simple como {|n, p, ii}
A |n, p, ii = an |n, p, ii ; B |n, p, ii = bp |n, p, ii
donde el ı́ndice i indica que a cada par de autovalores (a n , bp ) le pueden corresponder varios autovectores linealmente
independientes. Por tanto, para cada posible valor del par (a n , bp ) existe por lo menos un vector |n, p, ii para el
cual la medida de A siempre será an y la medida de B siempre será bp . Veamos las implicaciones fı́sicas sobre los
observables asociados a operadores que conmutan.
Partamos de un estado inicial normalizado dado |ψi (que en principio es arbitrario). Este estado se puede escribir
como
X
|ψi = cn0 ,u,v n0 , u, v (5.8)
n0 ,u,v
asumamos que primero hacemos una medida del observable A y se obtiene a n y que inmediatamente después (de
modo que en el tiempo transcurrido se pueda despreciar la evolución temporal del estado) realizamos una medida
de B de la cual obtenemos el valor bp . Calculemos la probabilidad P (an , bp ) de obtener an en la primera medida y
bp en la segunda. Usando el cuarto postulado Ec. (4.2) y la Ec. (5.8), la probabilidad P (a n ) de obtener la primera
medida es
2
X
X X
2
P (an ) = n, p , i ψi =
0 0 n, p , i
0 0
cn0 ,u,v n , u, v
0
p0 ,i0 p0 ,i0 n0 ,u,v
2 2
X X
X X
= c 0 0 0
0 ,u,v n, p , i n , u, vi = c 0 ,u,v δn,n0 δp0 u δi0 v
n n
p0 ,i0 n0 ,u,v p0 ,i0 n0 ,u,v
X
P (an ) = cn,p0 ,i0 2 (5.9)
p0 ,i0
pero según el quinto postulado Ec. (4.8), el sistema luego de esta primera medición queda preparado en el estado
normalizado |ψn i definido por
1 X
|ψn i = qP cn,p0 ,i0 n, p0 , i0 (5.10)
2 0 0
|c
k,m n,k,m | p ,i
este será entonces el estado en el que estará el sistema justo antes de la medición de B. Recurriendo de nuevo al
cuarto postulado Ec. (4.2) la probabilidad de que habiendo obtenido en la primera medición el valor a n se obtenga
5.2. OBSERVABLES COMPATIBLES 175
ahora bien, la probabilidad P (an , bp ) que buscamos corresponde a una composición de eventos: para que estos
dos eventos de hecho ocurran, debemos primero encontrar a n para lo cual hay una probabilidad P (a n ) y entonces
habiendo cumplido la primera condición, debemos encontrar b p para lo cual hay una probabilidad Pan (bp ) por lo
tanto
P (an , bp ) = P (an ) × Pan (bp ) (5.12)
sustituyendo (5.9) y (5.11) en (5.12) se obtiene
" #
X P 2
2 |c n,p,i |
P (an , bp ) = cn,p0 ,i0 P i
2
0
p ,i 0 k,m |cn,k,m |
X
P (an , bp ) = |cn,p,i |2 (5.13)
i
y el estado del sistema después de la segunda medición de acuerdo con el quinto postulado Ec. (4.8), será
Pp |ψn i
|ψn,p i = p (5.14)
hψn | Pp |ψn i
P P ∗
P 0 0
X
0
i0 cn,p0 ,r cn,p,i0 hn, p , r| n, p, i i
∗ 0 i0 cn,p,i0 |n, p, i i p0 ,r
hψn | Pp |ψn i = cn,p0 ,r n, p , r P 2 = P
2
p0 ,r k 0 ,m0 cn,k 0 ,m0 k 0 ,m0 cn,k 0 ,m0
P P ∗ P ∗ P 2
i0 cn,p0 ,r cn,p,i0 δnn δp0 p δri0 i0 cn,p,i0 cn,p,i0
p0 ,r i0 cn,p,i0
hψn | Pp |ψn i = P = P = P 2 ⇒
2 2
k 0 ,m0 cn,k 0 ,m0 k 0 ,m0 cn,k 0 ,m0 k 0 ,m0 cn,k 0 ,m0
qP 2
q
i0 cn,p,i0
hψn | Pp |ψn i = qP 2 (5.16)
k 0 ,m0 cn,k 0 ,m0
176CAPÍTULO 5. CONSECUENCIAS DE LOS POSTULADOS SOBRE LOS OBSERVABLES Y SUS MEDIDAS
Reemplazando (5.15, 5.16) en (5.14), el estado justo después de la segunda medida queda finalmente
1 X
|ψn,p i = qP cn,p,i |n, p, ii (5.17)
2
k |cn,p,k | i
y similarmente para B
B |ψn,p i = bp |ψn,p i
Por tanto, si midiéramos de nuevo A (nuevamente los tiempos deben ser cortos para que el estado no haya evolu-
cionado significativamente a partir del estado descrito por la Ec. 5.17) la probabilidad de obtener el resultado a n es
1 y no se altera el estado del sistema. Igualmente si medimos B con el sistema en el estado |ψ n,p i la probabilidad
de obtener bp es 1 y el estado permanece inalterado después de la medición.
Volvamos ahora al estado inicial |ψi del sistema y hagamos las mediciones en el orden contrario (primero B y
luego A). Evaluaremos la probabilidad de obtener el valor b p en la primera medida y el valor an en la segunda medida
que denotamos como P (bp , an ), siguiendo los mismos razonamientos del caso anterior vemos que la probabilidad de
obtener bp en la primera medida es
X
P (bp ) = cn0 ,p,i0 2
n0 ,i0
1 X
|ϕp i = qP cn0 ,p,i0 n0 , p, i0
uv |cu,p,v |2 n0 ,i0
y la probabilidad de que partiendo del estado |ϕ p i se obtenga el valor an del observable A en la segunda medida es
1 X
Pbp (an ) = P 2 |cn,p,i |2
|c
uv u,p,v | i
si de hecho encontramos bp en la primera medida y an en la segunda, el estado del sistema después de la segunda
medida será
1 X
|ϕp,n i = qP cn,p,i |n, p, ii (5.19)
2
k |c n,p,k | i
comparando la Ec. (5.13) con la Ec. (5.18) vemos que la probabilidad de obtener un par especı́fico de valores (a n , bp )
de los observables A y B respectivamente, es igual sin importar el orden en que se midan (siempre teniendo en cuenta
que la distancia temporal entre dos medidas debe ser pequeña para evitar la evolución del sistema). Adicionalmente,
al comparar (5.17) con (5.19) vemos que el estado después de la segunda medida también es el mismo en ambos
casos. Finalmente, una medida posterior de A ó B nos dará con certeza los valores a n ó bp .
Nótese que estos hechos dependen de que podamos encontrar un conjunto completo común de vectores propios
para ambos observables, para lo cual es necesario y suficiente que ambos observables conmuten (teorema 1.69). Por
esta razón a los observables conmutantes también se les denomina observables compatibles.
5.3. OBSERVABLES NO COMPATIBLES E INCERTIDUMBRES 177
Podemos resumir las propiedades de los observables compatibles de la siguiente manera: Cuando dos observables
A y B son compatibles, si medimos primero A entonces la medida posterior de B no causa ninguna pérdida de
información previamente obtenida en la medida de A y viceversa. Por el contrario, la medida de B se “adiciona”
como información a lo que se obtiene en la primera medida. Además la realización de las dos medidas ejecutadas
en cualquier orden arroja la misma distribución de probabilidad para cada par accesible de valores propios. Ahora
supongamos que se realizan dos experimentos ambos con el mismo estado inicial, midiendo en el primero la secuencia
A ⇒ B y en el segundo la secuencia B ⇒ A, si en ambos experimentos se obtienen los mismos valores propios,
entonces obtendremos el mismo estado final.
Vale decir que si en un experimento particular en el orden A ⇒ B se obtuvo (a n , bp ), no quiere decir que en otro
experimento especı́fico con las mismas condiciones iniciales y en el orden B ⇒ A se obtenga (b p , an ), ya que lo que
se igualan son las probabilidades1 . Adicionalmente, tampoco tenemos que llegar al mismo estado final en ambos
experimentos, solo tenemos garantizado que si en ambos experimentos obtenemos los mismos valores propios, el
estado final será el mismo.
Ahora bien, puesto que no es relevante el orden en que se ejecutan las medidas de A y B podemos considerar
la medición simultánea de ambos observables. Nótese que para observables compatibles se puede hacer una especie
de “extensión” de los postulados cuarto y quinto como se puede apreciar de las Ecs. (5.13, 5.18) y de las Ecs. (5.17,
5.19). De estas ecuaciones se observa que podemos considerar a la dupla (a n , bp ) como un solo resultado que
corresponde a la superposición de vectores ortonormales |n, p, ii donde i indica la degeneración asociada al “único
valor propio” cnp ≡ (an , bp ).
el estado final del sistema no es el mismo en ambos casos. Ahora, las probabilidades en ambos casos serı́an
por lo tanto
P (a1 , b2 ) = cos2 ϕ sin2 θ ; P (b2 , a1 ) = sin2 (ϕ − θ) sin2 θ
con lo cual se observa que
P (b2 , a1 ) 6= P (a1 , b2 )
esto significa entonces que dos observables no compatibles no se pueden medir simultáneamente 3 . Se puede ver de
las Ecs. (5.20, 5.21) que la segunda medida genera la pérdida de la información suministrada por la primera. Si por
ejemplo después de la secuencia A ⇒ B representada por (5.20) medimos de nuevo A, no podemos tener certeza
del resultado ya que |v2 i no es autovector de A. Toda la información que se ganó en la primera medida de A se ha
perdido.
donde M es un número real. Asumamos que el sistema fı́sico está en el estado |ψi. Con base en dicho estado,
construiremos un ket |ϕi y su bra asociado hϕ| en la forma
siendo λ una variable real arbitraria. Estudiaremos las predicciones para el producto de las incertidumbres ∆A, ∆B
donde las incertidumbres se definirán a través de la raı́z de la desviación media cuadrática de cada observable.
La norma al cuadrado de |ϕi se escribe como
donde hemos usado la Ec. (5.22). Ahora bien, por definición la norma al cuadrado de |ϕi es no negativa para todo
valor de λ. Por tanto, el polinomio cuadrático en λ definido por la ecuación (5.24) debe ser no negativo para todo
λ, esto solo es posible si tal polinomio no posee raı́ces reales en λ o a lo más las raı́ces reales deben ser degeneradas
y corresponder a un mı́nimo local (en cuyo caso la norma de |ϕi es cero para un valor dado de λ, y positiva para
los otros valores). Esto implica que como ecuación cuadrática para λ, el discriminante deber ser negativo o cero
M 2 − 4 A2 B 2 ≤ 0 ⇒ (5.25)
2
2 M 2
A B ≥ (5.26)
4
3
Supongamos que medimos un observable A en el tiempo t y otro observable B en el tiempo t + ∆t. La medición simultánea se puede
definir consistentemente solo si los “lı́mites laterales” ∆t → 0+ (donde se mide en el orden A ⇒ B) y ∆t → 0− (donde se mide en el
orden B ⇒ A) conducen a las mismas predicciones en términos de distribución de probabilidad, y estados. Por esta razón solo se puede
definir adecuadamente la medición simultánea de observables compatibles.
5.4. LA DESVIACIÓN MEDIA CUADRÁTICA Y EL PRINCIPIO DE INCERTIDUMBRE PARA OBSERVABLES A
recordando que |ψi describe el estado del sistema, introducimos dos nuevos observables A 0 , B 0 definidos por
donde hAi y hBi son números reales e I es el operador identidad. Es claro que las relaciones de conmutación de
A0 , B 0 coinciden con las de A y B
0 0
A , B = [A, B] = iM (5.29)
con lo cual el resultado (5.26) también es válido para A 0 y B 0
M2
A02
B 02 ≥ ⇒
4
D ED E M2
(A − hAi)2 (B − hBi)2 ≥
4
y teniendo en cuenta la definición de la raı́z de la deviación media cuadrática Ec. (5.6), tenemos que
M2
(∆A)2 (∆B)2 ≥ ⇒
4
|M |
(∆A) · (∆B) ≥
2
y recordando la definición (5.22) resulta
|h[A, B]i|
(∆A) · (∆B) ≥ (5.30)
2
Si definimos la incertidumbre en los observables como la raı́z de la desviación media cuadrática de su distribución,
esto se puede considerar como una extensión del principio de incertidumbre. Nótese que en este caso el lı́mite inferior
está muy bien definido, precisamente porque hemos definido de manera muy clara el ancho de la distribución por
medio de la raı́z de la desviación media cuadrática.
Vale decir además que solo tendremos un lı́mite inferior no nulo, cuando los observables NO son compatibles (no
conmutantes). Para los observables compatibles no hay un principio de incertidumbre, lo que permite sin ambigüedad
su medición simultánea y la no destrucción de la información por efecto de mediciones adicionales.
Un caso especial muy importante es el de dos variable conjugadas. Se dice que dos observables Q, P son
conjugados si
[Q, P ] = i~
esta es una extrapolación natural del concepto de variables canónicamente conjugadas en mecánica clásica, que
cumplen propiedades similares pero con los corchetes de Poisson en lugar de los conmutadores. Para observables
conjugados, la expresión (5.30) queda en la forma
∆Q · ∆P ≥ ~/2
A su vez, un caso especial de variables conjugadas son los pares de posición y momento (X, P x ), (Y, Py ) y (Z, Pz ).
Se obtiene entonces
∆X · ∆Px ≥ ~/2 ; ∆Y · ∆Py ≥ ~/2 ; ∆Z · ∆Pz ≥ ~/2
que son las relaciones de incertidumbre de Heisenberg (2.31), pero con lı́mites inferiores precisos, lo cual surge de
haber definido de manera precisa las incertidumbres.
(5.24) sea nulo y corresponda a un mı́nimo local para algún valor λ 0 (raı́z real degenerada), esto conlleva a la
nulidad de la norma de |ϕi. Lo anterior se obtiene con la anulación del discriminante Ec. (5.25)
M2
M2
A2 B2 = ⇒ A2 = (5.31)
4 4 hB 2 i
donde hemos usado la Ec. (5.35). Redefiniendo los observables a través de las Ecs. (5.27, 5.28) y teniendo en cuenta
la invarianza del conmutador Ec. (5.29) vemos que los resultados obtenidos para A y B son también válidos para
A0 y B 0 (ya que todos ellos dependen solo de la relación de conmutación Ec. 5.22). Por tanto para el ket
0
0
ϕ = A0 + iλB 0 |ψi ; ϕ = hψ| A0 − iλB 0
podemos hacer el mismo procedimiento que se realizó para el ket |ϕi de la Ec. (5.23), y llegar a que la norma de
|ϕ0 i es nula cuando λ = λ0 . Pero la norma es cero si y solo si el ket es nulo, por lo tanto
A0 + iλB 0 |ψi = 0 ⇒
[A − hAi + iλ0 (B − hBi)] |ψi = 0 (5.33)
ası́ mismo las Ecs. (5.31) son aplicables también para A 0 , B 0 con lo cual
02
M2 M 2 A02
A = ; λ0 = = (5.34)
4 hB 02 i 2 hB 02 i M
M2 M 2 (∆A)2
(∆A)2 = ; λ 0 = = (5.35)
4 (∆B)2 2 (∆B)2 M
la Ec. (5.33) junto con las ligaduras (5.35) nos dictaminan la condición para obtener paquetes de mı́nima incer-
tidumbre. Su solución explı́cita debe realizarse en una base especı́fica y depende de la naturaleza de los operadores
A y B.
Un caso particular de interés surge para variables conjugadas para lo cual definimos A ≡ Q, B ≡ P y M ≡ ~.
La Ec. (5.33) y las ligaduras (5.35) quedan en la forma
~2 ~ 2 (∆Q)2
[Q − hQi + iλ0 (P − hP i)] |ψi = 0 ; (∆Q)2 = ; λ0 = = (5.36)
4 (∆P )2 2 (∆P )2 ~
usando la representación {|qi} y el hecho de que en esta representación P actúa como (~/i)d/dq (ver Ec. 1.205, Pág.
93) se obtiene4
~ d
hq| [Q − hQi + iλ0 (P − hP i)] |ψi = 0 ⇒ q − hQi + iλ0 − hP i hq |ψi = 0 ⇒
i dq
d
q + ~λ0 − hQi − iλ0 hP i ψ (q) = 0 (5.37)
dq
4
Debe tenerse en cuenta que la Ec. (1.205) fué demostrada para cualquier par de observables conjugados y no solo para posiciones y
momentos.
5.5. PREPARACIÓN DE UN ESTADO 181
para resolver la ecuación diferencial (5.37) es conveniente introducir la función h (q) definida por
h q 0 = Ce 2λ0 ~ (5.41)
siendo C una constante de normalización que elegiremos como positiva. Reemplazando las Ecs. (5.36, 5.39) en la
solución (5.41), tenemos
h i
(q−hQi)2 (q−hQi) 2
− −
h (q − hQi) = Ce 4(∆Q)2 = Ce 2(∆Q)
(5.42)
finalmente reemplazando (5.42) en (5.38) y normalizando (con constante positiva) resulta
h i
(q−hQi) 2
1 ihP iq/~ −
ψ (q) = q e e 2(∆Q)
(5.43)
4 2
2π (∆Q)
para encontrar el paquete de onda recı́proco, es decir en la base {|pi}, podemos proceder de manera análoga al
desarrollo anterior, o haciendo la transformada de Fourier de la Ec. (5.43). En tal caso se encuentra la función de
onda recı́proca ψ̄ (p) definida por
h i
(q−hP i) 2
1 − ~i hQip − 2(∆P )
ψ̄ (p) = q e e (5.44)
4
2π (∆P )2
En la Sec. 2.12.3, pág. 120, habı́amos demostrado que los paquetes gaussianos son de mı́nima incertidumbre. En
la presente sección hemos demostrado el recı́proco: para dos observables conjugados Q y P , hemos demostrado que
si ∆Q · ∆P es exactamente ~/2, la función de onda asociada con este estado en la representación |qi es un paquete
gaussiano ası́ como la representación de la función de onda en la base |pi.
tanto los valores absolutos de los coeficientes c in como sus fases son relevantes. Y puesto que este estado es la
proyección |ψn0 i (normalizada) del vector |ψi sobre el autosubespacio E n tendremos que el autoestado final depende
de |ψi y por lo tanto también los coeficientes c in siempre que En sea de más de una dimensión (si En es de una sola
dimensión, solo hay un vector normalizado fı́sicamente relevante).
Ahora bien, dado que vimos que la medición de otro observable B compatible con A adiciona información sobre
el estado, y se puede medir simultáneamente con A, vemos que si el resultado (a n , bp ) de las dos medidas corresponde
a un único autovector |an , bp i ≡ |n, pi común a A y B no tendremos suma sobre i en (5.17) y resulta
cnp
|ψnp i = |n, pi = eiθ |n, pi
|cnp |
que es fı́sicamente equivalente a |n, pi. En otras palabras, el autoespacio E np de autovectores comunes a A y B con
valores propios an y bp es de una dimensión y por tanto define fı́sicamente un único vector normalizado. Por tanto,
la especificación de estos dos valores determina el estado final de manera única e independiente de |ψi.
Podrı́a ocurrir sin embargo que existan varios vectores |n, p, ii linealmente independientes que conduzcan al
mismo par (an , bp ) de valores propios de A y B, es decir el espacio E np no es unidimensional y para determinar la
proyección de |ψi sobre Enp se requiere conocer a |ψi. En este caso podemos ganar más información introduciendo
un tercer observable C compatible con los otros dos y medir su valor propio c q . El proceso debe continuar hasta que
se remueva completamente la degeneración es decir cuando el autoespacio E npq... sea unidimensional, en cuyo caso
el estado |npq . . .i es fı́sicamente único.
Por otro lado, es posible que la medición de cierto conjunto de autovalores especı́ficos sea suficiente para de-
terminar el estado de manera única, pero cuando el mismo sistema me arroja otros valores propios las medidas
podrı́an resultar insuficientes. Por ejemplo, si medimos el observable A y se obtiene el valor no degenerado a 1 , el
estado estará totalmente determinado. Pero si la medida nos arroja el valor a 2 (degenerado), necesitaremos medir
otro observable compatible para determinar el estado.
La idea por supuesto es determinar un conjunto de observables A 1 , A2 , . . . , Am ; que determine de manera única
el estado después de la medida (independiente de |ψi) sin importar los valores experimentales obtenidos. Para ello
es necesario que todos los autoespacios de la forma E n1 ,n2 ,...,nm sean unidimensionales. En otras palabras, el conjunto
completo de autovectores {|n1 , n2 , . . . , nm i} común a los observables A1 , A2 , . . . , Am no debe presentar degeneración
para ningún conjunto posible de medidas (a n1 , . . . , anm ). Esto indica entonces que el conjunto {A 1 , A2 , . . . , Am }
forma un C.S.C.O. (ver sección 1.23). Adicionalmente, es natural pensar que el conjunto {A 1 , A2 , . . . , Am } sea
minimal en el sentido de que al remover un observable del conjunto el sistema ya no sea un C.S.C.O. Usualmente
se asume que un C.S.C.O. dado es minimal a menos que se indique lo contrario.
Los métodos para preparar un sistema cuántico en un estado bien definido son similares en principio a los
que se usan para polarizar luz. Cuando se coloca un polarizador en el camino de un haz de luz, la luz que sale
está polarizada en una dirección especı́fica caracterı́stica del polarizador, e independiente del estado de polarización
de la luz incidente. Similarmente se pueden construı́r dispositivos para preparar un sistema cuántico de manera que
solo permitan el paso de un estado correspondiente a un autovalor especı́fico. Si queremos preparar completamente
el estado, será necesario usar m dispositivos que midan a los observables A 1 , .., Am que solo permitan el paso de un
conjunto especı́fico de autovalores (a n1 , ..., anm ).
Es claro que puede haber infinidad de C.S.C.O, si cambiamos el conjunto completo de observables compatibles,
obtendremos otros estados del sistema. Para entender mejor esto, recordemos que los autoestados están definidos
no solo por el sistema a estudiar sino también por los aparatos de medición (ver sección 2.7.2, pág 106).
partı́cula sometida a un potencial que solo depende de la posición V (r, t) cuyo Hamiltoniano es
P2
H= + V (R, t)
2m
podemos encontrar una ecuación de continuidad que nos expresa la conservación local de la probabilidad en la forma
∂ρ
+ ∇ · J = 0 ; ρ ≡ ψψ ∗ = |ψ (r, t)|2 (5.45)
∂t
~ ∗ ∗ 1 ∗ ~
J ≡ [ψ ∇ψ − ψ∇ψ ] = Re ψ ∇ψ (5.46)
2mi m i
siendo ρ, J la densidad y corriente de probabilidad respectivamente. Escribamos J en la forma
∗
1 ∗ ~ ~ ∗ 1 ∗ ~ ~
J ≡ ψ ∇ ψ−ψ ∇ ψ = ψ ∇ ψ − ψ − ∇ψ
2m i i 2m i i
∗
1 ~ ~
= hψ| ri ∇ hr| ψi + hr| ψi ∇ hr| ψi
2m i i
1 1
J = [hψ| ri hr| P |ψi + hr| ψi hr| P |ψi∗ ] = [hψ| ri hr| P |ψi + hψ| P |ri hr| ψi]
2m 2m
1
J = {hψ| [|ri hr| P + P |ri hr|] |ψi}
2m
donde hemos usado la Ec. (1.189). Finalmente
1 P P
J = [hψ| K (r) |ψi] ; K (r) ≡ |ri hr| + |ri hr| (5.47)
2 m m
para la densidad de corriente es más fácil ver que
ρ = [hψ| [|ri hr|] |ψi] = hψ| % (r) |ψi ; % (r) ≡ |ri hr| (5.48)
si comparamos las Ecs. (5.47, 5.48) con la Ec. (5.2), vemos que la densidad y la corriente de probabilidad se pueden
ver como el valor esperado de los operadores K (r) y % (r) respectivamente. Ahora bien, en coordenadas cartesianas
los momentos canónicos son los momentos lineales (cuando el potencial no depende de la velocidad). Por tanto,
P/m se puede considerar el “operador velocidad” V. En consecuencia, el “operador densidad de corriente” K (r)
está relacionado con el operador densidad % (r) en la forma
1
K (r) ≡ {%V + V%}
2
que corresponde a la cuantización de la relación J =ρv, pero adecuadamente simetrizada.
Si la partı́cula se coloca en un campo electromagnético descrito por los potenciales φ (r, t) y A (r, t) , el Hamil-
toniano asociado es (ver Ec. 4.10)
[P − qA (R, t)]2
H= + V̄ (R, t) ; V̄ (R, t) ≡ qφ (R, t) + V (R) (5.49)
2m
donde V (R) es un potencial escalar que describe una interacción adicional a la del campo electromagnético sobre
la partı́cula. Con un procedimiento similar al de la sección 3.3.4, la densidad de corriente resultante es
1 ∗ ~
JEM = Re ψ ∇ − qA ψ (5.50)
m i
que también se puede obtener de la corriente (5.46) simplemente reemplazando P → P − qA, o equivalentemente
~ ~
i ∇ → i ∇ − qA (R, t).
Un ejemplo sencillo para el cálculo de ρ y J es la onda plana. Sea un estado (no estrictamente fı́sico) descrito
por una onda plana
ψ (r, t) = Aei(k·r−ωt)
184CAPÍTULO 5. CONSECUENCIAS DE LOS POSTULADOS SOBRE LOS OBSERVABLES Y SUS MEDIDAS
Vale decir que el valor medio o esperado solo depende de t ya que por ejemplo si usamos la representación de
{|ri} este valor esperado corresponde a una integral sobre todo el espacio para un tiempo fijo. En contraste, el
observable clásico A (r, p, t) asume un valor para ciertas posiciones y momentos especı́ficos en un tiempo dado (ya
que las partı́culas están localizadas y sus momentos se pueden medir simultáneamente junto con las posiciones).
Para estos observables clásicos, la dependencia con el tiempo puede ser tanto explı́cita como implı́cita, es decir a
través de r (t) y p (t).
Cuando cuantizamos el observable asignamos a la cantidad clásica A (r, p, t) el operador hermı́tico A ≡ A (R, P, t).
Obsérvese que ni los autoestados ni los autovalores de los operadores R y P dependen del tiempo, por tanto los
observables cuánticos R y P no pueden dar cuenta de una dependencia implı́cita con el tiempo. En conclusión, los
observables cuánticos solo dependen del tiempo de manera explı́cita. En cuanto al valor esperado del observable, la
variación temporal de hAi se debe tanto a la variación temporal del estado |ψ (t)i (dictaminada por la ecuación de
Schrödinger), como a la variación temporal del observable mismo A (t). Si usamos por ejemplo la representación de
coordenadas, el valor esperado de A queda
Z
3 ∗ ~
hAi = d r ψ (r, t) A r, ∇, t ψ (r, t)
i
de lo cual es claro que esta cantidad solo depende del tiempo, ya que está integrada sobre las variables espaciales.
Vamos a estudiar la variación temporal del valor esperado de un observable arbitrario y a relacionarla con la
variación temporal clásica. Derivando el valor esperado con respecto al tiempo resulta
d d ∂A d
hψ (t)| A |ψ (t)i = hψ (t)| A |ψ (t)i + hψ (t)| |ψ (t)i + hψ (t)| A |ψ (t)i
dt dt ∂t dt
donde hemos usado que dA/dt = ∂A/∂t ya que un observable cuántico solo puede depender del tiempo de manera
explı́cita. Usando las Ecs. (3.23, 3.24) tenemos
d 1 ∂A 1
hψ (t)| A |ψ (t)i = hψ (t)| − H (t) A |ψ (t)i + hψ (t)| |ψ (t)i + hψ (t)| A H (t) |ψ (t)i
dt i~ ∂t i~
d 1 ∂A
hψ (t)| A |ψ (t)i = hψ (t)| [AH − HA] |ψ (t)i + hψ (t)| |ψ (t)i
dt i~ ∂t
5.7. EVOLUCIÓN DEL VALOR ESPERADO DE UN OBSERVABLE Y SU RELACI ÓN CON LA MECÁNICA CLÁS
quedando finalmente
d 1 ∂A
hAi = h[A, H]i + (5.52)
dt i~ ∂t
vale recordar que en el formalismo clásico Hamiltoniano, un observable A cl que es función de las variables del espacio
de fase y del tiempo es decir Acl = Acl (q, p, t), posee una evolución temporal dada por
dAcl ∂Acl
= [Acl , H]pois + (5.53)
dt ∂t
donde en lugar del conmutador, está el corchete de Poisson entre el observable y el Hamiltoniano. Volviendo al
problema cuántico, veremos que el valor esperado (y no el operador A r, ~i ∇, t ) es el que debe ser comparado con
el correspondiente observable clásico.
y usando las propiedades de los conmutadores (1.36-1.41) ası́ como las relaciones canónicas de conmutación (4.9)
obtenemos
d 1 1 i~I i~I
hRi = h[R, P] Pi + hP [R, P]i = P + P
dt 2mi~ 2mi~ 2mi~ 2mi~
quedando finalmente
d 1
hRi = hPi
dt m
similarmente el valor esperado para P es
d 1 P2 ∂P 1 P2 1
hPi = P, + V (R) + = P, + h[P, V (R)]i
dt i~ 2m ∂t i~ 2m i~
d 1
hPi = h[P, V (R)]i
dt i~
y usando la Ec. (1.139) pág. 67, se obtiene
parámetro tiempo el punto hRi (t) se mueve en el espacio generando la trayectoria del centro del paquete. Por
supuesto, esta trayectoria no se puede asociar a la partı́cula cuyo estado está descrito por el paquete completo que
tiene una extensión dada5 . Sin embargo, si la extensión del paquete de ondas es mucho menor que todas las demás
longitudes involucradas en el problema, podemos aproximar el paquete de ondas por su centro y la descripción
clásica resultará una buena aproximación.
La pregunta natural es entonces si el movimiento del centro del paquete de onda obedece las leyes de la mecánica
clásica. La respuesta yace en el teorema de Ehrenfest, la primera de las Ecs. (5.55) nos dice que la velocidad del
centro del paquete es igual al momento promedio del paquete dividido por m. Por tanto la segunda de las Ecs.
(5.55) se puede escribir como
d2 hRi
m = − h∇V (R)i
dt2
por tanto, el centro del paquete seguirá una trayectoria clásica solo si la cantidad − h∇V (R)i coincide con la fuerza
clásica en el punto donde se ubica el centro del paquete
debemos observar sin embargo que − h∇V (R)i es en realidad el valor promedio de la fuerza sobre el paquete
completo, que no necesariamente debe coincidir con su valor en el centro del paquete
lo cual se puede expresar diciendo que el valor medio de una función no es en general igual al valor que toma cuando
se evalúa en el valor medio de la variable. Esto se puede ver con facilidad tomando un ejemplo especı́fico, sea un
potencial de la forma
V (x) = λxn (5.57)
siendo λ una constante real y n un entero positivo. La cuantización de este potencial nos lleva a
V (X) = λX n (5.58)
asumir el paquete muy localizado equivale a decir que |ψ (r, t)| 2 es una distribución que toma valores no despreciables
solo en cierto dominio cuyas dimensiones son mucho mas pequeñas que las distancias sobre las cuales ∇V (r)
5
Nótese incluso que cada punto en esta trayectoria no necesariamente coincide con el punto de máxima densidad de probabilidad en
cada instante.
5.8. SOLUCIONES DE LA ECUACIÓN DE SCHRÖDINGER PARA SISTEMAS CONSERVATIVOS 187
varı́a apreciablemente. Por tanto, en este dominio centrado alrededor de hRi, la cantidad ∇V (r) es prácticamente
constante. En tal caso se puede reemplazar ∇V (r) en (5.59) por su valor en r = hRi y se puede sacar de la integral en
(5.59), y teniendo en cuenta que ψ (r, t) está normalizada, se obtiene que para paquetes suficientemente localizados
tenemos que
h∇V (R)i ∼= [∇V (r)]r=hRi (5.60)
es claro en particular que en el lı́mite macroscópico en el cual las longitudes de onda de De Broglie son mucho
menores que las distancias sobre las cuales los potenciales y sus gradientes varı́an, los paquetes de onda pueden ser
lo suficientemente localizados para satisfacer la Ec. (5.60) y al mismo tiempo mantener un momento bien definido.
Este último punto es muy importante, ya que no basta con que hRi se comporte de manera semejante al valor
clásico de posición para llegar a un escenario clásico, pues un paquete muy localizado en hRi implica que el paquete
de onda en el espacio de los momentos puede ser muy disperso, y tendrı́amos que aunque hPi pueda tener un
comportamiento similar al valor clásico, la dispersión de hPi significará una incertidumbre enorme en su medida lo
cual nos aleja del escenario clásico. Por tanto, es necesario que los valores de ∆r y ∆p compatibles con el principio
de incertidumbre sean mucho menores que todas las distancias y momentos involucradas en el problema, situación
que en general se cumple en los sistemas macroscópicos.
Bajo las condiciones anteriores, el movimiento del paquete de onda es prácticamente el de una partı́cula clásica
de masa m sometida al potencial V (r). Vemos como era de esperarse que la ecuación de Schrödinger genera las
soluciones clásicas con ciertas condiciones lı́mite apropiadas que en particular son satisfechas por los sistemas
macroscópicos.
nótese que toda la dependencia temporal de |ψ (t)i está contenida en los c n,τ (t). Aplicando el bra hϕn,τ | sobre la
ecuación de Schrödinger y teniendo en cuenta que este bra no depende del tiempo
d
i~ hϕn,τ |ψ (t)i = hϕn,τ | H |ψ (t)i (5.63)
dt
y dada la hermiticidad de H el hermı́tico conjugado de (5.61) es
hϕn,τ | H = En hϕn,τ | (5.64)
aplicando (5.64) y la segunda Ec. (5.62) en (5.63) se obtiene
d
i~ cn,τ (t) = En cn,τ (t)
dt
188CAPÍTULO 5. CONSECUENCIAS DE LOS POSTULADOS SOBRE LOS OBSERVABLES Y SUS MEDIDAS
por tanto, si H no depende del tiempo podemos encontrar a |ψ (t)i a partir de su valor inicial |ψ (t 0 )i en la siguiente
forma
(a) Expandimos el valor inicial del estado en la base de autoestados de H
XX
|ψ (t0 )i = cn,τ (t0 ) |ϕn,τ i ; cn,τ (t0 ) ≡ hϕn,τ |ψ (t0 )i (5.66)
n τ
(b) En virtud de las Ecs. (5.62) y (5.65), multiplicamos cada sumando en la expansión (5.66) por la fase e −iEn (t−t0 )/~ ,
siendo En el autovalor asociado a los autoestados |ϕ n,τ i
XX
|ψ (t)i = cn,τ (t0 ) e−iEn (t−t0 )/~ |ϕn,τ i (5.67)
n τ
nótese finalmente que los sumandos en (5.67) poseen fases diferentes para diferentes valores de n. Por tanto, dichas
fases son fı́sicamente relevantes y producen fenómenos de interferencia.
y dado que no hay suma sobre n, la Ec. (5.67) para el estado |ψ (t)i queda
X
|ψ (t)i = e−iEn (t−t0 )/~ cn,τ (t0 ) |ϕn,τ i = e−iEn (t−t0 )/~ |ψ (t0 )i
τ
de modo que el estado inicial y el estado en cualquier tiempo solo difieren en una fase global fı́sicamente irrelevante.
Por tanto, todas las propiedades fı́sicas de sistemas que están inicialmente preparados en un autoestado de H,
permanecen inalteradas en el tiempo. Por esta razón a los estados propios del Hamiltoniano se les denomina estados
estacionarios.
De aquı́ surge además la manifestación cuántica de la conservación de la energı́a para sistemas conservativos. Si
en el tiempo t0 medimos la energı́a de un sistema conservativo y encontramos el valor E n , el sistema queda preparado
luego de la medición en un autoestado de H dado por (5.69) con valor propio E n . A partir de este momento se puede
aplicar la ecuación de Schrödinger tomando este autoestado de H como estado inicial, pero dado que dicho estado es
estacionario, no se genera fı́sicamente evolución temporal y para todo tiempo el estado continúa siendo autoestado
de H con energı́a En . En consecuencia, una segunda medida de la energı́a del sistema en cualquier tiempo posterior
nos dará el mismo valor de energı́a E n obtenido en la primera medición.
Finalmente, vale la pena señalar que lo anterior nos conduce a que solo hay evolución cuando la energı́a en el
estado inicial no está bien definida (de manera que hay varias fases de la forma e −iEk (t−t0 )/~ ). Esto nos llevará más
adelante a una relación de incertidumbre entre el tiempo de evolución y la energı́a.
5.8. SOLUCIONES DE LA ECUACIÓN DE SCHRÖDINGER PARA SISTEMAS CONSERVATIVOS 189
La Ec. (5.52) nos dice que la cantidad hAi será constante de movimiento si se cumplen las condiciones
∂A
= 0 ; [A, H] = 0 (5.70)
∂t
d hAi d
= hψ (t)| A |ψ (t)i = 0 (5.71)
dt dt
para cualquier estado |ψ (t)i del sistema. Es claro que si se cumplen las condiciones (5.70) el valor medio de A
será constante de movimiento6 . En consecuencia, definiremos por extensión que un observable A es constante de
movimiento si cumplen las condiciones (5.70). En palabras, un observable es constante de movimiento si no depende
explı́citamente del tiempo y conmuta con el Hamiltoniano. En particular si H no depende del tiempo (sistemas
conservativos), H como tal es constante de movimiento.
Veremos que si A es constante de movimiento hay algunas consecuencias fı́sicas adicionales. En primer lugar,
puesto que A y H son observables que conmutan, poseen un conjunto común completo de kets propios
de nuevo asumimos espectros discretos por simplicidad 7 . El ı́ndice τ fija los valores propios de observables que
forman un C.S.C.O. con H y A. Ahora bien, los kets |ϕ n,p,τ i son autoestados de H y por tanto son estados
estacionarios (siempre que H no dependa del tiempo). En consecuencia, si |ϕ n,p,τ i define el estado inicial del sistema,
permanecerá en este estado indefinidamente (excepto por una fase global irrelevante). No obstante, |ϕ n,p,τ i también
es ket propio de A. En consecuencia, cuando A es una constante de movimiento, existen estados estacionarios
|ϕn,p,τ i del sistema fı́sico que permanecen para todo tiempo como autoestados de A con el mismo autovalor a p . Por
esta razón a los autovalores de A se les denomina números cuánticos buenos. Es claro que si |ϕ n,p,τ i es el estado
inicial, el valor de la energı́a y de a p serán siempre el mismo sin importar el tiempo en que se midan, el orden en
que se midan (son observables compatibles), o cuantas veces se midan, además hay una certeza total en sus valores
(ambas cantidades están bien definidas y se conservan).
Ahora supongamos que el estado inicial no es del tipo |ϕ n,p,τ i, sino un ket arbitrario |ψ (t0 )i. Veremos que si el
sistema es conservativo, la probabilidad de encontrar un cierto valor a p es independiente del tiempo cuando se mide
la constante de movimiento A. Expandiendo |ψ (t 0 )i en la base {|ϕn,p,τ i} se tiene
XXX
|ψ (t0 )i = cn,p,τ (t0 ) |ϕn,p,τ i
n p τ
XXX
|ψ (t)i = cn,p,τ (t) |ϕn,p,τ i ; cn,p,τ (t) = cn,p,τ (t0 ) e−iEn (t−t0 )/~
n p τ
6
Si se pide ∂A
∂t
= h[A, H]i = 0, entonces la Ec. (5.71) solo será válida para un estado o estados especı́ficos |ψ (t)i. La idea aquı́ es
estudiar constantes de movimiento inherentes al sistema y no a condiciones iniciales especı́ficas.
7
Si en lugar de la Ec. (5.70) asumimos la condición más débil ∂A
∂t
+ [A, H] = 0, tenemos que A no conmuta en general con H. Por
tanto, aunque tal condición conduce a la conservación de hAi Ec. (5.71), no conduce a la existencia de una base común para A y H de
modo que las consecuencias fı́sicas adicionales que discutiremos aquı́, no son válidas para esta condición más débil.
190CAPÍTULO 5. CONSECUENCIAS DE LOS POSTULADOS SOBRE LOS OBSERVABLES Y SUS MEDIDAS
para un sistema conservativo el estado en cualquier instante vendrá dado por (5.67), con lo cual podemos calcular
el valor esperado de B cuando el sistema está en el estado |ψ (t)i. Para ello necesitamos el bra asociado a (5.67) el
cual viene dado por XX
asumiremos de aquı́ en adelante que B no depende explı́citamente del tiempo, en tal caso los elementos matriciales
ϕn0 ,τ 0 B |ϕn,τ i son constantes. De esto y de la Ec. (5.73) se vé que la evolución temporal de hBi (t) se debe
exclusivamente a las fases, es decir a términos oscilantes con frecuencias dadas por
1 |En0 − En | |En0 − En |
νn0 ,n ≡ =
2π ~ h
tales frecuencias son caracterı́sticas del sistema bajo estudio pero son independientes del observable B considerado
y de las condiciones iniciales del sistema (descritas por los coeficientes c ∗n0 ,τ 0 (t0 ) cn,τ (t0 ) ), ya que solo dependen de
los valores propios de H.
Las frecuencias νn0 ,n se denominan las frecuencias de Bohr del sistema. Por ejemplo, para un átomo los valores
esperados de todos los parámetros atómicos (tales como momentos dipolares eléctricos y magnéticos), oscilan a las
varias frecuencias de Bohr del átomo. Es razonable imaginar que estas frecuencias pueden ser absorbidas o emitidas
5.8. SOLUCIONES DE LA ECUACIÓN DE SCHRÖDINGER PARA SISTEMAS CONSERVATIVOS 191
por el átomo, lo cual nos permite entender intuitivamente la relación de Bohr entre las diferentes frecuencias
absorbidas o emitidas y las diferencias en las energı́as atómicas.
Puede verse de (5.73) que aunque las frecuencias involucradas en la evolución temporal de
hBi no dependen
de B, los pesos de cada frecuencia
sı́ dependen de B a través de los elementos matriciales ϕn0 ,τ 0 B |ϕn,τ i. En
particular si hay elementos ϕn0 ,τ 0 B |ϕn,τ i que sean nulos, las correspondientes frecuencias v n0 ,n estarán ausentes
de la expansión de hBi (t) sin importar cual sea el estado inicial del sistema. Este es el origen de las reglas de
selección que nos indican
las frecuencias que pueden ser emitidas o absorbidas bajo las condiciones dadas. Los
elementos de matriz ϕn ,τ B |ϕn,τ i nos dicen la importancia de cada frecuencia de Bohr.
0 0
Delo anterior vemos que el estudio de las reglas de selección proviene del cálculo de los elementos no diagonales
ϕn0 ,τ 0 B |ϕn,τ i de los diversos observables atómicos (o de cualquier otro sistema cuántico) tales como los dipolos
eléctricos y magnéticos.
Por otro lado, la Ec. (5.73) muestra que el peso completo de cada frecuencia está dado por el producto
XX ∗
W n, n0 = cn0 ,τ 0 (t0 ) cn,τ (t0 ) ϕn0 ,τ 0 B |ϕn,τ i
τ τ0
y por tanto también depende de las condiciones iniciales por medio de c ∗n0 ,τ 0 (t0 ) cn,τ (t0 ). Vale la pena anotar
que si bien la nulidad de los elementos ϕn0 ,τ 0 B |ϕn,τ i conduce a la ausencia de una frecuencia de Bohr para
cualquier estado inicial del sistema, también se puede dar la ausencia de una frecuencia por la nulidad del producto
c∗n0 ,τ 0 (t0 ) cn,τ (t0 ), es decir por ciertas condiciones iniciales especı́ficas. En particular, si el estado inicial es un estado
estacionario de energı́a Ek la expansión de |ψ (t0 )i solo contiene un valor de n (n = k) y el producto c ∗n0 ,τ 0 (t0 ) cn,τ (t0 )
solo es no nulo para n = n0 = k, en este caso hBi no depende del tiempo y no hay frecuencias de Bohr no triviales,
nótese que esta regla de selección se da por condiciones iniciales y se da para cualquier observable B.
Es interesante ver que de la Ec. (5.73) también podemos verificar que el valor esperado de una constante de
movimiento no depende del tiempo. Al ser B constante de movimiento, no depende explı́citamente del tiempo con
lo cual la dependencia temporal de hBi recae exclusivamente en las fases que contienen la energı́a en la Ec. (5.73).
Ahora bien el teorema 1.68 (pág. 50) nos dice que dado que B conmuta con H (por ser constante
de movimiento),
si |ϕn,τ i y ϕn ,τ corresponden a autovalores diferentes (E n 6= En ) entonces el producto ϕn ,τ B |ϕn,τ i es cero.
0 0 0 0 0
Por tanto para una constante de movimiento solo sobreviven los términos con n = n 0 para los cuales las fases
ei(En0 −En )(t−t0 )/~ serán iguales a la unidad y no habrá dependencia temporal.
∆E ∼
= |E2 − E1 |
192CAPÍTULO 5. CONSECUENCIAS DE LOS POSTULADOS SOBRE LOS OBSERVABLES Y SUS MEDIDAS
ahora consideremos un observable arbitrario B que no conmuta con H. La probabilidad de encontrar en una medida
de B en el tiempo t el valor propio bm (que asumimos no degenerado por simplicidad) asociado con el autovector
|um i nos da
n o
P (bm , t) = c1 e−E1 (t−t0 )/~ hum | ϕ1 i + c2 e−E2 (t−t0 )/~ hum | ϕ2 i
n o
× c∗1 eE1 (t−t0 )/~ hϕ1 | um i + c∗2 eE2 (t−t0 )/~ hϕ2 | um i
= c1 c∗1 hum | ϕ1 i hϕ1 | um i + c2 c∗2 hum | ϕ2 i hϕ2 | um i
+c1 c∗2 e−E1 (t−t0 )/~ eE2 (t−t0 )/~ hum | ϕ1 i hϕ2 | um i + c2 c∗1 e−E2 (t−t0 )/~ eE1 (t−t0 )/~ hum | ϕ2 i hϕ1 | um i
P (bm , t) = |c1 |2 |hum | ϕ1 i|2 + |c2 |2 |hum | ϕ2 i|2 + c1 c∗2 e(E2 −E1 )(t−t0 )/~ hum | ϕ1 i hϕ2 | um i
h i∗
+ c1 c∗2 e(E2 −E1 )(t−t0 )/~ hum | ϕ1 i hϕ2 | um i
n o
P (bm , t) = |c1 |2 |hum | ϕ1 i|2 + |c2 |2 |hum | ϕ2 i|2 + 2Re c1 c∗2 e(E2 −E1 )(t−t0 )/~ hum | ϕ1 i hϕ2 | um i (5.75)
nótese que la interferencia está dada por la diferencia entre las dos fases. Esta ecuación muestra que la probabilidad
oscila entre dos valores extremos, con una frecuencia de Bohr dada por
|E2 − E1 |
v21 =
h
vale la pena mencionar que esta frecuencia de Bohr no dependió del observable, sino de las condiciones iniciales
descritas por la Ec. (5.74), y por supuesto de los valores propios del Hamiltoniano. El tiempo caracterı́stico de
evolución será entonces un periodo de oscilación de la probabilidad
1 h h
∆t ∼
= = ∼
=
ν21 |E2 − E1 | ∆E
con lo cual se obtiene la relación
∆t · ∆E ∼
=h
Asumamos ahora que el espectro de H es contı́nuo y no degenerado. El estado inicial |ψ (t 0 )i se puede escribir
como Z
|ψ (t0 )i = dE c (E) |ϕE i
siendo |ϕE i el ket propio de H con autovalor E. Asumamos que en una gráfica de |c (E)| 2 (densidad de probabilidad
para E) vs. E, la densidad de probabilidad solo es apreciable en un intervalo [E 0 − ∆E/2, E0 + ∆E/2]. La cantidad
∆E representa entonces la incertidumbre en la energı́a del sistema (que depende del algoritmo para elegir el ancho).
El estado en un tiempo t se obtiene de (5.68)
Z
|ψ (t)i = dE c (E) e−iE(t−t0 )/~ |ϕE i
la probabilidad de obtener bm cuando se mide el observable B (de espectro discreto) en el estado |ψ (t)i es
Z 2
2
P (bm , t) = |hum |ψ (t)i| = dE c (E) e −iE(t−t 0 )/~
hum |ϕE i
Z 2
E0 +∆E/2
P (bm , t) ∼
= dE c (E) e−iE(t−t0 )/~ hum |ϕE i (5.76)
E0 −∆E/2
5.9. CONSECUENCIAS FÍSICAS DEL PRINCIPIO DE SUPERPOSICI ÓN 193
en general hum |ϕE i no varı́a en forma rápida con E cuando E varı́a alrededor de E 0 . Si ∆E es lo suficientemente
pequeño, la variación de hum |ϕE i en la integral (5.76) se puede despreciar con respecto a la variación de c (E). Con
lo cual la integral (5.76) se puede aproximar a
Z 2
E0 +∆E/2
P (bm , t) ∼ 2
= |hum |ϕE0 i| dE c (E) e−iE(t−t0 )/~
E0 −∆E/2
cuando esta aproximación es válida vemos que P (b m , t) es proporcional al cuadrado del módulo de la transformada
de Fourier de c (E). Aplicando la propiedad de incertidumbre para la transformada de Fourier, vemos que el ancho
en t de P (bm , t), es decir ∆t está relacionado con el ancho ∆E de |c (E)| 2 por medio de la relación
∆E · ∆t & h
usualmente conocida como la cuarta relación de incertidumbre de Heisenberg. Sin embargo, esta relación es diferente
a la mostrada por las componentes de R y P ya que el tiempo es un parámetro para el cual no existe un operador
cuántico asociado, y las variables H y t no son canónicamente conjugadas.
A priori podrı́a pensarse que la presencia de incertidumbre en la energı́a para un sistema conservativo, entra
en conflicto con la conservación de la energı́a. Debemos observar sin embargo, que el concepto de conservación (o
no conservación) de una cantidad fı́sica involucra la comparación entre dos o más medidas de dicha cantidad. Si el
estado inicial no es estacionario, entonces hay una incertidumbre en la energı́a, tal incertidumbre persiste y puede
evolucionar en el tiempo mientras no se realice una medida. No obstante, cuando se realiza una medida de la energı́a,
el sistema queda preparado en un estado estacionario con energı́a bien definida E n , y ya se discutió que toda medida
posterior de la energı́a dará el mismo valor E n con toda certeza. Lo mismo ocurrirá con cualquier cantidad posterior
de medidas de este observable. Tenemos entonces un principio de conservación puesto que el experimento revela que
para un sistema conservativo, las medidas de esta cantidad fı́sica en diferentes tiempos coinciden siempre. Similar
discusión se puede dar para la conservación del momento u otra cantidad fı́sica.
∆E · ∆t ∼
= ∆x · ∆p & ~
estos estados podrı́an ser por ejemplo estados propios de un observable B asociados a valores propios diferentes
b1 y b2 . Si el sistema está en el estado |ψ1 i podemos calcular todas las probabilidades concernientes a resultados
de medidas de un cierto observable A. Si asumimos por ejemplo que el autovalor a n de A es no degenerado y
denotamos |un i a su autovector asociado normalizado, la probabilidad de encontrar el valor a n cuando se mide A
sobre el sistema estando éste en el estado |ψ 1 i está dado por
ahora consideremos un estado normalizado |ψi que se construye como superposición de los estados |ψ 1 i y |ψ2 i
este vector estará normalizado si |ψ 1 i y |ψ2 i lo están. Puesto que |ψ1 i y |ψ2 i son autovectores del observable B
correspondientes a valores propios diferentes b 1 y b2 , la probabilidad de medir b1 es |c1 |2 y la de medir b2 es |c2 |2 . Con
frecuencia se dice que cuando el sistema está en el estado |ψi descrito por (5.79), entonces |c 1 |2 es la probabilidad
de encontrar al sistema en el estado |ψ 1 i y |c2 |2 es la probabilidad de encontrarlo en el estado |ψ 2 i, debe decirse sin
embargo que esto solo es cierto si se ejecuta una medida del observable B, ya que si se mide cualquier otro observable
C en general |ψ1 i y |ψ2 i no serán autoestados de C y por tanto luego de la medida el sistema no quedará en ninguno
de estos estados. En este caso se tendrá que expandir a |ψi en autoestados de C (esto es posible dado que es un
observable), y obtener los respectivos coeficientes. Esto nos muestra una vez más que el aparato de medida y la
medida misma juegan un papel muy importante en los postulados.
Volviendo a la distribución de probabilidades para b 1 y b2 , lo anterior podrı́a sugerir erróneamente que N sistemas
idénticos cada uno en el estado |ψi descrito por (5.79), equivalen a otro conjunto compuesto por N |c 1 |2 sistemas
idénticos cada uno en el estado |ψ1 i, junto con N |c2 |2 sistemas idénticos cada uno en el estado |ψ 2 i. A esto se le
denomina una mezcla estadı́stica de los estados |ψ 1 i y |ψ2 i con pesos |c1 |2 y |c2 |2 .
Para chequear esta hipótesis calcularemos la probabilidad de encontrar el autovalor a n cuando medimos A, sobre
el sistema en el estado |ψi. Si interpretamos este estado como una mezcla estadı́stica de los estados |ψ 1 i y |ψ2 i con
pesos |c1 |2 y |c2 |2 , esta probabilidad se puede calcular como la suma ponderada de probabilidades P 1 (an ) y P2 (an ) 8
?
P (an ) = |c1 |2 P1 (an ) + |c2 |2 P2 (an ) (5.80)
por otro lado, aplicando los postulados de la mecánica cuántica, esta probabilidad se calcula como
P (an , t) = |c1 |2 |hun | ψ1 i|2 + |c2 |2 |hun | ψ2 i|2 + 2Re {c1 c∗2 hun | ψ1 i hψ2 | un i}
8
Puesto que P1 (an ) es la probabilidad de obtener el valor an cuando el sistema está en el estado |ψ1 i, es claro 2 que en una mezcla
estadı́stica con N muy grande, el número de estados |ψ 1 i que arrojará a n cuando se mide A sobre los N c1 estados |ψ1 i, viene
dada por N c21 P1 (an ). Similarmente, N c22 P2 (an ) es el número de estados |ψ2 i de la mezcla estadı́stica que arrojarán el valor an
en la medición de A. Es claro entonces que la probabilidad de obtener an cuando se mide sobre la mezcla estadı́stica completa es
N |c 2
1 |P1 (an )+N |c2 |P2 (an )
2
lı́mN →∞ N
que coincide con la Ec. (5.80).
5.9. CONSECUENCIAS FÍSICAS DEL PRINCIPIO DE SUPERPOSICI ÓN 195
puesto que las cantidades c1 , c2 , hun | ψ1 i y hψ2 | un i son complejas podemos escribirlas en notación polar
quedando finalmente
P (an , t) = |c1 |2 |hun | ψ1 i|2 + |c2 |2 |hun | ψ2 i|2 + 2 |c1 | |c2 | |hun | ψ1 i| |hun | ψ2 i| cos (θ1 + δ1 − θ2 − δ2 )
P (an , t) = |c1 |2 P1 (an ) + |c2 |2 P2 (an ) + 2 |c1 | |c2 | |hun | ψ1 i| |hun | ψ2 i| cos (θ1 + δ1 − θ2 − δ2 )
este resultado difiere del mostrado en (5.80) en donde se consideró a |ψi como una mezcla estadı́stica. El punto es
que la mezcla estadı́stica no considera los efectos de interferencia contenidos en el producto cruzado que se obtiene
cuando se eleva al cuadrado una suma de amplitudes. El resultado muestra que la probabilidad no depende solo
de los módulos de los pesos |c1 | y |c2 | y de las amplitudes |hun | ψ1 i| y |hun | ψ2 i| sino también de sus fases relativas
θ1 , θ2 , δ1 y δ2 . Nótese sin embargo, que una fase global e iθ multiplicando al estado |ψi no afecta esta probabilidad
puesto que se elimina con su conjugado en el término de interferencia.
Para ilustrar el uso adecuado del principio de superposición, vamos a examinar dos experimentos ilustrativos.
En esta sección asumiremos que los observables A, B, C tienen un espectro discreto y no degenerado. Asumiremos
también que todas las medidas sucesivas se hacen en intervalos de tiempo cortos, de manera que el sistema no ha
tenido tiempo de evolucionar.
Primer experimento: Asumamos que en cierto tiempo, se midió el observable A y se obtuvo el valor propio
a. El estado después de la medida será el ket propio |u a i asociado con a. Inmediatamente después medimos al
observable C que no conmuta con A y obtenemos el valor c, de modo que el sistema quedará en el estado |v c i. La
probabilidad de que habiendo obtenido el valor a en la primera medida, obtengamos en la segunda medida un valor
c está dada por
Pa (c) = |hvc |ua i|2 (5.82)
Segundo experimento: En este experimento medimos de forma sucesiva los observables A, B, y C que no
conmutan entre sı́. Si Pa (b, c) es la probabilidad de que habiendo obtenido el resultado a en la primera medida se
obtengan los valores b y c en las otras dos, tenemos que esta probabilidad es el producto
es decir Pa (b, c) es la probabilidad Pa (b) de que habiendo obtenido el valor a del observable A en la primera medida,
obtengamos b en la segunda, multiplicada por la probabilidad de que habiendo obtenido un valor b del observable
B en la segunda medida obtengamos un valor c de C en la tercera. Si denotamos |w b i al ket propio de B asociado
con el valor propio b, la cantidad Pa (b, c) estará dada por
Veamos ahora las semejanzas y diferencias entre ambos experimentos. Asumiremos que en ambos experimentos
se han obtenido los mismos valores especı́ficos de A y C. En ambos experimentos el estado después de la medición
de A es |ua i, de hecho el papel de esta medición es el de fijar a |u a i como el estado inicial. Después de la medición de
C en ambos experimentos el estado será |v c i que lo tomaremos como el estado final. Los dos experimentos coinciden
entonces en el estado inicial y en el final.
Para ambos experimentos es posible descomponer el estado justo antes de la medida de C en términos de
autovectores |wb i de B, y decir que entre los estados |u a i y |vc i el sistema puede “pasar” a través de diferentes
“estados intermedios” |wbi i. Cada uno de estos estados intermedios define un posible “camino” entre el estado inicial
|ua i y el estado final |vc i.
De aquı́ surge la diferencia fundamental entre los dos experimentos. En el primero el camino que el sistema
ha tomado para ir desde |ua i hasta |vc i no ha sido determinado experimentalmente, ya que solo hemos medido la
probabilidad Pc (a) de que comenzando en el estado |u a i terminemos en el estado |vc i. En el segundo experimento
el camino para ir desde |ua i hasta |vc i ha sido determinado experimentalmente midiendo el observable B, ya que
esta medida nos permite obtener la probabilidad P a (b, c) de que el sistema comenzando en |u a i, pase a través de
un estado intermedio dado |wb i y termine en el estado |vc i.
La idea ahora es relacionar a Pa (c) con Pa (b, c). Resulta tentador pensar que en el primer experimento el sistema
es “libre de pasar” a través de todos los estados intermedios |w b i, pareciera entonces que la probabilidad global P a (c)
es la suma de todas las probabilidades P a (b, c) asociadas con cada uno de los posibles “caminos”, esto conducirı́a a
?
X
Pa (c) = Pa (b, c) (5.84)
b
veremos que este resultado es incorrecto a la luz de los postulados de la mecánica cuántica. La manera más simple
para relacionar Pa (c) con Pa (b, c) consiste en tomar la fórmula de probabilidad P a (c) Ec. (5.82) y aplicarle la
relación de completez para la base {|w b i}
5.9. CONSECUENCIAS FÍSICAS DEL PRINCIPIO DE SUPERPOSICI ÓN 197
2
X
Pa (c) = |hvc |ua i|2 = hvc |wb i hwb |ua i (5.85)
b
" #" #∗
X X
Pa (c) = hvc |wb i hwb |ua i hvc |wb0 i hwb0 |ua i
b b0
XX
Pa (c) = hvc |wb i hwb |ua i hvc |wb0 i∗ hwb0 |ua i∗
b b0
comparando (5.86) con (5.84) vemos nuevamente que los términos cruzados que aparecen en el cuadrado del módulo
de la suma en (5.85) están ausentes en (5.84), y por tanto todos los efectos de interferencia entre los diferentes
posibles caminos.
Los argumentos anteriores nos muestran que es necesario razonar en términos de amplitudes de probabilidad
para aplicar adecuadamente el principio de superposición. Cuando los estados intermedios del sistema no están
determinados experimentalmente son las amplitudes de probabilidad y no las probabilidades las que se deben
sumar.
Para comprender mejor el error en el razonamiento que nos llevó a la Ec. (5.84), recurrimos al quinto postulado de
reducción del paquete de onda. En el segundo experimento, la medida del observable B involucra una perturbación
del sistema bajo estudio y durante la medida su ket de estado experimenta un cambio abrupto que se manifiesta
como la proyección sobre uno de los estados |w b i, esta perturbación inevitable y fundamental es la responsable de la
desaparición de los efectos de interferencia. En el primer experimento no podemos decir que el sistema fı́sico “pasa”
a través de uno u otro de los estados |w b i, es más acertado decir que el sistema pasa a través de todos los estados
|wb i en forma ponderada. Esto se puede ver teniendo en cuenta que el estado antes de la medida de B del segundo
experimento es |ua i y este también es el estado del sistema en el primer experimento antes de la medida de C, en
el primer experimento el estado antes de la medida de C es
X
|ua i = cb |wb i
b
vemos entonces que cuando no se realiza la medida de B el sistema “está en todos los estados posibles |w b i” aunque
en forma ponderada por los coeficientes c b .
De otra parte si las medidas sucesivas no se hacen en tiempos cortos, es posible realizar razonamientos similares
teniendo en cuenta la evolución del sistema con la ecuación de Schrödinger, y en todo caso la diferencia fundamental
entre superposiciones lineales de estados y mezcla estadı́stica de estados continúa existiendo (ver sección 7.1.2 Pág.
220).
Nótese que estos razonamientos son muy similares a los que se describieron en la sección 2.7 sobre el experimento
de Young de la doble rendija. En él, la densidad de probabilidad de que un fotón emitido por la fuente llegue a
un punto dado M en la pantalla se obtiene primero superponiendo linealmente los campos eléctricos radiados por
cada rendija para luego elevar al cuadrado y obtener la intensidad en M (y por tanto la densidad de probabilidad
deseada). El campo eléctrico hace las veces de la amplitud de probabilidad y la intensidad hace las veces de la
densidad de probabilidad como tal. Cuando no intentamos determinar por cual rendija pasa el fotón (es decir no
198CAPÍTULO 5. CONSECUENCIAS DE LOS POSTULADOS SOBRE LOS OBSERVABLES Y SUS MEDIDAS
determinamos experimentalmente el “estado intermedio”), son los campos eléctricos radiados por cada rendija los que
se deben superponer linealmente y no sus intensidades, con el fin de obtener la intensidad (densidad de probabilidad)
resultante. Podemos decir entonces que el campo radiado por una rendija sobre el punto M representa la amplitud
para un fotón emitido desde la fuente (estado inicial) de pasar a través de tal rendija (estado intermedio) antes de
arrivar al punto M sobre la pantalla (estado final), pero sin la medición del estado intermedio se considera que el
fotón pasa por ambas rendijas (todos los estados intermedios accesibles).
De lo anterior podemos obtener las siguientes conclusiones
(a) Las predicciones probabilı́sticas de la teorı́a cuántica se obtienen siempre elevando al cuadrado el módulo de
una amplitud de probabilidad
(b) Cuando en un experimento particular no se mide un estado intermedio, no se debe razonar en términos de
las probabilidades de los diversos resultados accesibles que se hubieran obtenido en tales medidas. Se debe razonar
en términos de las amplitudes de probabilidad. Esto tiene que ver con que las medidas destruyen la interferencia,
dado que se obtienen valores bien definidos de un observable y un estado intermedio dado. En contraste cuando
una medida no se efectúa, el sistema está simultáneamente en todos los estados intermedios posibles y es esta
simultaneidad la que permite la interferencia.
(c) El hecho de que los estados de un sistema fı́sico se pueden superponer linealmente significa que las amplitudes
de probabilidad con frecuencia tiene la forma de una suma de amplitudes parciales. La correspondiente probabilidad
es entonces igual al módulo al cuadrado de esta suma de términos con lo cual las amplitudes parciales interfieren
entre sı́.
2
la suma de estas gn probabilidades. Debemos tener en cuenta que cada probabilidad uin ψi puede ser el cuadrado
del módulo de una suma de amplitudes que nos generará interferencias. Por ejemplo si el estado inicial normalizado
es de la forma
|ψi = c1 |ψ1 i + c2 |ψ2 i
cada sumando en (5.87) será de la forma
i 2
i
u ψi = c1 u ψ1 i + c2 ui ψ2 i2
n n n
Queremos estudiar cuales son las predicciones que podemos hacer con estos dispositivos cuando un sistema
fı́sico en un estado arbitrario es medido con uno de ellos. Para el ejemplo anterior cuando el paquete de onda
está completamente adentro (o afuera) del intervalo [x 1 , x2 ], la respuesta es definitivamente si (no). Debemos estudiar
las probabilidades P (si) y P (no) cuando el paquete no está completamente adentro ni completamente afuera.
Veremos que esto es equivalente a medir un observable cuyo espectro sea degenerado.
al caso de un espectro discreto. Consideremos el autosubespacio E ∆ generado
Por el momento retornaremos
por todos los autoestados uin de A cuyos valores propios yacen en el intervalo ∆. El proyector P ∆ sobre este
subespacio es
X X gn
i
i
P∆ = un un (5.89)
an ∈∆ i=1
donde hemos tenido en cuenta que las autovalores a n pueden ser degenerados. Nótese que E ∆ esta compuesto
por todos los estados accesibles del sistema después de que la medida de A ha dado el valor “si”. En términos
más matemáticos, podemos decir que la respuesta del dispositivo es definitivamente “si” cuando el estado inicial
pertenece a E∆ , es decir para cualquier estado propio de P ∆ con valor propio +1. Adicionalmente, la respuesta es
definitivamente “no” cuando el estado inicial pertenece al complemento ortogonal de E ∆ es decir cuando el estado
es autoestado de P∆ con valor propio 0. Si denotamos Ee∆ al complemento ortogonal de E∆ podemos escribir
E ]
= E∆ ⊕ Ee∆ ; |ψi = |ψ∆ i ⊕ |ψ ∆i
]
; |ψi ∈ E ; |ψ∆ i ∈ E∆ ; |ψ e
∆ i ∈ E∆ (5.90)
]
P∆ |ψi = |ψ∆ i ; P∆ |ψ∆ i = (+1) |ψ∆ i ; P∆ |ψ ]
∆ i = (0) |ψ∆ i (5.91)
donde |ψi es un estado arbitrario. Vemos entonces que las respuestas “si” y “no” que nos da nuestro dispositivo
equivalen a los autovalores +1 y 0 respectivamente del observable P ∆ . Podemos decir entonces que el dispositivo
está realmente midiendo los valores propios de P ∆ en lugar de los de A.
Con tal interpretación podemos calcular las distribuciones de probabilidad P (si) y P (no) aplicando los postula-
dos al observable P∆ que es el que realmente se está midiendo. La probabilidad P (si) es la probabilidad de obtener
el valor propio +1 para el observable P ∆ . Si el estado inicial normalizado es |ψi tal probabilidad se puede escribir
aplicando el cuarto postulado (pag. 162) y la Ec. (4.2)
X
P (si) = P (+1) = |hvm | ψi|2 ; P (no) = 1 − P (si)
m
donde {|vm i} es una base ortonormal asociada al subespacio E (+1) generado por el valor propio +1 de P∆ . De(5.91)
es claro que E(+1) es justamente E∆ ; por tanto una base ortonormal {|vm i} posible es precisamente la base uin
con an ∈ ∆, que se construyó para E∆ . Por tanto, las probabilidades quedan en la forma
gn
X X
i 2
P (si) = P (+1) = un ψi ; P (no) = 1 − P (si) (5.92)
an ∈∆ i=1
otra forma es usar las Ecs. (4.6, 5.90) donde en este caso el proyector sobre el autoespacio E (+1) = E∆ del observable
P∆ es justamente P∆
P (si) = hψ| P∆ |ψi = hψ∆ |ψ∆ i (5.93)
aplicando (5.89) en (5.93) vemos que se reproduce (5.92)
gn
" gn
#
X X i
i X X i
i
|ψ∆ i = P∆ |ψi = un un ψi ; hψ| P∆ |ψi = hψ| un un ψi (5.94)
an ∈∆ i=1 an ∈∆ i=1
gn
X X gn
X X
i
i
i 2
hψ| P∆ |ψi =
hψ un un ψi = un ψi (5.95)
an ∈∆ i=1 an ∈∆ i=1
Similarmente, puesto que el dispositivo no perturba los estados que pertenecen a E ∆ y bloquea aquellos que
pertenecen a Ee∆ , vemos que el estado del sistema después de la medición cuando ha dado un resultado “si”, es decir
5.11. DISCUSIÓN GENERAL SOBRE EL FENÓMENO DE INTERFERENCIA 201
cuando el autovalor obtenido para P ∆ es +1 está dado por |ψ∆ i pero normalizado, de las Ecs. (5.94, 5.95) se tiene
0 |ψ∆ i P∆ |ψi
ψ = = (5.96)
hψ∆ |ψ∆ i hψ| P∆ |ψi
P Pgn i
i
0 an ∈∆ i=1 un un ψi
ψ = qP (5.97)
P gm k 2
am ∈∆ k=1 |hum | ψi|
es decir es una suma de cuadrados (suma de densidades de probabilidad). No obstante, la intensidad en un punto
de la pantalla x ∈ [x1 , x2 ] es el cuadrado del campo eléctrico E (x) el cual es la superposición lineal de los campos
eléctricos EA (x) y EB (x) radiados por las dos rendijas A y B sobre el punto x en la pantalla. I (x) es entonces
|EA (x) + EB (x)|2 es decir el cuadrado de una suma. EA (x) y EB (x) son las amplitudes asociadas a los dos caminos
posibles (paso por cada rendija) que terminan en el mismo punto x. Estas amplitudes se adicionan para obtener la
amplitud en x ya que no estamos tratando de determinar por cual rendija pasa el fotón. Luego, para calcular la
intensidad total se suman estos módulos al cuadrado (suma de intensidades), es decir se suman las intensidades sobre
los diferentes puntos x, para obtener la intensidad total en el intervalo [x 1 , x2 ] (equivalente a suma de probabilidades
para obtener probabilidad total).
La anterior discusión nos muestra que la suma de amplitudes se realiza cuando partiendo desde un estado
inicial dado llegamos por diferentes caminos al mismo estado final (en este caso un punto fijo x en la pantalla).
Tendremos tantas amplitudes como caminos intermedios considerados. Una vez calculado el módulo al cuadrado
de la suma de estas amplitudes se suman estos cuadrados sobre estados finales diferentes (en este ejemplo
corresponde a sumar las intensidades sobre los diferentes puntos x del intervalo).
Resumimos el algoritmo en la siguiente forma: Se suman las amplitudes correspondientes al mismo estado final,
luego se suman las probabilidades correspondientes a estados finales ortogonales.
El hecho de que se sume sobre estados ortogonales tiene que ver con que usualmente los diferentes estados que
se usan para construı́r una base son todos ortogonales entre sı́. En general, debemos decir que se suma sobre estados
linealmente independientes.
discusión sobre la aplicación de los postulados para medidas insuficientes resulta apropiado para el estudio de la
medición de espectros contı́nuos.
El ejemplo más simple y directo es la medición de la posición de una partı́cula. Nos preguntamos por la proba-
bilidad de encontrar a la partı́cula en una posición dentro de un intervalo ∆ = [x 1 , x2 ] con un dispositivo similar al
descrito anteriormente.
Asumamos que la partı́cula (sin espı́n) está en un estado |ψi. El subespacio E ∆ asociado con esta medida
es el expandido por los kets {|ri = |x, y, zi / x 1 ≤ x ≤ x2 }. Puesto que estos kets son ortonormales en el sentido
extendido, la aplicación de la regla descrita en la sección 5.11 nos dice que
Z x2 Z ∞ Z ∞ Z x2 Z ∞ Z ∞
P (x1 ≤ x ≤ x2 ) = dx dy dz |hx, y, z |ψi|2 = dx dy dz |ψ (r)|2 (5.98)
x1 −∞ −∞ x1 −∞ −∞
vemos que la Ec. (5.93) conduce al mismo resultado ya que P ∆ viene dado en este caso por
Z x2 Z ∞ Z ∞
P∆ = dx dy dz |x, y, zi hx, y, z|
x1 −∞ −∞
de modo que
Z x2 Z ∞ Z ∞
P (x1 ≤ x ≤ x2 ) = hψ| P∆ |ψi = hψ| dx dy dz |x, y, zi hx, y, z| |ψi
Z x2 Z ∞ Z ∞x1 −∞ −∞
ahora debemos encontrar el estado |ψ 0 i después de que la medición arroje un valor “si”, es decir cuando la posición
de la partı́cula esté dentro de ∆ después de la medición. Para ello aplicamos la Ec. (5.96)
Z x2 Z ∞ Z ∞
0 P∆ |ψi 1
ψ = = dx 0
dy 0
dz 0 x0 , y 0 , z 0 x0 , y 0 , z 0 ψi
hψ| P∆ |ψi hψ| P∆ |ψi x1 −∞ −∞
Z x2 Z ∞ Z ∞
0 1
ψ = dx0 dy 0 dz 0 r0 ψ r0 ; N ≡ hψ| P∆ |ψi
N x1 −∞ −∞
donde el factor de normalización N ≡ hψ| P ∆ |ψi = P (x1 ≤ x ≤ x2 ), está dado por la Ec. (5.100). Es inmediato
encontrar la función de onda asociada a |ψ 0 i
Z Z Z
1 x2 0 ∞ 0 ∞
hr ψ 0 = dx dy dz hr r0 ψ r0
N x1
Z x2 Z−∞∞ Z−∞∞
1
ψ 0 (x, y, z) = dx0 dy 0 dz δ x − x0 δ y − y 0 δ z − z 0 ψ x0 , y 0 , z 0
N x1 −∞ −∞
Z x2
1
ψ 0 (x, y, z) = dx0 δ x − x0 ψ x0 , y, z
N x1
y como x puede estar dentro o fuera del intervalo [x 1 , x2 ] la función de onda será
ψ (x, y, z) si x1 ≤ x ≤ x2
ψ 0 (x, y, z) = (5.101)
0 si x ∈ / [x1 , x2 ]
vemos entonces que la parte de ψ (r) que corresponde al intervalo asociado al aparato de medición persiste sin
modificación, ya que el factor 1/N simplemente asegura que el estado se mantenga normalizado. El resto es suprimido
por la medición. Podemos decir entonces que el paquete de onda inicial ψ (r) de la partı́cula está siendo “truncado”
por los lı́mites de la “ranura”. Podemos entonces entender a partir de estos procesos porqué hablamos de una
reducción del paquete de onda.
Ahora bien, si tenemos un gran número de partı́culas todas en el estado |ψi, entrando sucesivamente en el
aparato, el resultado será algunas veces “si” y otras veces “no” según la distribución de probabilidad prescrita
5.13. POSTULADO DE REDUCCIÓN DEL PAQUETE DE ONDA (QUINTO POSTULADO) PARA UN ESPECTRO
anteriormente. Si la respuesta es “si”, la partı́cula sigue su camino a partir de un estado inicial “truncado” o
“reducido” dado por |ψ 0 i; si el resultado es “no” la partı́cula es absorbida por la placa colocada en el plano XY .
Es claro que cuando el espectro es contı́nuo, el dispositivo será siempre insuficientemente selectivo puesto que el
intervalo [x1 , x2 ] siempre contiene infinitos puntos por pequeño que este sea. Vale la pena sin embargo, analizar el
lı́mite cuando el ancho de este intervalo tiende a cero. Tomemos un intervalo de ancho ∆x centrado en x 0 , si ∆x lo
tomamos lo suficientemente pequeño podemos despreciar la variación de ψ (r) en x y reemplazarla por su valor en
x0 , en cuyo caso se puede integrar en x la probabilidad dada por (5.98)
Z ∞ Z ∞
∆x ∆x
P x0 − , x0 + ' ∆x dy dz |ψ (x0 , y, z)|2
2 2 −∞ −∞
dP (x0 ) = ρ (x0 ) dx
donde de acuerdo con el cuarto postulado hemos interpretado a la densidad de probabilidad asociada a x 0 como la
integral en y y z de la expresión anterior. La diferencia con la Ec. (4.7) es que en (4.7) el espectro se consideraba no
degenerado en tanto que aquı́ el espectro de X es infinitamente degenerado en E r , ya que todo vector de la forma
|x, y, zi es vector propio de X. Por esta razón, en esta densidad de probabilidad interviene una integral doble sobre
y y z.
el proceso de reducción aparece con claridad en la Ec. (5.101), si la generalizamos a cualquier observable A de
espectro contı́nuo {α} con función de onda hν α |ψi que representa a |ψi en la base {|ν α i}. Según la Ec. (5.101)
adecuadamente generalizada, el sistema queda preparado en un estado cuya función de onda es cero fuera del
intervalo de selección y dentro de dicho intervalo conserva la forma de la función de onda original (excepto por un
factor de normalización). Sin importar que tan pequeño sea ∆α nunca obtenemos el autoestado |ν α0 i después de la
medida, el cual en la base {|να i} estarı́a representado por hνα |να0 i = δ (α − α0 ). Pues la función de onda truncada
siempre tiene un ancho finito ∆α. Finalmente, es claro que el factor de normalización debe ser mayor que la unidad.
Capı́tulo 6
Hemos estudiado hasta el momento la aplicación de los postulados cuando el estado del sistema se conoce
perfectamente. Veremos dos casos en los cuales manejamos información parcial del sistema (a) cuando el sistema
está compuesto de dos o más subsistemas, y solo realizamos medidas de un subsistema especı́fico. (b) cuando
desconocemos las condiciones iniciales detalladas y solo poseemos información en forma de probabilidad, como
ocurre en la mecánica estadı́stica. Estudiaremos primero el caso (a).
E ≡ E (1) ⊗ E (2)
por ejemplo un sistema de dos electrones (sin espı́n), está descrito por una función de onda de la forma ψ (x 1 , y1 , z1 ; x2 , y2
con un ket del espacio Er (1) ⊗ Er (2). Consideremos el caso en el cual se mide un observable asociado a solo uno
de los subsistemas. Asumiremos de aquı́ en adelante que las medidas se realizarán sobre el subsistema (1) ya que
el análisis del caso en que se hace una medida sobre el subsistema (2) es totalmente análogo. El observable A e (1)
asociado a una medida sobre el subsistema (1) es la extensión tensorial del observable A (1) (ver Ec. 1.127)
ya vimos en la sección 1.32.3 que el espectro de Ae (1) en E (1) ⊗ E (2) es idéntico al espectro de A (1) en E (1). Vimos
adicionalmente que la degeneración de cada valor propio en E (1) ⊗ E (2) es el producto de su degeneración en E (1)
por la dimensión de E (2). Esto implica que (si E (2) es de dos o más dimensiones) todo valor propio de A e (1) es
degenerado. En consecuencia, cuando se realiza una medida sobre el subsistema (1), el estado del sistema global
después de la medida dependerá tanto del resultado de la medida como del estado justo antes de ésta. Fı́sicamente,
esto se debe a que el resultado no da ninguna información sobre el subsistema (2), y por tanto el ket asociado no
constituye un C.S.C.O.
Vamos a calcular la probabilidad de obtener un valor propio dado a n en una medida del observable A e (1). Para
ello apelamos a la Ec. (4.6) pág 163
P (1) (an ) = hψ| Pen (1) |ψi (6.2)
siendo |ψi el estado (normalizado) en el que se encuentra el sistema global antes de la medición. El proyector
6.1. APLICACIÓN DE LOS POSTULADOS CUANDO SE MIDE UN OBSERVABLE DE UN SUBSISTEMA205
extendido Pen (1) se escribe en términos del proyector P n (1) en E (1) en la forma
gn
X i
Pen (1) ≡ Pn (1) ⊗ I (2) ; Pn (1) = un (1) uin (1) (6.3)
i=1
siendo uin (1) una base ortonormal en E (1) y gn la degeneración de an en E (1). Pen (1) es entonces el proyector
en E (1) ⊗ E (2) sobre el autosubespacio generado por a n en E (1) ⊗ E (2). Adicionalmente podemos expresar la
identidad de (2) usando una base ortonormal {|v k (2)i} de E (2) con lo cual Pen (1) queda
" gn # " #
X
X
Pen (1) ≡ Pn (1) ⊗ I (2) = uin (1) uin (1) ⊗ |vk (2)i hvk (2)|
i=1 k
gn X
X i
= un (1) ⊗ |vk (2)i uin (1) hvk (2)|
i=1 k
gn X
X i
e
Pn (1) = un (1) vk (2) uin (1) vk (2) (6.4)
i=1 k
adicionalmente, el estado |ψ 0 i justo después de la medición se puede calcular empleando la Ec. (4.8) pág. 165, y
teniendo en cuenta las Ecs. (6.5, 6.4)
Pgn P i
i
0 e
ψ = q Pn (1) |ψi i=1 k un (1) vk (2) un (1) vk (2) ψi
= qP P (6.6)
gn i (1) v (2)| ψi|2
hψ| Pen (1) |ψi i=1 k |hu n k
Nótese que las Ecs. (6.2, 6.3, 6.6), nos dicen que la base ortonormal {|v k (2)i} en E (2) se puede elegir arbitrariamente
sin alterar las predicciones fı́sicas sobre los observables del subsistema (1). Esto es de esperarse, ya que al no realizarse
ninguna medida en el sistema (2), ningún conjunto de estados en E (2) es preferencial.
|ψi = |ϕ (1)i ⊗ |χ (2)i = |ϕ (1) χ (2)i ; |ϕ (1)i ∈ E (1) , |χ (2)i ∈ E (2) ; k|ϕ (1)ik = k|χ (2)ik (6.7)
e (1), el estado |ψ 0 i después de la medición se
supongamos que |ψi es el estado del sistema antes de la medición de A
obtiene aplicando las Ecs. (6.6, 6.7, 6.3)
vemos que el estado posterior a la medición también es un producto tensorial tal que el estado del subsistema (1)
ha cambiado pero no el estado asociado al subsistema (2). La probabilidad P (a n ) queda en la forma
P (1) (an ) = hψ| Pen (1) |ψi = hϕ (1) χ (2)| [Pn (1) ⊗ I (2)] |ϕ (1) χ (2)i
= hϕ (1)| Pn (1) |ϕ (1)i hχ (2)| I (2) |χ (2)i
(1)
P (an ) = hϕ (1)| Pn (1) |ϕ (1)i
de lo cual se vé que P (1) (an ) no depende de |χ (2)i solo del estado |ϕ (1)i del subsistema (1). Por tanto, cuando el
estado del sistema está descrito por un producto tensorial como en la Ec. (6.7), las predicciones fı́sicas asociadas a
solo uno de los dos subsistemas, no dependen del estado del otro subsistema y se obtienen únicamente a partir del
estado del subsistema sobre el que se mide.
En consecuencia, un estado producto |ϕ (1)i ⊗ |χ (2)i describe una simple yuxtaposición de los subsistemas (1) y
(2) cada uno de ellos en los estados |ϕ (1)i y |χ (2)i respectivamente. En tal estado, se dice que los dos subsistemas
NO están correlacionados, esto implica que la medición de observables que pertenecen a uno u otro subsistema
corresponden a variable aleatorias independientes. Esto ocurre cuando los subsistemas han sido preparados en los
estados |ϕ (1)i y |χ (2)i para luego unirlos sin interacción.
donde hay por lo menos dos sumandos diferentes de cero. Veamos las predicciones sobre la medición de un observable
Ae (1) asociado solo al subsistema (1). En tal caso, es fácil probar que las predicciones fı́sicas no se pueden escribir solo
en términos de un estado del subsistema (1). Esto se puede ver aplicando las fórmulas (6.5, 6.6) en el contexto más
general. Esta situación corresponde entonces a la existencia de correlaciones entre los dos subsistemas, los resultados
de medidas sobre cada subsistema corresponden a variables aleatorias dependientes y que pueden ser correlacionadas.
Puede demostrarse por ejemplo que si dos subsistemas descritos por un producto tensorial se “concetan” entre sı́ por
medio de una interacción, el nuevo estado ya no será un producto tensorial.
Estudiemos primero el caso más sencillo, asumiendo que el valor propio a n obtenido en la medida es no degener-
ado, en tal caso desaparece la sumatoria sobre i en la Ec. (6.3) y en todas las demás ecuaciones. El estado después
de la medida se obtiene de (6.6) suprimiendo la suma sobre i
P P
0 k |u n (1) vk (2)i hun (1) vk (2)| ψi |un (1)i ⊗ k |vk (2)i hun (1) vk (2)| ψi
ψ = q = q
P 2 P 2
k |hu n (1) v k (2)| ψi| k |hun (1) vk (2)| ψi|
P
0 k |vk (2)i hun (1) vk (2)| ψi
ψ = |un (1)i ⊗ χ0 (2) ; χ0 (2) = q (6.8)
P 2
k |hu n (1) v k (2)| ψi|
en este caso, sin importar el estado |ψi previo a la medición del subsistema (1), el estado global posterior a la
medición de un observable no degenerado es siempre un producto tensorial. Esto es resultado se puede extender al
caso en que se realiza un conjunto de mediciones asociadas a un C.S.C.O. es decir cuando la medición es completa
con respecto a un subsistema (estas mediciones son naturalmente parciales con respecto al sistema global).
Cuando el estado del sistema global no es un producto tensorial del tipo |ϕ (1)i⊗|χ (2)i, no podemos asociar cada
ket |ϕ (1)i , |χ (2)i a los subsistemas (1) y (2) 1 . Surge entonces la pregunta de como caracterizar cada sistema parcial
1
Por ejemplo, la energı́a de un sistema compuesto no es en general la suma de las energı́as individuales ya que la interacción aporta a
dicha energı́a, además no hay una manera no ambigüa de “repartir” la energı́a total del sistema asignándole una porción a cada sistema.
6.2. OPERADOR DENSIDAD 207
en un sistema correlacionado. Esta pregunta es de gran interés si tenemos en cuenta que en general todo sistema
fı́sico ha interactuado en el pasado con otros sistemas incluso si está aislado en el momento en que estudiamos tal
sistema. Esto implica que el sistema total (sistema bajo estudio más el sistema con el que interactuó en el pasado)
no es en general un estado producto y no es posible asociar un vector de estado |ϕ (1)i con el sistema bajo estudio.
Este problema se resuelve asociando al subsistema (1) (sistema bajo estudio) un operador (operador densidad) en
lugar de un vector, volveremos sobre este punto en la sección 6.2.
Por el momento, tomaremos un caso en el cual se puede asociar un vector de estado para el sistema (1), esto
es cuando se realiza un conjunto completo de medidas del subsistema (1). Hemos visto que en tal situación, para
cualquier estado del sistema global (1) + (2) antes de la medida, un conjunto completo de medidas en E (1) coloca
al sistema global en un estado que es producto tensorial como se vé en la Ec. (6.8). El vector asociado con (1) es el
que se obtiene de manera única (salvo por un factor multiplicativo), por medio de los valores del conjunto completo
de medidas sobre (1). En consecuencia, el conjunto completo de medidas sobre (1) borra todas las correlaciones que
surgen de interacciones previas entre los dos sistemas. En particular, si en el momento de la medida el sistema (2)
está muy lejos y ya no interactúa con el sistema (1), el sistema (2) puede ser totalmente omitido para efectos de
estudiar al sistema (1).
Hemos visto que cuando el estado |ψi es un producto tensorial, el vector de estado asociado al subsistema (2),
no depende de medidas hechas sobre el sistema (1). Ahora bien, cuando el estado del sistema global es |ψi antes de
las medidas, y realizamos un conjunto completo de medidas sobre (1), la Ec. (6.8) nos muestra el estado |ψ 0 i en el
cual queda preparado el sistema global. Dicha ecuación nos muestra que cuando |ψi no es un producto tensorial, el
vector de estado |χ0 (2)i asociado al sistema (2) posterior a las medidas, depende del resultado del conjunto completo
de medidas en (1). Esto es a priori sorprendente ya que el estado del sistema (2) después de ejecutar un conjunto
completo de medidas en (1), dependerá del resultado de dichas medidas incluso si el sistema (2) está muy lejos del
sistema (1) en el momento de realizar las medidas. En otras palabras un conjunto completo de medidas sobre (1)
influirı́a sobre el sistema (2) incluso cuando éstos no interactúan. Esta paradoja ha sido ampliamente estudiada por
cinetı́ficos como Einstein, Podolsky, Rosen y Bell.
donde obviamente X
pk = 1 ; 0 ≤ pk ≤ 1
k
decimos entonces que el sistema está en una mezcla estadı́stica de estados accesibles {|ψ n i} con probabilidades
{pn }. Queremos ahora hacer predicciones sobre los resultados cuando se realiza un conjunto de medidas sobre el
sistema. Si el sistema estuviera en un estado |ψ k i podrı́amos aplicar los postulados para realizar las correspondientes
predicciones. Sin embargo, dado que no tenemos certeza sobre el estado inicial sino solo una probabilidad p k de que
se encuentre en ese estado, los resultados obtenidos deben ser ponderados por el factor p k y luego sumados sobre
todos los estados accesibles en la mezcla estadı́stica.
Los estados accesibles {|ψk i} se pueden normalizar y de hecho asumiremos de aquı́ en adelante que están
normalizados. Sin embargo, estos estados no son necesariamente ortogonales.
Por otra parte será necesario distinguir en nuestro estudio dos tipos diferentes de probabilidad: (a) Probabilidad
de obtener un estado |ψk i en el tiempo inicial. En otras palabras, probabilidad de encontrar al sistema en t 0 en
unas condiciones iniciales dadas. Este tipo de probabilidad se utiliza también en mecánica estadı́stica clásica y es
inherente a la información incompleta sobre las condiciones iniciales. (b) Probabilidad de obtener ciertos resultados
cuando se realizan medidas en el sistema, esta probabilidad es eminentemente cuántica y proviene de los postulados
de la mecánica cuántica, además no desaparece incluso si determinamos perfectamente las condiciones iniciales
(estado {|ψk i}) del sistema.
Adicionalmente, es necesario diferenciar entre una mezcla estadı́stica y una superposición lineal de estados (ver
secciones 5.9.1, 5.9.3). Cuando tenemos una superposición lineal de estados
X
|ψi = ck |ψk i (6.9)
k
es frecuente decir que cuando el vector de estado es |ψi, el sistema tiene probabilidad |c k |2 de estar en el estado
|ψk i. Esto en realidad significa que cuando se realiza un conjunto de medidas que corresponden a un C.S.C.O. y que
tienen a |ψk i como autovector, la probabilidad de encontrar el conjunto de autovalores asociados con |ψ k i es |ck |2 .
Vimos en la sección 5.9.3 que un estado |ψi dado por la Ec. (6.9) no equivale simplemente a un sistema que tiene la
probabilidad |ck |2 de estar en el estado |ψk i para cada estado accesible. Esto se debe a que una combinación lineal
del conjunto {|ψk i} genera interferencias entre los estados accesibles debidas a términos cruzados de la forma c k c∗p
que surgen cuando los módulos de la amplitud de probabilidad se suman y luego se elevan al cuadrado.
Lo anterior implica que no podemos en general describir una mezcla estadı́stica a través de un “vector de estado
promedio” que sea una superposición de los estados {|ψ k i}. Como ya mencionamos, cuando tomamos una suma
ponderada de probabilidades no se obtienen términos de interferencia entre los estados accesibles de la mezcla
estadı́stica.
Ya hemos sugerido una estrategia para estudiar los estados que son una mezcla estadı́stica que es calcular las
predicciones fı́sica asociadas a cada estado |ψ k i ponderando cada estado con su probabilidad para entonces sumar
sobre los estados accesibles. Aunque este método es correcto resulta engorroso en muchos casos. Por otro lado ante
la imposibilidad de describir los estados mezclados por medio de un “vector promedio”, recurriremos a utilizar un
“operador promedio” que denominaremos operador densidad. Comenzaremso el tratamiento con el caso más sencillo
en el cual el estado del sistema es completamente conocido
siendo {|un i} una base ortonormal en el espacio de estados, que por simplicidad asumiremos discreta. Si el estado
está normalizado los coeficientes satisfacen la relación
X
|cn (t)|2 = 1 (6.10)
n
6.2. OPERADOR DENSIDAD 209
si A es un observable, sus elementos de matriz en la base {|u n i} y su valor esperado cuando el sistema está en el
estado |ψ (t)i están dados por
c∗n (t) cp (t) = hup |ψ (t)i hψ (t)| un i = hup | [|ψ (t)i hψ (t)|] |un i
de modo que este producto es claramente un elemento de la representación matricial del proyector |ψ (t)i hψ (t)| en
la base {|uk i}. Es natural entonces definir un operador ρ (t) en la forma
mostraremos a continuación que el operador densidad ρ (t), posee la misma información fı́sica que el vector de estado
|ψ (t)i. Para verlo reescribiremos las fórmulas (6.10, 6.13, 6.14) en términos de ρ (t). Sustituyendo (6.16) en (6.10)
tenemos X X X
|cn |2 = c∗n cn = 1 ⇒ ρnn = 1
n n n
de modo que la traza del operador densidad es igual a la unidad
T rρ (t) = 1 (6.17)
veamos como calcular la probabilidad P (a n ) de que al medir el observable A se obtenga el valor a n . Comenzaremos
por evaluar la probabilidad Pk (an ) de obtener el valor an del observable A, cuando el sistema se encuentra en el
estado |ψk i, puesto que tal probabilidad sale directamente de los postulados
Pk (an ) = hψk | Pn |ψk i
para obtener P (an ) debemos entonces ponderar esta probabilidad con la probabilidad p k de que el sistema esté en
el estado |ψk i 2 , para luego sumar sobre todos los estados accesibles
X
P (an ) = pk Pk (an ) (6.26)
k
Pk (an ) es una probabilidad asociada a un estado puro (con vector de estado |ψ k i) de modo que podemos evaluarla
aplicando la Ec. (6.20)
Pk (an ) = T r {ρk Pn } (6.27)
siendo ρk = |ψk i hψk | el operador densidad asociado al vector de estado |ψ k i. Para obtener P (an ) en términos de
los operadores densidad ρk sustituı́mos (6.27) en (6.26)
( )
X X
P (an ) = pk T r {ρk Pn } = T r pk ρk Pn (6.28)
k k
2
Esto nos da la probabilidad de que ocurran simultáneamnte dos hechos: (a) que el estado del sistema sea |ψ k i y (b) que el valor
obtenido en la medida del observable A sea an .
6.2. OPERADOR DENSIDAD 211
donde hemos usado las Ecs. (6.29, 6.17, 6.25). La expresión para la probabilidad Ec. (6.30) coincide con la expresión
para estados puros, con la extensión apropiada del operador densidad Ec. (6.29). Veamos lo que ocurre con el valor
esperado de un observable
(" # ) (" # )
X X X X
hAi = pk hAk i = pk T r {ρk A} = T r pk ρk A = T r pk ρk A
k k k k
hAi = T r {ρA}
calculemos ahora la evolución temporal del operador densidad para estados mezclados. Para ello asumiremos que
a diferencia del estado del sistema, su Hamiltoniano está bien definido. En otras palabras, el sistema como tal
está perfectamente definido aunque no lo esté su estado. Puede verse fácilmente que si en el tiempo t 0 el sistema
tiene una probabilidad pk de estar en el estado |ψk i entonces en un tiempo posterior t, tiene la misma probabilidad
de estar en el estado |ψk (t)i. Si el sistema está en el estado |ψ k i (puro) en t0 , la evolución temporal está dada por
al ecuación de Schrödinger
d
i~ |ψk (t)i = H (t) |ψk (t)i ; |ψk (t0 )i = |ψk i
dt
el operador densidad en el tiempo t está dado por
X
ρ (t) = pk ρk (t) (6.31)
k
donde hemos usado el hecho ya mencionado de que p k no evoluciona en el tiempo. Usando (6.22, 6.31) encontramos
que
" #
dρ (t) X dρk (t) X 1 1 X 1
= pk = pk [H (t) , ρk (t)] = H (t) , pk ρk (t) = [H (t) , ρ]
dt dt i~ i~ i~
k k k
dρ (t)
i~ = [H (t) , ρ]
dt
nótese que hemos usado la linealidad de las Ecs. (6.22, 6.31) con respecto a ρ k (t) para obtener la evolución temporal
de ρ. Vemos entonces que ecuación de evolución temporal es totalmente análoga a la obtenida para estados puros
Ec. (6.22).
212CAPÍTULO 6. APLICACIÓN DE LOS POSTULADOS CUANDO SE POSEE INFORMACI ÓN PARCIAL DE UN
Nótese sin embargo, que ρ definido por (6.31) no es un proyector (a menos que p k = δkm , en cuyo caso tenemos
un estado puro). Se puede verificar que cuando el estado es mezclado i.e. p k 6= δkm tenemos que
y que verificando una sola de las ecuaciones (6.24) nos dice que el sistema está en un estado puro. En conclusión,
utilizando la definición (6.31) del operador densidad ρ para estados mezclados, se obtienen las Ecs. (6.21-6.23), pero
las Ecs. (6.24) para estados puros son reemplazadas por las Ecs. (6.32) para estados mezclados.
Demostraremos adicionalmente que ρ es un operador positivo, en primer lugar es claro que ρ es hermı́tico puesto
que pk son números reales no negativos. Adicionalmente, si tomamos un ket arbitrario |ui podemos escribir
X X X
hu| ρ |ui = pk hu| ρk |ui = pk hu| ψk ihψk |ui = pk |hu| ψk i|2
k k k
hu| ρ |ui ≥ 0 (6.33)
donde hemos usado el hecho de que las probabilidades p k son no negativas. Esto demuestra que ρ es un operador
positivo.
Resumimos estos resultados en la siguiente forma: sea un sistema que está en una mezcla estadı́stica de estados
con estados accesibles {|ψk i}, cada uno de ellos asociado a una probabilidad {p k }, definimos el operador densidad
ρ con las siguientes propiedades
X
ρ (t) ≡ pk ρk (t) ; ρk (t) ≡ |ψk i hψk | (6.34)
k
†
ρ = ρ ; T rρ = 1 ; ρ es un operador positivo (6.35)
2 2
ρ (t) = ρ (t) ; T rρ (t) = 1 para estados puros (i.e. pk = δkm ) (6.36)
2 2
ρ (t) 6= ρ (t) ; T rρ (t) < 1 para estados mezclados (i.e. p k 6= δkm ) (6.37)
hAi (t) = T r {ρ (t) A} ; P (an ) = T r {Pn ρ (t)} (6.38)
d
i~ ρ (t) = [H (t) , ρ (t)] (6.39)
dt
siendo N un número muy grande, un número N ρ nn de sistemas estarán en el estado |u n i. Es claro además de la Ec.
(k) 2
(6.40), que ρnn es un número real positivo, igual a cero solo si todos los cn son cero.
Con un cálculo muy similar se encuentran los elementos no diagonales de ρ en la base {|u n i}
X
ρnp = pk c(k)
n cp
(k)∗
; c(k)
n ≡ hun |ψk i (6.41)
k
(k) (k)∗
los términos cruzados cn cp son del mismo tipo que los estudiados en la sección 5.9.1. Por tanto, ellos expresan
los efectos de interferencia entre los estados |u n i y |up i que pueden surgir cuando el estado |ψ k i es una superposición
lineal coherente de éstos estados. La Ec. (6.41) nos dice que ρ np es el promedio de éstos términos cruzados tomados
sobre todos los estados accesibles de la mezcla estadı́stica. A diferencia de las populaciones, ρ np se puede anular
incluso si los términos cruzados no son nulos, esto se debe a que estos términos cruzados son números complejos
(y no números reales no negativos como ocurre con los ρ nn ). Si un ρnp es cero, significa que hay una cancelación
estadı́stica de los efectos de interferencia entre los estados |u n i y |up i. Por otro lado, si ρnp no es cero, decimos
que existe cierta coherencia entre éstos estados. Por esta razón, a los elementos no diagonales ρ np suele llamárseles
coherencias.
Es importante mencionar que la distinción entre populaciones y coherencias depende de la base {|u n i} escogida
en el espacio de estados, o en otras paralabras del observables A para el cual construı́mos la base {|u n i} de vectores
propios. Puesto que ρ es hermı́tico, es posible encontrar una base ortonormal {|χ l i} donde ρ sea diagonal, ρ se puede
escribir entonces en la forma X
ρ= πl |χl i hχl |
l
πl los valores propios de ρ. Dado que ρ es positivo, sus valores propios son reales no-negativos y puesto que
siendo P
T rρ = l πl = 1 tenemos que X
0 ≤ πl ≤ 1 ; πl = 1
l
por tanto se puede considerar que ρ describe una mezcla estadı́stica de los estados |χ l i con probabilidades πl .
Claramente, no hay coherencias entre los estados {|χ l i}.
Usando la Ec. (6.33) se puede demostrar que
de esto se obtiene en particular, que ρ solo puede tener coherencias entre estados cuya populación es no nula.
Un caso interesante ocurre cuando la base elegida {|u n i} son autovectores del Hamiltoniano, y éste último no
depende explı́citamente del tiempo. Tenemos entonces que
H |un i = En |un i
usando la Ec. (6.39) y teniendo en cuenta que |u n i y En no dependen del tiempo (ya que el Hamiltoniano no deenden
del tiempo) se encuentra que
d d
hun | i~ ρ |up i = hun | [H, ρ] |up i ⇒ i~ hun | ρ |up i = hun | [Hρ − ρH] |up i
dt dt
dρnp dρnp
⇒ i~ = hun | [En ρ − ρEp ] |up i ⇒ i~ = (En − Ep ) hun | ρ |up i
dt dt
dρnp
i~ = (En − Ep ) ρnp
dt
conviene colocar los términos diagonales y no diagonales por aparte
dρnn dρnp
i~ = 0 ; i~ = (En − Ep ) ρnp
dt dt
de lo cual se deduce
i
ρnn (t) = constante ; ρnp = e ~ (Ep −En )t ρnp (0)
de modo que las populaciones son constantes y las coherencias oscilan a las frecuencias de Bohr del sistema.
214CAPÍTULO 6. APLICACIÓN DE LOS POSTULADOS CUANDO SE POSEE INFORMACI ÓN PARCIAL DE UN
donde H es el Hamiltoniano del sistema, k la constante de Boltzmann y Z es una función de normalización (conocida
como función de partición) para mantener la traza de ρ igual a la unidad.
Vamos a calcular las populaciones y coherencias para la base ortonormal {|u n i} asociada a los autoestados del
Hamiltoniano. Los elementos matriciales de ρ estarán dados por
ρnp = Z −1 hun | e−H/kT |up i = Z −1 hun | e−Ep /kT |up i = Z −1 e−Ep /kT hun | up i
ρnp = Z −1 e−Ep /kT δnp
vemos entonces que en el equilibrio termodinámico, las populaciones de los estados estacionarios |u n i son funciones
exponencialmente decrecientes de la energı́a, además el decrecimiento es más rápido a medida que disminuye la
temperatura. Por otro lado, las coherencias entre los estados estacionarios son nulas.
E = E (1) ⊗ E (2) ; {|un (1) vp (2)i} ≡ {|un (1)i ⊗ |vp (2)i} ≡ {|un (1)i |vp (2)i}
Sea un observable A que actúa en el espacio E. Ya hemos estudiado como extender un operador que proviene de uno
de los espacios factores. Ahora estudiaremos un proceso inverso: con base en el operador A que actúa en el espacio
producto, encontraremos un operador A (1) que actúa en el espacio E (1), y que nos permitirá hacer predicciones
fı́sicas sobre el sistema (1). Esta operación se denominará la traza parcial con respecto al sistema (2). Naturalmente,
se puede inducir análogamente el operador A (2) sobre el sistema (2) usando la traza parcial con respecto al sistema
(1).
Introduciremos el operador A (1) por medio del operador A, definiendo los elementos matriciales de A (1) en la
base {|un (1)i} de E (1)
( )
X X
hun (1)| A (1) |un0 (1)i ≡ hun (1) vp (2)| A |un0 (1) vp (2)i = hun (1)| [hvp (2)| A |vp (2)i] |un0 (1)i (6.42)
p p
como esta definición es válida para cualquier base {|u n (1)i} de E (1) tenemos
X
A (1) ≡ [hvp (2)| A |vp (2)i] (6.43)
p
si definimos la traza parcial con respecto al sistema (2) de un operador A sobre E en la forma
X
T r2 A ≡ hvp (2)| A |vp (2)i (6.44)
p
A (1) ≡ T r2 A (6.45)
6.3. APLICACIONES DEL OPERADOR DENSIDAD 215
para comprender el concepto de traza parcial, escribamos la traza “normal” de un operador A en términos de la
base {|un (1)i |vp (2)i} de E
XX
T rA = hun (1) vp (2)| A |un (1) vp (2)i (6.46)
n p
comparando (6.46) con (6.44) vemos que la apariencia de las dos ecuaciones es similar, excepto que en (6.44) solo
se suma sobre la base del sistema (2). Por esta razón, hablamos de la traza parcial de A con respecto al sistema (2).
Nótese además que la traza parcial con respecto al sistema (2) de un operador A sobre E es un operador en E (1),
en contraste con la traza normal, la cual es un número complejo.
Veamos ahora como se escribe la traza normal de A en términos de las trazas parciales sobre los sistemas (1) y
(2).
( )
XX X X
T rA = hun (1)| {hvp (2)| A |vp (2)i} |un (1)i = hun (1)| hvp (2)| A |vp (2)i |un (1)i
n p n p
X
= hun (1)| {T r2 A} |un (1)i = T r1 (T r2 A)
n
T rA = T r1 (T r2 A) = T r2 (T r1 A) (6.47)
Es fácil ver que la traza parcial con respecto al sistema (1) de un operador sobre E (1) es un número complejo, e
igualmente cuando tomamos el sistema (2). Por esta razón, si tomamos la traza parcial con respecto a (1) y luego
la traza parcial con respecto a (2) (o viceversa) de un observable A sobre E, el resultado es un número complejo
como se vé en la Ec. (6.47).
Obtendremos ahora la traza (normal) de A (1) (calculada sobre E (1)). Para ello usamos la Ec. (6.43), con lo
cual se obtiene
" #
X X X XX
T rA (1) = hun | A (1) |un i = hun | hvp (2)| A |vp (2)i |un i = hun vp (2)| A |un vp (2)i
n n p n p
T rA (1) = T rA (6.48)
En conclusión la traza de A (calculada sobre E) coincide con la traza de A (1) (calculada sobre E (1)) y obviamente
también coincide con la traza de A (2) (calculada sobre E (2)).
Adicionalmente, es fácil ver a partir de la Ec. (6.43), que si A es hermı́tico entonces A (1) y A (2) también lo
son.
Una de las aplicaciones de mayor interés del concepto de traza parcial se obtiene cuando lo aplicamos al operador
densidad ρ sobre E = E (1) ⊗ E (2). Puesto que la traza de ρ es igual a la unidad, la traza de ρ (1) y ρ (2) también
lo será, de acuerdo con la Ec. (6.48). Ası́ mismo, los operadores ρ (1) y ρ (2) también serán hermı́ticos y en general,
puede demostrarse que ρ (1) y ρ (2) satisfacen todas las propiedades de un operador densidad establecidas en la
sección 6.2.44 .
Sea además A (1) un observable definido sobre E (1). La Ec. (6.38) nos dice que el valor esperado del observable
4
Sin embargo, la evolución temporal de ρ (1) ó ρ (2) no viene en general dada por la Ec. (6.39).
216CAPÍTULO 6. APLICACIÓN DE LOS POSTULADOS CUANDO SE POSEE INFORMACI ÓN PARCIAL DE UN
e (1) queda
con lo cual es valor esperado de A
" #
D E X X
e (1) =
A hun (1) vp (2)| ρ |un0 (1) vp (2)i hun0 (1)| A (1) |un (1)i
n,n0 p
pero el factor dentro de paréntesis cuadrados es el elemento matricial de ρ (1), como se observa en la definición
(6.42). Con lo cual tenemos
D E X XX X
Ae (1) = [hun (1)| ρ (1) |un0 (1)i] hun0 (1)| A (1) |un (1)i = [ρ (1)]nn0 [A (1)]n0 n = [ρ (1) A (1)]nn
n,n0 n n0 n
D E
Ae (1) = T r [ρ (1) A (1)] (6.49)
puesto que esto implica un estado puro, el operador densidad viene dado por la Ec. (6.15)
ρ = |ϕ (1) χ (2)i hϕ (1) χ (2)| = [|ϕ (1)i hϕ (1)|] ⊗ [|χ (2)i hχ (2)|]
por tanto si el operador densidad está descrito por (6.51), tal operador representa una simple yuxtaposición de un
sistema (1) descrito por el operador densidad σ(1), y un sistema (2) descrito por τ (2). No hay correlación entre
estos dos subsistemas.
Nótese que los resultados arriba mencionados dependen de la Ec. (6.51), pero no de las Ecs. (6.50, 6.52). Esto
implica que la validez de (6.53) se extiende a un contexto más general, ya que es posible encontrar estados del
sistema en los cuales ρ se puede factorizar en la forma (6.51), pero en donde los operadores factor no necesariamente
son de la forma descrita por (6.52), es decir σ (1) y τ (2) pueden corresponder a estados puros y/o mezclados. Si al
menos uno de los operadores σ (1) , τ (2) corresponde a un estado mezclado, el estado del sistema no estará descrito
por un vector de la forma (6.50). Lo anterior implica la simple yuxtaposición de dos sistemas cada uno en un estado
mezclado, pero que no están correlacionados entre sı́, y el sistema global será en general mezclado.
Capı́tulo 7
por otro lado, vimos en la sección 3.3.3, que los kets |ψ (t)i poseen la misma norma para todo tiempo, propiedad
fundamental para obtener conservación de la probabilidad. Esto implica entonces que el operador U (t, t 0 ) debe ser
unitario (debe conservar la norma). Caracterizar este operador conocido como operador evolución temporal, es en
todo sentido equivalente fı́sicamente a resolver la ecuación de Schrödinger. Una primera propiedad que se desprende
directamente de la definición Eq. (7.1) es que
U (t0 , t0 ) = I (7.2)
escribiendo la Ec. de Schrödinger en el lenguaje de los kets y usando la Eq. (7.1) se tiene
d
i~ |ψ (t)i = H (t) |ψ (t)i (7.3)
dt
∂
i~ U (t, t0 ) |ψ (t0 )i = H (t) U (t, t0 ) |ψ (t0 )i
∂t
y teniendo en cuenta que el estado inicial es en principio arbitrario, podemos escribir
∂
i~ U (t, t0 ) = H (t) U (t, t0 ) (7.4)
∂t
vemos que (7.4) es una ecuación diferencial de primer orden para U (t, t 0 ) que debe cumplir la condición inicial (7.2).
Las Ecs. (7.2, 7.4) se pueden sintetizar en una sola ecuación integral
Z
i t
U (t, t0 ) = I − H t0 U t0 , t0 dt0
~ t0
La Ec. (7.1) es válida para todos los valores de t y t 0 (de momento no hemos introducido causalidad), por tanto
podemos escribir
y puesto que |ψ (t2 )i y |ψ (t0 )i son arbitrarios, la comparación de las Ecs. (7.7, 7.8) nos da
donde t0 , t1 , . . . , tn son arbitrarios. Si asumimos causalidad i.e. t 0 < t1 < . . . < tn , la Ec. (7.10) se puede interpretar
diciendo que el sistema evoluciona desde t 0 pasando progresivamente por los estados intermedios t 1 , t2 , . . .,tn−1 hasta
llegar a tn . Si usamos t0 = t2 en (7.9) y tenemos en cuenta (7.2) llegamos a
es importante insistir en que t1 y t2 son arbitrarios y no se ha asumido causalidad. La relación (7.11) es sin embargo
muy lógica desde el punto de vista causal.
Veremos como es el operador evolución temporal infinitesimal, es decir el que conecta a un tiempo t con un
tiempo t + dt, para ello escribimos la ecuación de Schrödinger (7.3) en forma diferencial
i
i~ d |ψ (t)i = H (t) |ψ (t)i dt ⇒ [|ψ (t + dt)i − |ψ (t)i] = − H (t) |ψ (t)i dt ⇒
~
i
|ψ (t + dt)i = I − H (t) dt |ψ (t)i (7.12)
~
vemos que el operador infinitesimal de evolución temporal es unitario a primer orden ya que H es hermı́tico
† i
U (t + dt, t) = I + H (t) dt ⇒
~
i i
U (t + dt, t) U † (t + dt, t) = I − H (t) dt I + H (t) dt
~ ~
U (t + dt, t) U † (t + dt, t) = I + O (dt)2
una transformación unitaria finita se obtiene con sucesivas transformaciones infinitesimales, este proceso de inte-
gración solo requiere términos de primer orden ya que los de segundo orden continúan yendo a cero cuando se toma
el lı́mite. Por tanto, el operador finito de evolución temporal será también unitario como tenı́a que ser
aplicando U (t, t0 ) a ambos lados de la Ec. (7.15) y teniendo en cuenta que este operador es lineal tenemos
XX
U (t, t0 ) |ψ (t0 )i = cn,τ (t0 ) U (t, t0 ) |ϕn,τ i
n τ
XX
|ψ (t)i = cn,τ (t0 ) e−iEn (t−t0 )/~ |ϕn,τ i (7.17)
n τ
sin embargo, esto no es correcto en general, dado que la derivada de un operador de la forma e F (t) no es en general
igual a F 0 (t) eF (t) (ver Eq. 1.146, pag. 69) de modo que en este caso
∂V (t, t0 )
i~ 6= H (t) V (t, t0 )
∂t
Consideremos ahora los experimentos descritos en la sección 5.9.3 en los cuales se llegaba desde el mismo estado
inicial |ua i hasta el mismo estado final |vc i de dos maneras: (1) Efectuando medidas de los observables A y C
obteniendo dichos estados y (2) Efectuando sucesivamente medidas de los observables A, B y C donde para el
estado intermedio se obtiene |wb i. En la discusión de la sección 5.9.3 se asumió que las medidas se hacı́an en
intervalos muy cortos de modo que el sistema no tenı́a tiempo de evolucionar. Ahora asumiremos que las medidas se
hacen en intervalos en los cuales la evolución temporal es apreciable. Para el primer caso asumimos que el sistema
está en el estado |ua i en t0 , y |vc i en t2 . Para el segundo caso asumimos que el sistema está en el estado |u a i en t0 ,
en el estado |wc i en t1 y finalmente en el estado |vc i en t2 . Es decir t0 , t1 y t2 definen los tiempos en que se realizan
las medidas.
En tal situación, la Ec. (5.82) se convierte en
2 2
Pa (c) = hvc | ψ t−
2 i = |hvc | U (t2 , t0 ) |ua i| (7.18)
7.2. BRAS, KETS Y OBSERVABLES EQUIVALENTES 221
donde ψ t− 2 es el estado del sistema que evoluciona
desde |u a i en t0 hasta el instante justo antes de la medida
de C, por eso la notación t− , es claro que ψ t+ = |vc i (estado justo después de la medida de C). La Ec. (5.83)
2 2
queda 2
Pa (b, c) = hvc | φ t− hwb | ψ t− i2 = |hvc | U (t2 , t1 ) |wb i|2 |hwb | U (t1 , t0 ) |ua i|2
2 i 1 (7.19)
siendo φ t2 el estado
−
delsistema justo antes de la medida de C, cuando el sistema evoluciona a partir del estado
|wb i en t1 . El estado ψ t− 1 describe al sistema justo antes de la medida de B cuando evoluciona desde |u a i en t0 .
Ahora usando la Ec. (7.9) se tiene
sustituyendo (7.20) en la Ec. (7.18), y comparando el resultado con la Ec. (7.19), se puede verificar que al igual que
en la ecuación (5.86) se tiene que X
Pa (c) 6= Pa (b, c)
b
adicionalmente puede verificarse que el espectro de valores propios de A 0 coincide con el de A, y los vectores propios
de A0 están dados por |η 0 i ≡ O |ηi , siendo |ηi los kets propios de A
A |ηi = a |ηi ⇒ OA |ηi = aO |ηi ⇒ OA O † O |ηi = aO |ηi ⇒ OAO † [O |ηi] = a [O |ηi]
A |ηi = a |ηi ⇒ A0 η 0 = a η 0 ; A0 ≡ OAO † ; η 0 ≡ O |ηi
En conclusion, los nuevos bras, kets y operadores mantienen intactos los valores propios y productos internos
asociados con los observables fı́sicos y por tanto describen la misma Fı́sica que los bras, kets y operadores originales.
222 CAPÍTULO 7. FORMULACIONES ALTERNATIVAS DE LA MEC ÁNICA CUÁNTICA
de modo que la hermiticidad se preserva con esta relación. Vemos además que la transformada de A está conectada
con A por una transformación de similaridad, con el requerimiento de que el operador que realiza la transformación
sea unitario. Como las transformaciones de similaridad preservan el producto, es claro que
n
A0 = (An )0
y usando la definición para una función F (A) del operador A, Ec. (1.129) se obtiene
F 0 (A) = F A0 (7.25)
donde en este caso F 0 (A) significa la transformada de la función F (A) con respecto al operador O, y no la derivada
de F (A) “con respecto a A” (ver notación en la sección 1.34.1 Eq. 1.135). Para los conmutadores de las transformadas
de dos operadores A y B tenemos
0 0 h i
A ,B = OAO † , OBO † = OAO † OBO † − OBO † OAO †
= OA O † O BO † − OB O † O AO † = OABO † − OBAO † = O (AB − BA) O †
0 0
A ,B = O [A, B] O † = [A, B]0 (7.26)
de modo que el conmutador de las transformadas es la transformada del conmutador. Si el conmutador es propor-
cional a la identidad (observables conjugados) tenemos
[Q, P ] = αI ⇒ Q0 , P 0 = O [Q, P ] O † = αOIO † = αI
[Q, P ] = αI ⇒ Q0 , P 0 = [Q, P ] (7.27)
el caso más importante son los observables X, P para los cuales vemos que el conmutador de sus transformadas
X 0 , P 0 , es idéntico al de los operadores originales.
|ψS (t)i = U (t, t0 ) |ψS (t0 )i ⇒ |ψS (t0 )i = U † (t, t0 ) |ψS (t)i (7.28)
7.3. LA IMAGEN DE SCHRÖDINGER Y LA IMAGEN DE HEISENBERG 223
donde hemos tenido en cuenta que U (t, t 0 ) es unitario, y por tanto también lo es U † (t, t0 ). Nótese que definiendo a
O ≡ U † (t, t0 ) como el operador unitario para transformar bras, kets y observables, según la Ec. (7.23), vemos que
la Ec. (7.28) nos conduce a que los nuevos bras y kets serán independientes del tiempo. Denotaremos a los nuevos
bras, kets y operadores con el subı́ndice H para indicar “la imagen de Heisenberg”. Usando O ≡ U † (t, t0 ) en las
Ecs. (7.23) y aplicando la Ec. (7.28) se obtiene
|ψH i ≡ U † (t, t0 ) |ψS (t)i = |ψS (t0 )i ; hψH | ≡ hψS (t)| U (t, t0 ) = hψS (t0 )| (7.29)
†
AH ≡ U (t, t0 ) AS (t) U (t, t0 ) (7.30)
la Ec. (7.29) nos muestra que en la imagen de Heisenberg, los kets y bras no poseen evolución temporal y su
valor coincide con el del estado en la imagen de Schrödinger en t 0 . Por otro lado, incluso los observables A que en
la imagen de Schrödinger no dependen del tiempo, adquieren dependencia temporal en la imagen de Heisenberg
como se aprecia en la Ec. (7.30). Se tiene entonces que la evolución temporal en la imagen de Heisenberg recae
completamente en los operadores.
Calculemos la evolución temporal del operador A H (t) para un operador arbitrario AS (t). Derivando la Ec.
(7.30) y usando la Ec. (7.4) ası́ como su adjunta, se tiene que
dAH (t) dU † (t, t0 ) dAS (t) dU (t, t0 )
= AS (t) U (t, t0 ) + U † (t, t0 ) U (t, t0 ) + U † (t, t0 ) AS (t)
dt dt dt dt
dAH (t) 1 † † dA S (t)
= − U (t, t0 ) HS (t) AS (t) U (t, t0 ) + U † (t, t0 ) U (t, t0 )
dt i~ dt
1
+ U † (t, t0 ) AS (t) HS (t) U (t, t0 )
i~
insertando un operador identidad apropiadamente tenemos
dAH (t) 1 h i dAS (t)
= − U † (t, t0 ) HS (t) U (t, t0 ) U † (t, t0 ) AS (t) U (t, t0 ) + U † (t, t0 ) U (t, t0 )
dt i~ dt
1 h i
+ U † (t, t0 ) AS (t) U (t, t0 ) U † (t, t0 ) HS (t) U (t, t0 )
i~
dAH (t) 1 h † ih i dAS (t)
= − U (t, t0 ) HS (t) U (t, t0 ) U † (t, t0 ) AS (t) U (t, t0 ) + U † (t, t0 ) U (t, t0 )
dt i~ dt
1 h † ih i
+ U (t, t0 ) AS (t) U (t, t0 ) U † (t, t0 ) HS (t) U (t, t0 )
i~
dAH (t) 1 † dAS (t) 1
= − HH (t) AH (t) + U (t, t0 ) U (t, t0 ) + AH (t) HH (t)
dt i~ dt i~
dAH (t) dAS (t)
i~ = [AH (t) , HH (t)] + i~ (7.31)
dt dt H
una ecuación muy similar a la ecuación para un observable clásico u (q, p) que es función del espacio de fase q, p, en
donde tenemos corchete de Poisson en lugar de conmutador (ver Ec. 5.53). A manera de consistencia, veremos que
es fácil reproducir la Ec. (5.52) teniendo en cuenta que por construcción
hAi (t) = hψS (t)| AS (t) |ψS (t)i = hψH | AH (t) |ψH i
teniendo en cuenta la Ec. (7.31) y el hecho de que en la imagen de Heisenberg los estados no dependen del tiempo
se tiene
d hAi (t) dAH (t) 1 dAS (t)
= hψH | |ψH i = hψH | [AH (t) , HH (t)] + |ψH i
dt dt i~ dt H
d hAi (t) 1 dAS (t)
= h[AH (t) , HH (t)]iH + (7.32)
dt i~ dt H H
una vez más, por construcción estas cantidades son iguales al caso en que todo lo evaluamos en la imagen de
Schrödinger, de modo que sustituyendo el subı́ndice H por S en la Ec. (7.32), se reproduce la Ec. (5.52). Nótese
sin embargo, que la expresión (7.31) es más general que la Ec. (5.52) ya que la última es válida solo para valores
esperados en tanto que (7.31) es válida para los operadores como tal.
224 CAPÍTULO 7. FORMULACIONES ALTERNATIVAS DE LA MEC ÁNICA CUÁNTICA
PS2 P2
HS (t) = + V (XS , t) ; HH (t) = H + V (XH , t) (7.33)
2m 2m
la Ec. (7.27) nos dice que
[XH , PH ] = [XS , PS ] = i~ (7.34)
sustituyendo (7.33, 7.34) en (7.31) se obtiene la evolución temporal de los operadores X H , PH
dXH (t) dXS PH2
i~ = [XH (t) , HH (t)] + i~ = XH (t) , + V (XH , t)
dt dt H 2m
PH2 PH PH PH
= XH (t) , = [XH (t) , PH ] + [XH (t) , PH ] = i~
2m 2m 2m m
dXH (t) PH
=
dt m
dPH (t) dPS PH2
i~ = [PH (t) , HH (t)] + i~ = PH (t) , + V (XH , t)
dt dt H 2m
= [PH (t) , V (XH , t)] = −i~∂XH V (XH , t)
dPH (t) ∂V (XH , t)
= −
dt ∂XH
donde se ha usado la Ec. (1.139) pág. 67. Hemos obtenido entonces la evolución temporal de los observables básicos
en la imagen de Heisenberg
dXH (t) PH dPH (t) ∂V (XH , t)
= ; =− (7.35)
dt m dt ∂XH
estas ecuaciones son una generalización del teorema de Ehrenfest Ec. (5.55), ya que estas ecuaciones son válidas
para los operadores como tal y no solo para sus valores esperados.
Vemos que la analogı́a con las ecuaciones clásicas es más fuerte en la imagen de Heisenberg. En la imagen de
Schrödinger, la analogı́a aparece solo cuando se toman los valores esperados de los observables. En contraste, en la
imagen de Heisenberg la analogı́a aparece directamente en la ecuaciones de movimiento para los observables.
Un sistema simple de amplio interés ocurre cuando el sistema es conservativo (H S es independiente del tiempo),
y el observable AS conmuta con el Hamiltoniano HS . Para sistemas conservativos, el operador evolución temporal
está dado por (7.14)
i
U (t, t0 ) = e− ~ HS (t−t0 )
si AS conmuta con HS también conmuta con eαHS de modo que conmuta con U (t, t0 ). El observable asociado en la
imagen de Heisenberg queda entonces
En conclusión, si el sistema es conservativo y A S conmuta con HS , los observables en las imágenes de Schrödinger y
de Heisenberg coinciden. Como caso particular, H S = HH para sistemas conservativos. Nótese que no es necesario
que AS sea constante de movimiento, ya que en general hemos permitido que A S (t) sea función explı́cita del tiempo.
asumimos ahora que el sistema es “perturbado” por cierta interacción adicional, de modo que el Hamiltoniano se
modifica en la forma
HS (t) = H0S (t) + WS (t) (7.37)
definiremos una transformación unitaria para kets, bras y observables a través del operador evolución temporal del
“Hamiltoniano no perturbado” H0S . Por tanto, los nuevos kets, bras y observables se definirán como
|ψI (t)i ≡ U0† (t, t0 ) |ψS (t)i ; hψI (t)| ≡ hψS (t)| U0 (t, t0 ) ; AI ≡ U0† (t, t0 ) AS U0 (t, t0 ) (7.38)
nótese que en ausencia de perturbación i.e. cuando W S (t) = 0, el ket |ψI (t)i es independiente del tiempo (y todo
coincide con la imagen de Heisenberg). No obstante, la presencia de W S (t) hace que |ψI (t)i tenga aún dependencia
temporal. Coloquialmente, podemos decir que el operador unitario elegido, “absorbe” la dependencia temporal del
ket debida a H0S dejándonos solo con la dependencia temporal causada por W S (t). Ya veremos que las ecuaciones de
movimiento apoyan esta visión cualitativa de la situación. Las Ecs. (7.36, 7.37, 7.38), describen lo que se denomina
la “imagen de interacción”.
Primero describiremos la dinámica de los kets |ψ I (t)i en la imagen de interacción. Derivando la primera de las
Ecs. (7.38) resulta
d |ψI (t)i dU † (t, t0 ) d |ψS (t)i
i~ ≡ i~ 0 |ψS (t)i + i~U0† (t, t0 )
dt dt dt
y usando las Ecs. (7.36, 7.3) tenemos
d |ψI (t)i
i~ ≡ −U0† (t, t0 ) H0S (t) |ψS (t)i + U0† (t, t0 ) HS (t) |ψS (t)i
dt h i
= −U0† (t, t0 ) H0S (t) U0 (t, t0 ) U0† (t, t0 ) |ψS (t)i
h i
+U0† (t, t0 ) HS (t) U0 (t, t0 ) U0† (t, t0 ) |ψS (t)i
d |ψI (t)i h ih i
i~ = − U0† (t, t0 ) H0S (t) U0 (t, t0 ) U0† (t, t0 ) |ψS (t)i
dt h ih i
+ U0† (t, t0 ) HS (t) U0 (t, t0 ) U0† (t, t0 ) |ψS (t)i
d |ψI (t)i n oh i
i~ = U0† (t, t0 ) [HS (t) − H0S (t)] U0 (t, t0 ) U0† (t, t0 ) |ψS (t)i
dt h ih i
= U0† (t, t0 ) WS (t) U0 (t, t0 ) U0† (t, t0 ) |ψS (t)i
quedando finalmente
d |ψI (t)i
i~ = WI (t) |ψI (t)i (7.39)
dt
de modo que la evolución temporal del ket |ψ I (t)i en la imagen de interacción está regida solo por el término de
perturbación como se habı́a anticipado. Es fácil demostrar que la ecuación diferencial (7.39) es equivalente a la
ecuación integral dada por
Z
1 t 0
|ψI (t)i = |ψI (t0 )i + dt WI t0 ψI t0 (7.40)
i~ t0
teniendo en cuenta la Ec. (7.38) y el hecho de que U 0 (t0 , t0 ) = I, obtenemos la condición
la ecuación integral (7.40) se puede resolver por iteración de manera que |ψ I (t)i queda escrita como una expansión
en series de potencias integrales de W I (t)
( Z 2 Z t Z t1 )
1 t 1
|ψI (t)i = I + dt1 WI (t1 ) + dt1 WI (t1 ) dt2 WI (t2 ) + . . . |ψI (t0 )i (7.41)
i~ t0 i~ t0 t0
226 CAPÍTULO 7. FORMULACIONES ALTERNATIVAS DE LA MEC ÁNICA CUÁNTICA
Estudiemos ahora la evolución temporal de los observables en esta imagen. Para esto se deriva en el tiempo la
segunda de las ecuaciones (7.38), el procedimiento es muy similar al realizado para obtener la Ec. (7.31), el único
detalle a tener en cuenta es que aquı́ se usa U 0 (t, t0 ) que está asociado a H0S , de modo que el análogo a la Ec.
(7.31) queda
dAI (t) dAS (t)
i~ = [AI (t) , H0I (t)] + i~ (7.42)
dt dt I
las ecuaciones de evolución (7.39) y (7.42) muestran que los kets de estado tienen solo a W I (t) como fuente de cambio,
en tanto que los operadores tiene solo a H 0I como fuente de cambio. Cada parte del Hamiltoniano contribuye a
uno u otro cambio, a diferencia de la imágen de Schrödinger en donde la dinámica de los kets está regida por el
Hamiltoniano completo, o la de Heisenberg en la cual la dinámica de los operadores se rige por el Hamiltoniano
completo.
Es notable que la Ec. (7.39) para los kets, se asemeja a la ecuación de Schrödinger en la imagen del mismo
nombre, aunque en la Ec. (7.39) solo aparece la perturbación. Análogamente, la Ec. (7.42) para los operadores se
asemeja a la Ec. (7.31) en la imagen de Heisenberg, aunque en (7.42) solo aparece el Hamiltoniano no perturbado.
Si por ejemplo, WS (t) es mucho menor1 que H0S (t), la dinámica del vector |ψI (t)i es mucho mas “suave” que
la dinámica de |ψS (t)i. Este hecho facilita el uso de diversos métodos de aproximación. En la práctica, esta imagen
resulta útil cuando H0S es un Hamiltoniano suficientemente simple para conocer su solución analı́tica, de modo que
WS (t) se considera una perturbación que se puede evaluar por diferentes métodos. Dado que los operadores toman
sus valores no perturbados (que en principio se asumen conocidos), podemos concentrarnos solo en la evolución de
los kets |ψI i que en general tienen una evolución suave. Por ejemplo H 0S puede ser la energı́a cinética (solución de
partı́cula libre como caso no perturbado) y W S (t) puede ser la energı́a potencial, o H 0S puede ser la energı́a cinética
más una parte de la energı́a potencial que sea suficientemente simple, y W S (t) contiene interacciones externas
adicionales más complejas.
1
Naturalmente, la comparación entre dos observables se refiere en realidad a la comparación entre su valores propios.
Capı́tulo 8
El oscilador armónico es un sistema de gran importancia en la fı́sica clásica. Tal importancia radica en el hecho
de que todo movimiento acotado alrededor de un punto de equilibrio estable puede ser aproximado a un movimiento
armónico simple, siempre que las oscilaciones sean suficientemente pequeñas. La cuantización del oscilador armónico
aparece en el nacimiento mismo de la mecánica cuántica, ya que la hipótesis de Planck consistió en cuantizar los
modos normales que están asociados a osciladores armónicos en el interior de un cuerpo negro. Adicionalmente, las
pequeñas oscilaciones alrededor del equilibrio también están presentes en el mundo microscópico, como es el caso
de las vibraciones de moléculas diatómicas o de los átomos alrededor del punto de equilibrio en un red cristalina,
etc. Puesto que en estos casos las “elongaciones” alrededor del equilibrio son comparables a la longitud de onda de
De Broglie de los objetos que vibran, es claro que las correcciones cuánticas serán importantes para estos sistemas
que se comportan como osciladores armónicos.
H |ϕi = E |ϕi
podemos buscar autofunciones de H en la base {|xi} con paridad definida. Veremos que esto combinado con el hecho
de que el espectro no es degenerado nos conduce a que las funciones de onda asociadas con los estados estacionarios
son necesariamente pares o impares.
El espectro de energı́a es discreto, cualquiera que sea el valor total de la energı́a, el movimiento clásico está lim-
itado a un intervalo acotado, y se puede demostrar que en este caso los autovalores son discretos.
Veremos ahora el problema de valores propios en detalle.
H |ϕi = E |ϕi
[X, P ] = i~
donde tanto el operador H b como los valores propios εν son adimensionales. Los ı́ndices ν, i pueden ser (por el
momento) contı́nuos o discretos y el ı́ndice i nos indica el grado de degeneración.
b y Pb fueran números, podrı́amos escribir H b en (8.3) de la forma H b Pb
b = X+i b Pb
X−i
Nótese que si X √ √
2
, es decir
2
como el producto de dos funciones lineales. Sin embargo, dado que X b y Pb son operadores no conmutantes, esta
factorización no es correcta. Sin embargo, veremos que la redefinición de estos operadores lineales nos simplifica
considerablemente el problema de valores propios, definiremos entonces
1 b 1 b
a ≡ √ X + iPb ; a† ≡ √ X − iPb (8.4)
2 2
r r
mω P † mω P
a = X + i√ ; a = X − i√ (8.5)
2~ 2m~ω 2~ 2m~ω
b = 1 i
X √ a† + a ; Pb = √ a† − a (8.6)
2 2
r r
~ † m~ω †
X = a +a ; P =i a −a (8.7)
2mω 2
8.2. EL PROBLEMA DE VALORES PROPIOS DEL HAMILTONIANO 229
b = aa† − 1
H
2
ahora bien, de acuerdo con la Ec. (8.10), Hb y N solo difieren en un operador que es múltiplo de la identidad. En
b
consecuencia, los autovectores de H son autovectores de N y viceversa.
Ahora calcularemos los conmutadores de N con a y a † por medio de la Ec. (8.8)
h i h i
[N, a] = a† a, a = a† [a, a] + a† , a a = −a
h i h i h i h i
†
N, a = a a, a = a a, a + a , a a = a†
† † † † † †
donde también hemos tenido en cuenta la Ec. (8.8). Veremos que la ecuación de valores propios se resolverá en
términos de las propiedades de los operadores a, a † y N . De momento, hemos reducido el problema a encontrar los
vectores y valores propios del operador N
N ϕiν = ν ϕiν
y teniendo en cuenta las Ecs. (8.3, 8.10) los autovectores ϕiν serán también autovectores del Hamiltoniano H con
autovalores E = ν + 12 ~ω
i 1
H ϕν = ν + ~ω ϕiν (8.12)
2
1
De acuerdo con la discusión anterior este producto serı́a el Hamiltoniano si los operadores Pb, X
b fueran conmutantes.
230 CAPÍTULO 8. EL OSCILADOR ARMÓNICO CUÁNTICO
Por ahora sabemos que el espectro de N es no negativo. Asumamos que ν no es entero y mostraremos que esta
hipótesis contradice al lema 1 y por tanto debe ser rechazada. Si ν no es entero podemos encontrar un entero n tal
que
n<ν <n+1 (8.14)
consideremos la sucesión de kets
i
ϕν , a ϕiν , a2 ϕiν , . . . , ap ϕiν , . . . , an ϕiν (8.15)
8.3. DETERMINACIÓN DEL ESPECTRO 231
i
aplicaremos iterativamente el lema 2. ϕν = a0 ϕiν es por hipótesis un autovector no nulo de N con valor propio
ν0 = ν − 0. Ahora a ϕiν de acuerdo con el lema es un autovector no nulo (ya que ν > 0) de N con valor propio
ν1 = ν − 1, podemos ϕi ≡ ϕi
denotar entonces a ν i si v −1 p−1
ν−1 . Otra aplicación del lema lleva a que > 0 entonces
2 i i p ϕiν = a
a i ϕν = a ϕν−1 es un autovector no nulo de N con valor propio ν 2 = ν −2. En general a ϕν = a a
ϕ
ν−p+1 es autovector no nulo de N con valor propio ν − p, siempre y cuando se cumpla que ν − p + 1 > 0.
Adicionalmente, puesto que ν no es entero, ν − p es no nulo, con lo cual el lema 1, nos dice que v − p > 0. A su vez,
de la Ec. (8.14) vemos que la condición ν − p > 0 solo se cumple en el intervalo 0 ≤ p ≤ n.
En sı́ntesis, de acuerdo con el lema 2, un vector a p ϕiν de la sucesión (8.15) con 0 ≤ p ≤ n, es un autovector no
nulo de N con valor propio ν − p > 0.
Veamos ahora que pasa con un vector fuera de la sucesión para lo cual calculamos
an+1 ϕiν = a an ϕiν
an ϕiν es un autovector no nulo de N con valor propio v − n > 0 (de acuerdo con la Ec. 8.14). Por tanto podemos
aplicar el lema 2 para decir que an+1 ϕiν es autovector de N con autovalor ν − n − 1 pero este valor propio es
estrictamente negativo de acuerdo con la Ec. (8.14). Esto contradice el lema 1 por lo cual debemos rechazar la
hipótesis de que ν es no entero.
Lo anterior se puede describir de otra forma diciendo que a p ϕiν con 0 ≤ p ≤ n es autovector de N donde los
valores propios νp tienen la siguiente caracterı́stica: ν 0 = ν ∈ (n, n + 1); ν1 ∈ (n − 1, n); v2 ∈ (n − 2, n − 1) ; . . . ;
νn−1 ∈ (1, 2); νn ∈ (0, 1). Al aplicar de nuevo el operador a, el valor propio correspondiente quedarı́a en el intervalo
(−1, 0) que está prohibido por el lema 1.
Veremos ahora que la hipótesis de que ν es entero es perfectamente consistente con los lemas anteriores, en tal
caso la Ec. (8.14) se cambia por
n=ν <n+1
i
y el ket a ϕν es un autovector no nulo de N con valor propio v − n = 0. Como su valor propio es cero, el lema 2
n
vemos que la acción de a sobre ϕin equivale a “extraer” un cuanto de energı́a ~ω del valor de energı́a E n del estado
original. En otras palabras, su acción sobre un autovector de N (o de H) consiste en hacer desaparecer un cuanto
de energı́a. Por esta razón se denomina operador
de destrucción o de aniquilación.
† i
Similarmente, la acción de a sobre ϕn equivale a “añadir” un cuanto de energı́a ~ω al valor original de energı́a
En . Su acción sobre un autovector de N (o de H) consiste en hacer aparecer un cuanto de energı́a. Por esta razón
se denomina operador de construcción o creación.
Finalmente, vemos que el operador N aplicado sobre ϕin nos da el valor n de cuantos que están asociados con
el nivel de energı́a (hay n cuantos agregados al valor del mı́nimo de la energı́a). Por esta razón N se conoce como
operador número.
debemos ver entonces cuantos kets linealmente independientes satisfacen esta condición. Usando las Ecs. (8.5), la
Ec. (8.17) queda en la forma
r r r r
1 mω i i mω mω mω i
√ X+√
P ϕ0 = 0 ⇒ X+ √ P ϕi0 = 0 ⇒
2 ~ m~ω ~ ~ ~ m~ω
mω i
X + P ϕi0 = 0
~ ~
debemos entonces resolver la ecuación diferencial de primer orden (8.18). Su solución más general es de la forma
1 mω 2
ϕi0 (x) = ce− 2 ~
x
(8.19)
siendo c una constante de integración (solo hay una en virtud de que la ecuación es de primer orden). Por tanto
todas las soluciones no nulas posibles de (8.18) son linealmente dependientes. Existe por tanto un único ket dentro
de factores multiplicativos asociado a E 0 = ~ω/2. Por tanto, el estado base es no degenerado 2 .
La demostración de que los demás estados no son degenerados la haremos por inducción para lo cual ya tenemos
el primer paso al demostrar que el estado base no es degenerado.
El segundo paso en la inducción es probar que si E n = (n + 1/2) ~ω no es degenerado entonces el nivel E n+1 =
(n + 1 + 1/2) ~ω tampoco lo es. Nuestra hipótesis es entonces que dentro de factores multiplicativos, solo hay un
vector |ϕn i tal que
N |ϕn i = n |ϕn i (8.20)
i
ahora consideramos un autovector ϕn+1 correspondiente al autovalor n + 1, donde el ı́ndice i indica una posible
degeneración
N ϕin+1 = (n + 1) ϕin+1 (8.21)
i
el lema 2 nos dice que a ϕn+1 es un
autovector no nulo de N con autovalor n. Dado que este ket no es degenerado
por hipótesis, tenemos que a ϕin+1 es linealmente dependiente con |ϕn i
a ϕin+1 = ci |ϕn i
2
Aunque aquı́ usamos la base {|xi}, es claro que el grado de degeneración es independiente de la base utilizada.
8.4. ESTADOS PROPIOS DEL HAMILTONIANO 233
donde hemos usado la definición de N Ec. (8.10). Combinando (8.21) con (8.22) se tiene
(n + 1) ϕin+1 = ci a† |ϕn i
i ci h i
ϕn+1 = a† |ϕn i (8.23)
(n + 1)
propio n + 1 es no degenerado y la demostración está completa. Todos los valores propios del Hamiltoniano son no
degenerados.
la completez será probada más adelante utilizando la representación {|xi}, es decir calculando las funciones de onda
ϕn (x) y mostrando que estas funciones son completas en el espacio de las funciones cuadráticamente integrables en
x.
Por otro lado N y H tienen un espectro no degenerado. Por tanto cada uno de estos observables constituye por
sı́ solo un C.S.C.O. en Ex .
8.4.1. Construcción de los kets propios con base en el ket del estado base
El ket |ϕ0 i asociado al estado base i.e. a n = 0 en N y a E 0 = ~ω/2 en H, es el vector en Ex que satisface la
condición
a |ϕ0 i = 0
y es único salvo constantes de proporcionalidad. Si lo asumimos normalizado, la ambigüedad se reduce a solo un
factor de fase global arbitraria eiθ , con θ real. Aplicando el lema 3 pág 230, el vector |ϕ 1 i asociado a n = 1 es
proporcional a a† |ϕ0 i
|ϕ1 i = c1 a† |ϕ0 i (8.24)
determinaremos c1 requiriendo que |ϕ1 i esté normalizado y que tal coeficiente sea real y positivo (es decir c 1 se fija
con fase cero). Para esto se calcula la norma de |ϕ 1 i
† n o
hϕ1 |ϕ1 i = hϕ0 | a† c∗1 c1 a† |ϕ0 i = |c1 |2 hϕ0 | aa† |ϕ0 i
nuevamente requeriremos que c2 sea una constante real positiva que normalice a |ϕ 2 i. De aquı́ en adelante este
será el requerimiento para todas las constantes con que se construyen los siguientes estados.
hϕ2 |ϕ2 i = |c2 |2 hϕ1 | aa† |ϕ1 i = |c2 |2 hϕ1 | (N + 1) |ϕ1 i = |c2 |2 hϕ1 | (1 + 1) |ϕ1 i
1
hϕ2 |ϕ2 i = 2 |c2 |2 = 1 ⇒ c2 = √
2
con lo cual la Ec. (8.25) queda
1 1 † 2
|ϕ2 i = √ a† |ϕ1 i = √ a |ϕ0 i
2 2
este proceso se puede generalizar para construı́r al estado |ϕ n i con base en el estado |ϕn−1 i
hϕn |ϕn i = |cn |2 hϕn−1 | aa† |ϕn−1 i = |cn |2 hϕn−1 | (N + 1) |ϕn−1 i = |cn |2 hϕn−1 | [(n − 1) + 1] |ϕn−1 i
1
hϕn |ϕn i = n |cn |2 ⇒ cn = √
n
con lo cual la Ec. (8.26) queda
1
|ϕn i = √ a† |ϕn−1 i ; n = 1, 2, 3, . . . (8.27)
n
usando la Ec. (8.27) iterativamente, podemos conectar a |ϕ n i con el estado base
1 1 1 2 1 1 1 3
|ϕn i = √ a† |ϕn−1 i = √ √ a† |ϕn−2 i = √ √ √ a† |ϕn−3 i
n n n−1 n n−1 n−2
1 1 1 1 1 n
|ϕn i = √ √ √ . . . √ √ a† |ϕ0 i
n n−1 n−2 2 1
quedando finalmente
1 † n
|ϕn i = √ a |ϕ0 i ; n = 0, 1, 2, 3, . . . (8.28)
n!
En sı́ntesis, todos los autoestados de N y H√ se pueden construı́r con base en el autoestado base |ϕ 0 i por aplicación
sucesiva del operador creación. El factor 1/ n! garantiza la normalización de cada nuevo estado creado, bajo la
convención de que los coeficientes de normalización tengan fase cero, es decir que sean reales y positivos.
0
n 0
n−1
an a† |ϕ0 i = nan −1 a† |ϕ0 i (8.30)
donde hemos usado la Ec. (8.28). Utilizaremos el resultado (8.30) iterativamente, para ello analizamos tres casos
1) n < n0 . En este caso usamos la propiedad (8.30) n−veces de forma iterativa
n n−1 n−2
0 0 0
an a† |ϕ0 i = n an −1 a† |ϕ0 i = n (n − 1) an −2 a† |ϕ0 i
n n−3
n0 † n0 −3 †
a a |ϕ0 i = n (n − 1) (n − 2) a a |ϕ0 i
n n−n
0 0
an a† |ϕ0 i = n [n − 1] [n − 2] . . . [n − (n − 1)] an −n a† |ϕ0 i (8.31)
n 0
n0 † |n0 −n| †
a a |ϕ0 i = n × [n − 1] × . . . × 1 × a a |ϕ0 i (8.32)
finalmente n
0 0
an a† |ϕ0 i = n!a|n −n| |ϕ0 i (8.33)
0
pero por hipótesis |n0 − n| es un entero mayor o igual que 1, por tanto a |n −n| |ϕ0 i = 0 ya que a |ϕ0 i = 0. Usando
(8.29) y (8.33) resulta que
1 0
n 1 n 0
o
hϕn0 |ϕn i = √ hϕ0 | an a† |ϕ0 i = √ hϕ0 | n!a|n −n| |ϕ0 i = 0
n! n0 ! n! n0 !
1 n 1
hϕn |ϕn i = √ hϕ0 | an a† |ϕ0 i = hϕ0 | {n! |ϕ0 i} = 1
n! n! n!
3) n > n0 . En este caso podemos conjugar el producto interno hϕ n0 |ϕn i = hϕn |ϕn0 i∗ y probar la ortogonalidad del
miembro derecho con lo cual quedamos nuevamente en el primer caso. Alternativamente, podemos usar la propiedad
(8.30) n0 −veces de forma iterativa, aplicando la Ec. (8.28). En tal caso el análogo de la Ec. (8.31) es
n
n0 †
0
n0 −n0 † n−n0
a a |ϕ0 i = n [n − 1] [n − 2] . . . n − n − 1 a a |ϕ0 i (8.35)
n |n−n0 |
n0 †
0
0 †
a a |ϕ0 i = n [n − 1] [n − 2] . . . n − n + 1 × a a |ϕ0 i (8.36)
0
n hp i
an a† |ϕ0 i = n [n − 1] [n − 2] . . . n − n0 + 1 × (n − n0 )! |ϕn−n0 i (8.37)
1 0
n
hϕn0 |ϕn i = √ hϕ0 | an a† |ϕ0 i
n! n0 !
p
n [n − 1] [n − 2] . . . [n − n0 + 1] (n − n0 )!
= √ hϕ0 |ϕn−n0 i = 0
n! n0 !
donde hemos usado el hecho de que n − n0 es un entero mayor o igual que uno, de modo que hϕ 0 |ϕn−n0 i = 0.
236 CAPÍTULO 8. EL OSCILADOR ARMÓNICO CUÁNTICO
8.4.3. Acción de los operadores creación y destrucción sobre los autoestados del Hamiltoniano
Las Ecs. (8.7) nos muestran que los observables X, P se pueden escribir en términos de a y a † , por lo tanto
cualquier observable fı́sico (sin espı́n) se puede escribir en términos de a y a † . Por otro lado, como los autoestados
{|ϕn i} del Hamiltoniano del oscilador armónico, constituyen una base en E x , recurriremos con frecuencia a esta base
para construı́r representaciones matriciales. Por lo anterior, resulta de especial importancia estudiar la acción de los
operadores a y a† sobre los estados {|ϕn i}.
La acción de a† sobre |ϕn i se puede obtener reemplazando n por n + 1 en la Ec. (8.27)
√
a† |ϕn i = n + 1 |ϕn+1 i ; n = 0, 1, 2, . . .
tenemos entonces que la acción de los operadores más relevantes sobre los autoestados |ϕ n i son
√ √
a† |ϕn i = n + 1 |ϕn+1 i ; a |ϕn i = n |ϕn−1 i ; n = 0, 1, 2, . . . (8.38)
1
N |ϕn i = n |ϕn i ; H |ϕn i = n + ~ω |ϕn i ; n = 0, 1, 2, . . . (8.39)
2
Se puede ver que la segunda de las Ecs. (8.38) contiene automáticamente el hecho de que a |ϕ 0 i = 0. Nótese que el
adjunto de las Ecs. (8.38) es √ √
hϕn | a = n + 1 hϕn+1 | ; hϕn | a† = n hϕn−1 | (8.40)
podemos expresar el significado de las Ecs. (8.38, 8.40) en palabras diciendo que a es un operador destrucción
(construcción) para kets (bras), en tanto que a † es un operador construcción (destrucción) para kets (bras).
La acción de los observables básicos X y P sobre los autoestados |ϕ n i se obtiene usando las Ecs. (8.7)
r r
~ † ~ √ √
X |ϕn i = a + a |ϕn i = n + 1 |ϕn+1 i + n |ϕn−1 i
2mω 2mω
r r
mω~ † mω~ √ √
P |ϕn i = i a − a |ϕn i = i n + 1 |ϕn+1 i − n |ϕn−1 i
2 2
con estas relaciones es fácil encontrar la representación matricial de los operadores a, a † , X y P en la base {|ϕn i}
√ √
hϕm | a |ϕn i = nhϕm |ϕn−1 i = nδm,n−1 (8.41)
†
√ √
hϕm | a |ϕn i = n + 1hϕm |ϕn+1 i = n + 1δm,n+1 (8.42)
r
~ √ √
hϕm | X |ϕn i = n + 1δm,n+1 + nδm,n−1 (8.43)
2mω
r
mω~ √ √
hϕm | P |ϕn i = i n + 1δm,n+1 − nδm,n−1 (8.44)
2
se puede ver que las matrices representativas de a y a † son hermı́ticas conjugadas una de otra como era de esperarse,
pues en este caso las matrices son reales y la una es la traspuesta de la otra. En forma explı́cita estas matrices vienen
dadas por
√
0 1 √0 0 ··· √0 0 0 0 ···
0 0 2 √0 · · · 1 0 0 0 ···
√
0 0 0
3 · · · ; a† = 0 2 √0 0 · · ·
a=
0 0 0 0 ··· 0 0 3 0 ···
.. .. .. .. . . .. .. .. .. . .
. . . . . . . . . .
nótese que las matrices de X y P son proporcionales a la suma y la diferencia de las matrices anteriores. Finalmente,
las matrices asociadas a X y P son hermı́ticas como se esperaba.
8.5. FUNCIONES PROPIAS ASOCIADAS A LOS ESTADOS ESTACIONARIOS EN LA BASE {|Xi} 237
donde (mω/π~)1/4 es un factor de normalización. Dado que los demás estados se obtienen de la Ec. (8.28)
1 † n
|ϕn i = √ a |ϕ0 i (8.46)
n!
debemos obtener la representación del vector |ϕ n i en la base {|xi} para ello multiplicamos la Ec. (8.46) por el bra
hx|
n n
1 † 1 1 b b
hx |ϕn i = √ hx| a |ϕ0 i = √ hx| √ X − iP |ϕ0 i
n! n! 2
r n
1 1 mω i
ϕn (x) = √ hx| √ X−√ P |ϕ0 i
n! 2 ~ mω~
r n
1 1 mω i ~ d
ϕn (x) = √ √ x− √ hx| ϕ0 i
n! 2n ~ mω~ i dx
"r r #n
1 mω ~ d
ϕn (x) = √ x− hx| ϕ0 i
~
2n n! mω dx
"r #n
1 ~ mω d
ϕn (x) = √ x− hx| ϕ0 i
2n n! mω ~ dx
n 1 n
1 ~ 2 mω d
ϕn (x) = x− ϕ0 (x)
n! 2mω ~ dx
ahora usando en forma explı́cita la función de onda del estado base Ec. (8.45) se tiene que
n 1 n
1 ~ 2 mω 14 mω d 1 mω 2
ϕn (x) = x− e− 2 ~ x
n! 2mω π~ ~ dx
1 mω 2
de lo anterior se puede ver fácilmente que ϕ n (x) es el producto de e− 2 ~ x por un polinomio de grado n y paridad
(−1)n . Los polinomios que surgen se denominan polinomios de Hermite.
Las dos primeras funciones asociadas a estados excitados (con energı́a mayor al estado base) son
4 mω 3 1/4 − 1 mω x2
ϕ1 (x) = xe 2 ~
π ~
mω 1/4 h mω i 1 mω 2
ϕ2 (x) = 2 x2 − 1 e− 2 ~ x
4π~ ~
si se grafica la función de onda y la densidad de probabilidad para n = 0, 1, 2 (ver Figs. 8.1, 8.2) y para valores
4
La ausencia de degeneración del estado base se demostró utilizando la base especı́fica {|xi}, pero el resultado debe ser independiente
de la base.
238 CAPÍTULO 8. EL OSCILADOR ARMÓNICO CUÁNTICO
grandes de n (Figs. 8.3), se pueden observar las siguientes caracterı́sticas: cuando n aumenta, la región en x en la
cual la densidad de probabilidad toma valores no despreciables se vuelve mayor. Esto corresponde a la caracterı́stica
clásica de que la amplitud de movimiento (y por tanto la región accesible) aumenta con la energı́a. También veremos
que el valor promedio o esperado de la energı́a potencial se incrementa con la energı́a (y por tanto con n). Aunque
esto se puede ver de un cálculo directo, se puede explicar cualitativamente teniendo en cuenta que para n grandes,
ϕn (x) toma valores no despreciables en regiones donde x es grande y por tanto donde V (x) es grande. Las gráficas
también muestran que el número de ceros de ϕ n (x) es igual a n, lo cual se puede demostrar formalmente con las
propiedades de los polinomios de Hermite. Un análisis de estos polinomios muestra también que el valor promedio
de la energı́a cinética se incrementa con n puesto que la energı́a viene dada por
Z ∞
1
2 ~2 d2 ϕn
P =− ϕ∗n (x) dx (8.47)
2m 2m −∞ dx2
y cuando el número de ceros de ϕn (x) aumenta, también se incrementa la curvatura de la función de onda y en la
Ec. (8.47) la segunda derivada de ϕn se incrementa a su vez.
Otra caracterı́stica sobresaliente para grandes valores de n es que la densidad de probabilidad es grande para
∼
x = ±xM siendo xM la amplitud clásica de movimiento cuando la energı́a es E n . Esto se relaciona con la caracterı́stica
clásica de que en xM la partı́cula está en reposo instantáneo y por tanto, en promedio se mantiene más tiempo en
las vecindades de ±xM que por ejemplo en las vecindades de x = 0 donde la rapidez es máxima.
Figura 8.3: Función de onda (izquierda) y densidad de probabilidad (derecha) asociadas a n = 10, para el oscilador
armónico.
sistema está en un estado estacionario |ϕ n i. Los valores esperados se calculan directamente de las Ecs. (8.43, 8.44)
estos valores son válidos para todo tiempo. Nótese que el comportamiento del centro del paquete de onda difiere
profundamente del caso clásico en el cual las variables x y p son oscilantes en el tiempo (excepto cuando la energı́a
es cero)5 . Para calcular ∆X, ∆P deben calcularse los valores esperados de X 2 y P 2
2 m~ω † † m~ω † 2 † † 2
P = − a −a a −a =− a − aa − a a + a
2 2
m~ω 2
P2 = − a† + a2 − 2N − 1 (8.51)
2
En 1 mω 2 x2M 1
(∆X)2 = 2
= 2
= x2M
mω 2 mω 2
1
∆X = √ xM (8.58)
2
análogamente, si pM es la amplitud de oscilación del momento clásico se tiene que
pM = mωxM
1
∆P = √ pM (8.59)
2
vemos que el ancho ∆X es del orden del ancho del intervalo [−x M , xM ], esto es de esperarse ya que esta es la región
clásicamente accesible y ya vimos en la sección 8.5 que es aproximadamente en esta región en donde ϕ n (x) adquiere
valores no despreciables. Un resultado similar se sigue para el intervalo [−p M , pM ].
Lo anterior permite también entender porqué ∆X se incrementa con n: la densidad |ϕ n (x)|2 posee dos picos
simétricos situados aproximadamente en x = ±x M . La desviación media cuadrática no puede ser mucho menor que
la distancias entre picos incluso si estos son muy agudos. Un argumento similar se sigue para ∆P .
Ahora bien, el valor esperado de la energı́a potencial en el estado |ϕ n i, se puede calcular teniendo en cuenta la
Ec. (8.48), y está dado por
1
1
hV (X)i = mω 2 X 2 ⇒ hV (X)i = mω 2 (∆X)2 (8.60)
2 2
similarmente, el valor esperado de la energı́a cinética es
2
P 1
= (∆P )2 (8.61)
2m 2m
8.7. PROPIEDADES DEL ESTADO BASE 241
el valor esperado de las energı́as cinética y potencial es igual. Esto es consistente con el teorema del virial. No
obstante, debe tenerse en cuenta que en el teorema del virial el promedio es sacado sobre un periodo de movimiento,
en tanto que el promedio cuántico no está asociado a una evolución temporal.
Es notable además la simetrı́a entre los resultados sobre las variables X y P , esto se debe a que el Hamiltoniano
es muy simétrico en ambos ya que la energı́a cinética es proporcional a P 2 y la energı́a potencial es proporcional
X 2 . Tal simetrı́a se vé de forma manifiesta en la Ec. (8.3).
Los estados estacionarios |ϕn i no tienen equivalente en la mecánica clásica ya que tienen energı́a no nula a pesar
de que hXi y hP i sı́ son nulos. Sin embargo, podemos establecer cierta analogı́a entre el estado estacionario |ϕ n i y
el estado de una partı́cula clásica cuya posición está descrita por
x = xM cos (ωt − ϕ)
y para el cual la fase inicial ϕ es escogida arbitrariamente, es decir puede tomar cualquier valor entre 0 y 2π con
la misma probabilidad. Los valores esperados de x y p son entonces nulos ya que
Z 2π
1
x̄cl = xM cos (ωt − ϕ) dϕ = 0
2π 0
Z 2π
1
p̄cl = −pM sin (ωt − ϕ) dϕ = 0
2π 0
Z 2π
1 2 x2
x2cl = xM cos (ωt − ϕ) dϕ = M
2π 0 2
Z 2π 2
1 p
p2cl = pM sin2 (ωt − ϕ) dϕ = M
2π 0 2
la desviación media cuadrática clásica de x y p queda
q q
xM pM
∆xcl = x2cl − (xcl )2 = √ ; ∆pcl = p2cl − (pcl )2 = √
2 2
y vemos que coincide con sus valores cuánticos Ecs. (8.58, 8.59). Este promedio clásico se está realizando sobre los
posible valores de la fase y no sobre un periodo de movimiento. Es decir, al igual que el promedio cuántico, no
involucra evolución temporal.
Podemos realizar un argumento semicuantitativo para estimar el orden de magnitud de la energı́a base y la
extensión espacial de su función de onda. Pensemos que la distancia ξ caracteriza la extensión espacial de la función
de onda, es decir ξ ∼ ∆X. Entonces, de acuerdo con (8.60) el potencial promedio será del orden de
1
V ∼
= mω 2 ξ 2
2
pero
∆X · ∆P ∼
= ~ ⇒ ξ · ∆P ∼
=~ (8.62)
por tanto
~ p2 (∆P )2 ∼ ~2
∆P ∼
= ⇒T = = =
ξ 2m 2m 2mξ 2
con lo cual el orden de magnitud de la energı́a total es
~2 1
E =T +V ∼
= + mω 2 ξ 2 (8.63)
2mξ 2 2
para valores pequeños de ξ, T domina sobre V y para valores grandes de ξ ocurre lo contrario. El estado base se
calcula de manera aproximada con el mı́nimo de la función E en la Ec. (8.63)
dE ~2
= 0 ⇒ − 3 + mω 2 ξm = 0
dξ ξ=ξm mξm
~2 ~2
− + mω 2 ξm
4 4
= 0 ⇒ ξm = 2 2
m m ω
por tanto el valor mı́mimo aproximado del promedio de la energı́a total es
2 2
~ 1 ~ 1 ~ ~ω ~ω
E ∼ = 2
2 2
+ mω ξm = ~
+ mω 2
= +
2mξm 2 2m mω 2 mω 2 2
E ∼ = ~ω
nótese que la Ec. (8.62) implica tomar un principio de “mı́nima incertidumbre” ya que implica que el producto de
las incertidumbres se acerca al lı́mite inferior. Vemos entonces que la combinación de mı́nima incertidumbre con la
minimización del promedio de la suma de las energı́as cinética y potencial, nos predice correctamente el orden de
magnitud de la energı́a del estado base.
como el sistema es conservativo, el estado en cualquier tiempo se obtiene empleando las Ecs. (5.66, 5.67).
∞
X 1
|ψ (t)i = cn (0) e−i(n+ 2 )ωt |ϕn i
n=0
puesto que m y n son enteros, la evolución temporal de los valores esperados solo involucra frecuencias de la forma
kω/2π con k entero. Por tanto las frecuencias de Bohr están constituı́das por “armónicos” que son múltiplos enteros
del “armónico fundamental” ω/2π. Para el caso particular de los observables X y P estos valores esperados se
obtienen de (8.43, 8.65)
∞ X
X ∞
hXi = c∗m (0) cn (0) Xmn ei(m−n)ωt
m=0 n=0
r∞ ∞
~ XX ∗ √ √
hXi = cm (0) cn (0) n + 1δm,n+1 + nδm,n−1 ei(m−n)ωt
2mω m=0 n=0
r (∞ ∞
)
~ X √ X √
hXi = c∗n+1 (0) cn (0) n + 1 ei[(n+1)−n]ωt + c∗m (0) cm+1 (0) m + 1 ei[m−(m+1)]ωt
2mω
n=0 m=0
r ( ∞ ∞
)
~ X √ X √
hXi = n + 1c∗n+1 (0) cn (0) eiωt + n + 1c∗n (0) cn+1 (0) e−iωt
2mω
n=0 n=0
Vemos entonces que solo se incluyen ondas sinusoidales de frecuencia angular ω. Esto está relacionado con la solución
clásica del oscilador armónico la cual es monocromática para la variable x. Para hP i se obtiene un resultado similar.
Por otro lado, en la discusión del teorema de Ehrenfest de la sección 5.7.1 vimos que la condición de igualdad de
los dos miembros en la Ec. (5.56) necesaria para obtener el lı́mite clásico adecuado, se cumple para todo estado |ψi,
cuando se usa el potencial del oscilador armónico que corresponde a n = 2 en la Ec. (5.58). Por tanto, de acuerdo
con las Ecs. (5.55, 5.52) se tiene que
d hXi 1 hP i
= h[X, H]i =
dt i~ m
d hP i 1
= h[P, H]i = −mω 2 hXi
dt i~
integrando estas ecuaciones se obtiene
1
hXi (t) = hXi (0) cos ωt + hP i (0) sin ωt (8.67)
mω
hP i (t) = hP i (0) cos ωt − mω hXi (0) sin ωt (8.68)
Ya hemos estudiado las propiedades de los estados estacionarios del oscilador armónico y hemos observado que
su comportamiento difiere significativamente del oscilador armónico clásico. Por ejemplo, los valores esperados de
X y P son cero y no oscilantes como ocurre en el caso clásico (excepto en el caso en que la energı́a clásica es cero).
Vimos también que para emular razonablemente el caso clásico, se necesita la superposición de al menos dos estados
estacionarios. Por otro lado, es de esperarse que en el lı́mite de energı́as mucho mayores que ~ω (números cuánticos
n muy grandes), las predicciones clásicas y cuánticas sean casi idénticas, ya que al tener una enorme cantidad de
cuantos se enmascara su carácter discreto.
Hemos visto que muchos sistemas clásicos y cuánticos se pueden describir con el oscilador armónico al menos
en primera aproximación. Por esta razón es importante saber como pasar gradualmente de una descripción clásica
a una descripción cuántica o vice versa. En otras palabras es importante caracterizar ciertos parámetros que nos
indiquen como dicernir cuando los resultados clásicos o cuánticos sean adecuados para describir cierto sistema fı́sico.
Un caso importante es la radiación electromagnética, hemos visto que para altas intensidades la descripción clásica
es adecuada, en tanto que para bajas intensidades el carácter discreto de la radiación se manifiesta claramente.
Lo anterior nos induce a indagar por la existencia de estados cuánticos que conduzcan a predicciones fı́sicas muy
similares a las clásicas, al menos para el oscilador armónico macroscópico. Veremos que los estados que cumplen
esta condición son superposiciones coherentes de los estados estacionarios |ϕ n i del oscilador armónico. Por tal
razón a dichos estados se les denomina como estados coherentes del oscilador armónico o también estados
cuasi-clásicos. Los estados coherentes de la radiación electromagnética permiten dicernir cuantitativamente la
importancia de los efectos cuánticos en la radiación para cada sistema radiativo.
La idea es entonces encontrar estados para los cuales los valores de hXi , hP i , y hHi sean semejantes a los
valores clásicos para todo tiempo. Adicionalmente, puesto que estos observables no son compatibles (no conmutan
entre sı́) no es posible construı́r un estado cuántico en donde las tres cantidades estén bien definidas. Los estados
coherentes deben entonces lidiar inevitablemente con el principio de incertidumbre, de modo que también deben
lograr que las desviaciones medias cuadráticas ∆X, ∆P, ∆H sean despreciables en el lı́mite macroscópico.
nótese que la “normalización” de las variables x y p se realizó con constantes que dependen de ~, de modo que
facilite la comparación del oscilador clásico con el oscilador cuántico. El estado clásico está determinado para todo
tiempo por las variables x (t) , p (t) o equivalentemente, por las variables x b (t) y pb (t). Estas a su vez se pueden
sintentizar en un número complejo adimensional α (t) en la forma
1
α (t) = √ [bx (t) + ib
p (t)] (9.4)
2
y las ecuaciones (9.3) se pueden escribir como una única ecuación compleja en la forma
dα (t)
= −iω α (t) (9.5)
dt
cuya solución es
1
α (t) = α0 e−iωt ; α0 = α (0) = √ [b p (0)] ≡ |α0 | eiδ
x (0) + ib (9.6)
2
siendo α0 un número complejo que se puede escribir como α 0 = |α0 | eiδ , claramente la solución representa un fasor
de magnitud |α0 | y cuya fase está dada por δ − ωt. Es decir, el fasor rota con velocidad angular −ω (de modo que
si ω > 0 el giro es en dirección horaria alrededor de O). √
Es claro
√ además que las componentes cartesianas del fasor α (t) en cualquier instante, corresponden a x
b (t) / 2
y pb (t) / 2. Vemos entonces que la descripción completa del movimiento se obtiene a través de la condición inicial
descrita por α0 , en la Ec. (9.6). Esta condición inicial se expresa bien sea como posición y momento inicial (com-
ponentes cartesianas adimensionales) o bien sea como |α 0 | y δ (parámetros polares correspondientes a la amplitud
adimensional de la oscilación y fase inicial respectivamente). De las Ecs. (9.4, 9.6) se obtiene
1 √ i √
b (t) = √ α0 e−iωt + α∗0 eiωt = 2Re α0 e−iωt ; pb (t) = − √ α0 e−iωt − α∗0 eiωt = 2Im α0 e−iωt
x (9.7)
2 2
ahora escribiremos la energı́a del sistema clásico H la cual es una constante de movimiento y por tanto coincide con
su valor inicial para todo tiempo
1 1
H = [p (0)]2 + mω 2 [x (0)]2
2m 2
~ω n 2
o
H = [b p (0)]2
x (0)] + [b (9.8)
2
teniendo en cuenta la segunda de las Ecs. (9.6), la energı́a queda en la forma
H = ~ω |α0 |2 (9.9)
para un oscilador macroscópico es claro que la energı́a es mucho mayor a la energı́a del cuanto fundamental de modo
que
|α0 | >> 1 (9.10)
si comparamos las Ecs. (9.11) con las Ecs. (9.7, 9.6) vemos que el operador a es el análogo de la cantidad clásica
α (t) y a† posee el papel de α∗ (t). Clásicamente hemos visto que la cantidad compleja α 0 (condiciones iniciales) nos
dictamina la evolución temporal de los observables clásicos que se describen con α (t) en la Ec. (9.6), y dado que a
246CAPÍTULO 9. ESTADOS COHERENTES CUASI-CL ÁSICOS DEL OSCILADOR ARMÓNICO (OPCIONAL)
es el análogo cuántico de α, es natural continuar la analogı́a calculando la evolución temporal de hai para el sistema
en un estado arbitrario |ψ (t)i. Tal evolución se obtiene de la Ec. (5.52)
d
i~ hai (t) = h[a, H]i (t) (9.12)
dt
donde hemos tenido en cuenta que a es solo función de X y P y por tanto no depende explı́citamente del tiempo.
El miembro derecho de (9.12) se escribe como
Dh iE Dh i E
† I
h[a, H]i (t) = ~ω a, a a + (t) = ~ω a, a† a (t) = ~ω a, a† a (t)
2
h[a, H]i (t) = ~ω hai (t)
nótese que las soluciones cuánticas (9.14, 9.15) son los análogos de la solución clásica (9.6), como era de esperarse
en virtud de la analogı́a a, a† ↔ α, α∗ . Sustituyendo (9.14) y (9.15) en (9.11) se obtiene
D E 1
b (t) =
X √ hai (0) e−iωt + hai∗ (0) eiωt
2
D E i
Pb (t) = − √ hai (0) e−iωt − hai∗ (0) eiωt (9.16)
2
el lı́mite clásico se obtiene igualando los valores esperados con las variables clásicas
D E D E
b (t) = x
X b (t) ; Pb (t) = pb (t) (9.17)
esta igualación se realiza comparando las Ecs. (9.16) con las Ecs. (9.7). De esto se ve que la condición necesaria y
suficiente para obtener el lı́mite clásico (9.17) es que en t = 0 se cumpla la condición
siendo α0 el parámetro complejo que caracteriza al movimiento clásico que pretendemos emular cuánticamente, y
viene dado por la segunda de las Ecs. (9.6). Debemos ahora obtener la condición para la igualación de las energı́as
clásica y cuántica, para ello calculamos el valor esperado del Hamiltoniano cuántico, como éste es constante de
movimiento, se puede evaluar en cero
D E ~ω
hHi = ~ω a† a (0) +
2
debemos igualar esta energı́a con su valor clásico H y obtener la condición que se genera con tal igualación. Para
ello podemos despreciar el término ~ω/2, ya que el lı́mite clásico corresponde a energı́as mucho mayores
que ~ω.
Recordemos que el término ~ω/2 es puramente cuántico en su origen. La igualación de hHi ' ~ω a† a (0) con el
valor clásico dado por la Ec. (9.9) nos lleva a la condición
D E
a† a (0) = |α0 |2 (9.19)
recordando que hemos asumido un estado |ψ (t)i para el sistema, las condiciones (9.18, 9.19) se escriben como
veremos que las condiciones (9.20) son suficientes para determinar el estado normalizado |ψ (0)i excepto por un
factor de fase constante. Para verlo introducimos el operador b (α 0 ) definido por
b (α0 ) ≡ a − α0
nótese que este operador mide la “desviación” entre el comportamiento del operador cuántico a y el de su análogo
clásico α0 en el tiempo inicial, tenemos que
b† (α0 ) b (α0 ) = a† − α∗0 (a − α0 ) = a† a − a† α0 − α∗0 a + |α0 |2
con lo cual
n o
kb (α0 ) |ψ (0)ik2 = hψ (0)| b† (α0 ) b (α0 ) |ψ (0)i = hψ (0)| a† a − a† α0 − α∗0 a + |α0 |2 |ψ (0)i
kb (α0 ) |ψ (0)ik2 = hψ (0)| a† a |ψ (0)i − α0 hψ (0)| a† |ψ (0)i − α∗0 hψ (0)| a |ψ (0)i + |α0 |2
como la norma del ket b (α) |ψ (0)i es nula entonces el ket como tal es nulo, por tanto
recı́procamente, si el ket normalizado |ψ (0)i satisface esta relación, podemos devolvernos en los pasos y ver que las
condiciones (9.20) se satisfacen. Nótese que el resultado b (α) |ψ (0)i = 0 es el esperado, ya que cuando el estado
|ψ (0)i es cuasi-clásico, es razonable que la “desviación” entre el comportamiento clásico y el cuántico se anule.
Lo anterior nos lleva a la conclusión de que el estado cuasi-clásico asociado con un movimiento clásico caracter-
izado por el parámetro α0 , es tal que el vector de estado |ψ (0)i en t = 0 es un autovector del operador destrucción
a con autovalor α0 . Escribiremos los autovectores de a y su autovalores en la forma
aplicando el operador destrucción a ambos lados de la expansión y usando la Ec. (8.38), se obtiene
∞
X ∞
X √
a |αi = cn (α) [a |ϕn i] ⇒ a |αi = cn (α) n |ϕn−1 i (9.24)
n=0 n=0
nótese que aunque la suma de la izquierda debe ir desde k = −1, este primer término es nulo. Apelando a la
independencia lineal de los |ϕk i se obtiene
α
ck+1 (α) = √ ck (α) (9.25)
k+1
utilizando esta relación iterativamente tenemos
α α α α2
ck (α) = √ ck−1 (α) = √ √ ck−2 (α) = p ck−2 (α)
k k k−1 k (k − 1)
α2 α α3
ck (α) = p √ ck−3 (α) = p ck−3 (α)
k (k − 1) k−2 k (k − 1) (k − 2)
αk
ck (α) = p ck−k (α)
k (k − 1) (k − 2) . . . × 2 × 1
de modo que todos los coeficientes de la expansión de |αi se pueden generar a partir de c 0 (α)
αk
ck (α) = √ c0 (α) (9.26)
k!
Escogeremos a c0 (α) como real y positivo (fase cero). Adicionalmente, escogeremos c 0 (α) de modo que |αi quede
adecuadamente normalizado. De acuerdo con (9.23), la normalización de |αi nos lleva a
∞
X ∞
X ∞ X
X ∞
1 = hα |αi = c∗k (α) cn (α) hϕk |ϕn i = c∗k (α) cn (α) δkn
k=0 n=0 k=0 n=0
∞
X
⇒ |ck (α)|2 = 1 (9.27)
k=0
con lo cual
1 †
hHiα = ~ω hα| a a + |αi
2
1
hHiα = ~ω |α|2 + (9.32)
2
teniendo en cuenta el resultado (9.30), vemos que si |α| >> 1 (como corresponde al lı́mite clásico), la cantidad hHi α
es muy similar en valor
relativo
a la energı́a E n que corresponde al máximo de Pn (α). Con el fin de calcular el
ancho ∆H calcularemos H 2 α
2 2 2 † 1 2 2 2 † † † 1
H α = ~ ω hα| a a + |αi = ~ ω hα| a a a a + a a + |αi
2 4
2 2 2 2 † 1 2 2 2 2 2 1
= ~ ω hα| N N |αi + ~ ω hα| a a + |αi = ~ ω hN α |N αi + ~ ω |α| +
4 4
2 1
H α = ~2 ω 2 k|N αik2 + ~2 ω 2 |α|2 + (9.33)
4
donde hemos usado la Ec. (9.31) y el hecho de que N = a † a es hermı́tico. Multiplicando (9.22) por a † se tiene que
2
a† a |αi = αa† |αi ⇒ N |αi = αa† |αi ⇒ kN |αik2 = |α|2
a† |αi
⇒ kN |αik2 = |α|2 hα| aa† |αi ⇒ kN |αik2 = |α|2 hα| a† a + 1 |αi
kN |αik2 = |α|2 |α|2 + 1 (9.34)
en el lı́mite cuasi-clásico el ancho relativo debe ser mucho menor que uno, con el fin de poder afirmar que la energı́a
está bien definida. El ancho relativo se puede calcular de (9.32) y (9.36)
∆Hα |α|
= (9.37)
hHiα |α|2 + 12
para el lı́mite cuasi-clásico |α| >> 1, se tiene que
∆Hα |α| 1
' 2 = |α| << 1 (9.38)
hHα i |α|
de modo que se puede considerar que la energı́a está bien definida en el lı́mite cuasi-clásico. Es inmediato ver que
hN iα = |α|2 ; ∆Nα = |α|
lo cual nos dice que para obtener un estado cuasi-clásico |α| >> 1, se debe suporponer un enorme número de estados
|ϕn i ya que ∆Nα >> 1. Sin embargo, el valor relativo de la dispersión sobre N también es muy pequeño
∆Nα 1
' << 1
hN iα |α|
2 ~ 2 ~ 2 ~ 2
† † 2 † † † 2
X α = hα| a + a |αi = hα| a + a + a a + aa |αi = hα| a + a + 2N + 1 |αi
2mω 2mω 2mω
~ h ∗2 i ~ h ∗ i
= α + α2 + 2 |α|2 + 1 = (α + α)2 + 1
2mω 2mω
2 m~ω 2 m~ω 2 m~ω h ∗2 i
P α = − hα| a† − a |αi = − hα| a† + a2 − 2N − 1 |αi = −α − α2 + 2 |α|2 + 1
2 2 2
m~ω h i
= − (α − α∗ )2 + 1
2
~ h ∗ i ~ ~
(∆Xα )2 = X 2 α − hXi2α = (α + α)2 + 1 − (α∗ + α)2 =
2mω 2mω 2mω
"r #2
2 m~ω h i m~ω ∗
2 2 ∗ 2
(∆Pα ) = P α − hP iα = − (α − α ) + 1 − i (α − α)
2 2
m~ω h i m~ω m~ω
= − (α − α∗ )2 + 1 + (α∗ − α)2 =
2 2 2
resumiendo los anteriores resultados tenemos que
r
2~ √
hXiα = hα| X |αi = Re (α) ; hP iα = hα| P |αi = 2m~ωIm (α) (9.39)
mω
2 ~ h i
m~ω h i
X α = (α + α∗ )2 + 1 ; P 2 α = 1 − (α − α∗ )2 (9.40)
r2mω r 2
~ m~ω
∆Xα = ; ∆Pα = (9.41)
2mω 2
se observa que los anchos ∆Xα y ∆Pα no dependen de α y el producto de los anchos toma su valor mı́nimo
~
∆Xα · ∆Pα = (9.42)
2
lo cual es muy deseable para un lı́mite cuasi-clásico.
9.4. GENERADOR Y FUNCIÓN DE ONDA DE LOS ESTADOS COHERENTES 251
podemos generar a |αi a partir de |ϕ0 i con un operador más simétrico, para ello tenemos en cuenta que el operador
destrucción a aniquila el estado base, con lo cual tenemos que
−α∗ a ∗ α∗2 2
e |ϕ0 i = 1 − α a + a + . . . |ϕ0 i = |ϕ0 i (9.44)
2!
de la Ec. (9.44) podemos reescribir la Ec. (9.43) en la forma
|α|2 † ∗
|αi = e− 2 eαa e−α a |ϕ0 i
La Ec. (9.47) nos muestra que podemos ver al operador unitario D (α) como un operador “creación” del estado
coherente |αi a partir del estado base del oscilador armónico. La Ec. (9.47) nos permite encontrar la función de
onda asociada a los estados coherentes
para calcular la función de onda, primero escribimos el operador αa † − α∗ a en términos de X y P usando las Ecs.
(8.5) r
† ∗ mω α − α∗ i α + α∗
αa − α a = √ X− √ √ P
~ 2 m~ω 2
teniendo en cuenta que
r r
mω α − α∗ i α + α∗ i mω
√ X, − √ √ P = − √ (α − α∗ ) (α + α∗ ) [X, P ]
~ 2 m~ω 2 2 m~ω ~
1 2
= α − α∗2
2
y usando de nuevo la relación (1.147), el operador D (α) queda
r ∗2
αa† −α∗ a mω α − α∗ i α + α∗ α − α2
D (α) = e = exp √ X exp − √ √ P exp
~ 2 m~ω 2 4
252CAPÍTULO 9. ESTADOS COHERENTES CUASI-CL ÁSICOS DEL OSCILADOR ARMÓNICO (OPCIONAL)
ahora bien, el operador e−iλP/~ es el operador traslación de λ a lo largo de x (siendo P la componente x del momento)
ver sección 1.44.2 Ec. (1.202), pág 93, de modo que
( "r # ) * r
i ~ ~
∗ ∗
hx| exp − (α + α ) P = x − (α + α )
~ 2mω 2mω
donde hemos usado también la Ec. (9.41). La forma del paquete de onda asociada con el estado |αi está dada por
r ( )
2 mω 1 x − hXiα 2
|ψα (x)| = exp − (9.55)
π~ 2 ∆Xα
con lo cual para cualquier estado coherente |αi obtenemos un paquete Gaussiano. Esto a su vez está relacionado
con la propiedad de mı́nima incertidumbre que obtuvimos en la Ec. (9.42).
9.5. LOS ESTADOS COHERENTES SON COMPLETOS PERO NO ORTOGONALES 253
donde hemos tenido en cuenta la expresión del diferencial de área en coordenadas polares 1 . Sustituyendo la
parametrización polar de la Ec. (9.59) en la integral (9.58), ésta última queda como
Z Z "∞ ∞ #
1 2 X X ρeiϕ n ρe−iϕ m
e−|ρe |
iϕ
I = √ √ |ϕn i hϕm | ρ dρ dϕ
π n! m!
n=0 m=0
Z Z "∞ ∞ #
1 2 X X ρn+m ei(n−m)ϕ
I = e−|ρ| √ |ϕn i hϕm | ρ dρ dϕ
π n=0 m=0 n!m!
∞ ∞ Z Z 2π
1 X X ∞ −ρ2 n+m 1
I = e ρ ρ dρ √ |ϕn i hϕm | dϕ ei(n−m)ϕ (9.60)
π n!m!
n=0 m=0 0 0
comparando (9.63) con (9.62), vemos que el ket |ψ (t)i se obtiene del ket inicial |ψ (0)i = |α 0 i cambiando α0 por
ωt
α0 e−iωt y multiplicando el ket resultante por la fase global (irrelevante) e −i 2 , con lo cual |ψ (t)i se puede reescribir
como
|ψ (t)i = e−iωt/2 α = α0 e−iωt (9.64)
por tanto el estado cuasi-clásico continúa siendo autovector del operador a, para todo tiempo t. Su autovalor es
α0 e−iωt que es el parámetro α (t) descrito por las ecuaciones (9.4, 9.6) y que geométricamente es un fasor que rota
en el plano complejo con velocidad angular −ω. Recordemos que este fasor caracteriza en todo tiempo al oscilador
armónico clásico cuya evolución pretendemos reproducir a través del estado |ψ (t)i. Los valores esperados de hXi y
hP i para todo tiempo se obtienen a partir de (9.64) y (9.39)
r
2~ √
hXiα(t) (t) = Re α0 e−iωt ; hP iα(t) (t) = 2m~ωIm α0 e−iωt (9.65)
mω
y tal como se predijo, estas ecuaciones son similares a la evolución clásica Ecs. (9.7).
Por otro lado, la energı́a promedio es independiente del tiempo
−iωt 2 1 2 1
hHiα(t) (t) = ~ω α0 e + = ~ω |α0 | + (9.66)
2 2
finalmente, las raı́ces de las desviaciones medias cuadráticas ∆H α(t) , ∆Xα(t) y ∆Pα(t) calculadas con las Ecs. (9.36,
9.41) nos dan r r
~ m~ω
∆H = ~ω |α0 | ; ∆X = ; ∆P = (9.67)
2mω 2
vemos que los anchos no dependen del tiempo. En particular ∆X y ∆P permanecen siendo paquetes de mı́nima
incertidumbre para todo tiempo. No hay dispersión de los paquetes de onda. Veamos un poco más en detalle la
evolución del paquete de onda, la función de onda ψ (x, t) para todo tiempo se puede calcular con las Ecs. (9.54,
9.64)
1/4 h i2
iθα mω
xhP i(t) − x−hXi(t)
−iωt/2 i ~
ψ (x, t) = e e e e 2∆X
π~
vemos que la forma del paquete es Gaussiana para todo tiempo t. Su forma no varı́a en el tiempo puesto que
vemos que los estados cuasi-clásicos son tales que los anchos ∆X y ∆P permanecen como paquetes de mı́nima
incertidumbre y la forma del paquete permanece intacta cuando éste se propaga. Esta ausencia de dispersión y
de cambio del perfil del paquete es la que le da el nombre de “estados coherentes” a los estados cuasi-clásicos del
oscilador armónico.
La Fig. 9.1 muestra el movimiento de un paquete de onda de un estado coherente. De acuerdo con la Ec. (9.65),
el valor esperado de X oscila alrededor de x = 0 con periodo T = 2π/ω, y dado que el paquete de onda no se
distorsiona, este será también el movimiento del paquete como un todo. En contraste, vimos en la sección 2.13.1 que
un paquete Gaussiano libre se distorsiona cuando se propaga, ya que su ancho aumenta a medida que se propaga
(dispersión del paquete de onda). Vemos en contraste que un paquete Gaussiano sometido a un potencial parabólico
(oscilador armónico) no posee dispersión. Esto se debe a que la tendencia del paquete a dispersarse es compensada
por el potencial, cuyo efecto es empujar al paquete hacia el origen desde regiones donde x (y por tanto V (x)) es
grande.
Adicionalmente, ya hemos visto en las secciones (9.3.1, 9.3.2) que cuando |α| >> 1, las raı́ces de las desviaciones
medias cuadráticas de X, P y H no cambian, son mucho menores que sus valores esperados asociados y además
dichos valores esperados emulan en todo tiempo la evolución clásica. De modo que escogiendo un valor de |α|
lo suficientemente alto, obtenemos una evolución temporal cuántica para la cual la posición y momento de los
osciladores son en valor relativo, tan definidos como es posible, ya que los paquetes son de mı́nima incertidumbre,
y su valor caracterı́stico tiene un comportamiento similar al clásico. Por tanto, en este lı́mite el estado |αi emula
muy bien las propiedades de un oscilador macroscópico (clásico) para el cual la posición, momento y energı́a están
bien definidos.
256CAPÍTULO 9. ESTADOS COHERENTES CUASI-CL ÁSICOS DEL OSCILADOR ARMÓNICO (OPCIONAL)
Figura 9.1: Propagación de un paquete de onda Gaussiano sometido a un potencial parabólico y asociado a un estado
cuasi-clásico. El paquete oscila alrededor del punto de equilibrio. La forma y el ancho del paquete Permanecen
intactos en el tiempo.
asumamos que este oscilador realiza movimiento periódico de amplitud x M = 1cm. Nos preguntamos ahora por el
estado mecano-cuántico que mejor representa esta oscilación.
De acuerdo con la discusión anterior, dicho estado es del tipo |αi. Combinando la relación clásica entre energı́a
y amplitud con la Ec. (9.32) (despreciando el factor 1/2 en esta última) se obtiene
1
E = mω 2 x2M = ~ω |α|2 ⇒
2
r
mω
|α| = xM
2~
en donde el argumento de α depende de la fase inicial de movimiento. Para nuestro caso tenemos las siguientes
9.7. TRATAMIENTO MECANO-CUÁNTICO DE UN OSCILADOR ARMÓNICO MACROSCÓPICO 257
estimaciones numéricas
√
|α| '5 × 1015 >> 1
r
~
∆X = ' 2,2 × 10−18 m << xM
2mω
r
m~ω
∆P = ' 2,2 × 10−17 kg m/s
2
la raı́z de la desviación media cuadrática para la velocidad está dada por
el valor máximo de la velocidad del oscilador es 0,1m/s y la raı́z del valor medio cuadrático es de este mismo orden
de magnitud. Por tanto, las incertidumbres en la posición y velocidad son completamente despreciables con respecto
a las cantidades involucradas en el problema. Por ejemplo ∆X es menor que un fermi (10 −15 m) que es el tamaño
aproximado de un núcleo atómico. Es claro que esta cantidad es despreciable para una longitud macroscópica.
Finalmente, la energı́a del oscilador se conoce con una excelente precisión relativa, usando la Ec. (9.38) resulta
∆H 1
' ' 0,4 × 10−15 << 1
hHi |α|
todo esto nos muestra porqué la mecánica clásica provee una adecuada descripción del oscilador armónico macroscópi-
co.
Capı́tulo 10
Es bien conocida la gran importancia que tiene el momento angular en mecánica clásica. En primer lugar es
una constante de movimiento cuando el sistema es aislado constituyendo uno de los principios de conservación más
fundamentales en la teorı́a clásica. Además, también es una cantidad conservada para una partı́cula sometida a
una fuerza central, y trae como consecuencia el hecho de que el movimiento sea en un plano y que se conserve la
velocidad aerolar (segunda ley de Kepler).
Veremos que estas propiedades tienen su contrapartida cuántica. Por ejemplo, veremos más adelante que para
una partı́cula sometida a una interacción central, los operadores L 1 , L2 , L3 que surgen de cuantizar las cantidades
clásicas, son constantes de movimiento en el sentido cuántico, es decir no dependen explı́citamente del tiempo y
conmutan con el Hamiltoniano. Veremos además que existe otro tipo de momento angular que no depende de R ni P
ni de ninguna otra variable geométrica clásica. Estos momentos angulares que surgen directamente como observables
cuánticos y no como la cuantización de observables clásicos se denominan momentos angulares intrı́nsecos. Este
momento angular intrı́nseco (también conocido como espı́n), está cuantizado desde el principio y es esencial para
entender el mundo microscópico como veremos más adelante.
De aquı́ en adelante denotaremos como momento angular orbital L a cualquier momento angular que provenga
de la cuantización de un momento angular clásico. Llamaremos momento angular de espı́n S o simplemente espı́n,
a cualquier momento angular intrı́nseco de una partı́cula. Finalmente, en sistemas complejos como núcleos, átomos,
moléculas, etc. los momentos angulares orbitales de sus constituyentes se combinan y también se combinan con
los espines de sus constituyentes para formar el momento angular total J. La notación J representará entonces
la resultante entre la suma de momentos orbitales e intrı́nsecos, pero también se usará para denotar un momento
angular genérico cuando no hagamos distinción entre el momento angular intrı́nseco y orbital. Las reglas de adición
de los momentos angulares se estudiarán en capı́tulos subsecuentes.
Existen una serie de propiedades de los momentos angulares que solo dependen de sus relaciones de conmutación
y que serán válidas para cualquier momento angular sin importar su naturaleza. Veremos en particular, que toda
componente de un momento angular posee un espectro discreto, propiedad denominada “cuantización espacial”.
Desarrollaremos en capı́tulos posteriores, las aplicaciones concernientes tanto al momento angular orbital como al
intrı́nseco.
→
−
L = r×p (10.1)
Li = εijk xj pk ; i, j, k = 1, 2, 3 (10.2)
10.1. DEFINICIÓN DE MOMENTO ANGULAR POR SUS PROPIEDADES DE CONMUTACI ÓN 259
simplemente reemplazamos cada componente x j , pk por los correspondientes operadores X j , Pk . La cantidad εijk es el
tensor de Levi Civita. Nótese que aunque aparece un producto de estos operadores, no es necesaria una simetrización
puesto que en (10.2) solo sobreviven los términos con j 6= k de modo que los operadores en el producto conmutan
según las reglas canónicas de conmutación (4.9). Por esta razón, no hay ambigüedad en el orden y el operador que se
obtiene es automáticamente hermı́tico. Visto de otra manera, la simetrización del producto coincide con el producto
original cuando los operadores conmutan. Los observables cuánticos son entonces
Li = εijk Xj Pk ; i, j, k = 1, 2, 3 (10.3)
L = R×P (10.4)
calculemos entonces los conmutadores entre los L i con base en las relaciones canónicas de conmutación (4.9)
o más sintéticamente
[Li , Lj ] = i~εijk Lk (10.5)
este resultado se puede generalizar cuando tenemos N partı́culas sin espı́n. El momento angular total del sistema
en mecánica cuántica es
N
X
L= L(i) ; L(i) ≡ R(i) × P(i)
i=1
Se puede demostrar adicionalmente que el origen de las reglas de conmutación (10.5) yace en las propiedades
geométricas de las rotaciones en tres dimensiones. Esto está relacionado con el hecho de que en mecánica clásica, el
momento angular junto con el torque forman las variables fundamentales de la dinámica rotacional.
este operador es Hermı́tico ya que cada componente es hermı́tica. Vale la pena enfatizar que el carácter de observable
de los Ji forma parte esencial de la definición de momento angular 1 . Calculemos primero el conmutador de J 2 con
J, para lo cual calculamos para cada componente
2
J , J1 = J12 + J22 + J32 , J1 = J22 , J1 + J32 , J1
= J2 [J2 , J1 ] + [J2 , J1 ] J2 + J3 [J3 , J1 ] + [J3 , J1 ] J3
= −i~J2 J3 − i~J3 J2 + i~J3 J2 + i~J2 J3
2
J , J1 = 0
toda la teorı́a del momento angular en cuántica se basará completamente en las reglas de conmutación (10.6,
10.7). En particular, estas relaciones muestran que no es posible medir simultáneamente las tres componentes del
momento angular, pero sı́ es posible medir simultáneamente una sola componente y la cantidad J 2 . Es decir cualquier
componente de J es una variable compatible con J 2 . Esto implicará que si asumimos que J 2 y Ji son observables,
podemos encontrar una base común de vectores propios para J 2 y uno de los Ji . Es usual elegir la componente de
J3 , y decimos que tomamos a X3 como “eje de cuantización” de modo que construı́mos una base que diagonalice
simultáneamente a J2 y a J3 .
y al igual que los operadores a y a† , los operadores J± no son hermı́ticos y son conjugados el uno del otro. En todo
el estudio del momento angular trabajaremos con los operadores J 2 , J3 , J+ , J− por lo cual será necesario encontrar
todas las relaciones de conmutación entre ellos
J2 , J ± = J2 , J1 ± iJ2 = J2 , J1 ± i J2 , J2
J2 , J ± = 0
1
Para un conjunto concreto de tres operadores, el carácter de observable solo podrá verificarse cuando se sepa sobre que espacio
actúan los operadores momento angular. Las reglas de conmutación no especifican sobre qué espacio actúan los momentos angulares.
10.3. ESTRUCTURA DE VALORES Y VECTORES PROPIOS 261
hψ| J2 |ψi = hψ| J12 |ψi + hψ| J22 |ψi + hψ| J32 |ψi = hψ| J1† J1 |ψi + hψ| J2† J2 |ψi + hψ| J3† J3 |ψi
= kJ1 |ψik2 + kJ2 |ψik2 + kJ3 |ψik2 ≥ 0
este resultado era de esperarse ya que la variable clásica es el módulo al cuadrado de un vector el cual es no negativo.
En particular eligiendo a |ψi como un autovector de J 2 vemos que
los autovalores deben ser no negativos (en analogı́a con los autovectores de N en el oscilador armónico). Dado que
J tiene dimensiones de momento angular, el valor propio de J 2 se puede parametrizar como a = µ~2 siendo µ una
cantidad adimensional no negativa. Adicionalmente, se puede demostrar que para todo µ ≥ 0 la ecuación
j (j + 1) = µ (10.18)
tiene una y solo una raı́z no negativa 2 . Por tanto la especificación de µ determina completamente a j y viceversa.
Por tanto, sin pérdida de generalidad podemos denotar a los valores propios de J 2 en la forma
J2 |ψi = j (j + 1) ~2 |ψi ; j ≥ 0
si consideramos que {|ψi} es la base de vectores propios comunes a J 2 y J3 denotaremos a los valores propios de J 3
en la forma
J3 |ψi = m~ |ψi
siendo m una cantidad adimensional.
2 √
La Ec. (10.18) tiene como solución j± = −1 ± 1 + 4µ /2. Si µ ≥ 0, la única solución no negativa para j es j+ .
262 CAPÍTULO 10. TEORÍA GENERAL DEL MOMENTO ANGULAR EN MEC ÁNICA CUÁNTICA
Puesto que J2 y J3 son observables conmutantes, ellos hacen parte de un C.S.C.O pero no necesariamente lo
constituyen por sı́ solos. Por esa razón denotaremos a los kets propios comunes a los dos con tres números cuánticos:
j para rotular los valores propios de J 2 , m para rotular los valores propios de J 3 y k asociado a la degeneración.
Naturalmente, estos ı́ndices pueden ser de momento contı́nuos o discretos y k podrı́a simbolizar varios ı́ndices (los
necesarios para completar un C.S.C.O.).
En sı́ntesis escribiremos la ecuación de valores propios en la forma
j (j + 1) − m (m + 1) = (j − m) (j + m + 1) ≥ 0 (10.23)
j (j + 1) − m (m − 1) = (j − m + 1) (j + m) ≥ 0 (10.24)
asumamos que j − m < 0, dado que j ≥ 0 entonces m > 0 y j + m + 1 > 0. Por tanto, (j − m) (j + m + 1) < 0,
contradiciendo la Ec. (10.23). Debemos rechazar la hipótesis de que j − m < 0.
Es necesario entonces que j − m ≥ 0, de esta hipótesis se obtiene que j − m + 1 > 0, y para satisfacer la Ec.
(10.24) se requiere que (j + m) ≥ 0, tenemos entonces que las condiciones
j−m≥0 y j +m ≥0 (10.25)
por construcción satisfacen (10.24). Solo falta ver que estas condiciones también cumplen con la desigualdad (10.23).
Usando la segunda condición j + m ≥ 0 vemos que implica j + m + 1 > 0, y esto junto con la primera condición
en (10.25) nos satisface la Ec. (10.23). Vemos entonces que las condiciones (10.25) son necesarias y suficientes para
que se cumplan las desigualdades (10.23) y (10.24). Finalmente, y teniendo en cuenta que j es no negativo, estas
condiciones se pueden reescribir como
j−m ≥ 0 y j+m≥0 ⇔ j ≥m y j ≥ −m
⇔ j ≥ |m| ⇔ −j ≤ m ≤ j
Lemma 4 Si j (j + 1) ~2 y m~ son valores propios de J2 y J3 asociados al ket propio común |j, m, ki entonces j y
m satisfacen la desigualdad
−j ≤ m ≤ j (10.26)
Ahora veremos con base en la Ec. (10.26), las caracterı́sticas de los kets J − |j, m, ki y J+ |j, m, ki, siendo |j, m, ki
autovector común de J2 y J3 .
10.3. ESTRUCTURA DE VALORES Y VECTORES PROPIOS 263
En primer lugar, veremos las condiciones necesarias y suficientes para la nulidad del vector J − |j, m, ki. Esto se
puede hacer con base en la Ec. (10.22)
J− |j, m, ki = 0 ⇔ kJ− |j, m, kik2 = 0 ⇔ ~2 {j (j + 1) − m (m − 1)} = 0
⇔ (j − m + 1) (j + m) = 0
cuyas soluciones son m = −j (su mı́nimo valor posible) y m = j + 1. Pero la segunda solución contradice al lema 4
Ec. (10.26). Por tanto
m = −j ⇔ J− |j, m, ki = 0 (10.27)
por tanto si m > −j el vector J− |j, m, ki será no nulo siempre que se cumpla la Ec. (10.26). Esto se puede corroborar
reemplazando m > −j en la Ec. (10.22) verificando que la norma de J − |j, m, ki no es nula. Ahora demostraremos
que J− |j, m, ki es un ket propio de J2 y J3 . Puesto que J2 y J− conmutan según la Ec. (10.16), podemos escribir
J2 , J− |j, m, ki = 0 ⇒ J2 J− |j, m, ki = J− J2 |j, m, ki ⇒ J2 J− |j, m, ki = J− j (j + 1) ~2 |j, m, ki
⇒ J2 [J− |j, m, ki] = j (j + 1) ~2 [J− |j, m, ki]
por tanto J− |j, m, ki es ket propio de J2 con valor propio j (j + 1) ~2 . Este resultado está relacionado con el hecho
de que J2 y J− conmutan, como se aprecia en el teorema 1.66, pág. 50. Ahora veremos que J − |j, m, ki es también
ket propio de J3 , para lo cual empleamos la Ec. (10.15)
[J3 , J− ] |j, m, ki = −~J− |j, m, ki ⇒ J3 J− |j, m, ki = (J− J3 − ~J− ) |j, m, ki ⇒
J3 J− |j, m, ki = (J− m − J− ) ~ |j, m, ki
⇒ J3 [J− |j, m, ki] = (m − 1) ~ [J− |j, m, ki]
de modo que J− |j, m, ki es autovector de J3 con autovalor (m − 1) ~. Los anteriores resultados se pueden resumir
en el siguiente lema
Lemma 5 Sea |j, m, ki un vector propio común a J 2 y J3 con valores propios j (j + 1) ~2 y m~. Se tiene que (a)
m = −j si y solo si J− |j, m, ki = 0. (b) Si m > −j entonces J− |j, m, ki 6= 0 y es autovector de J2 y J3 con valores
propios j (j + 1) ~2 y (m − 1) ~.
El siguiente paso natural es estudiar al vector J + |j, m, ki. De la Ec. (10.22) podemos ver las condiciones nece-
sarias y suficientes para que J+ |j, m, ki sea nulo.
J+ |j, m, ki = 0 ⇔ kJ+ |j, m, kik2 = 0 ⇔ ~2 {j (j + 1) − m (m + 1)} = 0
⇔ (j + m + 1) (j − m) = 0
las soluciones son m = j y m = − (j + 1) pero la segunda solución es incompatible con el lema 4 Ec. (10.26). Por
tanto
m = j ⇔ J+ |j, m, ki = 0 (10.28)
si m < j, y usando (10.16, 10.15) obtenemos
2
J , J+ |j, m, ki = 0 ⇒ J2 J+ |j, m, ki = J+ J2 |j, m, ki ⇒
J2 [J+ |j, m, ki] = j (j + 1) ~2 [J+ |j, m, ki]
−j ≤ m − p < −j + 1 (10.29)
demostraremos que estos son vectores propios no nulos de J 2 y J3 y que para potencias más altas de J− , se obtienen
vectores nulos. Esto se realiza aplicando iterativamente el lema 5
Comenzamos aplicando el lema 5 a |j, m, ki. Por hipótesis |j, m, ki es vector propio no nulo de J 2 y J3 con valores
propios j (j + 1) ~2 y m~. Si m > −j podemos aplicar el lema 5 con lo cual J − |j, m, ki ≡ |j, m − 1, ki es vector
propio no nulo de J2 y J3 con valores propios j (j + 1) ~2 y (m − 1) ~. Si m − 1 > −j podemos aplicar de nuevo
el lema y J− |j, m − 1, ki = (J− )2 |j, m, ki ≡ |j, m − 2, ki es vector propio
h no nulo de iJ 2 y J3 con valores propios
j (j + 1) ~2 y (m − 2) ~. En general si m − (n − 1) > −j entonces J − (J− )n−1 |j, m, ki = J− |j, m − (n − 1) , ki =
(J− )n |j, m, ki ≡ |j, m − n, ki es vector propio no nulo de J 2 y J3 con valores propios j (j + 1) ~2 y (m − n) ~.
Veremos que estas condiciones se satisfacen solo para n = 0, 1, . . . , p. Si asumimos que 0 ≤ n ≤ p entonces
m − (n − 1) = m − n + 1 ≥ m − p + 1 ≥ −j + 1
m − (n − 1) ≥ −j + 1 > −j
de modo que la condición m − (n − 1) > −j necesaria para aplicar el lema 5 se cumple cuando n = 0, 1, . . . , p.
Ahora veamos lo que ocurre con el vector (J − )p+1 |j, m, ki = J− [(J− )p |j, m, ki]. Puesto que (J− )p |j, m, ki es
autovector de J2 y J3 con valores propios j (j + 1) ~2 y (m − p) ~, el lema 4 Ec. (10.26) nos dice que (m − p) ≥ −j.
Asumamos de momento que
(m − p) > −j
una aplicación adicional del lema 5 nos dice que J − [(J− )p |j, m, ki] es autovector no nulo de J2 y J3 con valores
propios j (j + 1) ~2 y (m − p − 1) ~. Ahora aplicando la Ec. (10.29) se tiene que
m − p − 1 < −j
lo cual contradice al lema 4 Ec. (10.26). Por tanto debemos rechazar la hipótesis m − p > −j. Solo nos queda
entonces que m − p = −j y al aplicar el lema 5 se obtiene
y todas las potencias mayores también se anulan. Esta anulación evita el conflicto con el lema 4.
De lo anterior se deduce que existe un entero no negativo p tal que
m − p = −j (10.31)
j ≤ m+q <j +1
consiste de vectores no nulos, pero potencias mayores de J + producen vectores nulos con lo cual se evita una
contradicción con el lema 4. Esto implica a su vez que existe un entero no negativo q tal que
m+q =j (10.33)
aquı́ aparece una diferencia con respecto al oscilador armónico, ya que ambos operadores J + y J− tienen una sucesión
limitada de potencias que generan vectores no nulos. En el oscilador armónico, la sucesión de a † no está limitada.
Esto tiene que ver con el hecho de que J + ( J− ) es un operador que incrementa (decrementa) el valor de m dejando j
sin cambiar. Pero para un j dado, m tiene lı́mite superior e inferior, por tanto hay lı́mites tanto para el decremento
como para el incremento. Otra diferencia importante es la degeneración y el hecho de que el conjunto J 2 , J3 no
forma en general un C.S.C.O.
Combinando las Ecs. (10.31, 10.33) se tiene que
p+q
p + q = 2j ⇒ j =
2
pero p + q es un entero no negativo. Por tanto, j solo puede adquirir valores enteros o semienteros no negativo
1 3 5
j = 0, , 1, , 2, , . . .
2 2 2
Estos son los valores posibles pero no hemos demostrado que tenga que tomarlos todos (de hecho no es ası́ en
general). Adicionalmente, si existe un autovector no nulo |j, m, ki de J 2 y J3 , las sucesiones (10.30, 10.32) constan
de autovectores no nulos de J2 con valores propios j (j + 1) ~2 y también de J3 con autovalores dados por
es decir tenemos 2j + 1 valores posibles de m para un j dado. Puesto que estos valores se obtienen de las sucesiones
ya mencionadas, todos los 2j + 1 valores de m posibles bajo la restricción (10.26) son valores propios accesibles para
un valor dado de j.
Podemos sintetizar estos resultados en la siguiente forma: Sea J un momento angular arbitrario que obedece
las reglas de conmutación (10.6). Si j (j + 1) ~ 2 y m~ denotan los autovalores de J2 y J3 asociados al ket común
|j, m, ki. Tenemos que
y puesto que los vectores {|j, m, ki i} asociados a E (j, m) son ortonormales por hipótesis, se tiene
Theorem 10.1 Sean |j, m, k1 i y |j, m, k2 i dos autovectores ortogonales de J 2 y J3 con valores propios j (j + 1) ~2 ,
m~, y k1 6= k2 . Entonces J± |j, m, k2 i es ortogonal a J± |j, m, k1 i.
por tanto podemos construı́r vectores ortonormales asociados a |j, m ± 1, ki para lo cual simplemente debemos
normalizar los vectores J± |j, m, ki.
Comencemos con J+ |j, m, ki, normalizando los vectores J + |j, m, ki obtenemos un conjunto ortonormal en
E (j, m + 1) dado por
J+ |j, m, ki
|j, m + 1, ki ≡ p (10.35)
~ j (j + 1) − m (m + 1)
multipliquemos (10.35) por J− usando (10.17)
J− J+ |j, m, ki J2 − J32 − ~J3 |j, m, ki
J− |j, m + 1, ki = p = p
~ j (j + 1) − m (m + 1) ~ j (j + 1) − m (m + 1)
[j (j + 1) − m (m + 1)] ~ |j, m, ki
= p
j (j + 1) − m (m + 1)
p
J− |j, m + 1, ki = ~ j (j + 1) − m (m + 1) |j, m, ki (10.36)
Vamos a demostrar que el conjunto ortonormal {|j, m + 1, ki} en E (j, m + 1) generado por todos los elementos
de la base {|j, m, ki} de E (j, m) a través de (10.35), constituye una base para E (j, m + 1). La demostración se
hará por contradicción, es decir asumiendo que {|j, m + 1, ki} no es una base, según el teorema 1.23, Pág. 24, esta
negación equivale a decir que existe un vector no nulo |j, m + 1, αi en E (j, m + 1) ortogonal a todos los vectores del
conjunto.
Asumamos que existe un vector no nulo |j, m + 1, αi en E (j, m + 1) ortogonal a todos los elementos del conjunto
ortonormal {|j, m + 1, ki}. Por tanto, α 6= k para todos los k 0 s del conjunto anterior. Dado que m+1 6= −j, el vector
J− |j, m + 1, αi es no nulo en virtud del lema 5, y dicho vector yace en E (j, m). Ahora bien, puesto que α 6= k, el
10.5. CONSTRUCCIÓN DE UNA BASE ESTÁNDAR CON BASE EN UN C.S.C.O 267
teorema 10.1 dice que J− |j, m + 1, αi será ortogonal a todos los vectores J − |j, m + 1, ki. Por otro lado, la Ec. (10.36)
nos dice que J− |j, m + 1, ki es colineal con |j, m, ki. En consecuencia, al barrer toda la base {|j, m, ki} obtenemos
que el conjunto {J− |j, m + 1, ki} generado de esta manera también es una base para E (j, m). De lo anterior vemos
que J− |j, m + 1, αi es un vector no nulo de E (j, m), ortogonal a todos los vectores de la base {|j, m, ki}, pero esto
es imposible en virtud del teorema 1.23. Por tanto, el conjunto de vectores {|j, m + 1, ki} generado por la base
{|j, m, ki} de E (j, m) por medio de (10.35) es completo.
De una forma similar se puede demostrar que cuando m 6= −j podemos definir vectores |j, m − 1i en la forma
J− |j, m, ki
|j, m − 1, ki ≡ p (10.37)
~ j (j + 1) − m (m − 1)
para formar una base ortonormal en E (j, m − 1). Nótese que (10.37) se obtiene de (10.36) reemplazando m → m−1.
Las Ecs. (10.35, 10.37) implican una escogencia de fase cero entre |j, m ± 1, ki y el vector J ± |j, m, ki, de modo que
la constante de proporcionalidad entre ambos es real y positiva. Esta convención de fase cero es conocida como
convención de Cordon-Shortley.
En particular vemos que las Ecs. (10.35) establecen relaciones uno a uno y sobreyectivas entre las bases de
E (j, m) y E (j, m + 1). Igualmente las Ecs. (10.37) nos dan una relación uno a uno y sobreyectiva entre las bases de
E (j, m) y E (j, m − 1). En consecuencia, los espacios E (j, m) y E (j, m ± 1) son de la misma dimensionalidad. Por
inducción se obtiene entonces que la dimensionalidad de cualquier E (j, m) solo depende de j
g (j, m) = g (j)
describamos un procedimiento sistemático para generar una base ortonormal para el espacio completo E. Para
un valor accesible de j encontramos un subespacio de la forma E (j, m) digamos E (j, j), y encontramos una base
ortonormal de dicho espacio {|j, j, ki ; k = 1, . . . , g (j)}. Ahora usando (10.37) contruı́mos iterativamente las bases
para E (j, j − 1) , E (j, j − 2) , . . . , E (j, −j). La unión de las bases de los 2j + 1 subespacios asociados a j nos da una
base ortonormal para el subespacio E (j) dado por
es claro que el espacio E (j) es de dimensionalidad (2j + 1) g (j). Una vez generada la base para un E (j), cambiamos a
otro valor accesible de j y repetimos el procedimiento, barriendo todos los valores accesibles de j. La base ortonormal
para E se obtiene de la unión de las bases asociadas a cada valor de j puesto que
siendo {j1 , j2 , j3 , . . .} los valores accesibles de j en el sistema fı́sico considerado. Insistimos que este debe ser un
subconjunto del conjunto de todos los enteros y semienteros no negativos. La tabla 10.1 describe esquemáticamente
el algoritmo para generar una base para E (j) a partir de la base para E (j, j).
La base generada con este algoritmo se conoce como la base estándar del espacio de estados E, para la cual
existen relaciones de completez y ortonormalidad
g(j)
+j X
X X
hj, m, k j 0 , m0 , k 0 = δjj 0 δmm0 δkk0 ; |j, m, ki hj, m, k| = I (10.40)
j m=−j k=1
Por supuesto podemos empezar por E (j, −j) y construı́r con base en J + . Finalmente, podemos empezar por un
E (j, m) con −j < m < j, en tal caso habrá que generar con J + “hacia arriba” hasta j y con J− “hacia abajo” hasta
−j.
{A1 , A2 , . . . , An }
268 CAPÍTULO 10. TEORÍA GENERAL DEL MOMENTO ANGULAR EN MEC ÁNICA CUÁNTICA
que junto con J2 y J3 formen un C.S.C.O. y que además conmuten con todas las componentes de J
[Ai , J] = 0 ; i = 1, . . . , n
un observable que conmute con las componentes de J se denomina un escalar. Por simplicidad asumiremos que un
solo escalar A es suficiente para formar un C.S.C.O con J 2 y J3 . Veamos la acción de A sobre un estado arbitrario
|j, m, ki de E (j, m), definiendo |ψi ≡ A |j, m, ki tenemos que
donde hemos usado el hecho de que A conmuta con J 2 y J3 . Tenemos entonces que |ψi ≡ A |j, m, ki es autovector
de J2 y J3 con autovalores j (j + 1) ~2 y m~ y por lo tanto pertenece a E (j, m). Por tanto cada subespacio E (j, m)
es globalmente invariante bajo la acción de un operador A que conmute con J 2 y J3 . Si ahora escogemos un valor
de j, el subespacio E (j, j) será en particular invariante bajo A y podemos diagonalizar la restricción de A sobre
E (j, j), con cierta base ortonormal {|j, j, ki} de E (j, j), 3 de modo que
el conjunto {|j, j, ki ; j f ijo; k = 1, . . . , g (j)} es una base ortonormal de E (j, j), a partir de la cual se puede
construı́r la base ortonormal para E (j). Aplicando este procedimiento para cada valor accesible de j obtenemos la
base ortonormal {|j, m, ki} para el espacio completo E.
Los resultados anteriores no requieren que A sea escalar, solo requieren que conmute con J 2 y J3 . Sea {|j, m, ki}
la base de vectores de E (j, m) obtenida por la aplicación sucesiva de J − sobre la base {|j, j, ki}. Veremos que si A
es un escalar, los kets {|j, m, ki} además de ser vectores propios de J 2 y J3 también serán vectores propios de A.
Para ver esto observemos que para un escalar A se tiene
J− |j, j, ki es autovector de A con el mismo autovalor que |j, j, ki (teorema 1.66). Equivalentemente, |j, j − 1, ki es
autovector de A con el mismo autovalor que |j, j, ki. Aplicando sucesivamente este proceso vemos que los kets dados
por
|j, j, ki , |j, j − 1, ki , . . . , |j, −j, ki
son vectores propios de A con valor propio a jk por tanto podemos escribir
el espectro de A es entonces el mismo para todos los subespacios E (j, m) con j fijo, pero depende en general tanto
de j como de k, de modo que un conjunto de números cuánticos (j, m, k) define unı́vocamente a un vector |j, m, ki
de E, como corresponde a un C.S.C.O.
Nótese que un observable que conmute con J 2 y J3 no necesariamente conmuta con J1 y J2 . En particular, el
conjunto (J2 , J3 , A) podrı́a formar un C.S.C.O. sin que A conmute con J 1 y/o J2 . En tal caso sin embargo, J± no
conmuta con A y por tanto J± |j, m, ki no necesariamente es autovector de A con el mismo valor propio de |j, m, ki.
Por tanto, cuando A conmuta con J2 y J3 pero no es escalar, la base {|j, m, ki} obtenida por aplicación sucesiva de
J− sobre {|j, j, ki} debe ser rotada a otra base {|j, m, αi} para diagonalizar a la restricción de A sobre E (j, m). En
cambio cuando A es escalar esta última rotación no es necesaria.
siendo j1 , j2 , j3 , . . . los valores permitidos de j para el sistema en estudio. Esta es una descomposición en subespacios
del tipo E (j, m). Sin embargo los subespacios E (j, m) tienen ciertas desventajas, por un lado su dimensión g (j)
depende del sistema fı́sico especı́fico ya que esta dimensión nos da cuenta de la degeneración asociada al par (j, m),
por tanto g (j) es desconocido al menos en el caso general. Adicionalmente un subespacio del tipo E (j, m) no es
invariante ante J, por ejemplo
1 1 1
J1 |j, m, ki = (J+ + J− ) |j, m, ki = c+ |j, m + 1, ki + c− |j, m − 1, ki (10.44)
2 2 2
de acuerdo con (10.40) este estado es ortonormal a |j, m, ki y no es nulo ya que por lo menos uno de los estados
|j, m + 1, ki , |j, m − 1, ki tiene que ser no nulo y ambos son ortogonales entre sı́.
Examinando la tabla (10.1) vemos que cada subespacio del tipo E (j, m) es generado por la expansión de los
g (j) vectores de la m−ésima fila de la tabla (los g (j) valores posibles de k). Vemos sin embargo que hay otra manera
de agrupar los vectores: podemos generar un subespacio con los (2j + 1) vectores de una columna fija de la tabla,
con lo cual obtenemos un subespacio del tipo E (j, k) puesto que en este caso es el par (j, k) el que permanece fijo
en la expansión.
La descomposición de E quedarı́a en la forma
los subespacios E (j, k) poseen las propiedades siguientes: (a) la dimensión de E (j, k) es 2j + 1 de modo que para
un j dado su dimensión se conoce sin importar el sistema fı́sico que se esté trabajando. (b) E (j, k) es globalmente
invariante bajo J. Incluso se puede demostrar que E (j, k) es irreducible como subespacio invariante de J, es decir
no hay un subespacio propio de E (j, k) que sea invariante bajo J.
Nos limitaremos a demostrar la invarianza de E (j, k) bajo J. Una base para este espacio es de la forma
{|j, m, ki ; m = −j, −j + 1, . . . , j − 1, j}. Para J 3 es inmediato, para J1 tomamos el resultado de la Ec. (10.44)
270 CAPÍTULO 10. TEORÍA GENERAL DEL MOMENTO ANGULAR EN MEC ÁNICA CUÁNTICA
notando que los dos kets son estados con el mismo valor de j, k y solo difieren en m. Por tanto J 1 |j, m, ki pertenece
a E (j, k). Para J2 el argumento es similar. En general E (j, k) será invariante bajo cualquier función del tipo F (J),
lo cual se puede ver simplemente de la expansión de Taylor de F (J) y de que E (j, k) es invariante ante cualquier
potencia de J.
combinando las Ecs. (10.9, 10.46) encontramos la acción de J 1 y J2 sobre los kets de la base
1 ~ hp
J1 j 0 , m 0 , k 0 = (J+ + J− ) j 0 , m0 , k 0 = j 0 (j 0 + 1) − m0 (m0 + 1) j 0 , m0 + 1, k 0
2 2
p i
+ j 0 (j 0 + 1) − m0 (m0 − 1) j 0 , m0 − 1, k 0 (10.47)
1 ~ hp 0 0
J2 j 0 , m 0 , k 0 = (J+ − J− ) j 0 , m0 , k 0 = j (j + 1) − m0 (m0 + 1) j 0 , m0 + 1, k 0
2i 2i
p i
− j (j + 1) − m (m − 1) j 0 , m0 − 1, k 0
0 0 0 0 (10.48)
de las Ecs. (10.46, 10.47, 10.48) y la ortonormalidad de la base, los elementos matriciales de J i y J± quedan
hj, m, k| J3 j 0 , m0 , k 0 = m~δkk0 δjj 0 δmm0 (10.49)
0 0 0 p
hj, m, k| J± j , m , k = ~ j (j + 1) − m0 (m0 ± 1)δkk0 δjj 0 δm,m0 ±1 (10.50)
1 ~ hp
hj, m, k| J1 j 0 , m0 , k 0 = hj, m, k| (J+ + J− ) j 0 , m0 , k 0 = δkk0 δjj 0 j (j + 1) − m0 (m0 + 1)δm,m0 +1
2 2i
p
+ j (j + 1) − m0 (m0 − 1)δm,m0 −1 (10.51)
1 ~ hp
hj, m, k| J2 j 0 , m0 , k 0 = hj, m, k| (J+ − J− ) j 0 , m0 , k 0 = δkk0 δjj 0 j (j + 1) − m0 (m0 + 1)δm,m0 +1
2i 2i
i
p
− j (j + 1) − m0 (m0 − 1)δm,m0 −1 (10.52)
lo cual muestra que los elementos matriciales de J solo dependen de j y m pero no de k. Este hecho implica que la
representación matricial de las componentes de J en la base estándar {|j, m, ki} tiene una forma particularmente
simple cuando descomponemos E en subespacios del tipo E (j, k). Las Ecs. (10.49, 10.50, 10.51, 10.52) muestran que
un operador Ji (o una función de la forma F (J)) tiene elementos matriciales nulos cuando el elemento enlaza dos
kets base asociados a espacios E (j1 , k1 ) y E (j2 , k2 ) con j1 6= j2 y/o con k1 6= k2 . Por tanto la matriz será diagonal
por bloques donde los bloques son todos de dimensión 2j + 1 (que es la dimensión de un espacio E (j, k)) en la forma
E (j, k) ··· E (j, k 0 ) E (j 0 , k 0 ) ···
matriz
E (j, k) 0 0 0
(2j + 1) × (2j + 1)
matriz
E (j, k 0 ) 0 0 0
(2j + 1) × (2j + 1)
(10.53)
..
.
matriz
E (j 0 , k 0 ) 0 0 0
(2j 0 + 1) × (2j 0 + 1)
..
. 0 0 0 0
10.6. REPRESENTACIONES MATRICIALES DE LOS OPERADORES MOMENTO ANGULAR 271
comenzando por el valor de j1 más bajo permitido construı́mos las matrices asociadas a E (j 1 , k1 ) para el k = k1 más
bajo permitido, luego manteniendo j 1 fijo recorremos los posibles valores de k, una vez terminado este recorrido,
continuamos con el siguiente valor permitido j 2 de j, recorriendo el ı́ndice k nuevamente y ası́ sucesivamente. Las
matrices asociadas a estos subespacios son de dimensión 2j i + 1.
Por tanto, lo que debemos hacer es calcular las matrices de dimensión finita (2j + 1) ×(2j + 1) que representan a
cada operador en cada subespacio E (j, k). Adicionalmente, estas matrices no dependen de k y por tanto no dependen
del sistema fı́sico bajo estudio. Solo dependen de j y del operador que se quiere representar.
En sı́ntesis, la representación matricial de una componente J i del momento angular en la base estándar, se puede
calcular dentro de un subespacio de la forma E (j, k) sin alusión alguna al sistema fı́sico que se está trabajando. La
matrices del tipo (Ji )(j) son en consecuencia de carácter universal y representan al operador J i dentro del subespacio
E (j, k) para todos los posibles valores de j es decir j = 0, 12 , 1, . . .. Cuando tenemos un sistema fı́sico especı́fico,
debemos determinar cuales de estos valores de j son permitidos y el número de subespacios E (j, k) asociados con
cada j, es decir el grado de degeneración (2j + 1) g (j). La matriz representativa de J i será entonces diagonal por
bloques con la estructura descrita en la Ec. (10.53), y se puede construı́r a partir de las matrices universales definidas
para cada subespacio E (j, k). Para cada valor de j, tendremos g (j) bloques idénticos de (J i )(j) , es decir todos los
valores posibles de k, una vez que para un j dado se barren los valores posibles de k, se cambia al siguiente valor
0
accesible j 0 y se construyen g (j 0 ) bloques idénticos de (Ji )(j ) y ası́ sucesivamente.
10.6.1. Representaciones matriciales del tipo (Ji )(j) en la base estándar para j arbitrario
De lo anterior, los elementos matriciales para j arbitrario de un operador (J i )(j) dentro de un subespacio E (j, k)
están dados por
hj, m, k| J3 j 0 , m0 , k 0 = m~δkk0 δjj 0 δmm0 (10.54)
2 0 0 0
2
hj, m, k| J j , m , k = j (j + 1) ~ δkk0 δjj 0 δmm0 (10.55)
p
hj, m, k| J± j 0 , m0 , k 0 = ~ j (j + 1) − m0 (m0 ± 1)δkk0 δjj 0 δm,m0 ±1 (10.56)
~ hp
hj, m, k| J1 j 0 , m0 , k 0 = δkk0 δjj 0 j (j + 1) − m0 (m0 + 1)δm,m0 +1
2 i
p
+ j (j + 1) − m0 (m0 − 1)δm,m0 −1 (10.57)
~ hp
hj, m, k| J2 j 0 , m0 , k 0 = δkk0 δjj 0 j (j + 1) − m0 (m0 + 1)δm,m0 +1
2i i
p
− j (j + 1) − m0 (m0 − 1)δm,m0 −1 (10.58)
vemos que la matriz de (J3 )(j) es diagonal, esto se debe a que se eligió a X 3 como el eje de cuantización (la
base estándar consta de vectores propios de J 2 y J3 ), sus elementos son los 2j + 1 valores de m~. Para las matrices
(J1,2 )(j) los únicos elementos no nulos son los que están por encima y por debajo de la diagonal. (J 1 )(j) es una matriz
(j)
simétrica y real en tanto que (J2 )(j) es antisimétrica y puramente imaginaria. La matriz J2 es naturalmente
diagonal ya que esta es una base de vectores propios de J 2 , y adémas sus elementos diagonales son idénticos, de
(j)
modo que J2 es j (j + 1) ~2 I, siendo I la matriz identidad de dimensión (2j + 1) × (2j + 1). La matriz (J + )(j)
solo tiene elementos no nulos por encima de la diagonal, en tanto que la matriz (J − )(j) solo tiene elementos no nulos
por debajo de la diagonal.
Puesto que todas las direcciones del espacio son equivalentes, es claro que la elección del eje de cuantización
es arbitraria. De esto se desprende que todos los J i deben tener los mismos valores propios. Los vectores propios
serán sin embargo diferentes ya que los J i no conmutan entre sı́. En consecuencia, dentro de un subespacio dado
E (j, k) los autovalores de J1 , J2 , J3 son j~, (j − 1) ~, . . . , (−j + 1) ~, −j~. Estos también serán los valores propios de
cualquier componente de la forma Jn = J · n siendo n un vector unitario de dirección arbitraria. Los autovectores
comunes de J2 y J1 son combinaciones lineales de los |j, m, ki con j y k fijos. Lo mismo ocurre con los vectores
propios comunes a J2 y J2 .
272 CAPÍTULO 10. TEORÍA GENERAL DEL MOMENTO ANGULAR EN MEC ÁNICA CUÁNTICA
En conclusión una base ortonormal {|j, m, ki} del espacio de estados compuesta por vectores comunes a J 2 y J3
se denomina un base estándar si la acción de J ± sobre estos vectores está dada por
p
J± |j, m, ki = ~ j (j + 1) − m (m ± 1) |j, m ± 1, ki
de aquı́ en adelante se omite el ı́ndice k ya que las representaciones matriciales no dependen de tal ı́ndice. Estas
expresiones muestran que los elementos diagonales son cero, por tanto
(1/2) 1 1 1 1
(J1 )11 ≡ , J1 , =0
2 2 2 2
(1/2) 1 1 1 1
(J1 )22 ≡ , − J1 , − =0
2 2 2 2
y los términos no diagonales son
"s
(1/2)
1 1 1 1 ~ 3 1 1
(J1 )12 ≡ , J1 , − = − − − + 1 δ 1 ,− 1 +1
2 2 2 2 2 4 2 2 2 2
s #
3 1 1
+ − − − − 1 δ 1 ,− 1 −1
4 2 2 2 2
r
(1/2) ~ 3 1 ~
(J1 )12 = + δ1,1 =
2 4 4 2 2 2
"s
(1/2) 1 1 1 1 ~ 3 1 1
(J1 )21 ≡ , − J1 , = − + 1 δ− 1 , 1 +1
2 2 2 2 2 4 2 2 2 2
s #
3 1 1
+ − − 1 δ− 1 , 1 −1
4 2 2 2 2
(1/2) ~
(J1 )21 =
2
10.6. REPRESENTACIONES MATRICIALES DE LOS OPERADORES MOMENTO ANGULAR 273
este elemento se podı́a también calcular teniendo en cuenta que la matriz de J 1 es simétrica real. La matriz repre-
sentativa queda entonces
(1/2) ~ 0 1
(J1 ) =
2 1 0
de manera similar se calculan los elementos matriciales de los otros operadores, el resultado es
(1/2) ~ 0 1 (1/2) ~ 0 −i (1/2) ~ 1 0
(J1 ) = ; (J2 ) = ; (J3 ) = (10.59)
2 1 0 2 i 0 2 0 −1
2 (1/2) 3 2 1 0 (1/2) 0 1 (1/2) 0 0
J = ~ ; (J+ ) =~ ; (J− ) =~ (10.60)
4 0 1 0 0 1 0
(1) ~ hp
(J2 )23 = h1, m2 | J2 |1, m3 i = h1, 0| J2 |1, −1i = 2 − (−1) [(−1) + 1] δ0,−1+1
p 2i
− 2 − (−1) [(−1) − 1] δ0,−1−1
(1) ~√
(J2 )23 = 2⇒
2i
(1) i~ (1)
(J2 )23 = − √ = − (J2 )23 ⇒
2
la matriz queda entonces
0 −i 0
~
(J2 )(1) = √ i 0 −i
2 0 i 0
de manera similar se obtienen las otras matrices resultando
0 1 0 0 −i 0
~ ~
(J1 )(1) = √ 1 0 1 ; (J2 )(1) = √ i 0 −i
2 0 1 0 2 0 i 0
1 0 0 (1) 1 0 0
(J3 )(1) = ~ 0 0 0 ; J2 = 2~2 0 1 0
0 0 −1 0 0 1
√
0 2 √0 √0 0 0
(J+ )(1) = ~ 0 0 2 ; (J− )(1) = ~ 2 √0 0
0 0 0 0 2 0
274 CAPÍTULO 10. TEORÍA GENERAL DEL MOMENTO ANGULAR EN MEC ÁNICA CUÁNTICA
se puede verificar que las representaciones matriciales construı́das obedecen las reglas de conmutación (10.6). Se
puede verificar que los autovalores de las matrices (J i )(1/2) son todos iguales y están dados por ±~/2. Similarmente,
los valores propios de las matrices (J i )(1) son todos iguales y corresponden a +~, 0, −~. En sı́ntesis todas las carac-
terı́sticas generales discutidas al final de la sección 10.6.1 se cumplen para las matrices calculadas explı́citamente.
Capı́tulo 11
Aplicaremos la teorı́a general desarrollada en el capı́tulo 10 al caso del momento angular orbital que sirvió orig-
inalmente para encontrar el álgebra con la cual se definió un momento angular generalizado. Utilizaremos la base
{|ri} para mostrar que los valores propios de L 2 son de la forma l (l + 1) ~2 son l entero no negativo. Es decir
las consideraciones fı́sicas excluirán a los valores semienteros en tanto que todos los valores enteros no negativos
aparecen en el espectro. Encontraremos también las funciones propias en la base {|ri} y sus principales propiedades.
En la representación {|ri} los observables R y P corresponden a multiplicación por r y al operador diferencial
−i~∇ respectivamente. La cuantización de las tres componentes del momento angular en la base {|ri} se representa
como
L = R× P = −i~r × ∇
~ ∂ ∂ ~ ∂ ∂ ~ ∂ ∂
L1 = x2 − x3 ; L2 = x3 − x1 ; L3 = x1 − x2 (11.1)
i ∂x3 ∂x2 i ∂x1 ∂x3 i ∂x2 ∂x1
L± ≡ L1 ± iL2 (11.2)
será más conveniente trabajar en coordenadas polares esféricas, ya que más adelante veremos que el operador
momento angular solo operará sobre los ángulos θ, ϕ y no sobre la variable r.
x1 = r sin θ cos ϕ ; x2 = r sin θ sin ϕ ; x3 = r cos θ
r ≥ 0 ; 0 ≤ θ ≤ π ; 0 ≤ ϕ < 2π (11.3)
un elemento de volumen d3 r = dx dy dz en coordenadas esféricas está dado por
d3 r = r 2 dr dΩ ; dΩ = sin θ dθ dϕ (11.4)
donde dΩ es un elemento diferencial de ángulo sólido en la dirección de los ángulos θ y ϕ.
A partir de (11.3) calculamos las derivadas parciales
∂x1 ∂x1 ∂x1
= sin θ cos ϕ ; = r cos θ cos ϕ ; = −r sin θ sin ϕ
∂r ∂θ ∂ϕ
∂x2 ∂x2 ∂x2
= sin θ sin ϕ ; = r cos θ sin ϕ ; = r sin θ cos ϕ
∂r ∂θ ∂ϕ
∂x3 ∂x3 ∂x3
= cos θ ; = −r sin θ ; =0
∂r ∂θ ∂ϕ
y las relaciones entre derivadas parciales esféricas y cartesianas nos dan
∂ ∂x1 ∂ ∂x2 ∂ ∂x3 ∂ ∂ ∂ ∂
= + + = sin θ cos ϕ + sin θ sin ϕ + cos θ
∂r ∂r ∂x1 ∂r ∂x2 ∂r ∂x3 ∂x1 ∂x2 ∂x3
∂ ∂x1 ∂ ∂x2 ∂ ∂x3 ∂ ∂ ∂ ∂
= + + = r cos θ cos ϕ + r cos θ sin ϕ − r sin θ
∂θ ∂θ ∂x1 ∂θ ∂x2 ∂θ ∂x3 ∂x1 ∂x2 ∂x3
∂ ∂x1 ∂ ∂x2 ∂ ∂x3 ∂ ∂ ∂
= + + = −r sin θ sin ϕ + r sin θ cos ϕ
∂ϕ ∂ϕ ∂x1 ∂ϕ ∂x2 ∂ϕ ∂x3 ∂x1 ∂x2
276 CAPÍTULO 11. PROPIEDADES DE LOS MOMENTOS ANGULARES ORBITALES
en forma matricial
∂r sin θ cos ϕ sin θ sin ϕ cos θ ∂1
∂θ = r cos θ cos ϕ r cos θ sin ϕ −r sin θ ∂2
∂ϕ −r sin θ sin ϕ r sin θ cos ϕ 0 ∂3
cos θ cos ϕ
∂1 cos ϕ sin θ r − rsin ϕ
sin θ ∂r
∂2 = sin θ sin ϕ cos θ sin ϕ cos ϕ ∂θ (11.5)
r r sin θ
∂3 cos θ − sinr θ 0 ∂ϕ
i sin θ cos θ sin ϕ cos ϕ
L1 = x2 ∂3 − x3 ∂2 = r sin θ sin ϕ cos θ ∂r − ∂θ − r cos θ sin θ sin ϕ ∂r + ∂θ + ∂ϕ
~ r r r sin θ
cos θ cos ϕ
= − sin2 θ sin ϕ ∂θ − cos2 θ sin ϕ ∂θ − ∂ϕ
sin θ
i cos ϕ
L1 = − sin ϕ ∂θ − ∂ϕ (11.6)
~ tan θ
i cos θ cos ϕ sin ϕ sin θ
L2 = x3 ∂1 − x1 ∂3 = r cos θ cos ϕ sin θ ∂r + ∂θ − ∂ϕ − r sin θ cos ϕ cos θ ∂r − ∂θ
~ r r sin θ r
sin ϕ
= cos2 θ cos ϕ ∂θ − cos θ ∂ϕ + sin2 θ cos ϕ ∂θ
sin θ
i sin ϕ
L2 = cos ϕ ∂θ − ∂ϕ (11.7)
~ tan θ
i cos θ sin ϕ cos ϕ
L3 = x1 ∂2 − x2 ∂1 = r sin θ cos ϕ sin θ sin ϕ ∂r + ∂θ + ∂ϕ
~ r r sin θ
cos θ cos ϕ sin ϕ
−r sin θ sin ϕ cos ϕ sin θ ∂r + ∂θ − ∂ϕ
r r sin θ
= sin θ cos θ cos ϕ sin ϕ∂θ + cos2 ϕ ∂ϕ − sin θ cos θ sin ϕ cos ϕ ∂θ + sin2 ϕ ∂ϕ
i
L3 = ∂ ϕ (11.8)
~
con las Ecs. (11.6, 11.7, 11.8), se puede evaluar L 2 = L21 + L22 + L23 , lo cual es más sencillo si lo ponemos actuar
sobre una función arbitraria ψ (r, θ, ϕ)
277
2 2
2 ∂ cos ϕ ∂ ∂ sin ϕ ∂ ∂ 2
L ψ = i~ sin ϕ + ψ + i~ − cos ϕ + ψ + −i~ ψ
∂θ tan θ ∂ϕ ∂θ tan θ ∂ϕ ∂ϕ
∂ cos ϕ ∂ ∂ cos ϕ ∂
= −~2 sin ϕ + sin ϕ + ψ
∂θ tan θ ∂ϕ ∂θ tan θ ∂ϕ
2 ∂ sin ϕ ∂ ∂ sin ϕ ∂ ∂2ψ
−~ − cos ϕ + − cos ϕ + ψ − ~2 2
∂θ tan θ ∂ϕ ∂θ tan θ ∂ϕ ∂ϕ
2 ∂ ∂ψ cos ϕ ∂ψ 2 cos ϕ ∂ ∂ψ cos ϕ ∂ψ
= −~ sin ϕ sin ϕ + −~ sin ϕ +
∂θ ∂θ tan θ ∂ϕ tan θ ∂ϕ ∂θ tan θ ∂ϕ
∂ ∂ψ sin ϕ ∂ψ sin ϕ ∂ ∂ψ sin ϕ ∂ψ ∂2ψ
+~2 cos ϕ − cos ϕ + − ~2 − cos ϕ + − ~2 2
∂θ ∂θ tan θ ∂ϕ tan θ ∂ϕ ∂θ tan θ ∂ϕ ∂ϕ
∂ ∂ψ ∂ψ ∂ 1 cos ϕ ∂ ∂ψ
= −~2 sin ϕ sin ϕ + cos ϕ +
∂θ ∂θ ∂ϕ ∂θ tan θ tan θ ∂θ ∂ϕ
cos ϕ ∂ψ ∂ ∂ ∂ψ 1 ∂ψ ∂ cos ϕ ∂ ∂ψ
−~2 sin ϕ + sin ϕ + cos ϕ +
tan θ ∂θ ∂ϕ ∂ϕ ∂θ tan θ ∂ϕ ∂ϕ tan θ ∂ϕ ∂ϕ
∂ ∂ψ ∂ψ ∂ 1 sin ϕ ∂ ∂ψ
+~2 cos ϕ − cos ϕ + sin ϕ +
∂θ ∂θ ∂ϕ ∂θ tan θ tan θ ∂θ ∂ϕ
2 sin ϕ ∂ψ ∂ ∂ ∂ψ 1 ∂ψ ∂ sin ϕ ∂ ∂ψ ∂2ψ
−~ − cos ϕ − cos ϕ + sin ϕ + − ~2 2
tan θ ∂θ ∂ϕ ∂ϕ ∂θ tan θ ∂ϕ ∂ϕ tan θ ∂ϕ ∂ϕ ∂ϕ
2 2 ∂2ψ 2 ∂ψ ∂ 1 sin ϕ cos ϕ ∂ ∂ψ
L ψ = −~ sin ϕ 2 + sin ϕ cos ϕ +
∂θ ∂ϕ ∂θ tan θ tan θ ∂θ ∂ϕ
2
2 cos ϕ ∂ψ cos ϕ sin ϕ ∂ ∂ψ cos ϕ sin ϕ ∂ψ cos2 ϕ ∂ 2 ψ
−~ + − +
tan θ ∂θ tan θ ∂ϕ ∂θ tan2 θ ∂ϕ tan2 θ ∂ϕ2
2
2 2 ∂ ψ ∂ψ ∂ 1 cos ϕ sin ϕ ∂ ∂ψ
+~ − cos ϕ 2 + cos ϕ sin ϕ +
∂θ ∂ϕ ∂θ tan θ tan θ ∂θ ∂ϕ
2
2 sin ϕ ∂ψ sin ϕ cos ϕ ∂ ∂ψ sin ϕ cos ϕ ∂ψ sin2 ϕ ∂ 2 ψ 2
2∂ ψ
−~ − + + − ~
tan θ ∂θ tan θ ∂ϕ ∂θ tan2 θ ∂ϕ tan2 θ ∂ϕ2 ∂ϕ2
L2 ψ ∂2ψ 2
2 ∂ ψ cos2 ϕ ∂ 2 ψ sin2 ϕ ∂ 2 ψ ∂ 2 ψ
= sin2 ϕ + cos ϕ + + +
−~2 ∂θ 2 ∂θ 2 tan2 θ ∂ϕ2 tan2 θ ∂ϕ2 ∂ϕ2
sin ϕ cos ϕ ∂ ∂ψ sin ϕ cos ϕ ∂ ∂ψ cos ϕ sin ϕ ∂ ∂ψ cos ϕ sin ϕ ∂ ∂ψ
+ − + −
tan θ ∂θ ∂ϕ tan θ ∂ϕ ∂θ tan θ ∂ϕ ∂θ tan θ ∂θ ∂ϕ
∂ψ ∂ 1 ∂ψ ∂ 1 cos ϕ ∂ψ sin2 ϕ ∂ψ
2
+ sin ϕ cos ϕ − cos ϕ sin ϕ + +
∂ϕ ∂θ tan θ ∂ϕ ∂θ tan θ tan θ ∂θ tan θ ∂θ
cos ϕ sin ϕ ∂ψ sin ϕ cos ϕ ∂ψ
− +
tan2 θ ∂ϕ tan2 θ ∂ϕ
∂ cos ϕ ∂
L1 = i~ sin ϕ + (11.10)
∂θ tan θ ∂ϕ
∂ sin ϕ ∂
L2 = i~ − cos ϕ + (11.11)
∂θ tan θ ∂ϕ
~ ∂
L3 = (11.12)
i ∂ϕ
y las Ecs. (11.9, 11.2) nos dicen que los operadores L 2 , L± quedan
2
2 2 ∂ 1 ∂ 1 ∂2
L = −~ + + (11.13)
∂θ 2 tan θ ∂θ sin2 θ ∂ϕ2
∂ ∂
L+ = ~eiϕ + i cot θ (11.14)
∂θ ∂ϕ
−iϕ ∂ ∂
L− = ~e − + i cot θ (11.15)
∂θ ∂ϕ
en la representación {|ri} las funciones propias asociadas a los valores propios l (l + 1) ~ 2 de L2 y m~ de L3 cumplen
y al reemplazar (11.13, 11.12) en las Ecs. (11.16) estas últimas se convierten en ecuaciones diferenciales parciales
cuya solución son las funciones propias
2
∂ 1 ∂ 1 ∂2
− + + ψ (r, θ, ϕ) = l (l + 1) ψ (r, θ, ϕ) (11.17)
∂θ 2 tan θ ∂θ sin2 θ ∂ϕ2
∂
−i ψ (r, θ, ϕ) = m~ψ (r, θ, ϕ) (11.18)
∂ϕ
donde l es en general entero o semientero no negativo y m toma solo los valores −l, −l + 1, . . . , l − 1, l.
Nótese que en las ecuaciones (11.17, 11.18) no hay operador derivada asociado a r. Por tanto r se puede considerar
un parámetro y asumir una separación de variables de la forma
f (r) es una función de r que aparece como constante de integración para las ecuaciones diferenciales (11.17, 11.18).
Es importante tener en cuenta que f (r) debe ser tal que ψ lm (r, θ, ϕ) = f (r) Ylm (θ, ϕ) sea de cuadrado integrable.
El hecho de que f (r) sea arbitrario nos indica que L 2 y L3 no forman un C.S.C.O. en el espacio E r de funciones
de r es decir de funciones en r, θ, ϕ. En virtud de esto deberı́amos introducir un ı́ndice adicional en las Ecs. (11.20,
11.2. VALORES PERMITIDOS DE L Y M 279
11.21) para las soluciones indicando la posible degeneración de éstas. Sin embargo, veremos que estas soluciones
serán únicas para l y m dados salvo por un factor constante. Esto indica que toda la degeneración estará en el factor
f (r) en la Ec. (11.19).
Para normalizar la función completa ψ lmk (r, θ, ϕ) es conveniente normalizar la parte angular Y lm (θ, ϕ) y la parte
radial f (r) separadamente. Estas relaciones de normalización se manifestarán en ecuaciones de la forma
Z 2π Z
dϕ sin θ |Ylm (θ, ϕ)|2 dθ = 1
0
Z ∞
r 2 |f (r)|2 dr = 1
0
podemos cubrir todo el espacio barriendo ϕ entre 0 y 2π. Nótese que si Y lm (θ, ϕ) no fuera contı́nua en algún valor
de θ, ϕ, no serı́a diferenciable y no podrı́a ser función propia de los operadores diferenciales L 3 y L2 . En particular
la continuidad en ϕ = 0 nos lleva a
Ylm (θ, ϕ = 0) = Ylm (θ, ϕ = 2π)
que implica además
e2imπ = 1 (11.23)
m solo puede ser entero o semientero. Si m es semientero se puede parametrizar como m = (n + 1/2) con n =
0, 1, 2, . . ., en este caso se tiene
1
e2imπ = e2(n+ 2 )iπ = e2niπ eiπ = −1
de modo que si m es semientero viola la condición (11.23). Por otro lado, sabemos que l y m son ambos enteros o
ambos semienteros. En consecuencia, tanto m como l solo pueden tomar valores enteros.
La siguiente pregunta natural es si l puede tomar todos los valores enteros no negativos. Para ello tendremos en
cuenta que según la teorı́a general (lema 6, Pág. 263) se debe satisfacer
finalmente
d
− l cot θ Fll (θ) = 0 (11.25)
dθ
teniendo en cuenta que
d (sin θ)
cot θ dθ = (11.26)
sin θ
la solución general de la ecuación es
Fll (θ) = cl (sin θ)l (11.27)
siendo cl una constante de normalización. Se puede demostrar inversamente que esta función es función propia de
L2 y L3 con autovalores l (l + 1) ~2 y l~. Usando (11.12) y (11.22) vemos que
~ ∂ h i il~
L3 Yll (θ, ϕ) = Fll (θ) eilϕ = Fll (θ) eilϕ
i ∂ϕ i
280 CAPÍTULO 11. PROPIEDADES DE LOS MOMENTOS ANGULARES ORBITALES
L2 Yll (θ, ϕ) = (L3 + ~) (l~) Yll (θ, ϕ) = (l~ + ~) (l~) Yll (θ, ϕ)
L2 Yll (θ, ϕ) = l (l + 1) ~2 Yll (θ, ϕ)
por tanto para cada valor entero no negativo de l, existe una función Y ll única dentro de factores constantes de la
forma
Yll (θ, ϕ) = cl (sin θ)l eilϕ (11.29)
y a través de la acción iterativa de L − podemos construı́r Yl,l−1 , . . . , Yl,m , . . . , Yl,−l . En sı́ntesis, para cada par (l, m)
con l entero no negativo y m entero con la condición −l ≤ m ≤ l; existe una y solo una función Y lm (θ, ϕ) (dentro
de factores constantes), que se puede calcular de (11.29) y que es función propia de L 2 y L3 con valores propios
l (l + 1) ~2 y m~. A estas autofunciones se les denomina armónicos esféricos.
teniendo en cuenta la expresión del ángulo sólido (11.4) esta se escribe como
Z 2π Z π
dϕ sin θ dθ Yl∗0 m0 (θ, ϕ) Ylm (θ, ϕ) = δll0 δmm0 (11.30)
0 0
es un hecho además que cualquier función de θ y ϕ se puede expandir en términos de los armónicos esféricos
∞ X
X +l Z 2π Z π
∗
f (θ, ϕ) = clm Ylm (θ, ϕ) ; clm = hlm| f i = dϕ sin θ dθ Ylm (θ, ϕ) f (θ, ϕ)
l=0 m=−l 0 0
1
La constante de normalización para Ylm (θ, ϕ) arbitrario se puede calcular determinando la constante de normalización para Yll (θ, ϕ)
en la Ec. (11.29) y usando la Ec. (10.37) de la Pág. 267, que garantiza la normalización de cada Y lm (θ, ϕ) generado a través de L− a
partir de Yll (θ, ϕ).
11.4. CONSTRUCCIÓN DE BASES ESTÁNDAR DE LA FUNCIÓN DE ONDA ESPACIAL DE UNA PARTÍCULA S
por tanto los armónicos esféricos son una base ortonormal en el espacio E Ω de funciones de θ y ϕ. Esto se expresa
con relaciones de completez que aplican en este espacio
∞ X
X +l
∗
δ (θ − θ 0 ) δ (ϕ − ϕ0 )
Ylm (θ, ϕ) Ylm θ 0 , ϕ0 = δ cos θ − cos θ 0 δ ϕ − ϕ0 =
sin θ
l=0 m=−l
la inclusión de δ (cos θ − cos θ 0 ) en la relación de completez se debe a que el elemento diferencial de ángulo sólido se
escribe como dΩ = sin θ dθ dϕ = −d (cos θ) dϕ.
r →r , θ →π−θ , ϕ→π+ϕ
Todos los elementos de estas bases cumplen con las Ecs. (10.19, 10.46), que en este contexto se escriben como
pero ya hemos visto que todas las funciones propias de L 2 y L3 correspondientes a un par especı́fico (l, m) poseen la
misma dependencia angular denotada por Y lm (θ, ϕ). Es decir la variación de k para l, m fijos, solo hace que varı́e la
dependencia radial de ψl,m,k (r). De las Ecuaciones (11.19) ya dedujimos que las funciones propias ψ l,m,k (r) tienen
la forma
ψl,m,k (r) = Rl,m,k (r) Ylm (θ, ϕ) (11.33)
apliquemos el operador L± sobre la Ec. (11.33) teniendo en cuenta que tales operadores solo actúan sobre la
componente angular
p
L± ψl,m,k (r) = Rl,m,k (r) L± Ylm (θ, ϕ) = ~ l (l + 1) − m (m ± 1)Rl,m,k (r) Yl,m±1 (r)
282 CAPÍTULO 11. PROPIEDADES DE LOS MOMENTOS ANGULARES ORBITALES
comparando con la Ec. (11.32) vemos que la función radial debe satisfacer para todo r la condición
la aplicación sucesiva de L± nos lleva a que R (r) no puede depender de m. Este resultado se puede enunciar de la
siguiente manera: Si {ψl,m,k (r)} constituye una base estándar de E r , su función radial asociada no puede depender
de m de modo que estas funciones se escriben como
Podrı́amos estar tentados a pensar que la función radial solo depende de la degeneración k. Sin embargo, la
función radial también depende en general de l por la siguiente razón: una función de la forma f (r) g (θ, ϕ) solo
puede ser contı́nua en el origen (r = 0, θ y ϕ arbitrarios) si g (θ, ϕ) se reduce a una constante o si f (r) tiende a
cero cuando r → 0 con f (0) = 0. Para ver esto, basta con observar que si g (θ, ϕ) es no trivial, entonces el lı́mite de
f (r) g (θ, ϕ) cuando r → 0 dependerá de la dirección por la cual nos aproximemos al origen si f (r) no tiende a cero
cuando r → 0. De lo anterior vemos que si requerimos que ψ l,m,k (r) sea contı́nuo, entonces solo las funciones radiales
con l = 0 pueden ser no nulas en el origen (puesto que Y 00 es constante). Si además requerimos diferenciabilidad
hasta cierto orden en el origen obtendremos condiciones sobre R l,k (r) que dependen de l.
Las relaciones de ortonormalidad de estas funciones se escriben en la forma
Z Z ∞
3 ∗
d r ψl,m,k (r) ψl0 ,m0 ,k0 (r) = r 2 dr Rl,k
∗
(r) Rl0 ,k0 (r)
0
Z 2π Z π
∗
× dϕ sin θ dθ Ylm (θ, ϕ) Yl0 m0 (θ, ϕ) = δkk0 δll0 δmm0
0 0
y dado que los armónicos esféricos son ortonormales Ec. (11.30) tenemos que
Z ∞ Z 2π Z π
2 ∗ ∗
r dr Rl,k (r) Rl0 ,k0 (r) dϕ sin θ dθ Ylm (θ, ϕ) Yl0 m0 (θ, ϕ) = δkk0 δll0 δmm0
0 0 0
Z ∞
δll0 δmm0 r 2 dr Rl,k
∗
(r) Rl0 ,k0 (r) = δkk0 δll0 δmm0 (11.35)
0
Z ∞
r 2 dr Rl,k
∗
(r) Rl,k0 (r) = δkk0 (11.36)
0
de modo que las funciones radiales R l,k (r) están normalizadas con respecto a r y dos funciones radiales asociadas
al mismo valor de l pero con diferente valor de k son ortogonales.
Nótese que la relación (11.36) proviene del hecho de que las funciones ψ l,l,k (r) = Rl,k (r) Yll (θ, ϕ) que se esco-
gieron como base en el subespacio Er (l, l) son ortonormales. Por tal razón, es esencial que el ı́ndice l sea el mismo en
ambas funciones radiales de la ecuación (11.36). Si l 6= l 0 entonces ψl,m,k y ψl0 ,m0 ,k0 deben ser ortogonales puesto que
corresponden a funciones propias de L 2 con diferente valor propio, pero la ortogonalidad de los armónicos esféricos
ya garantiza la ortogonalidad de las ψ 0 s cuando l 6= l 0 , de modo que en general la integral a la izquierda de (11.36)
toma cualquier valor, esto se puede apreciar haciendo l 6= l 0 en (11.35).
por tanto L1 |l, m, ki es una combinación lineal de los estados |l, m + 1, ki y |l, m − 1, ki, similarmente ocurre con
L2 |l, m, ki, esto nos lleva por tanto a que
para calcular las desviaciones medias cuadráticas debemos calcular los valores esperados de L 21 , L22
1
hl, m, k| L21 |l, m, ki = hl, m, k| (L+ + L− ) (L+ + L− ) |l, m, ki
4
1
= hl, m, k| L2+ + L2− + L+ L− + L− L+ |l, m, ki
4
1
hl, m, k| L22 |l, m, ki = − hl, m, k| (L+ − L− ) (L+ − L− ) |l, m, ki
4
1
= − hl, m, k| L2+ + L2− − L+ L− − L− L+ |l, m, ki
4
los términos con L2± no contribuyen puesto que L2+ |l, m, ki = c± |l, m ± 2, ki. Por tanto ambos valores esperados
son idénticos. Usando la Ec. (10.17) se obtiene
1
hl, m, k| L21 |l, m, ki = hl, m, k| L22 |l, m, ki = hl, m, k| [L+ L− + L− L+ ] |l, m, ki
4
1 ~2
= hl, m, k| 2L2 − 2L23 |l, m, ki = l (l + 1) − m2 (11.38)
4 2
las desviaciones medias cuadráticas son
~2
(∆L1 )2 = (∆L2 )2 = hl, m, k| L21 |l, m, ki − [hl, m, k| L1 |l, m, ki]2 = l (l + 1) − m2
2
en resumen cuando la partı́cula está en el estado |l, m, ki, los valores esperados y raı́ces de las desviaciones medias
cuadráticas de L1 y L2 son
p resultado posee el siguiente análogo clásico: asumamos un momento angular clásico de módulo |L| = L =
Este
~ l (l + 1) y cuya tercera componente L 3 es igual a m~. Si graficamos a L en un espacio de configuración con ejes
L1 , L2 , L3 colocando el vector L con la cola en el origen, podemos describir tal vector en coordenadas esféricas con
ángulo polar θ y ángulo azimutal ϕ
asumamos ahora que los valores de L y θ son conocidos y que el ángulo azimutal ϕ es una variable aleatoria que
puede tomar cualquier valor en el intervalo [0, 2π) con igual probabilidad en todo el rango. Si promediamos sobre ϕ
tenemos
Z 2π
~p 2
L1 = [l (l + 1) − m ] cos ϕ dϕ = 0
2π 0
Z 2π
~p
L2 = [l (l + 1) − m2 ] sin ϕ dϕ = 0
2π 0
L1 = L 2 = 0 (11.39)
adicionalmente
Z 2π
~2 ~2
L21 = l (l + 1) − m2 cos2 ϕ dϕ =
l (l + 1) − m2
2π 0 2
Z 2π
~2 ~2
L22 = l (l + 1) − m2 sin2 ϕ dϕ = l (l + 1) − m2
2π 0 2
~ 2
L21 = L22 = l (l + 1) − m2 (11.40)
2
vemos que los promedios clásicos de L 1 , L2 , L21 , L22 dados por las Ecs. (11.39, 11.40) son idénticos a los valores
esperados cuánticos dados en las Ecs. (11.37,
para una partı́cula en el estado |l, m, ki. Por tanto, en lo
11.38)
que concierne a los valores de hL1 i, hL2 i , L21 , L22 , una partı́cula cuántica en el estado |l, m, ki se comporta de
p
manera similar a una particula clásica con momento angular de magnitud L = ~ l (l + 1) y con tercera componente
L3 = m~ para el cual ϕ es una variable aleatoria con distribución uniforme de probabilidad sobre el intervalo [0, 2π).
No obstante, este análogo clásico también tiene sus limitaciones. Por ejemplo en este modelo clásico puesto que
ϕ es aleatoria
p y puede tomarp cualquier valor en el contı́nuo nos lleva a que L 1 y L2 puede tomar cualquier valor
entre −~ [l (l + 1) − m2 ] y ~ [l (l + 1) − m2 ]. En contraste, para el caso cuántico los valores accesibles de todas las
componentes para una medida individual de la partı́cula en el estado |l, m, ki están cuantizados. Especı́ficamente,
hemos visto que los valores accesibles de L 1 y L2 coinciden con los de L3 , puesto que l es fijo hay 2l + 1 valores
accesibles que son l~, (l − 1) ~, . . . , (−l + 1) ~, −l~.
de acuerdo con los postulados, la probabilidad P L2 ,L3 (l, m) está dada por
X
PL2 ,L3 (l, m) = |cl,m,k |2 (11.43)
k
l
X l
X X
PL2 (l) = PL2 ,L3 (l, m) = |cl,m,k |2 (11.44)
m=−l k m=−l
estrictamente la condición l ≥ |m| se satisface automáticamente ya que no hay coeficientes c l,k,m con l < |m|.
Adicionalmente, si tenemos en cuenta que L 2 , Li , L± son operadores diferenciales que solo actúan sobre las
variables angulares, solo la dependencia angular en ψ (r) será relevante para calcular estas probabilidades. En
consecuencia, r se puede ver como un parámetro para estos cálculos (cantidad arbitraria pero fija). Si consideramos
que ψ (r, θ, ϕ) es función de las variables θ, ϕ y que r es un parámetro, entonces como toda función de θ y ϕ se
podrá expandir en armónicos esféricos con coeficientes que dependen del parámetro r
XX
ψ (r, θ, ϕ) = al,m (r) Ylm (θ, ϕ) (11.46)
l m
Z 2π Z π
∗
alm (r) = hlm| ψi = dϕ sin θ dθ Ylm (θ, ϕ) ψ (r, θ, ϕ) (11.47)
0 0
si comparamos las expansiones (11.41, 11.46) vemos que los c l,m,k son los coeficientes de la expansión de a l,m (r) en
las funciones Rl,k (r)
X
al,m (r) = cl,m,k Rl,k (r) (11.48)
k
cl,m,k = r 2 dr Rl,k
∗
(r) al,m (r) (11.49)
0
la Ec. (11.49) es la inversa de (11.48). De hecho la Ec. (11.49) se puede obtener multiplicando (11.48) por r 2 Rl,k
∗ (r),
integrando en r y utilizando la relación de ortonormalidad (11.36). Usando las Ecs. (11.36, 11.48) se obtiene
Z ∞ Z ∞ " #" #
X X
r 2 dr |al,m (r)|2 = r 2 dr c∗l,m,k Rl,k
∗
(r) cl,m,k0 Rl,k0 (r)
0 0 k k0
Z ∞ XX Z ∞ X
r 2 dr |al,m (r)|2 = c∗l,m,k cl,m,k0 r 2 dr Rl,k
∗
(r) Rl,k0 (r) = c∗l,m,k cl,m,k0 δkk0
0 k k0 0 k,k 0
Z ∞ X
r 2 dr |al,m (r)|2 = |cl,m,k |2
0 k
por lo tanto, la probabilidad PL2 ,L3 (l, m) descrita por la Ec. (11.43) se puede reescribir como
Z ∞
PL2 ,L3 (l, m) = r 2 dr |al,m (r)|2 (11.50)
0
286 CAPÍTULO 11. PROPIEDADES DE LOS MOMENTOS ANGULARES ORBITALES
en sı́ntesis, para calcular las probabilidades asociadas a las medidas de los observables L 2 y L3 podemos considerar
a la función de onda solo como función de las variables θ, ϕ y expandir dicha función en armónicos esféricos como
se vé en la Ec. (11.46). Los coeficientes de esta expansión se usan entonces para calcular las probabilidades como se
vé en las Ecs. (11.50, 11.51).
Ahora bien, la Ec. (11.12) nos muestra que el operador L 3 solo depende del ángulo azimutal ϕ. Por tanto, para
el cálculo de PL3 (m) podemos considerar a ϕ como la única variable en ψ (r) siendo r y θ parámetros en la función
de onda. Para ver esto basta con observar que los armónicos esféricos son el producto de una función de solo θ por
una función de solo ϕ
eimϕ
Ylm (θ, ϕ) = Zlm (θ) √ (11.52)
2π
con esta parametrización cada una de las funciones del producto está normalizada, esto se vé teniendo en cuenta
que
Z 2π 0
e−imϕ eim ϕ
dϕ √ √ = δmm0
0 2π 2π
si sustituı́mos esto en la relación de ortonormalidad para los armónicos esféricos Ec. (11.30) encontramos que
Z 2π Z π
dϕ sin θ dθ Yl∗0 m0 (θ, ϕ) Ylm (θ, ϕ) = δll0 δmm0
0 0
Z 2π Z π " #
e −im0 ϕ eimϕ
∗
dϕ sin θ dθ Zl0 m0 (θ) √ Zlm (θ) √ = δll0 δmm0
0 0 2π 2π
"Z #Z
2π −im0 ϕ imϕ π
e e
√ √ dϕ sin θ dθ Zl∗0 m0 (θ) Zlm (θ) = δll0 δmm0
0 2π 2π 0
Z π
δmm0 sin θ dθ Zl∗0 m0 (θ) Zlm (θ) = δll0 δmm0 (11.53)
0
Z π
∗
sin θ dθ Zl,m (θ) Zl0 ,m (θ) = δll0 (11.54)
0
nótese que en esta relación solo aparece un número cuántico m ya que si m 6= m 0 ambos miembros en (11.53) se
anulan para cualquier valor de la integral que aparece a la izquierda de (11.53), de modo que a priori esta integral
puede tomar cualquier valor.
Tomaremos entonces para el cálculo de P L3 a la función de onda ψ (r) como una función que solo depende de ϕ
como variable y que depende solo paramétricamente de θ y r. Su expansión de Fourier será
X Z 2π
eimϕ 1
ψ (r, θ, ϕ) = bm (r, θ) √ ; bm (r, θ) = √ dϕ e−imϕ ψ (r, θ, ϕ) (11.55)
m 2π 2π 0
multiplicando a ambos lados de (11.58) por sin θ dθ y por el conjugado de cada miembro e integrando resulta
" #" #
X X
bm (r, θ) b∗m (r, θ) sin θ dθ = al,m (r) Zlm (θ) a∗l0 ,m (r) Zl∗0 m (θ) sin θ dθ
l l0
Z π XX Z π
2
|bm (r, θ)| sin θ dθ = al,m (r) a∗l0 ,m (r) Zlm (θ) Zl∗0 m (θ) sin θ dθ
0 l l0 0
usando la segunda Ec. (11.63), la probabilidad P L2 ,L3 dada en (11.50) queda en la forma
Z ∞ Z ∞
2 2
PL2 ,L3 (l, m) = 2
r dr |al,m (r)| = |dl,m | r 2 dr |f (r)|2
0 0
Z 2π Z π
2 ∗
PL2 ,L3 (l, m) = |dl,m | ; dlm ≡ dϕ sin θ dθ Ylm (θ, ϕ) g (θ, ϕ) (11.64)
0 0
donde hemos usado la condición de normalización radial (11.62). Esta probabilidad es totalmente independiente de
la parte radial de la función de onda f (r).
288 CAPÍTULO 11. PROPIEDADES DE LOS MOMENTOS ANGULARES ORBITALES
Por supuesto la Ec. (11.65) es un caso especial de (11.61) de modo que los resultados precedentes son válidos aquı́.
Pero la separación adicional nos permite simplificar el cálculo de P L3 , pues la expansión (11.55) queda en este caso
en la forma
X Z 2π
eimϕ 1
f (r) h (θ) k (ϕ) = bm (r, θ) √ ; bm (r, θ) = √ f (r) h (θ) dϕ e−imϕ k (ϕ)
m 2π 2π 0
X e imϕ
f (r) h (θ) k (ϕ) = f (r) h (θ) cm √ ; bm (r, θ) ≡ cm f (r) h (θ) (11.67)
m 2π
quedando finalmente Z
X eimϕ 1 2π
k (ϕ) = cm √ ; cm ≡ √ dϕ e−imϕ k (ϕ) (11.68)
m 2π 2π 0
de modo que una medida de L2 y/o L3 da el valor cero con total certeza.
Ahora modifiquemos solo la dependencia con θ
r
3 1
h (θ) = cos θ ; k (ϕ) = √
2 2π
r
3
ψ (r) = f (r) cos θ = Y10 (θ, ϕ)
4π
11.7. EJEMPLOS DE CÁLCULOS DE PROBABILIDAD PARA L2 Y L3 289
de nuevo tenemos certeza total sobre los valores de L 2 y L3 en una medida (l = 1, m = 0). Para L2 obtenemos
2~2 y para L3 tendremos cero. Vemos que la modificación de la dependencia de θ no modifica las predicciones
concernientes a L3 puesto que tales predicciones solo dependen del ángulo ϕ.
Ahora modificamos la dependencia de ϕ (con respecto al primer problema) de modo que
1 eiϕ
h (θ) = √ ; k (ϕ) = √
2 2π
eiϕ
ψ (r) = f (r) √
4π
la dependencia angular ya no está dada por un solo armónico esférico. Aplicando (11.69) vemos que P L3 (m) nos da
Z 2π Z 2π
2 1 −imϕ 1
PL3 (m) = |cm | ; cm ≡√ dϕ e k (ϕ) = dϕ e−imϕ eiϕ = δm1
2π 0 2π 0
PL3 (m) = δm1
por tanto m solo puede tomar el valor m = 1, vemos entonces que las predicciones sobre L 3 han cambiado por la
introducción de la dependencia azimutal. Las predicciones
√ sobre L 2 cambian también con respecto a las dadas por
iϕ
(11.70). Para calcular PL2 es necesario expandir e / 4π en armónicos esféricos. Se puede verificar que todos los
armónicos con l impar y m = 1 aparecen en dicha expansión. Por tanto, ya no hay certeza en la medida de L 2 sino
una distribución de probabilidad. Tal como ya se discutió, la dependencia de ϕ entra en las predicciones sobre L 2 .
Capı́tulo 12
En mecánica cuántica es frecuente encontrarse con el problema de dos partı́culas interactuantes como es el caso
de la interacción electrón núcleo en un átomo hidrogenoide (sistema consistente en un núcleo y un electrón). Cuando
la interacción entre las dos partı́culas se puede describir por un potencial que solo depende de la posición relativa
entre ambas, es posible demostrar al igual que en mecánica clásica, que el problema se puede reducir al estudio
de una sola partı́cula ficticia. Además cuando la interacción entre las partı́culas depende solo de la distancia entre
ellas, el sistema equivalente es la partı́cula ficticia sujeta a un potencial central.
Una vez que el problema se reduce al problema equivalente de una partı́cula, se considerarán las propiedades
mecano cuánticas de una partı́cula sujeta a un potencial central V (r). Este problema está ı́ntimamente relacionado
con el problema del momento angular, ya que el hecho de que V (r) sea invariante ante rotaciones alrededor del
origen significará que el Hamiltoniano H conmuta con todas las componentes del momento angular orbital L, es
decir es un escalar. Esto simplificará considerablemente el problema de valores propios ya que será posible construı́r
una base común de funciones propias de H, L 2 y L3 . Esto a su vez permitirá que la dependencia angular de la
ecuación de valores propios se convierta en el problema de valores propios del momento angular orbital que ya se
ha estudiado en detalle. Por tanto, el problema se reducirá a encontrar la dependencia radial.
Consideremos un sistema de dos masas puntuales m 1 y m2 como lo indica la Fig. 12.1, donde las únicas fuerzas
que actúan sobre ellas son las debidas al potencial mutuo U . La isotropı́a del espacio nos sugiere que si las masas no
poseen alguna propiedad vectorial, la interacción entre ellas debe ir dirigida a lo largo de la lı́nea que las une, esto
indica que el potencial debe ser función del valor absoluto de la coordenada relativa r 2 − r1 ≡ r. Este sistema tiene
12.1. EL PROBLEMA DE DOS CUERPOS Y SU REDUCCI ÓN AL PROBLEMA EQUIVALENTE DE UNA PART ÍC
seis grados de libertad y por tanto requiere de seis coordenadas generalizadas. Quizás el sistema de coordenadas
generalizadas más conveniente lo constituye las coordenadas de posición del centro de masa R, y las coordenadas
que determinan al vector relativo r. Estas coordenadas se pueden escribir en términos de las coordenadas de posición
de las partı́culas r1 y r2
m1 r1 + m 2 r2
r ≡ r 2 − r1 ; R ≡ (12.1)
m1 + m 2
estas ecuaciones se pueden invertir para obtener
m2
r1 = R − r
m1 + m 2
m1
r2 = R+ r (12.2)
m1 + m 2
también son útiles las coordenadas de posición de las partı́culas relativas al centro de masa r 01 y r02
con lo cual
m2
r01 = − r
m1 + m 2
m1
r02 = r (12.4)
m1 + m 2
En esta sección consideraremos una situación algo más general en donde el potencial puede depender también de
las derivadas temporales del vector relativo r. El Lagrangiano del sistema se puede escribir como
L = T Ṙ, ṙ − U (r, ṙ, ..)
es bien sabido que la energı́a cinética de un sistema clásico de partı́culas se puede escribir como la energı́a cinética
del centro de masa mas la energı́a cinética con respecto al centro de masa
1 1 1 1 1
T Ṙ, ṙ = m1 ṙ21 + m2 ṙ22 = m1 ṙ02 02
1 + m2 ṙ2 + M Ṙ
2
(12.5)
2 2 2 2 2
donde M ≡ m1 +m2 . Usando (12.4) se puede escribir la energı́a cinética en términos de las coordenadas generalizadas
elegidas i.e. las componentes de Ṙ y ṙ
1 m1 m2 2 1
T = ṙ + M Ṙ2
2 M 2
el Lagrangiano queda de la forma
1 1 m1 m2 2
L = M Ṙ2 + ṙ − U (r, ṙ, ..) (12.6)
2 2 M
se puede ver que las coordenadas de R son todas cı́clicas, es decir no aparecen en el Lagrangiano pero sı́ aparecen
las coordenadas Ṙ. Si elegimos como coordenadas generalizadas las tres componentes cartesianas de R, vemos que
los tres momentos lineales (que serı́an los momentos canónicos) son constantes y por tanto, Ṙ = cte, de modo que
el centro de masa está en reposo o movimiento rectilı́neo uniforme 1
R = R0 + Ṙt (12.7)
si nuestro sistema original de referencia es inercial, entonces el sistema con origen en el centro de masa también lo
es. Podemos entonces ver el movimiento a partir del centro de masa en cuyo caso el Lagrangiano queda
1 2
L= µṙ − U (r, ṙ, ..) (12.8)
2
1
Desde el punto de vista Newtoniano esto se puede ver por el hecho de que el sistema está aislado, de modo que el centro de masa no
puede estar acelerado. En términos de simetrı́as, se dice que el sistema tiene invarianza traslacional que conduce a la conservación del
momento lineal.
292 CAPÍTULO 12. INTERACCIONES CENTRALES EN MEC ÁNICA CUÁNTICA
P2 p2
H (R, P, r, p) = + + V (r) (12.13)
2M 2µ
empleando las ecuaciones de Hamilton encontramos que
la primera ecuación nos dice que el centro de masa tiene movimiento rectilı́neo uniforme como ya se habia observado.
La segunda ecuación es la segunda ley de Newton aplicada a la partı́cula imaginaria de masa µ. Puesto que el
centro de masa es también inercial, podemos ubicarnos allı́ para ver las ecuaciones de movimiento, en cuyo caso el
Hamiltoniano queda
p2
H (r, p) = + V (r) (12.15)
2µ
que es el equivalente al Lagrangiano (12.8) para la partı́cula µ con posición r y momento p (excepto que ya asumimos
que el potencial solo depende de r). Nótese que el primer término a la derecha de las Ecs. (12.6, 12.13) junto con la
primera de las Ecs. (12.14) nos permite interpretar al par R, P como variables conjugadas a una segunda partı́cula
imaginaria de masa M y que viaja a la velocidad constante del centro de masa ocupando para todo tiempo la
posición del centro de masa2 .
También se observa que la Ec. (12.12) nos dice que la velocidad p/µ de la partı́cula imaginaria es igual a la
diferencia entre la velocidades de las dos partı́culas es decir su velocidad relativa, lo cual es consistente con derivar
la primera de las Ecs. (12.1) con respecto al tiempo.
2
En sı́ntesis hemos cambiado el problema de dos cuerpos (reales) acoplados por el problema de dos cuerpos (imaginarios) totalmente
desacoplados.
12.2. REDUCCIÓN DEL PROBLEMA DE DOS CUERPOS EN MEC ÁNICA CUÁNTICA 293
donde i, k rotulan partı́culas en tanto que j, m rotulan componentes. Definimos ahora los observables R C y Rr en
forma análoga a las Ecs. (12.1)
m1 R1 + m 2 R2
RC = ; Rr = R2 − R1 (12.17)
m1 + m 2
y los momentos tienen expresiones de la forma (12.10, 12.11)
m1 P2 − m 2 P1
PC = P 1 + P 2 ; P r = (12.18)
m1 + m 2
los conmutadores entre las componentes de R C , Rr , PC , Pr se pueden calcular con base en las definiciones (12.17,
12.18) y las reglas de conmutación (12.16) y se obtiene
h i h i h i
e (i) , X
X e (k) = Pe (i) , Pe(k) = 0 ; X e (i) , Pe(k) = δjm δik i~ ; i, k = 1, 2 ; j, m = 1, 2, 3
j m j m j m
e (1) ≡ (RC ) ; X
X e (2) ≡ (Rr ) ; Pe(1) ≡ (PC ) ; Pe(2) ≡ (Pr )
j j j j j j j j
es decir tanto el par RC , PC , como el par Rr , Pr obedecen reglas canónicas de conmutación. Además todo observable
del conjunto {RC , PC } conmuta con todo observable del conjunto {R r , Pr }.
Lo anterior nos permite interpretar al par R C , PC , y al par Rr , Pr como los observables posición y momento de
dos partı́culas ficticias distintas al igual que en el caso clásico.
P2C P2
H= + r + V (Rr )
2M 2µ
este Hamiltoniano se puede separar en la forma
P2C P2
H = H C + Hr ; HC ≡ ; Hr ≡ r + V (Rr )
2M 2µ
[HC , Hr ] = 0 ⇒ [HC , H] = 0 ; [Hr , H] = 0
294 CAPÍTULO 12. INTERACCIONES CENTRALES EN MEC ÁNICA CUÁNTICA
Asumiendo que H, HC , Hr son observables, tal conjunto tendrá entonces una base común de kets propios.
consideremos la base {|rC , rr i}, donde los elementos de esta base son vectores propios comunes a los observables
RC y Rr . En esta base, un estado se representa por la función de onda ϕ (r C , rr ) que es función de seis variables.
Los operadores RC y Rr se representan por multiplicación de las funciones de onda por las variables r C y rr
respectivamente, en tanto que PC y Pr se representan por los gradientes
∂ ∂ ∂
PC → −i~∇C ≡ −i~ , ,
∂xC,1 ∂xC,2 ∂xC,3
∂ ∂ ∂
Pr → −i~∇r ≡ −i~ , ,
∂xr,1 ∂xr,2 ∂xr,3
el espacio de estados E puede ser considerado como el producto tensorial
E = E rC ⊗ E rr
donde los espacios ErC , Err están asociados a RC y Rr respectivamente. HC y Hr son entonces extensiones a E de
Hamiltonianos originalmente definidos en E rC y Err respectivamente. Podemos entonces encontrar una base |ϕi que
cumple las Ecs. (12.19) en la forma siguiente
las dos primeras ecuaciones se pueden escribir en la base {|r C i} y {|rr i} respectivamente y se obtiene
~2 2
− ∇ ϕC (rC ) = EC ϕC (rC ) (12.20)
2M C
~2 2
− ∇ + V (rr ) ϕr (rr ) = Er ϕr (rr ) (12.21)
2µ r
la Ec. (12.20) muestra que la partı́cula equivalente para la descripción del centro de masa es libre como en la
mecánica clásica. Sus soluciones son del tipo onda plana
1 i p2C
ϕC (rC ) = 3/2
e ~ pC ·rC ; EC = ≥0
(2π~) 2M
el espectro de energı́a es no negativo y contı́nuo y corresponde a la energı́a cinética del movimiento del sistema como
un todo.
La Ec. (12.21) describe la dinámica de la partı́cula imaginaria de masa µ con posición equivalente a la posición
relativa entre las dos partı́culas. Describe entonces el comportamiento del sistema de dos partı́culas en el sistema de
referencia del centro de masa. Si el potencial solo depende de |r 2 − r1 | y no de la dirección de este vector relativo,
la partı́cula µ estará sujeta a un potencial central V (r). El problema se reduce entonces a resolver la dinámica de
la partı́cula µ.
El momento angular del sistema es
J = L 1 + L2 ; L1 = R1 × P1 ; L2 = R2 × P2
se puede demostrar que este momento angular total también se puede escribir como
J = L C + Lr ; LC = RC × PC ; Lr = Rr × Pr
Adicionalmente, se puede demostrar que L C y Lr satisfacen las reglas de conmutación de un momento angular.
Naturalmente, las componentes de L C conmutan con las de Lr . Una vez más, estas propiedades nos permiten
interpretar consistentemente a LC y a Lr como momentos angulares de partı́culas cuánticas imaginarias.
12.3. EL PROBLEMA CLÁSICO DE UNA PARTÍCULA SOMETIDA A UNA FUERZA CENTRAL 295
dr pr dpr L2 dV
= ; = 3−
dt µ dt µr dr
d2 r 1 dpr 2
d r L 2 dV
= ; µ 2 = 3− (12.24)
dt2 µ dt dt µr dr
p2r d2 r dVef f
H= + Vef f (r) ; µ 2 = −
2µ dt dr
que es equivalente a un problema unidimensional sujeto a la interacción descrita por el potencial efectivo (teniendo
en cuenta que r va entre 0 e ∞). Veremos como se traducen estas caracterı́sticas en la mecánica cuántica.
puesto que el potencial V solo depende de la distancia r de la partı́cula al origen, las coordenadas esféricas son más
adecuadas para el problema. El Laplaciano en coordenadas esféricas se escribe
2 1 ∂2 1 ∂2 1 ∂ 1 ∂2
∇ = r+ 2 + + (12.26)
r ∂r 2 r ∂θ 2 tan θ ∂θ sin2 θ ∂ϕ2
esta expresión da el Laplaciano solo para r 6= 0 y no está definida para r = 0, lo cual se debe a la posición
privilegiada del origen en coordenadas esféricas (el origen corresponde a r = 0 para cualquier valor de θ, ϕ), más
adelante impondremos condiciones sobre la función de onda en el origen. De la Ec. (11.13) vemos que el Laplaciano
(12.26) se puede escribir en términos de L 2
1 ∂2 L2
∇2 = r −
r ∂r 2 ~2 r 2
que es el análogo del Hamiltoniano clásico (12.23). El operador diferencial L 2 contiene toda la dependencia angular.
El problema de valores propios del Hamiltoniano queda escrito en la forma
~2 ∂ 2 L2
− r+ + V (r) ϕ (r, θ, ϕ) = E ϕ (r, θ, ϕ) (12.28)
2µr ∂r 2 2µr 2
12.5. SOLUCIÓN GENERAL DEL PROBLEMA DE VALORES PROPIOS 297
∂L d hLi
[H, L] = 0 ; = =0
∂t dt
por tanto H es un operador escalar con respecto a las rotaciones alrededor del origen, lo cual proviene de la invarianza
del potencial bajo rotaciones alrededor del origen. Por supuesto H también conmuta con L 2 . Sin embargo, aunque
tenemos a nuestra disposición cinco constantes de movimiento (L, L 2 , H), no podemos usarlas todas para solucionar
el problema de valores propios (12.28) ya que no todos estos operadores conmutan entre sı́. Solo podremos usar L 2 ,
L3 (u otra componente) y H. Si asumimos que H, L 2 , L3 son observables, existirá una base común de funciones
propias en el espacio Er de una partı́cula. Por lo tanto podemos sin retringir la generalidad del problema requerir
que la funciones de onda en (12.28) también sean funciones de onda de L 2 y L3
pero ya conocemos la forma de la parte angular de las autofunciones comunes de L 2 y L3 (sección 11.4). La Ec.
(11.34) nos indica que estas funciones son de la forma
donde este ϕ (r) es solución de las dos últimas ecuaciones (12.29) sin importar la forma de la parte radial. Por tanto,
solo queda resolver el problema de determinar R (r) a fin de que ϕ (r) sea autofunción del Hamiltoniano.
y teniendo en cuenta que los armónicos esféricos son autofunciones de L 2 con valor propio l (l + 1) ~2 se tiene
~2 ∂ 2 l (l + 1) ~2 Ylm (θ, ϕ)
Ylm (θ, ϕ) − r + V (r) R lk (r) + R lk (r) = E Rlk (r) Ylm (θ, ϕ)
2µr ∂r 2 2µr 2
en realidad una solución de (12.31), sustituı́da en (12.30) no necesariamente representa una solución de la ecuación
de valores propios (12.25) del Hamiltoniano. Esto se debe a que la expresión (12.26) para el Laplaciano no es
necesariamente válida en r = 0. Debemos por tanto asegurarnos que la solución R (r) de (12.31) sea lo suficientemente
regular en el origen para que (12.30) sea en realidad solución de (12.25). Nótese además que aunque la Ec. (12.31) no
depende de los ángulos, sı́ depende de l, en realidad para cada valor de l tenemos un operador diferente en (12.31).
De las Ecs. (12.29), podemos decir que el problema de valores propios de L 2 , L3 , H lo resolvemos para cada par
de valores fijos de l y m. Esto implica que en el espacio de estados E r resolvemos el problema para cada subespacio
E (l, m) asociado a valores fijos de l y m. La Ec. (12.31) nos muestra que cuando estudiamos la parte radial (que es
la única desconocida) de las funciones propias del Hamiltoniano, la ecuación asociada depende de l pero no de m,
es decir la ecuación (12.31) es idéntica para todos los 2l + 1 subespacios E (l, m) con l fijo. Denotaremos por E l,k los
298 CAPÍTULO 12. INTERACCIONES CENTRALES EN MEC ÁNICA CUÁNTICA
autovalores del operador Hl definido por (12.31) y que corresponderá a los autovalores del Hamiltoniano dentro de
un subespacio dado E (l, m). El ı́ndice k (discreto o contı́nuo) indica los diferentes valores propios asociados al mismo
número cuántico l, los valores posibles de k indican la dimensionalidad de cada subespacio E (l, m). En (12.31) hemos
denotado las funciones propias de Hl con los ı́ndices Rl,k (r). Debe notarse sin embargo que los ı́ndices de la función
radial no tienen que ser los mismos de los valores propios E l,k puesto que podrı́amos tener varias funciones radiales
propias de Hl para un valor propio dado El,k en cuyo caso la función radial requerirı́a un ı́ndice adicional. Sin
embargo, demostraremos más adelante que para cada l, k solo existe una función radial linealmente independiente.
Por otra parte, para la Ec. (12.31)
~2 d2 l (l + 1) ~2
− r+ + V (r) Rlk (r) = El,k Rlk (r)
2µr dr 2 2µr 2
quedando finalmente
~2 d2 l (l + 1) ~2
− + + V (r) ul,k (r) = El,k ul,k (r) (12.33)
2µ dr 2 2µr 2
de nuevo la Ec. (12.33) es análoga a un problema unidimensional de un partı́cula de masa µ sometida al potencial
efectivo Vef f definido por
l (l + 1) ~2
Vef f = V (r) +
2µr 2
teniendo en cuenta que r solo puede tomar valores no negativos. El término l (l + 1) ~ 2 / 2µr 2 es siempre positivo
de modo que si correspondiera a una interacción real corresponderı́a a una fuerza repulsiva, por este motivo se
conoce como potencial centrı́fugo. Debe tenerse en cuenta sin embargo, que el término centrı́fugo no corresponde a
una verdadera interacción sino a una porción de la energı́a cinética (energı́a cinética transversal). Cuando l = 0 el
término centrı́fugo está ausente. Para una interacción Coulombiana V (r) = −e 2 /r, si l 6= 0 el término centrı́fugo
domina para valores pequeños de r de modo que el potencial efectivo es repulsivo a cortas distancias.
es decir, permanece finito o diverge menos rápido que 1/r 2 . Esta hipótesis es válida en la mayorı́a de los casos y en
particular para el potencial de Coulomb. Consideremos una solución de la Ec. (12.31) asumamos que en el origen
se comporta en la forma
lı́m Rl,k (r) ∼ Cr s (12.35)
r→0
12.6. ESTADOS ESTACIONARIOS DE UNA PART ÍCULA EN UN POTENCIAL CENTRAL 299
~2 l (l + 1) ~2
−s (s + 1) + + [V (r) − El,k ] r 2 = 0
2µ 2µ
−s (s + 1) + l (l + 1) = 0
(l − s) (s + l + 1) = 0 (12.36)
s=l ó s = − (l + 1) (12.37)
es decir que para un valor propio dado E l,k hay dos soluciones linealmente independientes de la ecuación de segundo
orden (12.31), que se comportan como r l y como 1/r l+1 en la vecindad del origen respectivamente. La solución
1/r l+1 claramente diverge en el origen para todos los valores de l. Adicionalmente, se puede demostrar que la
función Ylm (θ, ϕ) /r l+1 no es una solución de la ecuación de valores propios (12.25) para r = 0, esto se debe a que
el laplaciano de Ylm (θ, ϕ) /r l+1 involucra la l−ésima derivada de δ (r). Por tales razones, la solución 1/r l+1 debe
ser descartada.
De lo anterior las soluciones aceptables para (12.33) deben ir a cero en el origen para todo l ya que
en la Ec. (12.33) r va entre 0 e infinito. Sin embargo, es posible asumir el problema como un problema unidimensional
equivalente en donde r tome todos los valores reales pero con potencial efectivo infinito para valores negativos de
r. En tal caso, la función de onda toma valores idénticamente ceros en la parte negativa de r y la condición (12.38)
asegura la continuidad de la función de onda en r = 0.
por tanto, la ecuación de valores propios del Hamiltoniano que involucra a r, θ, ϕ puede ser reemplazada por una
ecuación diferencial que solo involucra a r y que depende del parámetro l, Ec. (12.33), dicha ecuación junto con
la condición (12.38) nos dictamina la dependencia radial de la función de onda. Nótese que estas caracterı́sticas
emulan el comportamiento clásico.
Las funciones ϕl,m,k (r, θ, ϕ) deben ser de cuadrado integrable
Z
|ϕl,m,k (r, θ, ϕ)|2 r 2 dr dΩ = 1
la estructura de la función de onda Ec. (12.39) permite separar la parte radial y la angular
Z Z ∞ Z
|ϕl,m,k (r, θ, ϕ)|2 r 2 dr dΩ = r 2 dr |Rl,m,k (r)|2 |Ylm (θ, ϕ)|2 dΩ = 1
0
y puesto que los armónicos esféricos están normalizados entonces la función radial está normalizada por aparte
Z ∞ Z ∞
2
2
r dr |Rl,m,k (r)| = dr |ul,m,k (r)|2 = 1 (12.40)
0 0
en realidad es conveniente aceptar en algunos casos autofunciones que no sean de cuadrado integrable. Esto ocurre
cuando al menos parte del espectro de H es contı́nuo, en cuyo caso requerimos que las funciones de onda sean
ortonormales en el sentido extendido es decir
Z ∞ Z ∞
2 ∗
r dr Rl,k0 (r) Rl,k (r) = dr u∗l,k0 (r) ul,k (r) = δ k − k 0 (12.41)
0 0
La ecuación radial (12.33) para un l fijo, al ser una ecuación de segundo orden posee a priori dos soluciones
linealmente independientes. Sin embargo, la condición (12.38) ha surgido de eliminar una de ellas puesto que se
descartó el comportamiento del tipo lı́m r→0 Rl,k (r) = 1/r l+1 . Por tanto solo tenemos una solución linealmente
independiente para cada El,k . Debemos también considerar el comportamiento de las soluciones para r → ∞. Si
V (r) → 0 cuando r → ∞ los valores de El,k para los cuales la solución clásica es acotada ( y que cuánticamente
cumplen la condición 12.38) forman un conjunto discreto, como veremos más adelante para el átomo de Hidrógeno.
Si asumimos que los operadores H, L2 y L3 son observables, la discusión anterior nos muestra que consti-
tuyen un C.S.C.O. ya que para valores fijos de E l,k solo hay una función radial linealmente independiente, y
para l y m fijos la función angular (armónico esférico) es única. Por tanto, para un conjunto dado de autovalores
El,k , l (l + 1) ~2 , m~ existe una única función normalizada (dentro de factores de fase) del tipo ϕ l,m,k (r). El auto-
valor de L2 dictamina la forma especı́fica de la ecuación radial, el autovalor de H nos determina la función radial
Rl,k (r) de forma única y m determina junto con l el armónico esférico (solución angular).
Capı́tulo 13
Átomos hidrogenoides
El problema de mayor interés de la interacción central entre dos cuerpos lo constituyen los átomos Hidrogenoides
consistentes en un núcleo y un electrón. Tal es el caso del átomo de Hidrógeno y sus isótopos el deuterio y el tritio.
Ası́ mismo también son átomos hidrogenoides los iones con un solo electrón como el He + , Li++ etc. Veremos más
adelante que los átomos alcalinos (con un solo electrón en el último nivel de energı́a) se pueden tratar también como
Hidrogenoides si consideramos que los electrones internos actúan como un apantallamiento del núcleo y que el sistema
núcleo-electrones internos actúa como un “núcleo efectivo” para el electrón externo. De momento trabajaremos con
el caso más simple.
q2 e2 q2
V (r) = − =− ; ≡ e2
4πε0 r r 4πε0
siendo r la distancia entre el protón y el electrón, q corresponde a la carga electrónica en unidades SI en tanto que e
es el valor en unidades cgs. Numéricamente tenemos los siguientes valores aproximados para la masa m p del protón,
me del electrón y la carga q del protón
puesto que se trata de dos partı́culas sujetas a una interacción central, podemos reducirlo al problema de una
partı́cula relativa de masa µ y donde el vector posición de la partı́cula imaginaria es el vector posición relativo entre
las dos. Usaremos un Hamiltoniano del tipo (12.15)
p2 e2
H (r, p) = −
2µ r
puesto que mp >> me la masa reducida del sistema será prácticamente la masa del electrón
me mp me ∼ me ∼
µ≡ = me = m e 1 − = me
mp + m e 1+ m p
m p
y el centro de masa del sistema está prácticamente en la posición del protón. Por tanto la partı́cula imaginaria
asociada al centro de masa, tiene prácticamente las caracterı́sticas del protón (la masa del protón es casi la masa
total del sistema y el centro de masa está prácticamente en la posición del protón). La partı́cula imaginaria de masa
reducida tiene prácticamente las caracterı́sticas del electrón, ya que la masa reducida del sistema es casi la masa
del electrón y la posición del electrón con respecto al centro de masa es prácticamente su posición con respecto al
protón. Adoptaremos la posición de que el protón está en el centro de masa y que el electrón es la partı́cula relativa.
Con el fin de fijar el valor de ciertos parámetros, usaremos el modelo semi-clásico de Bohr que si bien no es
compatible con nuestros postulados, permitirá definir conceptos y parámetros útiles para el estudio de los espectros
13.2. PROBLEMA DE VALORES PROPIOS DEL ÁTOMO DE HIDRÓGENO 303
atómicos. Dentro de este modelo el electrón viaja en una órbita circular de radio r alrededor del protón, la energı́a
total es la energı́a cinética más la potencial electrostática y obedece la segunda ley de Newton. Adicionalmente, el
momento angular del electrón está cuantizado en unidades de ~, estas suposiciones se condensan en
1 2 v2 e2
E = µv + V (r) ; µ = −∇V (r) ; l = n~ ; V (r) = −
2 r r
1 2 e2 v2 e2
E = µv − ; µ = 2 ; µvr = n~ ; n entero positivo
2 r r r
las órbitas posibles son solo aquellas que cumplen la regla de cuantización del momento angular. Con este postulado
Bohr explicó la existencia de niveles discretos de energı́a. Calculemos los valores cuantizados de E n , rn y vn . Para
ello primero se calcula la energı́a de ionización E I que es la energı́a que se le debe dar al átomo de Hidrógeno en su
estado base para remover su electrón. También se pueden estimar con base en el modelo, el radio del átomo para el
estado base (radio de Bohr a0 ) y la velocidad del electrón v0 en el estado base, tales cantidades dan
µe4 ~2 e2
EI = ; a 0 = ; v 0 = (13.1)
2~2 µe2 ~
con estos parámetros de entrada los valores cuantizados de E n , rn y vn son
1 1
En = − 2
EI ; r n = n 2 a0 ; v n = v0 (13.2)
n n
los valores experimentales de EI y de los niveles de energı́a En estuvieron en concordancia con la teorı́a de Bohr.
Un estimativo de la energı́a de ionización y del radio que caracteriza las dimensiones atómicas es
EI ∼
= 13,6eV , a0 ∼
= 0,52 A
puede verse que el principio de incertidumbre explica la existencia de un estado base estable y permite además la
estimación del orden de magnitud de la energı́a base y de la extensión espacial de su función de onda.
El espectro de H posee una parte discreta (energı́as negativas) y una parte contı́nua (energı́as positivas). El espectro
contı́nuo está asociado con el hecho de que para E > 0 la región accesible clásica no está acotada, en este caso
las autofunciones asociadas no serán de cuadrado integrable. En contraste, para E < 0, la naturaleza discreta del
espectro está asociada con el hecho de que la región accesible clásicamente es acotada, en tal caso las funciones
propias son de cuadrado integrable.
304 CAPÍTULO 13. ÁTOMOS HIDROGENOIDES
Es cómodo trabajar de modo que a0 y EI sean las unidades de longitud y energı́a, lo cual se logra introduciendo
los parámetros adimensionales
s
r El,k
ρ= ; λl,k = − (13.5)
a0 EI
Vamos a examinar los estados acotados de energı́a negativa por lo cual el signo negativo dentro del radical es de
hecho necesario. Usando la primera de las Ecs. (13.5) en la ecuación radial (13.3), ésta se escribe como
~2 d2 l (l + 1) ~2 e2
− + − ul,k (ρ) = El,k ul,k (ρ)
2µ d (a0 ρ)2 2µ (a0 ρ)2 a0 ρ
~2 d2 l (l + 1) ~2 1 e2
− + − − El,k ul,k (ρ) = 0
2µa20 dρ2 2µa20 ρ2 a0 ρ
Un análisis asintótico cualitativo del comportamiento de u l,k (ρ) nos permitirá simplificar la forma de la Ec.
(13.6). Cuando ρ → ∞, los términos proporcionales a 1/ρ y 1/ρ 2 se vuelven despreciables y la Ec. (13.6) se
convierte en 2
d 2
− λl,k ul,k (ρ) = 0
dρ2
cuyas soluciones son e±ρλl,k . Sin embargo, más adelante veremos que incluso en este lı́mite no se puede despreciar
completamente a los términos 1/ρ y 1/ρ 2 lo cual nos llevará a soluciones del tipo ρ n e±ρλl,k .
No obstante, este análisis asintótico cualitativo permite encontrar una forma aproximada de la solución esperada
en la ası́ntota. Nótese que la solución e ρλl,k es divergente en ρ → ∞ lo cual nos permite predecir que este tipo de
solución será descartada. Todo lo anterior nos induce a realizar el siguiente cambio de variable
naturalmente este cambio de variable no significa ninguna pérdida de generalidad, ni descarta ningún tipo de
solución. Simplemente, parece simplificar a priori la forma funcional de la solución que de antemano consideramos
como aceptable. Realizando el cambio de variable (13.7) en la Ec. (13.6) nos queda
d2 h −ρλl,k i l (l + 1) 2
e yl,k (ρ) + − + − λl,k e−ρλl,k yl,k (ρ) = 0
2
(13.8)
dρ2 ρ2 ρ
13.3. SOLUCIÓN DE LA ECUACIÓN RADIAL POR SERIES DE POTENCIAS 305
calculamos la derivada
d2 h −ρλl,k i d −ρλl,k −ρλl,k dyl,k (ρ)
e y l,k (ρ) = −λl,k e yl,k (ρ) + e
dρ2 dρ dρ
dyl,k (ρ)
= (−λl,k )2 e−ρλl,k yl,k (ρ) − λl,k e−ρλl,k
dρ
2
−ρλl,k dyl,k (ρ) −ρλl,k d yl,k (ρ)
−λl,k e +e
dρ dρ2
d d2
= e−ρλl,k λ2l,k − 2λl,k + 2 yl,k (ρ)
dρ dρ
c0 6= 0
La condición (13.10) implica que s es estrictamente positivo. De modo que s es la mı́mima potencia de ρ que aparece
en la expansión (13.11). Calculemos la primera y segunda derivada de la expansión (13.11)
∞ ∞
dyl,k (ρ) d X X
= cq ρq+s = (q + s) cq ρq+s−1 (13.12)
dρ dρ
q=0 q=0
2 X∞ X∞
d yl,k (ρ) d q+s−1
= (q + s) c q ρ = (q + s) (q + s − 1) cq ρq+s−2 (13.13)
dρ2 dρ q=0 q=0
∞
X ∞
X ∞
X ∞
X
(q + s) (q + s − 1) cq ρq+s−2 − 2λl,k (q + s) cq ρq+s−1 + 2cq ρq+s−1 − l (l + 1) cq ρq+s−2 = 0
q=0 q=0 q=0 q=0
∞
X ∞
X
[(q + s) (q + s − 1) − l (l + 1)] cq ρq+s−2 + [2 − 2λl,k (q + s)] cq ρq+s−1 = 0
q=0 q=0
reemplazando (13.15) en (13.14) y teniendo en cuenta que los ı́ndices son mudos resulta
∞
X
0 = [s (s − 1) − l (l + 1)] c0 ρs−2 + [(q + s + 1) (q + s) − l (l + 1)] cq+1 ρq+s−1
q=0
∞
X
+ 2 [1 − λl,k (q + s)] cq ρq+s−1
q=0
∞
X
[s (s − 1) − l (l + 1)] c0 ρs−2 + {[(q + s + 1) (q + s) − l (l + 1)] cq+1 + 2 [1 − λl,k (q + s)] cq } ρq+s−1 = 0
q=0
para que la serie sea cero para todo ρ, es necesario y suficiente que cada coeficiente de la expansión sea cero lo cual
nos conduce a
[s (s − 1) − l (l + 1)] c0 = 0
[(q + s + 1) (q + s) − l (l + 1)] cq+1 + 2 [1 − λl,k (q + s)] cq = 0 ; q = 0, 1, . . . , ∞
(s − l − 1) (s + l) c0 = 0 (13.16)
[(q + s + 1) (q + s) − l (l + 1)] cq+1 = 2 [λl,k (q + s) − 1] cq ; q = 0, 1, . . . , ∞ (13.17)
y teniendo en cuenta que c0 6= 0 por definición, la Ec. (13.16) nos dice que s solo puede tomar dos valores
s = l + 1 ó s = −l
pero recordando que s debe ser estrictamente positivo para garantizar un comportamiento aceptable en el origen
(condición 13.10), el único valor aceptable como solución es
s=l+1 (13.18)
la Ec. (13.19) define una relación de recurrencia para los coeficientes de la expansión (13.11). Si fijamos c 0 podemos
calcular todos los demás coeficientes con esta recurrencia. Por otro lado, de la Ec. (13.19) se obtiene
cq 2 [(q + l) λl,k − 1]
= (13.20)
cq−1 q (q + 2l + 1)
que claramente tiende a cero cuando q → 0, por tanto la serie converge para todo ρ (criterio del cociente para
series). Por tanto, hemos determinado para todo λ l,k una solución de (13.9) que satisface la condición (13.10).
cq 2qλl,k 2λl,k
lı́m = → (13.21)
q→∞ cq−1 q2 q
comparando (13.21) con (13.22) se puede demostrar que para valores grandes de ρ, la serie se comporta en la forma
e2ρλl,k . De la Ec. (13.7), la función radial u l,k (r) se comporta como
la cual no es fı́sicamente aceptable 1 . Por tanto, no es aceptable una solución en serie (cantidad infinita de términos
no nulos). En consecuencia, es necesario que la expansión (13.11) sea truncada y se convierta en una sumatoria
(polinomio). En tal caso la Ec. (13.7) nos dice que el comportamiento asintótico de u l,k (r) es el producto de un
polinomio por una función e−ρλl,k el cual es aceptable.
Definiremos ck como el primer coeficiente nulo de la expansión. Esto equivale a decir que existe un valor
entero positivo k tal que ck−1 6= 0, pero el término entre paréntesis a la derecha de (13.19) es cero para q = k. En
tal caso, la relación de recurrencia (13.19), nos indica que el coeficiente c k será nulo y que los términos subsecuentes
también serán nulos. La expansión (13.11) será un polinomio ya que la relación de recurrencia generará un número
finito de coeficientes cq . Para un valor fijo de l, rotulamos el correspondiente valor de λ l,k con este entero k. Es claro
que k ≥ 1, puesto que c0 6= 0. Igualando a cero el término entre paréntesis a la derecha de (13.19) cuando q = k se
obtiene
1
λl,k = (13.23)
l+k
reemplazando estos valores permitidos de λ l,k en la Ec. (13.5) para la energı́a se obtiene
s
1 El,k
= −
l+k EI
EI
El,k = − ; k = 1, 2, 3, . . . (13.24)
(l + k)2
1
Esta función radial diverge cuando ρ → ∞. Además no es de cuadrado integrable, en tanto que para soluciones de energı́a negativa
(acotadas clásicamente), se esperan funciones de cuadrado integrable. Además, estas funciones ni siquiera son ortonormales en el sentido
extendido.
308 CAPÍTULO 13. ÁTOMOS HIDROGENOIDES
Tomando en cuenta (13.11, 13.18), y el hecho de que c q = 0 para q ≥ k, la función yl,k (ρ) queda en la forma
k−1
X
l+1
yl,k (ρ) = ρ cq ρq (13.25)
q=0
tenemos entonces que yl,k (ρ) es un polinomio donde la menor potencia es ρ l+1 y la máxima potencia es ρl+k .
q
q2 (k − 1)! (2l + 1)!
cq = (−1) c0
l+k (k − q − 1)! q! (q + 2l + 1)!
q
(q + 1) (q + 2l + 2) (l + k) 2 (k − 1)! (2l + 1)!
− cq+1 = (−1)q c0
2 (k − q − 1) l+k (k − q − 1)! q! (q + 2l + 1)!
q
2 2 (k − 1)! (k − q − 1) (2l + 1)!
cq+1 = (−1) (−1)q c0
(l + k) l + k (k − q − 1)! q! (q + 1) (q + 2l + 1)! (q + 2l + 2)
q+1
q+1 2 (k − 1)! (2l + 1)!
cq+1 = (−1) c0
l+k (k − q − 2)! (q + 1)! (q + 2l + 2)!
q+1
q+1 2 (k − 1)! (2l + 1)!
cq+1 = (−1) c0 (13.30)
l+k [k − (q + 1) − 1]! (q + 1)! [(q + 1) + 2l + 1]!
2
También podemos ver que para q = 0, la Ec. (13.27) conduce a c0 = c0 . Por tanto podemos comenzar la inducción con q = 0.
13.3. SOLUCIÓN DE LA ECUACIÓN RADIAL POR SERIES DE POTENCIAS 309
comparando (13.30) con (13.27) vemos que si la relación (13.27) se cumple para q entonces se cumple para q + 1, lo
cual demuestra la validez de (13.27).
donde hemos tenido en cuenta que c0 en general depende de los valores de l y k. Finalmente la función radial R l,k (r)
está dada por (12.32), para el caso de l = 0, k = 1 se tiene que
(0,1)
1 1 c0 2 1 −r/a0
R0,1 (r) = u0,1 (r) = re−r/a0 = √ e
r r a0 a 0 a0
2 −r/a0
R0,1 (r) = 3/2
e
a0
verificando una vez más que ck = c2 = 0. Con estos coeficientes y0,2 (ρ) queda
1 1
y0,2 (ρ) = ρ c0 − c0 ρ = c0 ρ 1 − ρ
2 2
ahora debemos calcular el c0 que normaliza a u0,2 (r) de acuerdo con las Ecs. (13.32, 12.40) eligiendo fase cero para
c0
Z ∞ Z ∞ 2
2 2 r r 2 − ar
|u0,2 (r)| dr = 1 ⇒ c0 1− e 0 dr = 1
0 0 a0 2a0
evaluando la integral
Z ∞ 2
r r 2 − ar 1 − a1 r ∞
1− e 0 dr = − 3 e 0 8a0 + 8a0 r + 4a0 r + r = 2a0
4 3 2 2 4
0 a0 2a0 4a0 0
por tanto
(0,2) 1
c20 (2a0 ) = 1 ⇒ c0 =√
2a0
reemplazando en (13.32) queda
1 r r − 2ar 2r r − 2ar
u0,2 (r) = √ 1− e 0 = 1− e 0
2a0 a0 2a0 (2a0 )3/2 2a0
2 r − 2ar
R0,2 (r) = 1− e 0
(2a0 )3/2 2a0
k−1
X 0
X
yl,k (ρ) = ρl+1 cq ρq ; y1,1 (ρ) = ρ1+1 cq ρq
q=0 q=0
2
y1,1 (ρ) = c0 ρ
1 1 r2 − r
u1,1 (ρ) = e−ρλ1,1 y1,1 (ρ) ; λ1,1 = = ⇒ u1,1 (r) = c0 2 e 2a0 (13.33)
1+1 2 a0
normalizando u1,1 (r) con las Ecs. (13.33, 12.40) con c 0 positivo
Z ∞ Z ∞
r 4 − ar
|u1,1 (r)|2 dr = 1 ⇒ c20 e 0 dr = 1
0 0 a40
evaluando la integral
Z ∞
r 4 − ar 1 − ar 4 3 2 2 3
∞
4
e 0 dr = − 3 e 0 r + 4r a0 + 12r a0 + 24ra0 + 24a0 = 24a0
0 a40 a0 0
13.4. PARÁMETROS ATÓMICOS 311
Siendo α la constante de estructura fina y λ el la longitud de onda de Compton del electrón. Teniendo en cuenta la
Ec. (13.34)
n≡l+k
enunciaremos los resultados en términos de los números cuánticos n, l, m. Un estado será rotulado usando el orden
|n, l, mi, es decir usando primero el número cuántico principal n, luego el número cuántico azimutal l y finalmente
el número cuántico magnético m.
La función de onda asociada es de la forma
un,l (r)
ϕn,l,m (r, θ, ϕ) = Rn,l (r) Ylm (θ, ϕ) = Ylm (θ, ϕ) (13.38)
r r
−ρλn r En 1 eimϕ
un,l (ρ) = e yn,l (ρ) ; ρ ≡ ; λn ≡ − = ; Ylm (θ, ϕ) = Zl,m (θ) √ (13.39)
a0 EI n 2
n−l−1
X
l+1
yn,l (ρ) = ρ cq ρq (13.41)
q=0
donde los coeficientes cq se pueden encontrar a partir de c0 , con la siguiente fórmula de recurrencia
2 (n − l − q)
cq = − cq−1 (13.42)
q (q + 2l + 1) n
q
q 2 (n − l − 1)! (2l + 1)!
cq = (−1) c0 (13.43)
n (n − l − q − 1)! q! (q + 2l + 1)!
finalmente la constante c0 (que en general depende de los valores de n y l) se determina como constante de normal-
ización para la función radial un,l (r)
Z ∞
|un,l (r)|2 dr = 1 (13.44)
0
EI
El,k = − ; k = 1, 2, 3, ... (13.47)
(l + k)2
y nos muestra que para un l fijo existen infinitos valores de energı́a asociados a k = 1, 2, 3, .... Adicionalmente,
para cada par l, k la energı́a posee al menos una degeneración de orden 2l + 1 debido a los diferentes valores de
m asociados a l fijo, esta degeneración debida a la ausencia del número cuántico m en la ecuación radial, se denomina
degeneración esencial puesto que es propia de cualquier interacción central. No obstante, también están presentes
degeneraciones accidentales propias de la interacción especı́fica, ya que la Ec. (13.47) nos dice que dos autovalores
El,k y El0 ,k0 asociados a ecuaciones radiales distintas (l 6= l 0 ) serán iguales si l 0 + k 0 = l + k.
Usando ahora los números cuánticos n, l, m, la Ec. (13.47) queda
EI
En = − (13.48)
n2
utilizando la terminologı́a espectroscópica un valor de n especifica una capa o nivel electrónico.
Puesto que k es un entero positivo, hay un número finito de valores de l asociados a un valor dado de n. De la
definición de n Ec. (13.34) y los valores permitidos de k (1, 2, 3, ...) es claro que
l = 0, 1, 2, ..., n − 1 ; n = 1, 2, 3, ...
Cada combinación especı́fica n, l se denomina una subcapa o subnivel electrónico. Puesto que hay n valores de l
para un n dado se dice que cada capa o nivel n contiene n subcapas o subniveles. Ahora bien, puesto que L 2 , L3 y
H forman un C.S.C.O. se tiene que un estado está definido unı́vocamente por una tripla (n, l, m). En consecuencia,
cada subnivel (n, l) contiene 2l + 1 estados diferentes asociados a los diferentes valores de m para l fijo.
Dado que n especifica unı́vocamente a la energı́a y (n, l, m) especifica completamente al estado, la degeneración
de la energı́a para un n dado es el número total de valores de l, m para dicho valor de n
n−1 n−1
!
X X 2n (n − 1)
gn = (2l + 1) = 2 l +n= +n
2
l=0 l=0
2
gn = n
veremos más adelante que la presencia del momento angular intrı́nseco del electrón nos duplica este valor. Si tenemos
en cuenta adicionalmente el espı́n del protón, tendrı́amos un factor de dos adicional.
Usando una vez más la notación espectroscópica, los valores de l se denotan con una letra del alfabeto en la
siguiente forma
l=0↔s , l=1↔p , l=2↔d , l=3↔f , l=4↔g
la notación espectroscópica rotula un subnivel por el número n seguido por la letra que caracteriza al valor de l.
Por ejemplo, para el nivel base n = 1 (que no es degenerado según la Ec. (13.48) y que se conoce como “nivel K”)
solo l = 0 es posible, de modo que solo tiene el subnivel 1s. El primer estado excitado n = 2 (conocido como “nivel
L”) permite l = 0, 1 de modo que contiene los subniveles 2s y 2p. El segundo estado excitado (“nivel M ”) posee los
subniveles 3s, 3p, 3d.
Hemos visto que un estado se especifica con los números cuánticos n, l, m. Donde n, l especifica la dependencia
radial y l, m la dependencia angular. Veamos ahora las caracterı́sticas de la dependencia angular.
eimϕ
ϕ (r, θ, ϕ) = Rn,l (r) Ylm (θ, ϕ) = Rn,l (r) Zl,m (θ) √
2
314 CAPÍTULO 13. ÁTOMOS HIDROGENOIDES
depende de ambos ángulos, puesto que la mayorı́a de observables dependen del módulo al cuadrado de la función
de onda, debemos calcular la dependencia angular de |Y lm (θ, ϕ)|2 este módulo nos da
imϕ 2
e 1
|Ylm (θ, ϕ)| = Zl,m (θ) √ = |Zl,m (θ)|2
2
2 2
vemos entonces que este módulo al cuadrado tiene simetrı́a azimutal. Por tanto se obtiene una superficie de rev-
olución alrededor del eje Z de cuantización. |Y 00 |2 es constante y por tanto esféricamente simétrico. |Y 1m (θ, ϕ)|2 es
2
proporcional a cos2 θ; |Y2m (θ, ϕ)|2 es proporcional a 3 cos2 θ − 1 etc.
La función radial Rn,l (r) caracteriza a cada subnivel y se puede calcular con los resultados de la sección 13.5
introduciendo nuestro cambio de notación de R l,m,k (r) a Rn,l,m (r) .
El comportamiento de Rn,l (r) en la vencindad del origen es del tipo r l , de modo que solo los estados que
pertenecen a un subnivel s (l = 0) tienen una densidad de probabilidad diferente de cero en el origen. A medida
que l aumenta, es mayor la región alrededor del protón para la cual la probabilidad de encontrar el electrón es
despreciable, es de esperarse que esto aumente el valor esperado del radio atómico 3 . Esto tiene consecuencias en
procesos fı́sicos tales como la captura de electrones por núcleos y la estructura hiperfina de las lı́neas espectrales.
Vale la pena recordar que el concepto de subnivel aparece en el modelo semiclásico de Sommerfeld que asigna
a cada valor de n (número cuántico de Bohr) un número n de órbitas elı́pticas de la misma energı́a y diferente
momento angular. La órbita asociada al máximo momento angular para un n dado es circular. Puesto que el modelo
semiclásico de Sommerfeld fué exitoso para predecir la degeneración de los niveles de energı́a, es lógico pensar que
el modelo de Bohr se reproduce para los estados con l = n − 1 (máximo valor del momento angular para n dado).
En particular vamos a mostrar que para l = n − 1 se obtiene la segunda expresión (13.2) para los radios de Bohr.
La probabilidad de encontrar al electrón en un volumen dV que en coordenadas esféricas se caracteriza por
dV = r 2 dr sin θ dθ dϕ = r 2 dr dΩ
estará dada por
dPn,l,m (r, θ, ϕ) = |ϕn,l,m (r, θ, ϕ)|2 r 2 dr dΩ = |Rn,l (r)|2 r 2 dr × |Yl,m (θ, ϕ)|2 dΩ
si queremos encontrar la probabilidad de encontrar al electrón entre r y r + dr dentro de un cierto ángulo sólido
tenemos que esta probabilidad está dada por
Z Z θ2
1 ϕ2
dPn,l,m (r) = |Rn,l (r)|2 r 2 dr × dϕ |Zl,m (θ)|2 sin θ dθ
2 ϕ1 θ1
Z
ϕ 2 − ϕ 1 θ2
dPn,l,m (r) = Ml,m |Rn,l (r)|2 r 2 dr ; Ml,m ≡ |Zl,m (θ)|2 sin θ dθ (13.49)
2 θ1
donde [ϕ1 , ϕ2 ] y [θ1 , θ2 ] definen el intervalo de los ángulos que generan el ángulo sólido dentro del cual se quiere
evaluar la probabilidad.
Ahora evaluaremos esta probabilidad para l = n − 1. Aplicando l = n − 1 en (13.41)
0
X
yn,n−1 (ρ) = ρ(n−1)+1 cq ρq = c 0 ρn
q=0
Con esto y usando la tercera de las Ecs. (13.39) se calcula la función radial
1
un,n−1 (ρ) = e−ρλn,n−1 c0 ρn ; λn =
n
n
ρ − r r
un,n−1 (ρ) = c0 e− n ρn = c0 e a0 n
a0
n
−a nr 1 r c0 − a r n a0 r n
Rn,n−1 (r) = c0 e 0 = e 0
r a0 a0 r a0
n−1
c0 r − r
Rn,n−1 (r) = e a0 n (13.50)
a0 a0
3
Esto se asemeja al comportamiento clásico en el cual el aumento de la magnitud del momento angular produce un aumento en el
radio promedio de una órbita cerrada.
13.6. DISCUSIÓN DE LOS RESULTADOS 315
n=2 2s 2p
n = 1 (E = EI ) 1s
l = 0 (s) l = 1 (p) l = 2 (d) l = 3 (f )
Cuadro 13.1: Niveles de energı́a (negativos) para estados acotados del átomo de hidrógeno. Los niveles sobre una fila
poseen la misma energı́a (mismo número cuántico principal n). En n = 1 la energı́a corresponde en valor absoluto a
la energı́a de ionización, y para n muy grande la energı́a tiende a cero por la izquierda. A medida que se incrementa
n disminuye la brecha entre los valores de energı́a permitidos.
r = r n = n 2 a0
de modo que la densidad de probabilidad ρ (r) y la densidad de corriente de probabilidad J (r) están dadas por la
Ecs. (3.32, 3.33)
~
ρ (r) = α2 (r) ; J (r) = α2 (r) ∇ξ (r) (14.2)
µ
Teniendo en cuenta la estructura de las soluciones estacionarias Ecs. (13.38, 13.39) el módulo α (r) y la fase ξ (r)
para las soluciones hidrogenoides estacionarias están dadas por
1
αn.l,m (r) = |Rn,l (r)| |Ylm (θ, ϕ)| = √ |Rn,l (r)| |Zlm (θ)| ; ξ (r) = mϕ (14.3)
2
es importante tener en cuenta que µ denota la masa y m denota el autovalor m~ de L 3 . Aplicando las Ecs. (14.2)
y usando la expresión para el gradiente en coordenadas esféricas tenemos que:
~ 2 ~ ∂ 1 ∂ 1 ∂
Jn,l,m (r) = α (r) ∇ξ (r) = ρn,l,m (r) ur + uθ + uϕ (mϕ)
µ µ ∂r r ∂θ r sin θ ∂ϕ
~ m
Jn,l,m (r) = ρn,l,m (r) uϕ (14.4)
µ r sin θ
donde uϕ es el vector unitario ortogonal al plano formado por r y u 3 en el sentido en el cual se incrementa el ángulo
azimutal ϕ. La Ec. (14.4) nos dice que el sentido de rotación de la corriente está dictaminado por el signo de m
y de sin θ ya que las demás cantidades son todas positivas. La Ec. (14.4) nos dice que la corriente en cada punto
M definida por el vector posición r, es perpendicular al plano definido por r y u 3 . El fluı́do de probabilidad rota
alrededor del eje X3 . Puesto que |J| no es proporcional a r sin θ ρ (r) el sistema no rota como un todo. Es decir, la
velocidad angular de la corriente es diferente en cada punto. Si queremos ver la estructura de la corriente asociada
a un estado estacionario para un plano perpendicular a u 3 (es decir para θ fijo) vemos que si sin θ > 0, tenemos
rotación del fluı́do de probabilidad alrededor de u 3 en el sentido antihorario (horario) si m > 0, (m < 0). Si m = 0
no hay corriente de probabilidad en ningún punto del espacio.
Tomemos un elemento de volumen d3 r situado en el punto r, su contribución al momento angular con respecto
al origen (en el centro del núcleo) es:
dL = µr × Jn,l,m (r) d3 r
14.1. CORRIENTES DE PROBABILIDAD PARA LAS SOLUCIONES ESTACIONARIAS DEL ÁTOMO DE HIDRÓ
el momento angular total se obtiene por integración. Por simetrı́a todas las componentes en X 1 y X2 se anulan y
solo sobrevive la componente sobre X 3 la cual vendrá dada por
Z Z Z
ρn,l,m (r) ρn,l,m (r)
L3 = µ d3 r u3 · [r × Jn,l,m (r)] = m~ d3 r u3 · [r × uϕ ] = m~ d3 r uϕ · [u3 × r]
r sin θ r sin θ
Z Z Z
3 ρn,l,m (r)
= m~ d r uϕ · [r sin θ uϕ ] = m~ d r ρn,l,m (r) = m~ d3 r |ψ (r)|2
3
r sin θ
L3 = m~
donde hemos usado la Ec. (14.4), la identidad a·(b × c) = c·(a × b), y la Ec. (3.25) para la densidad de probabilidad.
De lo anterior se concluye que el autovalor m~ de L 3 puede interpretarse como el momento angular clásico asociado
al movimiento rotacional del fluı́do de probabilidad.
La Ec. (14.7) nos muestra que la corriente de probabilidad en el estado base no es cero en presencia de un campo
magnético, es claro que esta corriente se anula al hacer B = 0. Las Ecs. (14.7, 14.8) nos muestran que el fluı́do de
probabilidad, gira como un todo1 alrededor de B (o de u3 ) con un frecuencia angular2 ω ~f = ω ~ c /2. Fı́sicamente,
este resultado se debe a la presencia del campo eléctrico E (r) transiente que se induce cuando se “enciende” el
campo magnético. Bajo la influencia de este campo eléctrico transitorio el electrón permanece aproximadamente en
su estado base y comienza a rotar alrededor del protón, con una velocidad angular que depende solo del valor de B
y no de la forma precisa en que se enciende el campo magnético. Por supuesto, una vez que la corriente se genera (y
desaparece el campo eléctrico transitorio), el campo magnético permanente puede sostenerla via fuerza de Lorentz,
ya que la carga ahora está en movimiento.
Es importante mencionar que si usamos un gauge diferente al dado por la Ec. (14.5) las funciones de onda serı́an
diferentes, y en la Ec. (14.6) existirı́an otras contribuciones a primer orden en B. Sin embargo, en cualquier gauge se
debe reproducir la Ec. (14.7) a primer orden en B, puesto que los resultados fı́sicos no pueden depender del gauge.
La Ec. (14.7), también se puede escribir en términos de los parámetros atómicos usando la función de onda
explı́cita del estado base del átomo de Hidrógeno que aparace en la tabla 13.2 página 315
|ϕ1,0,0 |2 e−2r/a0 qB qB e−2r/a0
J1,0,0 = (~ωc × r) = − u 3 × r = − (r sin θ uϕ )
2 2πa30 µ µ 2πa30
qBe−2r/a0
J1,0,0 = − r sin θ uϕ (14.9)
2πµa30
aquı́ vemos además que la densidad de corriente es proporcional a ρ (r) r sin θ, lo cual nos ratifica que el fluı́do de
probabilidad gira como un todo.
suma sobre ı́ndices repetidos. Los únicos términos no nulos de esta sumatoria corresponden a aquellos en donde
todos los ı́ndices son diferentes, por tanto R j conmuta con Pi para los términos no nulos, de modo que
P · (R × B) = (R × B) · P ; R × P = −R × P
En consecuencia, a las expresiones anteriores se les puede aplicar las identidades vectoriales usuales. Utilizando
a · (b × c) = c · (a × b)
(a × b) · (c × d) = (a · c) (b · d) − (a · d) (b · c)
donde H0 es el Hamiltoniano “no perturbado” asociado al átomo de Hidrógeno libre. Nótese que cuando B 6= 0
el momento mecánico ya no es P sino [P − qA (R)], por tanto la energı́a cinética será [P − qA (R)] 2 /2me . Aún
más, el término P2 /2me depende del gauge escogido. Puede demostrarse que en el gauge definido por la Ec. (14.11)
~ R es el momento mecánico de la partı́cula con respecto a
P2 /2me es la energı́a cinética “relativa” Π 2R /2me donde Π
un sistema rotante de Larmor que rota alrededor de B con velocidad angular ω L = −qB/2me . Ası́ mismo, se puede
demostrar que el término H2 corresponde a la energı́a cinética Π 2E /2me relativa a la velocidad de arrastre de este
~R ·Π
marco de referencia, en tanto que el término H 1 está asociado al término cruzado Π ~ E /me .
q ~ 2
~ =M
M ~ 1 +M
~2 ; ~1≡
M L , ~ 2 ≡ − q r × A (r)
M
2me 2me
pero el análisis numérico indica que para el átomo de hidrógeno, la contribución del Hamiltoniano H 1 domina sobre
la contribución de H2 siempre que la primera sea no nula (i.e. L ~ 6= 0). Por lo tanto, si L
~ 6= 0 podemos aproximar el
momento magnético en la forma
~ 'M
M ~1= q L ~ (14.20)
2me
de modo que L ~ es prácticamente paralelo a M~ y ambos son perpendiculares al plano de la órbita clásica. La energı́a
de acople con B está dada por
W1 = − M ~1·B (14.21)
Al cuantizar las relaciones (14.20, 14.21) se obtiene
q q
M1 = L ; H1 = −M1 · B = − L·B (14.22)
2me 2me
que coincide con la Ec. (14.16), de modo que el Hamiltoniano H 1 corresponde al acople entre el campo magnético
B y el momento magnético atómico permanente puesto que M 1 es independiente de B, es decir M1 existe aunque
no exista campo magnético. En consecuencia, M 1 se genera a través de la corriente asociada al átomo de Hidrógeno
libre (ver sección 14.1).
De acuerdo con la Ec. (14.22), los autovalores del operador M 1 vienen dados por
q
m~ ≡ mµB
2me
de modo que µB es el “cuanto fundamental” de momento magnético como lo es ~ del momento angular. Es este
hecho lo que le da relevancia al magnetón de Bohr µ B . Más adelante veremos que además del momento angular
orbital L, el electrón posee un momento angular intrı́nseco o espı́n S, que también posee un momento magnético
asociado MS proporcional a S en la forma
µB
MS = 2 S
~
de hecho la necesidad de introducir este momento magnético adicional para explicar la estructura fina del átomo de
Hidrógeno, es una de las evidencias experimentales de la existencia del espı́n del electrón (ver sección 15.4.2).
Finalmente, es importante mencionar que el dominio de los efectos paramagnéticos sobre los diamagnéticos
(cuando los primeros son no nulos) se debe al pequeño tamaño del radio atómico, que a su vez genera una superficie
y un flujo muy pequeños. Por ejemplo, para un electrón libre sometido a un campo magnético, las contribuciones
paramagnética y diamagnética tienen la misma importancia relativa.
por tanto si ignoramos el término diamagnético, los |ϕ n,l,m i son aún estados estacionarios de H 0 + H1 , solo se
modifican los valores de energı́a. Calculemos el espectro de los estados involucrados en la lı́nea de resonancia
(H0 + H1 ) |ϕ1,0,0 i = E1 |ϕ1,0,0 i = −EI |ϕ1,0,0 i ; (H0 + H1 ) |ϕ2,1,m i = (E2 − mµB B) |ϕ2,1,m i
EI
(H0 + H1 ) |ϕ1,0,0 i = − − mµB B |ϕ2,1,m i
4
D = qR
para calcular el valor esperado hDi calculamos los elementos matriciales de B. Bajo paridad el operador D se
transforma a −D (ya que bajo paridad R → −R y q → q). El momento dipolar es por tanto un operador impar.
Adicionalmente los estados ϕn,l,m (r) tiene paridad bien definida en la base |ri, esto se debe a que los armónicos
esféricos tiene paridad definida teniendo paridad +1 (−1) para l par (impar). En particular se tiene que
hϕ1,0,0 | D |ϕ1,0,0 i = ϕ2,1,m0 D |ϕ2,1,m i = 0 ; ∀m, m0 (14.23)
los elementos de matriz no nulos asociados a la lı́nea de resonancia son entonces no-diagonales. Para calcular los
elementos de matrix hϕ2,1,m | D |ϕ1,0,0 i = q hϕ2,1,m | R |ϕ1,0,0 i escribiremos a x1 , x2 , x3 en términos de armónicos
esféricos
r
2π
x1 = r sin θ cos ϕ = r [Y1,−1 (θ, ϕ) − Y1,1, (θ, ϕ)] (14.24)
3
r
2π
x2 = r sin θ sin ϕ = ir [Y1,−1 (θ, ϕ) + Y1,1 (θ, ϕ)] (14.25)
3
r
4π
x3 = r cos θ = r Y1,0 (θ, ϕ) (14.26)
3
6
La transición más baja corresponde al paso de 1s a 2s pero en este caso la respuesta diamagnética es dominante ya que el momento
angular en cero en ambos estados.
324CAPÍTULO 14. CORRIENTES DE PROBABILIDAD EN ÁTOMOS HIDROGENOIDES, ACOPLES CON CAMP
el cálculo de los elementos matriciales involucra una integral radial y una angular, en virtud de la separabilidad de
las funciones de onda estacionarias. La integral radial la definimos como una cantidad χ
Z ∞
χ≡ R2,1 (r) R1,0 (r) r 3 dr (14.27)
0
la parte angular consiste en productos escalares de armónicos esféricos que se pueden calcular fácilmente debido a
sus propiedades de ortogonalidad. Por ejemplo, calculemos el elemento matricial hϕ 2,1,1 | Dx1 |ϕ1,0,0 i en la base {|ri},
para lo cual aplicamos la Ec. (5.3)
Z
hϕ2,1,1 | Dx1 |ϕ1,0,0 i = q hϕ2,1,1 | X1 |ϕ1,0,0 i = q ϕ∗2,1,1 (r) x1 ϕ1,0,0 (r) d3 r
Z ( r )
∗
2π
= q R2,1 (r) Y1,1 (θ, ϕ) r [Y1,−1 (θ, ϕ) − Y1,1, (θ, ϕ)] [R1,0 (r) Y0,0 (θ, ϕ)] r 2 dr dΩ
3
r Z Z
∞
2π 3 ∗
= q R2,1 (r) R1,0 (r) r dr dΩ Y1,1 (θ, ϕ) [Y1,−1 (θ, ϕ) − Y1,1, (θ, ϕ)] Y0,0 (θ, ϕ)
3 0
r Z
2π ∗ ∗
1
= q χ dΩ Y1,1 (θ, ϕ) Y1,−1 (θ, ϕ) − Y1,1 (θ, ϕ) Y1,1, (θ, ϕ) √
3 4π
q
= √ χ {δ1,1 δ1,−1 − δ1,1 δ1,1 }
6
q
hϕ2,1,1 | Dx1 |ϕ1,0,0 i = −√ χ
6
donde hemos usado las Ecs. (14.24, 14.27) y la ortonormalidad de los armónicos esféricos. Procediendo de manera
similar con los otros elementos matriciales se obtiene
qχ
hϕ2,1,1 | Dx1 |ϕ1,0,0 i = − hϕ2,1,−1 | Dx1 |ϕ1,0,0 i = − √ ; hϕ2,1,0 | Dx1 |ϕ1,0,0 i = 0 (14.28)
6
iqχ
hϕ2,1,1 | Dx2 |ϕ1,0,0 i = hϕ2,1,−1 | Dx2 |ϕ1,0,0 i = √ ; hϕ2,1,0 | Dx2 |ϕ1,0,0 i = 0 (14.29)
6
qχ
hϕ2,1,1 | Dx3 |ϕ1,0,0 i = hϕ2,1,−1 | Dx3 |ϕ1,0,0 i = 0 ; hϕ2,1,0 | Dx3 |ϕ1,0,0 i = √ (14.30)
3
se concluye que si el sistema está en un estado estacionario, la cantidad hDi es cero ya que los elementos diagonales
se anulan. Supondremos entonces que el sistema está inicialmente en una superposición del estado base 1s y uno de
los estados 2p.
donde m asume uno de sus valores permitidos 1, 0, −1. Consideraremos a α como un parámetro real, aplicando la
evolución temporal de un sistema conservativo calculamos la evolución temporal de este estado
donde hemos omitido la fase global irrelevante en el último paso. Calcularemos hDi cuando el sistema está en el
estado |ψm (t)i en el tiempo t. Usando las Ecs. (14.23, 14.28, 14.29, 14.30, 14.31), obtendremos el valor esperado de
14.3. EFECTO ZEEMAN 325
direcciones. En particular, para una dirección de propagación sobre el plano X 1 X2 , esta polarización es paralela a
u3 (polarización π). Además no se emite radiación en la dirección u 3 , ya que un dipolo que oscila linealmente no
radı́a en la dirección de su eje de oscilación.
En el caso m = −1, las Ecs. (14.34) muestra que la frecuencia angular de la radiación emitida es Ω − ω L . La
dsitribución angular de la radiación es similar al caso m = 1. Sin embargo, puesto que el dipolo hDi m=−1 gira en la
dirección opuesta a hDim=1 , la polarización elı́ptica y circular tiene helicidad opuesta a la correspondiente a m = 1.
Si ahora asumimos que hay un número igual de átomos con m = 1, 0, −1, tenemos que se emiten tres frecuencias
bien definidas en todas direcciones (Ω+mω L con m = 1, 0, −1). La polarización asociada a m = 0 es lineal y la de las
otras dos es en general elı́ptica. Nótese que en la dirección de propagación perpendicular a B las tres polarizaciones
son lineales, la de m = 0 está polarizada en la dirección de B y las otras dos en dirección perpendicular a B. Las Ecs.
(14.32, 14.33, 14.34) nos muestran además que la intensidad de la lı́nea central m = 0 es dos veces la de cada una de
las lı́neas corridas. En la dirección paralela a B solo hay radiación debida a m = ±1 con frecuencias (Ω ± ω L ) /2π,
ambas asociadas a polarización circular pero de helicidad opuesta σ ± .
Hemos visto que un campo magnético constante remueve parcialmente la degeneración asociada a la energı́a de
un átomo de hidrógeno, ya que la energı́a ahora depende de los números cuánticos n y m. Es este efecto el que le
da el nombre de número cuántico magnético al valor propio de L 3 (y de cualquier momento angular J3 ).
Capı́tulo 15
~ = γL
M (15.1)
la constante de proporcionalidad se denomina factor giromagnético del nivel bajo consideración. La fuerza resultante
F sobre el átomo neutro se puede obtener de una energı́a potencial W
W = −M ~ ·B ; F=∇ M ~ ·B
~ ×B
~τ = M
dL
= ~τ
dt
se tiene que
dL ~ × B = γL × B
=M
dt
esto nos muestra que L es perpendicular a su razón de cambio y adicionalmente, la razón de cambio es perpendicular
al campo magnético B. Si B es constante en el tiempo en el punto donde se evalúa, esto indica que L no cambia de
magnitud y precesa alrededor del eje definido por el campo magnético, el ángulo θ entre B y L permanece constante
y la velocidad angular de precesión es ω = γ |B|. Ahora bien, puesto que M ~ es paralelo a L y sus magnitudes están
relacionadas por una constante, concluı́mos que también M ~ conserva su magnitud y precesa con el mismo ángulo
θ y la misma velocidad angular ω alrededor de B.
Si definimos al eje X3 a lo largo de B, para calcular la fuerza F podremos en buena aproximación despreciar en
W los términos proporcionales a M1 y M2 tomando a M3 como constante. Esto se debe a la tendencia natural de
los átomos a alinear su momento magnético con el campo magnético, si bien existen componentes “laterales” M 1 y
M2 estas tienden a cancelarse cuando se toma un promedio temporal que comprenda muchos periodos de precesión
y dado que las frecuencias de precesión son tan altas, solo estos promedios temporales de M 1 y M2 juegan un
papel en W y estos promedios son cero, ya que todas las direcciones ocurren en la precesión con igual magnitud.
1
Antes del advenimiento de la teorı́a cuántica, la espectroscopı́a permitı́a distinguir entre diferentes estados de un átomo.
328 CAPÍTULO 15. MOMENTO ANGULAR INTRÍNSECO
Adicionalmente, cuando se tiene en cuenta el efecto sobre muchas partı́culas, la cancelación estadı́stica funciona aún
mejor. La fuerza será entonces aproximadamente
F = ∇ (M3 B3 ) = M3 ∇B3
nótese que la fuerza resultante serı́a cero si el campo es uniforme independientemente de su intensidad. Por tanto,
una fuerza significativa requiere un alto gradiente del campo. Si asumimos por simplicidad que B 3 solo varı́a a lo
largo de X3 , es decir si ∂B3 /∂x1 = ∂B3 /∂x2 = 0 la fuerza sobre el átomo será paralela al eje X 3 y proporcional
a M3 . Si asumimos que tenemos una gran cantidad de átomos, se espera que los momentos magnéticos de éstos
estén orientados aleatoriamente antes de la aplicación del campo, pues tales orientaciones estarán dictaminadas por
fluctuaciones térmicas que son de naturaleza aleatoria 2 . Por tanto, antes de la aplicación del campo todos los valores
de M3 entre − |M| y |M| están presentes, en otras palabras, el ángulo θ entre B y M ~ puede tomar cualquier valor
entre 0 y π.
Figura 15.1: (a) En el experimento de Stern-Gerlach, los átomos de plata que se emiten a alta temperatura del horno
E son colimados en F para luego ser deflectados por el gradiente de campo magnético creado por el electroimán A.
Finalmente, el átomo es registrado en el punto N de la pantalla P. (b) Vista frontal del electroimán. El haz incide
sobre el eje X2 .
Stern y Gerlach realizaron un experimento en 1922 para estudiar la deflexión de un haz de átomos neutros
paramagnéticos en un campo magnético de alto gradiente.
El montaje se muestra en la Fig. 15.1a. En un horno E se colocan átomos neutros de plata (que son param-
agnéticos) y se calientan a alta temperatura, luego se dejan escapar por un pequeño agujero y se propagan en lı́nea
recta en el alto vacı́o del montaje. El agujero colimador permite solo el paso de átomos en cierta dirección que
elegimos como eje X2 . El haz colimado en esta forma entra entonces a un electroimán A para ser deflectado antes
de impactar la pantalla P .
2
Esto implica despreciar posibles correlaciones entre los diferentes momentos magnéticos de los átomos.
15.3. RESULTADOS DEL EXPERIMENTO Y EL MOMENTO ANGULAR INTR ÍNSECO 329
De acuerdo con la teorı́a clásica, si queremos producir una deflexión apreciable, el electroimán debe producir un
campo B de alto gradiente. Una forma de lograrlo es a través de un imán configurado como se ilustra en la Fig.
15.1b. El campo magnético generado tiene un plano de simetrı́a (el plano X 2 X3 ) que contiene la dirección inicial del
haz colimado. Si despreciamos efectos de borde el campo magnético no tiene componente en la dirección X 2 , por
tanto el efecto sobre el haz es el mismo en cualquier punto sobre el eje X 2 dentro del electroimán. La componente
más grande de B es en la dirección de X 3 , además la variación del campo a lo largo de X 3 es muy fuerte, esto
ocurre gracias a la configuración angulosa del polo norte que produce una gran acumulación de lı́neas de campo
en la vecindad del ángulo, en tanto que en el polo sur la densidad de lı́neas es mucho menor. Puesto que el campo
magnético es solenoidal (∇ · B = 0), este debe adquirir una componente en la dirección X 1 que varı́a con la distancia
x1 al plano de simetrı́a X2 X3 .
La simetrı́a del electroimán muestra claramente que ∂B 3 /∂x2 = 0 ya que el campo magnético no depende de
x2 . Además ∂B3 /∂x1 = 0 en todos los puntos del plano de simetrı́a X 2 X3 .
En virtud de que el experimento reúne todas las condiciones descritas en la sección 15.1, concluı́mos que la
deflexión HN de un átomo que golpea la pantalla es proporcional a M 3 y por tanto a L3 . En consecuencia,
medir HN es equivalente a medir M3 ó L3 . Puesto que los momentos magnéticos de los átomos de plata estaban
distribuı́dos isotrópicamente antes de entrar en el electroimán, los valores de M 3 toman todos los valores posibles
(para una gran cantidad de átomos) entre − |M| y |M|. Por tanto, esperamos que se forme sobre la pantalla un
patrón contı́nuo simétrico con respecto a H, sobre la pantalla P . En otras palabras, se espera que haya impactos
sobre todos los puntos en el intervalo N 1 , N2 de manera mas o menos uniforme, donde N 1 (cota máxima) corresponde
al caso en que M3 toma el valor máximo M3 = |M| y N2 corresponde al caso en el cual M3 toma el valor mı́nimo
M3 = − |M|. Desde el punto de vista experimental efectos tales como la dispersión de las velocidades y el tamaño
finito del colimador ocasionarán que átomos con el mismo valor de M 3 no golpeen en el mismo punto, sino en
una vecindad de un punto que corresponde a la velocidad promedio de una partı́cula que pasa por el centro del
colimador. Por tanto el resultado clásico predice una distribución como la lı́nea punteada de la Fig. 15.2, que va un
poco más allá de N1 y N2 por aspectos experimentales.
la masa M de un átomo de plata es de 1,8 × 10 −25 kg. Los anchos ∆x3 y ∆v3 = ∆p3 /M deben ser tales que
~
∆x3 ∆v3 & ' 10−9 M.K.S.A. (15.2)
M
ahora veamos cuales son las longitudes y velocidades tı́picas en el experimento. El ancho del colimador F es de
unos 10−4 m, la separación entre N1 y N2 entre las manchas es de varios milı́metros. La distancia sobre la cual
330 CAPÍTULO 15. MOMENTO ANGULAR INTRÍNSECO
Figura 15.2: La lı́nea contı́nua nos muestra las dos manchas bien localizadas alrededor de los puntos N 1 y N2 , que
se obtuvieron en el experimento de Stern-Gerlach. La lı́nea punteada nos muestra la predicción clásica.
el campo magnético varı́a apreciablemente se puede deducir de los valores del campo en medio del electroimán
(B ' 104 gauss) y su gradiente (∂B/∂x3 ' 105 gauss/cm), que nos da
B
' 10−3 mt
∂B/∂x3
ahora la velocidad de un átomo de plata que abandona el horno a una temperatura de 10 3 K es del orden de 500m/s.
Para haces bien colimados, la dispersión de las velocidades a lo largo de X 3 no es mucho menor a varios metros por
segundo. De lo anterior, es posible encontrar valores de ∆x 3 y ∆v3 que satisfagan la relación (15.2) que proviene
de la relación de incertidumbre, y que al mismo tiempo sean mucho menores que todas las escalas de longitud y
velocidad del experimento. Por tanto, los observables r y p se pueden tratar como clásicos y podemos pensar en
paquetes casi puntuales que se mueven sobre trayectorias clásicas. La cuantización de estos observables (o de otros
que dependan de éstos como el momento angular) darı́a una enorme cantidad de valores propios que simuları́an un
contı́nuo, esto estarı́a muy lejos de explicar una cuantización tan drástica en tan solo dos estados.
Una segunda razón es que los momentos angulares orbitales cuánticos l (l + 1) ~ 2 solo pueden tener valores de l
enteros. Esto implica que el número de proyecciones posibles a lo largo de X 3 para un l dado, es siempre un número
impar (2l + 1). Lo anterior entrarı́a en conflicto con la idea de tener un número par de “auto resultados” que en
este caso son dos.
Si asumimos que la deflexión aún se da por el acople del campo con un momento angular (es decir que aún hay
un momento angular que cumpla la Ec. 15.1) este momento angular debe tener solo dos proyecciones posibles a lo
largo de X3 , es decir
2j + 1 = 2
15.4. EVIDENCIA EXPERIMENTAL DEL MOMENTO ANGULAR INTR ÍNSECO DEL ELECTRÓN 331
lo cual nos lleva a j = 1/2. De esto se concluye que si el observable asociado a la deflexión observada es aún un
momento angular, no puede ser un momento angular orbital, ya que para éstos los valores semienteros están excluı́dos
por razones de periodicidad. El observable asociado no proviene entonces de la cuantización de un momento angular
clásico y se conoce como momento angular intrı́nseco o espı́n.
La teorı́a del átomo de Hidrógeno desarrollada en el capı́tulo 13 consideró al electrón como una partı́cula puntual
cuyo estado se puede describir con una función de onda espacial ϕ (x, y, z). Los resultados obtenidos en el capı́tulo
13 describen el espectro de emisión y absorción del átomo de Hidrógeno con buena precisión, ası́ como los niveles
de energı́a y las reglas de selección que nos indican las frecuencias de Bohr permitidas en el espectro.
Sin embargo, un estudio de alta resolución del espectro nos revela ciertas diferencias que aunque pequeñas son
observables. Estas diferencias se deben principalmente a dos aspectos: las correcciones relativistas y los efectos de
introducir un campo magnético que interactúe con el átomo.
En lo que respecta a la estructura fina del espectro del átomo de hidrógeno, se observó que cada lı́nea posee
varias componentes, es decir para un nivel de energı́a dado n hay realmente varias energı́as muy cercanas entre sı́.
Por supuesto, las diferencias entre energı́as de un mismo nivel son mucho menores que las diferencias entre energı́as
de niveles distintos, razón por la cual la concordancia con los experimentos de baja resolución era buena. Por lo
tanto, debe introducirse alguna corrección a la teorı́a desarrollada en el capı́tulo 13 para explicar el desdoblamiento
de las lı́neas espectrales allı́ predichas.
Cuando un átomo se coloca en un campo magnético uniforme, cada una de las lı́neas (es decir, cada componente
de la estructura fina) se desdobla en ciertas lı́neas equidistantes, donde la brecha es proporcional al campo magnético,
esto se conoce como efecto Zeeman. Este efecto se puede explicar usando el formalismo cuántico hasta ahora descrito.
La explicación teórica se basa en la relación del momento dipolar magnético M con el momento angular orbital del
electrón
µB q~
M= L ; µB = (15.3)
~ 2me
donde µB se conoce como el “magnetón de Bohr”. Sin embargo, la teorı́a presentada en el capı́tulo 13 solo está en
concordancia con el experimento en algunos casos que llamaremos “efecto Zeeman” normal. En otros casos, sin
embargo aparece un “efecto Zeeman anómalo” que resulta particularmente sustancial en átomos con número atómico
impar (en particular, el átomo de Hidrógeno), ya que sus niveles se dividen en un número par de subniveles en tanto
que la teorı́a predice que el número de subniveles debe ser impar ya que es igual a 2l+1 con l entero. Si asumimos que
en el efecto Zeeman anómalo el desdoblamiento continúa siendo generado por un momento angular J 2 , es necesario
que el valor propio j (j + 1) ~2 de este momento angular corresponda a j semi-entero para poder explicar que el
número de subniveles 2j + 1 sea par.
Nótese que un experimento del tipo Stern-Gerlach no serı́a práctico para la medición del momento angular
electrónico debido a que el electrón tiene carga neta (monopolo eléctrico), y la interacción del momento dipolar
magnético del electrón con el campo es mucho más débil que la interacción de Lorentz descrita por qv × B.
332 CAPÍTULO 15. MOMENTO ANGULAR INTRÍNSECO
de acuerdo con la teorı́a general del momento angular, sabemos que s debe ser entero o semientero y que m s toma
todos los valores incluı́dos entre −s y s en saltos de unidad. Sabemos también que m s es entero (semi-entero) si y
solo si s es entero (semi-entero).
III) Una partı́cula dada está caracterizada por un valor único de espı́n s y diremos que esta partı́cula tiene espı́n
s.
Puesto que {|s, ms i} con s fijo es una base para el espacio de estados de espı́n E s , dicho espacio es de dimensión
finita 2s + 1. Notese además que todos los elementos de E s son estados propios de S2 con el mismo valor propio
s (s + 1) ~2 .
IV) El espacio de estados E de una partı́cula es el producto tensorial 3 de Er con Es
E = E r ⊗ Es
consecuentemente, todos los observables de espı́n conmutan con todos los observables orbitales. Además excepto
para s = 0, esto implica que para la caracterización del estado de una partı́cula no será suficiente especificar un ket
de Er . Por ejemplo, los observables X1 , X2 , X3 constituyen un C.S.C.O. en Er pero no en E, para formar un C.S.C.O.
en E debemos agregar un C.S.C.O. del espacio E s , por ejemplo S2 y algún Si (usualmente S3 ).
3
Para detalles sobre productos tensoriales ver sección 1.32, page 61.
15.6. PROPIEDADES DE UN MOMENTO ANGULAR 1/2 333
Adicionalmente, de las propiedades del producto tensorial, el producto tensorial de los elementos de una base
{|ϕn i} en Er con los elementos de una base {χi } en Es será una base de E = Er ⊗ Es
Esto implica que todo estado de una partı́cula es una combinación lineal de estos productos tensoriales
XX XX
|ψi = cn,i |ϕn , χi i = cn,i |ϕn i ⊗ |χi i ; cn,i = hϕn , χi |ψi
n i n i
debemos recordar sin embargo, que no todo estado |ψi ∈ E proviene del producto tensorial de un estado |ϕi ∈ E r
con un estado |χi ∈ Es . Es decir que la relación
no es válida en general. Sin embargo, cuando la relación (15.5) es válida para un cierto |ψi es claro que
XX
|ψi = cn,i |ϕn , χi i ; cn,i = hϕn |ϕi hχi |χi
n i
Estos postulados conciernen a una teorı́a general de espı́n. El siguiente postulado está dirigido más especifica-
mente al espı́n del electrón
(V) El electrón es una partı́cula de espı́n 1/2 (s = 1/2) y su momento dipolar magnético intrı́nseco está dado
por
µB µB
MS = (2s + 1) S=2 S
~ ~
que coincide con (15.4).
Adicionalmente, los constituyentes nucleares (protones y neutrones) también son partı́culas de espı́n 1/2 aunque
su factor giromagnético es diferente al del electrón. También existen partı́culas de espı́n 0, 1/2, 1, 3/2, 2, ...
A priori podrı́amos estar tentados a pensar que el espı́n es un efecto del tamaño del electrón que genera la
posibilidad de que esta partı́cula produzca rotaciones. En tal caso, además de los observables de posición (del centro
de masa del electrón), será necesario añadir tres observables asociados a la rotación (por ejemplo una cuantización
adecuada de los ángulos de Euler). Sin embargo, las rotaciones espaciales deben cumplir relaciones de periodicidad
similares a las que se imponen para los armónicos esféricos, lo cual nos exige que s sea entero. La presencia de
espı́n semientero indica que este observable no tiene un origen rotacional, ni puede provenir de la cuantización de
un momento angular clásico que sea función exclusiva de R y P. En el presente tratamiento, el electrón continúa
siendo una partı́cula puntual y el espı́n no tiene análogo clásico.
es común referirse a los autoestados |±i, como estado con espı́n “arriba” y “abajo” respectivamente 4 . Es claro que
1 1 1
S2 |±i = + 1 ~2 |±i ; S3 |±i = ± ~ |±i
2 2 2
3 2 1
S2 |±i = ~ |±i ; S3 |±i = ± ~ |±i (15.6)
4 2
con relaciones de ortonormalidad y completez
el estado más general de espı́n es entonces una combinación lineal de esta base
siendo c± números complejos. Dado que ambos estados |±i son autoestados de S 2 con el mismo autovalor, cualquier
combinación lineal de ellos también lo es. Por tanto, todos los estados de E s son autoestados de S2 con el mismo
valor propio (3/4) ~2 , esto implica que S2 es proporcional al operador identidad de E s
3 2
S2 = ~ Is
4
definiendo los operadores escalera Ec. (10.13), tenemos
S± = S1 ± iS2 (15.9)
S+ + S − S+ − S −
S1 = ; S2 = (15.10)
2 2i
La acción de los operadores S± sobre los vectores base está dada por las Ecs. (10.46) con j = s = 1/2
Los operadores Si , S2 , S± poseen el álgebra de cualquier momento angular Ecs. (10.14-10.17). Sin embargo, hay
algunas propiedades algebráicas adicionales propias de j = s = 1/2. En lo que sigue tomaremos j = s = 1/2.
Las expresiones (15.10) junto con (15.11) nos permiten demostrar ciertas propiedades de los S i y de S± . Cal-
culemos primero S12 , S22 , S1 S2 , S2 S1
1 2 1 2
S12 = S+ + S − 2
+ S+ S− + S− S+ ; S22 = − S+ + S− 2
− S + S− − S − S+ (15.12)
4 4
1 2 2
1 2 2
S1 S2 = S+ − S + S− + S − S+ − S − ; S 2 S1 = S+ + S + S− − S − S+ − S −
4i 4i
S+2 − [S , S ] − S 2 S 2 + [S , S ] − S 2
+ − − + −
S1 S2 = ; S 2 S1 = + −
4i 4i
S+2 − 2~S − S 2 S 2 + 2~S3 − S− 2
3 −
S1 S2 = ; S 2 S1 = + (15.13)
4i 4i
donde hemos usado (10.16). Similarmente podemos calcular los otros productos
1 1
S1 S3 = (S+ S3 + S− S3 ) ; S3 S1 = (S3 S+ + S3 S− ) (15.14)
2 2
1 1
S2 S3 = (S+ S3 − S− S3 ) ; S3 S1 = (S3 S+ − S3 S− ) (15.15)
2i 2i
4
Este es por supuesto un abuso del lenguaje, ya que ambos estados poseen el mismo espı́n y se diferencian solo en su momento
magnético intrı́nseco.
15.6. PROPIEDADES DE UN MOMENTO ANGULAR 1/2 335
un estado arbitrario de Es está dado por (15.8). Por tanto la acción de los operadores S ± sobre un estado arbitrario
de Es se obtiene combinando (15.11) con (15.8)
2 2 2
S+ |χi = S+ [c+ |+i + c− |−i] = c− S+ |−i = ~c− S+ |+i = 0
2 2 2
S− |χi = S− [c+ |+i + c− |−i] = c+ S− |+i = ~c+ S− |−i = 0
S+ S− |χi = S+ S− [c+ |+i + c− |−i] = c+ S+ S− |+i = ~c+ S+ |−i = ~2 c+ |+i = ~2 P+ |χi
S− S+ |χi = S− S+ [c+ |+i + c− |−i] = c− S− S+ |−i = ~c− S− |+i = ~2 c− |−i = ~2 P− |χi
(S+ S− + S− S+ ) |χi = ~2 [P+ + P− ] |χi = ~2 |χi
1 c+ c−
S3 S1 |χi = (S3 S+ + S3 S− ) [c+ |+i + c− |−i] = (S3 S+ + S3 S− ) |+i + (S3 S+ + S3 S− ) |−i
2 2 2
~c+ ~c− ~2 c+ ~2 c− ~2
= S3 |−i + S3 |+i = − |−i + |+i = − [c+ |−i − c− |+i]
2 2 4 4 4
~2
S3 S1 |χi = − [c+ |−i − c− |+i] (15.20)
4
comparando (15.19) con (15.20) teniendo en cuenta que |χi es arbitrario se obtiene
S1 S3 + S 3 S1 = 0
336 CAPÍTULO 15. MOMENTO ANGULAR INTRÍNSECO
puesto que las matrices (~/2) σi y las matrices ~σ± son representaciones de los operadores S i y S± deben cumplir
el álgebra de éstos operadores Ecs. (15.24, 15.25)
estas relaciones se pueden verificar explı́citamente. También se puede verificar explı́citamente que
Las Ecs. (15.27) son independientes de la base ya que la traza y el determinante son invariantes ante transformaciones
de similaridad. Podemos verificar también la siguiente identidad
donde A y B son vectores arbitrarios u operadores vectoriales cuyas tres componentes conmutan con las componentes
de S. No es necesario que A y B conmuten, pero si no conmutan, el orden de aparición de los operadores en (15.28)
debe ser estricto. La Ec. (15.28) se puede demostrar usando las propiedades (15.26) y la hipótesis de que las
componentes de A y B conmutan con las σ i . Usaremos sı́mbolos explı́citos de sumatoria para efectos de claridad
XX X XX
(σ̃ · A) (σ̃ · B) = (σm Am ) (σn Bn ) = (σm Am ) (σm Bm ) + (σm Am ) (σn Bn )
m n m m n6=m
" #
X XX X XX X
2
= σm Am Bm + σm σn Am Bn = 12×2 Am Bm + iεmnk σk Am Bn
m m n6=m m m n6=m k
X X XX X
= 12×2 Am Bm + i σk εmnk Am Bn = 12×2 (A · B) + i σk (A × B)k
m k m n6=m k
(σ̃ · A) (σ̃ · B) = 12×2 (A · B) + iσ̃· (A × B)
cualquier matriz compleja 2 × 2 se puede escribir como una combinación lineal compleja de estas cuatro matrices
M2×2 = cµ σµ ; µ = 0, 1, 2, 3
sumando sobre ı́ndices repetidos. Esto se debe a que las cuatro matrices σ µ son linealmente independientes y se
necesitan cuatro elementos (complejos) para determinar una matriz compleja 2 × 2. Por lo tanto, las cuatro matrices
σµ forman una base para el espacio vectorial complejo de todas las matrices complejas 2 × 2.
E = E r ⊗ Es
B 0 = Ir ⊗ B
Sin embargo, no cambiaremos la notación para estas extensiones y las seguiremos llamando A y B. En particular,
podemos obtener un C.S.C.O. en E como la yuxtaposición de un C.S.C.O. en E r con un C.S.C.O. en Es . Por ejemplo,
en Es el conjunto S2 , S3 forma un C.S.C.O. a esto le podemos añadir un C.S.C.O. de E r para obtener un C.S.C.O.
de E. Como ejemplos tenemos
X1 , X2 , X3 , S2 , S3 ; P1 , P2 , P3 , S2 , S3 ; L2 , L3 , H, S2 , S3 (15.30)
puesto que todos los kets de E son kets propios de S 2 , este operador podrı́a ser omitido y aún tendrı́amos un C.S.C.O.
en E. Esto se debe a que estrictamente S 3 por sı́ solo ya forma un C.S.C.O. en E s . Sin embargo, es usual dejar S2
338 CAPÍTULO 15. MOMENTO ANGULAR INTRÍNSECO
dentro del C.S.C.O. ya que si bien es deseable que éste contenga el mı́nimo de operadores posible, no es obligatorio
que ası́ sea.
Vamos a escribir las relaciones con el primero de los C.S.C.O. en la Ec. (15.30). Una base en E se obtiene como
el producto tensorial de las bases en cada espacio
3 ~
Xi |r, εi = xi |r, εi ; S2 |r, εi = ~2 |r, εi ; S3 |r, εi = ε |r, εi ; ε ≡ ±1
4 2
puesto que esto es un C.S.C.O. cada |r, εi es único salvo factores constantes. Dado que {|ri} es ortonormal en E r en
el sentido extendido, y {|εi} es ortonormal en E s (ver Ecs. 15.7) entonces {|r, εi} es ortonormal en E en el sentido
extendido
0
0
hr0 ε0 |r, εi = r ⊗ ε (|ri ⊗ |εi) = hr0 |ri hε0 |εi
hr0 ε0 |r, εi = δ r − r0 δεε0
la relación de completez que nos dice que {|r, εi} es una base en E es
XZ Z Z
d r |r, εi hr, ε| = d r |r, +i hr, +| + d3 r |r, −i hr, −| = IE
3 3
donde ψε (r) son las coordenadas o componentes (transformadas de Fourier) en la base {|r, εi}. Estas coordenadas
o componentes, dependen de tres ı́ndices contı́nuos r y del ı́ndice discreto ε. Por tanto, una función de onda en E se
especifica a través de dos funciones de onda espaciales correspondientes a los dos estados de espı́n
como ψ+ (r) y ψ− (r) son estados ortogonales, es usual escribirlos en forma de un arreglo de dos componentes
conocido como espinor
ψ+ (r)
[ψ] (r) = (15.34)
ψ− (r)
el bra hψ| asociado al espacio dual E ∗ se obtiene con el hermı́tico conjugado de la Ec. (15.31)
XZ
hψ| = d3 r ψε∗ (r) hr, ε|
ε
ψ ∗ (r) = ψ+
∗ ∗
(r) + ψ− (r) ∗
; ψ± (r) ≡ hψ |r, ±i
∗ (r) que se pueden escribir en forma de espinor como
nos dice que el bra hψ| está representado por dos funciones ψ ±
el adjunto de (15.34)
[ψ]† (r) = ψ+ ∗ (r) ψ ∗ (r)
− (15.35)
15.7. DESCRIPCIÓN NO RELATIVISTA COMPLETA DE OPERADORES Y ESTADOS DE PART ÍCULAS CON E
el producto escalar entre dos estados |ψi y |ϕi, se puede escribir como
" #
XZ Z X
3 3
hψ |ϕi = hψ| IE |ϕi = d r hψ |r, εi hr, ε| ϕi = d r hψ |r, εi hr, ε| ϕi
ε ε
Z
3
hψ |ϕi = d r [hψ |r, +i hr, +| ϕi + hψ |r, −i hr, −| ϕi]
Z
∗
hψ |ϕi = d3 r ψ+ ∗
(r) ϕ+ (r) + ψ− (r) ϕ− (r)
donde hemos usado (15.34, 15.35). Esta expresión se asemeja a la que se obtiene para el producto interno de dos kets
en Er , pero teniendo en cuenta que en vez de funciones de onda escalares tenemos espinores de dos componentes, de
modo que se debe realizar la multiplicación matricial antes de integrar en el espacio. En particular la normalización
queda en la forma
Z Z h i
hψ |ψi = |ψ| = d r [ψ] (r) [ψ] (r) = d3 r |ψ+ (r)|2 + |ψ− (r)|2 = 1
2 3 †
(15.36)
hemos visto que un vector de E no necesariamente es el producto tensorial de un vector en E r por otro en Es . Sin
embargo, esto es válido para algunos vectores (en particular los vectores base |r, εi), si el vector |ψi en cuestión es
de este tipo
|ψi = |ϕi ⊗ |χi ; |ϕi ∈ Er , |χi ∈ Es
el espinor asociado tendrá una forma simple ya que
Z
|ϕi = d3 r ϕ (r) |ri ; |χi = c+ |+i + c− |−i
ψ± (r) ≡ hr, ± |ψi = [hr| ⊗ h±|] [|ϕi ⊗ |χi] = hr |ϕi h± |χi = ϕ (r) h±| [c + |+i + c− |−i]
ψ± (r) = c± ϕ (r)
|ψi = |ϕi ⊗ |+i ⇒ ψ+ (r) ≡ hr |ϕi h+ |+i = ϕ (r) ; ψ− (r) ≡ hr |ϕi h− |+i = 0
1
[ψ] (r) = ϕ (r) ; [ψ]† (r) = ϕ∗ (r) 1 0
0
Operadores espinoriales
Asumamos que el operador As está definido originalmente solo por su acción sobre E s
As |εi = ε0 ; |εi , ε0 ∈ Es
A0s ≡ As ⊗ Ir
la extensión del operador solo afectará a la parte espinorial de |r, εi y la transformará de la misma forma que lo
hace el operador original, en tanto que la parte espacial permanece intacta. Estos operadores se pueden representar
como matrices 2×2 y de aquı́ en adelante usamos A para denotar al operador extendido 5 . Tomemos como ejemplo
a S+ , este operador actuando sobre un estado arbitrario |ψi de E nos da
XZ Z
S+ |ψi = d3 r ψε (r) [S+ |r,εi] = d3 r {ψ+ (r) [S+ |r,+i] + ψ− (r) [S+ |r,−i]}
Zε
S+ |ψi = d3 r ψ− (r) [S+ |r,−i]
donde hemos usado que S+ |+i = 0 y por tanto S+ |r,+i = 0. Y como S+ |−i = ~ |+i se tiene finalmente
Z
0
ψ ≡ S+ |ψi = ~ d3 r ψ− (r) |r,+i
5
Por supuesto la representación matricial de A0s es estrictamente de dimensión infinita, pero dado que A0s = As ⊗ 1r , se tiene que la
parte no trivial de la matriz es de dimensión finita.
15.7. DESCRIPCIÓN NO RELATIVISTA COMPLETA DE OPERADORES Y ESTADOS DE PART ÍCULAS CON E
es decir la misma representación matricial sirve para definir a S + tanto en Es como en E. ¿Cuál es la diferencia?.
Formalmente, en Es cada elemento de la matriz es un número. En cambio en E cada elemento matricial representa a
un operador que actúa sobre Er , por ejemplo, la matriz σ+ como representación extendida, rigurosamente significa
lo siguiente
0 0r Ir
σ+ =
0r 0r
es decir cada elemento matricial representa a los operadores nulo e identidad del espacio E r . No obstante, desde el
punto de vista práctico esta notación es innecesaria.
Operadores orbitales
El procedimiento es similar. Asumamos A x que actúa sobre Er , definiendo su extensión y su acción sobre un ket
|ψi de E obtenemos
Ax |ri = r0 ; |ri , r0 ∈ Er
A0x ≡ Ax ⊗ Is ; A0x |r, εi = r0 , ε
XZ
|ψi = d3 r ψε (r) |r, εi
ε
X Z XZ
0
ψ ≡ A0x |ψi = 3
d r ψε (r) A0x |r, εi = d3 r ψε (r) r0 , ε
Zε ε
0
ψ ≡ A0x |ψi = d3 r ψ+ (r) A0x |r, +i + ψ− (r) A0x |r, −i
como A0x |r, +i actúa sobre un espacio idéntico a |ri (ya que actúa sobre un subespacio unidimensional de E s ),
podemos escribir Ax |r, +i. Igual ocurre para Ax |r, −i
Z
0
ψ+ (r) ≡ hr, + ψ = hr, +| d3 r0 ψ+ r0 Ax r0 , + + ψ− r0 Ax r0 , −
0
Z
= d3 r0 hr, +| ψ+ r0 Ax r0 , + + hr, +| ψ− r0 Ax r0 , −
Z n o
= d3 r0 A bx (r) ψ+ r0 hr, + r0 , + + ψ− r0 Ax hr, + r0 , −
Z n o
= d3 r00 A bx (r) ψ+ r0 δ r − r0 = A bx (r) ψ+ (r)
bx (r) denota la forma del operador Ax en la base {|ri}, con lo cual se obtiene
donde A
ψ+0
(r) ≡ hr, + ψ 0 = A bx (r) ψ+ (r)
ψ 0 (r) ≡ hr, − ψ 0 = A bx (r) ψ− (r)
−
342 CAPÍTULO 15. MOMENTO ANGULAR INTRÍNSECO
!
0 bx (r)
A 0 ψ+ (r) h i
ψ (r) = = Abx (r) ⊗ Is [ψ] (r)
0 b
Ax (r) ψ− (r)
que nos muestra la forma correcta para la extensión del operador A x
Por tanto, la representación matricial 2 × 2 del operador es proporcional a la identidad, puesto que no hay
cambio en los estados espinoriales. Los operadores actúan sobre la parte espacial tal como lo hace el operador
original. Tomemos como ejemplo a los operadores X 1 , P1
de nuevo cada elemento de la matriz es un operador sobre E r aunque esta vez es un operador no trivial. En este
caso el operador trivial es sobre los espinores y por eso la matriz es proporcional a la identidad.
Operadores mixtos
Si un operador es de carácter mixto, será una matriz 2×2 no trivial que actúa sobre E s y en donde cada elemento
matricial es un operador no trivial sobre E r . Algunos ejemplos de operadores mixtos que aparecen en cuántica son
L3 S3 , S · P. De acuerdo con la teorı́a de representaciones, las representaciones matriciales deben manifestar la
preservación del producto
~ ∂ ~
[L3 S3 ] = [L3 ] [S3 ] = Is Ir σ3
i ∂ϕ 2
" !#
∂
~ ∂ϕ 0 ~ 1 0
= ∂
i 0 ∂ϕ 2 0 −1
!
∂
~2 ∂ϕ 0
[L3 S3 ] = ∂
2i 0 − ∂ϕ
~2 0 1 ∂ 0 −i ∂ 1 0 ∂
[S · P] = + +
2i 1 0 ∂x1 i 0 ∂x2 0 −1 ∂x3
" ! ! !#
∂
~2 0 ∂x1 0 −i ∂x∂ 2 ∂
∂x3 0
[S · P] = ∂ + +
2i ∂x1 0 i ∂x∂ 2 0 0 − ∂x∂ 3
!
∂ ∂
~2 ∂x3 ∂x1 − i ∂x∂ 2
[S · P] = ∂
2i ∂x1 + i ∂x∂ 2 − ∂x∂ 3
donde la estructura de la matriz representa la transformación sobre el espacio de espines y cada elemento de la
matriz representa un operador en el espacio de coordenadas. Un elemento matricial hψ| A |ϕi estará dado por
Z
hψ| A |ϕi = d3 r [ψ]† (r) [A] [ϕ] (r)
expresión similar a la que se encuentra para el espacio de coordenadas, pero teniendo en cuenta que en vez de
funciones de onda escalares aquı́ tenemos espinores de dos componentes. Los productos matriciales deben hacerse
para entonces evaluar la integral. Esta representación solo se usará cuando sea particularmente simple. En general
al igual que en Er suele ser mejor trabajar con los operadores y estados en abstracto hasta donde sea posible.
donde hemos asumido que la función de onda está normalizada en la forma (15.36). Similarmente la probabilidad de
que la partı́cula se encuentre dentro de un volumen d 3 r centrado en r con su espı́n “abajo” (es decir con la componente
del espı́n a lo largo de X3 igual a −~/2), está dada por
Si lo que queremos es medir la componente del espı́n a lo largo de X 1 , debemos tener en cuenta que los autoestados
(normalizados) de S1 vienen dados por
1
|±iS1 = √ [|r, +i ± |r, −i] (15.38)
2
siendo |±i los autoestados de S3 . Podemos verificar que estos son autoestados de S 1 en la siguiente forma
1 1 1 ~
S1 |±iS1 = √ S1 [|r, +i ± |r, −i] = √ (S+ + S− ) [|r, +i ± |r, −i] = √ [S− |r, +i ± S+ |r, −i] = √ [|r, +i ± |r
2 2 2 2 2 2 2
~
S1 |±iS1 = |±iS1
2
La probabilidad de encontrar al electrón en el volumen d 3 r centrado en r y con componente positiva de espı́n a lo
largo de X1 es
2
1 1
dPS1 (r, +) = |S1 hr, +| ψi| d r = √ [hr, +| + hr, −|] |ψi = |[hr, +| ψi + hr, −| ψi]|2
2 3
2 2
1
dPS1 (r, +) = |ψ+ (r) + ψ− (r)|2 d3 r (15.39)
2
Por supuesto, podemos estar interesados en calcular la probabilidad de que la partı́cula posea un momento
centrado en p en un volumen (de momento) d 3 p y con componente de espı́n a lo largo de Z de ±~/2. Para ello
usamos las componentes del estado |ψi en la base {|p, εi}, que nos da las transformadas de Fourier de ψ̄± (r)
Por otro lado, podemos estar interesados en hacer mediciones incompletas en el sentido de que los observables
asociados a las medidas no formen un C.S.C.O. es decir que las medidas no conducen a determinar el estado de
manera única. Cuando las medidas son incompletas hay varios estados ortogonales asociados al mismo resultado y
debe sumarse los cuadrados de los módulos de las amplitudes correspondientes.
Como ejemplo, si no nos interesa conocer el espı́n, la probabilidad dP (r) de encontrar a la partı́cula en el
volumen d3 r centrado en r es igual a
n o n o
dP (r) = |hr, +| ψi| 2 + |hr, −| ψi|2 d3 r = |ψ+ (r)|2 + |ψ− (r)|2 d3 r
dado que los dos estados ortogonales |r, +i y |r, −i están asociados al mismo resultado r donde sus amplitudes de
probabilidad son ψ+ (r) y ψ− (r).
Ahora supongamos que queremos saber la probabilidad de que la partı́cula tenga componente S 3 igual a +~/2,
pero sin importar su ubicación ni el valor de las demás variables orbitales. Hay un conjunto infinito de estados
ortogonales {|r, +i} asociados a este resultado, cuyas probabilidades deben ser sumadas
Z Z
P+ = d r |hr, +| ψi| = d3 r |ψ+ (r)|2
3 2
si por ejemplo queremos encontrar la probabilidad de obtener un espı́n +~/2 a lo largo de X 1 , debemos integrar la
Ec. (15.39) en todo el espacio.
Capı́tulo 16
y como L(α) no depende explı́citamente del tiempo, se tiene que cada momento angular es constante de movimiento
por aparte, tal como en el caso clásico. Ahora asumimos que las dos partı́culas interactúan por medio de un potencial
W (|r2 − r1 |) que solo depende de la distancia entre las partı́culas, esto implica por supuesto asumir la validez de
la ley de acción y reacción. La distancia |r 2 − r1 | se escribe
r
(1) (2) (1) (2)
|r2 − r1 | = xi − x i xi − xi (16.4)
H = H1 + H2 + W (|r2 − r1 |)
(1)
analicemos por ejemplo la componente L 3 , para calcular el conmutador con W debemos aplicar el conmutador a
una función de onda arbitraria ψ (r)
! !
h i ~ ∂ ∂ ~ ∂ ∂
(1) (1) (1) (1) (1)
L3 , W ψ (r) = x1 (1)
− x2 (1)
(W ψ) − W x1 (1)
− x2 (1)
ψ
i ∂x2 ∂x1 i ∂x2 ∂x1
! !
~ (1) ∂W (1) ~ ∂W (1) ∂ψ (1) ∂ψ
= x1 (1)
− (1)
x2
ψ+ x1 (1)
− x2 W
i ∂x2 ∂x1 i ∂x2 ∂x1
!
~ (1) ∂ψ (1) ∂ψ
−W x1 (1)
− x2 (1)
i ∂x2 ∂x1
!
~ (1) ∂W (1) ∂W
= x1 (1)
− x2 (1)
ψ (r)
i ∂x2 ∂x1
esta expresión no es necesariamente cero, de modo que L (1) no es en general constante de movimiento. Ahora bien,
si definimos el momento angular total L con una expresión análoga al caso clásico Ec. (16.1) tenemos
L = L(1) + L(2)
obtenemos un operador cuyas tres componentes son constantes de movimiento. Por ejemplo, se vé que
h i
(1) (2)
[L3 , H] = L3 + L 3 , H
!
~ (1) ∂W (1) ∂W (2) ∂W (2) ∂W
[L3 , H] = x1 (1)
− x2 (1)
+ x1 (2)
− x2 (2)
(16.5)
i ∂x2 ∂x1 ∂x2 ∂x1
16.2. MOMENTO ANGULAR TOTAL EN MECÁNICA CUÁNTICA 347
y puesto que W solo depende de |r2 − r1 | dada por (16.4) tenemos que
r
(1) (2) (1) (2)
∂ xk − x k xk − x k
∂W ∂W ∂ |r2 − r1 | ∂W
(1)
= (1)
= (1)
∂xi ∂ |r 2 − r 1 | ∂x ∂ |r 2 − r1 | ∂xi
i
(1) (2) ∂ (1) (2) (1) (2)
2 xk − x k (1) x k − x k xk − xk δik
∂W ∂xi ∂W
= r = r
∂ |r2 − r1 | (1) (2) (1) (2) ∂ |r2 − r1 | (1) (2) (1) (2)
2 xk − x k xk − x k xk − x k xk − x k
(1) (2)
∂W ∂W xi − x i
(1)
=
∂xi ∂ |r2 − r1 | |r2 − r1 |
(2)
similarmente se calcula ∂W/∂xi se obtiene entonces
(1) (2)
∂W ∂W ∂ |r2 − r1 | ∂W xi − x i
(1)
= (1)
=
∂xi ∂ |r2 − r1 | ∂x ∂ |r2 − r1 | |r2 − r1 |
i
(2) (1)
∂W ∂W ∂ |r2 − r1 | ∂W xi − x i
(2)
= = (16.6)
∂xi ∂ |r2 − r1 | ∂x(2) ∂ |r2 − r1 | |r2 − r1 |
i
HSO = ξ (r) L · S
siendo ξ (r) una función conocida de la variable r. Por el momento no analizaremos la procedencia fı́sica de este
término, pero sı́ sus consecuencias. El Hamiltoniano ahora es
H 0 = H + ξ (r) L · S
similarmente
S3 , H 0 = [S3 , HSO ] = ξ (r) [S3 , L1 S1 + L2 S2 + L3 S3 ]
0
S3 , H = ξ (r) [S3 , L1 S1 + L2 S2 ] = ξ (r) L1 [S3 , S1 ] + ξ (r) L2 [S3 , S2 ]
0
S3 , H = i~ξ (r) {L1 S2 − L2 S1 } = − L3 , H 0
348 CAPÍTULO 16. ADICIÓN DE MOMENTOS ANGULARES
dado que los momentos angulares J(1) y J(2) conmutan por ser de espacios diferentes, se tiene que
h i h i h i
(1) (1) (2) (2) (1) (2) (1) (2)
[Ji , Jj ] = Ji , Jj + Ji , J j = iεijk Jk + iεijk Jk = iεijk Jk + Jk
[Ji , Jj ] = iεijk Jk
lo cual muestra que si J(1) y J(2) son dos momentos angulares arbitrarios que conmutan entre sı́, entonces el operador
J ≡ J(1) + J(2)
también es un momento angular. Todas las propiedades generales de un momento angular serán válidas entonces
para J. Tendremos además otras propiedades para conmutadores mixtos (que involucren por ejemplo un momento
angular total y un momento angular parcial). En particular, veamos las propiedades de conmutación de J 2
2
J2 = J(1) + J(2) = J2(1) + J2(2) + 2J(1) · J(2) (16.7)
1
De hecho existirá una base que diagonaliza a los tres operadores simultáneamente.
16.3. LA ADICIÓN DE DOS MOMENTOS ANGULARES ES OTRO MOMENTO ANGULAR 349
donde hemos tenido en cuenta que J(1) y J(2) conmutan. El producto escalar se puede expresar en términos de los
(1) (2) (1) (2)
operadores escalera J± , J± y los operadores J3 y J3 .
(1) (2) (1) (2) (1) (2)
J(1) · J(2) = J1 J1 + J2 J2 + J3 J3 (16.8)
1 (1) (1)
(2) (2)
1 (1) (1)
(2) (2)
(1) (2)
= J+ + J − J+ + J − + 2 J+ − J − J+ − J − + J 3 J3
4 4i
1 h (1) (2) (1) (2) (1) (2) (1) (2) (1) (2) (1) (2)
= J J + J + J− + J − J+ + J − J− − J + J+ + J + J−
4 + + i
(1) (2) (1) (2) (1) (2)
+J− J+ − J− J− + J3 J3
1 (1) (2) (1) (2)
(1) (2)
J(1) · J(2) = J+ J− + J − J+ + J 3 J3 (16.9)
2
La idea ahora es comparar los conjuntos conmutantes
n o
2 (1) 2 (2)
J(1) , J3 , J(2) , J3 ; J2 , J 3
donde el primero consiste de momentos angulares parciales y el segundo de momentos angulares totales. Puesto que
J(1) y J(2) conmutan con J2(1) y J2(2) , también conmuta J
h i h i
J, J2(1) = J, J2(2) = 0
(1) (2)
por otro lado, es obvio que J3 conmuta con J3 y J3
h i h i
(1) (2)
J3 , J 3 = J3 , J 3 =0 (16.12)
(1) (2)
pero J2 no conmuta ni con J3 ni con J3 , lo cual vemos usando (16.7, 16.8)
h i h i h i
(1) (1) (1)
J2 , J 3 = J2(1) + J2(2) + 2J(1) · J(2) , J3 = 2 J(1) · J(2) , J3
h i h i h i h i
(1) (1) (2) (1) (2) (1) (1) (2) (1) (1) (2) (1)
J2 , J 3 = 2 J1 J1 + J 2 J2 , J 3 = 2 J1 J1 , J 3 + 2 J2 J2 , J 3
h i h i h i h i
(1) (2) (1) (1) (1) (2) (1) (2) (1) (1) (1) (2)
= 2J1 J1 , J3 + 2 J1 , J3 J1 + 2J2 J2 , J3 + 2 J2 , J3 J2
h i
(1) (1) (2) (1) (2)
J2 , J 3 = −2i~J2 J1 + 2i~J1 J2
quedando finalmente h i h i
(1) (1) (2) (1) (2)
J2 , J 3 = 2i~ J1 J2 − J2 J1 (16.13)
y puesto que J es un momento angular, se cumple que
2
J ,J = 0
y por tanto h i h i h i
(1) (2) (1) (2)
J2 , J 3 + J 3 =0 ⇒ J2 , J 3 = − J2 , J 3
el análisis anterior nos muestra que el siguiente conjunto de operadores conmuta entre sı́
n o
J2 , J3 , J2(1) , J2(2)
350 CAPÍTULO 16. ADICIÓN DE MOMENTOS ANGULARES
(1) (2)
conmutan entre sı́. Veremos ahora que este conjunto también es un C.S.C.O. en E = E 1/2 ⊗ E1/2 . Adicionar dos
momentos angulares implica construı́r el sistema ortonormal de autovectores comunes al conjunto (16.18). Este
(1) (2)
conjunto diferirá de (16.14) ya que J 2 no conmuta con J3 , J3 . Denotaremos los vectores de la nueva base en la
forma |J, M i donde los autovalores de J 2(1) , J2(2) (que permanecen iguales) están implı́citos 3 . Estos vectores satisfacen
las relaciones
3
J2(1) |J, M i = J2(2) |J, M i = ~2 |J, M i (16.19)
4
J2 |J, M i = J (J + 1) ~2 |J, M i (16.20)
J3 |J, M i = M ~ |J, M i (16.21)
ya que J es un momento angular, entonces J debe ser entero o semientero no negativo, M debe estar entre −J y J
variando en saltos unidad. El problema es entonces encontrar los valores que J y M pueden tomar con base en los
valores de j1 , j2 y m1 , m2 , ası́ como expresar la base {|J, M i} en términos de la base conocida (16.14).
A continuación resolveremos el problema diagonalizando las matrices 4×4 que representan a J 2 y a J3 en la base
{|ε1 , ε2 i}. Más adelante se empleará un método más general que se puede usar en espacios vectoriales de dimensión
arbitraria.
Por otro lado, las Ecs. (16.10, 16.12) nos dicen que J 3 conmuta con los cuatro observables del C.S.C.O. dados
por la Ec. (16.17). Por tanto, esperamos que los vectores base {|ε 1 , ε2 i} sean automáticamente autovectores de J 3 .
Usando (16.16) se encuentra que
~
(1) (2)
J3 |ε1 , ε2 i = J3 + J3 |ε1 , ε2 i = (ε1 + ε2 ) |ε1 , ε2 i
2
vemos entonces que |ε1 , ε2 i es autovector de J3 con autovalor
1
M~ = (ε1 + ε2 ) ~ (16.22)
2
puesto que ε1 y ε2 toman los valores ±1, vemos que M toma los valores +1, 0, −1.
Los valores M = ±1 son no degenerados. Solo un autovector corresponde a cada uno de ellos: |+, +i corresponde
a +1 y |−, −i corresponde a −1. En otras palabras para que M = +1 solo hay una posibilidad ε 1 = ε2 = +1, el
caso M = −1 solo es posible si ε1 = ε2 = −1. En contraste, M = 0 tiene degeneración dos, a él corresponden los
estados |+, −i y |−, +i. Esto se traduce en que hay dos soluciones para M = 0, ε 1 = −ε2 = 1 y ε1 = −ε2 = −1.
Cualquier combinación lineal de los vectores |+, −i y |−, +i es un autoestado de J 3 con autovalor M = 0.
Estos resultados se ven claramente en la representación matricial de J 3 en la base {|ε1 , ε2 i}. Ordenando los
vectores en la forma de la Ec. (16.14) esta matriz es
1 0 0 0
0 0 0 0
(J3 ) = ~
0 0 0 0
0 0 0 −1
16.4.2. Diagonalización de J2
Aplicaremos J2 a los vectores de la base (16.14), para lo cual usaremos las Ecs. (16.7, 16.9)
2
(1) (2) (1) (2) (1) (2)
J2 = J(1) + J(2) = J2(1) + J2(2) + J+ J− + J− J+ + 2J3 J3
(1) (2)
los 4 vectores |ε1 , ε2 i son autovectores de J2(1) , J2(2) , J3 y J3 como se vé en la Ecs. (16.15, 16.16), y la acción de los
operadores escalera viene dada por la Ecs. (15.11), por tanto podemos evaluar J 2 |ε1 , ε2 i para todos los elementos
de la base {|ε1 , ε2 i}
2 3 2 3 2 1
J |+, +i = ~ + ~ |+, +i + ~2 |+, +i
4 4 2
= 2~2 |+, +i (16.23)
2 3 2 3 2 1
J |+, −i = ~ + ~ |+, −i − ~2 |+, −i + ~2 |−, +i
4 4 2
= ~2 [|+, −i + |−, +i] (16.24)
2 3 2 3 2 1
J |−, +i = ~ + ~ |−, +i − ~2 |−, +i + ~2 |+, −i
4 4 2
= ~2 [|+, −i + |−, +i] (16.25)
2 3 2 3 2 1
J |−, −i = ~ + ~ |−, −i + ~2 |−, −i
4 4 2
= 2~2 |−, −i (16.26)
la matriz representativa de J2 en la base {|ε1 , ε2 i} en el orden dado por (16.14) está dada por
2 0 0 0
0 1 1 0
J2 = ~ 2 0 1
1 0
0 0 0 2
352 CAPÍTULO 16. ADICIÓN DE MOMENTOS ANGULARES
puesto que J2 conmuta con J3 , la matriz tendrá elementos no cero solo entre autovectores de J 3 asociados con el
mismo autovalor, lo cual explica los ceros de la matriz. De acuerdo con los resultados de la sección 16.4.1, los únicos
elementos no diagonales de J2 que son diferentes de cero, son aquellos que relacionan a los vectores {|+, −i , |−, +i},
los cuales están asociados al mismo valor de M (M = 0).
Ahora para diagonalizar esta matriz podemos tener en cuenta que es diagonal por bloques partiéndose en tres
submatrices
A1×1 0 0
0 B2×2 0
0 0 C1×1
La matrices unidimensionales son las asociadas a los vectores |±, ±i que son autovectores de J 2 , como se vé en las
Ecs. (16.23,16.26). Los autovalores asociados son 2~ 2 . Ahora debemos diagonalizar la submatriz
2 1 1
B2×2 = ~
1 1
que representa a J2 dentro del subespacio dos dimensional generado por {|+, −i , |−, +i}, es decir el autosubespacio
de J3 que corresponde a M = 0. Los autovalores λ~ 2 = J (J + 1) ~2 de esta matriz se encuentran con la ecuación
caracterı́stica
(1 − λ)2 − 1 = 0
cuyas raı́ces son λ = 0 y λ = 2. Esto nos da los últimos autovalores de J 2 : 0 y 2~2 , es decir J = 0 y 1. Los
autovectores nos dan
1
|J = 1, M = 0i = √ [|+, −i + |−, +i] (16.27)
2
1
|J = 0, M = 0i = √ [|+, −i − |−, +i] (16.28)
2
como siempre, se puede colocar una fase global si se desea.
Vemos entonces que J2 tiene dos autovalores diferentes: 0 y 2~ 2 . El autovalor nulo es no degenerado y tiene como
único vector asociado a (16.28). Por otro lado, el valor propio 2~ 2 tiene degeneración triple, ya que está asociado a
los vectores |+, +i , |−−i y a la combinación lineal (16.27).
A la familia (16.30) de tres vectores asociados a J = 1 se le denomina un triplete. Al vector |0, 0i asociado
a J = 0 se le denomina un singlete. La Ec. (16.30) nos muestra que los estados del triplete son simétricos con
respecto al intercambio de dos momentos angulares (por ejemplo espı́nes), en tanto que el estado singlete Ec.
(16.29) es antisimétrico. Es decir si cada vector |ε 1 , ε2 i se reemplaza por |ε2 , ε1 i, las expresiones (16.30) permanecen
invariantes en tanto que (16.29) cambia de signo. Esto tendrá gran importancia cuando las partı́culas cuyos espines
se adicionan sean idénticas. Además esto nos indica la combinación lineal de |+, −i con |−, +i que se requiere para
completar el triplete (debe ser simétrica). La parte singlete serı́a entonces la combinación lineal antisimétrica de
|+, −i con |−, +i la cual es ortogonal a la parte simétrica y por supuesto a los demás estados del triplete.
de modo que la acción de los operadores escalera sobre esta base estándar está dada por las Ecs. (10.46)
p
J± |j, m, ki = ~ j (j + 1) − m (m ± 1) |j, m ± 1, ki (16.32)
denotamos como E (j, k) al autosubespacio expandido por vectores de la base estándar con j, k fijos. Este espacio
es de dimensión 2j + 1 correspondiente a los valores de m para un j dado. La dimensión no depende de k. Las Ecs.
(16.31, 16.32) nos dicen que los 2j + 1 vectores de la base para E (j, k) se transforman entre sı́ por medio de los
operadores J2 , J3 , J+ , J− . Es decir, el autosubespacio E (j, k) es globalmente invariante bajo estos cuatro operadores
y más en general es globalmente invariante bajo la acción de una función F (J). El espacio completo E se puede
escribir como una suma directa de subespacios ortogonales E (j, k) como se vé en la Ec. (10.45)
debido a la invariancia de estos subespacios bajo los operadores J 2 , J3 , J+ , J− , F (J) estos operadores tendrán
una representación matricial en la base estándar donde los elementos matriciales no nulos están dentro de cada
subespacio E (j, k). Además dentro de cada subespacio E (j, k) los elementos de matriz de una función del tipo F (J)
son independientes de k.
Recordemos además que si a J2 y J3 le agregamos los operadores necesarios para formar un C.S.C.O. podemos
dar un significado fı́sico a k construyendo los vectores propios comunes a todo el C.S.C.O. si por ejemplo solo se
requiere un operador A para formar el C.S.C.O. y asumimos que A conmuta con J (escalar), podemos requerir que
los autovectores |j, m, ki también sean autovectores de A
de modo que la base estándar {|j, m, ki} estará determinada por las Ecs. (16.31, 16.32, 16.34). Cada E (j, k) es
también autosubespacio de A y el ı́ndice k discrimina entre los diferentes autovalores a j,k asociados a cada valor
de k. Cuando se requiere más de un operador para formar el C.S.C.O. el ı́ndice k corresponde realmente a varios
ı́ndices.
Asumiremos que para el espacio de estados E 1 del subsistema (1) conocemos una base estándar {|j 1 , m1 , k1 i} de
(1)
vectores propios comunes a J2(1) y J3 siendo J(1) el momento angular asociado al subsistema (1) por tanto las Ecs.
(16.31, 16.32) nos dan
(1)
J2(1) |j1 , m1 , k1 i = j1 (j1 + 1) ~2 |j1 , m1 , k1 i ; J3 |j1 , m1 , k1 i = m1 ~ |j1 , m1 , k1 i
(1)
p
J± |j1 , m1 , k1 i = ~ j1 (j1 + 1) − m1 (m1 ± 1) |j1 , m1 ± 1, k1 i
y similarmente para la base estándar {|j 2 , m2 , k2 i} del espacio E2 asociado al subsistema (2)
(2)
J2(2) |j2 , m2 , k2 i = j2 (j2 + 1) ~2 |j2 , m2 , k2 i ; J3 |j2 , m2 , k2 i = m2 ~ |j2 , m2 , k2 i
(2)
p
J± |j2 , m2 , k2 i = ~ j2 (j2 + 1) − m2 (m2 ± 1) |j2 , m2 ± 1, k2 i
E = E 1 ⊗ E2
y sabemos que el producto tensorial de las bases de E 1 y E2 formará una base en E. Denotamos esta base como
los espacios E1 y E2 son sumas directas de subespacios del tipo E 1 (j1 , k1 ) y E2 (j2 , k2 ) respectivamente. Estas sumas
están descritas por la Ec. (16.33)
(1) (1) (1) (1)
E1 = E1 j1 , k(1) = 1 ⊕ E1 j1 , k(1) = 2 ⊕ . . . ⊕ E1 j1 , k(1) = g j1 ⊕
(1) (1) (1) (1)
E1 j2 , k(1) = 1 ⊕ E1 j2 , k(1) = 2 ⊕ . . . ⊕ E1 j2 , k(1) = g j2 ⊕
(1) (1) (1) (1)
E1 j3 , k(1) = 1 ⊕ E1 j3 , k(1) = 2 ⊕ . . . ⊕ E1 j3 , k(1) = g j3 ⊕ ... (16.36)
(m)
y similarmente para el sistema (2). En este caso la notación j i representa diversos valores de j para el subsistema
m. No obstante, esta notación no será necesaria de aquı́ en adelante y usaremos j m para denotar el valor de j
asociado al subsistema m. Estas sumas las resumimos en la forma
X X
E1 = E1 (j1 , k1 ) ; E2 = E2 (j2 , k2 )
⊕ ⊕
por lo tanto E será la suma directa de subespacios E (j 1 , j2 ; k1 , k2 ) obtenido por el producto tensorial de los sube-
spacios E1 (j1 , k1 ) y E2 (j2 , k2 )
X
E= E (j1 , j2 ; k1 , k2 ) ; E (j1 , j2 ; k1 , k2 ) = E1 (j1 , k1 ) ⊗ E2 (j2 , k2 ) (16.37)
⊕
la dimensión del subespacio E (j1 , j2 ; k1 , k2 ) es (2j1 + 1) (2j2 + 1). Este subespacio será globalmente invariante ante
cualquier función de F (J1 ) y F (J2 ), donde naturalmente J1 y J2 son las extensiones de los operadores definidos
originalmente en cada subsistema.
J = J(1) + J(2)
es también un momento angular siendo J (1) y J(2) las extensiones adecuadas. Por tanto J al igual que J (1) y J(2)
satisface las propiedades algebráicas de un momento angular. No obstante, también hay algunas relaciones de
conmutación entre momentos angulares totales y parciales que son de importancia en nuestra discusión (ver sección
16.5. MÉTODO GENERAL DE ADICIÓN DE DOS MOMENTOS ANGULARES ARBITRARIOS 355
16.3). Vimos que J(1) y J(2) conmutan con J2(1) y J2(2) y por tanto también con J. En particular J 2 y J3 conmutan
(1) (2)
con J2(1) y J2(2) . Además es inmediato que J3 y J3 conmutan con J3 , por tanto
h i h i h i h i h i h i
(1) (2)
J3 , J2(1) = J3 , J2(2) = J2 , J2(1) = J2 , J2(2) = J3 , J3 = J3 , J3 = 0 (16.38)
(1) (2)
sin embargo, J3 y J3 no conmutan con J2 lo cual se pudo ver partiendo de las Ecs. (16.7, 16.9)
con autovalores j1 (j1 + 1) ~2 , j2 (j2 + 1) ~2 , m1 ~, m2 ~. Se observa entonces que la base (16.42) es adecuada para
el estudio de los momentos angulares individuales J (1) y J(2) de cada subsistema. Ahora bien, las Ecs. (16.38) nos
dicen que el conjunto de observables
J2(1) , J2(2) , J2 , J3
también conmutan entre sı́. Obsérvese que si construı́mos una base común a estos observables, serı́a más adecuada
para el estudio del momento angular total del sistema ya que un vector de esta base permitirı́a extraer los valores
propios de J2 y J3 . Esta base debe ser diferente a la anterior puesto que según la Ec. (16.41), J 2 no conmuta con
(1) (2)
J3 ni con J3 .
Además losnı́ndices k1 y o k2 tienen un significado fı́sico que es extensión natural del procedimiento para cada
2 (1)
subsistema. Si A1 , J(1) , J3 forma un C.S.C.O. en E1 donde A1 conmuta con J(1) entonces podemos escoger una
base estándar {|j1 , m1 , k1 i} consistente en los vectores
n ortonormales
o completos comunes a estos observables. Si algo
2 (2)
similar ocurre con un conjunto de observables A2 , J(2) , J3 en E2 entonces el conjunto
(1) (2)
A1 , A2 ; J2(1) , J2(2) ; J3 , J3
forma un C.S.C.O. en E cuyos autovectores están dados por la Ec. (16.42). Por otro lado, puesto que A 1 conmuta
con J(1) y con J(2) entonces conmutará con J. Esto a su vez implica que A 1 conmuta con J2 y J3 . Lo mismo ocurre
para el observable A2 , por tanto los observables en el conjunto
A1 , A2 ; J2(1) , J2(2) ; J2 , J3
conmutan entre ellos. Puede demostrarse que además forman un C.S.C.O. y la nueva base que buscaremos es un
sistema ortonormal de vectores propios comunes de este C.S.C.O.
Ahora bien, el subespacio E (j1 , j2 ; k1 , k2 ) definido en (16.37) es globalmente invariante bajo la acción de un
operador que sea función de J(1) o que sea función de J(2) . Por tanto, es globalmente invariante ante la acción de un
F (J). Esto implica que los observables J 2 y J3 que pretendemos diagonalizar, tienen elementos matriciales no nulos
solo dentro de cada espacio E (j1 , j2 ; k1 , k2 ). Las matrices de dimensión infinita que representan a J 2 y J3 en la base
(16.42) son diagonales por bloques y se pueden escribir como suma directa de submatrices cada una asociado a un
subespacio de la forma E (j1 , j2 ; k1 , k2 ). Por tanto, el problema se reduce a diagonalizar las submatrices asociadas a
cada subespacio E (j1 , j2 ; k1 , k2 ) cuya dimensión es (2j1 + 1) (2j2 + 1).
356 CAPÍTULO 16. ADICIÓN DE MOMENTOS ANGULARES
Por otro lado, los elementos matriciales en la base (16.42) para cualquier función F J(1) ó F J(2) son inde-
pendientes de k1 y k2 (solo los elementos matriciales de A 1 dependen de k1 y los de A2 dependen de k2 ). Por tanto,
esto también vale para J2 y J3 . En consecuencia, la diagonalización de estos dos operadores dentro de todos los
subespacios E (j1 , j2 ; k1 , k2 ) con el mismo valor de j1 y j2 , se realiza de forma idéntica. Por esta razón hablamos de
adición de los momentos angulares sin hacer referencia a los otros números cuánticos. Simplificaremos la notación
omitiendo los ı́ndices k1 y k2 escribiendo entonces
puesto que J es un momento angular y E (j 1 , j2 ) es invariante ante F (J) entonces E (j 1 , j2 ) es una suma directa de
subespacios ortogonales E (J, k) cada uno de los cuales es invariante ante la acción de J 2 , J3 , J±
X
E (j1 , j2 ) = E (J, k) (16.43)
⊕
de aquı́ surgen las siguientes preguntas, dado un par j 1 y j2 ¿Cuáles son los valores de J que contribuyen en la suma
directa (16.43)? y ¿Cuántos subespacios E (J, k) están asociados con un J dado?.
Dado que tenemos una base conocida (16.42) esta será nuestro punto de partida para llegar a la base asociada
a J2 y J3 . Surge entonces el problema de expandir los autovectores de la base buscada asociados a E (j 1 , j2 ) en
términos de los autovectores de la base conocida (16.42).
Es importante mencionar que si tenemos más momentos angulares podemos adicionar los dos primeros y al
resultado le adicionamos un tercero y ası́ sucesivamente. Esto solo es posible puesto que el algoritmo de suma es
conmutativo y asociativo como veremos más adelante.
1. Valores de J > 1 están excluı́dos. Por ejemplo para que J = 2 fuera posible tendrı́a que existir al menos
un autovector de J3 con M = 2. Esto se debe a que la teorı́a del momento angular nos dice que para un j
dado los valores permitidos de m consisten en todos los valores enteros o semienteros que cubren el intervalo
−j ≤ m ≤ j en saltos unidad.
2. E (J = 1, k) aparece solo una vez (es decir k es único), puesto que M = ±1 solo aparece una vez, es decir
M = ±1 es no degenerado.
3. E (J = 0, k) aparece una sola vez. Esto se debe a que M = 0 es dos veces degenerado pero uno de los
autovectores con M = 0 está en el subespacio con J = 1, de modo que solo un autovector con M = 0
está asociado a un subespacio con J = 0.
Por tanto el espacio 4-dimensional E (1/2, 1/2) se descompone en subespacios del tipo E (J, k) según la Ec.
(16.43) en la forma
1 1
E , = E (J = 1) ⊕ E (J = 0)
2 2
que son de dimensión 3 y 1 respectivamente. Veremos ahora como extender estas conclusiones al caso general.
16.5. MÉTODO GENERAL DE ADICIÓN DE DOS MOMENTOS ANGULARES ARBITRARIOS 357
Figura 16.1: (a) Ilustración de las reglas de adición para momentos angulares en el caso general. (b) Pares de posibles
valores de (m, m0 ) = (m1 , m2 ) para el caso especı́fico j = j1 = 2, j 0 = j2 = 1. En ambos casos, los puntos asociados
con un valor dado de M = m + m0 = m1 + m2 están localizados sobre una lı́nea recta de pendiente −1 pintada
como lı́nea punteada. Hemos supuesto que j = j 1 ≥ j 0 = j2 , con lo cual el ancho del rectángulo es mayor o igual a
su altura.
M = m 1 + m2 (16.44)
M = j1 + j2 , j1 + j2 − 1, j1 + j2 − 2, . . . , − (j1 + j2 ) (16.45)
Denotaremos el grado de degeneración de cada M en el subespacio E (j 1 , j2 ), en la forma gj1 ,j2 (M ). Para encontrar
esta degeneración usaremos el siguiente procedimiento geométrico: realizamos un diagrama en dos dimensiones
asociando a cada vector |j1 , j2 ; m1 , m2 i un par ordenado donde el eje de abcisas se asocia con m 1 y el eje de
ordenadas con m2
|j1 , j2 ; m1 , m2 i ≡ (m1 , m2 )
todos los puntos asociados a estos vectores están ubicados en el borde o interior de un rectángulo cuyos vértices
están en (j1 , j2 ) , (j1 , −j2 ) , (−j1 , −j2 ) y (−j1 , j2 ). La Fig. 16.1 representa los puntos asociados a una configuración
arbitraria (izquierda) y una configuración con j 1 = 2, j2 = 1 (derecha). Si partimos de un punto dado (vector)
del tipo P = (m1 , m2 ) es claro que estados “vecinos” del tipo P ± ≡ (m1 ± 1, m2 ∓ 1) poseen el mismo valor de
M = m1 + m2 siempre y cuando existan los valores incrementados y decrementados de m 1 y m2 . Cuando alguno de
los valores incrementados o decrementados no exista, es por que el estado (m 1 , m2 ) se encuentra en alguno de los
bordes del rectángulo (o en una esquina). Para estados P en el interior del rectángulo, existe tanto P + como P− .
Dos puntos vecinos definidos con esta relación están unidos por una recta de pendiente −1
(m2 ∓ 1) − m2
pendiente = = −1
(m1 ± 1) − m1
358 CAPÍTULO 16. ADICIÓN DE MOMENTOS ANGULARES
En conclusión, los puntos situados a lo largo de las lı́neas punteadas de las Figs. 16.1a, y 16.1b, de pendiente −1,
corresponden a los vectores con el mismo valor de M = m 1 + m2 . El número de puntos (vectores) unidos por una
lı́nea define el grado de degeneración g j1 ,j2 (M ) del valor de M asociado.
Consideremos ahora los diferentes valores de M en orden descendente Ec. (16.45). Observaremos el patrón de
las lı́neas punteadas a medida que disminuye M . Empezando por el máximo M = j 1 + j2 vemos que este valor es
no-degenerado, ya que la lı́nea que lo cruza pasa solo por la esquina superior derecha (es en realidad un punto),
cuyas coordenadas son (j1 , j2 ). Vemos entonces que
para el siguiente M = j1 + j2 − 1 la degeneración es doble (a menos que j 1 y/o j2 sean nulos), ya que la lı́nea
correspondiente contiene los puntos (j 1 , j2 − 1) y (j1 − 1, j2 ). Entonces
La degeneración aumenta una unidad por cada decremento de M en una unidad, hasta que se alcanza la esquina
inferior derecha (j1 , −j2 ) del rectángulo4 , que corresponde al valor M = j1 − j2 ≥ 0 ya que suponemos siempre que
j1 ≥ j2 . El número de puntos llega entonces a su máximo (que es el número de puntos que miden “la altura” del
rectángulo) y es igual a
gj1 ,j2 (j1 − j2 ) = 2j2 + 1 (16.48)
si continuamos decrementando M , el número de puntos permanece constante en 2j 2 +1 siempre que la lı́nea asociada
a M cruce al rectángulo tocando sus lados superior (m 2 = j2 ) e inferior (m2 = −j2 ). Esto ocurre hasta que la lı́nea
asociada alcanza la esquina superior izquierda (−j 1 , j2 ) del rectángulo, para el cual M = −j 1 + j2 ≤ 0. Por tanto,
el número máximo de puntos 2j2 + 1 se mantiene en un intervalo para M dado por
finalmente, para valores de M menores que − (j 1 − j2 ), la lı́nea asociada a cada M ya no intersecta la lı́nea superior
del rectángulo (m2 = j2 ) y gj1 ,j2 (M ) decrece monótonamente en la unidad por cada decremento unidad de M ,
alcanzando el valor 1 nuevamente cuando M = − (j 1 + j2 ), correspondiente a la esquina inferior izquierda del
rectángulo. Por lo tanto
gj1 ,j2 (−M ) = gj1 ,j2 (M ) (16.50)
estos resultados se resumen en la figura 16.2 para el caso j 1 = 2 y j2 = 1, esta figura muestra g2,1 (M ) como función
de M .
Figura 16.2: Gráfica del grado de degeneración g j1 ,j2 (M ) versus M , para el caso j1 = 1, j2 = 2 ilustrado en la Fig.
16.1b. El grado de degeneración se obtiene por simple conteo del número de puntos que toca cada lı́nea punteada
en la Fig. 16.1b. Adicionalmente, esta figura muestra la simetrı́a expresada por la Ec. (16.50).
En un contexto general denotaremos como p j1 ,j2 (J) el número de subespacios E (J, k) de E (j 1 , j2 ) asociados a
un J dado. En otras palabras, este es el número de diferentes valores de k para el valor dado de J (siendo j 1 y j2
fijos desde el principio).
Veremos que pj1 ,j2 (J) y gj1 ,j2 (M ) están asociados de manera sencilla. Consideremos un valor particular de M ,
a este valor de M está asociado uno y solo un vector en cada subespacio E (J, k) siempre que J ≥ |M |. Su grado de
degeneración está dado entonces por
es de resaltar que en la Ec. (16.51), J es fijo y los valores de M no están asociados al valor fijo de J, sino a todos
los valores permitidos de M en E (j1 , j2 ). Por esta razón, los valores de gj1 ,j2 (M = J + 1) y gj1 ,j2 (M = −J − 1)
pueden ser no nulos.
Teniendo en cuenta la degeneración de los valores de M estudiada en la sección 16.5.5, podemos determinar los
valores del número cuántico J que ocurren en E (j 1 , j2 ) y el número de subespacios invariantes E (J, k) asociados
con cada uno de ellos. En primer lugar tenemos que
ya que gj1 ,j2 (M ) = 0 para |M | > j1 + j2 . Si ahora aplicamos las Ecs. (16.46, 16.47) tenemos que
por tanto todos los valores de pj1 ,j2 (J) se pueden encontrar por iteración
la última igualdad se obtiene recordando que hemos mantenido la suposición j 1 ≥ j2 en todo el tratamiento. Para
el caso j2 ≥ j1 solo hay que invertir los ı́ndices 1 y 2.
En conclusión, para valores fijos de j 1 y j2 , es decir dentro de un subespacio E (j 1 , j2 ) de dimension (2j1 + 1) (2j2 + 1)
los autovalores de J2 son tales que
J = j1 + j2 , j1 + j2 − 1, j1 + j2 − 2, . . . , |j1 − j2 |
y cada valor de J está asociado a un único subespacio invariante E (J, k) en la suma directa dada por la Ec. (16.43),
la cual se reduce a
jX
1 +j2
de modo que el ı́ndice k es realmente innecesario. Esto implica en particular que si tomamos un valor fijo de J y
un valor fijo de M compatible con J (|M | ≤ J), existe un único vector |J, M i en E (j 1 , j2 ) asociado a estos números
cuánticos. La especificación de J es suficiente para determinar el subespacio invariante, y la especificación de M me
lleva a un único vector en dicho subespacio. En consecuencia J 2 y J3 forman un C.S.C.O. en E (j1 , j2 ).
A manera de consistencia, podemos mostrar que el número N de pares (J, M ) encontrados para E (j 1 , j2 ) coincide
con la dimensión (2j1 + 1) (2j2 + 1) de E (j1 , j2 ), puesto que el conjunto {|J, M i} constituye una base para E (j 1 , j2 ).
Asumiremos por simplicidad que j1 ≥ j2 . Puesto que cada subespacio E (J) es de dimensión 2J + 1 (es decir tiene
2J + 1 valores diferentes de M ), la suma directa (16.52) nos dice que
jX
1 +j2
N= (2J + 1) (16.53)
J=j1 −j2
si reemplazamos
J = j 1 − j2 + i
podemos calcular (16.53)
jX
1 +j2 2j2
X 2j2
X 2j2
X
N = (2J + 1) = [2 (j1 − j2 + i) + 1] = [2 (j1 − j2 ) + 1] 1+2 i
J=j1 −j2 i=0 i=0 i=0
2j2 (2j2 + 1)
= [2 (j1 − j2 ) + 1] (2j2 + 1) + 2 = (2j1 − 2j2 + 1) (2j2 + 1) + 2j2 (2j2 + 1)
2
= [(2j1 − 2j2 + 1) + 2j2 ] (2j2 + 1) = (2j1 + 1) (2j2 + 1)
en donde hemos agregado la condición de normalización. Teniendo en cuenta que |0, 0i también debe ser ortogonal
a |1, 0i, las Ecs. (16.55, 16.57) nos dan
1
h1, 0 |0, 0i = √ [h−+| + h+−|] [α |+−i + β |−+i] = 0
2
⇒ α h−+| + −i + β h−+| − +i + α h+−| + −i + β h+−| − +i = 0
β+α = 0 (16.59)
1
α = −β ⇒ |α|2 = |β|2 ⇒ 2 |α|2 = 1 ⇒ |α| = √
2
con lo cual
1
α = −β = √ eiχ
2
siendo χ cualquier número real. Eligiendo χ = 0, tenemos
1
|0, 0i = √ [|+−i − |−+i]
2
es importante observar que con este método no fué necesario recurrir a las representaciones matriciales de los
operadores, en particular de J2 (que fué la que se tuvo que diagonalizar).
|J = j1 + j2 , M = j1 + j2 i = |m1 = j1 , m2 = j2 i
para escribir el vector |j1 + j2 , j1 + j2 − 1iJ en términos de la base original |m1 , m2 ij , debemos escribir el término
(1) (2)
de la derecha en la Ec. (16.62) en la base original, para lo cual tenemos en cuenta que J − = J− + J− y que
|j1 + j2 , j1 + j2 iJ = |j1 , j2 ij ; con lo cual la Ec. (16.62) queda
16.7. AUTOVECTORES DE J2 Y J3 : CASO GENERAL 363
(1) (2) √ √
J− + J− |j1 , j2 ij ~ 2j1 |j1 − 1, j2 ij + ~ 2j2 |j1 , j2 − 1ij
|j1 + j2 , j1 + j2 − 1iJ = p = p
~ 2 (j1 + j2 ) ~ 2 (j1 + j2 )
obteniendo finalmente
s s
j1 j2
|j1 + j2 , j1 + j2 − 1iJ = |j1 − 1, j2 ij + |j1 , j2 − 1ij (16.63)
j1 + j 2 j1 + j 2
nótese además que la combinación lineal de vectores originales que me forma a |j 1 + j2 , j1 + j2 − 1iJ está au-
tomáticamente normalizada.
Para obtener |j1 + j2 , j1 + j2 − 2iJ , aplicamos J− a ambos lados de la Ec. (16.63) escribiendo tal operador como
(1) (2)
J− = J− + J− a la derecha de dicha ecuación. Podemos repetir este procedimiento sistemáticamente, hasta llegar
al estado |j1 + j2 , − (j1 + j2 )iJ , el cual se puede ver que es igual a |−j 1 , −j2 ij por un argumento similar al que nos
llevó a la Ec. (16.61), puesto que M = −j 1 − j2 también es no-degenerado.
Al finalizar este proceso hemos encontrado todos los 2 (j 1 + j2 ) + 1 vectores de la forma |J = j1 + j2 , M i, los
cuales expanden el subespacio E (J = j 1 + j2 ) de E (j1 , j2 ).
esto se debe a que E (j1 + j2 ) posee uno, y solo un vector asociado a cada valor accesible de M en E (j 1 , j2 ). Es
decir, para cada M en el intervalo − (j 1 + j2 ) ≤ M ≤ j1 + j2 hay uno y solo un vector en E (j1 + j2 ). En particular,
M = j1 + j2 ya no existe en G (j1 + j2 ), y por tanto el valor máximo de M en G (j 1 + j2 ) es M = j1 + j2 − 1,
como este era doblemente degenerado en E (j 1 , j2 ), será no-degenerado en G (j1 + j2 ). Por argumentos similares
a los de la sección 16.7.1, el vector asociado a M = j 1 + j2 − 1 en este subespacio, debe ser proporcional a
|J = j1 + j2 − 1, M = j1 + j2 − 1i. Queremos ahora encontrar su expansión en términos de la base {|m 1 , m2 i}. En
virtud del valor de M = j1 + j2 − 1, la expansión debe ser de la forma
donde además requerimos la normalización. Adicionalmente, este estado debe ser ortogonal a |j 1 + j2 , j1 + j2 − 1iJ ∈
E (j1 + j2 ), i.e. al estado del complemento ortogonal de G (j 1 + j2 ) con el mismo valor de M = j1 + j2 − 1. Usando
las expresiones (16.63, 16.65) para este vector, dicha ortogonalidad se escribe como
la condición de normalización (16.65) junto con la Ec. (16.66) nos permiten encontrar α y β dentro de un factor de
fase. Escogiendo α real y positivo, la Ec. (16.66) nos dice que β es real y toma el valor
s
j2 2 2 2 j2 2 j1 + j 2
β = −α ⇒α +β =α 1+ =1⇒α =1
j1 j1 j1
s s s
j1 j2 j2
α = ; β = −α =−
j1 + j 2 j1 j1 + j 2
este es el primer vector de una nueva familia caracterizada por J = j 1 + j2 − 1, de forma similar al vector asociado
a J = j1 + j2 en la sección 16.7.1. Los otros vectores de esta nueva familia se pueden generar por aplicación sucesiva
del operador J− . De esta forma, obtenemos [2 (j1 + j2 − 1) + 1] vectores del tipo |J = j1 + j2 − 1, M i donde J y M
toman los valores
J = j1 + j2 − 1 ; M = j1 + j2 − 1, j1 + j2 − 2, . . . , − (j1 + j2 − 1)
en el suplemento G (j1 + j2 , j1 + j2 − 1), la degeneración de cada valor de M decrece en una unidad con respecto a
la degeneración en el suplemento anterior G (j 1 + j2 ). En particular, el máximo valor de M es ahora M = j 1 + j2 − 2
y es no-degenerado. El vector asociado en G (j 1 + j2 , j1 + j2 − 1) será |J = j1 + j2 − 2, M = j1 + j2 − 2i.
Para calcular al vector |j1 + j2 − 2, j1 + j2 − 2iJ en términos de la base |m1 , m2 i, basta notar que éste debe ser
una combinación lineal de tres vectores
los tres coeficientes se fijan dentro de un factor de fase por la condición de normalización y de ortogonalidad con
los vectores (ya conocidos) dados por: |j 1 + j2 , j1 + j2 − 2i , |j1 + j2 − 1, j1 + j2 − 2i. Es decir, los vectores en el
complemento ortogonal de G (j1 + j2 , j1 + j2 − 1), con el mismo valor de M = j1 + j2 − 2. Una vez determinados
los coeficientes en (16.68), podemos encontrar los demás vectores de esta tercera familia, por aplicación sucesiva de
J− . Estos vectores nos permiten expandir a E (j 1 + j2 − 2).
El procedimiento se puede repetir hasta abarcar todos los valores de M mayores o iguales a |j 1 − j2 |, y en virtud
de la Ec. (16.50) también todos los valores correspondientes a M menores o iguales a − |j 1 − j2 |. De esta forma
determinamos todos los vectores {|J, M i} en términos de la base original {|m 1 , m2 i}.
La transformación que nos lleva desde la base desacoplada hasta la base acoplada es unitaria puesto que es una
transformación de una base ortonormal a otra base también ortonormal. Esta transformación unitaria se escribe
fácilmente usando la completez de la base desacoplada
j1
X j2
X
|j1 , j2 ; J, M i = |j1 , j2 ; m1 , m2 i hj1 , j2 ; m1 , m2 | J, M i (16.69)
m1 =−j1 m=−j2
los coeficientes hm1 , m2 (j1 , j2 ) J, M i de la expansión, que son elementos de la matriz unitaria de transformación,
se conocen como coeficientes de Clebsch-Gordan. Los números cuánticos de la izquierda indican un ket de la base
desacoplada, los de la derecha indica un ket de la base acoplada y los números cuánticos (j 1 , j2 ) del centro, in-
dican los momentos angulares j1 y j2 que se están acoplando. Un aspecto importante es que la notación original
|j1 , j2 ; m1 , m2 ; k1 , k2 i , |j1 , j2 ; J, M ; k1 , k2 i para las bases no es necesaria dado que los productos internos son in-
dependientes de k1 y k2 , y dentro del espacio E (j1 , j2 ) los k 0 s toman un solo valor, de modo que dentro de este
subespacio este número cuántico no discrimina diferentes estados.
No es posible dar expresiones generales para los coeficientes de Clebsch-Gordan. Estos coeficientes se pueden
generar con el algoritmo explicado en las secciones anteriores. Adicionalmente, existen tablas numéricas de estos
coeficientes. Por ejemplo, las Ecs. (16.61, 16.63, 16.67) nos permiten encontrar algunos coeficientes de Clebsch-
Gordan
hj1 , j2 (j1 , j2 ) j1 + j2 , j1 + j2 i = 1
s
j1
hj1 − 1, j2 (j1 , j2 ) j1 + j2 , j1 + j2 − 1i =
j1 + j 2
s
j2
hj1 , j2 − 1 (j1 , j2 ) j1 + j2 , j1 + j2 − 1i =
j1 + j 2
s
j1
hj1 , j2 − 1 (j1 , j2 ) j1 + j2 − 1, j1 + j2 − 1i =
j1 + j 2
s
j2
hj1 − 1, j2 (j1 , j2 ) j1 + j2 − 1, j1 + j2 − 1i = −
j1 + j 2
Es importante mencionar que para determinar estos coeficientes en forma única, deben escogerse ciertas con-
venciones de fases. Lo usual es definir estos coeficientes como reales. Sin embargo, la escogencia de ciertas fases
dictamina el signo de algunos coeficientes. Por supuesto, los signos relativos de los coeficientes que aparecen en la
expansión del mismo vector |J, M i están fijos, solo se puede escoger en forma arbitraria el signo global.
Adicionalmente, la reglas de adición que hemos obtenido muestran que estos coeficientes tienen unas reglas de
selección: el coeficiente hj1 , j2 ; m1 , m2 | J, M i es diferente de cero solo si
M = m1 + m2 ; |j1 − j2 | ≤ J ≤ j1 + j2 (16.72)
donde J debe ser del mismo tipo (entero o semi-entero) que los valores j 1 + j2 y |j1 − j2 |. La segunda condición en
(16.72) se conoce usualmente como “regla del triángulo” ya que expresa el hecho de que si la condición se satisface,
debe poderse formar un triángulo con tres segmentos de longitud j 1 , j2 y J. En otras palabras, la segunda ecuación
(16.72) expresa el conocido teorema que nos dice que un lado J de un triángulo es menor que la suma de los otros
dos lados y mayor que su diferencia.
366 CAPÍTULO 16. ADICIÓN DE MOMENTOS ANGULARES
Naturalmente la relación inversa de la expresada en (16.71) se puede obtener usando la completez de la base
acoplada
jX
1 +j2 J
X
|j1 , j2 ; m1 , m2 i = |J, M i hJ, M |j1 , j2 ; m1 , m2 i (16.73)
J=j1 −j2 M =−J
dado que los coeficientes de C-G son elementos de una matriz unitaria y se eligen como reales, la matriz será ortogonal
real, por tanto se cumple la condición
Si por ejemplo consideramos los estados propios del operador de espı́n S para una partı́cula de espı́n s = 1/2,
tenemos que hay solo dos autoestados de S que usualmente denotamos |±i. Si estamos interesados en información
concerniente solo a variables de espı́n, por ejemplo la probabilidad de que el momento magnético de espı́n sea
+1/2 en una medida de espı́n (sin importar los valores que tomen las variables espaciales), entonces podemos por
simplicidad considerar un espacio vectorial (espinorial) de solo dos dimensiones para realizar los cálculos, tal que
los dos estados |±i formarán una base para dicho espacio.
Existen otros escenarios en los cuales los sistemas de dos estados resultan relevantes en mecánica cuántica.
Consideremos un sistema para el cual existen dos estados con energı́as muy cercanas entre sı́, y que son muy
diferentes a las energı́as de los otros autoestados de energı́a del sistema. Asumamos que queremos evaluar el efecto
de una perturbación externa o de una perturbación interna previamente ignorada. Si la intensidad de la perturbación
es suficientemente pequeña, se puede demostrar que su efecto sobre los dos estados “cercanos”, se puede calcular en
primera aproximación ignorando los otros niveles de energı́a. De modo que todos los cálculos involucran un espacio
de dos dimensiones.
de modo que W11 y W22 son reales y W12 = W21 ∗ . En ausencia del acople o perturbación W , las energı́as accesibles
del sistema son E1 y E2 , siendo |ϕ1 i , |ϕ2 i los estados estacionarios del sistema, de modo que si en t = 0 el sistema
está en uno de estos dos estados, permanecerá en el indefinidamente. Veremos entonces como se modifican las
energı́as y estados estacionarios cuando se introduce el acople W .
17.2.1. Efecto del acople sobre los estados estacionarios del sistema
La representación matricial del Hamiltoniano perturbado en la base |ϕ 1 i, |ϕ2 i será
∗
E1 + W11 W21
H=
W21 E2 + W22
los valores y vectores propios de esta matriz se realizaron en detalle en la sección 1.45.3. Las Ecs. (1.220, 1.221,
1.222) nos muestran tales autovalores y autovectores
q
1 1
E± = (E1 + W11 + E2 + W22 ) ± (E1 + W11 − E2 − W22 )2 + 4 |W12 |2 (17.5)
2 2
θ θ
|ψ+ i = cos e−iϕ/2 |ϕ1 i + sin eiϕ/2 |ϕ2 i (17.6)
2 2
θ θ
|ψ− i = − sin e−iϕ/2 |ϕ1 i + cos eiϕ/2 |ϕ2 i (17.7)
2 2
donde los ángulos θ y ϕ están dados por la Ecs. (1.223)
2 |W21 |
tan θ = , W21 = |W21 | eiϕ ; 0 ≤ θ < π , 0 ≤ ϕ < 2π (17.8)
E1 + W11 − E2 − W22
Es fácil ver que si W12 = 0, los autoestados de H son los autoestados de H 0 y los nuevos niveles de energı́a
son simplemente E1 + W11 y E2 + W22 . Por tanto, los efectos interesantes surgen cuando W posee elementos no-
diagonales W12 = W21 ∗ . Para simplificar la discusión asumimos que la matriz de W en la base {|ϕ i , |ϕ i} es
1 2
puramente no-diagonal1 . Haciendo W11 = W22 = 0 en las Ecs. (17.5, 17.8) obtenemos
q
1 1
E± = (E1 + E2 ) ± (E1 − E2 )2 + 4 |W12 |2 (17.9)
2 2
2 |W21 |
tan θ = , 0 ≤ θ < π ; W21 = |W21 | eiϕ (17.10)
E1 − E 2
es conveniente definir las siguientes variables
1 1
Em ≡ (E1 + E2 ) ; ∆≡ (E1 − E2 ) (17.11)
2 2
1
Si W11 y W22 son no nulos, podemos definir E e1 = E1 + W11 y Ee2 = E2 + W22 . Todos los resultados que se obtendrán en esta sección
serán válidos en este caso, haciendo los reemplazos E1 → Ee1 y E2 → Ee2 .
17.2. CONSECUENCIAS DE LA INTRODUCCI ÓN DEL ACOPLE SOBRE LOS NIVELES DE ENERG ÍA Y LOS ES
que corresponden al promedio y el desdoblamiento de los niveles no perturbados. Sustituyendo (17.11) en las Ecs.
(17.9, 17.10) tenemos que
q q
|W21 |
E+ = Em + ∆2 + |W21 |2 ; E− = Em − ∆2 + |W21 |2 ; tan θ = (17.12)
∆
Las Ecs. (17.12) muestran que cuando E m cambia, la variación de E± es equivalente a correr el origen a lo largo del
Figura 17.1: Variación de las energı́as E ± con respecto al desdoblamiento ∆ ≡ (E 1 − E2 ) /2. Hemos definido el cero
del eje de energı́a en Em . En ausencia de acoplamiento los niveles se cruzan en el origen como lo muestran las lı́neas
rectas punteadas. Al introducir el acople W no-diagonal, los dos niveles perturbados se “repelen uno a otro” y se
obtienen curvas de E+ y E− que no se cruzan. Tales curvas son ramas hiperbólicas (lı́neas sólidas en la figura) cuyas
ası́ntotas son los niveles no perturbados.
eje de energı́a. Adicionalmente, las Ecs. (17.6, 17.7, 17.10, 17.12) muestran que los autovectores |ψ ± i no dependen
de Em sino solo del desdoblamiento ∆. Es interesante mostrar el comportamiento de las energı́as E 1,2 y E± en un
diagrama de ∆ versus energı́a. La Fig. 17.1 muestra que tal diagrama para las energı́as E ± corresponde a ramas
hiperbólicas simétricas con respecto a los ejes coordenados (en donde el zero del eje vertical se ubicó en E m ), y
cuyas ası́ntotas son las lı́neas rectas punteadas que describen el comportamiento de las energı́as E 1 y E2 . La Fig.
17.1 también muestra que la separación mı́nima entre las ramas hiperbólicas es 2 |W 21 |. Puede verse entonces que
en ausencia de acople, los niveles de energı́a E 1 y E2 se cruzan en ∆ = 0 (como se vé también en las Ecs. 17.11).
Con la introducción del acople, los niveles de energı́a “se repelen” es decir tienden a alejarse. Por esta razón se suele
hablar de diagramas anti-cruzantes, para curvas del tipo mostrado por E ± . Se observa además que cuando W → 0
tenemos que E± → E1,2 si E1 > E2 en tanto que E± → E2,1 si E2 > E1 . De las Ecs. (17.11, 17.12) vemos que
q
|E+ − E− | = 2 ∆2 + |W21 |2 > 2∆ ; |E1 − E2 | ≡ 2∆ ⇒ (17.13)
|E+ − E− | > |E1 − E2 | (17.14)
donde el aumento en el desdoblamiento es mayor a medida que crece el acople. Vemos entonces que el acople separa
la frecuencias normales, situación que aparece en muchos escenarios fı́sicos.
Es necesario poder discriminar cuando podemos hablar de un acople “fuerte” o “débil”. Para ello vemos que las
Ecs. (17.12) se pueden reescribir como
p
W21
E± = E m ± ∆ 1 + K 2 ; K≡ , ∆ 6= 0 (17.15)
∆
370 CAPÍTULO 17. PROPIEDADES GENERALES DE LOS SISTEMAS DE DOS ESTADOS
17.2.2. Efecto de un acople débil sobre los niveles de energı́a y estados estacionarios
El acople débil está caracterizado por |∆| >> |W 21 |. La Fig. 17.1 nos muestra que en este lı́mite todas las energı́as
se comportan aproximadamente como las ası́ntotas. Puesto que K << 1, las Ecs. (17.15) se pueden expandir en
series de potencias de K
!
1 W21 2
E± = E m ± ∆ 1 + + ... (17.16)
2 ∆
adicionalmente, la Ec. (17.12) nos dice que θ ' 0 en este lı́mite. Por tanto tan θ ' θ ' sin θ, de modo que a primer
orden obtenemos
θ θ θ tan θ |W21 |
cos ' 1 ; sin ' ' =
2 2 2 2 2∆
reemplazando estas aproximaciones en las Ecs. (17.6, 17.7), los autoestados en el lı́mite de acople débil quedan
puesto que las fase globales son irrelevantes, vemos que un acople débil genera estados perturbados muy similares
a los estados no perturbados como era de esperarse. Por ejemplo, el estado |ψ + i se puede ver como el estado |ϕ1 i
ligeramente “contaminado” por una pequeña contribución del estado |ϕ 2 i. Similarmente, |ψ− i es casi el estado |ϕ2 i
con una pequeña contribución de |ϕ 1 i.
17.2.3. Efecto de un acople fuerte sobre los niveles de energı́a y estados estacionarios
El acople fuerte se caracteriza por |∆| << |W 21 |. La Fig. 17.1 nos muestra que este lı́mite corresponde al
comportamiento de las energı́as alrededor de ∆ = 0. En particular, si tomamos ∆ = 0 el acople se considera fuerte
para cualquier valor no nulo de W21 . En el lı́mite E1 = E2 i.e. ∆ = 0, las Ecs. (17.12) quedan en la forma
E± = Em ± |W21 | (17.19)
y vemos entonces que el efecto del acople es más mucho más importante cuando los dos niveles no perturbados
tienen la misma energı́a (por ejemplo por degeneración). Las Ecs. (17.19) muestran que este efecto es de primer
orden, en tanto que en el lı́mite de acople débil el efecto es de segundo orden como se aprecia en la Ec. (17.16).
Cuando ∆ = 0 vemos de (17.12) que θ = π/2 y los autoestados (17.6, 17.7) quedan
π −iϕ/2 π π π
|ψ+ i = cos e |ϕ1 i + sin eiϕ/2 |ϕ2 i ; |ψ− i = − sin e−iϕ/2 |ϕ1 i + cos eiϕ/2 |ϕ2 i (17.20)
4 4 4 4
1 h −iϕ/2 i 1 h i
|ψ+ i = √ e |ϕ1 i + eiϕ/2 |ϕ2 i ; |ψ− i = √ −e−iϕ/2 |ϕ1 i + eiϕ/2 |ϕ2 i (17.21)
2 2
de modo que en el lı́mite de acople fuerte, los estados |ψ ± i difieren radicalmente de |ϕ1,2 i como se esperaba. Vemos
que |ψ± i son superposiciones de |ϕ1 i y |ϕ2 i con coeficientes del mismo módulo. Podemos decir que |ψ ± i son estados
de “máxima mezcla” de los estados |ϕ 1 i y |ϕ2 i.
17.3. EVOLUCIÓN TEMPORAL DEL VECTOR DE ESTADO: OSCILACI ÓN DEL SISTEMA ENTRE DOS ESTAD
17.3. Evolución temporal del vector de estado: oscilación del sistema entre
dos estados sin perturbar
La evolución del estado |ψ (t)i del sistema de dos estados está governada por la ecuación de Schrödinger
d
i~ |ψ (t)i = (H0 + W ) |ψ (t)i (17.22)
dt
y dado que |ψ (t)i es una superposición de los estados |ϕ 1 i y |ϕ2 i para todo tiempo tenemos que
insertando la expansión (17.23) en la ecuación de Schrödinger (17.22), aplicando el bra hϕ 1 | y usando la Ec. (17.4)
con W11 = W22 = 0, resulta
d
i~ hϕ1 | [a1 (t) |ϕ1 i + a2 (t) |ϕ2 i] = hϕ1 | (H0 + W ) [a1 (t) |ϕ1 i + a2 (t) |ϕ2 i]
dt
d
i~ [a1 (t) hϕ1 |ϕ1 i + a2 (t) hϕ1 |ϕ2 i] = a1 (t) hϕ1 | (H0 + W ) |ϕ1 i + a2 (t) hϕ1 | (H0 + W ) |ϕ2 i
dt
d
i~ a1 (t) = a1 (t) (E1 + W11 ) + a2 (t) [E2 hϕ1 |ϕ2 i + W12 ]
dt
d
i~ a1 (t) = E1 a1 (t) + W12 a2 (t)
dt
donde hemos asumido que H0 es conservativo y por tanto |ϕ1 i es independiente del tiempo. Un procedimiento
similar aplicando el bra hϕ2 | nos lleva a las ecuaciones
d
i~ a1 (t) = E1 a1 (t) + W12 a2 (t) (17.24)
dt
d
i~ a2 (t) = W21 a1 (t) + E2 a2 (t) (17.25)
dt
si W12 6= 0, tenemos una sistema de dos ecuaciones diferenciales homogéneas acopladas.
La evolución temporal de |ψ (t)i se puede obtener utilizando el método descrito en la sección 5.8. Esto es, se
escribe la expansión de |ψ (0)i en términos de los autoestados |ψ ± i del Hamiltoniano H
lo cual nos permite obtener a1 (t) y a2 (t) aplicando los bras hϕ1 | y hϕ2 | a ambos lados de la Ec. (17.27).
Dado que los estados |ϕ1 i y |ϕ2 i ya no son estacionarios, es de esperarse que incluso si el estado inicial es por
ejemplo |ϕ1 i el sistema evolucione temporalmente. Veremos de hecho que si el estado del sistema está descrito por
la Ec. (17.27), el sistema oscila entre los estados no perturbados |ϕ 1 i y |ϕ2 i. Para verlo asumiremos que en t = 0 el
sistema está en el estado |ϕ1 i
|ψ (0)i = |ϕ1 i
ahora debemos expandir este estado inicial en términos de |ψ ± i como en la Ec. (17.26). Para ello invertimos las Ecs.
(17.6, 17.7). Esto se realiza multiplicando la Ec. (17.6) por cos (θ/2) y la Ec. (17.7) por − sin (θ/2) y sumando
θ θ θ θ
cos |ψ+ i − sin |ψ− i = cos2 e−iϕ/2 |ϕ1 i + sin2 e−iϕ/2 |ϕ1 i = e−iϕ/2 |ϕ1 i
2 2 2 2
iϕ/2 θ θ
|ϕ1 i = |ψ (0)i = e cos |ψ+ i − sin |ψ− i (17.28)
2 2
372 CAPÍTULO 17. PROPIEDADES GENERALES DE LOS SISTEMAS DE DOS ESTADOS
comparando la Ec. (17.28) con la Ec. (17.26) vemos que λ = e iϕ/2 cos (θ/2) y µ = −eiϕ/2 sin (θ/2), con lo cual la Ec.
(17.27) queda
iϕ/2 θ −iE+ t/~ θ −iE− t/~
|ψ (t)i = e cos e |ψ+ i − sin e |ψ− i (17.29)
2 2
si el sistema evoluciona bajo el Hamiltoniano perturbado hasta el tiempo t, el sistema estará en este tiempo en el
estado |ψ (t)i descrito por la Ec. (17.29). Asumamos ahora que la perturbación W se “desconecta” en el tiempo t.
Si justo después de desconectar la perturbación medimos la energı́a, obtendremos E 1 ó E2 (ya que estos vuelven a
ser los valores de energı́a accesibles del sistema), y la probabilidad de obtener cada uno de estos valores viene dada
por
PEi = |hϕi |ψ (t)i|2 ; i = 1, 2
pero esto es equivalente a decir que esta es la probabilidad de que el sistema quede preparado en el estado |ϕ i i.
Por esta razón, suele decirse que |hϕ i |ψ (t)i|2 es la probabilidad de encontrar al sistema en el tiempo t en |ϕ i i.
No obstante, vale la pena mencionar que esta afirmación solo es válida si: (a) Se desconecta la perturbación en el
tiempo t y (b) Justo después de desconectar la perturbación, se hace la medida del observable H (si se mide otro
observable, el sistema queda preparado en un autoestado de ese otro observable). Nótese que si la perturbación no
se desconecta en t, una medición del observable H solo puede dar E + o E− lo cual a su vez implica que el sistema
quedará preparado en el estado |ψ+ i o en el estado |ψ− i y no hay posibilidad de que quede en el estado |ϕ i i. De
otra parte, si no se realiza ninguna medición, el sistema evoluciona de acuerdo con la ecuación de Schrödinger y no
podemos hablar de la probabilidad de obtener un estado (ya que la ecuación de Schrödinger es determinista).
La anterior discusión nos muestra que si no se realiza ninguna medida en el tiempo t, la cantidad hϕ i |ψ (t)i ≡ ai
es simplemente el coeficiente de Fourier de la expansión de |ψ (t)i en términos de |ϕ 1 i y |ϕ2 i. En otras palabras, el
coeficiente ai nos dice el “peso” con el cual contribuye cada estado |ϕ i i al estado |ψ (t)i con la restricción de que
|a1 |2 + |a2 |2 = 1.
Con estas aclaraciones interpretaremos de aquı́ en adelante a |hϕ 2 |ψ (t)i|2 como la probabilidad de encontrar al
sistema en el tiempo t en |ϕ2 i. La amplitud de probabilidad asociada está dada por
iϕ/2 θ −iE+ t/~ θ −iE− t/~
hϕ2 |ψ (t)i = e cos e hϕ2 |ψ+ i − sin e hϕ2 |ψ− i (17.30)
2 2
θ θ θ θ
hϕ2 |ψ+ i = cos e−iϕ/2 hϕ2 |ϕ1 i + sin eiϕ/2 hϕ2 |ϕ2 i ; hϕ2 |ψ− i = − sin e−iϕ/2 hϕ2 |ϕ1 i + cos eiϕ/2 hϕ2 |ϕ2 i
2 2 2 2
θ θ
hϕ2 |ψ+ i = sin eiϕ/2 ; hϕ2 |ψ− i = cos eiϕ/2 (17.31)
2 2
reemplazando (17.31) en (17.30), la probabilidad de encontrar al sistema en el tiempo t en |ϕ 2 i queda
2
2
θ θ θ θ
P12 (t) = |hϕ2 |ψ (t)i| = eiϕ/2 cos e−iE+ t/~ sin eiϕ/2 − sin e−iE− t/~ cos eiϕ/2
2 2 2 2
iϕ h
i 2 2
e 1 2 −iE+ t/~ −iE− t/~
= sin θ e −iE+ t/~
− sin θ e −iE− t/~
= sin θ e − e
2 4
1 1 h i
P12 (t) = sin2 θ e−iE+ t/~ − e−iE− t/~ eiE+ t/~ − eiE− t/~ = sin2 θ 1 − e−i(E+ −E− )t/~ − ei(E+ −E− )t/~ + 1
4 4
1 n h io 1 (E+ − E− ) t
2 −i(E+ −E− )t/~ i(E+ −E− )t/~ 2
= sin θ 2 − e +e = sin θ 2 − 2 cos
4 4 ~
reemplazando las Ecs. (17.33, 17.9) en la Ec. (17.32) podemos escribir P 12 en términos de los elementos matriciales
Wij y de las energı́as no perturbadas E1 y E2
q
2 2 2
4 |W21 | 4 |W 12 | + (E 1 − E 2 )
P12 (t) = sin2 t (17.34)
(E1 − E2 )2 + 4 |W21 |2 2~
E+ − E − 2 |W21 |
∆=0 ⇒ = , sin2 θ = 1
h h
de modo que en un tiempo tk = (2k+1)π~ 2|W21 | el sistema (cuyo estado inicial es |ϕ 1 i) estará en el estado |ϕ2 i . En
consecuencia, todo acople entre dos estados de igual energı́a hace que el sistema oscile completamente de un estado
a otro con una frecuencia proporcional al acople.
Nótese que este fenómeno es análogo al que ocurre con dos péndulos acoplados de la misma frecuencia natural.
Si el péndulo 1 se desplaza dejando fijo al péndulo 2, el primero comienza a oscilar pero su oscilación disminuye en
tanto que va aumentando la del péndulo 2 hasta que se llega a la condición opuesta para un cierto tiempo, en el cual
el péndulo 2 oscila y el péndulo 1 está instantáneamente en reposo. Luego comienza la transferencia de energı́a al
péndulo 1 de nuevo y ası́ sucesivamente. Similarmente, cuando aumenta el acople (constante del resorte que acopla
a los péndulos), disminuye el tiempo de transferencia.
Por otro lado, cuando ∆ ≡ E1 −E2 aumenta, la frecuencia (E+ − E− ) /h también aumenta (ver Ecs. 17.13, 17.14)
en tanto que sin2 θ disminuye como se aprecia en la Ec. (17.33). Para un acople débil |∆| = |E 1 − E2 | >> |W21 |, se
observa de las Ecs. (17.13, 17.14) que el desdoblamiento E + − E− de los niveles perturbados solo difiere ligeramente
del desdoblamiento ∆ de los estados no perturbados. Se puede ver también de la Ec. (17.33) que la cantidad sin 2 θ
es muy pequeña en tal lı́mite. Esto es de esperarse ya que en el lı́mite de acople débil |ψ + i es muy similar a |ϕ1 i,
con lo cual el sistema estarı́a en t = 0 en un estado cuasi-estacionario, de modo que su tiempo caracterı́stico de
evolución es muy grande.