Download as pdf or txt
Download as pdf or txt
You are on page 1of 373

Mecánica Cuántica: Notas de Clase

Rodolfo Alexander Diaz S.


Universidad Nacional de Colombia
Departamento de Fı́sica
Bogotá, Colombia

4 de agosto de 2010
Índice general

1. Linear or vector spaces 10


1.1. Definition of a linear vector space . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2. Algebraic properties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3. Vector subspaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4. Dimension and bases in vector spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5. Mappings and transformations in vector spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.6. Linear transformations of a vector space into itself . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.6.1. Projection operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.7. Normed vector spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.7.1. Convergent sequences, cauchy sequences and completeness . . . . . . . . . . . . . . . . . . . . 18
1.7.2. The importance of completeness in quantum mechanics . . . . . . . . . . . . . . . . . . . . . 19
1.7.3. The concept of continuity and its importance in Physics . . . . . . . . . . . . . . . . . . . . . 19
1.8. Banach Spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.8.1. Continuous linear transformations of a Banach space into scalars . . . . . . . . . . . . . . . . 20
1.8.2. Continuous linear transformations of a Banach space into itself . . . . . . . . . . . . . . . . . 20
1.9. Hilbert spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.9.1. Orthonormal sets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.9.2. The conjugate space H ∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.9.3. The conjugate and the adjoint of an operator . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.10. Normal operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.11. Self-Adjoint operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.12. Unitary operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.13. Projections on Hilbert spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.14. Basic theory of representations in a general finite dimensional vector space . . . . . . . . . . . . . . . 31
1.14.1. Representation of operators in a given basis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.14.2. Change of coordinates of vectors under a change of basis . . . . . . . . . . . . . . . . . . . . . 34
1.14.3. Change of the matrix representative of linear transformations under a change of basis . . . . 34
1.15. Active and passive transformations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1.16. Theory of representations on finite dimensional Hilbert spaces . . . . . . . . . . . . . . . . . . . . . . 36
1.16.1. Linear operators in finite dimensional Hilbert spaces . . . . . . . . . . . . . . . . . . . . . . . 38
1.17. Determinants and traces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.18. Rectangular matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
1.19. The eigenvalue problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
1.19.1. Matrix representative of the eigenvalue problem . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.19.2. Eigenvectors and the canonical problem of matrices . . . . . . . . . . . . . . . . . . . . . . . 43
1.20. Normal operators and the spectral theorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
1.20.1. A qualitative discussion of the spectral theorem in infinite dimensional Hilbert spaces . . . . 47
1.21. The concept of “hyperbasis” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
1.22. Definition of an observable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.23. Complete sets of commuting observables (C.S.C.O.) . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
1.24. Some terminology concerning quantum mechanics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
1.25. The Hilbert Space L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
ÍNDICE GENERAL 3

1.25.1. The wave function space z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54


1.26. Discrete orthonormal basis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.26.1. Función delta de Dirac . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.27. Closure relations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
1.28. Introduction of hyperbases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
1.29. Closure relation with hyperbases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
1.30. Inner product and norm in terms of the components of a vector in a hyperbases . . . . . . . . . . . . 59
1.31. Some specific continuous bases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
1.31.1. Plane waves . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
1.31.2. “Delta functions” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
1.32. Tensor products of vector spaces, definition and properties . . . . . . . . . . . . . . . . . . . . . . . . 61
1.32.1. Scalar products in tensor product spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
1.32.2. Tensor product of operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
1.32.3. The eigenvalue problem in tensor product spaces . . . . . . . . . . . . . . . . . . . . . . . . . 63
1.32.4. Complete sets of commuting observables in tensor product spaces . . . . . . . . . . . . . . . . 65
1.33. Restrictions to an operator to a subspace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
1.34. Functions of operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
1.34.1. Some commutators involving functions of operators . . . . . . . . . . . . . . . . . . . . . . . . 67
1.35. Differentiation of operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
1.35.1. Some useful formulas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
1.36. State space and Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
1.37. Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
1.37.1. Elements of the dual or conjugate space E r∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
1.37.2. The correspondence between bras and kets with hyperbases . . . . . . . . . . . . . . . . . . . 71
1.38. The action of linear operators in Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
1.38.1. Projectors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
1.39. Hermitian conjugation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
1.39.1. The adjoint operator A† in Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
1.39.2. Mathematical objects and hermitian conjugation in Dirac notation . . . . . . . . . . . . . . . 76
1.40. Theory of representations of E in Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
1.40.1. Orthonormalization and closure relation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
1.40.2. Representation of operators in Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
1.41. Change of representations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
1.41.1. Transformation of the coordinates of a ket . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
1.41.2. Transformation of the coordinates of a bra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
1.41.3. Transformation of the matrix elements of an operator . . . . . . . . . . . . . . . . . . . . . . 83
1.42. Representation of the eigenvalue problem in Dirac notation . . . . . . . . . . . . . . . . . . . . . . . 84
1.42.1. C.S.C.O. in Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
1.43. The continuous bases |ri and |pi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
1.43.1. Orthonormalization and closure relations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
1.43.2. Coordinates of kets and bras in {|ri} and {|pi} . . . . . . . . . . . . . . . . . . . . . . . . . . 85
1.43.3. Changing from the {|ri} representation to {|pi} representation and vice versa . . . . . . . . . 87
1.43.4. The R and P operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
1.43.5. The eigenvalue problem for R and P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
1.44. General properties of two conjugate observables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
1.44.1. The eigenvalue problem of Q . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
1.44.2. The action of Q, P and S (λ) in the {|qi} basis . . . . . . . . . . . . . . . . . . . . . . . . . . 92
1.44.3. Representation in the {|pi} basis and the symmetrical role of P and Q . . . . . . . . . . . . . 93
1.45. Diagonalization of a 2 × 2 hermitian matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
1.45.1. Formulation of the problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
1.45.2. Eigenvalues and eigenvectors of K . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
1.45.3. Eigenvalues and eigenvectors of H . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4 ÍNDICE GENERAL

2. Construcción fenomenológica de los postulados de la mecánica cuántica 98


2.1. La radiación del cuerpo negro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
2.2. El efecto fotoeléctrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
2.3. El efecto compton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
2.4. El problema espectroscópico y la teorı́a de Bohr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
2.4.1. La teorı́a de Wilson y Sommerfeld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
2.5. Los postulados de De Broglie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
2.6. Sı́ntesis de los resultados experimentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
2.7. El experimento de Young de la doble rendija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
2.7.1. Interpretación mecano-cuántica de la dualidad onda partı́cula . . . . . . . . . . . . . . . . . . 102
2.7.2. Proceso de medición, preparación de un sistema y el principio de la descomposición espectral 103
2.8. Dualidad onda partı́cula para la materia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
2.9. Aspectos ondulatorios de una partı́cula material . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
2.9.1. Estados cuánticos arbitrarios como superposición de ondas planas . . . . . . . . . . . . . . . 109
2.9.2. Perfil instantáneo del paquete de onda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
2.9.3. El principio de incertidumbre de Heisenberg . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
2.10. El principio de complementariedad para la dualidad onda partı́cula y su relación con el principio de
incertidumbre de Heisenberg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
2.11. Evolución temporal de paquetes de ondas libre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
2.12. Caracterización de paquetes de onda gaussianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
2.12.1. Integrales básicas para paquetes gaussianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
2.12.2. Perfiles de paquetes de onda gaussianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
2.12.3. Relaciones de incertidumbre para paquetes gaussianos . . . . . . . . . . . . . . . . . . . . . . 120
2.13. Evolución temporal de paquetes de onda gaussianos (opcional) . . . . . . . . . . . . . . . . . . . . . 121
2.13.1. Dispersión del paquete de onda gaussiano (opcional) . . . . . . . . . . . . . . . . . . . . . . . 121

3. Ecuación de Schrödinger y sus propiedades 124


3.1. Plausibilidad de la ecuación de Schrödinger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
3.2. Ecuación de Schrödinger para una partı́cula sometida a un potencial escalar independiente del tiempo:
estados estacionarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
3.3. Propiedades generales de la ecuación de Schrödinger . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
3.3.1. Determinismo en las soluciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
3.3.2. Principio de superposición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
3.3.3. Conservación de la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
3.3.4. La ecuación de continuidad para la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . 131
3.3.5. Expresión polar de la corriente de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . 132
3.4. Aplicación de la ecuación de Schrödinger a potenciales discontı́nuos . . . . . . . . . . . . . . . . . . . 133
3.5. Potenciales rectangulares, análogo óptico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
3.5.1. Estrategia de solución para potenciales acotados con discontinuidades de salto . . . . . . . . 134
3.5.2. Expresión para la corriente en regiones de potencial constante . . . . . . . . . . . . . . . . . . 136
3.6. El potencial escalón . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
3.6.1. E > V0 , reflexión parcial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
3.6.2. E < V0 ; reflexión total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
3.7. Barrera de potencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
3.7.1. E > V0 , resonancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
3.7.2. Caso E < V0 : Efecto túnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
3.8. Pozo de potencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
3.8.1. Partı́cula con energı́a −V0 < E < 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
3.8.2. Partı́cula con energı́a E > 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
ÍNDICE GENERAL 5

4. Enunciado matemático de los postulados de la mecánica cuántica 158


4.1. Los fenómenos clásicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
4.2. Los fenómenos cuánticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
4.3. Establecimiento de los postulados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
4.3.1. Descripción de los estados y las cantidades fı́sicas . . . . . . . . . . . . . . . . . . . . . . . . . 161
4.3.2. El proceso de medición y la distribución de probabilidad . . . . . . . . . . . . . . . . . . . . . 161
4.3.3. Relevancia fı́sica de las fases en mecánica cuántica . . . . . . . . . . . . . . . . . . . . . . . . 164
4.3.4. El proceso de medida y la reducción del paquete de onda . . . . . . . . . . . . . . . . . . . . 165
4.3.5. Evolución fı́sica de los sistemas cuánticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
4.3.6. Reglas de cuantización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166

5. Consecuencias de los postulados sobre los observables y sus medidas 169


5.1. Consideraciones estadı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
5.1.1. Valor medio de un observable para un sistema en un estado dado . . . . . . . . . . . . . . . . 170
5.1.2. Valor esperado para los observables X, P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
5.1.3. Valor esperado para el commutador de dos observables . . . . . . . . . . . . . . . . . . . . . . 172
5.1.4. La desviación media cuadrática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
5.2. Observables compatibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
5.3. Observables no compatibles e incertidumbres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
5.4. La desviación media cuadrática y el principio de incertidumbre para observables arbitrarios (opcional)178
5.4.1. Paquetes de mı́nima incertidumbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
5.5. Preparación de un estado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
5.6. Propiedades adicionales de la ecuación de Schrödinger . . . . . . . . . . . . . . . . . . . . . . . . . . 182
5.6.1. Aspectos adicionales sobre la conservación de la probabilidad (opcional) . . . . . . . . . . . . 182
5.7. Evolución del valor esperado de un observable y su relación con la mecánica clásica . . . . . . . . . . 184
5.7.1. Evolución temporal de los valores esperados de R, P: Teorema de Ehrenfest . . . . . . . . . 185
5.8. Soluciones de la ecuación de Schrödinger para sistemas conservativos . . . . . . . . . . . . . . . . . 187
5.8.1. Estados estacionarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
5.8.2. Constantes de movimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
5.8.3. Frecuencias de Bohr de un sistema y reglas de selección . . . . . . . . . . . . . . . . . . . . . 190
5.8.4. Relación de incertidumbre entre tiempo y energı́a . . . . . . . . . . . . . . . . . . . . . . . . . 191
5.8.5. Cuarta relación de incertidumbre para un paquete de onda unidimensional . . . . . . . . . . 193
5.9. Consecuencias fı́sicas del principio de superposición . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
5.9.1. Diferencia entre superposición lineal y mezcla estadı́stica . . . . . . . . . . . . . . . . . . . . . 194
5.9.2. Efectos de interferencia en fotones polarizados . . . . . . . . . . . . . . . . . . . . . . . . . . 195
5.9.3. Suma sobre los estados intermedios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
5.10. El principio de superposición para casos en que varios estados están asociados a una medida . . . . . 198
5.10.1. El principio de superposición para valores propios degenerados . . . . . . . . . . . . . . . . . 198
5.10.2. Aparatos insuficientemente selectivos en la medida . . . . . . . . . . . . . . . . . . . . . . . . 199
5.11. Discusión general sobre el fenómeno de interferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
5.12. Medición insuficiente de espectros contı́nuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
5.13. Postulado de reducción del paquete de onda (quinto postulado) para un espectro contı́nuo . . . . . . 203

6. Aplicación de los postulados cuando se posee información parcial de un sistema 204


6.1. Aplicación de los postulados cuando se mide un observable de un subsistema . . . . . . . . . . . . . 204
6.1.1. Interpretación fı́sica de los estados que son productos tensoriales . . . . . . . . . . . . . . . . 205
6.1.2. Significado fı́sico de estados que no son productos tensoriales . . . . . . . . . . . . . . . . . . 206
6.2. Operador densidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
6.2.1. El concepto de mezcla estadı́stica de estados . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
6.2.2. Estados puros y operador densidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
6.2.3. Mezcla estadı́stica de estados: estados no puros . . . . . . . . . . . . . . . . . . . . . . . . . . 210
6.2.4. Propiedades generales del operador densidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
6.2.5. Populaciones y coherencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
6 ÍNDICE GENERAL

6.3. Aplicaciones del operador densidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214


6.3.1. Sistema en equilibrio termodinámico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
6.3.2. Descripción de subsistemas con base en observables globales de un sistema: el concepto de
traza parcial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
6.3.3. Traza parcial y operador densidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215

7. Formulaciones alternativas de la mecánica cuántica 218


7.1. Operador evolución temporal: definición y propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . 218
7.1.1. Operador evolución temporal para sistemas conservativos . . . . . . . . . . . . . . . . . . . . 220
7.1.2. Observaciones adicionales sobre el operador evolución temporal (opcional) . . . . . . . . . . . 220
7.2. Bras, kets y observables equivalentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
7.2.1. La transformada de un operador y sus propiedades . . . . . . . . . . . . . . . . . . . . . . . . 222
7.3. La imagen de Schrödinger y la imagen de Heisenberg . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
7.3.1. Algunos sistemas simples en la imagen de Heisenberg . . . . . . . . . . . . . . . . . . . . . . . 224
7.4. La imagen de interacción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224

8. El oscilador armónico cuántico 227


8.1. Propiedades generales del oscilador armónico cuántico unidimensional . . . . . . . . . . . . . . . . . 227
8.2. El problema de valores propios del Hamiltoniano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
8.3. Determinación del espectro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
8.3.1. Interpretación de los operadores a, a † y N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
8.3.2. Estudio de la degeneración del espectro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
8.4. Estados propios del Hamiltoniano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
8.4.1. Construcción de los kets propios con base en el ket del estado base . . . . . . . . . . . . . . . 233
8.4.2. Ortonormalidad de los kets propios (opcional) . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
8.4.3. Acción de los operadores creación y destrucción sobre los autoestados del Hamiltoniano . . . 236
8.5. Funciones propias asociadas a los estados estacionarios en la base {|xi} . . . . . . . . . . . . . . . . 237
8.6. Valores esperados y dispersión para los observables cuando el sistema está en un estado estacionario
del oscilador armónico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
8.7. Propiedades del estado base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
8.8. Evolución temporal de los observables del oscilador armónico . . . . . . . . . . . . . . . . . . . . . . 242

9. Estados coherentes cuasi-clásicos del oscilador armónico (opcional) 244


9.1. Parametrización del oscilador clásico con parámetros cuánticos . . . . . . . . . . . . . . . . . . . . . 244
9.2. Construcción de los estados coherentes o cuasi-clásicos . . . . . . . . . . . . . . . . . . . . . . . . . . 245
9.3. Propiedades de los estados |αi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
9.3.1. Valores permitidos de la energı́a para un estado coherente |αi . . . . . . . . . . . . . . . . . . 248
9.3.2. Cálculo de los observables X, P en el estado |αi . . . . . . . . . . . . . . . . . . . . . . . . . . 250
9.4. Generador y función de onda de los estados coherentes . . . . . . . . . . . . . . . . . . . . . . . . . . 251
9.5. Los estados coherentes son completos pero no ortogonales . . . . . . . . . . . . . . . . . . . . . . . . 253
9.6. Evolución temporal de los estados coherentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
9.7. Tratamiento mecano-cuántico de un oscilador armónico macroscópico . . . . . . . . . . . . . . . . . . 256

10.Teorı́a general del momento angular en mecánica cuántica 258


10.1. Definición de momento angular por sus propiedades de conmutación . . . . . . . . . . . . . . . . . . 258
10.1.1. Cuantización del momento angular orbital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258
10.1.2. Definición de momento angular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
10.2. Propiedades algebráicas del momento angular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
10.2.1. Álgebra de los operadores J2 , J3 , J+ , J− . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
10.3. Estructura de valores y vectores propios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
10.3.1. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
10.3.2. Caracterı́sticas generales de los valores propios de J 2 y J3 . . . . . . . . . . . . . . . . . . . . 262
10.3.3. Determinación de los valores propios de J 2 y J3 . . . . . . . . . . . . . . . . . . . . . . . . . . 264
ÍNDICE GENERAL 7

10.4. Propiedades de los vectores propios de J 2 y J3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265


10.4.1. Generación de autoestados por medio de los operadores J + y J− . . . . . . . . . . . . . . . . 266
10.5. Construcción de una base estándar con base en un C.S.C.O . . . . . . . . . . . . . . . . . . . . . . . 267
10.5.1. Descomposición de E en subespacios del tipo E (j, k) . . . . . . . . . . . . . . . . . . . . . . . 269
10.6. Representaciones matriciales de los operadores momento angular . . . . . . . . . . . . . . . . . . . . 270
10.6.1. Representaciones matriciales del tipo (J i )(j) en la base estándar para j arbitrario . . . . . . . 271
10.6.2. Representaciones matriciales en la base estándar para j = 0 . . . . . . . . . . . . . . . . . . . 272
10.6.3. Representaciones matriciales en la base estándar para j = 1/2 . . . . . . . . . . . . . . . . . . 272
10.6.4. Representaciones matriciales en la base estándar para j = 1 . . . . . . . . . . . . . . . . . . . 273

11.Propiedades de los momentos angulares orbitales 275


11.1. Momentos angulares orbitales como operadores diferenciales en coordenadas esféricas . . . . . . . . . 278
11.2. Valores permitidos de l y m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
11.3. Propiedades fundamentales de los armónicos esféricos . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
11.3.1. Ortonormalidad y completez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
11.3.2. Propiedades de paridad y conjugación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
11.4. Construcción de bases estándar de la función de onda espacial de una partı́cula sin espı́n . . . . . . . 281
11.5. Valores esperados y desviaciones medias cuadráticas de observables cuando el sistema está en un
estado |l, m, ki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
11.6. Probabilidades asociadas a la medida de L 2 y L3 en un estado arbitrario . . . . . . . . . . . . . . . . 284
11.7. Ejemplos de cálculos de probabilidad para L 2 y L3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
11.7.1. Función de onda parcialmente separable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
11.7.2. Función de onda totalmente separable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
11.7.3. Comportamiento de la probabilidad con θ y ϕ . . . . . . . . . . . . . . . . . . . . . . . . . . . 288

12.Interacciones centrales en mecánica cuántica 290


12.1. El problema de dos cuerpos y su reducción al problema equivalente de una partı́cula en Mecánica
Clásica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290
12.2. Reducción del problema de dos cuerpos en mecánica cuántica . . . . . . . . . . . . . . . . . . . . . . 293
12.2.1. Autovalores y autofunciones del Hamiltoniano . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
12.3. El problema clásico de una partı́cula sometida a una fuerza central . . . . . . . . . . . . . . . . . . . 295
12.4. Hamiltoniano cuántico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296
12.5. Solución general del problema de valores propios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
12.5.1. La ecuación radial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
12.5.2. Comportamiento de la solución radial en el origen . . . . . . . . . . . . . . . . . . . . . . . . 298
12.6. Estados estacionarios de una partı́cula en un potencial central . . . . . . . . . . . . . . . . . . . . . . 299
12.6.1. Degeneración de los niveles de energı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300

13. Átomos hidrogenoides 302


13.1. El átomo de Hidrógeno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302
13.2. Problema de valores propios del átomo de Hidrógeno . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
13.3. Solución de la ecuación radial por series de potencias . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
13.3.1. Serie de potencias radial y relaciones de recurrencia . . . . . . . . . . . . . . . . . . . . . . . 305
13.3.2. Condición asintótica ρ → ∞ y truncamiento de la serie . . . . . . . . . . . . . . . . . . . . . . 307
13.3.3. Coeficientes del polinomio radial en términos de c 0 . . . . . . . . . . . . . . . . . . . . . . . . 308
13.3.4. Cálculo de c0 y de la función radial para l = 0, k = 1 . . . . . . . . . . . . . . . . . . . . . . 309
13.3.5. Cálculo de c0 y de la función radial para l = 0, k = 2 . . . . . . . . . . . . . . . . . . . . . . 309
13.3.6. Cálculo de c0 y de la función radial para l = k = 1 . . . . . . . . . . . . . . . . . . . . . . . . 310
13.4. Parámetros atómicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311
13.5. Resumen de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312
13.6. Discusión de los resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
13.6.1. Dependencia angular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
8 ÍNDICE GENERAL

14.Corrientes de probabilidad en átomos hidrogenoides, acoples con campos magnéticos 316


14.1. Corrientes de probabilidad para las soluciones estacionarias del átomo de Hidrógeno . . . . . . . . . 316
14.1.1. Efecto sobre la corriente debido a la introducción de un campo magnético . . . . . . . . . . . 317
14.2. Átomo de hidrógeno en un campo magnético uniforme: paramagnetismo, diamagnetismo y efecto
Zeeman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
14.2.1. Hamiltoniano del sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
14.2.2. Estimación numérica de las contribuciones H 0 , H1 y H2 . . . . . . . . . . . . . . . . . . . . . 320
14.2.3. Término diamagnético . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
14.2.4. Término paramagnético . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322
14.3. Efecto Zeeman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322
14.3.1. Corrimiento de los niveles atómicos con la corrección paramagnética . . . . . . . . . . . . . . 323
14.3.2. Oscilaciones dipolares eléctricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323
14.3.3. Frecuencia y polarización de la radiación emitida . . . . . . . . . . . . . . . . . . . . . . . . . 325

15.Momento angular intrı́nseco 327


15.1. Comportamiento clásico de átomos paramagnéticos inmersos en un campo magnético . . . . . . . . . 327
15.2. Experimento de Stern-Gerlach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328
15.3. Resultados del experimento y el momento angular intrı́nseco . . . . . . . . . . . . . . . . . . . . . . . 329
15.4. Evidencia experimental del momento angular intrı́nseco del electrón . . . . . . . . . . . . . . . . . . 331
15.4.1. Estructura fina de las lı́neas espectrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331
15.4.2. Efecto Zeeman anómalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331
15.5. Introducción del momento angular intrı́nseco en el formalismo de la mecánica cuántica no relativista 332
15.6. Propiedades de un momento angular 1/2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
15.6.1. Resumen de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336
15.6.2. Representación matricial de los observables de espı́n . . . . . . . . . . . . . . . . . . . . . . . 336
15.7. Descripción no relativista completa de operadores y estados de partı́culas con espı́n 1/2 . . . . . . . 337
15.7.1. Construcción de los estados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337
15.7.2. Construcción de operadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
15.8. Representación en la base |p, εi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
15.9. Cálculos de probabilidad para estados de espı́n 1/2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343

16.Adición de momentos angulares 345


16.1. El problema clásico de la adición del momento angular . . . . . . . . . . . . . . . . . . . . . . . . . . 345
16.2. Momento angular total en mecánica cuántica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345
16.3. La adición de dos momentos angulares es otro momento angular . . . . . . . . . . . . . . . . . . . . 348
16.4. Adición de dos momentos angulares con j (1) = j(2) = 1/2 . . . . . . . . . . . . . . . . . . . . . . . . . 350
16.4.1. Autovalores de J3 y su degeneración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
16.4.2. Diagonalización de J2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
16.4.3. Autoestados de J2 y J3 : singlete y triplete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352
16.5. Método general de adición de dos momentos angulares arbitrarios . . . . . . . . . . . . . . . . . . . . 353
16.5.1. Formación del sistema a partir de dos subsistemas . . . . . . . . . . . . . . . . . . . . . . . . 353
16.5.2. Momento angular total y sus relaciones de conmutación . . . . . . . . . . . . . . . . . . . . . 354
16.5.3. Cambio de base a realizar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
16.5.4. Autovalores de J2 y J3 : Caso de dos espines j1 = j2 = 1/2. . . . . . . . . . . . . . . . . . . . 356
16.5.5. Autovalores de J3 y su degeneración: Caso general . . . . . . . . . . . . . . . . . . . . . . . . 357
16.5.6. Autovalores de J2 : caso general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
16.6. Autovectores comunes de J2 y J3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
16.6.1. Caso especial j1 = j2 = 1/2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361
16.7. Autovectores de J2 y J3 : Caso general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
16.7.1. Determinación de los vectores |JM i del subespacio E (j 1 + j2 ) . . . . . . . . . . . . . . . . . . 362
16.7.2. Determinación de los vectores |JM i en los otros subespacios . . . . . . . . . . . . . . . . . . 363
16.8. Transformación de la base desacoplada a la base acoplada y coeficientes de Clebsch-Gordan . . . . . 364
ÍNDICE GENERAL 9

17.Propiedades generales de los sistemas de dos estados 367


17.1. Formulación del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
17.2. Consecuencias de la introducción del acople sobre los niveles de energı́a y los estados estacionarios . 368
17.2.1. Efecto del acople sobre los estados estacionarios del sistema . . . . . . . . . . . . . . . . . . . 368
17.2.2. Efecto de un acople débil sobre los niveles de energı́a y estados estacionarios . . . . . . . . . 370
17.2.3. Efecto de un acople fuerte sobre los niveles de energı́a y estados estacionarios . . . . . . . . . 370
17.3. Evolución temporal del vector de estado: oscilación del sistema entre dos estados sin perturbar . . . 371
Capı́tulo 1

Linear or vector spaces

We shall describe the most important properties of linear or vector spaces. This treatment is not rigorous at all,
and only some simple proofs are shown. Our aim limits to provide a framework for our subsequent developments.

1.1. Definition of a linear vector space


Any non-empty set of objects V = {xi } form a linear space (or a vector space) if there is a “sum” operation
defined between the elements, and a “multiplication” by scalars (i.e. the system of real or complex numbers) such
that

1. If xi ∈ V , and α is a scalar, then αxi ∈ V

2. If xi , xj ∈ V , then xi + xj ∈ V

3. xi + xj = xj + xi , ∀xi , xj ∈ V

4. xi + (xj + xk ) = (xi + xj ) + xk , ∀xi , xj , xk ∈ V

5. (α + β) xi = αxi + βxi ; ∀xi ∈ V

6. α (xi + xj ) = αxi + αxj , ∀xi , xj ∈ V

7. (αβ) xi = α (βxi ) ; ∀xi ∈ V

8. 1xi = xi ; ∀xi ∈ V

9. ∃ an element 0 ∈ V such that xi + 0 = xi , ∀xi ∈ V

10. ∀xi ∈ V , ∃ an element in V denoted by −xi such that xi + (−xi ) = 0

The element 0 is usually called the null vector or the origin. The element −x is called the additive inverse of
x. We should distinguish the symbols 0 (scalar) and 0 (vector). The two operations defined here (sum and product
by scalars) are called linear operations. A linear space is real (complex) if we consider the scalars as the set of real
(complex) numbers.
Let us see some simple examples

Example 1.1 The set of all real (complex) numbers with ordinary addition and multiplication taken as the linear
operations. This is a real (complex) linear space.

Example 1.2 The set Rn (C n ) of all n-tuples of real (complex) numbers is a real (complex) linear space under the
following linear operations

x ≡ (x1 , x2 , . . . , xn ) ; y ≡ (y1 , y2 , . . . , yn )
αx ≡ (αx1 , αx2 , , αxn ) ; x + y ≡ (x1 + y1 , x2 + y2 , . . . , xn + yn )
1.2. ALGEBRAIC PROPERTIES 11

Example 1.3 The set of all bounded continuous real functions defined on a given interval [a, b] of the real line,
with the linear operations defined pointwise as

(f + g) (x) = f (x) + g (x) ; (αf ) (x) = αf (x) ; x ∈ [a, b]

We can see that a linear or vector space forms an abelian group whose elements are the vectors, and with
addition as the law of combination. However, the vector space introduce an additional structure by considering
multiplication by scalars which is not a group property.
Some very important kinds of vector spaces are the ones containing certain sets of functions with some specific
properties. We can consider for example, the set of functions defined on certain interval with some condition of
continuity integrability etc. For instance, in quantum mechanics we use a vector space of functions.

1.2. Algebraic properties


Some algebraic properties arise from the axioms:
The origin or identity 0 must be unique. Assuming another identity 0 0 we have that x + 00 = 00 + x = x for all
x ∈ V. Then 00 = 00 + 0 = 0. Hence 00 = 0.
The additive inverse of any vector x is unique. Assume that x 0 is another inverse of x then

x0 = x0 + 0 = x0 + (x+ (−x)) = x0 + x + (−x) = 0 + (−x) = −x
⇒ x0 = −x

xi + xk = xj + xk ⇒ xi = xj to see it, we simply add −xk on both sides. This property is usually called the
rearrangement lemma.
α · 0 = 0 we see it from α · 0 + αx = α · (0 + x) = αx = 0 + αx and applying the rearrangement lemma.
0 · x = 0 it proceeds from 0 · x + αx = (0 + α) x = αx = 0 + αx and using the rearrangement lemma.
(−1) x = −x we see it from x+ (−1) x = 1·x+(−1) x = (1 + (−1)) x = 0x = 0 = x+ (−x) and the rearrangement
lemma.
αx = 0 thenα = 0 or x = 0; for if α 6= 0 we can multiply both sides of the equation by α −1 to give α−1 (αx) =
α 0 ⇒ α−1 α x = 0 ⇒ 1x = 0 ⇒ x = 0. If x 6= 0 we prove that α = 0 by assuming α 6= 0 and finding a
−1

contradiction. This is inmediate from the above procedure that shows that starting with α 6= 0 we arrive to x = 0.
It is customary to simplify the notation in x + (−y) and write it as x − y. The operation is called substraction.

1.3. Vector subspaces


Definition 1.1 A non-empty subset M of V is a vector subspace of V if M is a vector space on its own right with
respect to the linear operations defined in V .

This is equivalent to the condition that M contains all sums, negatives and scalar multiples. The other properties
are derived directly from the superset V . Further, since −x = (−1) x it reduces to say that M must be closed under
addition and scalar multiplication.
When M is a proper subset of V it is called a proper subspace of V . The zero space {0} and the full space V
itself are trivial subspaces of V .
The following concept is useful to study the structure of vector subspaces of a given vector space,

Definition 1.2 Let S = {x1 , .., xn } be a non-empty finite subset of V , then the vector

x = α 1 x1 + α 2 x2 + . . . + α n xn (1.1)

is called a linear combination of the vectors in S.

We can redefine a vector subspace by saying that a non-empty subset M of V is a linear subspace if it is closed
under the formation of linear combinations. If S is a subset of V we can see that the set of all linear combinations
of vectors in S is a vector subspace of V , we denote this subspace as [S] and call it the vector subspace spanned by
12 CAPÍTULO 1. LINEAR OR VECTOR SPACES

S. It is clear that [S] is the smallest subspace of V that contains S. Similarly, for a given subspace M a non-empty
subset S of M is said to span M if [S] = M . Note that the closure of a vector space under an arbitrary linear
combination can be proved by induction from the closure property of vector spaces under linear operations. Notice
additionally, that the proof of induction only guarantees the closure under any finite sum of terms, if we have an
infinite sum of terms (e.g. a series) we cannot ensure that the result is an element of the space, this is the reason
to define linear combinations as finite sums. If we want a property of closure under some infinite sums additional
structure should be added as we shall see later.
Suppose now that M and N are subspaces of V . Consider the set M + N of all sums of the form x + y with
x ∈ M and y ∈ N . Since M and N are subspaces, this sum is the subspace spanned by the union of both subspaces
M + N = [M ∪ N ]. It could happen that M + N = V in this case we say that V is the sum of M and N . In turn
it means that every vector in V is expressible as a sum of a vector in M plus a vector in N . Further, in some cases
any element z of V is expressible in a unique way as such a sum, in this case we say that V is the direct sum of
M and N and it is denoted by
V =M ⊕N
we shall establish the conditions for a sum to become a direct sum

Theorem 1.1 Let a vector space V be the sum of two of its subspaces V = M +N . Then V = M ⊕N ⇔ M ∩N = {0}

Proof: Assume first that V = M ⊕N , we shall suppose that ∃ z 6= 0 with z ∈ M ∩N , and deduce a contradiction
from it. We can express z in two different ways z = z + 0 with z ∈ M and 0 ∈ N or z = 0 + z with 0 ∈ M and
z ∈ N . This contradicts the definition of a direct sum.
Now assume M ∩ N = {0}, by hypothesis V = M + N so that any z ∈ V can be expressed by z = x 1 + y1 with
x1 ∈ M and y1 ∈ N . Suppose that there is another decomposition z = x 2 + y2 with x2 ∈ M and y2 ∈ N . Hence
x1 + y1 = x2 + y2 ⇒ x1 − x2 = y1 − y2 ; but x1 − x2 ∈ M and y1 − y2 ∈ N . Since they are equal, then both belong
to the intersection so x1 − x2 = y1 − y2 = 0 then x1 = x2 and y1 = y2 showing that the decomposition must be
unique. QED.
When two vector subspaces of a given space have only the zero vector in common, it is customary to call them
disjoint subspaces. It is understood that it does not correspond to disjointness in the set-theoretical sense, after all
two subspaces of a given space cannot be disjoint as sets, since any subspace must contain 0. Thus no confusion
arises from this practice.
The concept of direct sum can be generalized when more subspaces are involved. We say that V is the direct
sum of a collection of subspaces {M1 , .., Mn } and denote it as
V = M 1 ⊕ M2 ⊕ . . . ⊕ M n
when each z ∈ V can be expressed uniquely in the form
z = x 1 + x2 + . . . + x n ; xi ∈ Mi
In this case if V = M1 + .. + Mn , this sum becomes a direct sum if and only if each M i is disjoint from the subspace
spanned by the others. To see it, it is enough to realize that
V = M1 + M2 + .. + Mn = M1 + [M2 + .. + Mn ] = M1 + [∪ni=2 Mi ]
then V = M1 ⊕ [M2 + .. + Mn ] if and only if M1 ∩ [∪ni=2 Mi ] = {0}, proceeding similarly for the other M i0 s we arrive
at the condition above. Note that this condition is stronger than the condition that any given M i is disjoint from
each of the others.
The previous facts can be illustrated by a simple example. The most general non-zero proper subspaces of R 3
are lines or planes that passes through the origin. Thus let us define
M1 = {(x1 , 0, 0)} , M2 = {(0, x2 , 0)} , M3 = {(0, 0, x3 )}
M4 = {(0, x2 , x3 )} , M5 = {(x1 , 0, x3 )} , M6 = {(x1 , x2 , 0)}
M1 , M2 , M3 are the coordinate axes of R 3 and M4 , M5 , M6 are its coordinate planes. R 3 can be expressed by direct
sums of these spaces in several ways
R 3 = M1 ⊕ M2 ⊕ M3 = M1 ⊕ M4 = M2 ⊕ M5 = M3 ⊕ M6
1.4. DIMENSION AND BASES IN VECTOR SPACES 13

for the case of R3 = M1 ⊕M2 ⊕M3 we see that the subspace spanned by M 2 and M3 i.e. M2 +M3 = [M2 ∪ M3 ] = M4
is disjoint from M1 . Similarly M2 ∩ [M1 ∪ M3 ] = {0} = M3 ∩ [M1 ∪ M2 ]. It is because of this, that we have a direct
sum.
Now let us take M3 , M6 and M 0 defined as a line on the plane M4 that passes through the origin making an
angle θ with the axis x3 such that 0 < θ < π/2, since R 3 = M3 + M6 it is clear that
R3 = M3 + M6 + M 0 ; M3 ∩ M6 = M3 ∩ M 0 = M6 ∩ M 0 = {0} (1.2)
however this is not a direct sum because M 3 + M6 = R3 so that M 0 ∩ (M3 + M6 ) 6= {0}. Despite each subspace
is disjoint from each other, there is at least one subspace that is not disjoint from the subspace spanned by the
others. Let us show that there are many decompositions for a given vector z ∈ R 3 when we use the sum in (1.2).
Since R3 = M3 + M6 a possible decomposition is z = x + y + 0 with x ∈ M 3 , y ∈ M6 , 0 ∈ M 0 . Now let us take an
arbitrary non-zero element w of M 0 ; clearly M3 + M6 = R3 contains M 0 so that w = x0 + y0 with x0 ∈ M3 , y0 ∈ M6 .
Now we write z = x + y = (x − x0 ) + (y − y0 ) + x0 + y0 then z = (x − x0 ) + (y − y0 ) + w. We see that (x − x0 ) is in
M3 and (y − y0 ) is in M6 . Now, since w ∈ M 0 and w 6= 0 this is clearly a different decomposition with respect to
the original one. An infinite number of different decompositions are possible since w is arbitrary.
Finally, it can be proved that for any given subspace M in V it is always possible to find another subspace N in
V such that V = M ⊕ N . Nevertheless, for a given M the subspace N is not neccesarily unique. A simple example
is the following, in R2 any line crossing the origin is a subspace M and we can define N as any line crossing the
origin as long as it is not collinear with M ; for any N accomplishing this condition we have V = M ⊕ N .

1.4. Dimension and bases in vector spaces


Definition 1.3 Let V be a vector space and S = {x 1 , .., xn } a finite non-empty subset of V . S is defined as linearly
dependent if there is a set of scalars {α 1 , .., αn } not all of them zero such that
α1 x1 + α2 x2 + .. + αn xn = 0 (1.3)
if S is not linearly dependent we say that it is linearly independent, this means that in Eq. (1.3) all coefficients α i
must be zero. Thus linear independence of S means that the only solution for Eq. (1.3) is the trivial one. When
non-trivial solutions exists the set is linearly dependent.
¿What is the utility of the concept of linear independence of a given set S? to see it, let us examine a given
vector x in [S], each of these vectors arise from linear combinations of vectors in S
x = α1 x1 + α2 x2 + .. + αn xn ; xi ∈ S (1.4)
we shall see that for the ordered set S = {x 1 , .., xn } the corresponding ordered set {α1 , .., αn } associated with x by
Eq. (1.4) is unique. Suppose there is another decomposition of x as a linear combination of elements of S
x = β1 x1 + β2 x2 + .. + βn xn ; xi ∈ S (1.5)
substracting (1.4) and (1.5) we have
0 = (α1 − β1 ) x1 + (α2 − β2 ) x2 + .. + (αn − βn ) xn
but linear independence require that only the trivial solution exists, thus α i = βi and the ordered set of coefficients
is unique. This is very important for the theory of representations of vector spaces. The discussion above permits
to define linearly independence for an arbitrary (not necessarily finite) non-empty set S
Definition 1.4 An arbitrary non-empty subset S ⊆ V is linearly independent if every finite non-empty subset of S
is linearly independent in the sense previously established.
As before, an arbitrary non-empty set S is linearly independent if and only if any vector x ∈ [S] can be written
in a unique way as a linear combination of vectors in S.
The most important linearly independent sets are those that span the whole space i.e. [S] = V this linearly
independent sets are called bases. It can be checked that S is a basis if and only if it is a maximal linearly
independent set, in the sense that any proper superset of S must be linearly dependent. We shall establish without
proof a very important theorem concerning bases of vector spaces
14 CAPÍTULO 1. LINEAR OR VECTOR SPACES

Theorem 1.2 If S is a linearly independent set of vectors in a vector space V , there exists a basis B in V such
that S ⊆ B.

In words, given a linearly independent set, it is always possible to add some elements to S for it to become a
basis. A linearly independent set is non-empty by definition and cannot contain the null vector. Hence, we see that
if V = {0} it does not contain any basis, but if V 6= {0} and we can take a non-zero element x of V , the set {x} is
linearly independent and the previous theorem guarantees that V has a basis that contains {x}, it means that

Theorem 1.3 Every non-zero vector space has a basis

Now, since any set consisting of a single non-zero vector can be enlarged to become a basis it is clear that any
non-zero vector space contains an infinite number of bases. It worths looking for general features shared by all bases
of a given linear space. Tne first theorem in such a direction is the following

Theorem 1.4 Let S = {x1 , x2 , .., xn } be a finite, odered, non-empty subset of the linear space V . If n = 1 then S is
linearly dependent⇔ x1 = 0. If n > 1 and x1 6= 0 then S is linearly dependent if and only if some one of the vectors
x2 , ..., xn is a linear combination of the vectors in the ordered set S that precede it.

Proof: The first assertion is trivial. Then we settle n > 1 and x 1 6= 0. Assuming that one of the vectors x i in
the set x2 , ..., xn is a linear combination of the preceding ones we have

xi = α1 x1 + ... + αi−1 xi−1 ⇒ α1 x1 + ... + αi−1 xi−1 − 1 · xi = 0

since the coefficient of xi is 1, this is a non-trivial linear combination of elements of S that equals zero. Thus S is
linearly dependent. We now assume that S is linearly dependent hence the equation

α1 x1 + ... + αn xn = 0

has a solution with at least one non-zero coefficcient. Let us define α i as the last non zero coefficient, since x 1 6= 0
then i > 1 then we have
   
α1 αi−1
α1 x1 + ... + αi xi + 0 · xi+1 + ... + 0 · xn = 0 ⇒ xi = − x1 + ... + − xi−1
αi αi

and xi is written as a linear combination of the vectors that precede it in the ordered set S. QED
The next theorem provides an important structural feature of the set of bases in certain linear spaces

Theorem 1.5 If a given non-zero linear space V has a finite basis B 1 = {e1 , ..., en } with n elements, then any
other basis B2 = {fi } of V must be finite and also with n elements.

The following theorem (that we give without proof) gives a complete structure to this part of the theory of
vector spaces

Theorem 1.6 Let V be a non-zero vector space. If B 1 = {ei } and B2 = {uj } are two bases of the vector space,
then B1 and B2 are sets with the same cardinality.

These theorem is valid even for sets with infinite cardinality. This result says that the cardinality of a basis is
a universal attribute of the vector space since it does not depend on the particular basis used. Hence the following
are natural definitions

Definition 1.5 The dimension of a non-zero vector space is the cadinality of any of its basis. If V = {0} the
dimension is defined to be zero.

Definition 1.6 A vector space is finite-dimensional if its dimension is a non negative integer. Otherwise, it is
infinite-dimensional.
1.5. MAPPINGS AND TRANSFORMATIONS IN VECTOR SPACES 15

As any abstract algebraic system, vector spaces requires a theory of representations in which the most abstract
set is replaced by another set with more tangible objects. However, for the representation to preserve the abstract
properties of the vector space, set equivalence and linear operations must be preserved. This induces the following
definition

Definition 1.7 Let V and V 0 two vector spaces with the same system of scalars. An isomorphism of V onto V 0 is
a one-to-one mapping f of V onto V 0 such that f (x + y) = f (x) + f (y) and f (αx) = αf (x)

Definition 1.8 Two vector spaces with the same system of scalars are called isomorphic if there exists an isomor-
phism of one onto the other.

To say that two vector spaces are isomorphic means that they are abstractly identical with respect to their
structure as vector spaces.
Now let V be a non zero finite dimensional space. If n is its dimension, there exists a basis B = {e 1 , .., en } whose
elements are written in a definite order. Each vector x in V can be written uniquely in the form

x = α1 e1 + .. + αn en

so the n−tuple (α1 , .., αn ) is uniquely determined by x. If we define a mapping f by f (x) = (α 1 , .., αn ) we see that
this is an isomorphism of V onto R n or C n depending on the system of scalars defined for V .

Theorem 1.7 Any real (complex) non-zero finite dimensional vector space of dimension n is isomorphic to R n
(C n ).

Indeed, this theorem can be extended to vector spaces of arbitrary dimensions, we shall not discuss this topic
here. By now, it suffices to realize that the isomorphism establishes here is not unique for it depends on the basis
chosen and even on the order of vectors in a given basis. It can be shown also that two vector spaces V and V 0 are
isomorphic if and only if they have the same scalars and the same dimension.
From the results above, we could then be tempted to say that the abstract concept of vector space is no
useful anymore. However, this is not true because on one hand the isomorphism depends on the basis chosen and
most results are desirable to be written in a basis independent way. But even more important, almost all vector
spaces studied in Mathematics and Physics posses some additional structure (topological or algebraic) that are not
neccesarily preserve by the previous isomorphisms.

1.5. Mappings and transformations in vector spaces


For two vector spaces V and V 0 with the same system of scalars we can define a mapping T of V into V 0 that
preserves linear properties
T (x + y) = T (x) + T (y) ; T (αx) = αT (x)
T is called a linear transformation. We can say that linear transformations are isomorphisms of V into V 0 since
linear operations are preserved. T also preserves the origin and negatives

T (0) = T (0 · 0) = 0 · T (0) = 0 ; T (−x) = T ((−1) x) = (−1) T (x) = −T (x)

we shall see later that the states of our physical systems are vectors of a given vector space. Hence, the transforma-
tions of these vectors are also important in Physics because they will represent transformations in the states of our
system. We shall see later that the set of all linear transformations are in turn vector spaces with their own internal
organization.
Let us now define some basic operations with linear transformations, a natural definition of the sum of two linear
transformations is of the form
(T + U ) (x) ≡ T (x) + U (x) (1.6)
and a natural definition of multiplication by scalars is

(αT ) (x) ≡ αT (x) (1.7)


16 CAPÍTULO 1. LINEAR OR VECTOR SPACES

finally the zero and negative linear transformations are defined as

0 (x) ≡ 0 ; (−T ) (x) ≡ −T (x) (1.8)

with these definitions it is inmediate to establish the following

Theorem 1.8 Let V and V 0 be two vector spaces with the same system of scalars. The set of all linear transfor-
mations of V into V 0 with the linear operations defined by Eqs. (1.6, 1.7, 1.8) is itself a vector space.

The most interesting cases are the linear transformations of V into itself and the linear transformations of V
into the space of scalars (real or complex). We shall study now the first case.

1.6. Linear transformations of a vector space into itself


In this case we usually speak of linear transformations on V . The first inmediate consequence is the capability
of defining the composition of operators (or product of operators)

(T U ) (x) ≡ T (U (x)) (1.9)

associativity and distributivity properties can easily be derived

T (U V ) = (T U ) V ; T (U + V ) = T U + T V
(T + U ) V = T V + U V ; α (T U ) = (αT ) U = T (αU )

we prove for instance

[(T + U ) V ] (x) = (T + U ) (V (x)) = T (V (x)) + U (V (x))


= (T V ) (x) + (U V ) (x) = (T V + U V ) (x)

commutativity does not hold in general. It is also possible for the product of two non-zero linear transformation to
be zero. An example of non commutativity is the following: we define on the space P of polynomials p (x) the linear
operators M and D
dp dp
M (p) ≡ xp ; D (p) = ⇒ (M D) (p) = M (D (p)) = xD (p) = x
dx dx
dp
(DM ) (p) = D (M (p)) = D (xp) = x +p
dx
and M D 6= DM. Suppose now the linear transformations on R 2 given by

Ta ((x1 , x2 )) = (x1 , 0) ; Tb ((x1 , x2 )) = (0, x2 ) ⇒ Ta Tb = Tb Ta = 0

thus Ta 6= 0 and Tb 6= 0 but Ta Tb = Tb Ta = 0.


Another natural definition is the identity operator I

I (x) ≡ x

we see that I 6= 0 ⇔ V 6= {0}. Further


IT = T I = T
for every linear operator T on V . For any scalar α the operator αI is called scalar multiplication since

(αI) (x) = αI (x) = αx

it is well known that for a mapping from V to V 0 to admit an inverse from V 0 to V requires to be one-to-one and
onto. In this context this induces the definition

Definition 1.9 A linear transformation T on V is non-singular if it is one-to-one and onto, and singular otherwise.
1.6. LINEAR TRANSFORMATIONS OF A VECTOR SPACE INTO ITSELF 17

When T is non-singular its inverse can be defined so that

T T −1 = T −1 T = I

it can be shown that when T is non-singular T −1 is also a linear transformation.


For future purposes the following theorem is highly relevant

Theorem 1.9 If T is a linear transformation on V , then T is non-singular⇔ T (B) is a basis for V whenever B
is.

1.6.1. Projection operators


We shall discuss some very important types of linear transformations. Let V be the direct sum of two subspaces
V = M ⊕ N it means that any vector z in V can be written in a unique way as z = x + y with x ∈ M and y ∈ N .
Since x is uniquely determined by z this decomposition induces a natural mapping of V onto M in the form

P (z) = x

it is easy to show that this transformation is linear and is called the projection on M along N . The most important
property of these transformations is that they are idempotent i.e. P 2 = P we can see it taking into account that
the unique decomposition of x is x = x + 0 so that

P 2 (z) = P (P (z)) = P (x) = x = P (z)

The opposite is also true i.e. a given linear idempotent linear transformation induces a decomposition of the space
V in a direct sum of two subspaces

Theorem 1.10 If P is a linear transformation on a vector space V , P is idempotent⇔there exists subspaces M


and N in V such that V = M ⊕ N and P is the projection on M along N .

Proof : We already showed that decomposition in a direct sum induces a projection, to prove the opposite let
define M and N in the form
M ≡ {P (z) : z ∈ V } ; N = {z : P (z) = 0}
M and N are subspaces and correspond to the range and the null space of the transformation P respectively. We
show first that M + N = V , this follows from the identity

z = P (z) + (I − P ) (z) (1.10)

P (z) belongs to M by definition, now



P ((I − P ) (z)) = (P (I − P )) (z) = P − P 2 (z) = (P − P ) (z) = 0 (z) = 0

thus (I − P ) (z) belongs to the null space N so M + N = V . To prove that this is a direct sum we must show that
M and N are disjoint (theorem 1.1). For this, assume that we have a given element P (z) in M that is also in N
then
P (P (z)) = 0 ⇒ P 2 (z) = P (z) = 0
thus the common element P (z) must be the zero element. Hence, M and N are disjoint and V = M ⊕ N . Further,
from (1.10) P is the projection on M along N .
Of course in z = x + y with x ∈ M , y ∈ N we can define a projection P 0 (z) = y on N along M . In this case
V = M ⊕ N = N ⊕ M but now M is the null space and N is the range. It is easy to see that P 0 = I − P .
On the other hand, we have seen that for a given subspace M in V we can always find another subspace N such
that V = M ⊕ N so for a given M we can find a projector with range M and null space N . However, N is not
unique so that different projections can be defined on M .
Finally, it is easy to see that the range of a projector P corresponds to the set of points fixed under P i.e.
M = {P (z) : z ∈ V } = {z : P (z) = z}.
18 CAPÍTULO 1. LINEAR OR VECTOR SPACES

1.7. Normed vector spaces


Inspired in the vectors of R n in which we define their lengths in a natural way, we can define lengths of vectors
in abstract vector spaces by assuming an additional structure

Definition 1.10 A normed vector space N is a vector space in which to each vector x there corresponds a real
number denoted by kxk with the following properties: (1) kxk ≥ 0 and kxk = 0 ⇔ x = 0.(2) kx + yk ≤ kxk + kyk
(3) kαxk = |α| kxk

As well as allowing to define a length for vectors, the norm permits to define a distance between two vectors x
and y in the following way
d (x, y) ≡ kx − yk
it is easy to verify that this definition accomplishes the properties of a metric

d (x, y) ≥ 0 and d (x, y) = 0 ⇔ x = y


d (x, y) = d (y, x) ; d (x, z) ≤ d (x, y) + d (y, z)

in turn, the introduction of a metric permits to define two crucial concepts: (a) convergence of sequences, (b)
continuity of functions of N into itself (or into any metric space).
We shall examine both concepts briefly

1.7.1. Convergent sequences, cauchy sequences and completeness


If X is a metric space with metric d a given sequence in X

{xn } = {x1 , .., xn , ...}

is convergent if there exists a point x in X such that for each ε > 0, there exists a positive integer n 0 such that
d (xn , x) < ε for all n ≥ n0 . x is called the limit of the sequence. A very important fact in metric spaces is that any
convergent sequence has a unique limit.
Further, assume that x is the limit of a convergent sequence, it is clear that for each ε > 0 there exists n 0 such
that m, n ≥ n0 ⇒ d (x, xm ) < ε/2 and d (x, xn ) < ε/2 using the properties of the metric we have
ε ε
m, n ≥ n0 ⇒ d (xm , xn ) ≤ d (xm , x) + d (x, xn ) < + =ε
2 2
a sequence with this property is called a cauchy sequence. Thus, any convergent sequence is a cauchy sequence.
The opposite is not necessarily true. As an example let X be the interval (0, 1] the sequence x n = 1/n is a cauchy
sequence but is not convergent since the point 0 (which it wants to converge to) is not in X. Then, convergence
depends not only on the sequence itself, but also on the space in which it lies. Some authors call cauchy sequences
“intrinsically convergent” sequences.
A complete metric space is a metric space in which any cauchy sequence is convergent. The space (0, 1] is not
complete but it can be made complete by adding the point 0 to form [0, 1]. In fact, any non complete metric space
can be completed by adjoining some appropiate points. It is a fundamental fact that the real line, the complex plane
and Rn , C n are complete metric spaces.
We define an open sphere of radius r centered at x 0 as the set of points such that

Sr (x0 ) = {x ∈ X : d (x, x0 ) < r}

and an open set is a subset A of the metric space such that for any x ∈ A there exists an open sphere S r (x) such
that Sr (x) ⊆ A.
For a given subset A of X a point x in X is a limit point of A if each open sphere centered on x contains at
least one point of A different from x.
A subset A is a closed set if it contains all its limit points. There is an important theorem concerning closed
metric subspaces of a complete metric space

Theorem 1.11 Let X be a complete metric space and Y a metric subspace of X. Then Y is complete⇔it is closed.
1.7. NORMED VECTOR SPACES 19

1.7.2. The importance of completeness in quantum mechanics


In quantum mechanics we work in an infinite dimensional vector space of functions in which we shall frequently
encounter series of the form
X∞
cn ψn
n=1

with ψn being functions in our space that describe physical states and c n are some appropiate coefficients. For this
series to have any physical sense, it must be convergent. To analyze convergence we should construct the sequence
of partial sums
( 1 2 3
)
X X X
cn ψn , cn ψn , cn ψn , ...
n=1 n=1 n=1

if this series is “intrisically” convergent the corresponding sequence of partial sums should be a cauchy sequence.
Any series that defines a cauchy sequence has a bounded norm

X

cn ψn < ∞

n=1

it would then be desirable that an intrinsically convergent series given by a superposition of physical states ψ n be
another physical state ψ. In other words, the limit of the partial sums should be within the vector space that describe
our physical states. To ensure this property we should demand completeness of the vector space that describe the
physical states of the system.
On the other hand, it would be usual to work with subspaces of the general physical space. If we want to
guarantee for a series in a given subspace to be also convergent, we should require for the subspace to be complete
by itself, and according to theorem 1.11 it is equivalent to require the subspace to be closed with respect to the
total space. Therefore, closed subspaces of the general space of states would be particularly important in quantum
mechanics.

1.7.3. The concept of continuity and its importance in Physics


The concept of continuity arises naturally for mappings of a metric space into another metric space. Let f be a
mapping of (X, d1 ) into (Y, d2 ) we say that f is continuous at x0 ∈ X if for each ε > 0 there exists δ > 0 such that
d1 (x, x0 ) < δ ⇒ d2 (f (x) , f (x0 )) < ε. This mapping is said to be continuous if it is continuous for each point in its
domain.
Continuity is also an essential property in Physics since for most of physical observables or states we require
some kind of “smoothness” or “well behavior”. Continuity is perhaps the weakest condition of well behavior usually
required in Physics.
We have previously defined isomorphisms as mappings that preserve all structure concerning a general vector
space. It is then natural to characterize mappings that preserve the structure of a set as a metric space

Definition 1.11 If X, Y are two metric spaces with metrics d 1 and d2 a mapping f of X into Y is an isometry if
d1 (x, x0 ) = d2 (f (x) , f (x0 )) ∀x, x0 ∈ X. If there exists an isometry of X onto Y , we say that X is isometric to Y .

It is clear that an isometry is necessarily one-to-one. If X is isometric to Y then the points of these spaces can
be put in a one to one correspondence in such a way that the distance between pairs of corresponding points are the
same. In that sense, isometric spaces are abstractly identical as metric spaces. For instance, if we endow a vector
space V with a metric then another metric vector space V 0 will be identical to V as metric and vector space if and
only if there is an isometric isomorphism between them. Isometry preserves metric (distances) while isomorphism
preserve vector structure (linear operations). Of course a norm-preserving mapping is an isometry for the metric
induced by such a norm. Thus for our purposes norm preserving mappings will be isometries.
20 CAPÍTULO 1. LINEAR OR VECTOR SPACES

1.8. Banach Spaces


From our experience in classical mechanics we have seen that the concept of a vector space is useful especially
when we associate a length to the vectors, this induces the concept of normed vector spaces, the norm in turn induces
a metric i.e. a natural concept of the distance between vectors. Metric structure in turn lead us to the concepts
of convergent sequences and continuity of functions. In particular, the previous discussion concerning completeness
incline us in favor of spaces that are complete. Then we are directly led to normed and complete linear spaces

Definition 1.12 A banach space is a normed and complete vector space

As in any vector space, linear transformations are crucial in the characterization of Banach spaces. Since a notion
of continuity is present in these spaces and continuity is associated with well behavior in Physics, it is natural to
concentrate our attention in continuous linear transformations of a banach space B into itself or into the set of
scalars. Transformations of B into itself will be useful when we want to study posible modifications of the vectors
(for instance the time evolution of the vectors describing the state of the system). On the other hand, transformations
of B into the scalars will be useful when we are interested in connecting the state of a system (represented by a
vector) with a measurement (which is a number).
Before considering each specific type of continuous linear transformation, we should clarify what the meaning
of continuity of a linear transformation is. Since continuity depends on the metric induced on the space, we should
define for a given space of linear transformations on a Banach space B, a given metric. We shall do it by first
defining a norm, specifically we shall define the following norm
kT k = sup {|T (x)| : kxk ≤ 1} (1.11)
We shall refer to the metric induce by this norm when we talk about the continuity of any linear transformation
of a Banach space into itself or into the scalars. It can be shown that for this norm continuity is equivalent to
boundedness.

1.8.1. Continuous linear transformations of a Banach space into scalars


Let us consider first the continuous linear transformations of B into the scalars. This induces the following

Definition 1.13 A real (or complex) functional is a continuous linear transformation of a real (or complex) normed
linear space into R (or C).

Definition 1.14 The set of all functionals on a normed linear space N is called the conjugate space of N and is
denoted by N ∗ .

For the case of general normed spaces (and even for Banach spaces), the structure of their conjugate spaces is in
general very intrincate. However we shall see that conjugate spaces are much simpler when an additional structure
(inner product) is added to Banach spaces.

1.8.2. Continuous linear transformations of a Banach space into itself


Let us discuss now the continuous linear transformations of Banach spaces into themselves.

Definition 1.15 An operator is a continuous linear transformation of a normed space into itself.

A particularly useful result in quantum mechanics is the following

Theorem 1.12 If a one-to-one linear transformation T of a Banach space onto itself is continuous, then its inverse
is automatically continuous

Though we do not provide a proof, it is important to note that this result requires the explicit use of completeness
(it is not valid for a general normed space). We see then that completeness gives us another desirable property in
Physics: if a given transformation is continuous and its inverse exist, this inverse transformation is also continuous.
Let us now turn to projectors on Banach spaces. For general vector spaces projectors are defined as idempotent
linear transformations. For Banach spaces we will required an additional structure which is continuity
1.8. BANACH SPACES 21

Definition 1.16 A projector in a Banach space B, is defined as an idempotent operator on B

The consequences of the additional structure of continuity for projectors in Banach spaces are of particular
interest in quantum mechanics

Theorem 1.13 If P is a projection on a Banach space B, and if M and N are its range and null space. Then M
and N are closed subspaces of B such that B = M ⊕ N

The reciprocal is also true

Theorem 1.14 Let B be a banach space and let M and N be closed subspaces of B such that B = M ⊕ N . If
z = x + y is the unique representation of a vector z in B with x in M and y in N . Then the mapping P defined by
P (z) = x is a projection on B whose range and null space are M and N respectively.

These properties are interesting in the sense that the subspaces generated by projectors are closed subspaces
of a complete space, and then they are complete by themselves. We have already said that dealing with complete
subspaces is particularly important in quantum mechanics.
There is an important limitation with Banach spaces. If a closed subspace M is given, though we can always
find many subspaces N such that B = M ⊕ N there is not guarantee that any of them be closed. So there is not
guarantee that M alone generates a projection in our present sense. The solution of this inconvenience is another
motivation to endow B with an additional structure (inner product).
Finally, the definition of the conjugate N ∗ of a normed linear space N , induces to associate to each operator in
the normed linear space N and operator on N ∗ in the following way. Let us form a complex number c 0 with three
objects, an operator T on N , a functional f on N and an element x ∈ N , we take this procedure: we map x in
T (x) and then map this new element of N into the scalar c 0 through the functional f

x → T (x) → f (T (x)) = c0

Now we get the same number with other set of three objects an operator T ∗ on N ∗ , a functional f on N (the same
functional of the previous procedure) and an element x ∈ N (the same element stated before), the steps are now
the following, we start with the functional f in N ∗ and map it into another functional through T ∗ , then we apply
this new functional to the element x and produce the number c 0 . Schematically it is

f → T ∗ (f ) → [T ∗ (f )] (x) = c0
with this we are defining an apropiate mapping f 0 such that f 0 (x) gives our number. In turn it induces an operator
on N ∗ that maps f in f 0 and this is the newly defined operator T ∗ on N ∗ . In summary this definition reads

[T ∗ (f )] (x) ≡ f (T (x)) (1.12)

where f is a functional on N i.e. an element in N ∗ , T an operator on N and x an element of N . If for a given T we


have that Eq. (1.12) holds for f and x arbitrary, we have induced a new operator T ∗ on N ∗ from T . It can be shown
that T ∗ is also linear and continuous i.e. an operator. When inner product is added to the structure, this operator
becomes much simpler.
By using the norm (1.11) applied to operators on B ∗ we have

kT ∗ k = sup {kT ∗ (f )k : kf k ≤ 1}

it can be proved that


kT ∗ k = kT k (1.13)
such that the mapping T → T ∗ is norm preserving and therefore an isometry, we can also see that

(αT1 + βT2 )∗ = αT1∗ + βT2∗ ; I ∗ = I ; (T1 T2 )∗ = T2∗ T1∗ (1.14)

since linear operations are preserved the mapping T → T ∗ is an isometric isomorphism. However, the product is
reversed under the mappping, this shows that the spaces ß(T ) and ß(T ∗ ) are equivalent as metric and vector spaces
but they are not equivalent as algebras (the spaces are not isomorphic as algebras).
22 CAPÍTULO 1. LINEAR OR VECTOR SPACES

1.9. Hilbert spaces


In R3 it is customary to define a set of three ortonormal vectors u i such that any vector in R 3 can be written
as x = αi ui sum over repeated indices. The dot product is defined such that

x · y ≡ kxk kyk cos θ (1.15)

the dot product is a good mathematical tool for many purposes in solid analytic geometry. If we accept the statement
that the zero vector is orthogonal to every vector we can say that the dot product is null if and only if both vectors
are orthogonal. Let {vi } be a given basis (non necessarily orthonormal) of R 3 ; any two vectors in R3 are expressed
in the form
x = α i vi ; y = β j vj (1.16)
the dot product and the norm of these two vectors can be written

x · y = (αi vi ) · (βj vj ) = αi βj vi · vj ≡ αi βj mij


x · x = kxk2 = (αi vi ) · (αj vj ) = αi αj vi · vj ≡ αi αj mij

These expressions can be in general complicated. Notice that these and other algebraic operations with dot products
become much easier when an orthonormal basis is used since in this case we have m ij = δij so that x · y = αi βi and
x · x = αi αi . These facts put orthonormal basis in a privileged position among other bases.
Further, an attempt of extension of these ideas to C 3 permits to define the inner product in this space in the
following way, given the vectors (1.16) where α and β are complex we define

(x, y) = (α∗i vi ) · (βj vj ) = α∗i βj mij

the conjugate on α appears to obtain the norm of a complex vectors with the inner product of such a vector with
itself, as can be seen by using an orthonormal basis in which m ij = δij

(x, x) = kxk2 = α∗i αi = |αi | |αi |

the simplification above comes from the extension of the concept of orthogonality two complex vectors, they are
orthogonal if and only if (x, y) = 0.
In both the real and complex cases, the concept of orthogonality was very important not only because of the
geometry but also because of the algebra. We observe for instance, that no angle like the one in (1.15) can be defined
in the complex case, but the algebra of inner products continues being simple and useful. On the same ground, we
were able to talk about orthogonality in the complex case via the inner product and exploit the advantages of
orthonormal sets, although two vectors of the complex plane are not “perpendicular”.
In the same way, in abstract vector spaces is not so clear how to use the concept of orthogonality in a geometrical
way, but from the discussion above it is clear that the extension of the concept would represent great simplifications
from the algebraic sense. Notwithstanding, we shall see that the extension of the concept of inner product will also
provide some geometrical interpretations.
As always in mathematics, a natural extension should come from the extrapolation of the essential properties
of the concept in the restricted way, the inner product in the complex and real spaces has the following properties

(x, αy + βz) = α (x, y) + β (x, z) ; (x, y) = (y, x) ∗ ; (x, x) = kxk2

we are led to the following

Definition 1.17 A Hilbert space is a real or complex Banach space whose norm arises from an inner product, which
in turn is defined as a complex function (x, y) of the vectors x and y with the following properties

(x, αy + βz) = α (x, y) + β (x, z)


(x, y) = (y, x) ∗
(x, x) = kxk2
1.9. HILBERT SPACES 23

Definition 1.18 Two vectors x, y in a Hilbert space are said to be orthogonal if (x, y) = 0, we denote it as x ⊥ y.
A vector is said to be normal or unitary if (x, x) = 1.

From the definition the following properties hold


|(x, y)| ≤ kxk kyk (1.17)
2 2 2 2
kx + yk + kx − yk = 2 kxk + 2 kyk (1.18)
2 2 2 2
4 (x, y) = kx + yk − kx − yk + i kx + iyk − i kx − iyk (1.19)
2 2 2 2
x ⊥ y ⇒ kx + yk = kx − yk = kxk + kyk (1.20)
Eq. (1.17) is known as the Schwarz inequality. Eq. (1.18) is known as the paralelogram law because in plane geometry
it reduces to the theorem which says that the sum of the squares of the sides of a paralelogram equals the sum of
the squares of its diagonals. As well as its geometrical interpretation, this law says that only certain Banach spaces
can be converted into Hilbert spaces, only those normed complete spaces in which the norm obeys the paralelogram
law can become a Hilbert space. Further, if for a given norm, the paralelogram law is satisfied, then Eq. (1.19),
gives us the recipe to define an inner product from such a norm. Finally, for reasons easy to visualize Eq. (1.20) is
called the pithagorean theorem.
As a matter of illustration let us prove the paralelogram law Eq. (1.18)
kx + yk2 + kx − yk2 = (x + y, x + y) + (x − y, x − y)

= (x, x + y) + (y, x + y) + (x, x − y) − (y, x − y)


= (x, x) + (x, y) + (y, x) + (y, y) + (x, x) − (x, y) − (y, x) + (y, y)
= (x, x) + (y, y) + (x, x) + (y, y)
= 2 kxk2 + 2 kyk2
A vector x is said to be orthogonal to a non empty set S, if x ⊥ y for all y ∈ S. The orthogonal complement
of S is the set of all vectors orthogonal to S, it is denoted as S ⊥ . Two non empty sets M and N are orthogonal if
x ⊥ y for all x ∈ M and for all y ∈ N ; this is denoted as M ⊥ N . If M is a closed vector subspace of H then M ⊥
is also closed. The following theorems are important for physical purposes

Theorem 1.15 If M and N are closed vector subspaces of a Hilbert space H such that M ⊥ N , then the linear
subspace M + N is also closed

Theorem 1.16 If M is a closed linear subspace of a Hilbert space H, then H = M ⊕ M ⊥

Thus we see that the expansion of the union of closed subspaces preserves the closure property and so the
completeness property too. In addition, theorem 1.16 says that given a closed subspace of H we can always find
a closed subspace to generate H by direct sum. Besides, the closed space that makes the work is the orthogonal
complement. It means that for any given closed subspace M we can define a projection with range M and null
space M ⊥ . Contrast this with the problem arising in Banach spaces in which we cannot guarantee the closure of
the complementary space.

1.9.1. Orthonormal sets


An orthonormal set {ei } in H is a non empty subset of H such that if i 6= j then e i ⊥ ej and kei k = 1 for all
i. this set could be of any cardinality (non necessarily countable). The zero Hilbert space has no orthonormal sets.
The following theorems are of great practical interest

Theorem 1.17 Let {e1 , .., en } be a finite orthonormal set in H. If x is a vector in H we have
n
X
|(ei , x)|2 ≤ kxk2 (1.21)
i=1
Xn
x− (ei , x) ei ⊥ ej ; j = 1, .., n (1.22)
i=1
24 CAPÍTULO 1. LINEAR OR VECTOR SPACES

We can give the following interpretation of this theorem: Eq. (1.21) says that the sum of the components of a
vector in the various orthogonal directions defined by the ortonormal set, cannot exceed the length of the vector.
Similarly, Eq. (1.22) says that if we substract from a vector its components in several perpendicular directions the
resultant has no components left in those directions.
The following theorem shows that the coefficients obtained for a given vector from an orthonormal set are not
arbitrary

Theorem
n 1.18 Ifo {ei } is an orthonormal set in a Hilbert space H, and if x is any vector in H, the set S =
ei : |(ei , x)|2 6= 0 is either empty or countable.

These results permit to extend theorem 1.17 for arbitrary orthonormal sets

Theorem 1.19 Let {ei } be an arbitrary orthonormal set in H. If x is a vector in H we have


X
|(ei , x)|2 ≤ kxk2 (1.23)
X
x− (ei , x) ei ⊥ ej ; j = 1, .., n (1.24)
n o
where the symbol of sum means the following, defining the set S = ei : |(ei , x)|2 6= 0 , we define the sum to be zero
(number or vector) when S is empty. If S is finite, the definitions
P in (1.24, 1.23) coincide with the ones in (1.21,
1.22), if S is countably infinite, the sums become series ∞ n=1 for a given order of the set S = {e1 , .., ei , ..}, in this
case the limit of the series is independent of the order chosen for S.

Definition 1.19 An orthonormal set in H is said to be complete if it is maximal, that is, if it is impossible to add
an element e to the set while preserving the orthonormality in the new set.

Theorem 1.20 Every orthonormal set in a Hilbert space is contained in a complete orthonormal set

Theorem 1.21 Every non-zero Hilbert space contains a complete orthonormal set

Theorem 1.22 Every orthonormal set is linearly independent

Theorem 1.23 Let H be a Hilbert space and {e i } an orthonormal set in H. The following conditions are equivalent
to one another

{ei } is complete (1.25)


x ⊥ {ei } ⇒ x = 0 (1.26)
X
∀x ∈ H⇒x= (ei , x) ei (1.27)
X
∀ x ∈ H ⇒ kxk2 = |(ei , x)|2 (1.28)

This is perhaps the most important theorem in terms of applications in Physics, and in particular quantum
mechanics. It is convenient to discuss some terminology related with it. The numbers (x, e i ) are called the Fourier
coeeficients of x and Eq. (1.27) is its Fourier expansion. Eq. (1.28) is called Parseval’s equation. All these equations
refer to a given complete orthonormal set.
This sequence of theorems are similar to the ones explained in the general theory of vector spaces in which
complete orthonormal sets replaced the concept of bases, and fourier expansions replaced linear combinations.
It is clear that for finite dimensional spaces Fourier expansions become linear combinations. On the other hand,
since orthonormal sets are linearly independent (Theorem 1.22), it is easy to see that in the case of finite dimensional
spaces complete orthonormal sets are linearly independent sets that generate any vector by linear combinations.
Hence, complete orthonormal sets are bases.
For infinite dimensional spaces there is a different story. If we remember that linear combinations are finite by
definition, we see that in this case Fourier expansions are not linear combinations. For a given linearly independent
set to be a basis, it is necessary for any vector of the space to be written as a linear combination of such a set, basis
1.9. HILBERT SPACES 25

certainly exists for Hilbert spaces according to theorem 1.3 but complete orthonormal sets are NOT basis in the
sense defined for the general theory of vector spaces.
Moreover theorem 1.18 shows that the Fourier expansion given in Eq. (1.27) is always countable, this is a
remarkable result because it means that the fourier expansion for a given complete orthonormal set is always a
series, even if the cardinality of the complete orthonormal set is higher than the aleph (cardinality of the integers).
The informal discussion above can be formally proved to produce the following statement

Theorem 1.24 A Hilbert space is finite dimensional if and only if every complete orthonormal set is a basis.

However, owing to the analogy between bases and complete orthonormal sets the following theorem is quite
expected

Theorem 1.25 Any two complete orthonormal sets of a given Hilbert space have the same cardinality.

And this fact induces a natural definition

Definition 1.20 The orthogonal dimension of a Hilbert space H is the cardinality of any complete orthonormal set
in H.

It is important to keep in mind the difference between the dimension and the orthogonal dimension of a Hilbert
space of infinite dimension.

1.9.2. The conjugate space H ∗


We have defined the conjugate space of a Banach space B as the set of all functionals in B i.e. of all linear
continuous mappings of B into the scalars. We said however that the structure of the conjugate spaces of an arbitrary
Banach space is very complex. Fortunately, this is not the case for Hilbert spaces in which the inner product provides
a natural association between H and H ∗ .
Let y be a fixed vector in H and consider the function f y defined by

fy (x) ≡ (y, x) (1.29)

it is easy to prove linearity

fy (αx1 + βx2 ) = (y, αx1 + βx2 ) = α (y, x1 ) + β (y, x2 )


fy (αx1 + βx2 ) = αfy (x1 ) + βfy (x2 )

continuity comes from the Schwarz inequality

|fy (x)| = |(x, y)| ≤ kxk kyk ⇒ |fy (x)| ≤ kyk

then fy is bounded and so continuous. Indeed it can be shown that |f y (x)| = kyk. We then have found an algorithm
to generate some functionals from the mapping
y → fy (1.30)

described above, this is a norm preserving mapping of H into H ∗ . However, it can be shown that indeed this is a
mapping of H onto H ∗ as stated in this

Theorem 1.26 Let H be a Hilbert space, and f an arbitrary functional in H ∗ . Then there exists a unique vector
y ∈ H such that
f (x) = (y, x) ∀x ∈ H
26 CAPÍTULO 1. LINEAR OR VECTOR SPACES

since the mapping (1.30) is norm preserving, we wonder if it is linear, this is not the case because

fy1 +y2 (x) = (y1 + y2 , x) = (y1 , x) + (y2 , x) = fy1 (x) + fy2 (x)
fαy (x) = (αy, x) = α∗ (y, x) = α∗ fy (x)

such that
fy1 +y2 = fy1 + fy2 ; fαy = α∗ fy (1.31)

however the mapping (1.30) is an isometry (it preserves metric) since

kfx − fy k = kfx−y k = kx − yk

we can characterize H ∗ in the following way

Theorem 1.27 H ∗ is a Hilbert space with respect to the inner product defined by (f x , fy ) = (y, x).

1.9.3. The conjugate and the adjoint of an operator


A really crucial aspect of the theory of Hilbert spaces in Physics is the theory of operators (continuous linear
transformations of H into itself), we shall see later that observables in quantum mechanics appear as eigenvalues
of some of these operators.
We have defined the conjugate of an operator for Banach spaces but they are still too general to get a rich
structural theory of operators. The natural correspondence between H and H ∗ will provide a natural relation
between a given operator on H and its corresponding conjugate operator on H ∗ .
Let T be an operator on a Banach space B. We defined an operator on B ∗ denoted T ∗ and called the conjugate
of T by Eq. (1.12)
[T ∗ (f )] (x) = f (T (x)) (1.32)

and Eqs. (1.13, 1.14) says that T → T ∗ is an isometric isomorphism between the spaces of linear operators on H
and H ∗ . We shall see that the natural correspondence between H and H ∗ permits to induce in turn an operator
T † in H from the operator T ∗ in H ∗ . The procedure is the following: starting from a vector y in H we map it into
its corresponding functional fy , then we map fy by the operator T ∗ to get another functional fz then we map this
functional into its (unique) corresponding vector z in H the scheme reads

y → f y → T ∗ fy = f z → z

the whole process is a mapping of y to z i.e. of H into itself. We shall write it as a single mapping of H into itself
in the form
y → z ≡ T †y

the operator T † induced in this way from T ∗ is called the adjoint operator. Its action can be understood in the
context of H only as we shall see. For every vector x ∈ H we use the definition of T ∗ Eq. (1.32) to write

[T ∗ (fy )] (x) = fy (T (x)) = (y, T x)


 
[T ∗ fy ] (x) = fz (x) = (z, x) = T † y, x

so that  
(y, T x) = T † y, x ∀x, y ∈ H (1.33)

we can see that Eq. (1.33) defines T † uniquely and we can take it as an alternative definition of the adjoint operator
associated with T . It can also be verified that T † is indeed an operator, i.e. that it is continuous and linear. We can
also prove the following
1.10. NORMAL OPERATORS 27

Theorem 1.28 The adjoint operation T → T † is a one-to-one onto mapping with these properties
 †
(T1 + T2 )† = T1† + T2† , (αT )† = α∗ T † , T † = T


(T1 T2 )† = T2† T1† ; T † = kT k ; T † T = T T † = kT k2
0∗ = 0 , I ∗ = I (1.34)

If T is non-singular then T † is also non-singular and


 −1 †
T† = T −1

†
Notice for instance that T † = T implies that
 
(T y, x) = y, T † x ∀x, y ∈ H (1.35)

We define the commutator of a couple of operators T 1 , T2 as

[T1 , T2 ] ≡ T1 T2 − T2 T1

this operation has the following properties

[T1 , T2 ] = − [T2 , T1 ] (1.36)


[αT1 + βT2 , T3 ] = α [T1 , T3 ] + β [T2 , T3 ] (1.37)
[T1 , αT2 + βT3 ] = α [T1 , T2 ] + β [T1 , T3 ] (1.38)
[T1 T2 , T3 ] = T1 [T2 , T3 ] + [T1 , T3 ] T2 (1.39)
[T1 , T2 T3 ] = T2 [T1 , T3 ] + [T1 , T2 ] T3 (1.40)

[[T1 , T2 ] , T3 ] + [[T3 , T1 ] , T2 ] + [[T2 , T3 ] , T1 ] = 0 (1.41)


such properties can be proved directly from the definition, Eq. (1.36) shows antisymmetry and Eqs. (1.37, 1.38)
proves linearity. Finally, relation (1.41) is called the Jacobi identity.
It can be seen that the space of operators on a Hilbert space H (called ß(H)) is a Banach space and more
generally a Banach Algebra. This organization permits an elegant theory of the operators on Hilbert spaces.
The theory of quantum mechanics works on a Hilbert space. In addition, the most important operators on the
Hilbert space in quantum mechanics are self-adjoint and unitary operators, which are precisely operators that have
a specific relation with its adjoints.

1.10. Normal operators


 
Definition 1.21 An operator on a Hilbert space H that commutes with its adjoint N, N † = 0 is called a normal
operator

There are two reasons to study normal operators (a) From the mathematical point of view they are the most
general type of operators for which a simple structure theory is possible. (b) they contain as special cases the most
important operators in Physics: self-adjoint and unitary operators.
It is clear that if N is normal then αN is. Further, the limit N of any convergent sequence of normal operators
{Nk } is also normal

† † † †
N N † − N † N ≤ N N † − Nk Nk + Nk Nk − Nk Nk + Nk Nk − N † N


= N N † − Nk Nk† + Nk† Nk − N † N → 0

then N N † − N † N = 0 and N is normal then we have proved


28 CAPÍTULO 1. LINEAR OR VECTOR SPACES

Theorem 1.29 The set of all normal operators on H is a closed subset of ß(H) that is closed under scalar multi-
plication

It is natural to wonder whether the sum and product of normal operators is normal. They are not, but we can
establish some conditions for these closure relations to occur

Theorem 1.30 If N1 and N2 are normal operators on H with the property that either commutes with the adjoint
of the other, the N1 + N2 and N1 N2 are normal.

The following are useful properties for the sake of calculations in quantum mechanics

Theorem 1.31 An operator N on H is normal⇔ kN xk = N † x ∀x ∈ H

Theorem 1.32 If N is a normal operator on H then N 2 = kN k2

1.11. Self-Adjoint operators


We have said that the space of operators on a Hilbert space H (called ß(H)), is a special type of algebra (a
Banach Algebra) which has an algebraic structure similar to the one of the complex numbers, except for the fact
that the former is non-commutative. In particular, both are complex algebras with a natural mapping of the space
into itself of the form T → T † and z → z ∗ respectively. The most important subsystem of the complex plane is
the real line defined by the relation z = z ∗ , the corresponding subsystem in ß(H) is therefore defined as T = T † ,
an operator that accomplishes that condition is called a self-adjoint operator. This is the simplest relation that can
be established between an operator and its adjoint. It is clear that self-adjoint operators are normal. Further, we
already know that 0† = 0 and I † = I thus they are self-adjoint. A real linear combination of self-adjoint operators
is also self-adjoint
(αT1 + βT2 )† = α∗ T1† + β ∗ T2† = αT1† + βT2†
further, if {Tn } is a sequence of self adjoint operators that converges to a given operator T , then T is also self-adjoint

† † † † † †
T − T ≤ kT − T n k + Tn − T n + Tn − T = kT − T n k + kT n − T n k + Tn − T


= kT − Tn k + (Tn − T )† = kT − Tn k + k(Tn − T )k = 2 kT − Tn k → 0

shows that T − T † = 0 so that T = T † this shows the following

Theorem 1.33 The self-adjoint operators in ß(H) are a closed real linear subspace of ß(H) and therefore a real
Banach space which contains the identity transformation

Unfortunately, the product of self-adjoint operators is not necessarily self-adjoint hence they do not form an
algebra. The only statement in that sense is the following

Theorem 1.34 If T1 , T2 are self-adjoint operators on H, their product is self-adjoint if and only if [T 1 , T2 ] = 0

It can be easily proved that T = 0 ⇔ (x, T y) = 0 ∀x, y ∈ H. It can be seen also that

Theorem 1.35 If T is an operator on a complex Hilbert space H then T = 0 ⇔ (x, T x) = 0 ∀x ∈ H.

It should be emphasized that the proof makes explicit use of the fact that the scalars are complex numbers and
not merely the real system.
The following theorem shows that the analogy between self-adjoint operators and real numbers goes beyond the
simple analogy from which the former arise

Theorem 1.36 An operator T on H is self-adjoint⇔ (x, T x) is real ∀x ∈ H.

An special type of self-adjoint operators are the following ones


1.12. UNITARY OPERATORS 29

Theorem 1.37 A positive operator on H is a self-adjoint operator such that (x, T x) ≥ 0, ∀x ∈ H. Further, if
(x, T x) ≥ 0, and (x, T x) = 0 ⇔ x = 0 we say that the operator is positive-definite.

It is clear that the following operators are positive: 0, I, T T † , T † T note also that all the analoguous elements
in the complex plane are non-negative numbers 0, 1, zz ∗ = z ∗ z = |z|2 .

Theorem 1.38 If A is a positive operator then I + A is non-singular

Continuing the analogy between ß(H) and the algebra of complex numbers, we can see that a complex number
can be written as its real and imaginary parts in the form

z + z∗ z − z∗
z = a1 + ia2 ; a1 ≡ , a2 ≡
2 2i
in a similar way we can decompose an arbitrary operator T on H in the form

T + T† T − T†
T = A1 + iA2 ; A1 ≡ ; A2 ≡ (1.42)
2 2i
it is clear that A1 and A2 are self-adjoint so they can be called the “real” and “imaginary” components of the
T operator. If T is self-adjoint its imaginary part is zero as expected. We can see that it is precisely because of the
non commutativity of the self-adjoint operators that non-normal operators exist

Theorem 1.39 If T is an operator on H it is normal ⇔ its real and imaginary parts commute

1.12. Unitary operators


Perhaps the most important subsystem of the complex plane after the real line is the unit circle characterized
by the equation zz ∗ = z ∗ z = |z|2 = 1. This leads to a natural definition of an special subset of the normal operators

Definition 1.22 An operator U on H which satisfies the equation U U † = U † U = I is said to be unitary

Unitary operators are thus the analogues of complex numbers of unitary absolute value. In words, unitary
operators are those non-singular operators whose inverses equal their adjoints, they are thus mappings of H onto
itself. The geometric significance of these operators can be clarified with the following theorem

Theorem 1.40 If T is an operator on H, the following conditions are equivalent to one another

T †T = I (1.43)
(T x, T y) = (x, y) ∀x, y ∈ H (1.44)
kT (x)k = kxk ∀x ∈ H (1.45)

In general an operator T with any of the properties (1.43-1.45), is an isometric isomorphism of H into itself,
since T preserves linear operations, the inner product and the norm (and thus the metric). For finite-dimensional
spaces any of them are necessary and sufficient conditions for T to be unitary. Nevertheless, this is not the case
when we treat with infinite-dimensional spaces, let us see an example: consider the operator T in C ∞ given by

T {x1 , x2 , ...} = {0, x1 , x2 , ...}

which preserves norms but has no inverse. The point is that this is an isometric isomorphism into H but not onto
H (the image does not contain any element of C ∞ with a non-null first component). So in the case of infinite
dimension, the condition to be onto must be added to the conditions (1.43-1.44) for an operator to be unitary.

Theorem 1.41 An operator on H is unitary⇔is an isometric isomorphism of H onto itself.


30 CAPÍTULO 1. LINEAR OR VECTOR SPACES

In words, unitary operators are those one-to-one and onto operators that preserve all structure relevant for a
Hilbert space: linear operations, inner products, norm and metric.
In practice, unitary operators usually appear in Physics as operations that keep the norm of the vectors unaltered
(like rotations in ordinary space), even this is usually the definition utilized in Physics books.
There is another theorem useful in the theory of representations for Hilbert spaces which is also used sometimes
as the definition

Theorem 1.42 An operator T on H is unitary ⇔ T {e i } is a complete orthonormal set whenever {e i } is.

Another important characteristic for physical applications is the following

Theorem 1.43 The set of all unitary operators on H forms a group

1.13. Projections on Hilbert spaces


In Banach spaces we defined projections as idempotent continuous linear trasnformations or equivalently as
idempotent operators. We also saw that a couple of closed subspaces such that B = M ⊕ N induces a projection and
viceversa. We saw however that for a given closed subspace M of B there is not necessarily another closed subspace
such that B = M ⊕ N .
In contrast, theorem 1.16 guarantees that for a given closed subspace M of a Hilbert space H there always exists
a decomposition with another closed subspace in the form H = M ⊕ M ⊥ . Besides, in this decomposition the closed
complementary space is precisely the orthogonal complement of M . Since orthogonality is a very important new
concept that arises from Hilbert spaces, we shall concentrate on projections induced by this particular decomposition.
It is natural then to look for the new features required by a given projection in order to have M as its range and
M ⊥ as its null space

Theorem 1.44 If P is a projection (with the definition given in Banach spaces) on H with range M and null space
N then M ⊥ N ⇔ P = P † and in this case N = M ⊥ .

A projection in which its range and null space are perpendicular is called an orthogonal projection. Indeed,
orthogonal projections are the only ones that are relevant in the theory of operators on Hilbert spaces, then we shall
redefine the concept of projection once again

Definition 1.23 A projection on a Hilbert space will be defined as an idempotent, continuous, and self-adjoint
linear transformation. If idempotent, continuous, non-self adjoint linear transformations are of some use, we call
them non-orthogonal projections.

The following facts are easy to show, 0 and I are projections and they are distinct if and only if H 6= {0}. P is
the projection on M ⇔ I − P is the projection on M ⊥ .
We can also see that
x ∈ M ⇔ P x = x ⇔ kP xk = kxk
it can also be seen that P is a positive operator and kP k ≤ 1.
Sometimes occur in Physics that a given operator T on H maps a proper subspace M of H into itself. The
following chain of definitions permits to study this kind of operators

Definition 1.24 Let T be an operator on H, and M a closed vector subspace of H. M is said to be invariant under
T if T (M ) ⊆ M .

In this case the restriction of T to M can be regarded as an operator of M into itself. A more interesting situation
occurs when M and M ⊥ are invariant under T

Definition 1.25 If both M and M ⊥ are invariant under T , we say that M reduces T or that T is reduced by M .

This situation invites us to study T by restricting its domain to M and M ⊥ . The projections provide the most
relevant information for these scenarios
1.14. BASIC THEORY OF REPRESENTATIONS IN A GENERAL FINITE DIMENSIONAL VECTOR SPACE31

Theorem 1.45 A closed vector subspace M is invariant under an operator T ⇔ M ⊥ is invariant under T †

Theorem 1.46 A closed vector subspace M reduces an operator T ⇔ M is invariant under both T and T †

Theorem 1.47 If P is the projection on a closed vector subspace M of H, M is invariant under an operator
T ⇔ TP = PTP

Theorem 1.48 If P is the projection on a closed vector subspace M of H, M reduces an operator T ⇔ T P = P T

Theorem 1.49 If P and Q are projections on closed linear subspaces M and N then M ⊥ N ⇔ P Q = 0 ⇔ QP = 0

We wonder whether the sum of projections in our present sense is also a projection. This is the case only under
certain conditions

Theorem 1.50 If P1 , .., Pn are projections on closed subspaces M 1 , .., Mn of a Hilbert space H, then the sum
P = P1 + .. + Pn is a projection ⇔the Pi0 s are pairwise orthogonal i.e. Pi Pj = δij Pi , in that case P is the projection
on M = M1 + .. + Mn .

1.14. Basic theory of representations in a general finite dimensional vector


space
In this section we intend to establish an equivalence between abstract objects such as elements of vector spaces
and linear transformations, in a more tangible language suitable for explicit calculations. This is the gist of the
theory of representations for vector spaces

1.14.1. Representation of operators in a given basis


If n is the dimension of a finite-dimensional vector space V , a set of n linearly independent vectors in V , forms a
basis for the vector space. Given a certain ordered basis {u 1 , .., un } in a vector space V any vector can be written
as a linear combination of such a basis, we shall use the convention of sum over repeated indices

x = x i ui (1.46)

The coefficients xi are called the coordinates of the vector x, relative to the ordered basis {u i }. Linear independence
ensures that the set of coordinates (x 1 , .., xn ) is unique when the basis is ordered in a well-defined way.
A mapping T of V into itself, associates each vector x with another vector y in V

y = Tx

if the mapping is one-to-one and onto it admits an inverse 1

x = T −1 y

if the transformation is linear we have

T (αx+βy) = αT x + βT y ∀x, y ∈ V

where α and β are complex numbers. The definition of T is intrinsic and does not depend on the particular basis
chosen for the vector space. Notwithstanding, for many practical purposes we define a representation of both the
vectors and operators in a basis {ui }. In that case, we can describe the action of T by a transformation of coordinates
(in the same basis)
yi = Ti (x1 , x2 , . . . , xn ) i = 1, . . . , n
1
If the mapping is only one-to-one but not onto, the inverse still exist but restricted to the vector subspace in which all the vectors
x ∈ V are mapped.
32 CAPÍTULO 1. LINEAR OR VECTOR SPACES

if Ti admits an inverse we get


xi = Ti−1 (y1 , y2 , . . . , yn ) i = 1, . . . , n
the necessary and sufficient condition for the existence of the inverse is that the jacobian J ≡ ∂T i /∂xj be different
from zero.
On the other hand, if we assume that T is a linear transformation we can write

y = T x = T (xi ui ) = xi T ui (1.47)

Eq. (1.47) says that y is a linear combination of the vectors T u i , and the coefficients of the combination
(coordinates) coincide with the coordinates of x in the basis u i . The vectors T ui must be linear combinations
of {uj } and we denote the coefficients of these linear combinations as T ji

vi ≡ T ui = uj Tji (1.48)

the real or complex coefficients Tji can be organized in a square arrangement of the form
 
T11 T12 · · · T1n
 T21 T22 · · · T2n 
 
T≡ . .. .. 
 .. . ··· . 
Tn1 Tn2 · · · Tnn

this square arrangement symbolized as T is called the matrix representative of the linear transformation T relative
to the ordered basis {ui }. Substituting in Eq. (1.47)

yj uj = uj Tji xi

and since the uj are linearly independent


yj = Tji xi
this operation is represented by the following notation
    
y1 T11 T12 · · · T1n x1
 y2   T21 T22 · · · T2n   x2 
    
 ..  =  .. .. ..   .. 
 .   . . ··· .  . 
yn Tn1 Tn2 · · · Tnn xn
   
y1 T11 x1 + T12 x2 + .. + T1n xn
 y2   T21 x1 + T22 x2 + .. + T2n xn 
   
 ..  =  .. 
 .   . 
yn Tn1 x1 + Tn2 x2 + .. + Tnn xn

and is usually written in the form


y = Tx
the last equality appears in matrix notation where T is the matrix representative of the linear operator T in the
ordered basis ui . Similarly, x and y are the coordinate representatives of the intrinsic vectors in the same ordered
basis. Eq. (1.48) shows clearly how to construct the matrix T, i.e. applying the operator to each vector in the
basis, and writing the new vectors as linear combinations of the basis. The coefficient of the i − th new vector
associated to the j − th element of the basis gives the element T ji in the associated matrix. Observe that for a
matrix representative to be possible, the linearity was fundamental in the procedure.
On the other hand, since we are looking for an isomorphism among linear transformations on V and the set
of matrices (as an algebra), we should define linear operations and product of matrices in such a way that these
operations are preserved in the algebra of linear transformations. In other words, if we denote by [T ] the matrix
representative of T in a given ordered basis we should find operations with matrices such that

[T1 + T2 ] = [T1 ] + [T2 ] ; [αT ] = α [T ] ; [T1 T2 ] = [T1 ] [T2 ]


1.14. BASIC THEORY OF REPRESENTATIONS IN A GENERAL FINITE DIMENSIONAL VECTOR SPACE33

we examine first the product by a scalar, according to the definition (1.7) we have

(αT ) (ui ) = α (T ui ) = α (uj Tji ) = uj (αTji ) ⇒


(αT ) (ui ) = uj (αTji ) ⇒ (uj ) (αT )ji = uj (αTji )

using linear independence we obtain the algorithm for scalar multiplication

(αT )ji = αTji

Now for the sum we use the definition 1.6

(T + U ) uj = T uj + U uj = ui Tij + ui Uij = ui (Tij + Uij ) ⇒


(T + U ) uj = ui (Tij + Uij ) ⇒ ui (T + U )ij = ui (Tij + Uij )

and along with linear independence it leads to

(T + U )ij = (Tij + Uij )

Moreover, for multiplication (composition) we use definition 1.9

(T U ) ui = T (U ui ) = T (uj Uji ) = Uji T (uj ) = Uji (T uj ) = Uji (uk Tkj ) ⇒


(T U ) ui = (Tkj Uji ) uk ⇒ uk (T U )ki = uk (Tkj Uji )

linear independence gives


(T U )ki = Tkj Uji (1.49)
It can be easily shown that the matrix representations of the operators 0 and I are unique and equal in any
basis, they correspond to [0] ij = 0 and [I]ij = δij .
Finally, we can check from Eq. (1.48) that the mapping T → [T ] is one-to-one and onto. It completes the proof
of the isomorphism between the set of linear transformations and the set of matrices as algebras.
On the other hand, owing to the one-to-one correspondence T ↔ [T ] and the preservation of all operations, we
see that non-singular linear transformations (i.e. invertible linear transformations) should correspond to invertible
matrices. We denote T −1 the matrix representative of T −1 , and our goal is to establish the algorithm for this
inverse matrix, the definition of the inverse of the linear transformation is

T T −1 = T −1 T = I

since the representation of the identity is always [I] ij = δij , the corresponding matrix representation of this equation
is    
[T ]ik T −1 kj = T −1 ik [T ]kj = δij (1.50)
this equation can be considered as the definition of the inverse of a matrix if it exists. A natural definition is then

Definition 1.26 A matrix which does not admit an inverse is called a singular matrix. Otherwise, we call it a
non-singular matrix.

Since T −1 is unique, the corresponding matrix is also unique, so the inverse of a matrix is unique when it exists.
A necessary and sufficient condition for a matrix to have an inverse is that its determinant must be non-zero.
The algebra of matrices of dimension n × n is called the total matrix algebra A n , the preceding discussion can
be summarized in the following

Theorem 1.51 if B = {u1 , .., un } is an ordered basis of a vector space V of dimension n, the mapping T → [T ]
which assigns to every linear transformation on V its matrix relative to B, is an isomorphism of the algebra of the
set of all linear transformations on V onto the total matrix algebra A n .

Theorem 1.52 if B = {u1 , .., un } is an ordered basis of a vector space V of dimension n, and T a linear trans-
 matrix relative to B is [a ij ]. Then T is non-singular ⇔ [aij ] is non-singular and in this case
formation whose
[aij ]−1 = T −1 .
34 CAPÍTULO 1. LINEAR OR VECTOR SPACES

1.14.2. Change of coordinates of vectors under a change of basis


We have already seen that any vector space has an infinite number of bases. Notwithstanding, once a given basis
is obtained, any other one can be found by a linearn transformation
o of the original basis.
Let {uj } be our “original” ordered basis and uj any other ordered basis. Each u0i is a linear combination of
0

the original basis


u0i = aij uj i = 1, . . . , n (1.51)
linear independence of {ui } ensures the uniqueness of the coefficients a ij . The naturalnquestion
o is whether we require
any condition on the matrix representation a ij in Eq. (1.51) to ensure that the set u0j be linearly independent.
If we remember that there is a one-to-one correspondence between matrices and linear transformations we see that
aij must correspond to a (unique) linear transformation A. In this notation Eq. (1.51) becomes

u0i = Auj (1.52)


n o
now appealing to theorem 1.9 we see that u0j is a basis if and only if A is non-singular, but A is non-singular if
and only if [A]ij = aij is a non-singular matrix. Thus Eq. (1.52) can be written in matrix notation as

u0 = Au (1.53)

the new set {u0i } is a basis if and only if the matrix A is non-singular. Any vector x can be written in both bases

x = xi ui = x0i u0i = x0i aij uj = x0j aji ui (1.54)

and owing to the linear independence of u i

xi = x0j aji = ãij x0j ; ãij ≡ aji

where ãij ≡ aji indicates the transpose of the matrix A. In matrix form we have
0
u0 = Au , x = Ãx (1.55)

and using Eq. (1.55) we get

x0 = Ã−1 x (1.56)
observe that if the original basis transform to the new one by a non-singular matrix A (Eq. 1.53), the original
g
coordinates transform to the new ones by the matrix Ã−1 (Eq. 1.56). It is easy to show that Ã−1 = A e is
−1 then A

non-singular if and only if A is non-singular. Hence Eq. (1.56) makes sense whenever A is non-singular.
Defining the transpose of a column matrix as

x̃ = (x1 , x2 , . . . , xn )

the Eq. (1.54) can be written as


x = x̃u = x̃0 u0
which gives a convenient notation for the coordinate-form of vectors in different basis.
It is important to emphasize that the vector x has an intrinsic meaning while its coordinates depend on the
basis chosen.

1.14.3. Change of the matrix representative of linear transformations under a change of basis
Let us define an intrinsic equation for a linear transformation T of V into itself

y = Tx (1.57)
1.14. BASIC THEORY OF REPRESENTATIONS IN A GENERAL FINITE DIMENSIONAL VECTOR SPACE35

y and x denote here intrinsic vectors while y, x are their representation in coordinates under a given ordered basis.
Starting with the ordered basis {ui } we write equation (1.57) in matrix form

y = Tx (1.58)

for any other ordered basis {u0i } the matrix and coordinate representatives are different and we write them as

y 0 = T 0 x0 (1.59)

we remark that Eqs. (1.58) and (1.59) represents the same intrinsic Equation (1.57).
Since we know the relation between the coordinate representatives given by Eq. (1.56), our goal here is to know
the relation between the matrix representatives of T . Using Eq. (1.56) we find
−1 −1 −1
  
y0 = Ã−1 y = Ã Tx = Ã TÃÃ x = Ã−1 TÃ Ã−1 x
y 0 = T 0 x0 (1.60)

where we have defined


T0 ≡ Ã−1 TÃ (1.61)
from Eqs. (1.60, 1.61) we see that T0 is the representative matrix of the operator T in the new basis u 0i where
the matrix Ã−1 gives the transformation between coordinates from the old basis to the new one Eq. (1.56). We
remember that A must be non-singular to represent a change of basis.

Definition 1.27 The transform of a matrix A (also called a similarity transformation) by a non singular matrix
S, is defined as A0 = SAS−1 . The matrices A0 and A are said to be equivalent.

Eq. (1.61) shows that the new matrix representation of T (i.e. T 0 ), is equivalent2 to the old matrix representation
T, and the transform of T by Ã−1 is T0 .
We can also consider a transformation S from a vector space V into another V 0

x0 = Sx, x = S −1 x0

For S −1 to be linear, it is necessary that V and V 0 be of the same dimensionality. If a linear operator T is defined in
V , then T and S induce a linear operator in V 0 in the following way let map x0 of V 0 into y0 of V 0 in the following
way
 
x0 → x = S −1 x0 → y = T x = T S −1 x0 → y0 = Sy = S T S −1 x0
hence the mapping x0 → y0 has been performed as
 
x0 → y0 = ST S −1 x0

or course, we can define a mapping T 0 of V 0 into itself that makes the work in a single step, thus
 
T 0 ≡ ST S −1 ; y0 = ST S −1 x0 (1.62)

The transformation given by (1.62) is also a similarity transformation. Although the transformations shown in 1.61
and 1.62 resembles, they have fundamental differences. In 1.61 we are representing the same mathematical object by
taking different bases, and is a matrix equation. By contrast, Eq. (1.62) expresses a relation between two different
mathematical transformations acting on different spaces 3 , and the equation is intrinsic, independent of the basis.
2
Similarity transformations provides an equivalence relation between two matrices. Thus, the expression equivalent matrices becomes
logical. In addition, we see that T and T0 describe the same mathematical object (though in different bases), so that the term equivalence
acquires more sense in this context.
3
It could be argued that both spaces are identical since they have the same dimensionality. This is true only for their properties as
general vector spaces, but not necessarily for any additional algebraic or topological structure on them.
36 CAPÍTULO 1. LINEAR OR VECTOR SPACES

1.15. Active and passive transformations


In Physics, it is important to differentiate between two types of transformations, the passive ones and the active
ones. We can understand passive transformations by examining the transformations y → y 0 , x → x0 and T → T 0
to go from Eq. (1.58) to Eq. (1.59), if we remember that both are representatives of the same intrinsic equation
(1.57) we realize that the mappings described above do not change the vectors or the transformation but only their
representatives. These mappings (called passive mappings) thus correspond to a change in the basis and not to a
change on the mathematical objects by themselves.
In contrast, an active mapping or transformation transforms a mathematical object into another one. For in-
stance, in the first of Eqs. (1.62) we map a linear transformation on V into a different linear transformation on V 0 ,
the mathematical object itself has changed. Similarly the mapping x 0 → y0 through T 0 described by the second of
Eqs. (1.62) is an active transformation because x 0 and y0 are two different vectors.
The difference between a passive and active mappings or transformations should be clear from the context. For
instance Eqs. (1.61) and (1.62) are identical in form from the algebraic point of view, but (1.61) represents a passive
transformation (a change of basis or a change of representation), while (1.62) represents an active one.

1.16. Theory of representations on finite dimensional Hilbert spaces


We shall study n−dimensional Hilbert spaces. We remember that an inner product is a mapping that takes an
ordered pair of vectors x, y in a vector space V, and associates to it a scalar α denoted by α = (x, y) such that

(x, y) = (y, x)∗ ; (x, βy) = β (x, y) ; (x1 + x2 , y) = (x1 , y) + (x2 , y)


(x, x) ≥ 0, and (x, x) = 0 ⇔ x = 0

the definition of the inner product is intrinsic (basis independent). The norm of a vector is defined as kxk 2 ≡ (x, x).
This in turn allows us to normalized the vectors, i.e. construct vectors with norm or “length” equal to one by the
rule
xi xi
ui = p = (1.63)
(x, x) kxi k
such that (ui , ui ) = 1. Different inner products defined into the same vector space, lead to different Hilbert spaces.
Another important concept that arises from the inner product is that of orthogonality. An orthonormal set is a set
{xi } with xi ∈ H such that
(xi , xj ) = δij
The theory of representations of a finite dimensional Hilbert space is particularly simple if we realize that in finite
dimension, the Fourier expansion given by Eq. (1.27) becomes a linear combination, the series in (1.28) to calculate
the norm becomes a finite sum, and finally complete orthonormal sets become bases. These are the main ideas that
lead to the theory of representations in a Hilbert space
Our first goal is to find the way in which the coordinates of a given vector are obtained from the inner product.
We first see the form of the coordinates when the basis consists of a complete orthonormal basis. Rewriting the
Fourier expansion (1.27) in finite dimension and using sum over repeated indices we have

x = (ui , x) ui = xi ui

so the coordinate of a vector x associated with the normal vector u i is given by

xi = (ui , x)

Let us now see how an arbitrary inner product can be calculated using an orthonormal basis

(x, y) = (xi ui , yj uj ) = x∗i yj (ui , uj ) = x∗i yj δij = x∗i yi (1.64)

the norm of a vector is also easily seen as

kxk2 = (x, x) = x∗i xi = |xi | |xi | (1.65)


1.16. THEORY OF REPRESENTATIONS ON FINITE DIMENSIONAL HILBERT SPACES 37

if the basis {vi } is not an orthonormal set, we can express the scalar product by determining the numbers

mij ≡ (vi , vj ) (1.66)

the properties of the inner product lead to m ij = m∗ji . This numbers form a matrix that we shall call the metric
matrix. Defining (Aij )† ≡ A∗ji (the adjoint or hermitian conjugate of the matrix A) we find that m = m † , from
the definition of the adjoint matrix we see that (AB) † = B† A† . A matrix that coincides with its adjoint is called
self-adjoint or hermitian. The metric matrix is hermitian. We shall see now that knowing the metric matrix in a
certain basis, we can find any possible inner product

(x, y) = (xi vi , yj vj ) = x∗i yj (vi , vj ) = x∗i yj mij


(x, y) = x† my

and the norm becomes


(x, x) = x∗i mij xj = x† mx (1.67)
representing x as a one column matrix, x † is a one row matrix with the coordinates conjugated. The quantities of
the form x† Ay, with A hermitian, are called hermitian forms. If additionally we impose that x † Ax ≥ 0, we have a
positive definite hermitian form4 .

Gram-Schmidt process for orthonormalization of linearly independent sets


From the previous discussion, it is very clear that complete orthonormal sets posses many advantages with
respect to other sets of linearly independent vectors. It leads us to study the possibility of finding an orthonormal set
from a given set of linearly independent vectors in a Hilbert space. The so-called Gram-Schmidt orthonormalization
process starts from an arbitrary set of independent vectors {x 1 , x2 , .., xn , ...} on H and exhibits a recipe to construct
a corresponding orthonormal set {u1 , u2 , .., un , ...} with the property that for each n the vector subspace spanned
by {u1 , u2 , .., un } is the same as the one spanned by {x1 , x2 , .., xn }.
The gist of the procedure is based on Eqs. (1.24, 1.63). We start by normalizing the vector x 1
x1
u1 =
kx1 k

now we substract from x2 its component along u1 to obtain x2 − (u1 , x2 ) u1 and normalized it

x2 − (u1 , x2 ) u1
u2 =
kx2 − (u1 , x2 ) u1 k

it should be emphasized that x2 is not a scalar multiple of x1 so that the denominator above is non-zero. It is clear
that u2 is a linear combination of x1 , x2 and that x2 is a linear combination of u1 , u2 . Therefore, {u1 , u2 } spans the
same subspace as {x1 , x2 }. The next step is to substract from x 3 its components in the directions u1 and u2 to get
a vector orthogonal to u1 and u2 according with Eq. (1.24). Then we normalize the result and find

x3 − (u1 , x3 ) u1 − (u2 , x3 ) u2
u3 =
kx3 − (u1 , x3 ) u1 − (u2 , x3 ) u2 k

once again {u1 , u2 , u3 } spans the same subspace as {x1 , x2 , x3 }. Continuing this way we clearly obtain an orthonor-
mal set {u1 , u2 , .., un , ...} with the stated properties.
Many important orthonormal sets arise from sequences of simple functions over which we apply the Gram-
Schmidt process
In the space L2 of square integrable functions associated with the interval [−1, 1], the functions x n (n = 0, 1, 2, ..)
are linearly independent. Applying the Gram Schmidt procedure to this set we obtain the orthonormal set of the
Legendre Polynomials.
4
An inner product guarantees that the hermitian form constructed with the metric matrix are positive-definite. However, it is usual
in relativity to define a pseudo-metric that leads to non positive definite hermitian forms. Observe that the metric tensor in relativity
has some negative diagonal elements which would be forbidden if they arose from an authentic inner product.
38 CAPÍTULO 1. LINEAR OR VECTOR SPACES

2
In the space L2 of square integrable functions associated with the entire real line, the functions x n e−x /2 (n =
0, 1, 2, ..) are linearly independent. Applying the Gram Schmidt procedure to this set we obtain the normalized
Hermite functions.
In the space L2 associated with the interval [0, +∞), the functions x n e−x (n = 0, 1, 2, ..) are linearly independent.
Orthonormalizing it we obtain the normalized Laguerre functions.
Each of these orthonormal sets described above can be shown to be complete in their corresponding Hilbert
spaces.

1.16.1. Linear operators in finite dimensional Hilbert spaces


First of all let us see how to construct the matrix representation of a linear operator by making profit of the
inner product. Eq. (1.48) shows us how to construct the matrix representation of T in a given basis by applying the
operator to each element ui of such a basis

T ui = uj Tji ⇒ (uk , T ui ) = (uk , uj Tji )


⇒ (uk , T ui ) = Tji mkj

if the basis is orthonormal then mkj = δkj and

Tki = (uk , T ui ) (1.68)

Eq. (1.68) gives the way to construct an element of the matrix representative of an operator T on H through the
inner product and using an orthonormal basis.
Now we turn to the problem of finding a relation between the matrix representative of an operator and the
matrix representative of its adjoint. If we have a linear operator T on a Hilbert space, another operator called its
adjoint and denoted as T † exists such that
 
(T x, y) = x, T † y ∀x, y ∈ V

the matrix representative of T † has a rather simple relation with the matrix representative of T when an orthonormal
basis is used
(T (xi ui ) , yk uk ) = (xi T (ui ) , yk uk ) = x∗i yk (T ui , uk )
and using (1.48) we find
x∗i yk (uj Tji , uk ) = x∗i yk Tji∗ δjk = x∗i yk Tki

= x∗i Teik

yk
on the other hand we have    
x, T † y = x∗i T † yk
ik
and taking into account that x and y are arbitrary, we have
 
T† = Teik
∗ e∗
⇒ T† = T (1.69)
ik

and so the matrix representative of T † is the conjugate transposed of the matrix representative of T . Once again, it is
important to emphasize that it is only valid in an orthonormal basis, it can easily be proved that for an arbitrary basis
described by the metric matrix m, the matrix representation of T † is m−1 T e ∗ m. Remembering that an operator
is hermitian or self-adjoint if it coincides with its adjoint operator (T = T † ) i.e. (T x, y) = (x, T y) , ∀x, y ∈ V,
we conclude that in an orthonormal basis, hermitian operators are represented by hermitian matrices.
In particular, the form to calculate the norm described in (1.65), is usually taken for granted and is easy to
forget that it only applies in orthonormal bases as we can see from (1.67). This is because the coordinates of a
vector with respect to {vi } are not given by Fourier coefficients of the form described in Eq. (1.27)
Now assume that we go from an orthonormal basis u i into another orthonormal basis u0i . We know from theorem
1.42 that a linear operator is unitary if and only if it transforms a complete orthonormal set into another complete
orthonormal set, then if A is a unitary operator we have

δij = (Aui , Auj ) = u0i , u0j = (uk aki , um amj ) = a∗ki amj (uk , um ) = a∗ki amj δkm
δij = a∗ki akj = e
a∗ik akj
1.17. DETERMINANTS AND TRACES 39

so the matrix of transformation from u i into u0i accomplishes

A† A = 1

now, if we demand for the matrix to be non-singular it must have a unique inverse such that

A† A = AA† = 1

therefore a matrix that transform an orthonormal basis into another orthonormal basis must satisfy

A† = A−1

by theorem 1.51 these matrices are associated with unitary operators as long as we use an orthonormal basis, thus
it is natural to call them unitary matrices.

1.17. Determinants and traces


A very important property of any matrix is its determinant denoted by |A| and is a real or complex number
associated with the matrix. Its construction was primarily motivated by the study of simultaneous linear equations.
We assume that the reader is familiarized with the concept and the calculation of this quantity. We have mentioned
that a matrix admits an inverse if and only if its determinant is non-null. This is because the inverse of a matrix
A depends on |A|−1 . The determinant of the transpose coincides with the determinant of the matrix

e
A = |A| (1.70)

a for the conjugate matrix (in which we conjugate each of its elements) we get

|A∗ | = |A|∗ (1.71)

Additionally it can be demostrated that the determinant of the product is the product of the determinants

|AB| = |A| · |B| (1.72)

and since the determinant of the identity is 1 we get



1 = |1| = AA−1 = |A| · A−1

so that −1
A = |A|−1 (1.73)
if any row or column is multiplied by a scalar α, the determinant is also multiplied by the scalar. For example in
three dimensions
     
α a11 α a12 α a13 a11 α a12 a13 a11 a12 a13

 a21 a22 a23     a22 a23 
= a21 α a22 a23 = α a21 (1.74)
a31 a32 a33 a31 α a32 a33 a31 a32 a33

so that if we multiply an n × n matrix by a scalar, the determinant is

|αA| = αn |A| (1.75)

in particular
|−A| = (−1)n |A| (1.76)
another important property is the trace of the matrix defined as the sum of its diagonal elements

T rA = aii (1.77)
40 CAPÍTULO 1. LINEAR OR VECTOR SPACES

we emphasize the sum over repeated indices. We prove that

T r [AB] = T r [BA] (1.78)

in this way
T r [AB] = (AB)ii = aik bki = bki aik = (BA)kk = T r [BA]
it is important to see that the trace is cyclic invariant, i.e.
h i h i
T r A(1) A(2) . . . A(n−2) A(n−1) A(n) = T r A(n) A(1) A(2) . . . A(n−2) A(n−1)
h i
= T r A(n−1) A(n) A(1) A(2) . . . A(n−2) (1.79)

and so on. To prove it, we define


B ≡ A(1) A(2) . . . A(n−1)
so that
h i h i h i h i
T r A(1) A(2) . . . A(n−2) A(n−1) A(n) = T r BA(n) = T r A(n) B = T r A(n) A(1) A(2) . . . A(n−2) A(n−1)

and taking into account that the indices (1) , (2) , ... are dumb, any cyclic change is posible. It worths saying that
property (1.78) does not mean that the matrices can be commuted to calculate the trace, for instance for three or
more matrices the trace is not the same for any order of the matrices, only cyclic changes are possible. In that sense,
we should interpret (1.78) as a cyclic change and not as a commutation.
But the most important properties of the traces and determinants is that they are invariant under a similarity
transformation
0
A = BAB−1 = |B| · |A| · B−1 = |B| · |A| · |B|−1

⇒ A0 = |A|

where we have used (1.72) and (1.73).


Now for the invariance of the trace
n
    X  X X
T r A0 = T r BAB−1 = BAB−1 ii = bik akl b̄li = b̄li bik akl
i=1 ikl ikl
X X
= δkl akl = akk = T rA
kl k

alternatively we can see it by using the cyclic invariance of the trace(see Eq. 1.79), such that
     
T r A0 = T r BAB−1 = T r B−1 BA = T rA

the invariance of determinants and traces under similarity transformations are facts of major importance because
all representations of a given linear transformation are related each other by similarity transformations. It means
that determinants and traces are intrinsic quantities that can be attributed to the linear trasnformations thus

Definition 1.28 We define the trace and the determinant of a given linear transformation of V into itself by
calculating the trace and determinant of the matrix representative of the linear transformation in any basis.

1.18. Rectangular matrices


A rectangular matrix is an arrangement of numbers consisting of m rows and n columns. In that case we say
that the matrix has dimensions m × n. The elements of such a matrix will be of the form

(A)ik = aik ; i = 1, . . . , m ; k = 1, . . . , n
1.19. THE EIGENVALUE PROBLEM 41

the transpose of this matrix would have dimensions n × m. A column vector arrangement (from now on, we shall
call it simply a “vector”, though it is not neccesarily a vector in all the sense of the word) is a rectangular matrix
of dimension m × 1, its transpose (a row “vector”) is a rectangular matrix of dimensions 1 × m.
Now, it would be desirable to extrapolate the algorithm of square matrices composition to calculate products of
rectangular matrices
cij ≡ aik bkj
It is observed that this extrapolation of the matrix product to the case of rectangular matrices C = AB, can be
defined consistently only if the number of columns of A coincides with the number of rows of B.

AB = C if A ≡ Am×n and B ≡ Bn×d ⇒ Cm×d

In particular, the product of a column vector (m × 1 matrix) with a m × m matrix in the form xA cannot be
defined. Nevertheless, the product of the transpose of the vector (row vector) and the matrix A in the form xeA
can be defined. In a similar fashion, the product Ae
x cannot be defined but Ax can. From these considerations the
quantities Ax and x eA correspond to a new column vector and a new row vector respectively.
From the dimensions of the rectangular matrices we see that

e n×m and Bn×d ⇒ B


Am×n ⇒ A e d×n
and the product AB is defined. However, their transposes can only be multiplied in the opposite order, i.e. in the
e A.
order B e Indeed, it is easy to prove that, as in the case of square matrices, the transpose of a product is the
product of the transpose of each matrix in the product, but with the product in the opposite order. Applying this
property it can be seen that
] =x
(Ax) e
eA ; ]
(e
xA) = Axe
where we have taken into account that the transpose of the transpose is the original matrix.

1.19. The eigenvalue problem


If T is a linear transformation on a vector space of finite dimension n, the simplest thing that the linear
transformation can do to a vector is to produce a “dilation” or “contraction” on it, eventually changing the “sense”
of the “arrow” but keeping its “direction”. In algebraic words, certain vectors can be transformed into a scalar
multiple of itself. If x is a vector in H this operation is given by

T x = λx (1.80)

a non-zero vector x such that Eq. (1.80) holds, is called an eigenvector of T , and the corresponding scalar λ is
called an eigenvalue of T . Each eigenvalue has one or more eigenvectors associated with it and to each eigenvector
corresponds a unique eigenvalue.
Let us assume for a moment that the set of eigenvalues for a given T is non-empty. For a given λ consider the
(λ)
set M of all its eigenvectors together with the vector 0 (which is not an eigenvector), we denote this vectors as x i .
M is a linear subspace of H, we see it by taking an arbitrary linear combination of vectors in M
     
(λ) (λ) (λ) (λ)
T αi xi = α i T xi = αi λxi = λ αi xi ⇒
   
(λ) (λ)
T αi xi = λ αi xi

such that a linear combination is also an eigenvector with the same eigenvalue. Indeed, for Hilbert spaces it can
be shown that M is a closed vector subspace of H. As any vector space, M has many basis and if H is finite
dimensional, complete orthonormal sets are basis. The dimension of M is thus the maximum number of linearly
independent eigenvectors associated with λ. M is called the vector eigenspace generated by the eigenvalue λ. This
discussion induces the following

Definition 1.29 A given eigenvalue λ in Eq. (1.80) is called n−fold degenerate if n is the dimension of the
eigenspace M of H generated by λ. In other words, n is the maximum number of linearly independent eigenvectors
of λ. If n = 1 we say that λ is non-degenerate.
42 CAPÍTULO 1. LINEAR OR VECTOR SPACES

Even for non-degenerate eigenvalues we always have an infinite number of eigenvectors, for if x (λ) is an eigen-
vector, then αx(λ) is also an eigenvector for any scalar α. Eq. (1.80) can be written equivalently as
(T − λI) x = 0 (1.81)
we return to the problem of the existence of eigenvalues, the operator T on C ∞ given by
T {x1 , x2 , ...} = {0, x1 , x2 , ...}
is an operator on a Hilbert space that has no eigenvalues. We confront then the problem of characterizing the type
of operators that admit eigenvalues. In the finite dimensional case, we shall see that the theory of representations
and the fundamental theorem of algebra ensures the existence of eigenvalues for an arbitrary operator.

1.19.1. Matrix representative of the eigenvalue problem


The one to one correspondence between matrices and operators in the finite dimensional case permits to make
a matrix representation of the eigenvalue equation (1.80). Let T be the n × n matrix associated with the operator
T and x the column vector representative of x (an n × 1 matrix). Eq. (1.80) is written as
Tx = λx (1.82)
which is the eigenvalue equation associated with the matrix. The idea is trying to solve for the eigenvalues and
eigenvectors in a given representation. The values λ are in general complex. According with our previous discussion
the eigenvalue is the “dilatation”or “contraction” factor, if it is a negative real number it “inverts the sense of the
arrow”. Let us rewrite the eigenvalue equation as
(T − λ1) x = 0 (1.83)
for simplicity we shall use n = 3 but the arguments are valid for arbitrary finite dimensions. In three dimensions
the explicit form of (1.83) becomes
(T11 − λ) X1 + T12 X2 + T13 X3 = 0
T21 X1 + (T22 − λ) X2 + T23 X3 = 0
T31 X1 + T32 X2 + (T33 − λ) X3 = 0 (1.84)
This set of homogeneous equations for X 1 , X2 , X3 has non trivial solution only if the determinant of the system is
null, therefore
T11 − λ T12 T13

|T − λ1| = T21 T22 − λ T23 = 0 (1.85)
T31 T32 T33 − λ
this condition is known as the secular or characteristic equation of the matrix. The variables to be found are
the eigenvalues λ associated with the matrix. It worths saying that even if non-trivial solutions exist, the set of
homogeneous equations (1.84) do not give us definite values for all the components of the eigenvectors but only for
the quotient among these components. This can be understood either from algebraic or geometric arguments. From
the algebraic point of view, it is related with the fact that the product of the eigenvector x with any scalar is also an
eigenvector, this can be seen inmediately from (1.83) 5 . Geometrically, this implies that only the “direction” of the
eigenvector is determined but not its “length” neither its “sense”. This is particularly apparent in three dimensions.
Since T represents a linear transformation, it is clear that if T preserves the direction of x i.e. Tx = λx it also
preserves the “direction” of the vector αx for α arbitrary.
When the determinant (1.85) is expanded, we observe that the solution of the secular equation reduces to finding
the roots of a polynomial of n degree. Appealing to the fundamental theorem of algebra we always have exactly n
complex roots, some of them could be repeated so that we could have fewer than n distinct roots. In general we can
construct no more than n linearly independent vectors x k each one associated with an eigenvalue λ k . By now, the
set of eigenvalues are associated to a matrix, but in order to associate it to its corresponding operator, we should
be sure that the set of eigenvalues is the same for any representation of the operator i.e. that all equivalent matrices
have the same set of eigenvalues
5
Alternatively, this can be seen form the fact that the secular equation only has non-trivial solution when one or more of the equations
is linearly dependent with the others. In such a case there are more variables than equations and hence an infinite number of solutions.
1.19. THE EIGENVALUE PROBLEM 43

Theorem 1.53 If two n × n matrices are equivalent i.e. T 0 = ST S −1 then both have the same set of eigenvalues.

In summary, the fundamental theorem of Algebra together with the intrinsic meaning of the set of eigenvalues,
solves the problem of the existence of eigenvalues for linear transformations on finite-dimensional vector spaces.

Definition 1.30 The set of eigenvalues of T is called its spectrum and is denoted by σ (T ).

Theorem 1.54 If T is an arbitrary linear transformation on a finite dimensional complex vector space, the spectrum
of T constitute a non-empty finite subset of the complex plane. The number of elements in this subset does not exceed
the dimension n of the space.

Some other important theorems related with the set of eigenvalues are the following

Theorem 1.55 T is singular ⇔ 0 ∈ σ (T ).



Theorem 1.56 If T is non-singular, then λ ∈ σ (T ) ⇔ λ −1 ∈ σ T −1

More information about the spectral resolution of some types of operators in a Hilbert space will be given by
means of the spectral theorem. By now, we turn to the problem of the sets of eigenvectors and its relation with the
canonical problem of matrices.

1.19.2. Eigenvectors and the canonical problem of matrices


Since we can have many representations of a given operator by changing basis, many matrix representatives
can be constructed. It is natural to wonder whether it is posible to choose the basis in such a way that the matrix
representative is as simple as possible. In practice, the simplest matrices are diagonal matrices i.e. matrices for
which Tij = 0 for i 6= j. Thus, we are looking for a basis under which the matrix representative of a given operator
T is diagonal. Starting with a given basis {u i } we obtain a matrix representative of T (denoted by T), we wonder
whether there exists another basis {u 0i } for which the matrix representative T 0 of T is diagonal. From Eqs. (1.53,
1.61) we see that T and T0 are related by a similarity transformation that also gives us the transformation among
the bases
u0 = Au ; T0 = A e −1 TAe (1.86)
We shall see that for finite dimensional matrices, the canonical problem of matrices is intimately related with
the structure of its eigenvectors. Let us consider the representation X k of the eigenvectors of T with respect to the
original basis {ui }. We denote the i−th coordinate of the k−th eigenvector in the form X ik (with respect to the
original basis). We are able to settle an square arrangement with this eigenvectors, putting them aside as column
vectors. In three dimensions, such an arrangement has the form
 
X11 X12 X13
X ≡ (X1 X2 X3 ) =  X21 X22 X23  (1.87)
X31 X32 X33

Eqs. (1.83) are written for each eigenvalue λ k and its corresponding eigenvector X k in the form

(T − λk 1) Xk = 0 ⇒ TXk = λk Xk no sum over k (1.88)

writing Eqs. (1.88) in components with respect to the basis {u i } we get (for n dimensions)
n
X
Tij Xjk = λk Xik ⇒
j=1
Xn n
X
Tij Xjk = Xij δjk λk (1.89)
j=1 j=1
44 CAPÍTULO 1. LINEAR OR VECTOR SPACES

in the two previous equations there is no sum over the repeated index k. The X jk element is the j−th component of
the Xk vector. Now, the quantity δjk λk can be associated with a diagonal matrix, in three dimensions this matrix
is written as  
λ1 0 0
λ ≡  0 λ2 0  (1.90)
0 0 λ3
in matrix form Eq. (1.89) reads
TX = Xλ
multiplying on left by X−1 we find
X−1 TX = λ (1.91)
it corresponds to a similarity transformation acting on T. Note that the matrix X built from the eigenvectors is the
transformation matrix (comparing with 1.86 we have X ≡ A). e We see then that matrix T is diagonalized by X by
means of a similarity transformation and the elements of the diagonal correspond to the eigenvalues (λ k associated
with the column vector Xk of the matrix X in Eq. 1.87). When there are some degenerate eigenvalues i.e. some
of them acquire the same value, it is not always possible to diagonalize the matrix T. It is because in that case,
the eigenvectors that form the matrix X are not necessarily linearly independent. If any given column vector of the
matrix is linearly dependent with the others, the determinant of X is zero and X −1 does not exist.
On the other hand, when diagonalization is possible, the determinant and the trace of T can be calculated taking
into account that such quantities are invariant under a similarity transformation, therefore
 
det T = det X−1 TX = det λ = λ1 λ2 . . . λn (1.92)
 
T rT = T r X−1 TX = T rλ = λ1 + λ2 + . . . + λn (1.93)

so that the determinant and the trace of a diagonalizable matrix are simply the product and sum of its eigenvalues
respectively.
In summary, a canonical form of a given matrix can be obtained as long as the eigenvectors of the matrix form
a basis, the question is now open for the conditions for the eigenvectors to form a basis, and this is part of the
program of the spectral theorem.

1.20. Normal operators and the spectral theorem


Let T be an operator on a finite-dimensional Hilbert space H. By theorem 1.54 the spectrum σ (T ) is a non-
empty finite set of complex numbers with cardinality less than or equal to the dimension n of H. Let λ 1 , .., λm be
the set of distinct eigenvalues; let M 1 , .., Ṁm be their corresponding eigenspaces; and let P 1 , .., Pm be the projections
on these eigenspaces. The spectral theorem is the assertion that the following three statements are equivalent to
one another
I) The Mi0 s are pairwise orthogonal and H = M1 ⊕ ...⊕.Mm
P Pm
II) The Pi0 s are pairwise orthogonal, I = m i=1 Pi , and T = i=1 λi Pi .
III) T is normal.
The assertion I) means that any vector x ∈ H can be expressed uniquely in the form

x = x1 + .. + xm ; xi ∈ Mi ; (xi , xj ) = 0 f or i 6= j (1.94)

applying T on both sides and using linearity

T x = T x1 + .. + T xm = λ1 x1 + .. + λm xm (1.95)

this shows the action of T on each element of H in an apparent pattern from the geometrical point of view. It is
convenient to write it in terms of projections on each M i . Taking into account that Mj ⊆ Mi⊥ for each i and for
every j 6= i we obtain from Eq. (1.94) that
Pi x = x i
1.20. NORMAL OPERATORS AND THE SPECTRAL THEOREM 45

from which it follows

Ix = x = x1 + .. + xm = P1 x + .. + Pm x
Ix = (P1 + .. + Pm ) x ; ∀x ∈ H

therefore
m
X
I= Pi (1.96)
i=1

and relation (1.95) gives

T x = λ1 x1 + .. + λm xm = λ1 P1 x + .. + λm Pm x
T x = (λ1 P1 + .. + λm Pm ) x ; ∀x ∈ H

hence
m
X
T = λi Pi (1.97)
i=1

Eq. (1.97) is called the spectral resolution of the operator T . In this resolution it is to be understood that all the λ 0i s
are distinct and that the Pi0 s are non-zero projections which are pairwise orthogonal and satisfy condition (1.96).
It can be shown that the spectral resolution is unique when it exists.
Now, we look for the conditions that the operator must satisfies to be decomposed as Eq. (1.97). From Eq. (1.97)
we see that
T † = λ∗1 P1 + . . . + λ∗m Pm (1.98)
and multiplying (1.97) with (1.98) and using the fact that the P i0 s are pairwise orthogonal we have
m
! m ! m Xm m Xm
X X X X
TT† = λi Pi λ∗k Pk = λi λ∗k Pi Pk = λi λ∗k Pi2 δik
i=1 k=1 i=1 k=1 i=1 k=1
m
X
TT† = |λk |2 Pk (1.99)
k=1

and multiplying in the opposite order we obtain the same result


m
X
T †T = |λk |2 Pk (1.100)
k=1

from which we see that h i


T, T † = 0

and the operator must be normal. We have proved that I)→II)→III). To complete the proof we should show that
III)→I) i.e. that every normal operator T on H satisfies conditions I).
This task is accomplished by the following chain of theorems

Theorem 1.57 If T is normal, x is an eigenvector of T with eigenvalue λ ⇔ x is an eigenvector of T † with


eigenvalue λ∗ .

Theorem 1.58 If T is normal the Mi0 s are pairwise orthogonal

Theorem 1.59 If T is normal, each Mi reduces T .

Theorem 1.60 If T is normal, the Mi0 s span H.

For most of applications theorem 1.58 is rewritten as


46 CAPÍTULO 1. LINEAR OR VECTOR SPACES

Theorem 1.61 If T is normal, two eigenvectors of T corresponding to different eigenvalues are orthogonal. In
particular this is valid for self-adjoint and unitary operators.

Assume that T = T † , since for a given eigenvector x there is a unique eigenvalue λ we see from theorem 1.57
that λ = λ∗ so the corresponding eigenvalues are real. Now assume for a normal operator T that σ (T ) is a subset
of the real line, using the spectral resolution of T † Eq. (1.98) we find
T † = λ∗1 P1 + . . . + λ∗m Pm = λ1 P1 + . . . + λm Pm = T
we have the following

Theorem 1.62 Let T be a normal operator on a Hilbert space of finite dimension H with distinct eigenvalues
{λ1 , .., λm }, then T is self-adjoint ⇔each λi is real.

It is important to emphasize that the hypothesis of real eigenvalues leads to the self-adjointness of the operator
only if normality is part of the hypothesis (because of the use of the spectral thoerem). It does not discard the
possibility of having non-normal operators with real spectrum, in that case such operators would not be self-adjoint.
In addition, it worths remembering that self-adjoint operators where constructed as the analogous of “the real line
subset” in the algebra of operators. So the fact that its eigenvalues are all real is a quite expected result.
An special type of self-adjoint operators are the positive operators for which
(x, T x) ≥ 0 ∀x ∈ H (1.101)
applying the spectral resolution of T on x i ∈ Mi , we have
m
X m
X
T xi = λk Pk xi = λk xi δik = λi xi
k=1 k=1

and using it in Eq. (1.101) we find


(xi , T xi ) = (xi , λi xi ) = λi (xi , xi ) ≥ 0 no sum over i
λi kxi k2 ≥ 0 ⇒ λi ≥ 0
on the other hand, by assuming that a normal operator T has a real non-negative spectrum we obtain
n
! n n
! n X n n X
n
X X X X X
(x, T x) = x, λi Pi x = xk , λi xi = λi (xk , xi ) = λi δki
i=1 k=1 i=1 k=1 i=1 k=1 i=1
n
X
(x, T x) = λk ≥ 0
k=1

we see then that

Theorem 1.63 Let T be a normal operator on a Hilbert space of finite dimension H with distinct eigenvalues
{λ1 , .., λm }, then T is positive ⇔ λi ≥ 0.

Now, for a normal operator T , a necessary and sufficient condition for T to be unitary is that T † T = I (in finite
dimension is not necessary to show that T T † = I) using Eq. (1.99) the condition for unitarity is
m
X m
X m
X
T †T = I ⇒ |λk |2 Pk = I ⇒ |λk |2 Pk = Pk
k=1 k=1 k=1

multiplying by Pi and using the pairwise orthogonality of projectors


m
X m
X
2
|λk | Pk Pi = Pk Pi ⇒ |λi |2 Pi2 = Pi2 ⇒ |λi |2 Pi = Pi
k=1 k=1

so that |λi | = 1. This procedure also shows that if T is a normal operator in which |λ i | = 1 for each i, then T T † = I
and T is unitary, then we have
1.20. NORMAL OPERATORS AND THE SPECTRAL THEOREM 47

Theorem 1.64 Let T be a normal operator on a Hilbert space of finite dimension H with distinct eigenvalues
{λ1 , .., λm }, then T is unitary ⇔ |λi | = 1 for each i.

Now, remembering that unitary operators where constructed as the analogous of “the unitary circle subset” in
the algebra of operators, the fact that its eigenvalues lie in the unitary circle of the complex plane is pretty natural.
Now we are prepared to discuss the canonical problem for normal matrices. We denote n i the dimension of each
eigenspace Mi it is clear that
n1 + n2 + ... + nm = n
 i
Mi contains
 i ni i linearly
independent vectors x1 , .., xini that can be orthonormalized by a Gram Schmidt process
to say u1 , .., uni . If we do this for each Mi the set form by the union of these orthonormal sets
 i
{u} ≡ ∪m i
i=1 u1 , .., uni

is clearly an orthonormal set because all vectors corresponding with different M i0 s are orthogonal according to
theorem 1.58. In addition, since the M i0 s span H according to theorem 1.60 this orthonormal set is complete and
therefore a basis. Therefore, for any normal operator T of H we can always form an orthonormal complete set of
eigenvectors. If we use this orthonormal complete eigenvectors to form the matrix of diagonalization Eq. (1.87) we
see that the matrix obtained is a unitary matrix, it is clear that for this matrices the inverse always exists since
λi 6= 0 for each i and therefore the diagonalization can be carried out. Then we have the following

Theorem 1.65 The diagonalization of a normal matrix T can be performed by a similarity transformation of the
form T0 = U TU−1 where U is a unitary matrix.

This is of particular interest because it means that given a matrix representative of T in a basis consisting
of a complete orthonormal set, there exists another complete orthonormal set for which the matrix representative
acquires its canonical form. Further, it is easy to see that the canonical form of a normal matrix is given by
 
λ1
 .. 
 . 
 
 λ 1

 
 λ2 
 
 .. 
 . 
 
 λ2 
 
 .. 
 . 
 
 λm 
 
 . . 
 . 
λm
where the elements out of the diagonal are zero and each λ i is repeated ni times (λi is ni −fold degenerate). It is
easily seen that the matrix representation of P i in this orthonormal basis is
 
  0n1 ×n1 0 0  
1n1 ×n1 0   0 0
P1 = ; P2 = 0 1n2 ×n2 0 ; Pm =
0 0 0 1nm ×nm
0 0 0
and the matrix representation of the spectral decomposition becomes clear.

1.20.1. A qualitative discussion of the spectral theorem in infinite dimensional Hilbert spaces
The rigorous discussion of the infinite dimensional case for the spectral theorem is out of the scope of this survey.
We shall only speak qualitatively about the difficulties that arises when we go to infinite dimension. For simplicity
we assume that A is a self-adjoint operator, the spectral resolution is given by
m
X
A= λi Pi
i=1
48 CAPÍTULO 1. LINEAR OR VECTOR SPACES

since the eigenvalues are real we can order them in a natural way in the form λ 1 < λ2 < .. < λm and we use the
Pi0 s to define new projections

P λ0 = 0
P λ1 = P1
P λ2 = P1 + P2
....
P λm = P1 + ... + Pm = I

the spectral decomposition of the self-adjoint operator A can be written as

A = λ1 P1 + λ2 P2 + ... + λm Pm

= λ1 (Pλ1 − Pλ0 ) + λ2 (Pλ2 − Pλ1 ) + ... + λm Pλm − Pλm−1
Xm

A = λi Pλi − Pλi−1
i=1

if we define
∆Pλi ≡ Pλi − Pλi−1
we can rewrite the decomposition of A as
m
X
A= λi ∆Pλi
i=1
which suggest an integral representation Z
A= λ dPλ (1.102)

in this form, the spectral decomposition of a self-adjoint operator is valid for infinite dimensional Hilbert spaces.
For normal operators we have a similar pattern
Z
N = λ dPλ (1.103)

The first problem to carry out this generalization is that an operator on H need not have eigenvalues at all. In
this general case the spectrum of T is defined as

σ (T ) = {λ : T − λI is singular}

when H is finite dimensional, σ (T ) consists entirely of eigenvalues. In the infinite dimensional case we only can say
that σ (T ) is non-empty, closed and bounded. Once this difficulty is overcome we should give a precise meaning to
the integrals (1.102, 1.103) and prove the validity of those relations. We shall use this decomposition in a practical
form without any attempt of rigorous proof.
It worths emphasizing that the existence of eigenvalues in the finite dimensional case came from the fundamental
theorem of algebra, which in turn came from the fact that the characteristic equation of a finite dimensional matrix
is a polynomial equation. An extension to infinite dimension clearly does not lead to a polynomial equation.

1.21. The concept of “hyperbasis”


Suppose that the vector space that concerns us is V , which is a proper subspace of a bigger vector space W .
As any vector space, W has a basis {wi } that generates any vector in W by linear combinations. It is obvious that
any vector of V must be generated through linear combinations of {w i }. However, there are at least two reasons
for which {wi } is not a basis for V (a) at least one element of the set {w i } is not in V , and one of the conditions
for a given set S to be a basis of a given vector space V is that S ⊆ V . (b) given a basis {v i } of V we have that
{wi } and {vi } does not have in general the same cardinality, and we know that different bases must have the same
cardinality.
1.22. DEFINITION OF AN OBSERVABLE 49

Let us see a simple example: let us use an orthonormal basis of R 3 given by


1 1 1
u1 ≡ √ (1, 1, 1) ; u2 ≡ √ (4, −1, −3) ; u3 = √ (−2, 7, −5)
3 26 78
to generate all vector of the XY plane. The coordinates of u i are written with respect to the ordinary cartesian
coordinates. Since these vectors generate R 3 it is clear that they generate the XY plane which is a proper subset of
R3 . Notwithstanding, none of the vectors u i lies in the XY plane, all the elements of this “hyperbasis” are outside
of the vector space we pretend to expand. Further, any basis of XY has two elements while our hyperbasis has three
elements. Therefore, the cardinality of the hyperbasis is higher than the dimension of the space that we shall study.
For our purposes however, what really matters is that any vector in XY can be generated as a linear combination of
{u1 , u2 , u3 }. For instance, the vector x of the XY plane represented by (3, −2, 0) in ordinary cartesian coordinates,
is represented in this hyperbasis as

x = (u1 , x) u1 + (u2 , x) u2 + (u3 , x) u3


   
1 1
= √ (1, 1, 1) · (3, −2, 0) u1 + √ (4, −1, −3) · (3, −2, 0) u2 +
3 26
 
1
+ √ (−2, 7, −5) · (3, −2, 0) u3
78
1 14 20
x = √ u1 + √ u2 − √ u3
3 26 78
note that in this case an element of the plane is given by a triple with respect to the hyperbasis, in this case
 
1 14 20
x = √ ,√ , − √
3 26 78
in quantum mechanics we shall use a similar strategy but for orthogonal dimensions instead of dimensions. The
Hilbert space L2 that concerns us is of infinite countable orthogonal dimension, but we shall use frequently orthogonal
basis of a bigger space with infinite continuous orthogonal dimension. Therefore, we shall expand the vectors of L 2
in terms of orthogonal hyperbases {v x } with continuous cardinality. In general, the elements v x of the bigger space
will be outside of L2 . However, as before a fourier expansion (instead of a linear combination) will be possible with
this hyperbasis.
Notice that for any cardinality of the orthogonal dimension of a Hilbert space, we see that the Fourier expansion
Eq. (1.27) is always a series. This is by virtue of theorem 1.18 that says that the non-zero fourier coefficients of
any vector are always countable, even if the complete orthonormal set belongs to a higher cardinality. However,
such a theorem is valid for complete orthonormal sets in which all the elements of the set lies in the space under
consideration. If we use a hyper orthonormal complete set the elements of this hyper orthogonal basis do not lie
on the space that we are expanding, thus theorem 1.18 does not necessarily hold. Consequently, when continuous
hyper orthonormal basis are used, we shall obtain integrals instead of series in our Fourier expansions. Does it make
any sense to replace series by integrals? it suffices to observe that it is in general easier to solve integrals in a closed
form than series in a closed form.

1.22. Definition of an observable


Measurements in Physics are always real numbers. In quantum mechanics, such measurements are related with
eigenvalues of some operators on a Hilber space. It is then natural to associate measurements with eigenvalues of
self-adjoint operators since their spectra are always real.
For any finite-dimensional Hilbert space it is always possible to form a complete orthonormal set with the
eigenvectors of a normal operator, and in particular with the eigenvectors of a self-adjoint operator. However, in
infinite dimensional Hilbert spaces this is not necessarily the case. Therefore, we establish the following

Definition 1.31 A given self-adjoint operator A on H is called an observable, if there exists a complete orthonormal
set of eigenvectors of A.
50 CAPÍTULO 1. LINEAR OR VECTOR SPACES

The following sets of theorems are of central importance in quantum mechanics

Theorem 1.66 If two operators A and B commute and if x is an eigenvector of A, then Bx is also an eigenvector
of A with the same eigenvalue. If λ is non-degenerate x is also an eigenvector of B. If λ is n−fold degenerate, the
eigensubspace Mλ is invariant under B.

Since x is an eigenvector of A we have

Ax = λx ⇒ BAx = λBx ⇒ ABx = λBx

where we have used the fact that A and B commutes, hence

A (Bx) = λ (Bx)

which proves that Bx is an eigenvector of A with eigenvalue λ. Observe that if λ is non-degenerate all its eigenvectors
are “colinear” hence Bx must be colinear with x i.e. Bx = cx and x is also an eigenvector of B.
On the other hand, if λ is n−fold degenerate, we can only say that Bx lies in the n dimensional eigensubspace
Mλ of A. In other words, if x ∈ Mλ then Bx ∈ Mλ
Another way to express the previous theorem is

Theorem 1.67 If two operators A and B commute, every eigensubspace of A is invariant under B.

Of course, the roles of A and B can be interchanged.

Theorem 1.68 If two normal operators A and B commute, and if x 1 , x2 are two eigenvectors of A with different
eigenvalues, then (x1 , Bx2 ) = 0

By hypothesis we have
Ax1 = λ1 x1 ; Ax2 = λ2 x2
but from theorem 1.66 Bx2 is an eigenvector of A with eigenvalue λ 2 . Now from theorem 1.61 since λ1 6= λ2 then
Bx2 is orthogonal to x1 and the theorem is proved.
The previous theorems do not use the concept of observable, but the following one does

Theorem 1.69 Let A and B be two observables in a Hilbert space H. Then A and B commute⇔one can construct
a complete orthonormal set in H with eigenvectors common to A and B.

Assume that A and B commute, we shall define the normalized eigenvectors of A as u in

Auin = λn uin ; i = 1, .., gn

where gn is the degree of degeneration of λn . For n 6= n0 the eigenvectors are orthogonal and for n = n 0 and i 6= i0
we can always orthonormalized the vectors in each eigensubspace of A, so that
 
i j
un , uk = δnk δij

let us write H as a decomposition of the eigenspaces of A (taking into account that A is an observable)

H = M1 ⊕ M2 ⊕ M3 ⊕ ...

there are two cases. For each one dimensional M k (each non-degenerate λk ) all vectors in Mk are “colinear” and
they are also eigenvectors of B.
In the other case, gp > 1 then Mp is gp dimensional. We can only say that Mp is invariant under B. Consider
the restriction of A and B to the subspace M p . Since the vectors uip in Mp are eigenvectors of A, the restriction of
(p)
A to Mp has a matrix representative Aij of the form

(p)   
Aij = vpi , Avpj = vpi , λp vpj = λp vpi , vpj = λp δij
1.23. COMPLETE SETS OF COMMUTING OBSERVABLES (C.S.C.O.) 51

thus the matrix representation of A(p) is λp I for any orthonormal set complete in M p (not neccesarily the original).
Now let us see the matrix representative of the restriction B (p) of B on Mp , writing this representation in our
original orthonormal set
(p) 
Bij = uip , Bujp
since B is a self-adjoint operator this matrix is self-adjoint, and according to theorem 1.65 they can always be
diagonalized by a unitary transformation, which in turn means that there exists an orthonormal set vpi in Mp for
which the matrix representative of B (p) is diagonal, hence
(p)  (p)
Bij = vpi , Bvpj = Bi δij

which means that the new orthonormal set complete in M p consists of eigenvectors of B
(p)
Bvpi = Bi vpi

and since Mp contains only eigenvectors of A, it is clear that vpi is an orthonormal set complete in Mp that
are common eigenvectors of A and B. Proceeding in this way with all eigensubspaces of A with more than one
dimension, we obtain a complete orthonormal set in H in which the elements of the set are common eigenvectors of
A and B.
It is important to emphasize that for a given M p the orthonormal set chosen a priori does not in general consist
of eigenvectors of B, but it is always possible to obtain another orthonormal set that are eigenvectors of B and by
definition they are also eigenvectors of A.
Now let us prove that if A and B are observables with a complete orthonormal set of common eigenvectors then
they commute. Let us denote the complete orthonormal set of common eigenvectors as u in,p then

ABuin,p = bp Auin,p = an bp uin,p


BAuin,p = an Buin,p = an bp uin,p

therefore
[A, B] uin,p = 0
since uin,p form a complete orthonormal set, then [A, B] = 0.
It is also very simple to show that if A and B are commuting observables with eigenvalues a n and bp and with
common eigenvectors uin,p then
C =A+B
is also an observable with eigenvectors u in,p and eigenvalues cn,p = an + bp .

1.23. Complete sets of commuting observables (C.S.C.O.)



Consider an observable A and a complete orthonormal set uin of the Hilbert space that consists of eigenvectors
of A. If none of the eigenvalues of A are degenerate then the eigenvalues determine the eigenvectors in a unique
way (within multiplicative constant factors). All the eigensubspaces M i are one-dimensional and the complete
orthonormal set is simply denoted by {u n }. This means that there is only one complete orthonormal set (except
for multiplicative phase factors) associated with the eigenvectors of the observable A. We say that A constitutes by
itself a C.S.C.O.
On the other hand, if some eigenvalues of A are degenerate, specifying a n is not enough to determine a complete
orthonormal set for H because any orthonormal set in the eigensubspace M n can be part of such a complete
orthonormal set. Thus the complete orthonormal set determined by the eigenvectors of A is not unique and it is
not a C.S.C.O.
Now we add a second observable B that commutes with A, and construct a complete orthonormal set common
to A and B. By definition, A and B constitutes a C.S.C.O. if the complete orthonormal set common to both is
unique (within constant phase factors for each of the vectors in the complete set). In other words, it means that any
pair of eigenvalues an , bp determines the associated common normalized eigenvector uniquely, except for a phase
factor.
52 CAPÍTULO 1. LINEAR OR VECTOR SPACES

In theorem 1.69 we constructed the complete orthonormal set common to A and B by solving the eigenvalue
equation of B within each eigensubspace defined by A. For A and B to constitute a C.S.C.O. it is necessary and
sufficient that within each Mn the gn eigenvalues of B be distinct6 . In this case, since all eigenvectors v ni in each
(n)
Mn have the same eigenvalue an of A, they will be distinguished by the g n distinct eigenvalues bi associated with
these eigenvectors of B. Note that it is not necessary that the eigenvalues of B be non-degenerate, we can have two
(or more) equal eigenvalues of B associated with two (or more) distinct eigensubspaces M n and Mk of A. We only
require not to have degeneration of the eigenvalues of B within a given eigensubspace M n of A. Indeed, if B were
non-degenerate it would be a C.S.C.O. by itself.
On the other hand, if for at least one pair {a n , bp } there exist two or more linearly independent eigenvectors
common to A and B they are not a C.S.C.O.. Let us add a third observable C that commutes with both A and B,
and proceeds as above. When to the pair {a n , bp } corresponds only one eigenvector common to A and B, then it is
automatically an eigenvector of C as well. On the contrary, if the eigensubspace M n,p is gn,p dimensional, we can
construct within it, an orthonormal set of eigenvectors of C. Proceeding in this way with each M n,p we can construct
a complete orthonormal set with eigenvectors common to A, B, C. These three observables are a C.S.C.O. if this
complete orthonormal set is unique (except for multiplicative phase factors). Once again, if M n,p has the eigenvectors
(n,p)
uin,p common to A and B this occurs if and only if all g n,p eigenvalues of C denoted as ck are distinct. As before,
C can be degenerate, but as long as degenerate eigenvalues are not repeated within a single eigenspace M n,p of A
and B. Therefore, a given triple of eigenvalues {a n , bp , ck } of A, B, C has a unique common eigenvector within a
multiplicative factor. If two or more linearly independent eigenvectors common to A, B, C can be constructed for a
given set {an , bp , ck }, we can add a fourth observable D that commute with those three operators and so on.

Definition 1.32 A set of observables {A, B, C, ..} is called a complete set of commuting observables (C.S.C.O.) if
(i) All observables commute pairwise, (ii) specifying the set of eigenvalues {a n , bp , ck , ..} of the observables determines
a unique (within phase factors) complete orthonormal set of eigenvectors common to all the observables.

An equivalent form is the following

Definition 1.33 A set of observables {A, B, C, ..} is called a complete set of commuting observables (C.S.C.O.) if
there is a unique complete orthonormal set (within phase factors) of common eigenvectors.

It is obvious that if a given set is a C.S.C.O. we can add any observable that commutes with the observables
of the set and the new set is also a C.S.C.O. However, for most of our purposes we shall be interested in “minimal
C.S.C.O.” in the sense that by removing any observable of the set, the new set is not complete.
If a given set {A1 , .., An } of observables is a C.S.C.O., an eigenvector associated with a set {a k1 , .., akn } determines
a unique common normal eigenvector (within a phase factor) so it is natural to denote the vector as u ak1 ,ak2 ,akn . We
shall see later that in quantum mechanics a global phase has no Physical information. Therefore, all normal vectors
associated with {ak1 , .., akn } have the same Physical information, this fact enhance the qualification of “unique”
for these vectors, although they are not unique from the mathematical point of view.

1.24. Some terminology concerning quantum mechanics


We have defined linear combinations as finite sums. A basis in a vector space is thus a set of linearly independent
vectors for which any vector of the space can be written as a finite sum of elements of the basis (multiplied by the
appropiate scalars). Notably, bases always exist even in an infinite-dimensional vector space. However, in practice it
is not easy to find a basis in an infinite dimensional Hilbert space. In this case, it is more usual to utilize complete
orthonormal sets, they make a work similar to basis in the sense that they generate any vector, but the difference
is that complete orthonormal sets expand a vector in a series (Fourier expansion) while bases do it in finite sums.
In quantum mechanics we call a basis to mean a complete orthonormal set, and the series expansion is
usually call a linear combination. Since we never use basis in the mathematical sense, there is no confusion with
this terminology. Self-adjoint operators are usually called hermitian operators. The conjugate space H ∗ of H is
6
If Mn is one dimensional then an eigenvector of A in Mn is automatically an eigenvector of B and it is clearly uniquely determined,
except for multiplicative factors. Only the case in which Mn has more than one dimension is non-trivial.
1.25. THE HILBERT SPACE L2 53

usually call the dual space of H. The vectors in our Hilbert space are called kets, while the correponding elements
in the dual space (the functionals) are called bras.
In addition the Hilbert space we work with, is a separable space so that its dimension is countable (countably
infinite). We shall resort however to some hyperbases which are of continuous cardinality, the elements of these
hyperbases do not belong to our Hilbert space. Consequently, the elements of the hyperbasis will not be physical
states, but we shall call them continuous basis. Nevertheless, they will be very useful for practical calculations.
In addition there will be a change of notation to facilitate the mathematical calculations, it is called Dirac
notation

1.25. The Hilbert Space L2


We shall see later that the information of a quantum particle is described by a function of the space and time
denoted as ψ (r, t) and called the wave function. The quantity, |ψ (r, t)| 2 dx dy dz will be interpreted as the
probability of finding at time t, the particle in a volume dx dy dz. Since the particle must be somewhere in the
space, we must demand that the integral over the whole volume must be equal to unity
Z
dV |ψ (r, t)|2 = 1

the integration extends over all space. However, in certain cases we could assume that the particle is in a given
confined volume and the integral will be restricted to such a volume.
The discussion above leads to the fact that the space of Physical states of one particle should be described by
a square-integrable wave function. The state space is then the Hilbert space L 2 of the square-integrable functions
in a given volume. For a system of several particles we will have a space with similar features, but by now we will
concentrate on the space that describes a single particle.
For several reasons we cannot specified in general the state space of a particle. First of all, several physical
considerations can lead us to the fact that the particl is confined to a certain bounded volume. For instance, in
one dimension it is not the same the space of functions that are square integrable in the whole real line, as (say)
the space of functions that are square integrable in a bounded interval. In other words, different regions of square
integrability leads us to different L 2 spaces. On the other hand, it is usual to demand as well as square integrability,
that the functions accomplish additional features of regularity. For example, to be defined all along the interval, or
to be continuous, derivable, etc. The specific conditions depend on the particular context, and they are required to
define the state space completely.
For example, it has no physical meaning to have a function that is discontinuous at a given point since no
experiment can measure a real phenomenon at scales below certain threshold. We could then be tempted to say
that we must demand the functions to be continuous. However, this is not necessarily the case since some non-
physical functions could help us to figure out what is happening. Let us take some familiar examples in classical
mechanics, it is usual in electrostatics to assume the presence of a surface charge, which leads to a discontinuity
in the electric field, in the real world a charge is distributed in a very thin but finite layer and the discontinuity is
replaced by a very slopy curve. Indeed, a surface charge is equivalent to an infinite volume density, but we have seen
that this assumption provides a simple picture of many electrostatic phenomena though it is not a real physical
state. Classical waves represented by a single plane wave in optics are other good examples, since it is not possible
to have a real wave being totally monochromatic (a physical state is always a superposition of several plane waves),
but many of the wave phenomena are easier to study with these non physical states, and indeed many real physical
phenomena such as the laws of geometric optics are predicted by using them.
In summary, depending on our purposes (and attitudes) we could demand to have only physical states or to
decide to study some non-physical ones that are obtain when some physical parameters are settle at extreme values.
Quantum mechanics is not the exception for this strategy, and our assumptions on the functions to work with,
affects the definition of the Hilbert space of states that we should use as a framework.
Hence, given the volume V in which the particle can stay, we say that our space of states is a subspace of the
Hilbert space L2 of the square integrable functions in the volume V . We denote by z the subspace of states in which
z ⊆ L2 . For this subspace to be a Hilbert space, it must be closed (for completeness to be maintained).
54 CAPÍTULO 1. LINEAR OR VECTOR SPACES

1.25.1. The wave function space z


According to the discussion above, we only can say that our wave function space that describe our physical
states is a closed subspace of L2 for a volume determined by our physical conditions. What really matters is to be
sure whether the additional conditions imposed to our functions keeps z as a closed vector space. For instance, if we
assume continuity and/or derivability, it is easy to show that a finite linear combination preserves these conditions.
Less evident is to ensure that a series preserves these conditions (for the subspace to be closed in L 2 ), but we are
not be concern with this problem here, neither we shall discuss the aspects concerning the completeness of L 2 . We
then limite ourselves to determine the vector space character of L 2 . Let ψ1 , ψ2 ∈ L2 , we show that
ψ (r) = λ1 ψ1 (r) + λ2 ψ2 (r)
is a square integrable function. For this, we expand |ψ (r)| 2
|ψ (r)|2 = |λ1 |2 |ψ1 (r)|2 + |λ2 |2 |ψ2 (r)|2 + λ∗1 λ2 ψ1∗ (r) ψ2 (r) + λ1 λ∗2 ψ1 (r) ψ2∗ (r)
now for the last two terms we have
h i
|λ∗1 λ2 ψ1∗ (r) ψ2 (r)| = |λ1 λ∗2 ψ1 (r) ψ2∗ (r)| ≤ |λ1 | |λ2 | |ψ1 (r)|2 + |ψ2 (r)|2
hence h i
|ψ (r)|2 ≤ |λ1 |2 |ψ1 (r)|2 + |λ2 |2 |ψ2 (r)|2 + 2 |λ1 | |λ2 | |ψ1 (r)|2 + |ψ2 (r)|2
and the integral of each of the functions on the right-hand side converges. Then the integral
Z
|ψ (r)|2 dV

converges. So ψ is a square integrable function.


The scalar product will be defined as
Z
(ϕ, ψ) = dV ϕ∗ (r) ψ (r)

it can be shown that this integral always converges if ϕ and ψ belong to L 2 . We should check that this definition
accomplishes the properties of an inner product, the properties arise directly from the definition
(ϕ, λ1 ψ1 + λ2 ψ2 ) = λ1 (ϕ, ψ1 ) + λ2 (ϕ, ψ2 ) ; (λ1 ϕ1 + λ2 ϕ2 , ψ) = λ∗1 (ϕ1 , ψ) + λ∗2 (ϕ2 , ψ)
(ϕ, ψ) = (ψ, ϕ) ∗ ; (ψ, ψ) ≡ kψk2 ≥ 0 and (ψ, ψ) = 0 ⇔ ψ = 0
let us mention some important linear oprators on functions ψ (r) ∈ z.
The parity opeartor defined as
Πψ (x, y, z) = ψ (−x, −y, −z)
the product operator X defined as
Xψ (x, y, z) = xψ (x, y, z)
and the differentiation operator with respect to x denoted as D x

∂ψ (x, y, z)
Dx ψ (x, y, z) =
∂x
it is important to notice that the operators X and D x acting on a function ψ (r) ∈ z, can transform it into a
function that is not square integrable. Thus it is not an operator of z into z nor onto z. However, the non-physical
states obtained are frequently useful for practical calculations.
The commutator of the product and differentiation operator is of central importance in quantum mechanics
 
∂ ∂ ∂ ∂
[X, Dx ] ψ (r) = x − x ψ (r) = x ψ (r) − [xψ (r)]
∂x ∂x ∂x ∂x
∂ ∂
= x ψ (r) − x ψ (r) − ψ (r)
∂x ∂x
[X, Dx ] ψ (r) = −ψ (r) ∀ψ (r) ∈ z
therefore
[X, Dx ] = −I (1.104)
1.26. DISCRETE ORTHONORMAL BASIS 55

1.26. Discrete orthonormal basis


The Hilbert space L2 (and thus z) has a countable infinite dimension, so that any authentic basis of z must be
infinite but discrete. A discrete orthonormal basis {u i (r)} with ui (r) ∈ z should follows the rules given in section
1.9.1. Thus orthonormality is characterized by
Z
(ui , uj ) = d3 r u∗i (r) uj (r) = δij

the expansion of any wave function (vector) of this space is given by the Fourier expansion described by Eq. (1.27)
X Z
ψ (r) = ci ui (r) ; ci = (ui , ψ) = d3 r u∗i (r) ψ (r) (1.105)
i

using the terminology for finite dimensional spaces we call the series a linear combination and c i are the components
or coordinates, which correspond to the Fourier coefficients. Such coordinates provide the representation of ψ (r) in
the basis {ui (r)}. It is very important to emphasize that the expansion of a given ψ (r) must be unique for {u i } to
be a basis, in this case this is guranteen by the form of the Fourier coefficients.
Now if the Fourier expansion of two wave functions are
X X
ϕ (r) = bj uj (r) ; ψ (r) = ci ui (r)
j i

The scalar product and the norm can be expressed in terms of the components or coordinates of the vectors according
with Eqs. (1.64, 1.65) X X 2
(ϕ, ψ) = b∗i ci ; (ψ, ψ) = |ci | (1.106)
i i

and the matrix representation of an operator T in a given orthonormal basis {u i } is obtained from Eq. (1.68)

Tij ≡ (ui , T uj )

1.26.1. Función delta de Dirac


Como veremos a continuación la función delta de Dirac es un excelente instrumento para expresar el hecho de
que un conjunto ortonormal dado sea completo. También es útil para convertir densidades puntuales, lineales y
superficiales, en densidades volumétricas equivalentes. Es importante enfatizar que la función delta de Dirac mas
que una función es una distribución. En el lenguaje del análisis funcional, es una uno-forma que actúa en espacios
vectoriales de funciones, asignándole a cada elemento del espacio, un número real de la siguiente forma: Sea V el
espacio vectorial de las funciones definidas en el dominio (b, c) con ciertas propiedades de continuidad, derivabilidad,
integrabilidad, etc. La distribución delta de Dirac es un mapeo que asigna a cada elemento f (x) de V un número
real con el siguiente algoritmo7
Z c 
f (a) si a ∈ (b, c)
f (x) δ (x − a) dx =
b 0 si a ∈ / [b, c]

mencionaremos incidentalmente que con esta distribución es posible escribir una densidad de carga (o masa)
puntual (ubicada en r0 ) como una densidad volumétrica equivalente

ρ (r) = qδ r0 − r0 (1.107)

esta densidad reproduce adecuadamente tanto la carga total como el potencial y el campo que genera, una vez que
se hagan las integrales apropiadas.

7 ∞ si r = 0 R
Es usual definir la “función” delta de Dirac como δ (r) = y δ (x) dx = 1. Esta definición se basa en una
0 si r = 6 0
concepción errónea de la distribución delta de Dirac como una función. A pesar de ello, hablaremos de ahora en adelante de la función
delta de Dirac para estar acorde con la literatura.
56 CAPÍTULO 1. LINEAR OR VECTOR SPACES

Hay varias sucesiones de distribuciones que convergen a la función Delta de Dirac, una de las mas utilizadas es
la sucesión definida por
n 2 2
fn (x − a) = √ e−n (x−a) (1.108)
π
se puede demostrar que al tomar el lı́mite cuando n → ∞ se reproduce la definición y todas las propiedades básicas
de la distribución delta de Dirac. Nótese que todas las distribuciones gaussianas contenidas en esta sucesión tienen
área unidad y están centradas en a. De otra parte, a medida que aumenta n las campanas gaussianas se vuelven
más agudas y más altas a fin de conservar el área, para valores n suficientemente altos, el área se concentra en
una vecindad cada vez más pequeña alrededor de a. En el lı́mite cuando n → ∞, toda el área se concentra en un
intervalo arbitrariamente pequeño alrededor de a.
Algunas propiedades básicas son las siguientes:
R∞
1. −∞ δ (x − a) dx = 1
R∞
2. −∞ f (x) ∇δ (r − r0 ) dV = − ∇f |r=r0
1
3. δ (ax) = |a| δ (x)

4. δ (r − r0 ) = δ (r0 − r)

5. xδ (x) = 0
 1
6. δ x2 − e 2 = 2|e| [δ (x + e) + δ (x − e)]

Vale enfatizar que debido a su naturaleza de distribución, la función delta de Dirac no tiene sentido por sı́ sola,
1
sino únicamente dentro de una integral. Por ejemplo cuando decimos que δ (ax) = |a| δ (x), no estamos hablando de
una coincidencia numérica entre ambos miembros, sino de una identidad que se debe aplicar al espacio vectorial de
funciones en que estemos trabajando, es decir
Z c Z c
1
f (x) δ (ax) dx = f (x) δ (x) dx ∀ f (x) ∈ V y ∀ a ∈ R
b b |a|

Estrictamente, el mapeo también se puede hacer sobre los números complejos con propiedades análogas. En este
mismo espı́ritu, es necesario aclarar que la densidad volumétrica equivalente de una carga puntual (y todas las
densidades equivalentes que se pueden formar con la delta) es realmente una distribución. Por ejemplo, la densidad
descrita por (1.107), solo tiene realmente sentido dentro de integrales que generan la carga total, el potencial o el
campo. Las densidades ordinarias son funciones, pero las densidades equivalentes son distribuciones. En sı́ntesis, lo
que se construye con la densidad volumétrica equivalente es una distribución que me produzca el mapeo adecuado
para reproducir la carga total, el potencial y el campo.
En más de una dimensión la delta se convierte simplemente en productos de deltas unidimensionales, la propiedad
R (n)
δ (x) dn x = 1, aplicada a n dimensiones, nos dice que la delta no es adimensional, sus dimensiones son de
x−n .
De momento, el uso que le daremos a la delta estará relacionado con la completez del sistema orthonormal
que usemos. Nótese que en dimension finita la completez se comprueba simplemente asegurándonos de tener igual
número de vectores linealmente independientes que la dimensión del espacio. En espacios de dimension infinita en
cambio podrı́amos tener un conjunto infinito contable que no fuera completo y que se vuelve completo al agregarle
otro conjunto finito o infinito contable, pues en tal caso la cardinalidad no cambia. En dimensión infinita un conjunto
ortonormal puede tener la cardinalidad de la dimensión ortogonal del espacio y sin embargo no ser completo. Es
por esto que la prueba de completez es particularmente importante.

1.27. Closure relations


Naturalmente, para que todo vector arbitrario ψ (r) de z sea expandible en los vectores unitarios linealmente
independientes {ui (r)}, es necesario que el conjunto que define la base sea completo, la condición de completez
1.28. INTRODUCTION OF HYPERBASES 57

puede obtenerse reemplazando los coeficientes de Fourier c n en la expansión de ψ (r)


X X XZ B  
ψ (r) = cn un (r) = (un , ψ) un (r) = u∗n r0 ψ r0 un (r) d3 r0
n n n A
Z " #
B  X 
ψ (r) = ψ r0 u∗n r0 un (r) d3 r0
A n

donde la integral con lı́mites A y B significa una integral triple de volumen. Por otro lado
Z B
 
ψ (r) = ψ r0 δ r − r 0 d3 r0
A

Igualando las dos últimas expresiones, y teniendo en cuenta que ψ (r 0 ) es arbitraria se obtiene
X  
u∗n r0 un (r) = δ r − r0 (1.109)
n

retrocediendo en nuestros pasos vemos que la relación anterior nos garantiza que cualquier función arbitraria dentro
del espacio se puede expandir en términos del conjunto {u n (r)}. A su vez vemos que la expansion para una base
ordenada dada {un (r)} es única, lo cual se obtiene gracias a la independencia lineal del conjunto. Por tanto a la
Ec. (1.109), se le conoce como relación de completez.
We shall study several complete sets that consequently accomplish property (1.109). The proof of completeness
of these sets is however out of the scope of this manuscript.

1.28. Introduction of hyperbases


In the case of discrete basis each element u i (r) is square integrable and thus belong to L 2 and in general to z
as well. As explained before, it is sometimes convenient to use some hyperbases in which the elements of the basis
do not belong to either L2 or z, but in terms of which a function in z can be expanded, the hyperbasis {u (k, r)}
will have in general a continuous cardinality with k denoting the continuous index that labels each vector in the
hyperbasis. According to our previous discussions the Fourier expansions made with this hyperbasis are not series
but integrals, these integrals will be called continuous linear combinations.

1.29. Closure relation with hyperbases


In the hyperbasis {u (k, r)}, k is a continuous index defined in a given interval [c, d]. Such an index makes the role
of the index n in discrete bases. We shall see that a consistent way of expressing orthonormality for this continuous
basis is8 Z B
 
(uk , uk0 ) = u∗ (k, r) u k 0 , r d3 r = δ k − k 0 (1.110)
A
we show it by reproducing the results obtained with discrete bases. Expanding an arbitrary function ψ (r) of our
Hilbert space as a continuous linear combination of the basis gives
Z d
ψ (r) = c (k) u (k, r) dk
c

then we have
 Z d  Z d
(uk0 , ψ) = uk 0 , c (k) u (k, r) dk = c (k) (uk0 , uk ) dk
c c
Z d  
= c (k) δ k − k 0 dk = c k 0
c
8
From now on we shall say continuous bases, on the understanding that they are indeed hyperbases.
58 CAPÍTULO 1. LINEAR OR VECTOR SPACES

from which the fourier coefficients of the continuous expansion are evaluated as

c k 0 = (uk0 , ψ) (1.111)

when the Fourier coefficients are associated with continuous linear combinations (integrals) they are usually called
Fourier transforms. In this case, a vector is represented as a continuous set of coordinates or components, where
the components or coordinates are precisely the Fourier transforms.
Therefore, in terms of the inner product, the calculation of the Fourier coefficients in a continuous basis (Fourier
transforms) given by Eq. (1.111) coincides with the calculation of them with discrete bases Eq. (1.105). Eq. (1.111)
in turn guarantees that the expansion for a given ordered continuous bases is unique 9 . Those facts in turn depends
strongly on our definition of orthonormality in the continuous regime Eq. (1.110) showing the consistency of such a
definition. After all, we should remember that hyperbases are constructed as useful tools and not as physical states,
in that sense we should not expect a “truly orthonormality relation” between them 10 .
Let us see the closure relation
Z d Z d
ψ (r) = c (k) u (k, r) dk = (uk , ψ) u (k, r) dk
c c
Z d Z B 
∗ 0
 0
 3 0
ψ (r) = u k, r ψ r d r u (k, r) dk
c A
Z B Z d 
 
ψ (r) = u∗ k, r0 u (k, r) dk ψ r0 d3 r0
A c

on the other hand


Z B  
ψ (r) = δ r − r0 ψ r0 d3 r0
A

from which we find


Z d  
u∗ k, r0 u (k, r) dk = δ r − r0 (1.112)
c

which defines us the closure relation for a continuous basis {u (k, r)}.
From the discussion above, the closure relations for discrete or continuous basis can be interpreted as “rep-
resentations” of the Dirac delta function. Similar situation occurs with the orthonormality relation but only for
continuous bases.
It worths emphasizing at this point that a given representation of the delta in a given space cannot be applied to
another space. For example, it is Ppossible to have a r−dimensional vector space of functions V 1 with a basis {vn (r)},
that defines a closure relation rn=1 vn∗ (r0 ) vn (r) = δ1 (r − r0 ), let us think about another r + k dimensional vector
space denoted by V2 and such that V2 ⊃ V1 , such that Pr+ka basis {um } of V2 includes the previous basis plus other
linearly independent vectors; the closure relation is: n=1 u∗n (r0 ) un (r) = δ2 (r − r0 ). What is the difference between
δ1 (r − r0 ) and δ2 (r − r0 )?, the answer lies in the distribution nature of the badly called Dirac delta function; the
fundamental property of this distribution tells us that for all functions ψ (r 0 ) that belongs to V1 we have that
Z " # Z
B  X  B  
0
ψ (r) = ψ r vn∗ 0
r vn (r) d r = 3 0
ψ r0 δ1 r − r 0 d3 r0
A n A

however, if the function ψ (r) does not belong to V 1 but it belongs to V2 then δ1 (r − r0 ) is not an adequate distribution
to represent this function. This is a general property of the distributions, since they are defined solely by means of
the way in which they map the functions of a specific vector space into the scalars. A representation of the Dirac
delta (and in general of any distribution) is linked to a very specific vector space of functions.
9
Remember that for a given set of vectors to constitute a basis, it is important not only to be able to expand any vector with the
elements of the set, it is also necessary for the expansion of each vector to be unique. In normal basis (not hyperbasis) this is guaranteed
by the linear independence, in our continuous set it is guranteed by our definition of orthonormality in such a set.
10
It is clear for example that with r = r0 the “orthonormality” relation diverge, so it is not a normalization in the mathematical sense.
1.30. INNER PRODUCT AND NORM IN TERMS OF THE COMPONENTS OF A VECTOR IN A HYPERBASES59

1.30. Inner product and norm in terms of the components of a vector in a


hyperbases
Let us take two vectors ϕ and ψ that belong to z. Both can be expressed as continuous linear combinations of
a continuous basis {uk }
Z d Z d  
ψ (r) = dk u (k, r) c (k) ; ϕ (r) = dk 0 u k 0 , r b k 0
c c

now the idea is to write the scalar product of them in terms of the continuous set of components of each vector i.e.
in terms of their Fourier transforms c (k) and b (k 0 ). The scalar product is
Z B Z d Z d Z B
3 ∗ 0 ∗ 0
 
(ϕ, ψ) = d r ϕ (r) ψ (r) = dk dk b k c (k) d3 r u∗ k 0 , r u (k, r)
A c c A

now using the orthonormality relation Eq. (1.110) we have


Z B Z d Z d
3 ∗ 0
 
(ϕ, ψ) = d r ϕ (r) ψ (r) = dk dk b∗ k 0 c (k) δ k − k 0
A c c
Z d
(ϕ, ψ) = dk b∗ (k) c (k) (1.113)
c

the norm is obtained simply by taking ϕ = ψ then


Z d
(ψ, ψ) = kψk2 = dk |c (k)|2 (1.114)
c

Eqs. (1.113, 1.114) are clearly the continuous analogs of Eq. (1.106) for discrete basis.
In summary, the basic relations obtained in discrete bases (inner products, norms, fourier coefficients, orthonor-
mality, completeness etc.) possses the same structure in continuous bases but with the following replacements
X Z

i(discrete) ↔ k(continuous) , ↔ dk , δij ↔ δ k − k 0
i

1.31. Some specific continuous bases


1.31.1. Plane waves
We shall use a continuous basis represented by the set
n o  3/2
ip·r/~ 1
ze ; z≡
2π~

where p is the continuous index that labels the different vectors of the basis. Indeed, p represents three continuous
indices px , py , pz . By now ~ is simply a mathematical constant, but it will become highly relevant in Physics. We
consider the space of square integrable functions over the whole space, all integrals are undestood to be triple
integrals. The continuous linear combination of a given square integrable function is given by
 3/2 Z ∞
1
ψ (r) = d3 p ψ̄ (p) eip·r/~
2π~ −∞

it is clear that ψ̄ (p) provides the continuous set of coordinates of the vector ψ (r) under our continuous basis.
They are thus the Fourier transforms of ψ (r) with respect to the basis of plane waves. It is useful to define

vp (r) ≡ zeip·r/~ (1.115)


60 CAPÍTULO 1. LINEAR OR VECTOR SPACES

from which the fourier transforms can be calculated by Eq. (1.111)


 3/2 Z ∞
1
c (k) = (uk , ψ) ⇒ ψ̄ (p) = (vp , ψ) = d3 r e−ip·r/~ ψ (r)
2π~ −∞

the basic relation in Fourier analysis Z ∞


1
d3 k eik·u = δ 3 (u) (1.116)
(2π)3 −∞

can be used by assigning k → zp and u → (r − r 0 ) to show that


Z ∞ Z ∞
3 ∗ 0
 1 3 ip (r−r0 ) 3 0

d p vp r vp (r) = d p e ~ = δ r − r (1.117)
−∞ (2π~)3 −∞

by comparing it with Eq. (1.112), we see that (1.117) expresses the completeness relation for the continuous basis
{vp } in the space of functions that are square-integrable in the whole physical space. The orthonormality relation
can also be obtained from the property (1.116) but with the assignments k → zr and u → p − p 0
Z ∞
 1 0  
d3 r e−i ~ (p−p ) = δ 3 p0 − p = δ 3 p − p0
r
v p , v p0 = 3 (1.118)
(2π~) −∞

by using p = p0 in Eq. (1.118) it is clear that kvp k2 = (vp , vp ) is divergent. Thus, the plane waves are not square-
integrable in the whole space. Therefore, the elements of this continuous basis do not belong to the Hilbert space
under study.

1.31.2. “Delta functions”


We shall use a continuous basis of “highly improper” functions defined by

ξr0 (r) ≡ δ (r − r0 ) (1.119)

{ξr0 (r)} represents the set of delta functions centered at each of the points r 0 of the whole space. These functions
are not square-integrable so {ξr0 (r)} ∈/ z. Nevertheless, the following relations are valid for functions that belong
to z
Z
ψ (r) = d3 r0 ψ (r0 ) δ (r − r0 )
Z
ψ (r0 ) = d3 r ψ (r) δ (r0 − r)

rewritten them appropiately we have


Z
ψ (r) = d3 r0 ψ (r0 ) ξr0 (r) (1.120)
Z
ψ (r0 ) = d3 r ξr∗0 (r) ψ (r) = (ξr0 , ψ) (1.121)

Eq. (1.120) gives ψ (r) ∈ z as a continuous linear combination of the set {ξ r0 }, where ψ (r0 ) are the fourier
transforms. On the other hand, (1.121) indicates that the fourier transforms are evaluated as usual.
By using the properties of the Dirac delta function, it is possible to prove that the set {ξ r0 } accomplishes
orthonormality and completeness relations
  Z  
ξr0 , ξr00 = d3 r δ (r − r0 ) δ r − r00 = δ r0 − r00

and Z Z
  
d3 r0 ξr∗0 r0 ξr0 (r) = d3 r0 δ r0 − r 0 δ (r − r0 ) = δ r − r0
1.32. TENSOR PRODUCTS OF VECTOR SPACES, DEFINITION AND PROPERTIES 61

note that the non-physical functions that constitute a continuous basis can usually be seen as limits in which one
or more parameters of a physically realizable state are taken at extreme (non-physical) values.
As an example the Dirac function can be taken as the limit of gaussians given by Eq. (1.108)
n 2 2
fn (x − a) = √ e−n (x−a)
π
for each value of n these functions are square integrable, continuous, and derivable, they could describe a physical
system. Notwithstanding, by taking n → ∞, the functions are no longer square-integrable and lose all properties of
well-behavior.
Concerning plane waves, physical states (in both classical and quantum mechanics) consists of a superposition of
plane waves with a finite width spectrum of frecuencies ∆ν, by taking the limit ∆ν → 0 we obtain a monochromatic
(non-physical) wave, corresponding to a single plane wave.

1.32. Tensor products of vector spaces, definition and properties


Let V1 and V2 be two vector spaces of dimension n1 and n2 . Vectors and operators on each of them will be
denoted by labels (1) and (2) respectively.

Definition 1.34 The vector space V is called the tensor product of V 1 and V2

V ≡ V 1 ⊗ V2

if there is associated with each pair of vectors x (1) ∈ V 1 and y (2) ∈ V2 a vector in V denoted by x (1) ⊗ y (2) and
called the tensor product of x (1) and y (2), and in which this correspondence satisfies the following conditions: (a)
It is linear with respect to multiplication by a scalar

[αx (1)] ⊗ y (2) = α [x (1) ⊗ y (2)] ; x (1) ⊗ [βy (2)] = β [x (1) ⊗ y (2)] (1.122)

(b) It is distributive with respect to addition


 
x (1) + x0 (1) ⊗ y (2) = x (1) ⊗ y (2) + x0 (1) ⊗ y (2)
 
x (1) ⊗ y (2) + y0 (2) = x (1) ⊗ y (2) + x (1) ⊗ y0 (2) (1.123)

(c) When a basis is chosen in each space, say {u i (1)} in V1 and {vj (2)} in V2 , the set of vectors ui (1) ⊗ vj (2)
constitutes a basis in V . If n1 and n2 are finite, the dimension of the tensor product space V is n 1 n2 .

An arbitrary couple of vectors x (1), y (2) can be written in terms of the bases {u i (1)} and {vj (2)} respectively,
in the form X X
x (1) = ai ui (1) ; y (2) = bj vj (2)
i j

Using Eqs. (1.122, 1.123) we see that the expansion of the tensor product is given by
XX
x (1) ⊗ y (2) = ai bj ui (1) ⊗ vj (2)
i j

so that the components of the tensor product of two vectors are the products of the components of the two vectors of
the product. It is clear that the tensor product is commutative i.e. V 1 ⊗ V2 = V2 ⊗ V1 and x (1) ⊗ y (2) = y (2) ⊗ x (1)
On the other hand, it is important to emphasize that there exist in V some vectors that cannot be written as
tensor products of a vector in V1 with a vector in V2 . Nevertheless, since {ui (1) ⊗ vj (2)} is a basis in V any vector
in V can be expanded in it XX
ψ= cij ui (1) ⊗ vj (2) (1.124)
i j

in other words, given a set of n1 n2 coefficients of the form cij it is not always possible to write them as products
of the form ai bj of n1 numbers ai and n2 numbers bj , we cannot find always a couple of vectors in V 1 and V2 such
that ψ = x (1) ⊗ y (2).
62 CAPÍTULO 1. LINEAR OR VECTOR SPACES

1.32.1. Scalar products in tensor product spaces


If there are inner products defined in the spaces V 1 and V2 we can define an inner product in the tensor product
space V . For a couple of vectors in V of the form x (1) ⊗ y (2) the inner product can be written as
  
x0 (1) ⊗ y0 (2) , x (1) ⊗ y (2) = x0 (1) , x (1) (1) y0 (2) , y (2) (2)

where the symbols (, )(1) and (, )(2) denote the inner product of each of the spaces of the product. From this, we can
see that if the bases {ui (1)} and {vj (2)} are orthonormal in V1 and V2 respectively, then the basis {ui (1) ⊗ vj (2)}
also is
(ui (1) ⊗ vj (2) , uk (1) ⊗ vm (2)) = (ui (1) , uk (1))(1) (vj (2) , vm (2))(2) = δik δjm

Now, for an arbitrary vector in V , we use the expansion (1.124) and the basic properties of the inner product
 
XX XX
(ψ, φ) =  cij ui (1) ⊗ vj (2) , bkm uk (1) ⊗ vm (2)
i j k m
X X X X
= c∗ij bkm (ui (1) ⊗ vj (2) , uk (1) ⊗ vm (2)) = c∗ij bkm δik δjm
i,j k,m i,j k,m
X
(ψ, φ) = c∗ij bij
i,j

it is easy to show that with these definitions the new product accomplishes the axioms of an inner product.

1.32.2. Tensor product of operators


e (1) acting on V as
Consider a linear transformation A (1) defined in V 1 , we associate with it a linear operator A
follows: when Ae (1) is applied to a tensor of the type x (1) ⊗ y (2) we define

e (1) [x (1) ⊗ y (2)] = [A (1) x (1)] ⊗ y (2)


A

when the operator is applied to an arbitrary vector in V , this definition is easily extended because of the linearity
of the transformation
XX XX
Ae (1) ψ = A e (1) cij ui (1) ⊗ vj (2) = e (1) [ui (1) ⊗ vj (2)]
cij A
i j i j
XX
e (1) ψ =
A cij [A (1) ui (1)] ⊗ vj (2) (1.125)
i j

e (2) of a linear transformation in V2 is obtained in a similar way


the extension B
XX
e (2) ψ =
B cij ui (1) ⊗ [B (2) vj (2)]
i j

finally, if we consider two operators A (1) , B (2) defined in V 1 and V2 respectively, we can define their tensor product
A (1) ⊗ B (2) as
XX
[A (1) ⊗ B (2)] ψ = cij [A (1) ui (1)] ⊗ [B (2) vj (2)] (1.126)
i j

it is easy to show that A (1) ⊗ B (2) is also a linear operator. From Eqs. (1.125, 1.126) we can realize that the
extension of the operator A (1) on V1 to an operator A e (1) on V can be seen as the tensor product of A (1) with the
e (2)
identity operator I (2) on V2 . A similar situation occurs with the extension B

e (1) = A (1) ⊗ I (2) ; B


A e (2) = I (1) ⊗ B (2) (1.127)
1.32. TENSOR PRODUCTS OF VECTOR SPACES, DEFINITION AND PROPERTIES 63

e (1) B
Now let us put the operators A (1) ⊗ B (2) and A e (2) to act on an arbitrary element of a basis {u i (1) ⊗ vj (2)}
of V

[A (1) ⊗ B (2)] ui (1) ⊗ vj (2) = [A (1) ui (1)] ⊗ [B (2) vj (2)]


h i
e (1) B
A e (2) ui (1) ⊗ vj (2) = Ae (1) {ui (1) ⊗ [B (2) vj (2)]} = [A (1) ui (1)] ⊗ [B (2) vj (2)]

e (1) and B
therefore, the tensor product A (1) ⊗ B (2) coincides with the ordinary product of two operators A e (2) on
V
A (1) ⊗ B (2) = Ae (1) B
e (2)

additionally, it can be shown that operators of the form A e (1) and B e (2) commute in V . To see it, we put their
products in both orders to act on an arbitrary vector of a basis {u i (1) ⊗ vj (2)} of V
h i
e (1) B
A e (2) ui (1) ⊗ vj (2) = Ae (1) {ui (1) ⊗ [B (2) vj (2)]} = [A (1) ui (1)] ⊗ [B (2) vj (2)]
h i
e (2) A
B e (1) ui (1) ⊗ vj (2) = Be (2) {[A (1) ui (1)] ⊗ vj (2)} = [A (1) ui (1)] ⊗ [B (2) vj (2)]

therefore we have h i
e (1) , B
A e (2) = 0 or A (1) ⊗ B (2) = B (2) ⊗ A (1)

an important special case of linear operators are the projectors, as any other linear operator, the projector in V is
the tensor product of the projectors in V 1 and V2 . Let M1 and N1 be the range and null space of a projector in V 1
and M2 , N2 the range and null space of a projector in V 2

V1 = M1 ⊕ N1 ; x (1) = xM (1) + xN (1) ; xM (1) ∈ M1 , xN (1) ∈ N1 ; P1 (x (1)) = xM (1)


V2 = M2 ⊕ N2 ; y (2) = yM (2) + yN (2) ; yM (2) ∈ M2 , yN (2) ∈ N2 ; P2 (y (2)) = yM (2)

(P1 ⊗ P2 ) (x (1) ⊗ y (2)) = [P1 x (1)] ⊗ [P2 y (2)] = xM (1) ⊗ yM (2)


for an arbitrary vector we have
XX XX
(P1 ⊗ P2 ) ψ = (P1 ⊗ P2 ) cij ui (1) ⊗ vj (2) = cij [P1 ui (1)] ⊗ [P2 vj (2)]
i j i j
XX
(P1 ⊗ P2 ) ψ = cij ui,M (1) ⊗ vj,M (2)
i j

finally, as in the case of vectors, there exists some operators on V that cannot be written as tensor products of the
form A (1) ⊗ B (2).

1.32.3. The eigenvalue problem in tensor product spaces


Let us assume that we have solved the eigenvalue problem for an operator A (1) of V 1 . We want to seek for
information concerning the eigenvalue problem for the extension of this operator to the tensor product space V . For
simplicity, we shall assume a discrete spectrum

A (1) xin (1) = an xin (1) ; i = 1, 2, . . . , gn ; xin (1) ∈ V1

where gn is the degeneration associated with a n . We want to solve the eigenvalue problem for the extension of this
operator in V = V1 ⊗ V2
e (1) ψ = λψ ; ψ ∈ V1 ⊗ V2
A
from the definition of such an extension, we see that a vector of the form x in (1) ⊗ y (2) for any y (2) ∈ V2 is an
e (1) with eigenvalue an
eigenvector of A
   
Ae (1) xin (1) ⊗ y (2) = A (1) xin (1) ⊗ y (2) = an xin (1) ⊗ y (2) ⇒
   
Ae (1) xi (1) ⊗ y (2) = an xi (1) ⊗ y (2)
n n
64 CAPÍTULO 1. LINEAR OR VECTOR SPACES

it is natural to ask whether any eigenvector of A e (1) can be generated in this way. We shall see that it is true if

A (1) is an observable in V1 . Assuming it, the set of orthonormal eigenvectors xin (1) forms a basis in V1 . If we
now take an orthonormal basis {ym (2)} in V2 , then the set of vectors
 i,m  i
ψn ≡ xn (1) ⊗ ym (2)
n o
forms an orthonormal basis in V . It is clear that the set ψni,m consists of eigenvectors of A e (1) with eigenvalues
an , and since they are a basis, a complete orthonormal set of eigenvectors of A e (1) have been generated with the
procedure explained above. This in turn means that if A (1) is an observable in V 1 , its extension A e (1) is also an
observable in V . Further, the spectrum of A e (1) coincides with the spectrum of A (1). Notwithstanding, it worths to
say that if N2 is the dimension of V2 , if an is gn −fold degenerate in V1 , it will be gn · N2 −degenerate in V . This is
because for a given eigenvector xin (1) in V1 , there are N2 eigenvectors ψni,m ≡ xin (1) ⊗ ym (2) since m = 1, . . . , N2 .
We know that each eigenvalue an of A (1) in V1 defines an eigensubspace V1,an in V1 with gn dimension. The
corresponding eigensubspace generated by a n in V is a N2 · gn subspace Van . The projector onto V1,an is written by

V1 = V1,an ⊕ V1,a n
; x (1) = xan (1) + x⊥ ⊥ ⊥
an (1) ; xan (1) ∈ V1,an , xan (1) ∈ V1,an
P1an (x (1)) = xan (1)

and its extension to V is defined as


   
Pe1an ≡ P1an ⊗ I2 ; Pe1an ψni,m ≡ Pe1an xin (1) ⊗ ym (2) = P1an xin (1) ⊗ ym (2)
Pe1an ψni,m = xan (1) ⊗ ym (2)

Now assume that we have a sum of operators of both spaces


e (1) + B
C=A e (2)

where A (1) and B (2) are observables in their corresponding spaces, with the following eigenvalues and eigenvectors

A (1) xin (1) = an xin (1) ; i = 1, 2, . . . , gn ; xin (1) ∈ V1


k k k
B (2) ym (2) = bm ym (2) ; k = 1, 2, . . . , hm ; ym (2) ∈ V2

we have seen that A e (1) and B


e (2) commute, so they should have a commom basis of eigenvectors in V . This basis
is precisely, the tensor product of their eigenvectors
h i h i
e (1) xi (1) ⊗ yk (2) = an xi (1) ⊗ yk (2)
A n m n m
h i h i
e i k i k
B (2) xn (1) ⊗ ym (2) = bm xn (1) ⊗ ym (2)

and they are also eigenvectors of C = Ae (1) + B


e (2)
h ih i h i
e (1) + B
A e (2) xin (1) ⊗ ym
k
(2) = (an + bm ) xin (1) ⊗ ymk
(2)
h i h i
C xin (1) ⊗ ym
k
(2) = cnm xin (1) ⊗ ymk
(2) ; cnm = an + bm

So that if C = A e (1) + B
e (2) the eigenvalues of C are the sums of the eigenvalues of A e (1) and B e (2). Besides, we
can form a basis of eigenvectors of C by taking the tensor product of the basis of A (1) and B (2).
It is important to emphasize that even if a n and bm are non-degenerate, it is posible that c nm be degenerate. As-
sume that an and bm are non-degenerate, and for a given c nm let us define all the sets of pairs {(n j , mj ) : j = 1, . . . , q}
such that anj +bmj = cnm . In that case, the eigenvalue cnm is q−fold degenerate, and every eigenvector corresponding
to this eigenvalue can be written as
Xq
 
cj xnj (1) ⊗ ymj (2)
j=1

in this case there are eigenvectors of C that are not tensor products.
1.33. RESTRICTIONS TO AN OPERATOR TO A SUBSPACE 65

1.32.4. Complete sets of commuting observables in tensor product spaces


For simplicity assume that A (1) forms a C.S.C.O. by itself in V 1 , while {B (2) , C (2)} constitute a C.S.C.O. in
V2 . We shall show that by gathering the operators of the C.S.C.O. in V 1 with the operators of C.S.C.O. in V2 , we
form a C.S.C.O. in V with their corresponding extensions.
Since A (1) is a C.S.C.O. in V1 , all its eigenvalues are non-degenerate in V 1
A (1) xn (1) = an x (1)
the ket x (1) is then unique within a constant factor. In V 2 the set of two operators {B (2) , C (2)} defines commom
eigenvectors {ymp (2)} that are unique in V2 within constant factors
B (2) ymp (2) = bm ymp (2) ; C (2) ymp (2) = cp ymp (2)
In V , the eigenvalues are N2 −fold degenerate. Similarly, there are N 1 linearly independent eigenvectors of B (2) and
C (2) associated with two given eigenvalues of the form (b m , cp ). However, the eigenvectors that are common to the
three commuting observables A e (1) , B
e (2) , C
e (2) are unique within constant factors
e (1) [xn (1) ⊗ ymp (2)] = an [x (1) ⊗ ymp (2)]
A
e (2) [xn (1) ⊗ ymp (2)] = bm [x (1) ⊗ ymp (2)]
B
e (2) [xn (1) ⊗ ymp (2)] = cp [x (1) ⊗ ymp (2)]
C
since {xn (1)} and {ymp (2)} were bases in V1 and V2 , we see
n that {xn (1) ⊗ ymp
o (2)} is a basis in V constituted by
e e e
commom eigenvectors of the three operators. Thus the set A (1) , B (2) , C (2) is a C.S.C.O. in V .

1.33. Restrictions to an operator to a subspace


It is useful in many applications to be able to restrict an operator to a certain subspace V q of a given vector
space V . Let us assume
V = V1 ⊕ . . . ⊕ V q ⊕ . . .
x = x 1 + . . . + x q + . . . x i ∈ Vi
Projectors, which are the natural operators to “restrict” a vector by extracting the components that are orthonormal
to a given subspace, will be also the natural operators to rectrict operators. Let P q the projector onto a subspace
Vq . A priori, we could think in defining a restriction by “restricting the vector” in which the operator will act on.
This is done by substracting all components orthogonal to the subspace V q by applying a projection, and then let
the operator A act on this projection so we have
A = APq ⇒ Ax = APq x = Axq
in this case we have restricted the domain of A appropiately, but once the operator A is applied, the image could
be outside of the subspace too. Hence, the projector must be applied again after the application of A in order to
b of the operator A to the subspace Vq as
restrict the image appropiately. We then define the restriction A
bq ≡ Pq A = Pq APq
A
so that both the domain and the range are restricted to V q . It can be easily checked that the matrix representation
of Abq is reduced to a submatrix in the Vq space. Let qk be the dimension of Vq . Let us use an ordered basis such
that the first qk terms expand Vq . Using such a basis we have
   
Abq = bq uj = (ui , Pq APq uj ) = (Pq ui , APq uj )
ui , A
ij

(ui , Auj ) if i, j ≤ qk
(Pq ui , APq uj ) =
0 if i > qk and/or j > qk
observe that the submatrix associated with i, j ≤ q k (i.e. assocaited with the Vq subspace), remains the same with
respect to the non-restricted matrix. But the elements outside of such a submatrix are zeros, showing that the new
operator only acts in Vq .
66 CAPÍTULO 1. LINEAR OR VECTOR SPACES

1.34. Functions of operators


Let A be an arbitrary operator. The operator A n with n being a non-negative integer is easily defined as
A0 ≡ I , An = AA · · · A (n times)
similarly for negative integers a consistent definition is
n
A−n ≡ A−1 with AA−1 = A−1 A = I
it is useful to define functions of operators. Assume that a function F can be expanded in certain domain in the
following way

X
F (z) = fn z n (1.128)
n=0
by definition, the function F (A) of the operator A corresponds to an expansion of the form (1.128) with the same
coefficients fn

X
F (A) = fn An (1.129)
n=0
for instance, the function eA of the operator A reads
X∞
An A2 A3
eA = = I +A+ + + ...
n=0
n! 2! 3!
the convergence of series of the type (1.129) depends on the eigenvalues of A and the radius of convergence of the
function (1.128). We shall not treat this topic in detail.
If F (z) is a real function the coefficients f n are real. On the other hand, if A is hermitian then F (A) also is,
as can be seen from (1.129). Owing to the analogy between real numbers and hermitian operators this relation is
quite expected. Now, assume that xi,k is an eigenvector of A with eigenvalue a i we then have
Axi,k = ai xi,k ⇒ An xi,k = ani xi,k
and applying the eigenvector in Eq. (1.129) we find

X ∞
X
F (A) xi,k = fn ani xi,k = xi,k fn ani
n=0 n=0
F (A) xi,k = F (ai ) xi,k
so that if xi,k is an eigenvector of A with eigenvalue a i , then xi,k is also eigenvector of F (A) with eigenvalue F (a i ).
On the other hand, if the operator is diagonalizable (this is the case for observables), we can find a basis in which
the matrix representative of A is diagonal with the eigenvalues a i in the diagonal. In such a basis, the operator
F (A) has also a diagonal representation with elements F (a i ) in the diagonal. For example let σz be an operator
that in certain basis has the matrix representation
 
1 0
σz =
0 −1
in the same basis we have    
σz e1 0 e 0
e = =
0 e−1 0 1/e
if A and B do not commute, we have that in general the operators F (A) and F (B) do not commute either. For
instance
X∞ ∞ ∞ ∞
An X B m X X An B m
eA eB = = (1.130)
n! m! n! m!
n=0 m=0 n=0 m=0
X∞ ∞ ∞ X ∞
B X
m An X B m An
eB eA = = (1.131)
m=0
m! n=0
n! m=0 n=0
m! n!
X∞
(A + B)n
eA+B = (1.132)
n!
n=0
1.35. DIFFERENTIATION OF OPERATORS 67

these three expressions are in general different from each other unless [A, B] = 0. We see by direct inspection of
Eqs. (1.130, 1.131, 1.132) that if A and B commute, then F (A) and F (B) also do. Notice that when A, B commute
they can be diagonalized simultaneously and so F (A) and F (B), which is another way to see that if [A, B] = 0
then [F (A) , F (B)] = 0.

1.34.1. Some commutators involving functions of operators


Theorem 1.70 Suppose we have two operators A and B such that B commutes with their commutator, that is

[B, C] = 0 ; C ≡ [A, B] (1.133)

if F (B) is a function of the operator B then we have

[A, F (B)] = [A, B] F 0 (B) (1.134)

where F 0 (B) is the derivative of F (B) “with respect to B” defined as



X ∞
X
n 0
F (B) = fn B ⇒ F (B) ≡ nfn B n−1 (1.135)
n=0 n=0

Proof : The commutator [A, F (B)] is given by


" ∞
# ∞
X X
[A, F (B)] = A, fn B n = fn [A, B n ] (1.136)
n=0 n=0

we show by induction that


[A, B n ] = [A, B] nB n−1 (1.137)
for n = 0 we have B n = I and both sides clearly vanish. Now let us assume that it works for n and show that it is
satisfied by n + 1. Applying Eq. (1.40), and taking into account Eqs. (1.137, 1.133) we have
 
A, B n+1 = [A, BB n ] = [A, B] B n + B [A, B n ] = [A, B] BB n−1 + B [A, B] nB n−1
= CBB n−1 + BCnB n−1 = CB n + nCBB n−1 = C (n + 1) B n
 n+1

A, B = [A, B] (n + 1) B n

which shows the validity of Eq. (1.137). Replacing Eq. (1.137) in Eq. (1.136), we find

X
[A, F (B)] = [A, B] fn nB n−1 = [A, B] F 0 (B)
n=0

Corollary 1.71 It is straightforward to show that if both operators commute with their commutator we see that
equations
[A, F (B)] = [A, B] F 0 (B) ; [G (A) , B] = [A, B] G0 (B) (1.138)
are satisfied simultaneously. A very important case in Physics occurs when [A, B] = αI. In that case, we have

[A, B] = αI ⇒ [A, F (B)] = αF 0 (B) ; [G (A) , B] = αG0 (B) (1.139)

1.35. Differentiation of operators


Let A (z) an operator that depends on the arbitrary variable z. We define the derivative of A (z) with respect
to z as
dA A (z + ∆z) − A (z)
= lı́m (1.140)
dz ∆z→0 ∆z
provided that this limit exists. Operating A on an arbitrary vector x and using a basis {u i } independent of z, we
have
A (z) x = A (z) xi ui = xi A (z) ui = xi uj Aji (z) (1.141)
68 CAPÍTULO 1. LINEAR OR VECTOR SPACES

since dA/dz is another operator, it makes sense to talk about its matrix representation
 
dA (z) dA (z) dA (z) dA (z)
x= xi ui = x i ui = x i uj (1.142)
dz dz dz dz ji

Applying the derivative on both extremes of Eq. (1.141), and taking into account that the basis {u i } is independent
of z, we have
d dAji (z)
A (z) x = xi uj (1.143)
dz dz
comparing Eqs. (1.142, 1.143) we obtain  
dA (z) dAji (z)
=
dz ji dz
so the matrix representative of the derivative of A is obtained by taking the derivative of each of its elements 11 .
The differentiation rules are similar to the ones in ordinary calculus

d dF dG d dF dG
(F + G) = + ; (F G) = G+F (1.144)
dz dz dz dz dt dt
except that care must be taken with the order of appearance for the operators involved. Let us examine the second
of this equations, applying F G to an arbitrary vector x and using a basis {u i } we have

(F G) x = xi uj (F G)ji

taking the derivative on both sides we have


     
d (F G) d d d d
= (F G)ji = [Fjk Gki ] = Fjk Gki + Fjk Gki
dz ji dz dz dz dz
"    #
dF dG
= Gki + Fjk
dz jk dz ki

in matrix form we see that


d (FG) dF dG
= G+F
dz dz dz
since there is a one-to-one isomorphism from the operators onto the matrices, we see that this relation is also valid
for the operators.

1.35.1. Some useful formulas


Applying the derivation rules we can develop some identities for functions of operators. Let us calculate the
derivative of the operator eAt . By definition we have

X
At (At)n
e =
n=0
n!

differentiating the series term by term we have

X∞ X∞ X∞
d At An An (At)n−1
e = ntn−1 =0+ ntn−1 =A
dt n=0
n! n=1
n! n=1
(n − 1)!
"∞ # "∞ #
d At X (At)k X (At)k
e = A = A
dt k! k!
k=0 k=0
11
Care must be taken to distinguish between the derivative in Eq. (1.135) and the derivative in Eq. (1.140). In Eq. (1.135) the derivative
is taken with respect to B as the “variable of derivation”. On the other hand, in Eq. (1.140) the variable to derive with, is a parameter
z from which our matrix depend on.
1.36. STATE SPACE AND DIRAC NOTATION 69

where we have used the assignment k = n − 1. The series in the brackets is e At once again, so we have
d At
e = AeAt = eAt A (1.145)
dt
in this case eAt and A commutes because only one operator is involved. Suppose that we want to differentiate e At eBt .
Applying Eqs. (1.144, 1.145) we have
 
d  At Bt  d eAt Bt At d e
Bt
e e = e +e = AeAt eBt + eAt BeBt
dt dt dt
the operator A can pass over eAt if desired but not over eBt unless that A and B commute. Similarly, B can pass
over eBt but not over eAt .
However, even if a single operator appears we should be careful with the order sometimes. For instance, if A (t)
is an arbitrary function of time then
d A(t) dA A(t)
e 6= e (1.146)
dt dt
it could be checked that A (t) and dA (t) /dt must commute with each other for the equality to be valid.
Consider again two operators that commute with their commutator, we shall show that
1
[A, [A, B]] = [B, [A, B]] = 0 ⇒ eA eB = eA+B e 2 [A,B] (Glauber 0 s f ormula) (1.147)

let define F (t) with t real as

dF (t)  
F (t) ≡ eAt eBt ; = AeAt eBt + eAt BeBt = A eAt eBt + eAt Be−At eAt eBt
dt
dF (t)  At −At

= A + e Be F (t) (1.148)
dt
since A, B commute with their commutator, we can apply Eq. (1.138), so that
 At 
e , B = t [A, B] eAt ⇒ eAt B = BeAt + t [A, B] eAt
⇒ eAt Be−At = B + t [A, B]

substituting this expression in Eq. (1.148) we get

dF (t)
= {A + B + t [A, B]} F (t) (1.149)
dt
by hypothesis, A + B commutes with [A, B], so that the differential equation (1.149) can be integrated as if A + B
and [A, B] were numbers
1 2
F (t) = F (0) e(A+B)t+ 2 [A,B]t
setting t = 0 we see that F (0) = I, thus we obtain
1 2
F (t) = e(A+B)t+ 2 [A,B]t

setting t = 1 and taking into account again that A + B commutes with [A, B], we obtain (1.147). It is necessary to
emphasize that this equation is valid only if A and B commutes with [A, B].

1.36. State space and Dirac notation


We have defined the space of Physical states as the one constituted by functions ψ (r) square-integrable in a given
volume. The space with these characteristics is denoted by L 2 , but since in general with add some requirements to
these functions, we actually work in a subspace z ⊆ L 2 . On the other hand, we have seen that several bases can be
constructed to represent those functions. Therefore, the Physical system will be described by either the functions
ψ (r) or by the sete of its coordinates in a given representation. When the representation is discrete we have a
70 CAPÍTULO 1. LINEAR OR VECTOR SPACES

numerable set of coordinates (Fourier coefficients) while in the case of continuous bases, the set of coordinates is
continuous as well (Fourier transforms). In particular, the continuous basis denoted as ξ r0 (r) shows that the function
ψ (r) can be considered as a coordiante system as well, because in this basis, each coordinate is defined as ψ (r 0 )
i.e. the value of ψ at each fixed point r 0 of the volume12 .
We have now a situation similar to the one obtained in R 3 , we can define a vector by a triple of coordinates in
any basis defined by a set of coordinate axes. However, vectors in R 3 can be defined geometrically (intrinsically),
and its algebra can be performed in a coordinate-free form.
In the same way, we wish to define our state vector in a coordinate free (or intrinsic) way. The abstract space of
state vectors of a particle is denoted as E r which should be isometrically isomorphic with z. We should also define
the notation and algebra on the Er space.
Though we initially start with Er as identical to z, we shall see that it permits a generalization of the formalism
when the states in zdo not contain all the Physical information of the system, as is the case when spin degrees of
freedom are introduced in the formalism. Hence, the algebra that we shall develop now will be valid when these
generalizations are carried out. In developing this algebra we are going to present the Dirac notation which is useful
in practical calculations

1.37. Dirac notation


We are going to establish a one-to-one correspondence between the states of z and the states of E r , though the
latter will be extended later. Thus to every square-integrable function ψ (r) in z we make to correspond an abstract
vector in Er in the form
ψ (r) ↔ |ψi
an abstract vector in the notation |ψi will be called a ket. Notice that no r−dependence appears in |ψi. Indeed,
ψ (r) is interpreted in this framework as a representation of |ψi in which each ψ (r) is a coordinate in the basis given
by ξr (r0 ). Therefore, r plays the role of index (three continuous indices) for the particular basis used.
The space of states of a particle in one dimension is denoted as E x , while in three dimensions is Er .

1.37.1. Elements of the dual or conjugate space Er∗


In section 1.9.2 we defined a one-to-one correspondence between vectors (kets) of a Hilbert space and functionals
(bras) in the conjugate (dual) space in the following way (see Eqs. 1.29, 1.30)

|ψi ↔ f|ψi ; f|ψi (|ϕi) ≡ (|ψi , |ϕi)

Dirac notation designates f|ψi as hψ| which is called a bra. The correspondence above and the inner product will
be written as
|ψi ∈ Er ↔ hψ| ∈ Er∗ ; hψ| (|ϕi) ≡ (|ψi , |ϕi)
it induces a natural notation for the inner product

((|ψi , |ϕi)) ≡ hψ| ϕi

this is also called a bracket (i.e. the union of a bra with a ket). Let us now write the properties developed in section
1.9.2 Eq. (1.31), with this new notation

fα|ψi+β|ϕi = α∗ f|ψi + β ∗ f|ϕi


α |ψi + β |ϕi ∈ Er ↔ α∗ hψ| + β ∗ hϕ| ∈ Er∗

which is consistent with the properties of the inner product

(α |ψi + β |ϕi , |χi) = (α∗ hψ| + β ∗ hϕ|) |χi ⇒


hαψ + βϕ| χi = α∗ hψ| χi + β ∗ hϕ| χi
12
Notice that this is a simple way of defining an scalar field. A scalar field is completely delimited by defining its value at each point
of the space in which the field is defined (at a given time). In this case the number of coordinates is cleraly the number of points in our
space.
1.37. DIRAC NOTATION 71

since the functionals (bras) are linear by definition, a linear combination of kets gives

f|ψi (α |ϕi + β |χi) ≡ αf|ψi (|ϕi) + βf|ψi (|χi)

in Dirac notation it reads


hψ| αϕ + βχi = α hψ| ϕi + β hψ| χi
from these facts it is clear that for any scalar α

|αψi = α |ψi ; hαψ| = α∗ hψ| (1.150)

now since

(|ψi , |ϕi) = (|ϕi , |ψi)∗ ⇒


hψ| ϕi = hϕ| ψi∗

1.37.2. The correspondence between bras and kets with hyperbases


We have seen that hyperbases are sets of elements from which any element of the space can be expanded despite
those elements do not belong to the space under study. On the other, hand we have seen that the correspondence
between vectors and functionals (kets and bras) is one-to-one and onto. However, when hyperbases are used we shall
see that some linear functionals (bras) can be well-defined while there is not a well-defined corresponding vector
(ket)
(ε)
Assume for example that we have a ket in z given by a sufficiently regular function ξ x0 (x) such that
Z ∞
dx ξx(ε)
0
(x) = 1
−∞
E D
(ε) (ε)
with the form of a peak of height ∼ 1/ε and width ∼ ε centered at x = x 0 . If ε 6= 0 then ξx0 ∈ Ex . Let ξx0 ∈ Ex∗
be its associated bra. The idea is to have a function that conveeges to the Dirac delta function when ε → 0. For
each |ψi ∈ Ex we have that
  Z ∞
hξx(ε)
0
|ψi = ξ (ε)
x0 , ψ = dx ξx(ε)
0
(x) ψ (x) (1.151)
−∞

now we let ε to approach zero, and we find that

lı́m ξx(ε)
0
/ zx

ε→0

since the square of itsD norm tend to 1/ε and diverges. Nevertheless, in the limit ε → 0 the expression (1.151) is still
(ε)
well-defined, so that ξx0 is still associated with a functional that can be applied to any element of the state space,
we shall denote this bra as hξx0 | and this functional associates with each vector |ψi ∈ E x the value ψ (x0 ) taken on
by the associated wave function in zx at the point x0
D

lı́m ξx(ε)
0
= hξx0 | ∈ Ex∗ if |ψi ∈ Ex ⇒ hξx0 | ψi = ψ (x0 )
ε→0

then the bra hξx0 | ∈ Ex∗ exists but there is not a ket associated with it in the hyperbasis.
This dissymetry is associated with the use of a hyperbasis. The elements of the hyperbasis do not belong to z x
and so has no elements associated in E x either. However, the inner product of it with any element of z x is well-
defined and it permits to associate a bra belonging to E x∗ . Indeed, by the theory of Hilbert spaces the corresponding
ket must exists, what really happens is that we cannot construct it as an element of our hyperbasis, this is perfectly
undestandable since such elements are out of our Hilbert space.
Notice that we have indeed extended the concept of inner product and we have applied it to elements out of our
Hilbert space. For practical reasons it is usual to associate the bras hξ x0 | ∈ Ex∗ to the “generalized ket” |ξx0 i that
are not physical states but are advantageous from the practical point of view.
72 CAPÍTULO 1. LINEAR OR VECTOR SPACES

Another example is the continuous basis consisting of plane waves truncated outside an interval of width L

1 L L
vp(L) (x) = √ eip0 x/~ ; − ≤x≤
0
2π~ 2 2

(L)
with the function vp0 (x) going rapidly
E to zero outside of that interval, but keeping continuity and differentiability.
(L)
The ket associated is denoted as vp0
E
(L)
vp(L)
0
(x) ∈ z x ↔ v p 0
∈ Ex

the square of the norm is ∼ L/2π~, diverges if L → ∞. Therefore


E

lı́m vp(L)
0

/ Ex
L→∞
D E
(L) (L)
now we consider the limit of the bra vp0 associated with vp0 and applied to an arbitrary vector |ψi ∈ E x

D   Z L/2
1
vp(L)
0
ψi = v (L)
p0 , ψ ' √ dx e−ip0 x/~
2π~ −L/2

in the limit L → ∞ we find ψ̄ (p0 ) i.e. the Fourier transform of ψ (x) evaluated at p = p 0 . From which we see that
the inner product converges and is well-defined
D

lı́m vp(L)
0
≡ hvp0 | ∈ Ex∗
L→∞
E
(L)
but it does not correspond to the ket associated with the limit of kets of the form vp0 .
E
(ε)
We could take the results above with the following point of view, the ket |ξ x0 i means the ket given by ξx0 with
ε much smaller than any other length involved in the problem, so we are really working in E x . The results obtained
at
the E end depends very little on ε as long as it is much smaller than any other length in the problem. Certainly,
(ε)
ξx0 does not form an orthonormal basis, and do not satisfy a closure realtion with ε 6= 0, but it aproaches the
orthonormality and closure conditions as ε becomes very small.
The introduction of generalized kets, will ensure that we balance bras and kets in the limits concerned above.
Generalized kets do not have finite norm, but they can acquire a finite inner product with kets of our space of states.

1.38. The action of linear operators in Dirac notation


Linear operators are characterized easily in Dirac notation
0
ψ = A |ψi ; |ψi , ψ 0 ∈ Ex
A (α |ψi + β |ϕi) = αA |ψi + βA |ϕi

the product of operators writes


AB |ψi = A (B |ψi)

it is also important to calculate the inner product between |ϕi and |ψ 0 i = A |ψi in the form

|ϕi , ψ 0 = (|ϕi , A |ψi) = hϕ| (A |ψi)

this is usually denoted simply as


hϕ| (A |ψi) ≡ hϕ| A |ψi
1.38. THE ACTION OF LINEAR OPERATORS IN DIRAC NOTATION 73

1.38.1. Projectors
The simplest of all projectors are the ones in which the range are one dimensional subspaces of the Hilbert
space. Let {|ψi} be the one dimensional space spanned by the single non-zero ket |ψi. The projector P |ψi takes an
arbitrary ket |ϕi ∈ Ex and maps it into {|ψi} i.e.

P|ψi |ϕi = α |ψi ; α ≡ hψ| ϕi

in Dirac notation it could be written as

P|ψi ≡ |ψi hψ| ; P|ψi |ϕi = (|ψi hψ|) |ϕi = |ψi hψ| ϕi = α |ψi (1.152)

the most important property of a projector is the idempotence so that


2
P|ψi ≡ (|ψi hψ|) (|ψi hψ|) = |ψi hψ| ψi hψ| = P |ψi
⇒ hψ| ψi = 1

so the definition of P|ψi Eq. (1.152) as a projector is consistent only if |ψi is normalized.
Now we can write the projector onto a subspace of more than one dimension. If n j is the dimension of the
(n )
subspace Mj j ⊆ Ex we can define the projector from a complete orthonormal set
 i
uj ; i = 1, .., nj (1.153)

that spans such a subspace

(n1 ) (nj )
Ex = M 1 ⊕ . . . ⊕ Mj ⊕ ...
x = x1 + . . . + x j + . . .
n1 nj
X (1) i
X (j)
x = αi u1 + . . . + αi uij + . . .
i=1 i=1
 
(n)
αk ≡ ukn , x

nj
X (j)
P Mj x = x j = αi uij
i=1
nj
X 
P Mj x = uij , x uij
i=1

in Dirac notation it is
nj n
X i Xj
i
i 
PMj |xi = huij
|xi uj = u uj |xi
j
i=1 i=1
thus a direct notation for the projector is
nj
X i
i
P Mj ≡ uj uj (1.154)
i=1
(nj )
it is clear that this is a projector as long as Eq. (1.153) defines an orthonormal set that spans M j of dimension
nj .
nj ! nj ! nj nj
X i
i X E D X X ED
2 uj uj k k i i k
P Mj = u
j u j = u j hu j uj ukj
i=1 k=1 i=1 k=1
nj nj D X nj
X X i
i
2 i k uj uj = P M
PM j
= uj δik uj = j
i=1 k=1 i=1
74 CAPÍTULO 1. LINEAR OR VECTOR SPACES

If we have an observable A, its spectrum of eigenvectors forms a basis and we can construct a complete orthonormal
set. In that case, the spectral theorem (assuming it can be extended to infinite dimension for observables) says that
the identity and the observable A itself can be decomposed by means of the projectors built on each eigensubspace
of the observable, if Mi is the eigensubspace generated by the eigenvalue λ i of A we have that

Ex = M 1 ⊕ . . . ⊕ M i ⊕ . . .
x = x1 + . . . + x i + . . .
Pi x = x i

in Dirac notation we have


ni E D
X j
Pi = ui uji
j=1

the spectral theorem says that



X ni E D
∞ X
X j
Pi = ui uji = I (1.155)
i=1 i=1 j=1

X X∞ X ni ED

λi Pi = λi uji uji = A (1.156)
i=1 i=1 j=1

n o
these forms will be applied frequently in quantum mechanics. Notice that Eq. (1.155) is valid if and only if uji
is a complete orthonormal set. Thus the decomposition of the identity in projectors is usually taken as the closure
relation for the basis (or hyperbasis) in which we are working.
It is also usual to work with a more general type of projector of the form

P = |ψi hϕ| (1.157)

applying an arbitrary vector on it we find

|ψi hϕ| χi = α |ψi ; α ≡ hϕ| χi

this is a projector on the one dimensional subspace {|ψi}. This operator is idempotent only if hϕ| is normal, however
it defines a non-orthogonal projection, since we shall see later that this operator is not self-adjoint or hermitian.

1.39. Hermitian conjugation


We have defined the action of a linear operator on a ket. We see that it induces a natural action of the operator
on the bra
f|ϕi (A |ψi) = (|ϕi , A |ψi) ≡ gA|ϕi (|ψi) ∀ |ψi ∈ Ex (1.158)
the definition of the new functional g A|ϕi from a given f|ϕi and a given A is written in Dirac notation as 13

A
f|ϕi ≡ hϕ| → gA|ϕi ≡ hϕ| A (1.159)

and Eq. (1.158) is written as


hϕ| (A |ψi) = (hϕ| A) (|ψi) (1.160)
so it is written simply as
hϕ| A |ψi
13
Notice that gA|ψi is a new functional induced from f|ϕi and A. Of course gA|ψi must be associated to some vector i.e. gA|ψi = f|χi
for some |χi in our vector space, but it does not concern us. In particular, it is very important to observe that g A|ψi 6= fA|ψi .
1.39. HERMITIAN CONJUGATION 75

we should check that g is indeed a functional i.e. that it is a continuous linear mapping of the vectors into the
complex numbers, the basic properties of functionals are reproduced
gαA|ϕi+βA|χi (ψ) = α∗ gA|ϕi (|ψi) + β ∗ gA|χi (|ψi)
gA|ϕi (α |ψi + β |χi) = αgA|ϕi (|ψi) + βgA|ϕi (|χi)
Further, the association (1.159) is linear, to see it, we write a linear combination of bras
hϕ| = λ1 hϕ1 | + λ2 hϕ2 |
which means that
hϕ| ψi = λ1 hϕ1 | ψi + λ2 hϕ2 | ψi ; ∀ |ψi ∈ Ex
then
(hϕ| A) (|ψi) = hϕ| (A |ψi) = (λ1 hϕ1 | + λ2 hϕ2 |) (A |ψi)
= λ1 hϕ1 | (A |ψi) + λ2 hϕ2 | (A |ψi)
= λ1 (hϕ1 | A) |ψi + λ2 (hϕ2 | A) |ψi
since ψ is arbitrary we find
hϕ| A = λ1 hϕ1 | A + λ2 hϕ2 | A
notice that is different to start with a linear combination of kets from starting with a linear combination of bras,
because the linear combination of a ket corresponds to a linear combination with conjugate coefficients in the bras
(antilinearity). The order is important, the new bra induced from hϕ| by the operator A is written as hϕ| A and not
in the form A hϕ|. For instance if we apply this relations to a ket the first expression hϕ| A |ψi is a complex number,
while the second A hϕ| ψi = αA is another operator.

1.39.1. The adjoint operator A† in Dirac notation


In Dirac notation we write |ψ 0 i = A |ψi ≡ |Aψi. We now want to know what is the corresponding bra |ψ 0 i ↔
hψ 0 |≡ hAψ|. In mathematical notation the question is

|ψi → f|ψi ; ψ 0 = A |ψi ≡ |Aψi ⇒
0 ?
ψ → f|ψ0 i

to elucidate the answer we apply an arbitrary vector |ϕi to the functional we want to find
fA|ψi (|ϕi) = f|ψ0 i (|ϕi) = hψ 0 |ϕi = hAψ| ϕi = hψ| A† ϕi
where we have applied property (1.35). Now we apply property (1.160) to get
 E  

f|ψ0 i (|ϕi) = hψ| A† ϕ = hψ| A† (|ϕi)

since this is valid for |ϕi arbitrary we find



f|ψ0 i ≡ ψ 0 = hψ| A†
in Dirac notation we have then
0
ψ = A |ψi ≡ |Aψi

0
ψ = hψ| A† ≡ hAψ|
notice that as before, the mapping of the dual space into itself is denoted with the operator defined on the right-hand
side and not on the left14 . Further by assigning A = λI and taking into account that A † = λ∗ I we have that

0
ψ = hλψ| = hλIψ| = hψ| (λI)† = hψ| λ∗ I ⇒
hλψ| = λ∗ hψ|
14
Stricktly speaking, a mapping of the dual (or conjugate) space into itself is carried out by the conjugate operator instead of the
adjoint operator since the latter maps the Hilbert space into itself and not the dual. Notwithstanding, from the practical point of view
this subtlety is irrelevant.
76 CAPÍTULO 1. LINEAR OR VECTOR SPACES

in agreement with Eq. (1.150). On the other hand since



0
ψ ϕi = hϕ| ψ 0 i∗

we see that
hψ| A† |ϕi = hϕ| A |ψi∗ (1.161)
and we remember the most important properties of the adjoint operators (see Eqs. (1.34))
 †
A† = A , (αA + βB)† = α∗ A† + β ∗ B † (1.162)
(AB)† = B † A† (1.163)

1.39.2. Mathematical objects and hermitian conjugation in Dirac notation


In general, the order of bras, kets and operators is of major importance, the only objects we can put in any
order are scalars, for instance the mathematical objects

λ hϕ| B |ψi ; λ hψ| B |ϕi ; λ hψ| ϕiB ; λ |ψi hϕ| B (1.164)

are all distinct each other, the first and second are complex numbers, while the last two are operators, as can be
verified by applying an arbitrary vector on the right-hand side of these objects. However, expressions like

λ |ψi hϕ| B ; |ψi λ hϕ| B ; |ψi hϕ| λB ; |ψi hϕ| Bλ

are all equal, indeed we could think about the multiplication by a scalar as equivalent to the operator λI which
commutes with everything.
We shall now define a useful operation that we call hermitian conjugation. Our basic objects are kets, bras,
operators and scalars. In general words, hermitian conjugations are mappings induced by the existence of the dual
E ∗ of our Hilbert space E.
A ket |ψi ∈ E is naturally mapped into a bra hψ| ∈ E ∗ .
A bra hψ| ∈ E ∗ is naturally mapped into an element of the conjugate space of E ∗ , i.e on E ∗∗ . However, for Hilbert
spaces it can be shown that E ∗∗ = E hence the bra is mapped into its corresponding ket 15 .
An operator A in ß(E) is mapped naturally into the conjugate vector A ∗ in ß(E ∗ ) but the inner product structure
permits in turn to define another operator A † in ß(E) from A∗ and from the practical point of view we regard A ∗
and A† as identical. Thus the hermitian conjugation in this case will be the mapping A → A † .
Now finally for scalars. Taking into account that for all practical uses scalars λ can be considered as operators
in ß(E) of the form λI we see that the natural hermitian conjugation gives λI → (λI) † = λ∗ . Therefore, the natural
conjugation operation is λ → λ∗ .
We notice now that the hermitian conjugation reverses the order of the objects to which it is applied. We have
seen that (A |ψi)† = hψ| A† , Eq. (1.163) shows that the order of a product of operators is reversed when we apply
the “adjointness” (or hermitian conjugation) on that product, when scalars are involved the place in which scalars
are located is irrelevant.
By the same token, let us see what is the conjugate of the non orthogonal projection defined in (1.157)

P = |ψi hϕ| ; P † = (|ψi hϕ|)†

applying Eq. (1.161) we find

hχ| (|ψi hϕ|)† |ηi = [hη| (|ψi hϕ|) |χi]∗ = hη| ψi∗ hϕ| χi∗ = hχ| ϕi hψ| ηi
hχ| (|ψi hϕ|)† |ηi = hχ| (|ϕi hψ|) |ηi ; ∀ |ηi , |χi ∈ E

then we have
(|ψi hϕ|)† = |ϕi hψ| (1.165)
15
In Banach spaces, the property B ∗∗ = B is called reflexibity and is not in general satisfied. For Hilbert spaces, reflexibity is automatic
from which we can assign the dual element of a dual element to the original vector. This is another satisfying property of Hilbert spaces,
not accomplished by general Banach spaces.
1.40. THEORY OF REPRESENTATIONS OF E IN DIRAC NOTATION 77

once again, the hermitian conjugation converts each object in its hermitian conjugate and reverse the order of such
objects.
These observations permit to give a rule to obtain the hermitian conjugate of a mathematical object composed
by a juxtaposition of bras, kets, operators and scalars. The rule is (a) replace each object by its hermitian conjugate

|ψi → hψ| , hϕ| → |ϕi , A → A † , λ → λ∗

and (b) reverse the order of the factors, taking into account that the position of the scalars are not relevant.
The hermitian conjugate of the objects defined in (1.164) are given by

[λ hϕ| B |ψi]† = hψ| B † |ϕi λ∗ = λ∗ hψ| B † |ϕi = [λ hϕ| B |ψi]∗


[λ hψ| B |ϕi]† = hϕ| B † |ψi λ∗ = λ∗ hϕ| B † |ψi = [λ hψ| B |ϕi]∗
[λ hψ| ϕiB]† = B † hϕ| ψiλ∗ = λ∗ hϕ| ψiB † = (λ hψ| ϕi)∗ B †
[λ |ψi hϕ| B]† = B † |ϕi hψ| λ∗ = λ∗ B † |ϕi hψ| = λ∗ B † [|ψi hϕ|]†

in the first two expressions the original mathematical objects are scalars and hence the hermitian conjugates are also
scalars (the complex conjugates of the original scalars). In the third expression the original object is an operator
and its hermitian conjugate is also an operator (the adjoint of the original operator). In the fourth expression, the
original object is a product of two operators and a scalar (a scalar times a projection times the operator B) and the
adjoint is the product of the scalar and adjoint of each of the operators in reverse order. In each case, the scalars
are located in the most convenient place since their positions are unimportant. Indeed, we can put the conjugate of
the scalars in any place, for instance in the case

[λ |χi hψ| B |ϕi]† = [λ hψ| B |ϕi |χi]† = λ∗ hψ| B |ϕi∗ hχ|

that coincides with the rules when we take into account Eq. (1.161).
It is important to see that according to (1.165) the projectors given by (1.152) are hermitian, thus according to
theorem 1.44, they are orthogonal projectors (i.e. projectors in the sense of a Hilbert space), this in turn says that
the sums in (1.154) are also orthogonal projectors (see theorem 1.50). On the other hand, the projectors described
by (1.157) with |ϕi 6= |ψi are non-hermitian and consequently they are non-orthogonal projections.

1.40. Theory of representations of E in Dirac notation


For most of our purposes we shall use a representation with respect to orthonormal bases. The particular problem
suggests the particular basis to work with. Most of the developments here are not new but gives us a very good
opportunity of using the Dirac notation and be aware of its great advantages as a tool for calculations. We are going
to describe the representation theory in both discrete and continuous bases.

1.40.1. Orthonormalization and closure relation


In Dirac notation, the orthonormality of a set of discrete {|u i i} or continuous {|wα i} orthonormal kets is
expressed by

hui |uj i = δij ; hwα |wα0 i = δ α − α0

we emphasize once again that hwα |wα i diverges so that |wα i does not have a bounded norm and thus it does not
belong to our state space. We call |w α i generalized kets because they can be used to expand any ket of our state
space.
A discrete set {ui } or a continuous one {wα } constitutes a basis if each ket |ψi of our state space can be expanded
in a unique way on each of these sets
X Z
|ψi = ci |ui i ; |ψi = dα c (α) |wα i (1.166)
i
78 CAPÍTULO 1. LINEAR OR VECTOR SPACES

the problem is considerably simplified if we asume that the bases are orthonormal, because in that case we can
extract the coefficients by applying a bra hu k | or hwα0 | on both sides of these equations
X Z
huk |ψi = huk | ci |ui i ; hwα0 |ψi = hwα0 | dα c (α) |wα i
i
X X
huk |ψi = ci huk | ui i = ci δki = ck
Zi i
Z
 
hw |ψi =
α0 dα c (α) hw | wα i =
α0 dα c (α) δ α − α0 = c α0

from which we obtain the familiar result



ck = huk |ψi ; c α0 = hwα0 |ψi (1.167)

replacing the Fourier coefficients (1.167) in the expansions (1.166) we find


!
X X X
|ψi = hui |ψi |ui i = |ui i hui |ψi = |ui i hui | |ψi
i i i
Z Z Z 
|ψi = dα hwα |ψi |wα i = dα |wα i hwα |ψi = dα |wα i hwα | |ψi

since this is valid for any ket |ψi ∈ E the operators in parenthesis must be the identity operator on E
X Z
P{ui } ≡ |ui i hui | = I ; P{wα } ≡ dα |wα i hwα | = 1 (1.168)
i

we can reverse the steps and show that applying the identity in the form given by Eqs. (1.168) we obtain that any
|ψi ∈ E must be a unique linear combination of {|u i i} or {|wα i}
!
X X
|ψi = I |ψi = P{ui } |ψi = |ui i hui | |ψi = |ui i hui | ψi
i i
X
|ψi = ci |ui i ; ci ≡ hui | ψi (1.169)
i

Z  Z
|ψi = I |ψi = P{wα } |ψi = dα |wα i hwα | |ψi = dα |wα i hwα | ψi
Z
|ψi = dα c (α) |wα i ; c (α) ≡ hwα | ψi

these facts show that Eqs. (1.168) manifest a closure relation in Dirac notation. This is consistent with our discussion
in Sec. 1.38.1 that led to Eq. (1.155), in which we saw that each element of the form |u i i hui | is a projector operator
and Eqs. (1.168) are decompositions of the identity in projectors 16 . In other words, the projector given by the sums
in (1.168) has the whole space as its range. In the case of the continuous basis, they are “hyperprojectors” but we
shall call them projectors from now on.
Hence the representation of a ket |ψi in a discrete basis is given by the set of its fourier coefficients {hu i | ψi} it
is usually written in matrix form as a column matrix
   
hu1 | ψi c1
 hu2 | ψi   c2 
   
 ..   .. 

|ψi =  .   
= . 
 hui | ψi   ci 
   
.. ..
. .
16
In Eq. (1.155) the lower index labels the eigenvalue and the upper index indicates the degree of degeneracy of the given eigenvalue.
In Eq. (1.168) the single index runs over all different eigenvectors.
1.40. THEORY OF REPRESENTATIONS OF E IN DIRAC NOTATION 79

the representation of a ket |ψi in a continuous basis is given by the set of its fourier transforms {hu i | ψi} it is usually
written in continuous matrix form as a column matrix
   
.. ..
 .   . 
|ψi = 
 hw α | ψi  =  c (α) 
  
.. ..
. .

the representation of a bra can be obtain by the same insertion of the identity as follows
X
hψ| = hψ| I = hψ| P{ui } = hψ| ui i hui |
i
X
hψ| = c∗i hui | ; ci = hui | ψi
i

which can also be obtained by taking the hermitian conjugation of Eq. (1.169) and applying (1.150). For continuous
basis the process is similar
Z
hψ| = hψ| I = hψ| P{wα } = dα hψ| wα i hwα |
Z
hψ| = dα c∗ (α) hwα | ; c (α) = hwα | ψi

in matrix notation the bra is represented as a one row matrix of the coefficients, in both the discrete and continuous
cases

hψ| = hψ| u1 i hψ| u2 i · · · hψ| ui i · · ·

hψ| = c∗1 c∗2 · · · c∗3 · · ·

hψ| = ··· c∗ (α) · · ·

by comparing the representation of the corresponding ket |ψi we see that the representation of the bra is obtained
by transposing the matrix representative of the ket (i.e. converting the column in a row) and taking the conjugate
of each element.
Let us reproduce the inner product expressions (1.106) and (1.113) by insertion of the identity with projectors
X
hϕ| ψi = hϕ| I |ψi = hϕ| P{ui } |ψi = hϕ| ui ihui |ψi
i
X
hϕ| ψi = b∗i ci ; bi = hui | ϕi ; ci = hui |ψi
i

Z
hϕ| ψi = hϕ| I |ψi = hϕ| P{wα } |ψi = dα hϕ| wα ihwα |ψi
Z
hϕ| ψi = dα b∗ (α) c (α) ; b (α) = hwα | ϕi ; c (α) = hwα |ψi

in matrix form we can see the inner product as the product of a row vector times a column vector
 
c1
  c2
  X
  ..
hϕ| ψi = b∗1 b∗2 · · · b∗3 ··· 

=
 b∗i ci
.
 ci  i
 
..
.
80 CAPÍTULO 1. LINEAR OR VECTOR SPACES

in continuum form we have


 
..
. Z
 
hϕ| ψi = ··· ∗  
b (α) · · ·  c (α)  = dα b∗ (α) c (α)
..
.
and the norms are obtained with ϕ = ψ i.e. b i = ci or b (α) = c (α)
2
X 2 Z
hψ| ψi = kψk = |ci | = dα |c (α)|2
i

1.40.2. Representation of operators in Dirac notation


Let us see the representation of an operator A under a basis {u i } or {wα }. We have seen that a matrix repre-
sentative of A under the basis {ui } is
Aij = hui | Auj i = hui | A |uj i
and in a continuous basis 
A α, α0 = hwα | A |wα0 i
they are arranged in a square matrix with infinite countable or continuous numbers of columns and rows
 
A11 A12 · · · A1j · · ·
 A21 A22 · · · A2j · · · 
 
 .. .. .. 
A= .  . . 

 Ai1 Ai2 · · · Aij · · · 
 
.. .. ..
. . .
 
..
 . 
A=  · · · A (α, α 0) · · · 

..
.
it is interesting to see the matrix representative of a product of operators by insertion of the identity
X
(AB)ij = hui | AB |uj i = hui | AIB |uj i = hui | AP{ui } B |uj i = hui | A |uk i huk | B |uj i
k
X
(AB)ij = Aik Bkj
k

which coincides with the algorithm for matrix multiplication developed in Sec. 1.14.1, Eq. (1.49). We can develop
easily the matrix multiplication algorithm with continuum matrices
(AB) (α, β) = hwα | AB |wβ i = hwα | AIB |wβ i = hwα | AP{ui } B |wβ i
Z
(AB) (α, β) = dγ hwα | A |wγ i hwγ | B |wβ i
Z
(AB) (α, β) = dγ A (α, γ) B (γ, β) (1.170)

now let us see the matrix representative of the ket |ψ 0 i given by



A |ψi = ψ 0
from the knowledge of the components of |ψi and A, in a given representation {u i }. The coordinates of |ψ 0 i in this
basis is
X
c0i = hui ψ 0 = hui | A |ψi = hui | AI |ψi = hui | AP{ui } |ψi = hui | A |uk i huk | ψi
k
X
c0i = Aik ck
k
1.40. THEORY OF REPRESENTATIONS OF E IN DIRAC NOTATION 81

that explicitly can be illustrated as


    
c01 A11 A12 · · · A1j ··· c1
  
c02 A21 A22 · · · A2j ···   c2 
    
  
.. .. .. ..  .. 
 =
. . . .  . 
    
 c0   Ai1 Ai2 · · · Aij ···   ci 
 i    
.. .. .. .. ..
. . . . .

with a continuous basis {wα } we have


Z
c0 (α) = hwα | ψ 0 i = hwα | A |ψi = hwα | AI |ψi = hwα | AP{wα } |ψi = dβ hwα | A |wβ i hwβ |ψi
Z
c0 (α) = dβ A (α, β) c (β)

which is the continuous extension of multiplication of a matrix with a column vector.


Let us see the representation of the bra hψ| A
XX
hψ| A = hψ| IAI = hψ| ui i hui | A |uj i huj |
i j
XX
= c∗i Aij huj |
i j

Therefore, the bra hψ| A is represented by the product of the row matrix that represents hψ| times the square
matrix representing A respecting the order
 
A11 A12 · · · A1j ···
 A21 A22 · · · A2j ··· 
 
  .. .. .. 
hψ| A = c1 c2 · · · c3 · · · 
∗ ∗ ∗
 . . . 

 Ai1 Ai2 ··· Aij ··· 
 
.. .. ..
. . .

observe that the matrix product is not defined in the opposite order, thus we cannot give meaning to A hψ|.
In many cases, it is also interesting to calculate the element hϕ| A |ψi in terms of the coordinates of the bra and
the ket and in terms of the components of A. To do it, we insert an expansion of the identity twice
XX
hϕ| A |ψi = hϕ| IAI |ψi = hϕ| P{ui } AP{ui } |ψi = hϕ| ui i hui | A |uj i huj |ψi
i j
XX
hϕ| A |ψi = b∗i Aij cj ; bi = hui | ϕi, Aij = hui | A |uj i , cj = huj |ψi
i j

which in matrix form is written as a bilinear form


  
A11 A12 · · · A1j ··· c1
 A21 A22 · · · A2j ···   c2 
  
 .. .. ..  .. 
hϕ| A |ψi = b∗1 b∗2 · · · b∗3 ··· 
 . . . 
 . 
 (1.171)
 Ai1 Ai2 · · · Aij ···   ci 
  
.. .. .. ..
. . . .

this is the natural way of superposing the representations of hϕ|, A, and |ψi respecting the order. The result is of
course a number. The extension for continuous bases is
Z Z
hϕ| A |ψi = hϕ| P{wα } AP{wβ } |ψi = dα dβ hϕ| wα i hwα | A |wβ i hwβ |ψi
82 CAPÍTULO 1. LINEAR OR VECTOR SPACES

and we obtain
Z Z
hϕ| A |ψi = dα dβ b∗ (α) A (α, β) c (β)
b (α) = hwα | ϕi ; A (α, β) = hwα | A |wβ i ; c (β) = hwβ |ψi

notice that Eq. (1.160) expresses the associativity of the matrix expressions given by Eq. (1.171).
Finally, the projection operator P = |ψi hψ| has matrix representative given by

Pij = hui | P |uj i = hui | ψihψ |uj i = ci c∗j

in matrix language it is written as


   
c1 c1 c∗1 c1 c∗2 · · · c1 c∗j · · ·
 c2   c2 c∗1 c2 c∗2 · · · c2 c∗j · · · 
   
 ..    .. .. .. 
|ψi hψ| =  . 

 c∗1 c∗2 · · · c∗3 · · · =
 . . . 

 ci   ci c∗1 ci c∗2 · · · c i cj · · · 

   
.. .. .. ..
. . . .

this representation is particularly simple when P = |u k i huk | i.e. when the ket that forms the projector is part of
the basis.
The matrix representation of the adjoint operator is obtained by using property (1.161)
 
A† = hui | A† |uj i = huj | A |ui i∗ = A∗ji
ij
 
A† (α, β) = hwα | A† |wβ i = hwβ | A |wα i∗ = A∗ (β, α)

these results coincide with the one obtained in Eq. (1.69). If A is hermitian then A = A † and

Aij = A∗ji ; A (α, β) = A∗ (β, α) (1.172)

in particular applying these conditions for i = j or α = β we see that the diagonal elements of an hermitian matrix
are real. These facts are valid only if the basis is orthonormal, otherwise the matrix representative of the adjoint of
the matrix takes another form.

1.41. Change of representations


In a representation characterized by a given orthonormal basis {|u i i} the kets, bras and operators have some
specific matrix representatives. We want to write the matrix representative of these objects in a new orthonormal
basis {|tk i} using the Dirac notation17 . For future purposes we define the matrix S in the form
 
Sik ≡ hui | tk i ; S† ∗
= Sik = htk | ui i
ki

(k)
To give a geometrical meaning to S, let define V i ≡ Sik and V(k) the k−th column vector with components S ik .
Then, it is clear that V (k) is the matrix representative (column matrix) of the element |t k i in the basis {|ui i}. We
then construct a square matrix by putting these column vectors side by side
     
S11 S12 S11 S12 · · ·
      
S = V(1) V(2) · · · =  S21   S22  · · ·  =  S21 S22 · · · 
.. .. .. ..
. . . .
17
This problem is a bit lees general that the one treated in Sec. (1.14), because in that section the bases involved are non necessarily
orthonormal. However, in this case we are treating the problem in infinite dimension.
1.41. CHANGE OF REPRESENTATIONS 83

We can also see that S is a unitary matrix


  X † X
S†S = Ski Sim = htk | ui i hui | tm i = htk | P{ui } |tm i = htk | tm i = δkm
km
i i
  X X
† †
SS = Sik Skj = hui | tk i htk | uj i = hui | P{tk } |uj i = hui | uj i = δij
ij
k k

consequently
S † S = SS † = I
On the other hand, we will also require the closure and orthonormalization relations with both bases
X
P{ui } = |ui i hui | = I ; hui | uj i = δij
i
X
P{tk } = |tk i htk | = I ; htk | tm i = δkm
k

1.41.1. Transformation of the coordinates of a ket


The coordinates of a ket |ψi in the basis {|u i i} are hui | ψi ≡ |ψi(ui ) . To know the coordinates in the new basis
htk | ψi, in terms of the old ones, we insert the closure relation for {|u k i} in the element htk | ψi
X X †
htk | ψi = htk | ui i hui | ψi = Ski hui | ψi
i i
(t)
X † (u) (t)
ck = Ski ci ; c = S † c(u)
i

The inverse relation can be obtained by taking into account that S † = S −1

c(t) = S −1 c(u) ⇒ c(u) = Sc(t)

or alternatively by inserting an identity in the element hu i | ψi


X X
hui | ψi = hui | tk i htk | ψi = Sik htk | ψi
k k
(u)
X (t) (u)
ci = Sik ck ; c = Sc(t)
k

1.41.2. Transformation of the coordinates of a bra


We insert the identity in the element hψ| t k i
X X
hψ| tk i = hψ| ui i hui | tk i = hψ| ui iSik
i i
∗(t)
X ∗(u) ∗(t)
ck = ci Sik ⇒e
c c∗(u) S
=e
i

similarly
c∗(u) = e
e c∗(t) S †

1.41.3. Transformation of the matrix elements of an operator


We start with htk | A |tm i and insert two identities
XX X † (u)
htk | A |tm i = htk | IAI |tm i = htk | ui i hui | A |uj i huj |tm i = Ski Aij Sjm
i j i,j
(t)
X † (u)
Akm = Ski Aij Sjm ; A(t) = S † A(u) S (1.173)
i,j
84 CAPÍTULO 1. LINEAR OR VECTOR SPACES

and the inverse relation is obtained from


X X (t) †
huk | A |um i = huk | ti i hti | A |tj i htj |um i = Ski Aij Sjm
i,j i,j
(u)
X (t)†
Akm = Ski Aij Sjm ; A(u) = SA(t) S † (1.174)
i,j

or taking into account that S † = S −1 .

1.42. Representation of the eigenvalue problem in Dirac notation


For a given observable A the eigenvalue problem reads

A |ψi = λ |ψi

we want to construct its matrix representation in a basis {u i }. We first multiply by a bra of the form hu i | on both
sides
hui | A |ψi = λhui |ψi
and insert an identity
X
hui | A |uj i huj |ψi = λhui |ψi
j
X
Aij cj = λci ; ci ≡ hui |ψi ; Aij ≡ hui | A |uj i
j

with ci and Aij the matrix elements of |ψi and A in the basis {u i }. This expression can be rewritten as
X
[Aij − λδij ] cj = 0
j

which is the well known expression for the eigenvalue problem in matrix form.

1.42.1. C.S.C.O. in Dirac notation


n o
(1) (m)
Assume that a given set of observables {A 1 , ..., Am } forms a C.S.C.O. Then a given set of eigenvalues an1 , ..., anm
defines a unique normalized eigenvector common to all the observables (within a phase factor). We shall see later
that any set of kets that differ in a global phase factor

|ψi , eiθ1 |ψi , ..., eiθk |ψi


n o
(1) (m)
have the same physical information. Thus, the normalized ket associated with the set an1 , ..., anm is unique from
the physical pointof view. Therefore, it is usual to denote the corresponding ket in the form |ψ n1 ,...,nm i or simply as
|n1 , n2 , ..., nm i and the set of eigenvalues are called quantum numbers.

Ai |n1 , . . . , ni , ..., nm i = a(i)


ni |n1 , . . . , ni , ..., nm i ; i = 1, .., m

1.43. The continuous bases |ri and |pi


From the wave functions space z we have constructed the abstract space E r such that there is an isometric
isomorphism of z onto Er , therefore they are abstractly identical as Hilbert spaces. Consequently, an element
ψ (r) ∈ z has a unique image |ψi ∈ Er and vice versa. In particular, the inner product must be preserved by this
correspondence

|ψi ↔ ψ (r) ; |ϕi ↔ ϕ (r) ; hψ| ↔ ψ ∗ (r) ; hϕ| ↔ ϕ∗ (r)


Z
(|ϕi , |ψi) = (ϕ, ψ) ≡ hϕ| ψi = d3 r ϕ∗ (r) ψ (r)
1.43. THE CONTINUOUS BASES |Ri AND |Pi 85

Er will describe the state space of a spinless particle. We have discussed before that ψ (r) can also be interpreted
as a representation of the abstract ket |ψi in the continuous basis {ξ r (r0 )} defined in Eq. (1.119). We also saw that
ξr (r0 ) are not elements of z, but they can be used to expand any element of z in a unique way. We call ξ r (r0 )
“generalized wave functions” and it is natural to associate with them some “generalized kets” denoted as |ri that
do not belong to Er but can expand any element of Er in such a way that if ψ (r) ↔ |ψi then the expansion of ψ (r)
under ξr (r0 ) has the same coefficients as the expansion of |ψi under |ri
Z Z
 
ψ (r) = dr c r ξr0 (r) ; |ψi = dr0 c r0 r0
0 0

We denote this association as ξr ↔ |ri. Similarly, for the continuous basis defined in Eq. (1.115) by {v p (r)} which
has plane waves as “generalized wave functions”, we shall have a continuous basis of E r denoted as |p0 i

ξr r0 ↔ |ri ; vp (r) ↔ |pi

therefore, using the bases {ξr (r0 )} and {vp (r)} of z we have defined two continuous basis in E r denoted as
{|ri} and {|pi}. Consequently, all bras, kets and operators in E r will have a continuous matrix representation
in these bases. The basis {|ri} is labeled by three continuous indices x, y, z which are the coordinates of a point
in three dimensional space. Similarly, the basis {|pi} is labeled by three continuous indices p x , py , pz which are
components of a cartesian vector.

1.43.1. Orthonormalization and closure relations


We shall calculate hr |r0 i using the definition of the scalar product in E r
Z Z
0    

hr r = d r ξr r ξr0 r = d3 r00 δ r00 − r δ r00 − r0
3 00 ∗ 00 00


hr r0 = δ r − r0 (1.175)

similarly
Z   Z   Z
1 3 0 1 3 0
hp p0 = d3 r vp∗ (r) vp0 (r) = d3 r e−ip·r/~ eip ·r = d3 r e−i(p−p )·r/~
2π~ 2π~

hp p0 = δ p − p0

where we have used property (1.116). The closure relations for {|ri} and {|pi} are written according with the second
of Eqs. (1.168) integrating over three indices instead of one. The orthonormality and closure relations for these bases
are then
 
hr r0 = δ r − r0 ; hp p0 = δ p − p0 (1.176)
Z Z
d3 r |ri hr| = I ; d3 p |pi hp| = I (1.177)

1.43.2. Coordinates of kets and bras in {|ri} and {|pi}


Consider an arbitrary ket |ψi corresponding to a wave function ψ (r). The closure relations for {|ri} and {|pi}
permits to expand |ψi as
Z Z Z Z
|ψi = d r |ri hr| ψi = d r c (r) |ri ; |ψi = d p |pi hp| ψi = d3 p c̄ (p) |pi
3 3 3
(1.178)

the coefficients c (r) = hr| ψi and c̄ (p) = hp| ψi are calculated as follows
Z Z
   
hr| ψi = d r ξr r ψ r = d3 r0 δ r0 − r ψ r0 = ψ (r)
3 0 ∗ 0 0

Z  3/2 Z
3 1
hp| ψi = d r vp∗ (r) ψ (r) = d3 r e−ip·r/~ ψ (r) = ψ̄ (p)
2π~
86 CAPÍTULO 1. LINEAR OR VECTOR SPACES

hence
c (r) = hr| ψi = ψ (r) ; c̄ (p) = hp| ψi = ψ̄ (p) (1.179)
the coefficients c (r) of the expansion of |ψi under {|ri} are the wave functions evaluated at the point r, this fact
reinforces the interpretation of the wave function as the representation of |ψi under the basis |ri. The coefficients
c̄ (p) are the fourier transforms of the wave function, this coefficients ψ̄ (p) are usually called “wave functions in
momentum space”, since they represent the same abstract vector |ψi it is clear that ψ (r) and ψ̄ (p) contain the
same physical information, this can also be seen by taking into account that given ψ (r) then ψ̄ (p) is uniquely
determined and vice versa. On the other hand, by comparing Eqs. (1.178, 1.179) with Eqs. (1.120, 1.121) we see
that if ψ (r) ↔ |ψi then the expansion of ψ (r) under ξ r (r0 ) has the same coefficients as the expansion of |ψi under
|ri as we demanded. Similar situation occurs with the basis {v p } in z and the basis |pi in Er .
An important particular case arises when |ψi = |pi which is indeed a generalized ket. Assuming that all the
relations above are also valid for generalized kets, and taking into account that |pi ↔ v p (r), then Eq. (1.179) gives
 3/2
1
hr| pi = vp (r) = eip·r/~ (1.180)
2π~

the same result is obtained by taking into account the equality of the inner product of vectors in z and vectors in
Er when this equality is extended to generalized vectors
Z Z
   
hr| pi = (|ri , |pi) = (ξr , vp ) = d r ξr r vp r = d3 r0 δ r0 − r vp r0 = vp (r)
3 0 ∗ 0 0

applying Eq. (1.179) for |ψi = |r0 i ↔ ψ (r) = ξr0 (r) we find

hr| r0 i = ξr0 (r) = δ r − r0

which is consistent with the orthonormalization relation. Similar arguments leads to


 3/2
1 
hp| ri = vp∗ (r) = e−ip·r/~ ; hp| p0 i = δ p − p0
2π~

Assume that we have an orthonormal basis {u i (r)} in z and an orthonormal basis {|u i i} in Er such that
ui (r) ↔ |ui i. Starting with the closure relation for {|u i i} in Er
X
|ui i hui | = I
i

and evaluating the matrix element of it between |ri and |r 0 i we have


X
hr |ui i hui | r0 i = hr| I r0 = hr| r0 i
i

and using Eqs. (1.179, 1.176) we find


X  
ui (r) u∗i r0 = δ r − r0
i

which is the closure relation as it was expressed in Eq. (1.109) for {u i (r)} in z, reversing the steps we can obtain
the closure relation for {|ui i} in Er starting from the closure relation for {u i (r)} in z18 .
Notice that the inner product of two kets in terms of their coordinates under the basis {|ri} is a particular case
of Eq. (1.113). Equivalently, we obtain it by insertion of the identity
Z
hϕ |ψi = d3 r hϕ |ri hr |ψi

18
Notice that I (r, r0 ) = hr0 | I |ri = hr0 | ri = δ (r − r0 ) shows that the Dirac delta can be seen as the representation of the identity
under the continuous hyperbasis {|ri}.
1.43. THE CONTINUOUS BASES |Ri AND |Pi 87

and interpreting the components hϕ |ri and hr |ψi as in Eq. (1.179)


Z
hϕ |ψi = d3 r ϕ∗ (r) ψ (r)

a similar procedure can be done for the basis {|pi}


Z Z
hϕ |ψi = d p hϕ |pi hp |ψi = d3 p ϕ̄∗ (p) ψ̄ (p)
3

from which it is obtained Z Z


d3 r ϕ∗ (r) ψ (r) = d3 p ϕ̄∗ (p) ψ̄ (p)

this is a well-known property of the Fourier trasnforms.

1.43.3. Changing from the {|ri} representation to {|pi} representation and vice versa
The procedure is similar to the one in section 1.41 but for continuous basis. If we consider the change from
{|ri} to {|pi}, the unitary matrix S of changing the basis is
 
1 3/2 ip·r/~
S (r, p) = hr |pi = e (1.181)
2π~
a ket |ψi is represented as ψ (r) in {|ri} and we know well that in {|pi} it is given by ψ̄ (p). Here we see that it is
consistent with the formalism developed in Sec. 1.41

Z Z
3
hp |ψi = d r hp |ri hr |ψi = d3 r S† (r, p) hr |ψi
 3/2 Z
1
ψ̄ (p) = d3 r e−ip·r/~ ψ (r) (1.182)
2π~
similarly
Z Z
3
hr |ψi = d p hr |pi hp |ψi = d3 p S (r, p) hp |ψi
 3/2 Z
1
ψ (r) = d3 p eip·r/~ ψ̄ (p) (1.183)
2π~
the representation of bras can be obtained by hermitian conjugation of the relations with kets.
Now for a given operator, the matrix elements in {|pi} read A (p 0 , p) = hp0 | A |pi inserting two identities we get
Z Z

0



p A |pi = 3 0
d r d3 r p0 r0 i r0 A |ri hr |pi
Z Z

0  

p A |pi = 3 0
d r d3 r S † r0 , p0 A r0 , r S (r, p)

which is the continuous generalization of (1.173). Using (1.181) we find


  Z Z
0
 1 3 0 0 
A p ,p = d3 r0 d3 r e−ip ·r /~ A r0 , r eip·r/~
2π~
  Z Z
0
 1 3 0 0 
A p ,p = d3 r0 d3 r e−i(p ·r −p·r)/~ A r0 , r
2π~
the inverse relation is obtained from
Z Z

0


r A |ri = 3
d p 0
d3 p r0 p0 i p0 A |pi hp |ri
Z Z

0  
r A |ri = d3 p0 d3 p S r0 , p0 A p0 , p S † (r, p)
88 CAPÍTULO 1. LINEAR OR VECTOR SPACES

this is the continuous generalization of (1.174). From (1.181) we find


  Z Z
 1 3 0 0 
A r0 , r = d3 p0 d3 p eip ·r /~ A p0 , p e−ip·r/~
2π~
  Z Z
 1 3 0 0 
A r0 , r = d3 p0 d3 p ei(p ·r −p·r)/~ A p0 , p
2π~

1.43.4. The R and P operators


Let |ψi be an arbitrary ket of Er and ψ (r) = ψ (x, y, z) the corresponding wave function. We define an operator
X in the form19 0
ψ = X |ψi

such that in the {|ri} representation the associated wave function ψ 0 (r) = ψ (x, y, z) is given by

ψ 0 (x, y, z) = xψ (x, y, z) (1.184)

so in the {|ri} representation, it corresponds to the operator that multiplies the wave function by x. We should
emphasize however, that the operator X is defined on the E r state space. Eq. (1.184) can be expressed by

hr| X |ψi = hr| ψ 0 i = ψ 0 (r) = xψ (r) = xhr |ψi

Of course, we can introduce the operators Y and Z in a similar way

hr| X |ψi = xhr |ψi , hr| Y |ψi = yhr |ψi , hr| Z |ψi = zhr |ψi ; |ri = |x, y, zi (1.185)

we can consider X, Y, Z as the “components” of a “vector operator” R, by now it only means a condensed notation
inspired in the fact that x, y, z are the components of the ordinary vector r.
These operators can be easily manipulated in the {|ri} representation. For instance, the element hϕ| X |ψi can
be calculated as Z Z
hϕ| X |ψi = d3 r hϕ| ri hr| X |ψi = d3 r ϕ∗ (r) x ψ (r)

similarly, we define the operators Px , Py , Pz that forms the “vector operator” P, such that their action in the {|pi}
representation is given by

hp| Px |ψi = px hp |ψi , hp| Py |ψi = py hp |ψi , hp| Pz |ψi = pz hp |ψi ; |pi = |px , py , pz i (1.186)

however, when we require to work with both operators simultaneously, we should choose only one basis. Hence, it is
important to know how the operator P acts in the {|ri} representation, and how the operator R acts in the {|pi}
representation.
Let us first look for the way in which the operator P acts in the {|ri} representation. For this, we use Eqs.
(1.179, 1.180, 1.186) to evaluate
Z Z   Z
3 3 1 3/2
hr| Px |ψi = d p hr| pi hp| Px |ψi = d p hr| pipx hp| ψi = d3 p eip·r/~ px ψ̄ (p) (1.187)
2π~
to evaluate this term we start with the expression of the Fourier transform Eq. (1.183)
  Z
1 3/2 ∞ 3 ip·r/~
ψ (r) = d pe ψ̄ (p)
2π~ −∞
  Z  
∂ψ (r) 1 3/2 ∞ 3 ∂  ip·r/~ 
= d p e ψ̄ (p)
∂x 2π~ −∞ ∂x
  Z  
∂ψ (r) 1 3/2 ∞ 3 i ip·r/~
= d p px e ψ̄ (p)
∂x 2π~ −∞ ~
19
The operator X does not belong to ß(Er ), because for some square integrable functions ψ (r), the function ψ 0 (r) defined in Eq.
(1.184) is not square integrable.
1.43. THE CONTINUOUS BASES |Ri AND |Pi 89

we have that  3/2 Z ∞


~ ∂ψ (r) 1
= d3 p px eip·r/~ ψ̄ (p) (1.188)
i ∂x 2π~ −∞

if we continue derivating this expression we find


 3/2 Z ∞  n 
∂ n ψ (r) 1 3 i ip·r/~
= d p px e ψ̄ (p)
∂xn 2π~ −∞ ~

replacing (1.188) in (1.187) we obtain


~ ∂ψ (r)
hr| Px |ψi =
i ∂x
and similarly for Py , Pz . In vector form we summarize it as

~
hr| P |ψi = ∇hr |ψi (1.189)
i
in the {|ri} representation, the operator P coincides with the differential operator acting on the wave functions.
Let us calculate hϕ| Px |ψi in the {|ri} representation
Z Z  
~ ∂
hϕ| Px |ψi = d3 r hϕ |ri hr| Px |ψi = d3 r ϕ∗ (r) ψ (r) (1.190)
i ∂x

of great importance are the commutators among the components P i , Ri . We shall calculate them in the {|ri}
representation, for instance

hr| [X, Px ] |ψi = hr| (XPx − Px X) |ψi = hr| (XPx ) |ψi − hr| (Px X) |ψi
~ ∂
= hr| X |Px ψi − hr| Px |Xψi = x hr| Px ψi − hr| Xψi
i ∂x
~ ∂ ~ ∂ ~ ∂
= x hr| Px |ψi − hr| X |ψi = x hr| ψi − [x hr| ψi]
i ∂x i ∂x i ∂x
~ ∂ ~ ∂ ~
= x hr| ψi − x [hr| ψi] − hr| ψi
i ∂x i ∂x i
so that
hr| [X, Px ] |ψi = i~ hr| ψi
since this is valid for any ket |ψi and any generalized ket |ri of the basis, we conclude that

[X, Px ] = i~I

it is usual to omit the identity operator since it is not important for practical calculations. In a similar way, we can
calculate the other commutators, to condense notation it is convenient to define

R1 ≡ X, R2 ≡ Y, R3 ≡ Z, P1 ≡ Px , P2 ≡ Py , P3 ≡ Pz

to write
[Ri , Rj ] = [Pi , Pj ] = 0 ; [Ri , Pj ] = i~δij (1.191)
they are called canonical commutation relations. These relations are intrinsic and should not depend on the basis
in which we derive them.
We can show that R and P are hermitian operators. For example let us show that X is hermitian
Z Z Z ∗
hϕ| X |ψi = d3 r hϕ |ri hr| X |ψi = d3 r ϕ∗ (r) x ψ (r) = d3 r ψ (r)∗ x ϕ (r)

hϕ| X |ψi = hψ| X |ϕi∗


90 CAPÍTULO 1. LINEAR OR VECTOR SPACES

since this is valid for arbitrary kets |ψi and |ϕi, and taking into account Eq. (1.161) we conclude that X = X † . For
Px we see that
Z Z Z ∗
3 3 ∗ 3 ∗
hϕ| Px |ψi = d p hϕ |pi hp| Px |ψi = d p ϕ̄ (p) px ψ̄ (p) = d p ψ̄ (p) px ϕ̄ (p)

hϕ| Px |ψi = hψ| Px |ϕi∗

and Px = Px† . The procedure is the same for the other components of R and P

R = R† , P = P †

There is an alternative proof of the hermiticity of P by using its action in the {|ri} representation given by Eq.
(1.189). Integrating Eq. (1.190) by parts we have
Z Z ∞  
~ ∗ ∂
hϕ| Px |ψi = dy dz dx ϕ (r) ψ (r)
i −∞ ∂x
Z  Z ∞ 
~ ∗ x=∞ ∂ ∗
= dy dz [ϕ (r) ψ (r)]x=−∞ − dx ψ (r) ϕ (r)
i −∞ ∂x

since the scalar product hϕ| ψi is convergent, ϕ ∗ (r) ψ (r) approaches zero when x → ±∞. Hence the first term on
the right-hand side vanishes and we find
Z  Z ∗
~ ∂ ∗ ~ ∂
hϕ| Px |ψi = − d3 r ψ (r) ϕ (r) = d3 r ψ ∗ (r) ϕ (r)
i ∂x i ∂x

hϕ| Px |ψi = hψ| Px |ϕi

two things deserve attention, first the presence of the i factor is essential because i∂/∂x is hermitian but ∂/∂x is
not. Second, we have used explicitly the fact that |ψi and |ϕi belong to E r by assuming that the scalar product
hϕ| ψi is convergent, so this proof is not valid for generalized kets.

1.43.5. The eigenvalue problem for R and P


Let us calculate the matrix element X (r 0 , r) of the operator X in the basis {|ri}


 

X r0 , r = r0 X |ri = x0 r0 ri = x0 δ r − r0 = xδ r − r0 = x r0 ri

0

r Xri = x r0 ri

so the components of the ket X |ri in the {|r 0 i} representation are equal to the ones of the ket |ri = |x, y, zi
multiplied by x
X |ri = x |ri
we proceed in the same way for Y and Z

X |ri = x |ri , Y |ri = y |ri , Z |ri = z |ri ; |ri = |x, y, zi

the kets |ri are eigenkets common to X, Y, Z. The set {|ri} of common eigenvectors of X, Y, Z forms a basis
showing that {X, Y, Z} is a complete set of commuting observables. On the other hand, the specification of the
three eigenvalues x0 , y0 , z0 determines uniquely the “normalized” eigenvector |r 0 i except for a phase eiθ . In the {|ri}
representation the coordinates of |r 0 i are δ (x − x0 ) δ (y − y0 ) δ (z − z0 ). Therefore, the set {X, Y, Z} constitutes a
C.S.C.O. in Er .
Analogous reasoning shows that for the commuting observables {P x , Py , Pz } the eigenvalues and eigenvectors
are
Px |pi = px |pi , Py |pi = py |pi , Pz |pi = pz |pi ; |pi = |px , py , pz i
since {|pi} is a basis the operators P x , Py , Pz are observables. Because the set of eigenvalues (p 0x , p0y , p0z ) determines
uniquely the vector |p0 i the set {Px , Py , Pz } constitutes as C.S.C.O. in Er .
1.44. GENERAL PROPERTIES OF TWO CONJUGATE OBSERVABLES 91

It worths pointing out that X is not a C.S.C.O. by itself in the E r state space because when x0 is specified y0
and z0 can take any real values. Therefore, x 0 is an infinitely degenerate eigenvalue. Notwithstanding in the state
space Ex of a particle in one dimension, X constitutes a C.S.C.O. since the eigenvalue x 0 determines uniquely the
eigenvector |x0 i, and its coordinates in the {|xi} representation are given by δ (x − x 0 ).
It can also be shown that the set {X, P y , Pz } constitutes a C.S.C.O. since they commute with each other, and
for a set of eigenvalues {x0 , p0y , p0z } there is a unique eigenvector whose associated wave function is

1 i(p0y y+p0z z)/~


ψx0 ,p0y ,p0z (x, y, z) = δ (x − x0 ) e
2π~
of course, similar C.S.C.O. are built from the sets

{Y, Px , Pz } , {Z, Px , Py }

1.44. General properties of two conjugate observables


Two arbitrary observables Q and P are called conjugate if they obey the conmutation rule

[Q, P ] = i~ (1.192)

such couples of observables are frequently encountered in quantum mechanics. The position and momentum ob-
servables are good examples. However, in what follows all properties are derived from the commutation rule (1.192)
regardless the specific form of the operators. Let us define the operator S (λ) that depends on a real parameter λ as

S (λ) = e−iλP/~ (1.193)

since P is observable and so hermitian this operator is unitary

S † (λ) = eiλP/~ = S −1 (λ) = S (−λ) (1.194)

since P obviously commute with itself, Eq. (1.147) leads to

S (λ) S (µ) = S (λ + µ) (1.195)

now we calculate the commutator [Q, S (λ)]. To do it, we take into account that [Q, P ] = i~ clearly commutes with
Q and P , therefore we can apply theorem 1.70, Eq. (1.134) to obtain
 
iλ −iλP/~
[Q, S (P )] = [Q, P ] S 0 (P ) = i~ − e = λS (P )
~

where we have written S (P ) instead of S (λ) to emphasize that when applying Eq. (1.134) we are considering S as
a function of the operator P (so the derivative is with respect to P ). Rewriting it in the old notation we have

[Q, S (λ)] = λS (λ) ⇒ QS (λ) − S (λ) Q = λS (λ)


QS (λ) = S (λ) [Q + λ] (1.196)

1.44.1. The eigenvalue problem of Q


Suppose that Q has a non-zero eigenvector |qi, with eigenvalue q

Q |qi = q |qi (1.197)

applying Eq. (1.196) on the vector |qi we have

QS (λ) |qi = S (λ) [Q + λ] |qi = S (λ) [q + λ] |qi


Q [S (λ) |qi] = [q + λ] [S (λ) |qi] (1.198)
92 CAPÍTULO 1. LINEAR OR VECTOR SPACES

therefore, S (λ) |qi is also an eigenvector of Q with eigenvalue q + λ. Note that S (λ) |qi is non-zero because S (λ)
is unitary so the norm of |qi is preserved. On the other hand, since λ can take any real value, we conclude that by
starting with an eigenvector of Q, we can construct another eigenvector of Q with any real eigenvalue by applying
the appropiate S (λ). Consequently, the spectrum of Q is continuous and consists of all real values.
Note that this result shows in particular that conjugate operators Q, P cannot exist in finite dimensional vector
spaces since for the latter the spectrum must be finite. Even they do not exist strictly in spaces of denumerable
dimension such as L2 , (for which the spectrum must be at most denumerable), so the eigenvectors |qi will form
hyperbasis in L2 .
Let us now show that if any given q is non-degenerate, then all the other eigenvalues of Q are also non-degenerate.
For this we assume that the eigenvalue q + λ is at least two-fold degenerate and arrive to a contradiction. From this
hypothesis, there are at least two orthogonal eigenvectors |q + λ, αi and |q + λ, βi associated with the eigenvalue
q+λ
hq + λ, β |q + λ, αi = 0 (1.199)
now consider the two vectors S (−λ) |q + λ, αi and S (−λ) |q + λ, βi from Eq. (1.198) we see that

QS (−λ) |q + λ, αi = [q + λ + (−λ)] S (−λ) |q + λ, αi = qS (−λ) |q + λ, αi


QS (−λ) |q + λ, βi = [q + λ + (−λ)] S (−λ) |q + λ, βi = qS (−λ) |q + λ, βi

so S (−λ) |q + λ, αi and S (−λ) |q + λ, βi are two eigenvectors associated with the eigenvalue q. Calculating the
inner product of them
hq + λ, β| S † (−λ) S (−λ) |q + λ, αi = hq + λ, β |q + λ, αi = 0
where we have used Eq. (1.199) and the fact that S (λ) is unitary. Thus, we arrive to the fact that S (−λ) |q + λ, αi
and S (−λ) |q + λ, βi are two orthogonal (and so linearly independent) eigenvectors associated with q, contradicting
the hypothesis that q is non-degenerate. This result can be extended to find that the eigenvalues of Q must all have
the same degree of degeneracy.
We now look for the eigenvectors. We fix the relative phses of the diffrent eigenvectors of Q with respect to the
eigenvector |0i associated with the eigenvalue 0, by setting

|qi ≡ S (q) |0i (1.200)

applying S (λ) on both sides of (1.200) and using (1.195), we get

S (λ) |qi = S (λ) S (q) |0i = S (λ + q) |0i = |q + λi

and the corresponding bra gives


hq| S † (λ) = hq + λ|
now using Eq. (1.194) we see that S † (λ) = S (−λ) from which

hq| S (−λ) = hq + λ| ⇒ hq| S (λ) = hq − λ|

where we have replaced λ → −λ in the last step. In summary the action of S (λ) on the eigenvectors |qi of Q are
given by
S (λ) |qi = |q + λi ; hq| S (λ) = hq − λ| (1.201)
now we can characterize the action of the operators P, Q and S (λ) in either the {|qi} basis or the {|pi} basis.

1.44.2. The action of Q, P and S (λ) in the {|qi} basis


Since Q is an observables the set of eigenvectors {|qi} of Q forms a basis. A given ket |ψi in our Hilbert space
can be written in the {|qi} basis as
ψ (q) ≡ hq |ψi
let us calculate the representation of Q |ψi in this basis

hq| Q |ψi = qhq |ψi = qψ (q)


1.44. GENERAL PROPERTIES OF TWO CONJUGATE OBSERVABLES 93

where we have used (1.197) and the hermiticity of Q. The action of Q on |ψi reduces to a simple multiplication
with its associated eigenvalue. The action of S (λ) on |ψi in this basis is also simple

hq| S (λ) |ψi = hq − λ| ψi = ψ (q − λ) ; S (λ) ≡ e −iλP/~ (1.202)

where we have used (1.201). Note that a function f (x − a) is the function that at the point x = x 0 + a, takes on the
value f (x0 ), so that it is the function obtained from f (x)by a translation of +a. Therefore, Eq. (1.202, shows that
the action of S (λ) on |ψi in the basis {|qi} , can be described as a translation of the wave function over a distance
+λ parallel to the q−axis. So S (λ) is usually called the translation operator.
The action of P on |ψi in the {|qi} basis is a bit longer to obtain. Let ε be an infinitesimal quantity such that
ε 
S (−ε) = eiεP/~ = I + i P + O ε2
~
therefore
h ε i ε 
hq| S (−ε) |ψi = hq| I + i P + O ε2 |ψi = hq |ψi + i hq| P |ψi + O ε2
~ ~
ε 2

hq| S (−ε) |ψi = ψ (q) + i hq| P |ψi + O ε (1.203)
~
on the other hand, from Eq. (1.202) we have

hq| S (−ε) |ψi = ψ (q + ε) (1.204)

and comparing (1.203) with (1.204) we have


ε 
ψ (q + ε) = ψ (q) + i hq| P |ψi + O ε2 ⇒
~
ε 
i hq| P |ψi = ψ (q + ε) − ψ (q) − O ε2
~
solving for hq| P |ψi and taking into account that ε is infinitesimal we have

~ ψ (q + ε) − ψ (q)
hq| P |ψi = lı́m
i ε→0 ε
~ d
hq| P |ψi = ψ (q) (1.205)
i dq
~ d
so the action of P on a ket in the {|qi} basis is that of i dq .

1.44.3. Representation in the {|pi} basis and the symmetrical role of P and Q
From Eq. (1.205), we can obtain the wave function v p (q) associated in the {|qi} basis, with the eigenvector |pi
of P with eigenvalue p
1
vp (q) = hq |pi = √ eipq/~
2π~
we can then write Z ∞
1
|pi = √ dqeipq/~ |qi
2π~ −∞

a wave function in the {|pi} representation is given by


Z Z
ψ̄ (p) = hp |ψi = hp| |qi hq| ψi = hp |qi hq| ψi
Z ∞
1
ψ̄ (p) = √ dqeipq/~ ψ (q)
2π~ −∞

which is the Fourier transform of ψ (q).


94 CAPÍTULO 1. LINEAR OR VECTOR SPACES

It can be shown that the action of the P operator in the {|pi} repesentation is associated with multiplication
by p, while the representation of X corresponds to the operations i~d/dp. Therefore, the results are symmetrical in
the {|qi} and {|pi} bases. It comes from the fact that we can interchange Q and P with no more cost than changing
the sign of the conmutator in (1.192). The analogous of the translation operation in the {|pi} basis is the operator
defined by
T (α) = eiαQ/~
which acts as a translation in the momentum space. The arguments developed for the basis {|qi} can be repeated in
the basis {|pi} by interchanging P by Q and i by −i everywhere. As a matter of curiosity, in Classical Mechanics,
the Hamilton equations are also symmetrical in the conjugate variables (Q, P ) and we can interchange them with
no more cost that a change in sign.
We emphasize again that the results obtained in this section only depend on the canonica rule of commutation
(1.192) and not on the explicit form of the Q and P operators.

1.45. Diagonalization of a 2 × 2 hermitian matrix


This example illustrates many concepts introduced in the eigenvalue problem in a quite simple way. Further,
it is useful in many practical calculations involving systems of two states in quantum mechanics. The eigenvalue
problem is very easy but the determination of eigenvectors could lead easily to complicated expressions. We shall
determine the eigenvalues and find the eigenvectors in a way easy to handle.

1.45.1. Formulation of the problem


Consider an hermitian operator R in a two dimensional Hilbert space. Its matrix representation in a given
orthonormal basis {|ϕ1 i , |ϕ2 i} reads
   
hϕ1 | R |ϕ1 i hϕ1 | R |ϕ2 i H11 H12
H≡ = (1.206)
hϕ2 | R |ϕ1 i hϕ2 | R |ϕ2 i H21 H22

an hermitian operator is described by an hermitian matrix when the basis used is orthonormal. Therefore,
∗ ∗ ∗
H11 = H11 ; H22 = H22 ; H12 = H21

so that diagonal elements are real. Let us express the matrix in Eq. (1.206) in the equivalent form
 1   1 
2 (H11 + H22 ) 0 2 (H11 − H22 ) H12
H = 1 +
0 2 (H11 + H22 ) H21 − 12 (H11 − H22 )
  2H21∗ !
1 1 0 1 1 (H −H )
H = (H11 + H22 ) + (H11 − H22 ) 2H21
11 22
2 0 1 2 (H11 −H22 ) −1
2H21 ∗ !
1 1 1 (H11 −H22 )
H = (H11 + H22 ) I + (H11 − H22 ) K ; K ≡ 2H21 (1.207)
2 2 (H11 −H22 ) −1

and I is the identity matrix. Let |ψ± i be two linearly independent eigenvectors of K

K |ψ± i = κ± |ψ± i (1.208)

applying the ket |ψ± i on Eq. (1.207) we have


1 1
H |ψ± i = (H11 + H22 ) I |ψ± i + (H11 − H22 ) K |ψ± i
2 2
1
H |ψ± i = [(H11 + H22 ) + (H11 − H22 ) κ± ] |ψ± i
2
therefore |ψ± i are also eigenvectors of H with eigenvalues
1
H |ψ± i = E± |ψ± i ; E± ≡ [(H11 + H22 ) + (H11 − H22 ) κ± ] (1.209)
2
1.45. DIAGONALIZATION OF A 2 × 2 HERMITIAN MATRIX 95

note that the problem reduces to find the eigenvectors of K (which coincide with the ones of H) and also its
eigenvalues (which are related with the eigenvalues of H through Eq. 1.209). Solving the problem for K is equivalent
to choose the origin of the eigenvalues in (H 11 + H22 ) /2 = (T rH)/2. Note that this shift is independent of the basis
chosen to write H.

1.45.2. Eigenvalues and eigenvectors of K


For simplicity we define the angles θ, ϕ in terms of the matrix elements H ij as follows

2 |H21 |
tan θ = , 0≤θ<π (1.210)
H11 − H22
H21 = |H21 | eiϕ , 0 ≤ ϕ < 2π (1.211)

so ϕ is the argument of the term H21 . Matrix K in Eq. (1.207) can be written as
2|H21 |e−iϕ
!  
1 (H11 −H22 ) 1 tan θ e−iϕ
K= 2|H21 |eiϕ
= (1.212)
−1 tan θ eiϕ −1
(H11 −H22 )

the characteristic equation of matrix (1.212) yields

det [K − λI] = 0 = (1 − κ) (−1 − κ) − tan2 θ ⇒


1
κ2 − 1 − tan2 θ = 0 ⇒ κ2 = 1 + tan2 θ =
cos2 θ
the eigenvalues of K read
1 1
κ+ = , κ− = − (1.213)
cos θ cos θ
and they are real as expected. We can express 1/ cos θ in terms of the matrix elements H ij by using Eqs. (1.210)
and the fact that cos θ and tan θ are both of the same sign since 0 ≤ θ < π.
s s
1 p 4 |H 21 | 2
(H11 − H22 )2 + 4 |H21 |2
= 1 + tan2 θ = 1 + =
cos θ (H11 − H22 )2 (H11 − H22 )2
s
1 (H11 − H22 )2 + 4 |H21 |2
κ± = ± =± (1.214)
cos θ (H11 − H22 )2

let us find the eigenvectors of K. We denote as a and b the components of |ψ + i in the basis {|ϕ1 i , |ϕ2 i}. From
Eqs. (1.212, 1.213) this eigenvector must satisfy
    
1 tan θ e−iϕ a 1 a
iϕ =
tan θ e −1 b cos θ b

of course only one of the two equations is linearly independent since only quotients between the coefficients can be
determined, therefore  
−iϕ a −iϕ 1
a + b tan θ e = ⇒ b tan θ e =a −1
cos θ cos θ
multiplying by eiϕ/2 and defining 2α ≡ θ this equation yields
 
sin 2α −iϕ/2 1 − cos 2α iϕ/2
b e = a e
cos 2α cos 2α
b sin 2α e−iϕ/2 = a (1 − cos 2α) eiϕ/2
 
b (2 sin α cos α) e−iϕ/2 = a 1 − 1 − 2 sin2 α eiϕ/2
2b sinα cos α e−iϕ/2 2
 = 2a sin α e
iϕ/2

b cos α e−iϕ/2 = a sin α eiϕ/2


96 CAPÍTULO 1. LINEAR OR VECTOR SPACES

in terms of θ we get
θ −iϕ/2 θ
e = a sin eiϕ/2
b cos (1.215)
2 2
we demand normalization with the additional requirement of positivity for the coefficient a, so we have

a sin θ eiϕ/2 2
2 2 2 2
|a| + |b| = 1 ⇒ |a| + =1
cos θ2 e−iϕ/2
2
θ θ
|a| + a tan e = 1 ⇒ |a|2 + |a|2 tan2 = 1
2 iϕ
2 2
 
θ θ
|a|2 1 + tan2 = 1 ⇒ |a|2 = cos2
2 2
so that
θ
a = cos ≥0 since 0 ≤ θ < π (1.216)
2
replacing (1.216) in (1.215) we get
θ −iϕ/2 θ θ θ
b cos e = cos sin eiϕ/2 ⇒ b = sin eiϕ
2 2 2 2
so that the eigenvector |ψ+ i0 associated with the eigenvalue κ+ reads
θ θ
|ψ+ i0 = a |ϕ1 i + b |ϕ2 i = cos |ϕ1 i + sin eiϕ |ϕ2 i
2 2
it is clear that |ψ+ i ≡ e−iϕ/2 |ψ+ i0 is also an eigenvector of K with the same eigenvalue κ + and this vector looks
more symmetrical. Thus, we define the eigenvector |ψ + i as20
θ −iϕ/2 θ
|ψ+ i = cos e |ϕ1 i + sin eiϕ/2 |ϕ2 i (1.217)
2 2
an analogous calculation gives the eigenvector of K corresponding to κ − = −1/ cos θ
θ −iϕ/2 θ
|ψ− i = − sin e |ϕ1 i + cos eiϕ/2 |ϕ2 i (1.218)
2 2
the eigenvalues of H are obtained by combining Eqs. (1.209, 1.214)
1
E± ≡ [(H11 + H22 ) + (H11 − H22 ) κ± ]
2 s
" #
1 (H11 − H22 )2 + 4 |H21 |2
= (H11 + H22 ) ± (H11 − H22 )
2 (H11 − H22 )2
 q 
1 2 2
E± ≡ (H11 + H22 ) ± (H11 − H22 ) + 4 |H21 |
2
it worths saying that the eigenvalue problem can be solved directly without resorting to the angles θ and ϕ defined
in Eq. (1.210, 1.211). This procedure is advantageous only if we have to calculate the eigenvectors as well.

1.45.3. Eigenvalues and eigenvectors of H


Let us summarize our results. We consider an hermitian operator R in a two dimensional Hilbert space, and its
matrix representation in the orthonormal basis {|ϕ 1 i , |ϕ2 i}
   
hϕ1 | R |ϕ1 i hϕ1 | R |ϕ2 i H11 H12
H≡ = (1.219)
hϕ2 | R |ϕ1 i hϕ2 | R |ϕ2 i H21 H22
20
This is equivalent to define the phase of the coefficient a as −ϕ/2 instead of zero, in the process of normalization.
1.45. DIAGONALIZATION OF A 2 × 2 HERMITIAN MATRIX 97

its eigenvalues and eigenvectors are given by


 q 
1 2 2
E± ≡ (H11 + H22 ) ± (H11 − H22 ) + 4 |H21 | (1.220)
2
θ θ
|ψ+ i = cos e−iϕ/2 |ϕ1 i + sin eiϕ/2 |ϕ2 i (1.221)
2 2
θ θ
|ψ− i = − sin e−iϕ/2 |ϕ1 i + cos eiϕ/2 |ϕ2 i (1.222)
2 2
2 |H21 |
tan θ = , H21 = |H21 | eiϕ ; 0 ≤ θ < π , 0 ≤ ϕ < 2π (1.223)
H11 − H22
as a matter of consistence we can see that

E+ + E− = H11 + H22 = T rH , E+ E− = H11 H22 − |H12 |2 = det H

in agreement with Eq. (1.92, 1.93). From Eq. (1.220), the spectrum becomes degenerate i.e. E + = E− when
(H11 − H22 )2 + 4 |H21 |2 = 0. That is when H11 = H22 and H12 = H21 = 0. So a 2 × 2 hermitian matrix has a
degenerate spectrum if and only if it is proportional to the identity.
It worths remarking that although functions of θ are expressed simply in terms of the H ij elements by means of
Eqs. (1.223), it is not the case when functions of θ/2 appears. Thus, when we do calculations with the eigenvectors
(1.221, 1.222), it is convenient to keep the results in terms of θ/2 up to the end of the calculation instead of replacing
it in terms of the Hij quantities.
Capı́tulo 2

Construcción fenomenológica de los


postulados de la mecánica cuántica

Nuestro presente entendimiento de la naturaleza requiere reevaluar las leyes de la mecánica clásica, especialmente
en lo referente a los fenómenos atómicos y subatómicos. No obstante, existen manifestaciones macroscópicas de los
procesos cuánticos. A manera de ejemplo, la existencia misma de los sólidos solo se puede explicar en un contexto
cuántico, y los modelos sobre calor especı́fico de los sólidos no se pueden explicar con un modelo clásico.
A finales del siglo diecinueve, se identificaban en la fı́sica dos tipos de entidades bien diferenciadas: la materia y
la radiación. Las leyes de Newton permitı́an explicar los fenómenos relativos a la materia en la escala macroscópica
y las ecuaciones de Maxwell proporcionaban una excelente descripción de la dinámica de la radiación 1 . Finalmente,
la interacción de la materia con la radiación la proporcionaba la ley de fuerza de Lorentz. Es notable el hecho de que
la teorı́a de Maxwell habia logrado la unificación de fenómenos que antes se consideraban separados: la electricidad,
el magnetismo y la óptica.
No obstante, a finales del siglo diecinueve y principios del veinte una serie de experimentos condujeron a reevaluar
la estructura fundamental de la materia y además a replantear las leyes que rigen a estas estructuras fundamentales.
La mecánica cuántica es entonces el resultado de estos replanteamientos. Vale decir por supuesto que al menos en
principio, el mundo macroscópico también se rige por la leyes de la cuántica, si bien para la mayorı́a de fenómenos a
escala humana, la Fı́sica clásica representa una descripción mucho más simple y al mismo tiempo bastante adecuada.
A continuación se realizará una breve descripción de los experimentos que dieron lugar a las nuevas ideas sobre
el mundo microscópico, con el fin de dejar claros los puntos que es necesario reevaluar en la mecánica clásica. La
descripción de estos experimentos no pretende ser completa ni exhaustiva, solo pretende mostrar las ideas que estos
experimentos nos arrojan sobre el comportamiento de la naturaleza a nivel microscópico (atómico y subatómico)

2.1. La radiación del cuerpo negro


???????????

2.2. El efecto fotoeléctrico


????????????????

2.3. El efecto compton


???????????????????
1
Las ondas mecánicas podı́an explicarse en último término con las leyes de Newton.
2.4. EL PROBLEMA ESPECTROSCÓPICO Y LA TEORÍA DE BOHR 99

2.4. El problema espectroscópico y la teorı́a de Bohr


2.4.1. La teorı́a de Wilson y Sommerfeld

2.5. Los postulados de De Broglie

2.6. Sı́ntesis de los resultados experimentales


Newton consideró que la luz era un haz de corpúsculos que podı́an reflejarse en un espejo cuando “rebotan”.
Sin embargo, los experimentos que mostraron fenómenos como la interferencia y la difracción, establecieron la
naturaleza ondulatoria de la luz a mediados del siglo XIX, lo cual permitió la fusión de la óptica con la electricidad
y el magnetismo. Los fenómenos de polarización de la luz pueden interpretarse como una manifestación del carácter
vectorial del campo eléctrico.
No obstante, el estudio de la radiación del cuerpo negro sugirió la hipótesis de la cuantización de la energı́a de
las ondas electromagnéticas estacionarias (osciladores armónicos) que se generaban al interior del cuerpo negro. La
energı́a de estos osciladores es de la forma E = nhν con n = 0, 1, 2, ...; siendo ν la frecuencia de cada oscilador.
Esta cuantización permite predecir adecuadamente el espectro de emisión del cuerpo negro empleando la estadı́stica
de Boltzmann. Por otra parte, el estudio del efecto fotoeléctrico sugirió que las ondas electromagnéticas libres que
se propagaban también estaban constituı́das por paquetes de energı́a que indican valores discretos de ésta. Cada
paquete denominado fotón tendrá una energı́a dada por E = hν. Esto permitió a Einstein comprender porqué la
energı́a máxima adquirida por los electrones era independiente de la intensidad de la onda electromagnética incidente
y porqué este energı́a se adquirı́a en tiempos tan cortos. Para ello era necesario además que el paquete estuviera
localizado en una pequeña región del espacio y que permaneciera localizado a medida que se aleja de la fuente, a
diferencia de las ondas clásicas que se extienden cuando se alejan de la fuente. Más adelante, mediante la irradiación
de una placa metálica con rayos X, compton muestra que estos cuantos pueden dispersarse mediante la colisión con
un electrón libre estacionario, emulando una colisión tipo “bolas de billar”. De esta forma pudo predecir el pico en
el espectro asociado a una longitud de onda mayor que la incidente.
En sı́ntesis, estos experimentos están mostrando la naturaleza discreta de la energı́a que se propaga en una onda
electromagnética y el hecho de que el cuanto asociado se puede comportar como partı́cula. Adicionalmente, tanto
la cuantización como la colisión de fotones con electrones libres pudo explicarse satisfactoriamente relacionando los
parámetros de partı́cula (energı́a E y momento p del fotón) con los parámetros de onda (frecuencia ν y número de
onda k del fotón) de la radiación, en la forma

h
E = hν ; p = ~k ; ~ ≡ ; h ' 6,62 × 10−34 Joul × seg (2.1)

De otra parte, los experimentos espectroscópicos nos muestran que la radiación emitida o absorbida debida a
transiciones electrónicas en los átomos solo nos arroja ciertos valores dicretos de la energı́a fundamental del cuanto.
Esto implica que los niveles de energı́a permitidos para un electrón ligado a un átomo también están cuantizados.
Lo anterior llevó a Bohr a postular la cuantización del momento angular asociado al electrón junto con la hipótesis
de ausencia de radiación en contraste con las predicciones de la mecánica clásica. La cuantización de los estados de
energı́a atómicos fué corroborada por los experimentos de Franck y Hertz, en tanto que las reglas de cuantización
fueron perfeccionadas por Wilson y Sommerfeld.
Una vez caracterizada la dualidad onda partı́cula de la radiación, es natural preguntarse si esta dualidad está tam-
bién presente en los objetos fı́sicos que tradicionalmente llamamos materia, por ejemplo en los electrones. Esta
pregunta condujo a De Broglie a postular que el movimiento de una partı́cula está gobernado por la propagación
ondulatoria de ciertas ondas piloto asociadas con la partı́cula. Asumiendo que la energı́a E y el momento p de la
partı́cula también cumplen las relaciones (2.1) dadas para el fotón, De Broglie estimó la frecuencia y la longitud de
onda de las ondas piloto
λ = h/p ; ν = E/h (2.2)
Este postulado fué confirmado por los experimentos de Davidson y Germer sobre difracción de electrones.
Naturalmente, el momento y la energı́a totales se deben conservar en cada proceso, en donde los momentos y
energı́as de la radiación y la materia están dados por los postulados anteriores.
100CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS DE LA MECÁNICA CUÁNTI

Vamos ahora a examinar en más detalle el experimento de Young de la doble rendija. Veremos que este análisis
aportará ideas adicionales con respecto al comportamiento de la naturaleza a nivel subatómico

2.7. El experimento de Young de la doble rendija

Figura 2.1: (a) Montaje del experimento de Young con doble rendija. (b) Patrón de intensidades asociado a la
exposición por una sola rendija. La lı́nea punteada indica la suma de los dos patrones de intensidad. (c) Patrón
de intensidades obtenido con la apertura simultánea de las dos rendijas. El contraste con la gráfica punteada nos
muestra que la intensidad resultante no es la suma de las intensidades obtenidas con la apertura de una sola rendija,
revelando la existencia de un patrón de interferencia.

Hemos visto que es necesario incorporar aspectos corpusculares al comportamiento de la radiación electro-
magnética, la pregunta es si debemos abandonar la teorı́a ondulatoria de la radiación electromagnética. Veremos
que no es posible con una teorı́a puramente corpuscular explicar todos los fenómenos relacionados con los fotones,
de manera que tendremos que incorporar tanto los aspectos ondulatorios como corpusculares de la radiación.
El dispositivo utilizado se muestra en la Fig. 2.1, y consiste en una fuente aproximadamente monocromática
frente a la cual se coloca una placa opaca P con dos rendijas pequeñas F 1 y F2 (pequeñas con respecto a la longitud
de onda emitida), detrás de esta placa opaca se ubica una pantalla de observación O que es usualmente una placa
fotográfica. Es importante que las dimensiones de las rendijas sean menores que la longitud de onda, ya que de lo
contrario las intensidades recogidas en la pantalla O serán compatibles con la óptica geométrica que puede explicarse
2.7. EL EXPERIMENTO DE YOUNG DE LA DOBLE RENDIJA 101

con una teorı́a corpuscular. En contraste, el fenómeno de difracción que se presenta cuando las rendijas son pequeñas
nos muestra la naturaleza ondulatoria del fenómeno.
Cuando obstruı́mos la rendija F2 obtenemos sobre la pantalla O una distribución de intensidades I 1 (x) que es
el patrón de difracción generado por la rendija F 1 . Análogamente, al cerrar F1 obtenemos el patrón de intensidades
I2 (x). Si ahora abrimos las dos rendijas simultáneamente obtendremos un nuevo patrón de intensidades I (x). La
primera observación es que la intensidad resultante NO es la suma de las intensidades obtenidas con una sola rendija

I (x) 6= I1 (x) + I2 (x)

¿como podrı́an explicarse estos resultados a la luz de una teorı́a corpuscular?. Es bien conocido que el patrón de
Difracción generado por una sola rendija no puede ser explicado con una teorı́a corpuscular cuando la rendija tiene
una dimensión menor que la longitud de onda incidente. Sin embargo, veremos que aún cuando pudiésemos explicar
el fenómeno de una rendija con una teorı́a corpuscular, el patrón de interferencia que se forma cuando se abren
las dos rendijas entra en conflicto con una teorı́a puramente corpuscular. Asumamos que el patrón de interferencia
que se observa, es generado por la interacción de tipo corpuscular entre los fotones que pasan por la rendija F 1 con
aquellos que pasan por la rendija F2 . De ser ası́, tendrı́amos que si regulamos la potencia de la fuente de tal manera
que los fotones salgan prácticamente uno por uno, se eliminarı́an estas interacciones y por tanto deberı́a desaparecer
este patrón de interferencia, incluso si se espera mucho tiempo para que se depositen mucho fotones sobre O.
Veamos ahora cual serı́a la predicción de una teorı́a puramente ondulatoria. La teorı́a ondulatoria predice que
la intensidad en un punto dado I (x) es proporcional a la amplitud al cuadrado del campo eléctrico evaluado en tal
punto. Cuando las dos rendijas están abiertas es claro que el campo total resultante en tal punto es la superposición
de los dos campos generados por la onda que pasa por cada rendija

E (x) = E1 (x) + E2 (x)

la intensidad es entonces proporcional a la amplitud del campo eléctrico total al cuadrado

I (x) ∝ |E (x)|2 = |E1 (x) + E2 (x)|2


I1 (x) ∝ |E1 (x)|2 ; I2 (x) ∝ |E2 (x)|2 ⇒ I (x) 6= I1 (x) + I2 (x)

si E1 (x) y E2 (x) se escriben en notación compleja, el término de interferencia resultante dependerá de la diferencia
en las fases complejas asociadas a E1 (x) y E2 (x). Esta interferencia explica el patrón de franjas que ocurre en
el fenómeno de difracción por dos rendijas. Si disminuı́mos la potencia de la fuente, las franjas de interferencia
disminuirán en intensidad pero no desaparecerán. De por sı́ este fue uno de los experimentos determinantes en favor
de la teorı́a ondulatoria en el siglo XIX.
Sin embargo, los resultados obtenidos cuando la potencia de la fuente es tal que los fotones se liberan uno a uno,
son realmente sorprendentes y entran en conflicto con la teorı́a puramente corpuscular pero también con la teorı́a
puramente ondulatoria.
Por una parte, si hacemos que el tiempo de exposición sea muy largo de manera que una gran cantidad de fotones
impactan la placa fotográfica, vemos que las franjas de interferencia no desaparecen a pesar de haber eliminado la
interacción entre los fotones. Por tanto, la teorı́a corpuscular no puede predecir este fenómeno. La teorı́a ondulatoria
en cambio ofrece una explicación satisfactoria al respecto.
De otra parte, si el tiempo de exposición lo hacemos muy corto de modo que solo unos pocos fotones impacten
la pantalla, vemos que los impactos sobre la placa son muy localizados como se esperarı́a de un comportamiento
corpuscular, y no se observa el patrón de interferencia con baja intensidad que predecirı́a la teorı́a ondulatoria.
Mas aún si el experimento para tiempos cortos de exposición se repite muchas veces para las mismas condiciones
iniciales (el mismo dispositivo con fotones de la misma energı́a y momento, ası́ como igual tiempo de exposición),
vemos que los pocos impactos localizados en cada experimento pueden tener una distribución muy diferente. Esto
indica que el proceso tiene un carácter altamente aleatorio que no es atribuı́ble al desconocimiento o falta de control
en las condiciones iniciales.
Si en cambio repetimos el experimento muchas veces bajo las mismas condiciones iniciales pero para tiempos
de exposición muy grandes, en los cuales muchos fotones han impactado la placa, vemos que el patrón contı́nuo de
intensidades se forma según lo indicado en la teorı́a ondulatoria, es decir con los patrones adecuados de interferencia.
Para este caso el fenómeno es altamente reproducible, es decir la distribución de intensidades es esencialmente la
misma en cada experimento.
102CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS DE LA MECÁNICA CUÁNTI

Si se hacen experimentos para tiempos de exposición especı́ficos y estos tiempos de exposición se van incre-
mentando gradualmente, vemos que a medida que el tiempo de exposición aumenta el experimento se vuelve más
reproducible, pasando desde resultados muy aleatorios para tiempos de exposición cortos (pocos fotones incidentes)
hasta resultados altamente reproducibles para tiempos muy largos de exposición (muchos fotones incidentes). Esto
revela que la ley fundamental que rige al fenómeno debe ser de naturaleza probabilı́stica, ya que un modelo prob-
abilı́stico en general falla en sus predicciones cuando una muestra posee muy pocos elementos o eventos, pero es
altamente predictivo cuando la muestra consta de un enorme número de elementos o de eventos. En nuestro caso
los eventos son los impactos de los fotones sobre la placa y lo que vemos es que el patrón de interferencia se va
construyendo a medida que los fotones van impactando la placa.
Un aspecto que no hemos tocado hasta aquı́, es el referente a la determinación de la rendija por la cual pasa
cada fotón. Si queremos determinar por cual rendija pasa cada uno de los fotones que se emiten uno por uno,
podemos colocar dos detectores (digamos dos fotomultiplicadores) sobre cada rendija F 1 y F2 , en tal caso podemos
determinar completamente la rendija a través de la cual pasa cada fotón, ya que cuando se emite un fotón una
señal es registrada en uno de los detectores pero no en ambos al tiempo. Sin embargo, en este caso todos los fotones
detectados son absorbidos por los detectores y no alcanzan la pantalla. En otras palabras, la completa determinación
de la rendija por la cual pasa cada fotón destruyó completamente la información sobre el patrón de difracción. Por
otro lado, si dejamos un detector solo en F 1 y dejamos abierto F2 veremos que cuando han pasado muchos fotones
cerca del 50 % han sido detectados (con respecto al experimento anterior). Concluı́mos que los demás han pasado
por F2 pero entonces el patrón de difracción que se construirá gradualmente sobre la pantalla será el correspondiente
a la difracción por una rendija, no se observará entonces el fenómeno de interferencia inherente al experimento con
dos rendijas. Una vez más el proceso de medición (determinación de la rendija de paso) ha alterado la evolución
posterior del sistema.
En lo referente al carácter probabilı́stico cuántico, es necesario distinguirlo de los aspectos probabilı́sticos que se
emplean usualmente en mecánica clásica. En la termodinámica y especialmente en la mecánica estadı́stica clásica, se
utilizan conceptos de probabilidad y estadı́stica debido a que en la práctica (experimental) no es posible determinar
o controlar las condiciones iniciales de muchas partı́culas, aunado con la dificultad práctica (teórica) de resolver un
gran número de ecuaciones diferenciales acopladas. Se asume sin embargo en las teorı́as clásicas que si conozco todas
las condiciones iniciales puedo al menos en principio predecir las trayectorias exactas de las partı́culas y por tanto
de mi sistema como un todo. En cuántica nos vemos avocados a usar la probabilidad incluso con el conocimiento
y/o control de las condiciones iniciales del sistema, estamos hablando entonces de un comportamiento probabilı́stico
esencial e inherente a las leyes de la naturaleza, al menos en nuestra presente interpretación de los fenómenos.

2.7.1. Interpretación mecano-cuántica de la dualidad onda partı́cula


Hemos visto que tanto los aspectos corpusculares como los ondulatorios son indispensables para un correcto
entendimiento de los experimentos de Young con doble rendija. Dado que en mecánica clásica estos aspectos son
mutuamente excluyentes, será necesario replantearse las ideas de la mecánica clásica, las cuales después de todo
tuvieron su semilla en los fenómenos macroscópicos. Veamos a la luz de los resultados anteriores que aspectos deben
ser revaluados
De la discusión anterior hemos visto que cuando colocamos un fotomultiplicador (o dos) para detectar por cual
rendija van a pasar los electrones, afectamos de manera fundamental al sistema produciendo un cambio drástico en
el resultado final debido a que los fotones detectados se absorben y no alcanzan la pantalla. Vemos entonces que el
proceso de medición afecta de forma fundamental al sistema que se mide. En mecánica clásica, si bien es necesario
perturbar al sistema para poder medirlo, está implı́cito que esta perturbación se puede hacer arbitrariamente
pequeña al menos en principio. En mecánica cuántica éste y otros experimentos nos indicarán que cuando se realiza
un proceso de medición existe una cierta “perturbación fundamental” que no puede ser minimizada y que altera de
manera considerable al sistema que se mide.
Por otro lado, hemos visto que aunque los fotones se envı́en uno por uno, eliminando de esta forma la interacción
entre fotones, un fotón parece comportarse diferente si están abiertas las dos rendijas con respecto al caso en que
una sola de ellas está abierta, de no ser ası́ la intensidad resultante cuando las dos están abiertas serı́a la suma de
las intensidades obtenidas cuando se abre cada una. Adicionalmente, ya hemos visto que si intentamos determinar
por cual rendija pasan los fotones, evitamos que estos alcancen la pantalla. Esto se puede replantear diciendo que
es imposible observar el patrón de interferencia y al mismo tiempo conocer por cual rendija pasó cada fotón. Esta
2.7. EL EXPERIMENTO DE YOUNG DE LA DOBLE RENDIJA 103

afirmación será reforzada más adelante cuando discutamos el principio de incertidumbre de Heisenberg. Para resolver
esta paradoja es necesario abandonar la idea de que cada fotón pasará inevitablemente por una rendija especı́fica,
lo cual nos lleva a su vez a cuestionar el concepto de trayectoria, tan firmemente establecido en la mecánica clásica.
Ahora bien, hemos visto que cuando unos pocos fotones han impactado la pantalla, la distribución de estos
fotones no es reproducible a pesar de que los experimentos se repitan bajo las mismas condiciones iniciales. Esto
implica que para un fotón dado no podemos predecir con total certeza en qué punto golpeará a la pantalla incluso
si conocemos sus condiciones iniciales. En consecuencia, el conocimiento de las condiciones iniciales de un sistema
no determina completamente el movimiento subsecuente de éste. No obstante, el hecho de que el mismo patrón de
interferencia se construya cuando el número de fotones es muy alto, nos indica que las condiciones iniciales nos
pueden determinar una distribución de probabilidad que sı́ puede ser especificada por alguna ecuación dinámica. En
este caso especı́fico, la probabilidad de que un fotón golpee la pantalla dentro de un intervalo entre el punto x y el
punto x + dx, es proporcional a I (x) dx calculado con la teorı́a ondulatoria, es decir será proporcional a |E (x)| 2 dx.
Nótese que el principio de superposición que rige el comportamiento de los fenómenos ópticos clásicos está basado
en el hecho de que las ecuaciones de Maxwell sin fuentes son ecuaciones lineales y homogéneas, para las cuales vale
el principio de superposición, si E 1 y E2 son soluciones de las Ecs. de Maxwell sin fuentes, una combinación lineal
de ellas también lo es.
Los anteriores hechos se pueden entonces postular en la siguiente forma:
Los aspectos corpusculares y ondulatorios de la luz son inseparables. De modo que la luz se comporta simultánea-
mente como onda y como flujo de partı́culas. Las predicciones sobre el comportamiento del fotón son solo de carácter
probabilı́stico. El comportamiento ondulatorio nos dictamina la distribución de probabilidad de su manifestación co-
mo partı́cula (fotón). La información fı́sica sobre el fotón en un momento dado está determinada por la componente
E (r, t) de la onda electromagnética que es solución de las ecuaciones de Maxwell. El campo E (r, t) caracteriza al
estado de los fotones en el tiempo t. Dicho campo se interpreta como la amplitud de probabilidad de que un fotón
aparezca en el punto r en el tiempo t. Esto implica que la correspondiente probabilidad de que un fotón esté en el
volumen d3 r centrado r está dada por |E (r, t)| 2 d3 r.
Más adelante veremos que la amplitud de probabilidad E (r, t) tendrá su análogo para la materia en la denom-
inada función de onda ψ (r, t). Si bien existen muchas analogı́as entre E (r, t) y ψ (r, t) también existen algunas
diferencias importantes, por ejemplo E (r, t) no caracteriza completamente al estado de un fotón, en tanto que la
función de onda caracteriza completamente el estado de una partı́cula sin espı́n. La función de onda es esencial-
mente compleja en tanto que E se hace complejo solo por conveniencia. La teorı́a cuántica completa para los fotones
(electrodinámica cuántica) debe tener en cuenta el carácter eminentemente relativista de las ecuaciones de Maxwell
y además corresponde a la cuantización de un medio que es clásicamente contı́nuo (campos electromagnéticos).
En contraste, la mecánica cuántica para partı́culas corresponde a la cuantización de un medio que clásicamente
se considera discreto (partı́culas puntuales) y que en muchos casos se puede tratar como no-relativista. Aquı́ solo
trabajaremos la mecánica cuántica no relativista de medios clásicamente discretos y por tanto no trabajaremos el
problema concerniente al proceso matemático de cuantización del fotón.

2.7.2. Proceso de medición, preparación de un sistema y el principio de la descomposición


espectral
Vamos a examinar otro experimento de óptica que arrojará muchas luces sobre las ideas relativas al proceso de
medición en cuántica.
La Fig. 2.2, muestra el montaje que queremos estudiar. Asumamos que hacemos incidir una onda plana monocromáti
de una fuente sobre un polarizador P , elegiremos el eje z como el eje de propagación de la onda electromagnética
y asumiremos que el polarizador P se ubica en el plano xy. Paralelo al plano xy colocaremos un analizador A que
transmitirá luz polarizada a lo largo de u x y absorberá luz polarizada a lo largo de u y .
Asumiremos que el experimento se realizará en condiciones en donde sea válida la óptica clásica, es decir cuando
el haz de luz es muy intenso. En este caso, cuando la onda pasa por P queda polarizada en una dirección especı́fica
up caracterizada por
up = cos θ ux + sin θ uy
la onda plana monocromática que sale del polarizador P está caracterizada por el campo eléctrico

E (r, t) = E0 up ei(kz−ωt) = E0 cos θei(kz−ωt) ux + E0 sin θ ei(kz−ωt) uy (2.3)


104CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS DE LA MECÁNICA CUÁNTI

Figura 2.2: (a) Montaje experimental para medidas de polarización. En z < 0 tenemos luz no polarizada que en
z = 0 se polariza en la dirección up . El analizador A suprimirá la componente u y del campo eléctrico polarizado.

E0 es la amplitud (constante) de la onda polarizada. La intensidad es proporcional a |E 0 |2 . Cuando la onda polarizada


pasa por el analizador su campo eléctrico vendrá dado por

E0 (r, t) = E00 ux ei(kz−ωt) = E0 cos θ ux ei(kz−ωt)

que surge básicamente de la eliminación de la componente a lo largo de u y en la Ec. (2.3). La intensidad de la onda
que pasó el analizador está dada por |E 00 |2 es decir

I 0 = I cos2 θ

resultado conocido como la ley de Malus.


Nos preguntamos ahora por lo que ocurre a nivel cuántico. Es decir, cuando la intensidad de la fuente es tan
baja que los fotones se emiten uno a uno, de manera que la cuantización de la radiación se hace manifiesta. Podemos
colocar un detector de fotones detrás del analizador para mirar los resultados. Retomaremos para ello los resultados
de las discusiones anteriores.
En primera instancia, debido a la existencia de un cuanto indivisible (el fotón) el detector no registra una fracción
de fotón. O bien el fotón cruza el analizador o bien es absorbido completamente por él.
Adicionalmente, no podemos predecir con total certeza si un cierto fotón incidente sobre el analizador cruzará o
será absorbido por éste. Solo podremos conocer la probabilidad de que un evento especı́fico de estos ocurra. Veremos
sin embargo que en ciertos casos especı́ficos, podremos hacer predicciones con total certeza.
Cuando el número total de fotones es muy grande, es decir cuando ha pasado suficiente tiempo, se construirá un
patrón reproducible de probabilidad equivalente al que se obtiene para tiempos cortos con un haz de alta intensidad.
En sı́ntesis debe generarse un patrón reproducible (y por tanto predecible) que corresponda además al lı́mite clásico.
Es decir, si N es el número (grande) de fotones entonces un número dado por N cos 2 θ de fotones cruzará el
analizador.
Nótese que el aparato de medida (analizador) solo puede dar algunos resultados especı́ficos que llamaremos
resultados propios o autoresultados. En este experimento solo hay dos resultados posibles: el fotón pasa el
analizador o es absorbido por él. Hay entonces una cuantización del resultado, lo cual es muy diferente al escenario
clásico en el cual la intensidad puede variar de manera contı́nua desde 0 hasta I cuando el ángulo θ se varı́a de
forma contı́nua.
2.7. EL EXPERIMENTO DE YOUNG DE LA DOBLE RENDIJA 105

El experimento muestra además el siguiente resultado, si el fotón está polarizado a lo largo de u x dicho fotón
pasará con toda certeza el analizador (con probabilidad 1). Análogamente, si el fotón está polarizado a lo largo de u y
hay una certeza total de que este fotón será absorbido (probabilidad cero para pasar). Estas aseveraciones requieren
naturalmente de una repetición de una gran cantidad de experimentos que muestren la naturaleza probabilı́stica
para fotones con estas polarizaciones. Adicionalmente, se observa que estos son los únicos estados de polarización
que conducen a una total certeza en la medida. Por esta razón llamaremos a estos estados de polarización estados
propios o autoestados. Vemos además que a cada resultado propio le corresponde un estado propio, el resultado
propio “fotón que cruza” está asociado con el estado propio de polarización a lo largo de u x . El resultado propio
“fotón que se absorbe” está asociado a fotones con polarización u y . En otras palabras, para un estado propio tenemos
total certeza de obtener su correspondiente resultado propio. Matemáticamente podemos describir nuestros dos
estados propios como
u(1) (2)
p = ux ; up = uy

La siguiente pregunta obvia es ¿cuál es la probabilidad de obtener un resultado propio dado, cuando el estado
es una superposición de los estados propios? es decir cuando el estado de polarización del fotón es arbitrario i.e.

up = cos θ ux + sin θ uy = cos θ u(1) (2)


p + sin θ up (2.4)

para obtener la distribución de probabilidad es necesario tener una gran cantidad de eventos para cada estado de
polarización. Esto se logra midiendo muchos fotones que poseen las mismas condiciones iniciales 2 y se encuentra
experimentalmente que para un número N (grande) de fotones con polarización dada por un ángulo θ en (2.4) un
número N cos2 θ de ellos pasará, y N sin2 θ de ellos será absorbido. Por tanto, un fotón especı́fico con polarización
definida por θ tiene una probabilidad cos 2 θ de ser transmitido y una posibilidad sin 2 θ de ser absorbido. Esto
coincide con la ley clásica de Malus como esperábamos cuando el número de fotones es grande.
Lo anterior nos indica que la probabilidad de obtener un cierto resultado propio es proporcional al cuadrado del
valor absoluto del coeficiente del estado propio asociado, al coeficiente lo llamamos la amplitud de probabilidad, las
amplitudes de probabilidad A (i) y las probabilidades P (i) para cada resultado propio son en este caso
D D 2
(1)
A (1) = cos θ = u(1)
p u p i ; P (1) = cos 2
θ = u p u p i
D D 2
(2)
A (2) = sin θ = u(2) 2
p up i ; P (2) = sin θ = up up i

P (1) + P (2) = cos2 θ + sin2 θ = 1

en algunos casos será necesario colocar una constante de proporcionalidad para garantizar que la suma de las
probabilidades de todos los resultados propios sea uno.
Esto nos induce a postular que si tenemos un conjunto de autoresultados {R i } asociados a autoestados {ψi } un
estado arbitrario se escribirá como superposición de los autoestados
X
ψ= ci ψi (2.5)
i

y la probabilidad de obtener un autoresultado R k será

|ck |2
P (Rk ) = P 2 (2.6)
i |ci |

o equivalentemente
|hψk | ψi|2
P (Rk ) = (2.7)
hψ| ψi
donde el denominador me asegura la conservación de la probabilidad
X
P (Ri ) = 1
i
2
Nótese que el polarizador tiene el papel de reproducir las mismas condiciones iniciales en cada conjunto de experimentos.
106CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS DE LA MECÁNICA CUÁNTI

puesto que el conjunto de todos los autoresultados es por definición el conjunto de todos los resultados experimentales
que podemos obtener al medir el sistema. Esta afirmación se denomina el principio de descomposición espectral.
El ejemplo de los fotones polarizados nos indica además que la descomposición espectral especı́fica depende del
tipo de instrumento de medición dado que hay que utilizar los autoestados que corresponden a este aparato. Por
ejemplo, si el analizador (aparato de medición) tiene una orientación diferente, los autoestados estarán definidos
según esta nueva dirección. Si en vez de un analizador tenemos un medidor de otra variable fı́sica (por ejemplo el
espı́n) los autoresultados deben definirse correspondientemente y por lo tanto los autoestados.
Supongamos que dos fotones poseen la misma polarización pero se diferencian en otros observables fı́sicos (mo-
mento, espı́n, etc.), un aparato que mide polarización solo puede dicernir los diferentes valores de este observable,
por tanto si existen otros observables que caracterizan a mi partı́cula, al autovalor de polarización {a}, le corre-
sponde mas de un autoestado ya que todos los autoestados con polarización {a} están asociados a este autovalor
sin importar cuales sean los valores de los otros observables. Decimos que los autoestados están degenerados con
respecto al observable o autovalor {a} lo cual según la presente discusión indica que solo tenemos una información
parcial sobre el sistema. Volveremos sobre el tema de la degeneración más adelante.
La consistencia de estos resultados se puede analizar poniendo un segundo analizador A 0 después de A y que
permita el paso de fotones con polarización en u x . Dado que todos los fotones que pasaron por A quedaron “prepara-
dos” en el estado de polarización u x , todos estos fotones están en un solo autoestado del nuevo analizador A 0 con
autoresultado “el fotón pasa”. Por tanto, todos los fotones que pasaron por A deben pasar por A 0 . Similarmente, si
A0 está orientado según uy , todos los fotones que vienen de A deben ser absorbidos en A 0 . Estas predicciones están
confirmadas por los experimentos.
Analicemos ahora un aspecto de la medición directamente asociado con la naturaleza cuántica de la radiación.
Al ser el fotón un cuanto indivisible solo existe la posibilidad de transmisión o absorción, esto desembocó en el
hecho de que a partir de un estado arbitrario de polarización, hay un cambio abrupto luego de la medición para
los fotones que pasan, pues estos pasan de la polarización u p a la polarización ux que corresponde a un autoestado
de mi aparato. Existe entonces una perturbación fundamental que altera el estado del sistema y que no puede ser
disminuı́da. Nótese que después de la medición (preparación del fotón en un autoestado) tenemos una información
adicional “el fotón ha pasado el analizador”.
Lo anterior es entonces una confirmación de que el proceso de medición perturba de manera fundamental el estado
del sistema. Podrı́amos en este punto postular que luego del proceso de medición, el sistema queda preparado en
un estado propio definido por el sistema mismo y por el aparato de medición.

2.8. Dualidad onda partı́cula para la materia


Hemos visto que de acuerdo con los postulados de De Broglie, la materia al igual que los fotones exhibe un
comportamiento dual onda partı́cula. La corroboración experimental de estos postulados se realizó a través de los
experimentos de Davidsson y Germer, ası́ como los experimentos de G. P. Thomson (ambos sobre difracción de
electrones), y los experimentos de Estermann, Frisch y Stern concernientes a la difracción de átomos de Helio.
Adicionalmente, De Broglie postuló que si bien la onda asociada a una partı́cula libre era una onda viajera
(nodos en movimiento), para un electrón en un átomo que esté ligado al núcleo atómico y que recorre su órbita
periódicamente, su onda piloto debe estar asociada a una onda estacionaria (nodos fijos). Esta interpretación per-
mitió dar una explicación a las reglas de cuantización de Bohr, demostrando que las órbitas permitidas en un átomo
son aquellas que corresponden a un perı́metro circular con un número entero de longitudes de ondas estacionarias.
Además para órbitas no circulares la exigencia de ondas estacionarias resultó equivalente a las reglas de cuanti-
zación de Wilson y Sommerfeld, en donde los niveles permitidos de energı́a aparecen como los análogos de los modos
normales de una cuerda vibrante.
Recordemos además que dentro de sus postulados De Broglie asume que la energı́a E y el momento p de una
partı́cula material posee la siguiente relación con sus parámetros de onda

E = hν = ~ω ; p = ~k (2.8)

siendo ν, ω, k la frecuencia, frecuencia angular y número de onda respectivamente. La correspondiente longitud de


onda es
2π h
λ= = (2.9)
|k| |p|
2.8. DUALIDAD ONDA PARTÍCULA PARA LA MATERIA 107

una estimación de la longitud de onda de la materia ordinaria nos permite comprender porqué no observamos la
naturaleza ondulatoria de la materia ordinaria en el mundo macroscópico.
En virtud de la gran simetrı́a que parece existir entre la radiación y la materia, vamos a incorporar las ideas
ya recogidas de los experimentos ópticos para incorporarlas a la naturaleza de las partı́culas materiales. Estas
extrapolaciones están soportadas en el hecho de que experimentos similares a los ópticos se pueden realizar con
los electrones y otras partı́culas materiales, y observar que el comportamiento es muy similar al mostrado por los
fotones.
Comenzaremos entonces por mencionar que el concepto clásico de trayectoria será sustituı́do por el concepto de
una distribución dinámica (dependiente del tiempo) de probabilidad de que la partı́cula esté en cierta región del
espacio. Para ello será necesario encontrar una amplitud de probabilidad ψ (r, t) que estará asociada a un campo
escalar. A esta amplitud de probabilidad se le conoce como función de onda y me define el estado de una partı́cula
en un instante dado, es decir contiene toda la información posible sobre la partı́cula. La probabilidad de encontrar
a la partı́cula en un volumen d3 r está dada por

dP (r, t) = C |ψ (r, t)|2 d3 r

donde C es una constante de normalización. Puesto que los experimentos muestran que esta distribución de proba-
bilidad presenta las propiedades ondulatorias, es necesario que la ecuación de movimiento que la genera sea lineal y
homogénea para que se cumpla el principio de superposición que se requiere para los fenómenos de interferencia. Es
claro que estos fenómenos de interferencia se verán reflejados en la probabilidad (al igual que en la intensidad en los
fenómenos ópticos), al elevar al cuadrado la cantidad ψ (r) (el análogo a E (r, t) en óptica). Dado que la partı́cula
debe estar siempre en algún lugar, es claro que la probabilidad total debe ser igual a la unidad
Z
C |ψ (r, t)|2 d3 r = 1 (2.10)

esto nos indica entonces que los estados fı́sicos ψ (r, t) deben ser funciones de cuadrado integrable en todas las
regiones accesibles a la partı́cula (es posible que ciertas condiciones fı́sicas hagan que algunas regiones no sean
accesibles). En otras palabras, la integral sobre el volumen accesible de la partı́cula debe ser convergente.
Asumiremos además que se cumple el principio de descomposición espectral aplicado a la medida de una cantidad
fı́sica arbitraria. Esto significa que (a) El resultado de la medida debe pertenecer a un conjunto de autoresultados
{a}. (b) Con cada autovalor a se asocia un autoestado, es decir una autofunción ψ a (r). Esta autofunción cumple la
condición de que si ψ (r, t0 ) = ψa (r) siendo t0 el instante en el cual se realiza la medida, el resultado de tal medida
nos dará con toda certeza el autovalor a. (c) Para todo estado ψ (r, t) la probabilidad P a de obtener el autovalor
a cuando se realiza una medida en el tiempo t 0 , se encuentra descomponiendo ψ (r, t) en los autoestados ψ a (r, t)

X |ca |2 X
ψ (r, t0 ) = ca ψa (r) ; Pa = P 2 ; Pa = 1
a b |cb | a

en virtud de la arbitrariedad del estado inicial ψ (r, t 0 ), lo anterior implica que los autoestados ψ a (r) deben ser
completos, es decir deben formar una base para el conjunto de todos los estados fı́sicos posibles, esto nos llevará de
manera natural al concepto de observable. (d) Si la medida nos arroja un autovalor a, la partı́cula quedará en su
autoestado asociado ψa (r). (e) La ecuación que describe la evolución del sistema (evolución temporal de la amplitud
de probabilidad) debe ser lineal y homogénea en ψ. Debe tener soluciones de naturaleza ondulatoria compatibles
con las relaciones de De Broglie, en la siguiente sección estudiaremos con más detalle estas propiedades.
Es importante observar que cuando realizamos el paso de suplantar la trayectoria de una partı́cula (clásicamente
puntual), por una distribución dinámica de probabilidad (un campo) estamos reemplazando un estado clásico de
partı́cula puntual de seis parámetros en cada tiempo (tres coordenadas de posición y tres de velocidad), por un
estado cuántico determinado por un número infinito de parámetros: el valor de la función de onda en cada punto
del espacio (y en el tiempo dado). El hecho de que la distribución de probabilidad dependa del tiempo nos llevará al
concepto de propagación de la onda asociada con la partı́cula. A manera de ejemplo, en el experimento de la doble
rendija de Young cuando se observa el patrón de interferencia no poseemos información sobre la rendija por la cual
pasó cada fotón (también vale para electrones u otras partı́culas materiales), en realidad la onda asociada para por
ambas rendijas y solo podemos calcular la probabilidad de que pase por una de ellas.
108CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS DE LA MECÁNICA CUÁNTI

Es importante mencionar sin embargo, que la simetrı́a materia radiación exhibida hasta el momento posee
una excepción importante: los fotones son en general emitidos (creados) o absorbidos (destruı́dos) durante un
experimento. En contraste, las partı́culas materiales no se crean ni se destruyen en los experimentos tı́picos. Por
ejemplo, un electrón emitido por un filamento caliente ya existı́a previamente en el filamento. De la misma forma
un electrón absorbido en un detector no desaparece, simplemente se vuelve parte de un átomo del detector o de una
corriente en éste. En realidad la teorı́a de la relatividad predice que es posible la creación y aniquilación de partı́culas
materiales: por ejemplo un fotón de alta energı́a que pasa cerca a un átomo puede crear un par electrón positrón
(partı́cula antipartı́cula). Recı́procamente, una colisión electrón positrón aniquila a ambas partı́culas emitiendo un
fotón, esta conversión radiación materia o viceversa es posible gracias a la equivalencia energética de la masa. Sin
embargo, en el lı́mite no relativista la materia no se puede crear ni destruı́r, lo cual nos lleva a una ley importante de
conservación del número de partı́culas. En particular, para sistemas de una partı́cula podemos hacer la afirmación
de que la partı́cula está en alguna parte para todo tiempo, lo cual nos indica una conservación de la probabilidad
(la integral de volumen 2.10 debe ser la unidad para todo tiempo).
Resumamos entonces las diferencias importantes entre materia y radiación que nos conducen a que la teorı́a
cuántica para la materia es más sencilla. (a) Los fotones son irremediablemente relativistas, la materia en cambio
puede estar en un régimen no relativista y de hecho para sólidos a temperaturas normales los electrones y núcleos
tienen velocidades mucho menores que la de la luz. Por tanto, para la materia tiene sentido una teorı́a cuántica no
relativista pero no para la radiación. (b) La naturaleza relativista de los fotones (y de la materia a altas energı́as)
conduce a que el número de fotones no se conserva en el tiempo, por tanto la distribución de probabilidad debe
colapsar para tiempos anteriores a la emisión y posteriores a la absorción, la Ec. (2.10) no es válida para todo
tiempo y debe incorporarse una ecuación o ecuaciones que me den cuenta de la dinámica en el número de partı́culas
(dinámica de creación y destrucción). (c) Desde el punto de vista clásico las partı́culas suelen modelarse como medios
discretos (partı́culas puntuales), en tanto que el escenario clásico del fotón corresponde a medios contı́nuos (campos
electromagnéticos). La cuantización de la materia se asocia entonces a menudo con la cuantización de un medio
clásicamente discreto (teorı́a cuántica “ordinaria”), en tanto que la cuantización de la radiación está necesariamente
asociada a la cuantización de un medio clásicamente contı́nuo (teorı́a cuántica de campos).

2.9. Aspectos ondulatorios de una partı́cula material


Hemos visto que la distribución de probabilidad está asociada con las propiedades ondulatorias de la materia (o
la radiación). Por tanto, la generación de la ecuación dinámica para esta distribución de la probabilidad requerirá de
estudiar las propiedades ondulatorias que dicha ecuación debe generar. En general, la mayor parte de la discusión que
se desarrollará en esta sección es también válida para ondas clásicas, los desarrollos matemáticos son básicamente
idénticos pero la interpretación difiere en ambos casos. Si seguimos los postulados de De Broglie, el punto de partida
natural será el estudio de las ondas viajeras libres. Dentro de la ecuación de onda clásica libre (i.e. homogénea) la
solución más simple (monocromática) es la solución tipo onda plana
ψ (r, t) = Aei(k·r−ωt) (2.11)
es inmediato ver que la onda plana es tal que
|ψ (r, t)|2 = |A|2
de modo que si efectivamente representa a la onda asociada a una partı́cula libre, nos predice que la distribución de
probabilidad de una partı́cula libre es uniforme en el espacio, lo cual es compatible con la homogeneidad e isotropı́a
del espacio. Podrı́a argumentarse que las ondas planas no son de cuadrado integrable de modo que no representan
estrictamente un estado fı́sico. Sin embargo, nuestra experiencia con la óptica en la cual las ondas planas tampoco
son estados fı́sicos nos muestra que el estudio de sus propiedades es muy provechoso, por un lado porque se puede
considerar como el lı́mite de un estado fı́sico y por otro lado porque los estados fı́sicos se podrán escribir como
superposición de tales funciones en virtud de su completez (ver sección 1.31.1).
Tomaremos entonces la solución (2.11) como el prototipo de una onda piloto. Nuestro objetivo será realizar una
teorı́a no relativista que sea compatible con los postulados de De Broglie. Partiremos entonces de la relación no
relativista entre E y p para una partı́cula
p2
E= (2.12)
2m
2.9. ASPECTOS ONDULATORIOS DE UNA PART ÍCULA MATERIAL 109

y utilizando las relaciones de De Broglie (2.8) llegamos a


~k2
ω= (2.13)
2m
la relación de dispersión (2.13) nos dice que la ecuación de onda NO es la ecuación dinámica que gobierna a la
teorı́a cuántica no relativista de una partı́cula, ya que es fácil demostrar que insertando (2.11) en la ecuación de
onda clásica se obtiene la relación de dispersión
ω 2 = k2 v 2 (2.14)
siendo v la velocidad de la onda. Volveremos sobre este problema más adelante, de momento asumiremos que la
onda viajera libre (2.11) es solución de la ecuación de movimiento para el estado cuántico ψ de una partı́cula libre
con relación de dispersión dada por (2.13). Puesto que las ondas piloto deben generar los fenómenos ondulatorios,
es necesario que la combinación lineal de soluciones sea solución de la ecuación dinámica para generar los fenómenos
de interferencia.

2.9.1. Estados cuánticos arbitrarios como superposición de ondas planas


De acuerdo con lo anterior, y dado que las ondas planas pueden generar cualquier función de cuadrado inte-
grable (completez) cualquier estado cuántico de una partı́cula (no necesariamente libre) se puede escribir como una
superposición de la forma Z
1
ψ (r, t) = 3/2
ψ̄ (k) ei[k·r−ωt] d3 k (2.15)
(2π)
donde d3 k = dkx dky dkz representa un diferencial de volumen en el espacio de las k 0 s (usualmente denominado
espacio recı́proco). La transformada de Fourier ψ̄ (k) puede ser compleja pero debe ser bien comportada para
permitir derivar la solución dentro de la integral. Por supuesto, las transformadas de Fourier especı́ficas dependerán
del problema especı́fico.
Una función de onda que es superposición de ondas planas como la descrita en (2.15) se denomina un paquete
de ondas tridimensional. Por simplicidad, tomaremos el caso unidimensional
Z
1
ψ (x, t) = √ ψ̄ (k) ei[kx−ωt] dk (2.16)

y estudiaremos más adelante el caso tridimensional. En primer lugar estudiaremos el perfil del paquete de onda en
un instante dado

2.9.2. Perfil instantáneo del paquete de onda


Por simplicidad elegimos el instante como t = 0. La Ec. (2.16) se simplifica a
Z
1
ψ (x, 0) = √ ψ̄ (k, 0) eikx dk (2.17)

y su inversa es Z
1
ψ̄ (k, 0) = √ ψ (x, 0) e−ikx dx (2.18)

la forma instantánea del paquete estará dada por la dependencia x de ψ (x, 0) definida en (2.17). Imaginemos que
ψ̄ (k, 0) está dada por una curva cuyo perfil es similar a una campana de Gauss simétrica centrada en k = k 0 con
un pico bien pronunciado en k0 y un ancho ∆k. En realidad, no hay una sola forma de parametrizar este ancho,
pero tomaremos por convención que el ancho lo definimos a la mitad de la altura del pico.
Ahora trataremos de definir el comportamiento cualitativo de ψ (x, 0) por medio de ejemplos sencillos. Supong-
amos que ψ (x, t) está dado por una superposición de tres ondas planas e ikx (en t = 0), caracterizadas por los
números de onda k0 , k0 − ∆k ∆k
2 , k0 + 2 con amplitudes g (k0 ), g (k0 ) /2 y g (k0 ) /2
 
g (k0 ) ik0 x 1 i(k0 − ∆k )x 1 i(k0 + ∆k )x
ψ (x) = √ e + e 2 + e 2 (2.19)
2π 2 2
  
g (k0 ) ik0 x ∆k
ψ (x) = √ e 1 + cos x (2.20)
2π 2
110CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS DE LA MECÁNICA CUÁNTI

Figura 2.3: (a) Partes reales de cada una de


 las tres ∆x
ondas
 dadas por (2.19). (b) Superposición de las tres ondas. La
lı́nea punteada es la envolvente dada por 1 + cos 2 x , que le da forma al paquete de ondas. La lı́nea contı́nua
describe las oscilaciones.

La Fig. 2.3 muestra la forma de cada una de estas tres ondas (sus partes reales) y de la superposición. La Ec.
(2.20) muestra que |ψ (x)| es máximo cuando x = 0, lo cual se aprecia en la Fig. 2.3 en virtud de que en x = 0
las tres ondas están en fase y por lo tanto interfieren constructivamente. A medida que nos movemos desde x = 0
(hacia la izquierda o la derecha) las ondas están cada vez más en desfase de modo que |ψ (x)| va disminuyendo,
hasta que la interferencia se vuelve totalmente destructiva en ciertos puntos x n (posiciones de los nodos), cuando la
diferencia de fase entre eik0 x y ei(k0 ±∆k/2)x es igual a (2n + 1) π, siendo n un entero no negativo. Los nodos x n más
cercanos a x = 0 están asociados a una diferencia de fase π
 
∆k ∆k
k0 xn − k0 xn ± xn = π⇒∓ xn = π
2 2
∆k 2π
xn = ∓π ⇒ xn = ∓
2 ∆k
Dado que el paquete es simétrico y está centrado en x = 0, el ancho del paquete es ∆x = 2 |x n |

∆x = ⇒ (∆x) (∆k) = 4π (2.21)
∆k

esto nos muestra que a medida que el ancho ∆k de la función ψ̄ (k) decrece, el ancho ∆x de la función |ψ (x)|
aumenta, siendo ∆x la distancia entre dos ceros de |ψ (x)|. Similarmente, si el ancho del paquete ∆x disminuye
(paquete más localizado), el ancho ∆k de ψ̄ (k) debe aumentar a fin de mantener la relación (2.21).
Si asumimos ik0 x es mucho mayor a la frecuencia del término
∆k
 que k0 >> ∆k entonces la frecuencia del término e
1 + cos 2 x . Por lo tanto, la parte oscilante en x para la Ec. (2.20) está dada por la función e ik0 x y la envolvente
(modulación de la amplitud de oscilación) está dada por
 
g (k0 ) ∆k
|ψ (x)| = √ 1 + cos x
2π 2
2.9. ASPECTOS ONDULATORIOS DE UNA PART ÍCULA MATERIAL 111

esta amplitud de la envolvente o función moduladora de la amplitud se ilustra como lı́nea punteada en la Fig. 2.3.
En este caso, vemos que la envolvente dada por |ψ (x)| es periódica en x de modo que tenemos un tren infinito de
paquetes de onda con una serie de nodos y máximos. Este hecho se debe a que la superposición es de un número
finito de ondas planas. Para una superposición contı́nua de un número infinito de ondas como el dado en (2.17), este
fenómeno no ocurre y tendremos en general un solo máximo para el perfil |ψ (x, 0)|. En realidad, lo que esperamos
de una onda piloto asociada a una partı́cula es un solo paquete relativamente “localizado” alrededor del máximo
del paquete (región de mayor probabilidad de localizar a la partı́cula).
Retornemos ahora al caso general de una superposición contı́nua de la forma (2.17), aquı́ el fenómeno de in-
terferencia es más complejo pero de nuevo tendremos un máximo en |ψ (x, 0)| cuando las diferentes ondas viajeras
interfieran constructivamente.
Escribamos, ψ̄ (k, 0) en notación polar con α (k) el argumento y ψ̄ (k, 0) la longitud del fasor

ψ̄ (k, 0) = ψ̄ (k, 0) eiα(k) (2.22)

ahora
asumamos
que α (k) varı́a lentamente en el intervalo [k 0 − ∆k/2, k0 + ∆k/2] donde la longitud del fasor
ψ̄ (k, 0) es apreciable. Cuando ∆k es suficientemente pequeño, podemos expandir a α (k) en las vecindades de
k = k0  

α (k) ' α (k0 ) + (k − k0 )
dk k=k0
reemplazando esta expansión en (2.17) se obtiene
Z ∞ Z ∞
1 1
ψ (x, 0) = √ ψ̄ (k) eikx dk = √ ψ̄ (k) eiα(k) eikx dk (2.23)
2π −∞ 2π −∞
Z k0 + ∆k h i
1 2 i α(k0 )+(k−k0 )[ dα
dk ]k=k0
+kx
' √
ψ̄ (k) e dk
2π k0 − ∆k 2
Z k0 + ∆k h i
1 2 i α(k0 )+(k−k0 )[ dα
dk ]k=k0
+kx−k0 x+k0 x
= √
ψ̄ (k) e dk
2π k0 − ∆k 2
Z k0 + ∆k h i
1 2 i α(k0 )+(k−k0 )[ dα
dk ]k=k0
+(k−k0 )x+k0 x
= √
ψ̄ (k) e dk
2π k0 − ∆k 2
Z ∆k n  o
ei[α(k0 )+k0 x] k0 + 2 i (k−k0 ) [ dα ]
+x
= √ ψ̄ (k) e dk k=k0
dk (2.24)
2π k0 − ∆k
2

quedando finalmente
Z k0 + ∆k
ei[k0 x+α(k0 )] 2
ψ (x, 0) ' √ ψ̄ (k) ei(k−k0 )(x−x0 ) dk (2.25)
2π k0 − ∆k
2
 

x0 ≡ − (2.26)
dk k=k0

La expresión (2.25) es útil para un análisis cualitativo de las variaciones de |ψ (x, 0)| con x. Partiendo de k = k 0 el
siguiente valor kb para el cual se ha ejecutado una oscilación es


(kb − k0 ) (x − x0 ) = 2π ⇒ (kb − k0 ) =
(x − x0 )

De modo que el valor de |x − x0 | nos dice si |kb − k0 | es mayor o menor que ∆k/2 o en otras palabras, si en el
intervalo de integración definido en (2.25) el integrando ha logrado o no completar una oscilación. Cuando |x − x 0 |
es grande i.e. cuando |x − x0 | >> 2π/∆k, se tiene que


(kb − k0 ) = << ∆k
(x − x0 )
112CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS DE LA MECÁNICA CUÁNTI

Figura 2.4: Variaciones con respecto a k, de la parte real del integrando en la Ec. (2.25) (a) cuando x es fijo en un
valor tal que |x − x0 | > 1/∆k, en tal caso la función oscila varias veces en el intervalo ∆k. (b) Cuando x es fijo en
un valor tal que |x − x0 | < 1/∆k, en tal caso la función oscila muy poco en tal intervalo y la función ψ (x, 0) toma
valores grandes. Por tanto, el centro del paquete
de ondas (punto donde |ψ (x, 0)| es máximo) se ubica en x=x 0 .
En todo el análisis se ha supuesto que ψ (k) es una función simétrica centrada en k 0 , con un perfil similar a una
campana de Gauss.

de modo que una oscilación en el integrando de (2.25) se realiza en un intervalo mucho menor que el ancho de
integración. En consecuencia, la función de k que se integra en (2.25) oscila muchas veces dentro del intervalo ∆k
y las contribuciones de las sucesivas oscilaciones se cancelan entre sı́ (Fig. 2.4a); por tanto, la integral sobre k se
vuelve muy pequeña. Es decir que cuando x está fijo en un valor lejano a x 0 las fases de las diversas ondas que
constituyen a ψ (x, 0) varı́an muy rápidamente en el dominio ∆k, y forman entre ellas una interferencia destructiva.
Por otra parte, cuando x ' x0 , o en otras palabras cuando

|x − x0 | << 1/∆k

se tiene que
|kb − k0 | >> 2π∆k > ∆k
la función que se integra sobre k solo realiza una pequeña fracción de la oscilación a partir de k 0 y dado que
|k − k0 | < ∆k para un k que esté en el intervalo de integración, se tiene que
 
1 ∆k ∆k
|k − k0 | |x − x0 | < < ∆k = 1 , k ∈ k0 − , k0 +
∆k 2 2

ψ̄ (k) ei(k−k0 )(x−x0 ) ' ψ̄ (k) (2.27)

de modo que la exponencial apenas modifica un poco el perfil de ψ̄ (k) (Fig. 2.4b), y en el proceso de integración
la fase se mantiene casi constante, por tanto la interferencia es constructiva y |ψ (x, 0)| es máximo.
De otra parte, la Ec. (2.27) se convierte en una igualdad para la posición x M tal que xM = x0 , en cuyo caso no
hay oscilación y la interferencia es completamente constructiva. Por tanto, la posición x M (0) = x0 corresponde al
centro del paquete de onda (máximo del módulo del paquete) que de acuerdo con la Ec. (2.26) viene dada por:
 

xM (0) = x0 = − (2.28)
dk k=k0

alternativamente, se puede ver que (2.28) nos da la posición del centro del paquete teniendo en cuenta que la Ec.
(2.17) adquiere su máximo en valor absoluto cuando las ondas de mayor amplitud (aquellas con k cercano a k 0 )
interfieren constructivamente. Esto ocurre cuando las fases que dependen de k de estas ondas varı́an lentamente
2.9. ASPECTOS ONDULATORIOS DE UNA PART ÍCULA MATERIAL 113

alrededor de k0 . Para obtener el centro del paquete se impone que la derivada con respecto a k de la fase sea cero
para k = k0 , esta fase se puede ver en la segunda igualdad de la Ec. (2.23) y se obtiene
 
d dα
[kx + α (k)]k=k0 = 0 ⇒ x + =0 (2.29)
dk dk k=k0

vemos entonces que la condición de fase estacionaria (2.29) se reduce a (2.28).


Cuando x se aleja de x0 , el valor de |ψ (x, 0)| decrece. El propósito ahora es definir un ancho ∆x dependiendo
del decrecimiento de |ψ (x, 0)| alrededor de x 0 . Nótese que este decrecimiento es apreciable si e i(k−k0 )(x−x0 ) oscila
una vez o más cuando k recorre el dominio desde k 0 − ∆k ∆k
2 hasta k0 + 2 es decir cuando

∆k · |x − x0 | & 2π

donde hemos definido el “umbral” para |x − x 0 | como el valor para el cual se ejecuta una oscilación. Si definimos
∆x ≡ |x − x0 | /2π como el ancho tı́pico del paquete, tenemos

∆k ∆x & 1 (2.30)

lo cual nos da una relación entre los anchos de dos funciones que son transformadas de Fourier una de otra.
Observemos de nuevo que no hay una única manera de definir el ancho ∆x, por ejemplo podemos definir este ancho
con dos oscilaciones, con tres etc, entre mayor sea el número de oscilaciones mayor es el efecto de cancelación, el
ancho será mayor y estaremos tomando una mayor porción del área bajo la curva. De la misma forma, puedo tomar
el ancho ∆k cuando la altura ψ̄ (k) es 1/2, 1/e, 1/3 etc, es decir puedo ensanchar ∆k para tomar una porción más

grande del área bajo la curva y tener mejores aproximaciones. En vista de lo anterior, el hecho importante es que
este producto tiene una cota inferior, ya que el valor preciso de esta cota depende de la definición de los anchos ∆k
y ∆x. Esta es la razón para utilizar el sı́mbolo & en la Ec. (2.30) en lugar de ≥.
La relación (2.30) nos dice además que no es posible construı́r paquetes cuyo producto de anchos sea mucho
menor que uno, pero en cambio sı́ es posible construı́r paquetes cuyo producto de anchos sea mucho mayor que uno.
Nótese que este análisis ha sido completamente matemático, k y x pueden ser variables arbitrarias siempre
que ψ (x, 0) y ψ̄ (k) sean transformadas de Fourier la una de la otra. No existe ninguna suposición fı́sica en estos
argumentos.
El presente análisis se utiliza en ondas clásicas asignando a k el número de onda y a x la variable espacial en
una dimensión. La Ec. (2.30) demuestra que a medida que un paquete de ondas se hace más monocromático (a
medida que se reduce ∆k) el ancho ∆x del paquete de onda espacial se hace mayor. En un paquete estrictamente
monocromático ∆k → 0 y por tanto ∆x → ∞, por lo cual las ondas monocromáticas no corresponden a estados
fı́sicos. Este mismo principio nos muestra que no existe un tren de ondas electromagnéticas para el cual se pueda
definir la posición y la longitud de onda con infinita precisión al mismo tiempo.

2.9.3. El principio de incertidumbre de Heisenberg


En nuestro contexto de la mecánica cuántica, el paquete de onda ψ (x, t) dado por (2.16) representa el estado de
una partı́cula cuya probabilidad en t = 0 de estar fuera del paquete centrado en x 0 y de ancho ∆x es prácticamente
cero.
El resultado (2.30) posee una interesante interpretación a la luz de la mecánica cuántica. Por ejemplo, hemos
visto que cuando nuestro estado se describe por una sola onda plana del tipo dado en la Ec. (2.11) (que no es
estrictamente un estado fı́sico), la probabilidad de estar en cualquier punto del eje x es la misma para todos los
valores de t, no hay propagación de la probabilidad. Por otro lado, el ancho ∆x del paquete de onda se puede
considerar infinito (la amplitud no se modula), lo cual se traduce en la máxima incertidumbre posible en la posición
de la partı́cula (igual probabilidad en todas partes). Por otra parte, esta onda tiene solo una frecuencia angular ω 0
y un solo número de onda k0 (onda monocromática) y de acuerdo con las relaciones de De Broglie su energı́a y su
momento están perfectamente definidos E = ~ω 0 , p = ~k0 . Esta onda plana pura se puede considerar como un caso
particular del paquete de ondas (2.16) con

ψ̄ (k) = δ (k − k0 ) ; ∆k → 0
114CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS DE LA MECÁNICA CUÁNTI

donde el hecho de que ∆k → 0 se vé claramente si vemos a la delta de Dirac como el lı́mite de Gaussianas cada vez
más altas y agudas. La relación ∆k → 0 junto con la Ec. (2.30) nos lleva a que ∆x → ∞ como ya se dijo.
A la luz del principio de descomposición espectral este resultado se puede ver de la siguiente forma: A la
partı́cula en t = 0 le hemos asignado una función de onda ψ (x, 0) = Ae ikx y hemos visto que posee un momento
bien determinado. Es decir que una medida del momento en t = 0 dará definitivamente el valor p = ~k 3 . De esto se
deduce que Aeikx caracteriza al autoestado correspondiente al autovalor p = ~k. Puesto que existen ondas planas
para todos los valores de k, los autovalores de p que se pueden obtener en una medición del momento sobre un estado
arbitrario son todos los valores reales. En este caso no hay cuantización de los autoresultados, todos los valores del
momento son permitidos como en la mecánica clásica. Ahora bien, la total determinación de p viene acompañada
por una completa incertidumbre en x.
Volvamos ahora al caso de un paquete como el dado por (2.17). Como ψ (x, 0) es una superposición lineal de
autofunciones del momento eikx con coeficientes ψ̄ (k, 0), el principio de descomposición espectral nos conduce a
2
interpretar a ψ̄ (k, 0) dk (con un posible factor de normalización) como la probabilidad de encontrar un valor de
momento entre p = ~k y p + dp = ~ (k + dk), cuando hacemos una medida en t = 0 del momento de una partı́cula
cuyo estado es descrito por ψ (x, 0) en (2.17). Esta interpretación es necesaria cuando el autovalor tiene un espectro
contı́nuo ya que en este caso la probabilidad de estar en un
punto 2 matemático especı́fico serı́a cero y solo es finita la
probabilidad de estar en un intervalo dado. En este caso ψ̄ (k, 0) serı́a una densidad de probabilidad (probabilidad
por unidad de volumen unidimensional), y no una probabilidad como ocurre en el caso discreto.
Ahora bien, dado que para una partı́cula es más usual hacer medidas de momento y energı́a que de frecuencia
angular y número de onda, es más adecuado escribir las expresiones en términos de E y p usando las relaciones de
De Broglie Ecs. (2.8)4 . En particular, la Ec. (2.17) se reescribe como
Z
1
ψ (x, 0) = √ ψ̄ (p, 0) eipx/~ dp
2π~
dado que las transformadas de Fourier satisfacen la relación de Bessel parseval (invarianza de la norma)
Z ∞ Z ∞

hψ| ψi (0) = 2
|ψ (x, 0)| dx = ψ̄ (p, 0) 2 dp ≡ C
−∞ −∞

tendremos entonces que


1 1 2
dP (x, 0) = |ψ (x, 0)|2 dx ; dP̄ (p, 0) = ψ̄ (p, 0) dp
C C
dP (x, 0) representa la probabilidad de encontrar a la partı́cula en t = 0 en el intervalo [x, x + dx]. Similarmente,
dP̄ (p, 0) es la probabilidad de obtener una medida del momento de la partı́cula en t = 0 que esté dentro del intervalo
[p, p + dp].
Ahora escribamos la desigualdad (2.30) en términos de E y p usando la relaciones de De Broglie (2.8)

∆x ∆p & ~ (2.31)

para dar una interpretación fı́sica a (2.31), supongamos que el estado de una partı́cula está definido por el paquete
de onda (2.16). En tal caso, la probabilidad de encontrar la partı́cula en t = 0 dentro del intervalo [x 0 − ∆x/2,
x0 + ∆x/2] es prácticamente uno. Decimos entonces que ∆x es la incertidumbre en la medida de la posición de la
partı́cula. Similarmente, si medimos el momento de la partı́cula en el mismo tiempo (t = 0) tal probabilidad es casi
uno dentro del intervalo [p0 − ∆p/2, p0 + ∆p/2]. Es decir que ∆p mide la incertidumbre en la determinación del
momento de la partı́cula.
A la luz de lo anterior la Ec. (2.31) expresa que es imposible medir al mismo tiempo la posición y el momento
de la partı́cula con grado arbitrario de exactitud. Cuando alcanzamos el lı́mite inferior en (2.31) una disminución en
∆x (es decir un aumento en la exactitud de la medición de la posición) conduce a un aumento en ∆p (es decir un
aumento en la incertidumbre de la medida del momento, o equivalentemente una disminución en la exactitud de tal
3
Este punto es quizás el más adecuado para decir que siempre hemos tratado con medidas ideales. Decir que la medida del momento
está completamente definida no es experimentalmente cierto. Lo que en realidad se quiere decir es que en este caso no hay una perturbación
fundamental que cambie drásticamente el sistema y por tanto las demás perturbaciones se puede hacer cada vez más pequeñas.
4
En otras palabras, es más usual medir parámetros de materia que parámetros de onda.
2.10. EL PRINCIPIO DE COMPLEMENTARIEDAD PARA LA DUALIDAD ONDA PART ÍCULA Y SU RELACIÓN

medida) y viceversa. Este enunciado se conoce como el principio de incertidumbre de Heisenberg. Notemos
que el valor del término de la derecha en (2.31) nos expresa más bien un orden de magnitud que un lı́mite inferior
preciso.
Es de anotar que si bien hay un análogo clásico del principio de incertidumbre para las ondas, no hay un análogo
clásico para las partı́culas. En realidad hemos visto que el principio de incertidumbre está asociado inicialmente a
los parámetros de onda, que se conectan a los parámetros de partı́cula por medio de las relaciones de De Broglie,
estas a su vez están asociadas a la dualidad onda partı́cula que es una caracterı́stica cuántica. La pequeñez de ~
hace que este principio de incertidumbre no se manifieste en los sistemas macroscópicos.

2.10. El principio de complementariedad para la dualidad onda partı́cula y


su relación con el principio de incertidumbre de Heisenberg

Figura 2.5: Variante del experimento de Young de la doble rendija, para el cual la placa opaca P, puede desplazarse
verticalmente.

La discusión sobre el experimento de la doble rendija nos ha mostrado que si bien la dualidad onda partı́cula
es necesaria para explicar los resultados, ambas manifestaciones parecen ser mutuamente excluyentes. La perfecta
determinación de las propiedades ondulatorias (patrón de interferencia con doble rendija) nos conduce a una total
ignorancia sobre la rendija por la cual pasa cada fotón (propiedad de “trayectoria” asociada a una partı́cula). Por
otro lado, la perfecta determinación de la rendija por la cual pasa cada fotón (determinación de sus propiedades de
partı́cula) conduce a la completa destrucción del patrón de interferencia (i.e. de sus propiedades ondulatorias). Se
dice entonces que los aspectos ondulatorio y material de la partı́cula son complementarios.
Vamos ahora a reconsiderar el experimento de la doble rendija para demostrar la profunda relación entre el
principio de complementariedad y el principio de incertidumbre de Heisenberg. Para ello analizaremos una variante
del experimento de la doble rendija ilustrada en la Fig. 2.5.
Asumamos que la placa opaca P sobre la cual se perforan las rendijas está montada sobre cojinetes que permiten
su desplazamiento vertical. Asumiremos que el foco de los fotones está muy lejos, de modo que podemos suponer
116CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS DE LA MECÁNICA CUÁNTI

que todos los fotones inciden perpendicularmente sobre la placa P. Un fotón que golpea la placa de observación O
en el punto M (de coordenada x respecto al origen O), tuvo que sufrir un cambio de momento que fué absorbido
por P a fin de mantener el momento conservado. Nótese que si el fotón de momento p = hν/c pasa por la rendija
F1 , el momento transferido a P es

p1 = − sin θ1 (2.32)
c
y si pasa por la rendija F2 , tal momento transferido es

p2 = − sin θ2 (2.33)
c
Siendo θ1 el ángulo de deflexión del fotón cuando cruza la rendija F 1 e impacta en el punto M . El ángulo θ2 se
define similarmente con la rendija F 2 . Por tanto, el momento transferido a P depende de la trayectoria del fotón,
puesto que depende de la rendija por la que pase.
Enviando los fotones uno por uno podemos construir el patrón de interferencia gradualmente sobre la pantalla
de observación. Aparentemente, este dispositivo nos permite construir tal patrón de interferencia asociado a la doble
rendija al tiempo que permite determinar la rendija por la cual pasa cada fotón. A priori pareciera que podemos
determinar completamente las caracterı́sticas corpusculares y ondulatorias de los fotones en forma simultánea.
Sin embargo, las franjas de interferencia no son visibles con este montaje. El error consiste en asumir que solo
los fotones poseen un carácter cuántico. Sin embargo, la placa P aunque es un objeto macroscópico también posee
un carácter cuántico. Si queremos discriminar por cual rendija pasó el fotón, la incertidumbre ∆p en la medida del
momento vertical de P debe ser suficientemente pequeña para determinar la diferencia entre p 1 y p2
∆p << |p2 − p1 |
aplicando las relaciones de incertidumbre, la posición de la placa P se puede conocer a lo más dentro de un intervalo
de incertidumbre dado por
~ h
∆x & >> (2.34)
∆p |p2 − p1 |
si denotamos a la distancia entre las rendijas y d la distancia entre la placa P y la pantalla O, y si asumimos que
θ1 y θ2 son pequeños (i.e. a/d << 1 y x/d << 1) obtenemos
x − a/2 x + a/2
θ1 ' tan θ1 = ; θ2 ' tan θ2 =
d d
a
|θ2 − θ1 | '
d
los momentos p1 y p2 dados en las Ecs. (2.32, 2.33) nos dan
hν hν hν a ha
|p2 − p1 | = |sin θ2 − sin θ1 | ' |θ2 − θ1 | ' =
c c c d λd
siendo λ la longitud de onda asociada al fotón. Sustituyendo esta relación en (2.34) se obtiene
λd
∆x >> (2.35)
a
pero (λd) /a es precisamente la separación entre franjas que se espera encontrar en el patrón de difracción sobre
la pantalla O. Ahora bien, si la posición vertical de las rendijas solo se puede determinar en un intervalo de
incertidumbre mayor a la separación de las franjas, es imposible observar el patrón de interferencia.
La discusión anterior nos muestra que la construcción de una teorı́a cuántica de la radiación requiere de la
construcción de una teorı́a cuántica de la materia para evitar contradicciones. En el ejemplo anterior, si trabajamos
la placa P como un sistema clásico material, invalidamos el principio de complementariedad de los dos aspectos
corpuscular y ondulatorio de la luz y por tanto, la teorı́a cuántica de la radiación. Se puede demostrar que dificultades
análogas surgen cuando se considera que solo la materia posee carácter cuántico. Por tanto, la consistencia del
principio de complementariedad requiere que tanto la materia como la radiación tengan caracterı́sticas cuánticas.
Otro aspecto que vale la pena discutir, es que en este ejemplo la naturaleza cuántica de P es esencial para un
adecuado entendimiento del fenómeno, a pesar de ser un sistema macroscópico. La razón estriba es que si bien el
sistema es macroscópico, las incertidumbres combinadas para el momento y la posición que se requieren en dicho
sistema para soslayar el principio de complementariedad, están en un umbral no permitido por las relaciones de
incertidumbre.
2.11. EVOLUCIÓN TEMPORAL DE PAQUETES DE ONDAS LIBRE 117

2.11. Evolución temporal de paquetes de ondas libre


Asumamos un paquete de ondas como el descrito por (2.15), la forma especı́fica del paquete en t = 0 está dada
por las condiciones iniciales. La evolución del paquete estará entonces dictaminada por las relaciones de dispersión
que dependen de la interacción de la partı́cula con el resto del universo. Puesto que no hemos generado una ecuación
dinámica para la partı́cula no podemos en general resolver la evolución temporal de una partı́cula interactuante,
sin embargo la relación de dispersión (2.13) nos permitirá resolver el problema de la evolución temporal para una
partı́cula libre.
En el caso más simple, un paquete unidimensional está constituı́do por una sola onda plana
ω
 ω 
ψ (x, t) = Aei(kx−ωt) = Aeik(x− k t) = f x − t
k
su parte real es h  ω i
ψ (x, t) = A cos k x − t
k
su velocidad de propagación (velocidad de propagación del frente de onda i.e. de un punto con fase constante)
está dada por la velocidad con que se propaga el máximo correspondiente a x M = 0 en t = 0 (que corresponde a
fase total cero). Para cualquier tiempo la posición de este máximo corresponde a fase total cero
ω ω
xM (t) − t = 0 ⇒ xM (t) = t
k k
la velocidad de este máximo es entonces
dxM (t) ω
= Vf (k) = (2.36)
dt k
como esta es la velocidad de un punto que define una fase total constante para todo tiempo (fase cero), llamaremos

a este término velocidad de fase de la onda plana, la cual solo depende de x y t por medio de x − ωk t .
Es bien sabido que para ondas electromagnéticas en el vacio V f es independiente de k e igual a c. Todas las ondas
que constituyen el paquete viajan a la misma velocidad de modo que el paquete mantiene su forma. Sin embargo,
en un medio dispersivo la velocidad de fase está dada por
c
Vf (k) =
n (k)
siendo n (k) el ı́ndice de refracción relativo entre el vacı́o y el medio. En este caso cada onda componente viaja a
distinta velocidad, lo cual produce un cambio de forma del paquete con el tiempo. A medida que se propaga el
paquete se ensancha, fenómeno conocido como dispersión. Fı́sicamente, esto se debe a que el material responde de
forma distinta para cada longitud de onda componente.
Volviendo a nuestro caso de onda monocromática cuántica, si usamos las Ecs. (2.36, 2.13) vemos que la velocidad
de fase está dada por
ω ~k 2 ~k
Vf (k) = = = (2.37)
k 2mk 2m
de modo que Vf es función explı́cita de k. Nótese que si usáramos la relación de dispersión dada por la ecuación
de onda, Ec. (2.14) entonces Vf no presentarı́a dispersión (Vf no depende de k) como ocurre efectivamente con las
ondas clásicas libres (como las ondas electromagnéticas libres).
Ahora analizaremos el caso de ondas que son superposición de ondas planas. Veremos a continuación que cuando
las diferentes ondas tienen diferentes velocidades de fase, la velocidad del máximo x M del paquete de onda no es la
velocidad de fase promedio dada por
ω0 ~k0
=
k0 2m
como antes, comencemos con el ejemplo simple de la superposición de tres ondas planas similares a las descritas en
(2.19) pero ahora con variación temporal
 
g (k0 ) i(k0 x−ω0 t) 1 i[(k0 − ∆k )x−(ω0 − ∆ω )t] 1 i[(k0 + ∆k )x−(ω0 + ∆ω )t]
ψ (x, t) = √ e + e 2 2 + e 2 2 (2.38)
2π 2 2
  
g (k0 ) ∆k ∆ω
= √ ei(k0 x−ω0 t) 1 + cos x− t
2π 2 2
    
g (k0 ) ik0 x− k t
ω0
∆k ∆ω
ψ (x, t) = √ e 0 1 + cos x− t (2.39)
2π 2 ∆k
118CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS DE LA MECÁNICA CUÁNTI

puesto que las tres ondas tiene números de onda k 0 y k0 ± ∆k, es claro que k0 es el número de onda promedio.
Similarmente, ω0 es la frecuencia angular promedio.
De la Ec. (2.39) se vé claramente que el máximo de |ψ (x, t)| que estaba en x = 0 cuando t = 0 está ahora en el
punto
∆ω
xM (t) = t (2.40)
∆k
y no en el punto x = ω0 t/k0 . El origen de este resultado se puede apreciar en la Fig. 2.6, en (a) se representa la

Figura 2.6: Posición de tres máximos consecutivos (1) (2) (3) para cada una de las tres ondas planas de la super-
posición en la Ec. (2.39). (a) Configuración de los máximos en t = 0, para el cual hay interferencia constructiva
en x = 0, que se da con los máximos rotulados por (2). (b) Configuración en un instante posterior en el cual la
interferencia totalmente constructiva se da a la derecha de x con los máximos (3).

posición en t = 0 de tres máximos consecutivos de cada una de las partes reales de las tres ondas. Puesto que los
máximos denotados con (2) coinciden en x = 0, hay una interferencia constructiva en este punto lo cual nos da el
máximo de |ψ (x, t = 0)|. Puesto que la velocidad de fase aumenta con k según (2.37), tenemos que el máximo (3) de
la onda k0 + ∆k2 termina alcanzando al máximo de la onda k 0 también denotado por tres. Similarmente el máximo
(3) de k0 alcanzará al máximo de k0 − ∆k 2 denotado por (3). Un análisis detallado muestra que todos coinciden
en cierto tiempo t, determinando entonces el máximo x M (t) de |ψ (x, t)| por interferencia constructiva. El cálculo
detallado del punto donde esto ocurre reproduce la Ec. (2.40).
Analicemos finalmente el caso en el cual el paquete de ondas es arbitrario y consta de una superposición contı́nua
de ondas planas como en la Ec. (2.16). El corrimiento del centro del paquete se encuentra aplicando de nuevo el
método de fase estacionaria. Comparando la forma de ψ (x, t) con la de ψ (x, 0) Ecs. (2.16, 2.17) vemos que ψ (x, t)
se obtiene a partir de ψ (x, 0) con la asignación ψ̄ (k) → ψ̄ (k) e−iω(k)t . Por tanto, el razonamiento dado en la pág.
112 se mantiene válido reemplazando el argumento α (k) de ψ̄ (k) en la Ec. (2.22), por el argumento

α (k) → α (k) − ω (k) t

la condición de fase estacionaria (2.29) se escribe ahora de la forma


 
d dα dω (k)
[kxM + α (k) − ω (k) t]k=k0 = 0 ⇒ xM + − t =0
dk dk dk k=k0

Y la dinámica del centro del paquete estará dada por


   
dω dα
xM (t) = t−
dk k=k0 dk k=k0

que nos reproduce una vez más el resultado (2.40) solo que en este caso ∆ω y ∆k tienden a cero ya que hay un
barrido contı́nuo en estas variables. La velocidad del máximo del paquete de ondas es
 
dxM (t) dω
Vg (k0 ) = =
dt dk k=k0
2.12. CARACTERIZACIÓN DE PAQUETES DE ONDA GAUSSIANOS 119

conocida como velocidad de grupo del paquete. Con la relación de dispersión (2.13) para partı́cula libre tenemos
que
~k0
Vg (k0 ) = = 2Vf (k0 ) (2.41)
m
Notamos entonces dos diferencias importantes entre la onda asociada a la partı́cula libre cuántica y la solución
ondulatoria proveniente de la ecuación de onda. Las ondas clásicas libres no presentan dispersión y su velocidad de
grupo es menor que su velocidad de fase 5 .
Nótese que el resultado (2.41) reproduce adecuadamente el lı́mite clásico ya que si ∆x y ∆p son ambos despre-
ciables, podemos hablar de la posición x M (t) y del momento p0 de la partı́cula. Pero entonces su velocidad debe ser
p0 /m según la mecánica clásica, esto es compatible con la Ec. (2.41) obtenida en el marco cuántico con p 0 = ~k0 ,
siempre que ∆x y ∆p sean ambos despreciables V g se puede asociar a la velocidad de la partı́cula, que es la velocidad
del máximo del paquete.
Es posible también estudiar la forma en que evoluciona la forma del paquete. Si por ejemplo ∆p es una constante
de movimiento entonces ∆x se incrementa con el tiempo, (dipersión del paquete).

2.12. Caracterización de paquetes de onda gaussianos


Estudiaremos perfiles de paquetes de onda ψ (x, 0) para los cuales la transformada de Fourier ψ̄ (k, 0) es gaussiana.
Este ejemplo especı́fico es de amplio uso en fı́sica y tiene la ventaja de permitir ilustrar los conceptos asociados a
paquetes de onda con cálculos exactos. Estudiaremos además la evolución temporal de estos paquetes.

2.12.1. Integrales básicas para paquetes gaussianos


El cálculo del paquete de onda (y muchos otros cálculos relativos a paquetes de onda gaussianos) requiere evaluar
una integral del tipo Z ∞
2 (ξ+β)2
I (α, β) = e−α dξ
−∞

donde α y β son números complejos. Es necesario que Re α2 > 0 para que la integral converja. El teorema del
residuo nos permite encontrar que
I (α, β) = I (α, 0)

 que la integral no depende de β. Si se satisface la condición |Arg (α)| < π/4 (lo cual siempre es posible si
de modo
Re α2 > 0), esta integral se puede escribir como

1
I (α, 0) = I (1, 0)
α
y solo resta calcular I (1, 0), lo cual se puede hacer como una integral doble en el plano XY usando coordenadas
polares Z ∞
2 √
I (1, 0) = e−ξ dξ = π
−∞

de lo cual se obtiene Z √

2 (ξ+β)2 π
I (α, β) = e−α dξ = (2.42)
−∞ α

2.12.2. Perfiles de paquetes de onda gaussianos


Consideremos el modelo unidimensional de una partı́cula libre cuya función de onda en t = 0 tiene el perfil
√ Z ∞
a a2 2
ψ (x, 0) = 3/4
e− 4 (k−k0 ) eikx dk (2.43)
(2π) −∞

5
Nótese que el hecho de que la velocidad de grupo sea mayor a la de fase no entra en contradicción con la relatividad, puesto que
nuestros resultados solo son válidos en un régimen no relativista, ya que la relación de dispersión (2.13) proviene de la ecuación (2.12),
la cual es no relativista.
120CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS DE LA MECÁNICA CUÁNTI

el cual resulta de superponer ondas planas e ikx con coeficientes de Fourier de la forma

1 a − a2 (k−k0 )2
√ ψ̄ (k, 0) = e 4 (2.44)
2π (2π)3/4

para calcular ψ (x, 0) es conveniente reescribir la exponencial en (2.43) de modo que los términos en k queden como
un cuadrado perfecto a fin de compararlos con (2.42)
 
a2 2 a2 2ix 2 x2
− (k − k0 ) + ikx = − k − k0 − 2 + ik0 x − 2
4 4 a a

con lo cual la Ec. (2.43) queda


√ Z ∞ 2
h i2
a x2 − a4 k−k0 − 2ix
ψ (x, 0) = 3/4
eik0 x e− a2 e a2
dk
(2π) −∞

comparando con (2.42) vemos que α = a/2 de modo que


√ √
a ik0 x − x22 2 π
ψ (x, 0) = e e a
(2π)3/4 a
 1/4 2
2 ik0 x − x
ψ (x, 0) = e e a2 (2.45)
πa2

vemos entonces que la transformada de Fourier de un paquete gaussiano es también gaussiana. El módulo al cuadrado
del paquete en t = 0 (que estará relacionado con la densidad de probabilidad asociada a la posición para una partı́cula
en t = 0) es r
2 2 − 2x22
|ψ (x, 0)| = e a
πa2
y la curva asociada a este módulo es una tı́pica campana de Gauss. El centro del paquete de onda corresponde al
máximo de |ψ (x, 0)|2 y se sitúa en x = 0. Esto resultado también se puede obtener por aplicación de la Ec. (2.28).

2.12.3. Relaciones de incertidumbre para paquetes gaussianos


2 2
Al igual que para todo paquete que no posee nodos, el ancho de una función gaussiana f (x) = e −x /b no puede
ser definido en forma unı́voca. Sin embargo, es costumbre definir tal ancho de modo que cuando x varı́a entre ±∆x

la función f (x) se haya reducido en un factor de 1/ e (de modo que el módulo al cuadrado se reduzca a 1/e), esto
conduce a un ancho
2 2 b
f (x) = e−x /b → ∆x = √ (2.46)
2
esta definición tiene la ventaja de coincidir con la definición de la raı́z de la desviación media cuadrática, como
veremos más adelante. Con esta convención podemos definir el ancho asociado al paquete de onda ψ (x, 0) de la Ec.
(2.45) y de su transformada de Fourier ψ̄ (k, 0) en la Ec. (2.44)

a 1 ~
∆x = ; ∆k = ⇒ ∆p =
2 a a
con lo cual se obtiene
~
(∆x) · (∆p) =
2
relación que es compatible con el principio de incertidumbre. Nótese además que el principio de incertidumbre se
escribe en general en la forma (∆x) · (∆p) & ~/2. Esto implica que el principio de incertidumbre permite en general,
que el producto del ancho de la función con el ancho de su transformada de Fourier adquiera un valor mayor al
lı́mite inferior. Si aceptamos a ~/2 como el lı́mite inferior, vemos que los paquetes de onda gaussianos predicen una
igualdad, es decir que los productos de las incertidumbres siempre tienen el menor valor posible. En tal sentido
decimos que los paquetes de onda gaussianos son paquetes de “mı́nima incertidumbre”.
2.13. EVOLUCIÓN TEMPORAL DE PAQUETES DE ONDA GAUSSIANOS (OPCIONAL) 121

2.13. Evolución temporal de paquetes de onda gaussianos (opcional)


La Ec. (2.15) junto con la relación de dispersión (2.13) nos dan la forma del perfil de un paquete de onda asociado
a partı́cula libre, donde el paquete inicial tiene forma arbitraria. Aplicando estas ecuaciones al paquete gaussiano
se tiene que √ Z ∞
a 2
− a4 (k−k0 )2 i[kx−ω(k)t] ~k 2
ψ (x, t) = e e dk ; ω (k) = (2.47)
(2π)3/4 −∞ 2m
veremos que el paquete permanece gaussiano para todo tiempo t. Se puede agrupar la parte dependiente de k de
los exponentes para formar un cuadrado perfecto, con el fin de comparar (2.47) con (2.42) y obtener
 h i2 
 2 1/4 iϕ x − ~k0
t
2a e  m 
ψ (x, t) =   1/4
eik0 x exp − 2 2i~t 
π 2 2 a + m
a4 + 4~m2t
~k02 2~
ϕ ≡ −θ − t ; tan 2θ = t
2m ma2
el módulo al cuadrado del paquete (densidad de probabilidad) en el tiempo t está dado por
  2 
r 
2 1  2a x − m t 
2 ~k0 
2
|ψ (x, t)| = q exp − 2 2 (2.48)
πa2 1 + 4~2 t2 
 a4 + 4~m2t 

2
m a 4

debemos ahora calcular Z ∞


|ψ (x, t)|2 dx (2.49)
−∞

una forma serı́a empleando (2.42) para integrar (2.48). No obstante, es más simple observar de la expresión (2.47)
que la transformada de Fourier de ψ (x, t) viene dada por

ψ̄ (k, t) = e−iω(k)t ψ̄ (k, 0) (2.50)



se vé entonces que ψ̄ (k, t) = ψ̄ (k, 0) . Por otro lado, es bien conocido del análisis de Fourier, que ψ̄ (k, t) =
|ψ (x, t)| (ecuación de Parseval-Plancherel) para todo tiempo, con lo cual se obtiene

|ψ (x, t)| = ψ̄ (k, t) = ψ̄ (k, 0) = |ψ (x, 0)|

por tanto, la norma del paquete es independiente del tiempo y por tanto también la integral (2.49). Este resultado es
importante para la conservación de la probabilidad y de hecho para la consistencia de la interpretación de |ψ (x, t)| 2
como una densidad de probabilidad. Veremos más adelante que esto resulta del hecho de que el Hamiltoniano de la
partı́cula libre es hermı́tico.
Ahora bien, la Ec. (2.48) nos dice que la densidad de probabilidad es gaussiana centrada en

~k0
xM = V 0 t ; V 0 ≡
m
donde V0 es la velocidad del paquete. Esta expresión es consistente con la velocidad de grupo dada por la Ec. (2.41).

2.13.1. Dispersión del paquete de onda gaussiano (opcional)


Tomando la expresión (2.46) para el ancho ∆x (t) del paquete de onda, y teniendo en cuenta el perfil del paquete
Ec. (2.48), tenemos que r
a 4~2 t2
∆x (t) = 1+ 2 4 (2.51)
2 m a
esta ecuación nos muestra que la evolución del paquete no consiste simplemente en una propagación con velocidad
V0 . El paquete también sufre deformación. Cuando t se incrementa desde −∞ hasta cero, el ancho del paquete
122CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS DE LA MECÁNICA CUÁNTI

Figura 2.7: Dispersión de un paquete de onda Gaussiano libre. El ancho del paquete se reduce a medida que se
propaga desde t = −∞ hasta t=0. Posteriormente, el paquete comienza a ensancharce indefinidamente a medida
que se propaga.

decrece y alcanza su valor mı́nimo en t = 0, a partir de entonces el paquete se ensancha indefinidamente (dispersión
del paquete de onda). Esta situación se ilustra en la Fig. 2.7.
Adicionalmente, la Ec. (2.48) para el perfil del paquete nos muestra que la altura también varı́a, pero de forma
opuesta al ancho, de tal manera que la norma de ψ (x, t) permanece constante.
Es natural ahora preguntarse por el comportamiento de la forma del “paquete de ondas en el espacio de los
momentos (o espacio recı́proco)” con el tiempo. Las propiedades de la transformada de Fourier ψ̄ (k, t) son totalmente
distintas, vemos por ejemplo que de acuerdo a la Ec. (2.50) se tiene que

ψ̄ (k, t) = ψ̄ (k, 0)

de modo que el momento promedio del paquete ~k 0 y la dispersión del momento ~∆k son constantes en el tiempo.
Veremos más adelante que esto es una consecuencia de que el momento lineal es una constante de movimiento para
la partı́cula libre. En virtud de la ausencia de interacción, la distribución de momentos de una partı́cula libre no
cambia.

Figura 2.8: Comparación entre el comportamiento con el tiempo de un ∆x cuántico (hipérbola) y su análogo clásico
∆xcl (rectas).

Cuánticamente, la existencia de una dispersión del momento ∆p = ~∆k significa que la velocidad de la partı́cula
solo se conoce en un intervalo ∆v = ∆p/m = ~/ma. Este hecho posee un interesante análogo clásico: imaginemos
un conjunto de partı́culas clásicas que en t = 0 están localizadas en x = 0 y que tienen una dispersión ∆v de sus
velocidades. Es claro que en el tiempo t la dispersión de sus posiciones será
~ |t|
∆xcl = |t| ∆v = (2.52)
ma
2.13. EVOLUCIÓN TEMPORAL DE PAQUETES DE ONDA GAUSSIANOS (OPCIONAL) 123

donde estamos asumiendo que se calcula su dispersión también para tiempos negativos anteriores a t = 0. La
dispersión decrece linealmente para la evolución temporal desde un t < 0 y crece linealmente con t a partir de
t = 0. La Fig. 2.8, muestra una comparación entre el comportamiento temporal de los anchos clásico ∆x cl y
cuántico ∆x dados por las Ecs. (2.51, 2.52). Vemos que cuando |t| → ∞ las dos gráficas coinciden, dado que las
rectas correspondientes al ancho clásico son las ası́ntotas de la hipérbola cuántica. Por tanto, para |t| muy grande
podemos decir que hay un comportamiento cuasi-clásico del ancho cuántico ∆x. Sin embargo, cuando |t| → 0, el
comportamiento cuántico difiere cada vez más del clásico. Esto se debe a que la partı́cula cuántica debe siempre
satisfacer el principio de incertidumbre de Heisenberg ∆x ∆p ≥ ~/2 y dado que ∆p es fijo, éste impone un lı́mite
inferior para ∆x que el sistema clásico no tiene que obedecer (efectivamente nuestro sistema clásico no poseı́a
dispersión en t = 0 ya que todas las partı́culas estaban en x = 0). No obstante, este análogo clásico debe tomarse
con cuidado. Por ejemplo, en nuestro sistema clásico la dispersión se generó con un conjunto de partı́culas, en tanto
que la dispersión cuántica esta asociada a un conjunto de ondas asociadas a UNA SOLA partı́cula.
Vale la pena anotar que aunque hemos analizado la dispersión de un paquete de ondas libres cuya condición
inicial consta de componentes gaussianas, la dispersión se presenta para un paquete libre bajo cualquier forma inicial
del paquete, y la variación del ancho del paquete con el tiempo tiene la forma mostrada en la Fig. 2.8.
????????????????
????????????????
Capı́tulo 3

Ecuación de Schrödinger y sus propiedades

Hemos estudiado la dualidad onda partı́cula partiendo de los postulados de De Broglie y hemos analizado el
comportamiento de la onda asociada a una partı́cula libre. Sin embargo, si consideramos un sistema de una o más
partı́culas interactuantes será necesario generar una ecuación de movimiento que gobierne la dinámica de la onda
asociada. Si bien esta ecuación de movimiento se postulará, existen ciertos argumentos de plausibilidad para su
construcción.

3.1. Plausibilidad de la ecuación de Schrödinger


Si aceptamos la validez de los postulados de De Broglie, debemos encontrar una ecuación de movimiento que
nos describa la propagación de las ondas piloto y su relación con la dinámica de la partı́cula, para el caso en que la
partı́cula interactúe con su entorno. Por simplicidad asumiremos un caso unidimensional en esta sección.
El punto de partida serán entonces las ecuaciones de De Broglie

λ = h/p ; ν = E/h (3.1)

ahora bien, a pesar de que las relaciones de De Broglie son consistentes con la teorı́a de la relatividad (de hecho,
fueron empleadas primero en los fotones), vamos a plantear una formulación no relativista, esto con el fin de evitar
el problema del manejo de la probabilidad que surge de la posibilidad de creación y aniquilación de partı́culas
materiales. Tomaremos entonces la relación no relativista (corpuscular) entre energı́a y momento

p2
E= +V (3.2)
2m
siendo m = m0 la masa en reposo de la partı́cula. La Ec. (3.1) nos muestra que un cambio en la definición de energı́a
(por ejemplo si tomáramos la relación relativista) nos cambiarı́a el valor de ν. Los experimentos descritos hasta
ahora no han explorado la validez de la relación (3.2), de modo que las predicciones que la ecuación dinámica haga
sobre una partı́cula interactuante deben ser corroboradas por los experimentos.
Es claro que para una partı́cula libre, los resultados deben poder obtenerse con cualquier potencial constante (no
necesariamente cero) aplicado a la Ec. (3.2). Es fácil verificar que un potencial constante predice que la velocidad
de grupo de la onda piloto corresponde a p/m y por tanto a la velocidad de la partı́cula, combinando (3.1) con (3.2)
se tiene que
E p2 V 1 p
ν= = + ; K≡ =
h 2mh h λ h
teniendo en cuenta que V es constante, tenemos

2p dp dp
dν = , dK =
2mh h
Ahora bien, teniendo en cuenta que
k ≡ 2πK ; ω ≡ 2πν
3.1. PLAUSIBILIDAD DE LA ECUACIÓN DE SCHRÖDINGER 125

la velocidad de grupo queda


dω dν p dp h p
Vg == = = = vpartı́cula
dk dK mh dp m
y podemos reescribir las relaciones de De Broglie en la forma

p = ~k ; E = ~ω (3.3)

si insertamos estas relaciones en (3.2) obtenenemos la siguiente relación de Dispersión

~2 k 2
+ V (x, t) = ~ω (3.4)
2m
tomaremos como prototipo la ecuación para la partı́cula libre con potencial constante. Las consideraciones anteriores
nos dicen que la ecuación de movimiento que genere la función de onda ψ (x, t) (i.e. la dinámica de las ondas piloto),
debe cumplir las siguientes propiedades

1. Debe ser consistente con las Ecs. (3.1, 3.2). Es decir debe cumplir los postulados de De Broglie y la relación
no relativista entre E y p.

2. Debe ser lineal y homogénea en ψ (x, t) con el fin de que sea válido el principio de superposición que a su vez
nos genera los fenómenos ondulatorios de interferencia. Esto implica que si ψ 1 (x, t) y ψ2 (x, t) son soluciones
de la ecuación una combinación lineal de ellas también es solución.

3. En general, consideraremos potenciales que solo dependen de la posición y el tiempo V = V (x, t). Cuando el
potencial es constante la partı́cula es libre y por tanto se deben conservar E y p, lo cual a su vez implica que
se conservan λ = 2π/k y ν de acuerdo con las relaciones (3.1).

4. Las soluciones para partı́cula libre son funcionalmente idénticas a las soluciones homogéneas de la ecuación de
onda, pero deben cumplir con una relación de dispersión que sea consistente con la Ec. (3.4) con V constante,
en vez de la relación de dispersión para ondas libres dada por (2.14), lo cual nos dice que la ecuación de onda
no es la ecuación dinámica para la función de onda ψ (r, t). Entonces la ecuación de movimiento para partı́cula
libre debe tener soluciones en forma de ondas viajeras con número de onda y frecuencia constantes.

La linealidad y homogeneidad prohibe términos del tipo [ψ (x, t)] 2 (no lineales) o términos independientes de
ψ (x, t) (términos inhomogéneos o fuentes). Puesto que la mayorı́a de ecuaciones dinámicas de la Fı́sica son a lo más
de segundo orden, postularemos que los términos lineales son a lo más de segundo orden en el espacio y el tiempo,
y posiblemente un término lineal en ψ (x, t). Parametrizaremos a la ecuación en la forma siguiente

∂ψ (x, t) ∂ 2 ψ (x, t) ∂ψ (x, t) ∂ 2 ψ (x, t)


a1 + a2 − b 1 − b 2 + c ψ (x, t) = 0
∂x ∂x2 ∂t ∂t2
asumamos que la solución de partı́cula libre es ψ (x, t) = Ae i(kx−ωt) , además se debe cumplir la relación de dispersión
(3.4) con V constante. Esta relación de dispersión contiene un término proporcional a k 2 que se obtendrı́a de una
segunda derivada espacial de la onda plana, y un término lineal en ω que se puede extraer de una primera derivada
temporal de la onda plana. La ausencia de un término lineal en k y de un término cuadrático en ω sugiere la ausencia
de primeras derivadas espaciales y de segundas derivadas temporales. Finalmente, la presencia del potencial en (3.4)
sugiere la presencia de un término lineal en ψ de la forma V ψ. El ansatz para la solución se reduce a
∂ 2 ψ (x, t) ∂ψ (x, t)
a2 + V ψ (x, t) = b1 (3.5)
∂x2 ∂t
ahora debemos ajustar los parámetros a 2 y b1 de manera que exista una solución tipo onda plana que reproduzca
la relación de dispersión (3.4). Recordemos que en mecánica clásica, el carácter complejo de las soluciones de la
ecuación de onda se introduce solo por conveniencia y la solución Fı́sica es la parte real de la solución compleja.
Por este motivo si bien podemos insertar una solución tipo onda plana en (3.5), es razonable intentar primero usar
la solución real para la ecuación de onda clásica como prototipo de solución, insertaremos entonces una función de
onda de la forma
ψ (x, t) = cos (kx − ωt) (3.6)
126 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES

teniendo en cuenta que k, ω y V son constantes, se tiene que


∂ 2 ψ (x, t) ∂ψ
2
= −k 2 cos (kx − ωt) ; = ω sin (kx − ωt)
∂x ∂t
y al insertar estos resultados en (3.5) obtenemos

−a2 k 2 cos (kx − ωt) + V cos (kx − ωt) = b1 ω sin (kx − ωt)

V − a2 k 2 cos (kx − ωt) = b1 ω sin (kx − ωt)

pero no es posible ajustar los parámetros para que esta relación sea válida para todo x, t, de modo que la solución
clásica dada por (3.6) no es compatible con la relación de dispersión de la teorı́a. Aún podemos tratar de encontrar
una solución real si agregamos una fase adicional en la forma cos (kx − ωt + δ) que es equivalente a escribir una
solución de la forma
ψ (x, t) = cos (kx − ωt) + γ sin (kx − ωt) (3.7)
lo cual también se puede postular observando que en tal caso ambas derivadas tendrán senos y cosenos que permitirán
igualar coeficientes adecuadamente
∂ 2 ψ (x, t)
= −k 2 cos (kx − ωt) − γk 2 sin (kx − ωt)
∂x2
∂ψ
= ω sin (kx − ωt) − γω cos (kx − ωt)
∂t
que al insertarlos en (3.5) nos da

−a2 k 2 [cos (kx − ωt) + γ sin (kx − ωt)] + V [cos (kx − ωt) + γ sin (kx − ωt)]
= b1 ω [sin (kx − ωt) − γ cos (kx − ωt)]

quedando
 
−a2 k 2 + V + b1 ωγ cos (kx − ωt) + −a2 k 2 γ + V γ − b1 ω sin (kx − ωt) = 0
Los coeficientes de seno y coseno deben anularse para que esta relación sea válida para todo x, t. Tenemos
entonces dos ecuaciones con tres incógnitas (a 2 , b1 , γ) que junto con la relación de dispersión (3.4), nos da

~2 k 2
−a2 k 2 + V + b1 ωγ = 0 ; −a2 k 2 γ + V γ − b1 ω = 0 ; + V = ~ω (3.8)
2m
las dos primeras ecuaciones se pueden reescribir como
b1 b1
−a2 k 2 + V = −b1 ωγ ; −a2 k 2 + V = ω ⇒ −b1 ωγ = ω
γ γ
1
⇒ −γ = ⇒ γ 2 = −1
γ
tenemos entonces √
γ = ± −1 = ±i
sustituyendo en la primera de las Ecs. (3.8)

−a2 k 2 + V ± iωb1 = 0 ⇒ −a2 k 2 + V = ∓iωb1

al comparar esta expresión con la tercera de las Ecs. (3.8)

~2
−a2 = ; ∓ib1 = ~
2m
tenemos entonces dos soluciones que dependen de la elección del signo de γ, la elección más usual es
~2
γ = i ; a2 = − ; b1 = i~
2m
3.2. ECUACIÓN DE SCHRÖDINGER PARA UNA PARTÍCULA SOMETIDA A UN POTENCIAL ESCALAR INDE

que al reemplazarlo en (3.5) nos da


~2 ∂ 2 ψ ∂ψ
− 2
+ V ψ = i~
2m ∂x ∂t
que se ha derivado para un potencial constante V . Ahora postularemos que la relación se mantiene válida para un
potencial arbitrario de la forma V (x, t). Se obtiene entonces

~2 ∂ 2 ψ ∂ψ
− 2
+ V (x, t) ψ = i~ (3.9)
2m ∂x ∂t
expresión conocida como la ecuación de Schrödinger. Por supuesto podemos postular su extensión a tres dimensiones
como
~2 2 ∂ψ (r, t)
− ∇ ψ (r, t) + V (r, t) ψ (r, t) = i~ (3.10)
2m ∂t
Nótese que γ = ±i, lo cual indica que la pretendida solución real (3.7) nos proporciona inevitablemente una
solución compleja tipo onda plana. Vemos que hay una diferencia con las soluciones de onda clásica que se toman
complejas solo por conveniencia, para la ecuación de Schrödinger en cambio, no pudimos encontrar una solución
real consistente para partı́cula libre, el carácter de la solución es en esencia complejo. Esto se refleja en el factor
imaginario que aparece a la derecha de la ecuación (3.9) de Schrödinger.

3.2. Ecuación de Schrödinger para una partı́cula sometida a un potencial


escalar independiente del tiempo: estados estacionarios
Supongamos que una partı́cula de masa m está sometida a un potencial V (r). La ecuación de Schrödinger (3.10)
se escribe entonces
~2 2 ∂ψ (r, t)
− ∇ ψ (r, t) + V (r) ψ (r, t) = i~ (3.11)
2m ∂t
plantearemos una separación de variables para la solución

ψ (r, t) = χ (t) ϕ (r)

al introducirlo en la Ec. (3.11) se obtiene

~2 ∂χ (t)
− χ (t) ∇2 ϕ (r) + V (r) χ (t) ϕ (r) = i~ϕ (r)
2m ∂t
dividiendo a ambos lados por χ (t) ϕ (r) se escribe

~2 ∇2 ϕ (r) 1 ∂χ (t)
− + V (r) = i~
2m ϕ (r) χ (t) ∂t

el miembro izquierdo solo depende de la posición en tanto el derecho depende solo del tiempo. Por tanto ambos
miembros deben ser iguales a una constante que por comodidad la tomaremos como ~ω, de momento ω es solo una
constante a ajustar, aunque es claro que debe tener dimensiones de frecuencia angular. Tenemos entonces que

1 ∂χ (t) ∂χ (t)
i~ = ~ω ⇒ = −iωχ (t)
χ (t) ∂t ∂t
χ (t) = Ae−iωt

y la ecuación para la parte espacial es

~2 ∇2 ϕ (r)
− + V (r) = ~ω ⇒
2m ϕ (r)
~2 2
− ∇ ϕ (r) + V (r) ϕ (r) = ~ωϕ (r) (3.12)
2m
128 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES

De modo que la solución para la ecuación de Schrödinger es

ψ (r, t) = ϕ (r) e−iωt (3.13)

donde hemos absorbido el factor A en la solución ϕ (r) de la ecuación (3.12).


Nótese que la solución (3.13) nos conduce a una densidad de probabilidad independiente del tiempo, aunque
inhomogénea
|ψ (r, t)|2 = |ϕ (r)|2
razón por la cual se conoce como solución estacionaria de la ecuación de Schrödinger. Ahora bien, la Ec. (3.13) nos
muestra que la constante de integración ω corresponde efectivamente a la frecuencia angular asociada a la función
de onda estacionaria. Nótese que en la solución estacionaria, solo aparece un valor de frecuencia angular ω que a su
vez nos conduce a un valor bien definido de la energı́a de acuerdo con la relación de Planck Einstein E = ~ω. En
mecánica clásica un potencial independiente del tiempo nos lleva a la conservación de la energı́a total. En mecánica
cuántica, lo que podemos decir es que para potenciales independientes del tiempo existen estados de energı́a bien
determinada. La Ec. (3.12) se puede escribir entonces como
 
~2 2
− ∇ + V (r) ϕ (r) = Eϕ (r) (3.14)
2m

que se puede reescribir como


~2 2
Hϕ (r) = Eϕ (r) ; H≡− ∇ + V (r) (3.15)
2m
siendo H un operador diferencial que es claramente lineal

H [λ1 ϕ1 (r) + λ2 ϕ2 (r)] = λ1 Hϕ1 (r) + λ2 Hϕ2 (r)

y vemos que (3.15) es una ecuación de valores propios para el operador H en la cual ϕ (r) son las funciones propias
(vectores propios) y las energı́as E son los valores propios. Las energı́as permitidas para la partı́cula son entonces
los valores propios del operador H. Nótese que no cualquier solución ϕ (r) de la ecuación de Schrödinger es una
solución fı́sica, debemos imponer que sea de cuadrado integrable, esta imposición restringirá los valores permitidos
de energı́a y nos llevará a una cuantización de esta cantidad.
A la Ec. (3.15) se le llama usualmente ecuación de Schrödinger independiente del tiempo, en tanto que a (3.11)
se le denomina ecuación de Schrödinger dependiente del tiempo. La Ec. (3.11) nos da la evolución de la función de
onda para un estado arbitrario de la partı́cula, en tanto que la Ec. (3.15) solo nos da los estados estacionarios de
ésta.
Dado que tenemos un conjunto de valores permitidos de la energı́a (autoresultados o autovalores), vamos a
rotular las energı́as y las autofunciones de la forma

Hϕn,m (r) = En ϕn,m (r)

donde tanto n como m pueden simbolizar un ı́ndice contı́nuo o discreto o incluso varios ı́ndices. El ı́ndice m me
indica la posibilidad de degeneración, es decir de varias autofunciones linealmente independientes que pertenecen al
mismo valor propio En . Los estados estacionarios de la partı́cula son de la forma

ψn,m (r, t) = ϕn,m (r) e−iEn t/~

ψn,m (r, t) es una solución de la ecuación de Schrödinger Ec. (3.11), y en virtud de la linealidad de esta ecuación,
una superposición de las soluciones estacionarias es también solución
XX
ψ (r, t) = cnm ϕn,m (r) e−iEn t/~ (3.16)
n m

en realidad es usual que se requiera la superposición puesto que soluciones arbitrarias no satisfacen en general
las condiciones iniciales y de frontera que pide un problema especı́fico. La superposición garantiza que podemos
obtener cualquier estado siempre que las funciones ϕ nm (r) sean completas como funciones espaciales (las funciones
3.3. PROPIEDADES GENERALES DE LA ECUACI ÓN DE SCHRÖDINGER 129

temporales son ondas planas y por tanto completas), esto requiere a su vez que el operador H tenga el carácter de
observable.
Para t = 0 la Ec. (3.16) nos da XX
ψ (r, 0) = cnm ϕn,m (r) (3.17)
n m

de modo que si conocemos el estado inicial del sistema (el cual es en principio arbitrario) podemos descomponerlo
en la base de las autofunciones ϕn,m de H (siempre que H sea un observable). Para obtener la evolución temporal
basta con multiplicar cada término en (3.17) por e −iEn t/~ , debe aclararse que cada término corresponde a una fase
diferente y por tanto la superposición ya no corresponde en general a un estado estacionario.

3.3. Propiedades generales de la ecuación de Schrödinger


Retornaremos ahora a la forma general de la ecuación de Schrödinger Ec. (3.10)
 
~2 2 ∂ψ (r, t)
− ∇ + V (r, t) ψ (r, t) = i~
2m ∂t
∂ψ (r, t)
H (r, t) ψ (r, t) = i~ (3.18)
∂t
en la cual el potencial puede depender del espacio y del tiempo. La primera observación relevante es que el operador
H es hermı́tico. Para ver esto, basta con tener en cuenta que desde el punto de vista de los kets, las funciones de
onda son kets escritos en la representación de coordenadas, y en tal representación el operador H se puede escribir
como
(−i~∇) (−i~∇) P2
H= + V (r, t) = + V (r, t) (3.19)
2m 2m
siendo P el operador definido por las Ecs. (1.186), que en representación de la base {|ri} está dado por la Ec.
(1.189). Ya vimos en la sección 1.43.4 que este operador es Hermı́tico, y como V (r, t) es una función real, también
es hermı́tica1 . En consecuencia H también es hermı́tico. Nótese que esto es indispensable para que el espectro de
este operador (la energı́a) sea real (ver teorema 1.62).
Ahora bien, recordemos que a cada función de onda en el espacio z le asociamos un ket en el espacio E en la
forma ψ (r, t) ↔ |ψ (t)i es conveniente escribir la ecuación de Schrödinger como una ecuación dinámica de los kets
(en lugar de la función de onda), debido a que una ecuación planteada para el vector abstracto se puede tomar de
manera muy sencilla en cualquier representación. Es fácil ver que la Ec. de Schrödinger para kets de la forma
d
i~ |ψ (t)i = H (t) |ψ (t)i (3.20)
dt
conduce a la Ec. de Schrödinger (3.18) cuando usamos la representación de la base {|ri}, siempre que H (t) sea el
operador (abstracto) que en representación de la base {|ri} esté dado por (3.19). Para verlo aplicamos el bra hr| a
ambos lados de (3.20)
d
i~ hr| |ψ (t)i = hr| H (t) |ψ (t)i
dt
dado que |ψ (t)i no depende de r, la derivada total o parcial en el tiempo coinciden para el ket. Adicionalmente,
cuando el ket se transforma en función de onda la cual es un campo, debe tenerse en cuenta que las coordenadas r
en ψ (r, t) son lugares geométricos y no variables dinámicas, por tanto las variables r y t son todas independientes,
de modo que2
d ∂ ∂
i~ hr| |ψ (t)i = i~ hr| |ψ (t)i = hr |ψ (t)i
dt ∂t ∂t
d ∂ψ (r, t)
i~ hr| |ψ (t)i =
dt ∂t
1
Visto de otro modo el potencial es un operador del tipo V (r, t) I, siendo I la identidad. Si V (r, t) es real, este operador es hermı́tico.
2
En una teorı́a clásica de campos, las coordenadas generalizadas se convierten en parámetros y la nuevas coordenadas generalizadas
son los campos. Tenemos entonces cuatro parámetros: 3 posiciones y el tiempo, siendo la posiciones lugares geométricos en la “grilla”
del espacio euclidiano. Los cuatro parámetros son totalmente independientes unos de otros.
130 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES

y de la condición establecida para H (t) se tiene que


hr| H (t) |ψ (t)i = H (r, t) hr |ψ (t)i = H (r, t) ψ (r, t)
con lo cual se reproduce la Ec. de Schrödinger (3.18) en representación de coordenadas. Veamos las principales
propiedades de la ecuación de Schrödinger.

3.3.1. Determinismo en las soluciones


Puesto que la ecuación es de primer orden en el tiempo, dado un estado inicial |ψ (t 0 )i el estado |ψ (t)i en un
tiempo t subsequente está determinado, esto se debe a que la ecuación no es invariante ante t → −t (como si ocurre
con la ecuación de onda). No hay indeterminación en la evolución del estado del sistema. La indeterminación se
produce es con el proceso de medida de una cantidad Fı́sica, en cuyo caso el vector de estado sufre un cambio
abrupto y parcialmente impredecible (ya que se puede evaluar una probabilidad para cada cambio abrupto posible).
Sin embargo, en el tiempo comprendido entre dos medidas, el vector de estado evoluciona en forma perfectamente
determinista según la Ec. (3.20).

3.3.2. Principio de superposición


Puesto que la Ec. (3.20) es lineal y homogénea (por construcción), si |ψ 1 (t)i y |ψ2 (t)i son soluciones, también
lo será |ψ (t)i = λ1 |ψ1 (t)i + λ2 |ψ2 (t)i. Esto implica que si el estado inicial es de la forma |ψ (t 0 )i = λ1 |ψ1 (t0 )i +
λ2 |ψ2 (t0 )i entonces el estado en un tiempo t posterior será |ψ (t)i = λ 1 |ψ1 (t)i + λ2 |ψ2 (t)i con lo cual tenemos una
correspondencia lineal entre |ψ (t 0 )i y |ψ (t)i. Por tanto, hay un operador lineal conocido como operador evolución
temporal que conecta a estas dos funciones
|ψ (t)i = U (t, t0 ) |ψ (t0 )i (3.21)
analizaremos este operador más en detalle en la Sec. 7.1.

3.3.3. Conservación de la probabilidad


En virtud de la interpretación de |ψ (r, t)| 2 como una densidad de probabilidad es necesario que
Z
hψ (t)| ψ (t)i = kψk = |ψ (r, t)|2 d3 r = 1
2

para todo tiempo, i.e. en cualquier instante la partı́cula debe encontrarse en algún lugar del espacio (excepto cuando
hay procesos de creación y destrucción de partı́culas que no incluı́mos en el presente formalismo). Esto significa que
la norma de un ket |ψ (t)i debe ser constante en el tiempo. Es necesario por tanto que la ecuación de Schrödinger
mantenga invariante en el tiempo la norma de los vectores, con el fin de dar una interpretación probabilı́stica
coherente.
Para mirar la conservación de la probabilidad debemos evaluar la derivada total de la norma en el tiempo
   
d d d
hψ (t)| ψ (t)i = hψ (t)| |ψ (t)i + hψ (t)| |ψ (t)i (3.22)
dt dt dt
la derivada temporal del ket se obtiene directamente de la ecuación de Schrödinger Ec. (3.20)
d 1
|ψ (t)i = H (t) |ψ (t)i (3.23)
dt i~
para obtener la derivada temporal del bra, sacamos el hermı́tico conjugado de dicha ecuación
d 1 1
hψ (t)| = − hψ (t)| H † (t) = − hψ (t)| H (t) (3.24)
dt i~ i~
donde hemos usado la hermiticidad de H. Reemplazando (3.23) y (3.24) en (3.22) se obtiene
   
d 1 1
hψ (t)| ψ (t)i = − hψ (t)| H (t) |ψ (t)i + hψ (t)| H (t) |ψ (t)i = 0
dt i~ i~
esto implica entonces que si normalizamos el estado inicial, el estado en cualquier tiempo continuará normalizado.
Nótese la importancia de la hermiticidad de H para lograr la conservación de la norma y por tanto, de la probabilidad.
3.3. PROPIEDADES GENERALES DE LA ECUACI ÓN DE SCHRÖDINGER 131

3.3.4. La ecuación de continuidad para la probabilidad


Por simplicidad trabajaremos el caso de una sola partı́cula (sin espı́n). Asumiremos que la función de onda
ψ (r, t) está normalizada, en tal caso |ψ (r, t)| 2 representa la densidad de probabilidad de que la partı́cula esté en la
posición r en el tiempo t
dp (r, t) = ρ (r, t) dV = |ψ (r, t)|2 dV (3.25)

tenemos que Z
PT ≡ ρ (r, t) dV = 1

para todo tiempo, de modo que PT representa una “carga generalizada” que se conserva. Por supuesto esto no
significa que la distribución de esta “carga” (distribución de probabilidad), permanezca igual en el tiempo para cada
punto r, las variaciones de ρ (r, t) con el tiempo generan una propagación de la distribución de carga generalizada
(corriente de probabilidad). Recordemos que el volumen no es necesariamente todo el espacio si existen regiones con
probabilidad cero. Lo importante es que no cruce corriente de probabilidad en la superficie que delimita al volumen
de integración, ya que si esto ocurre, habrá probabilidad diferente de cero en regiones que en tiempos anteriores
eran inaccesibles. Esta situación es análoga al caso en que ρ (r, t) simbolizaba una densidad de carga eléctrica a la
cual le podemos asociar una densidad de corriente J (r, t).
Es bien conocido que la conservación global de la carga generalizada proviene de una ley de conservación local
que prohibe la creación espontánea de carga generalizada neta. Esto implica que si tomamos un volumen por cuya
superficie limitadora cruza corriente de carga generalizada, el flujo neto de carga por la superficie hacia afuera
(adentro) debe estar compensado por una disminución (aumento) en la carga interior al volumen, el enunciado
preciso de esta ley local de conservación es


ρ (r, t) + ∇ · J (r, t) = 0 (3.26)
∂t
siendo ρ la densidad de carga generalizada y J la densidad de corriente generalizada, esta expresión es conocida
como ecuación de continuidad. Puesto que hemos encontrado la carga conservada (probabilidad total) y definido ya
la densidad de probabilidad, debemos encontrar una densidad de corriente de probabilidad que nos dé una ecuación
de la forma (3.26), en este caso estamos tratando a la probabilidad como un fluı́do o medio contı́nuo.
Volveremos a la ecuación de Schrödinger en representación de coordenadas dado por (3.10)

~2 2 ∂ψ (r, t)
− ∇ ψ (r, t) + V (r, t) ψ (r, t) = i~ (3.27)
2m ∂t

el potencial V (r, t) debe ser real para que H sea hermı́tico (lo cual es esencial para la conservación de la probabilidad
como ya vimos). La ecuación compleja conjugada de la Ec. de Schrödinger es

~2 2 ∗ ∂ψ ∗ (r, t)
− ∇ ψ (r, t) + V (r, t) ψ ∗ (r, t) = −i~ (3.28)
2m ∂t

multiplicamos (3.27) por ψ ∗ (r, t) y (3.28) por −ψ (r, t) y sumamos

~2 ∗ ∂ψ (r, t)
− ψ (r, t) ∇2 ψ (r, t) + V (r, t) ψ ∗ (r, t) ψ (r, t) = i~ψ ∗ (r, t)
2m ∂t
~2 ∂ψ ∗ (r, t)
ψ (r, t) ∇2 ψ ∗ (r, t) − V (r, t) ψ (r, t) ψ ∗ (r, t) = i~ψ (r, t)
2m ∂t
quedando
 
~2  ∗ 2  ∂ψ ∂ψ ∗
− ψ ∇ ψ − ψ∇2 ψ ∗ = i~ ψ ∗ +ψ
2m ∂t ∂t
~  ∗ 2  ∂ ∗
− ψ ∇ ψ − ψ∇2 ψ ∗ = [ψ ψ]
2mi ∂t
132 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES

sumando y restando un término a la izquierda


~  ∗ 2  ∂ ∗
− ψ ∇ ψ + (∇ψ ∗ ) · (∇ψ) − (∇ψ ∗ ) · (∇ψ) − ψ∇2 ψ ∗ = [ψ ψ]
2mi ∂t
~ ∂ρ
− ∇ · [ψ ∗ ∇ψ − ψ∇ψ ∗ ] =
2mi ∂t
quedando finalmente  
∂ρ ~
+∇· [ψ ∗ ∇ψ − ψ∇ψ ∗ ] =0 (3.29)
∂t 2mi
y comparando (3.29) con la ecuación (3.26) de continuidad se tiene que
~
J= [ψ ∗ ∇ψ − ψ∇ψ ∗ ]
2mi
esta ecuación se puede reescribir definiendo
 
~ 1
J = [Z − Z ∗ ] ; Z ≡ ψ ∗ ∇ψ
m 2i
      
1 1 ~Z ~Z ∗ 1 ~Z
J = + = Re
m 2 i i m i
de modo que   
~ ∗ ∗ 1 ∗ ~
J (r, t) = [ψ ∇ψ − ψ∇ψ ] = Re ψ ∇ψ (3.30)
2mi m i
hemos probado entonces la conservación local de la probabilidad y encontramos la forma explı́cita de la densidad
de corriente, la cual es real como era de esperarse.
Vale la pena calcular la corriente de probabilidad para el caso especial de estados estacionarios de la forma
(3.13), en tal caso al reemplazar (3.13) en (3.30) resulta
~ ~ n ∗      ∗ o
J = [ψ ∗ ∇ψ − ψ∇ψ ∗ ] = ϕ (r) e−iωt ∇ ϕ (r) e−iωt − ϕ (r) e−iωt ∇ ϕ (r) e−iωt
2mi 2mi
~  ∗
J = ϕ (r) eiωt e−iωt ∇ϕ (r) − ϕ (r) e−iωt eiωt ∇ϕ∗ (r)
2mi
quedando finalmente
~
J (r) = {ϕ∗ (r) ∇ϕ (r) − ϕ (r) ∇ϕ∗ (r)} estados estacionarios (3.31)
2mi
comparando, (3.30) con (3.31), vemos que para estados estacionarios, la corriente se puede calcular reemplazando
ψ (r, t) por ϕ (r), es decir omitiendo la componente temporal de ψ. Efectivamente, (3.31) corresponde a una corriente
estacionaria tal como se usa en mecánica clásica, i.e. una corriente que depende de la posición pero que no depende
explı́citamente del tiempo.

3.3.5. Expresión polar de la corriente de probabilidad


Consideremos una función de onda arbitraria ψ (r), utilizando su descomposición compleja polar tenemos
ψ (r) = α (r) eiξ(r) ; α (r) ≥ 0 , 0 ≤ ξ (r) < 2π

si sustituı́mos esta expresión polar en la Ec. (3.30) para la densidad de corriente de probabilidad encontramos que 3
~ n h i h io
J (r) = α (r) e−iξ(r) ∇ α (r) eiξ(r) − α (r) eiξ(r) ∇ α (r) e−iξ(r)
2mi
~ n o
= α (r) e−iξ(r) eiξ(r) [∇α (r) + i∇ξ (r)] − α (r) eiξ(r) e−iξ(r) [∇α (r) − i∇ξ (r)]
2mi
~
J (r) = α (r) ∇ξ (r) (3.32)
m
3
Por simplicidad hemos omitido la posible dependencia explı́cita del tiempo pero esto no altera los resultados.
3.4. APLICACIÓN DE LA ECUACIÓN DE SCHRÖDINGER A POTENCIALES DISCONTÍNUOS 133

y la densidad de probabilidad está dada por

ρ (r) = |ψ (r)|2 = α2 (r) (3.33)

vemos que ρ (r) solo depende del módulo del complejo ψ (r), en tanto que J (r) depende del módulo y del gradiente
de la fase. Por ejemplo, si la fase es constante en el espacio, J (r) es cero, aunque la densidad no lo sea. Las Ecs.
(3.32, 3.33) nos dan a J (r) y ρ (r) cuando conocemos ψ (r), vale preguntarse si inversamente podemos determinar
unı́vocamente a ψ (r) con base en el conocimiento de J (r) y ρ (r). La Ec. (3.33) nos da a ρ (r) en función del módulo
de ψ (r). Por otro lado, dividiendo las Ecs. (3.32, 3.33) resulta

m J (r)
∇ξ (r) =
~ ρ (r)

esta ecuación solo tiene solución si


J (r)
∇× =0 (3.34)
ρ (r)
que tiene un conjunto infinito de soluciones que solo diferen en una constante (o en una función solo del tiempo),
que corresponderı́a a una fase global irrelevante en ψ (r). Por tanto, si conocemos a ρ (r) y J (r) entonces ψ (r)
está bien especificada siempre y cuando se satisfaga la condición (3.34). Si dicha condición no se satisface, no existe
una función de onda asociada a ρ (r) y J (r).

3.4. Aplicación de la ecuación de Schrödinger a potenciales discontı́nuos


Hemos visto que los efectos cuánticos no son evidentes cuando se considera a h como muy pequeña. En particular,
si la longitud de onda λ = h/p asociada a la partı́cula es mucho menor que todas las demás longitudes involucradas
en el problema, la naturaleza ondulatoria de la materia quedará apantallada y el comportamiento de la partı́cula
será esencialmente clásico. Esto es análogo a lo que ocurre entre la óptica geométrica y la óptica ondulatoria. Cuando
la longitud de la onda es mucho menor que las demás longitudes involucradas en el problema, la óptica geométrica
nos predice muy bien los fenómenos ópticos, el comportamiento de los rayos es esencialmente corpuscular. Cuando
esto no se cumple, los aspectos ondulatorios de la luz se vuelven importantes para una adecuada descripción de los
fenómenos.
De la misma forma, cuando un potencial actúa sobre una partı́cula, los efectos cuánticos debidos a esta interacción
solo serán significativos si el potencial varı́a significativamente sobre una distancia menor a la longitud de onda de
DeBroglie asociada a la partı́cula. Es por esta razón que estudiaremos potenciales discontı́nuos en donde la variación
será finita para una distancia básicamente cero (es decir menor que cualquier longitud de onda). Es claro que esto
constituye una idealización ya que los potenciales fı́sicos deben ser contı́nuos si bien pueden exhibir una enorme
pendiente. Este lı́mite solo corresponderá aproximadamente a la realidad si la distancia δx en que ocurre esta
fuerte variación, es mucho menor que la longitud de onda de De Broglie asociada a la partı́cula y mucho menor
que cualquier otra longitud tı́pica del problema. Estos potenciales se podrán definir adecuadamente a través de la
función paso definida por 
0 si x < x0
θ (x − x0 ) =
1 si x > x0

3.5. Potenciales rectangulares, análogo óptico


Definamos un potencial de la forma

 V0 si −∞ < x < x0
V (x) = V si x0 < x < x1 ; V1 < V2 < V0 (3.35)
 1
V2 si x1 < x < ∞
la fuerza F (x) = −dV (x) /dx serı́a del tipo

F (x) = F0 δ (x − x0 ) − F1 δ (x − x1 )
134 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES

En primer lugar las predicciones de la mecánica clásica son inmediatas, por ejemplo si V (x) es una energı́a
potencial gravitacional, el perfil del potencial representa el perfil de la superficie sobre la cual se mueve la partı́cula,
los valores de x para los cuales E < V estarán prohibidos. En las regiones de potencial constante la velocidad de la
partı́cula es constante ya que es libre, solo en las discontinuidades experimenta una fuerza y si pasa a la otra región
(si E > V ) su energı́a cinética se verá aumentada (disminuı́da) si pasa a una zona de menor (mayor) potencial.
Como el potencial no depende del tiempo podemos encontrar soluciones estacionarias para la ecuación de
Schrödinger. En la región de potencial constante V , la ecuación de Schrödinger independiente del tiempo nos
da
 
~2 d2
− + V ϕ (x) = Eϕ (x)
2m dx2
 2 
d 2m
+ 2 (E − V ) ϕ (x) = 0 (3.36)
dx2 ~

escrita en esta forma la ecuación tiene un interesante análogo óptico. Consideremos un medio transparente de ı́ndice
de refracción n independiente de la posición y el tiempo. En tal medio puede haber ondas electromagnéticas con
campo eléctrico independiente de y y z
E (r, t) = uE (x) e−iΩt (3.37)
siendo u un vector unitario perpendicular al eje x, teniendo en cuenta que E satisface la ecuación de onda y las
ecuaciones de Maxwell, resulta  2 
d n2 Ω2
+ 2 E (x) = 0 (3.38)
dx2 c
las Ecs. (3.36) y (3.38) son idénticas si hacemos la asignación

2m n2 Ω2
(E − V ) = (3.39)
~2 c2
adicionalmente, en los lugares en donde V (y por tanto n) son discontı́nuos las condiciones de frontera para ϕ (x) y
E (x) son las mismas: las soluciones y sus primeras derivadas deben permanecer contı́nuas (lo veremos más adelante
para las ϕ (x)). Esta analogı́a permite asociar al problema de una partı́cula en un potencial del tipo (3.35) un
problema óptico asociado a la propagación de una onda electromagnética de frecuencia angular Ω en un medio cuyo
ı́ndice de refracción n tiene discontinuidades del mismo tipo. En la Ec. (3.39) podemos despejar para n (Ω) y obtener
1 p
n (Ω) = 2mc2 (E − V ) (3.40)
~Ω
nótese que para la onda electromagnética, la región con E > V corresponde a un medio transparente con ı́ndice de
refracción real y la onda es de la forma e ikx . Por otro lado, cuando E < V corresponde a un medio con un ı́ndice de
refracción imaginario de modo que n 2 < 0 y al reemplazar esto en (3.38) se obtiene una solución de la forma e −ρx
que es del tipo de onda evanescente.
Debe tenerse en cuenta que si bien obtendremos un comportamiento funcional análogo al óptico, la interpretación
probabilı́stica es muy diferente a la interpretación clásica para onda electromagnética.

3.5.1. Estrategia de solución para potenciales acotados con discontinuidades de salto


Veamos ahora la estrategia especı́fica de solución para los estados estacionarios de la partı́cula sometidas a
potenciales discontı́nuos. En las regiones de energı́a potencial constante usamos la Ec. (3.36)
 2 
d 2m
+ (E − V ) ϕ (x) = 0 (3.41)
dx2 ~2

es útil distinguir tres casos


(a) E > V , introduzcamos por conveniencia una constante positiva k definida por

~2 k 2
E−V ≡ (3.42)
2m
3.5. POTENCIALES RECTANGULARES, AN ÁLOGO ÓPTICO 135

al reemplazar en (3.41) queda


 
d2 2
+ k ϕ (x) = 0 (3.43)
dx2
que es la ecuación de un oscilador armónico y la solución de la Ec. (3.43) se puede escribir como

ϕ (x) = Aeikx + A0 e−ikx (3.44)

donde A y A0 son complejos constantes.


(b) E < V , esta condición corresponde a regiones del espacio que están clásicamente prohibidas. En este caso
introducimos la constante positiva ρ dada por

~2 ρ2
V −E ≡ (3.45)
2m
y la Ec. (3.41) queda
 
d2 2
− ρ ϕ (x) = 0 (3.46)
dx2
con solución
ϕ (x) = Beρx + B 0 e−ρx (3.47)
siendo B y B 0 constantes complejas.
(c) E = V , en este caso
d2 ϕ (x)
= 0 ⇒ ϕ (x) = Cx + C 0
dx2
Ahora veamos el comportamiento de las soluciones en la discontinuidad. La primera tentación es pensar que la
función de onda debe ser discontı́nua en un punto donde el potencial lo sea, veremos sin embargo que tanto ϕ (x)
como dϕ (x) /dx deben ser contı́nuas y solo es la segunda derivada d 2 ϕ (x) /dx2 la que es discontı́nua en el punto.
Para ver esto, recordemos que un potencial con una discontinuidad de salto en x 1 representa en fı́sica el lı́mite
cuando ε → 0 de un potencial Vε (x) que es igual a V (x) fuera del intervalo [x 1 − ε, x1 + ε], pero que varı́a de forma
contı́nua en dicho intervalo. Consideremos la ecuación

d2 2m
2
ϕε (x) + 2 [E − Vε (x)] ϕε (x) = 0 (3.48)
dx ~
asumimos que Vε (x) está acotado en el intervalo [x 1 − ε, x1 + ε], y que esta cota no depende del parámetro ε. Esto
se cumple en la mayorı́a de los casos, ya que usualmente V ε estará definido dentro de los valores [V 0 , V1 ] que se tienen
en la discontinuidad de salto a la izquierda y la derecha de x 1 . Escogemos una solución ϕε (x) que para x < x1 − ε
y para x > x1 + ε coincida con una solución dada de la Ec. (3.41). La idea es demostrar que cuando ε → 0 entonces
ϕε (x) tiende a una función ϕ (x) contı́nua y diferenciable a primer orden en x 1 . Es posible probar a través de las
propiedades de la ecuación diferencial (3.41) que ϕ ε (x) permanece acotada para cualquier valor de ε con una cota
independiente de ε, en la vecindad de x = x 1 . Esto fı́sicamente implica que la densidad de probabilidad permanece
finita. Integrando la Ec. (3.48) en el intervalo [x 1 − η, x1 + η] resulta
Z x1 +η    Z
d d 2m x1 +η
ϕε (x) dx + 2 [E − Vε (x)] ϕε (x) dx = 0
x1 −η dx dx ~ x1 −η
Z x1 +η
dϕε (x1 + η) dϕε (x1 − η) 2m
− = 2 [Vε (x) − E] ϕε (x) dx (3.49)
dx dx ~ x1 −η

y dado que Vε (x) y ϕε (x) permanecen acotados con cotas independientes de ε, la integral a la derecha de la Ec.
(3.49) tiende a cero cuando η tiende a cero. Por lo tanto
 
dϕε (x1 + η) dϕε (x1 − η)
lı́m − =0
η→0 dx dx
136 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES

por tanto, en este lı́mite, dϕ/dx es contı́nua en x = x 1 y por tanto también ϕ (x) ya que es la integral de una función
contı́nua. Por otro lado, d2 ϕ/dx2 es discontı́nua en x = x1 puesto que en la Ec. (3.41) vemos que

 
d2 ϕ (x1 + η) 2m
lı́m + 2 [E − V (x1 + η)] ϕ (x1 + η) =0
η→0+ dx2 ~

 
d2 ϕ (x1 + η) 2m
lı́m = lı́m {[V (x1 + η) − E] ϕ (x1 + η)}
η→0+ dx2 η→0+ ~2
 2 
d ϕ (x1 + η) 2m
lı́m = {[V1 − E] ϕ (x1 )}
η→0+ dx2 ~2

siendo V1 el valor del potencial a la derecha de x 1 , similarmente

 
d2 ϕ (x1 + η) 2m
lı́m = 2 {[V0 − E] ϕ (x1 )}
η→0− dx2 ~

siendo V0 el valor del potencial a la izquierda de x 1 . Tenemos entonces que en x1 la segunda derivada presenta un
salto dado por
 2   2 
d ϕ (x1 + η) d ϕ (x1 + η) 2m
lı́m 2
− lı́m 2
= 2 (V1 − V0 ) ϕ (x1 )
η→0+ dx η→0− dx ~

esto es una discontinuidad de salto para la segunda derivada ya que V 1 6= V0 . Nótese sin embargo, que la segunda
derivada permanece acotada. Es importante resaltar la importancia de que V ε (x) permanezca acotado. Por ejemplo,
si V (x) = aδ (x) tenemos una función cuya integral permanece finita pero que no es acotada. En tal caso, ϕ (x)
permanece contı́nua pero no la primera derivada.
Por tanto, para encontrar la solución de los estados estacionarios cuando el potencial es contı́nuo a trozos con
discontinuidades de salto finito, calculamos primero las soluciones para las regiones en donde el potencial es constante
(con E > V ó E < V según el caso), y hacemos el “empalme” en los puntos donde hay discontinuidades exigiendo
la continuidad de la solución y de su primera derivada.

3.5.2. Expresión para la corriente en regiones de potencial constante

Por simplicidad consideraremos un problema unidimensional de una partı́cula colocada en un potencial constante
V0 . Aunque este caso corresponde a partı́cula libre, resulta interesante obtener la corriente en términos de V 0 ya que
después consideraremos la posibilidad de regiones con potencial constante pero diferente en cada región. Como la
corriente (3.31) depende de la solución para la función de onda estacionaria debemos considerar varios casos según
la sección 3.5.1
(a) E > V0 , en tal caso la solución estacionaria viene dada por la Ec. (3.44)

ϕ (x) = Aeikx + A0 e−ikx (3.50)

donde hemos usado la definición (3.42)


~2 k 2
E − V0 ≡
2m

y sustituyendo (3.50) en la expresión (3.31) para la corriente


3.6. EL POTENCIAL ESCALÓN 137

~
Jx = [ϕ∗ ∂x ϕ − ϕ∂x ϕ∗ ]
2mi
~ h ∗ −ikx       i
Jx = A e + A0∗ eikx ∂x Aeikx + A0 e−ikx − Aeikx + A0 e−ikx ∂x A∗ e−ikx + A0∗ eikx
2mi
~ h ∗ −ikx     i
Jx = A e + A0∗ eikx ikAeikx − ikA0 e−ikx − Aeikx + A0 e−ikx −ikA∗ e−ikx + ikA0∗ eikx
2mi
~k h ∗ −ikx   
Jx = A e + A0∗ eikx Aeikx − A∗ e−ikx + A0∗ eikx A0 e−ikx
2m    i
+ Aeikx + A0 e−ikx A∗ e−ikx − Aeikx + A0 e−ikx A0∗ eikx
~k h ∗ i
Jx = A A + A0∗ Ae2ikx − A∗ A0 e−2ikx − A0∗ A0 + AA∗ + A0 A∗ e−2ikx − AA0∗ e2ikx − A0 A0∗
2m
~k h 2 i
Jx = 2 |A|2 + A0∗ Ae2ikx − AA0∗ e2ikx − A∗ A0 e−2ikx + A0 A∗ e−2ikx − 2 A0
2m
~k h 2 0 2 i
Jx = |A| − A (3.51)
m
el signo relativo se puede entender teniendo en cuenta que la función de onda (3.50) representa dos ondas con
momentos opuestos p = ±~k con densidades de probabilidad |A| 2 y |A0 |2 , además ~k p
m = m = vg nos dice que Jx es
de la forma ρvg como era de esperarse.
(b) Cuando E < V0 la solución está dada por las Ecs. (3.45, 3.47)

ϕ (x) = Beρx + B 0 e−ρx (3.52)


~2 ρ2
V0 − E ≡ (3.53)
2m
sustituyendo (3.52) en (3.31) nos da
~
Jx = [ϕ∗ ∂x ϕ − ϕ∂x ϕ∗ ]
2mi
~  ∗ ρx    
Jx = B e + B 0∗ e−ρx ∂x Beρx + B 0 e−ρx − Beρx + B 0 e−ρx ∂x B ∗ eρx + B 0∗ e−ρx
2mi
~  ∗ ρx    
Jx = B e + B 0∗ e−ρx ρBeρx − ρB 0 e−ρx − Beρx + B 0 e−ρx ρB ∗ eρx − ρB 0∗ e−ρx
2mi
~ρ  ∗ ρx  
Jx = B e + B 0∗ e−ρx Beρx − B ∗ eρx + B 0∗ e−ρx B 0 e−ρx
2mi   
− Beρx + B 0 e−ρx B ∗ eρx + Beρx + B 0 e−ρx B 0∗ e−ρx
~ρ  ∗ 2ρx 
Jx = B Be + B 0∗ B − B ∗ B 0 − B 0∗ B 0 e−2ρx − BB ∗ e2ρx − B 0 B ∗ + BB 0∗ + B 0 B 0∗ e−2ρx
2mi
~ρ  ∗ 2ρx 
Jx = B Be − BB ∗ e2ρx + 2B 0∗ B − 2B ∗ B 0 − B 0∗ B 0 e−2ρx + B 0 B 0∗ e−2ρx
2mi
~ρ  0∗ 
Jx = 2B B − 2B ∗ B 0
2mi
~ρ   ~ρ  
Jx = BB 0∗ − B ∗ B 0 = Im BB 0∗ (3.54)
2mi m
vemos que es necesario que en la función de onda (3.52) ambos coeficientes sean no nulos para que la corriente de
probabilidad sea diferente de cero.

3.6. El potencial escalón


Definamos un potencial en la forma

0 si x < 0 (Región I)
V (x) = V0 θ (x) =
V0 si x > 0 (Región II)
138 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES

Figura 3.1: Perfil de un potencial escalón con discontinuidad en x = 0 y altura V 0 .

cuyo perfil se ilustra en la Fig. 3.1. Asumiremos que la partı́cula viene desde x = −∞ en t = −∞ de modo que
inicialmente solo hay una onda viajera que se propaga hacia la derecha. Distinguiremos dos casos

3.6.1. E > V0 , reflexión parcial


Como la energı́a es mayor que el potencial en ambas regiones, la Ec. (3.43) y la definición (3.42) son válidas
para las dos regiones I y II
 2  r
d 2 2mE
+ k1 ϕ (x) = 0 ; k1 ≡ (región I) (3.55)
dx2 ~2
 2  r
d 2 2m (E − V0 )
2
+ k2 ϕ (x) = 0 ; k2 ≡ (región II) (3.56)
dx ~2

ası́ mismo las soluciones en las dos regiones son de la forma (3.44)

ϕI (x) = A1 eik1 x + A01 e−ik1 x ; ϕII (x) = A2 eik2 x + A02 e−ik2 x (3.57)
dϕI (x)   dϕII (x)  
= ik1 A1 eik1 x − A01 e−ik1 x ; = ik2 A2 eik2 x − A02 e−ik2 x (3.58)
dx dx
y puesto que la ecuación (3.41) es homogénea, si ϕ es solución también lo será ϕ/A, siendo A una constante. Esto
implica que solo podemos determinar los cocientes entre las amplitudes pero no todas las amplitudes. Ahora bien,
puesto que la amplitud de entrada es la de la onda incidente, es decir la de la onda que viaja hacia la derecha
en la región I, tenemos que A1 es el parámetro de entrada y todos los demás deben compararse con él. Por tanto
determinaremos los cocientes
A01 A2 A02
, , .
A1 A1 A1
Veamos la información que nos dan las condiciones de empalme, la continuidad de la función en x = 0 nos da

lı́m ϕ (x) = lı́m ϕ (x) ⇒ ϕI (x = 0) = ϕII (x = 0)


x→0− x→0+
A1 + A01 = A2 + A02 (3.59)

y la continuidad de la primera derivada en x = 0 nos da

dϕ (x) dϕ (x) dϕI (x = 0) dϕII (x = 0)


lı́m = lı́m ⇒ =
x→0− dx x→0 + dx dx dx
 
k1 A1 − A01 = k2 A2 − A02 (3.60)
3.6. EL POTENCIAL ESCALÓN 139

como solo tenemos dos ecuaciones (3.59) y (3.60) para los tres cocientes, debemos fijar una amplitud para poder
determinar los cocientes. Para ello tengamos en cuenta que cuando la función de onda penetra la región II vuelve
a ser una función de onda libre (potencial constante) y ya hemos visto que la función de onda libre es una onda
viajera en una sola dirección, de modo que no es de esperarse que surja una onda reflejada en el interior de la región
II (solo en el lı́mite entre I y II donde sı́ hay interacción). En consecuencia, no habrá onda reflejada en la región II,
por lo cual según la Ec. (3.57) vemos que
A02 = 0 (3.61)
nótese que esto está relacionado con el hecho de que hayamos tomado el caso de una partı́cula incidente que proviene
de x = −∞ (condiciones iniciales)4 . Las Ecs. (3.59, 3.60) se simplifican a

A1 + A01 = A2 ; k1 A1 − A01 = k2 A2 (3.62)
A1 + A01 A2 k1 (A1 − A01 ) A2
= ; = k2
A1 A1 A1 A1
0
 0

A A2 k1 A A2
1+ 1 = ; 1− 1 = (3.63)
A1 A1 k2 A1 A1
igualando las dos Ecs. (3.63)
     
A01 k1 A0 k1 k1 A01 k2 − k 1 k2 + k1 A01
1+ = 1− 1 ⇒1− =− 1+ ⇒ =−
A1 k2 A1 k2 k2 A1 k2 k2 A1
A01 k1 − k 2
=
A1 k1 + k 2
y reemplazando en la primera de las Ecs. (3.63)
k1 − k 2 A2 2k1 A2
1+ = ⇒ =
k1 + k 2 A1 k1 + k 2 A1
tenemos entonces que las condiciones iniciales y de empalme nos llevan a
A01 k1 − k 2 A2 2k1
A02 = 0 ; = >0 ; = >0 (3.64)
A1 k1 + k 2 A1 k1 + k 2
donde el hecho de que el primer cociente es positivo proviene de las expresiones para k 1 y k2 Ecs. (3.55, 3.56).
Ahora bien, para E > V0 , la función ϕI (x) en la Ec. (3.57) representa dos ondas con momentos opuestos, es decir
propagándose en direcciones opuestas. La onda proporcional a A 1 se propaga de izquierda a derecha de modo que
representa una partı́cula incidente (p = ~k 1 ), la onda proporcional a A01 tiene momento p = −~k1 por lo cual
representa una partı́cula reflejada. Puesto que A 02 = 0 tenemos que ϕII (x) en la Ec. (3.57) representa solo una
onda que corresponde a una partı́cula transmitida. Es natural entonces preguntarse por la probabilidad de que una
partı́cula que incide desde x = −∞ pase el escalón de potencial o rebote en él. A tales cantidades las llamaremos
coeficientes de transmisión T y de reflexión R respectivamente. Para calcular estas cantidades debemos calcular
primero la corriente asociada a cada región de potencial constante. Para el caso E > V 0 esta corriente viene dada
por las Ecs. (3.50, 3.51), que aplicadas a las soluciones (3.57) y con la condición A 02 = 0 Ec. (3.61) nos da
~k1 h 2 i
JI (x) = |A1 |2 − A01 (3.65)
m
~k2
JII (x) = |A2 |2 (3.66)
m
JI es la superposición entre la corriente incidente y la corriente reflejada, en tanto que J II es la corriente transmitida,
por lo tanto
~k1 ~k1 0 2
JI (x) = Jinc + Jref l ; Jinc = |A1 |2 ; Jref l = − A1
m m
~k2
JII (x) = Jtr = |A2 |2
m
4
Si la partı́cula proviniera de x = +∞ y viajara hacia la izquierda, esperarı́amos onda incidente y reflejada en la región II y solo onda
transmitida en la región I.
140 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES

Ahora bien, la corriente incidente J inc se divide en dos términos cuando incide sobre la discontinuidad: la corriente
reflejada y la transmitida
Jinc = Jtr + Jref l
El coeficiente de reflexión del escalón es entonces el cociente entre la corriente reflejada sobre la corriente incidente

Jref l A01 2
R = = (3.67)
Jinc A1

y el coeficiente de transmisión es el cociente entre la corriente transmitida sobre la corriente incidente



Jtr k2 A2 2
T = = (3.68)
Jinc k1 A1

podemos escribir R y T en términos de k 1 y k2 . Para hacerlo con R reemplazamos (3.64) en (3.67)


0 2
A1 k1 − k2 2 (k1 − k2 )2 (k1 + k2 )2 − 4k1 k2
R = = = =
A1 k1 + k 2 (k1 + k2 )2 (k1 + k2 )2
4k1 k2
R = 1−
(k1 + k2 )2

para el caso de T , reemplazamos (3.64) en (3.68)


2
k2 A2 2k1 2 k2 4k12
T = = k2 = =
4k1 k2
k1 A1 k1 k1 + k 2 k1 (k1 + k2 ) 2
(k1 + k2 )2

los coeficientes R y T quedan finalmente


4k1 k2 4k1 k2
R=1− 2 , T = (3.69)
(k1 + k2 ) (k1 + k2 )2

ahora bien, en un experimento concreto es claro que la partı́cula debe reflejarse o transmitirse, y esto se traduce en
que necesariamente
R+T =1
lo cual es consistente con las Ecs. (3.69). Es de enfatizar que contrario a las predicciones de la mecánica clásica,
tenemos una probabilidad diferente de cero de que la partı́cula se devuelva.
Ahora estamos preparados para la analogı́a óptica: De las Ecs. (3.40) vemos que un escalón de potencial con
V = 0 para x < x1 (región I) y V = V0 < E para x > x1 (región II), corresponde a una onda electromagnética que
se propaga de izquierda a derecha desde una región I de ı́ndice real n 1 dado por
c √
n1 = 2mE
~Ω
hacia una región II (separada de la región I por el punto x = x 1 ) de ı́ndice de refracción real n2
c p
n2 = 2m (E − V0 )
~Ω
de modo que tenemos una interfase plana en x = x 1 con n1 > n2 (la región I podrı́a ser vidrio y la región II podria
ser aire o el vacı́o). Ambos medios son transparentes. En este caso la onda incidente (con dirección de propagación
normal a la interfase) se parte en una onda transmitida (o refractada) y una onda reflejada. Ahora bien, las Ecs.
(3.64) muestran que los cocientes A01 /A1 y A2 /A1 son reales positivos, i.e. A01 y A2 tienen la misma fase que A1 5 .
Fı́sicamente, esto significa que no hay corrimiento de fase en la onda reflejada ni en la transmitida, con respecto a
la onda incidente. Por tanto, la partı́cula cuántica no es retardada por su reflexión o transmisión.
5

Para el cociente de dos amplitudes complejas podemos escribir tales cocientes en forma polar i.e A1 /A2 = |A1 | eiδ1 / |A2 | eiδ2 . De
modo que si el cociente es positivo entonces δ1 = δ2 , si el cociente es negativo hay una diferencia de fase π y si el cociente es complejo
hay una diferencia de fase arbitraria diferente a cero y π.
3.6. EL POTENCIAL ESCALÓN 141

Es interesante ver lo que ocurre en el lı́mite cuando E >> V 0 . De las definiciones de k1 y k2 en las Ecs. (3.55,
3.56), junto con las Ecs. (3.69) es fácil ver que
q  q 
√   p 
2mE 2m(E−V0 )
4 ~ 2 ~ 2 8m E (E − V 0 )
4k1 k2
T = = q q 2 = √ p 2
(k1 + k2 )2 2mE 2m(E−V0 ) 2mE + 2m (E − V )
~2 +
0
~2
hp i hp i h√ i
4 E(E−V0 )
8m E (E − V0 ) 4 E (E − V0 )
E
T = h√ √ √ i 2 = h √ √ i2 = √ √ 2
2m E + E − V0 E + E − V0 [( E+ E−V0 )]
E
q  q 
4 1 − VE0 4 1 − VE0
4
T =  √ √ 2 =  q 2 ≈ =1
( E+√ E−V0 ) V0 [1 + 1]2
E
1+ 1− E

por tanto si E >> V0 entonces R ∼ =0yT ∼ = 1, de modo que para energı́as suficientemente grandes comparadas con
la altura del potencial, la partı́cula saltará el escalón prácticamente con toda certeza.
La diferencia en la interpretación en óptica y en cuántica se puede apreciar con el proceso de medición. Si justo
después de que la onda incidente se parte en dos, colocamos dos detectores en la regiones I y II, en un experimento
óptico los dos aparatos detectarán una onda cada una con intensidad menor a la incidente (siendo la suma de las
dos intensidades la intensidad incidente). En un experimento cuántico solo uno de los detectores detectará una
partı́cula, pero si repetimos el experimento muchas veces, la partı́cula será detectada en uno u otro detector en cada
experimento, en una proporción dada por el patrón de probabilidad.

3.6.2. E < V0 ; reflexión total


Asumiendo E ≥ 0 se tiene que en la región I son válidas la Ec. (3.43) y la definición (3.42), en tanto que en la
región II son válidas la Ec. (3.46) y la definición (3.45)
 2  r
d 2 2mE
2
+ k1 ϕ (x) = 0 ; k1 ≡ (región I) (3.70)
dx ~2
 2  r
d 2 2m (V0 − E)
2
− ρ2 ϕ (x) = 0 ; ρ2 ≡ (región II) (3.71)
dx ~2

De modo que la solución en la región I es del tipo armónico Ec. (3.44) y en la región II es del tipo exponencial
Ec. (3.47)

ϕI = A1 eik1 x + A01 e−ik1 x ; ϕII (x) = B2 eρ2 x + B20 e−ρ2 x (3.72)


dϕI   dϕII 
= ik1 A1 eik1 x − A01 e−ik1 x ; = ρ2 B2 eρ2 x − B20 e−ρ2 x (3.73)
dx dx
para que la solución se mantenga acotada cuando x → +∞ es necesario que 6

B2 = 0 (3.74)

y las condiciones de empalme nos dan

dϕ (x) dϕ (x)
lı́m ϕ (x) = lı́m ϕ (x) ; lı́m
= lı́m ⇒
x→0− x→0+ dx x→0−x→0 + dx
dϕI dϕII
ϕI (x = 0) = ϕII (x = 0) ; (x = 0) = (x = 0) (3.75)
dx dx
6
En x → −∞ la solución es oscilante ya que estamos en la región I. Por lo tanto, no hay problemas de divergencia.
142 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES

y reemplazando (3.74, 3.75) en (3.72, 3.73) resulta



A1 + A01 = B20 ; ik1 A1 − A01 = −ρ2 B20 (3.76)

Debido a la nulidad de B2 , podremos encontrar todos los cocientes de la forma A 01 /A1 y B20 /A1 sin ninguna suposición
adicional. Dividiendo las Ecs. (3.76) por A 1 queda
 
A01 B20 A01 B0
1+ = ; ik1 1 − = −ρ2 2
A1 A1 A1 A1
 
A01 B20 ik1 A01 B20
1+ = ; − 1− = (3.77)
A1 A1 ρ2 A1 A1

igualando estas ecuaciones


 
A0 ik1 A01 A0 ik1 A01 ik1
1+ 1 = − 1− ⇒ 1− =− −1
A1 ρ2 A1 A1 ρ2 A1 ρ2
  0  
ik1 A1 ik1 A0
1− = − + 1 ⇒ (ρ2 − ik1 ) 1 = −ik1 − ρ2
ρ2 A1 ρ2 A1
A0 A10 k1 − iρ2
(iρ2 + k1 ) 1 = k1 − iρ2 ; =
A1 A1 k1 + iρ2

y reemplazando este cociente en la primera de las Ecs. (3.77)

k1 − iρ2 B0 B0 2k1
1+ = 2 ⇒ 2 =
k1 + iρ2 A1 A1 k1 + iρ2
tenemos que los cocientes están dados por

A01 k1 − iρ2 B20 2k1


= ; = (3.78)
A1 k1 + iρ2 A1 k1 + iρ2

Las expresiones finales para ϕI (x) y ϕII (x) están dadas por las Ecs. (3.72, 3.73, 3.74)

ϕI = A1 eik1 x + A01 e−ik1 x ; ϕII (x) = B20 e−ρ2 x (3.79)


dϕI   dϕII (x)
= ik1 A1 eik1 x − A01 e−ik1 x ; = −ρ2 B20 e−ρ2 x (3.80)
dx dx
reemplazando la primera de las Ecs. (3.79) en (3.51)

~k h 2 i
JI = |A1 |2 − A01
m
Por otro lado, usando la segunda de las Ecs. (3.79) en la Ec. (3.54) y teniendo en cuenta que en la Ec. (3.54)
los dos coeficientes deben ser no nulos para que exista corriente, se tiene que

JII = 0
de modo que el flujo transmitido es cero.
En el análogo óptico, cuando E < V0 el ı́ndice n2 correspondiente a la región II (x > x 1 ) se vuelve puramente
imaginario y la onda se refleja completamente. Sin embargo, la onda evanescente para la región II muestra que una
fracción de la intensidad de la onda cruza la frontera (onda sobreamortiguada i.e. sin oscilación). Similarmente en
el caso cuántico la partı́cula es siempre reflejada (reflexión total) pero hay una probabilidad diferente de cero de
que la partı́cula pase a la región II 7 , esto difiere sin embargo del comportamiento clásico de una partı́cula para la
cual esta región estarı́a estrictamente prohibida. No obstante, en el caso cuántico, esta probabilidad disminuye con
x exponencialmente de modo que se vuelve despreciable cuando x es mayor a la “longitud de penetración” 1/ρ 2 de
7
Hablamos de reflexión total en el sentido de que solo las funciones de onda incidente y reflejada oscilan. La onda transmitida está en
cambio sobreamortiguada.
3.7. BARRERA DE POTENCIAL 143

la onda evanescente. Adicionalmente, las Ecs. (3.78) nos dicen que el coeficiente A 01 /A1 es complejo de modo que
hay cierto corrimiento de fase en la reflexión que fı́sicamente se debe a que la partı́cula es retardada cuando penetra
la región II. Este fenómeno es parcialmente análogo al efecto piel de penetración de una onda en un metal, aunque
en el efecto piel hay una parte oscilante y una de amortiguamiento (subamortiguamiento), en tanto que en el caso
presente solo hay término amortiguado (sobreamortiguamiento).
Surge una aparente paradoja teniendo en cuenta que en la región II, la corriente de probabilidad es cero en tanto
que la probabilidad de que la partı́cula esté en esta región es no nula. Un análisis mas detallado del paquete de
onda incidente muestra que parte del paquete de onda incidente entra en la región II clásicamente prohibida para la
partı́cula y se refleja después de haber penetrado, esta onda reflejada desde la región II interfiere destructivamente
con la onda incidente que está penetrando de modo que se anula la corriente en la región II.
Vale decir que esta interferencia perfectamente destructiva solo aparece en el caso unidimensional. Un análisis
del caso bidimensional muestra que efectivamente aparece una corriente no nula en la región II cuando la incidencia
es oblı́cua.
Es interesante analizar el caso en el cual V 0 → ∞, de la definición para ρ2 en (3.71) vemos que ρ2 → ∞ de
modo que la segunda de las Ecs. (3.78) nos da B 20 → 0, y usando esto en la primera de las Ecs. (3.78) se obtiene
A01 /A1 → −1 es decir
A01 → −A1 ; B20 → 0 (3.81)
y la segunda de las Ecs. (3.79) muestra que en la región II la función de onda tiende a cero, ası́ como el rango de
penetración 1/ρ2 de ésta8 . Aplicando los lı́mites (3.81) a las Ecs. (3.79)

lı́m ϕ (x) = ϕI (0) = A1 + A01 → 0 , lı́m ϕ (x) = ϕII (0) = B20 → 0 (3.82)
x→0− x→0+

la función de onda ϕ (x) se va para cero en x = x 1 de manera que se mantiene contı́nua en el punto de discontinuidad
del potencial. Veamos ahora los lı́mites laterales en la derivadas, Ecs. (3.80)

dϕ (x) dϕI (0) 


lı́m = = ik1 A1 − A01 → 2ik1 A1
x→0− dx dx
dϕ (x) dϕII (x)
lı́m = lı́m = − lı́m ρ2 B20 e−ρ2 x
x→0+ dx x→0+ dx x→0+

usando la segunda de las Ecs. (3.77) se obtiene


 
dϕ (x) ik1 0
 −ρ2 x
lı́m = − lı́m ρ2 − A1 − A 1 e = 2ik1 A1 lı́m e−ρ2 x (3.83)
x→0+ dx x→0+ ρ2 x→0+

el valor de este lı́mite dependerá del crecimiento comparativo entre ρ 2 y x. Por ejemplo si suponemos que el potencial
V0 crece como x−3 tenemos que r r
2m 2m −3/2
ρ2 → 2
V0 → x ≡ kx−3/2
~ ~2
con lo cual la Ec. (3.83) queda

dϕ (x) −1/2
lı́m = 2ik1 A1 lı́m e−ρ2 x = 2ik1 A1 lı́m e−kx =0
x→0+ dx x→0+ x→0+

Vemos entonces que la derivada puede cambiar abruptamente del valor 2ikA 1 a cero, en cuyo caso no serı́a
contı́nua. Esto se debe a que el potencial no es acotado (requisito para la validez del desarrollo en la sección 3.5.1)
de modo que la integral en la Ec. (3.49) no necesariamente tiende a cero cuando η → 0.

3.7. Barrera de potencial


La barrera de potencial se describe a través de la siguiente expresión
8
En otras palabras, el escalón se vuelve un obstáculo totalmente rı́gido, como era de esperarse.
144 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES

Figura 3.2: Perfil de una barrera de potencial de altura V 0 , con discontinuidades en x = 0 y x = L.


 0 si x < 0 (región I)
V (x) = V >0 si 0 < x < L (región II)
 0
0 si L < x (región III)
Para E > V0 veremos que la transmisión es total para ciertos valores del ancho de la barrera, fenómeno conocido
como resonancia en la transmisión. También hay ciertos anchos especı́ficos de la barrera para los cuales la reflexión
es maxima, aunque la transmisión nunca se anula completamente.
Para E < V0 , una partı́cula clásica debe rebotar. Si el ancho de la barrera no es mucho mayor que la longitud
de penetración 1/ρ de la onda evanescente, veremos que parte de la onda incidente se transmite a la región III. En
consecuencia, incluso para E < V0 la probabilidad de que la partı́cula cruce la barrera es diferente de cero. Este
hecho se conoce como efecto túnel.

3.7.1. E > V0 , resonancias


En el análogo óptico tenemos una capa transparente de ancho L (en 0 < x < L) con ı́ndice de refracción real
n2 rodeado de un medio transparente (en x < 0 y x > L) de ı́ndice de refracción real n 1 > n2 . Como la energı́a es
mayor que el potencial, la Ec. (3.43) y la definición (3.42) son válidas para las tres regiones
 2  r
d 2 2mE
+ k1 ϕ (x) = 0 ; k1 ≡ (región I) (3.84)
dx2 ~2
 2  r
d 2 2m (E − V0 )
+ k2 ϕ (x) = 0 ; k2 ≡ (región II) (3.85)
dx2 ~2
 2  r
d 2 2mE
2
+ k3 ϕ (x) = 0 ; k3 = k1 ≡ (región III) (3.86)
dx ~2

ası́ mismo las soluciones en las tres regiones son de la forma (3.44)

ϕI (x) = A1 eik1 x + A01 e−ik1 x ; ϕII (x) = A2 eik2 x + A02 e−ik2 x ; ϕIII (x) = A3 eik1 x + A03 e−ik1 x (3.87)
dϕI (x)   dϕII (x)  
= ik1 A1 eik1 x − A01 e−ik1 x ; = ik2 A2 eik2 x − A02 e−ik2 x
dx dx
dϕIII (x)  
ik1 x 0 −ik1 x
= ik1 A3 e − A3 e (3.88)
dx
donde hemos usado la segunda de las Ecs. (3.86). Como antes se tiene que

A03 = 0 (3.89)
3.7. BARRERA DE POTENCIAL 145

ya que asumimos una onda incidente desde x → −∞ y no es de esperarse una onda reflejada desde el interior de la
región III. Usando (3.89), las condiciones de empalme aplicadas a las Ecs. (3.87) en x = 0 y en x = L quedan

lı́m ϕ (x) = lı́m ϕ (x) ⇒ ϕI (0) = ϕII (0) ⇒ A1 + A01 = A2 + A02


x→0+ x→0−
lı́m ϕ (x) = lı́m ϕ (x) ⇒ ϕII (L) = ϕIII (L) ⇒ A2 eik2 L + A02 e−ik2 L = A3 eik1 L
x→L+ x→L−
dϕ (x) dϕ (x) dϕI (0) dϕII (0)  
lı́m = lı́m ⇒ = ⇒ k1 A1 − A01 = k2 A2 − A02
x→0+ dx x→0− dx dx dx
dϕ (x) dϕ (x) dϕII (L) dϕIII (L)  
lı́m = lı́m ⇒ = ⇒ k2 A2 eik2 L − A02 e−ik2 L = k1 A3 eik1 L
x→L+ dx x→L− dx dx dx

una vez más podemos determinar los cocientes A 01 /A1 , A2 /A1 , A02 /A1 , A3 /A1 . Es decir, normalizados con respecto
a la amplitud de la onda incidente. Con respecto a estos cocientes las ecuaciones quedan

A01 A2 A02 A2 ik2 L A02 −ik2 L A3 ik1 L


1+ = + ; e + e = e (3.90)
A1 A1 A1 A1 A1 A1
     
A0 k2 A2 A02 k2 A2 ik2 L A02 −ik2 L A3 ik1 L
1− 1 = − ; e − e = e (3.91)
A1 k1 A1 A1 k1 A1 A1 A1

despejando A01 /A1 en la primera de las Ecs. (3.90) y en la primera de las Ecs. (3.91) e igualando resulta
     
A2 A02 k2 A2 A02 A2 k2 A02 k2
+ −1 = 1− − ⇒ 1+ + 1− =2
A1 A1 k1 A1 A1 A1 k1 A1 k1
A2 A0 A02 2k1 A2 (k1 + k2 )
(k1 + k2 ) + 2 (k1 − k2 ) = 2k1 ⇒ = − (3.92)
A1 A1 A1 (k1 − k2 ) A1 (k1 − k2 )

igualando la segunda de las Ecs. (3.90) con la segunda de las Ecs. (3.91), resulta
     
A2 ik2 L A02 −ik2 L k2 A2 ik2 L A02 −ik2 L A02 −ik2 L k2 A2 ik2 L k2
e + e = e − e ⇒ e 1+ = e −1 (3.93)
A1 A1 k1 A1 A1 A1 k1 A1 k1

reemplazando (3.92) en (3.93) queda


     
2k1 A2 (k1 + k2 ) −ik2 L k1 + k2 A2 ik2 L k2 − k1
− e = e
(k1 − k2 ) A1 (k1 − k2 ) k1 A1 k1
 
A2 A2
2k1 (k1 + k2 ) − (k1 + k2 )2 e−ik2 L = − eik2 L (k1 − k2 )2
A1 A1
A2 h i
(k1 + k2 )2 e−ik2 L − (k1 − k2 )2 eik2 L = 2k1 (k1 + k2 ) e−ik2 L (3.94)
A1

reescribamos el término en paréntesis cuadrados en la Ec. (3.94)


 
(k1 + k2 )2 e−ik2 L − (k1 − k2 )2 eik2 L = k12 + 2k1 k2 + k22 e−ik2 L − k12 − 2k1 k2 + k22 eik2 L
     
= −k12 eik2 L − e−ik2 L + 2k1 k2 eik2 L + e−ik2 L − k22 eik2 L − e−ik2 L
= −2ik12 sin k2 L + 4k1 k2 cos k2 L − 2ik22 sin k2 L

(k1 + k2 )2 e−ik2 L − (k1 − k2 )2 eik2 L = −2i k12 + k22 sin k2 L + 4k1 k2 cos k2 L

con lo cual la Ec. (3.94) queda

A2   
−i k12 + k22 sin k2 L + 2k1 k2 cos k2 L = k1 (k1 + k2 ) e−ik2 L
A1
A2 k1 (k1 + k2 ) e−ik2 L
=    (3.95)
A1 −i k12 + k22 sin k2 L + 2k1 k2 cos k2 L
146 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES

reemplazando (3.95) en la Ec. (3.92) resulta

A02 2k1 A2 (k1 + k2 ) 2k1 k1 (k1 + k2 ) e−ik2 L (k + k2 )


= − = − 2 2
  1
A1 (k1 − k2 ) A1 (k1 − k2 ) (k1 − k2 ) −i k1 + k2 sin k2 L + 2k1 k2 cos k2 L (k1 − k2 )
  
2k1 −i k12 + k22 sin k2 L + 2k1 k2 cos k2 L − k1 (k1 + k2 )2 e−ik2 L
=   
−i k12 + k22 sin k2 L + 2k1 k2 cos k2 L (k1 − k2 )
   
A02 −2i k12 + k22 sin k2 L + 4k1 k2 cos k2 L − k12 + k22 + 2k1 k2 e−ik2 L
=    k1
A1 −i k12 + k22 sin k2 L + 2k1 k2 cos k2 L (k1 − k2 )
Z k1
≡  2 2
 
−i k1 + k2 sin k2 L + 2k1 k2 cos k2 L (k1 − k2 )

la cantidad Z se evalúa como


   
Z ≡ −2i k12 + k22 sin k2 L + 4k1 k2 cos k2 L − k12 + k22 + 2k1 k2 e−ik2 L
h i h i h i
= −k12 2i sin k2 L + e−ik2 L − k22 2i sin k2 L + e−ik2 L + 2k1 k2 2 cos k2 L − e−ik2 L
h i h  i
= − k12 + k22 2i sin k2 L + e−ik2 L + 2k1 k2 eik2 L + e−ik2 L − e−ik2 L
 h ik2 L  i
= − k12 + k22 e − e−ik2 L + e−ik2 L + 2k1 k2 eik2 L
  
= − k12 + k22 eik2 L + 2k1 k2 eik2 L = − k12 + k22 − 2k1 k2 eik2 L
Z = − (k1 − k2 )2 eik2 L

con lo cual el cociente A02 /A1 queda finalmente

A02 k1 (k1 − k2 ) eik2 L


= −   (3.96)
A1 −i k12 + k22 sin k2 L + 2k1 k2 cos k2 L

despejando A01 /A1 en la primera de las Ecs. (3.90) y reemplazando las Ecs. (3.95,3.96) en la ecuación resultante se
obtiene
A01 A2 A02 k1 (k1 + k2 ) e−ik2 L k1 (k1 − k2 ) eik2 L
= + −1=    −    −1
A1 A1 A1 −i k12 + k22 sin k2 L + 2k1 k2 cos k2 L −i k12 + k22 sin k2 L + 2k1 k2 cos k2 L
 
−k12 eik2 L − e−ik2 L + k1 k2 eik2 L + e−ik2 L −2ik12 sin k2 L + 2k1 k2 cos k2 L
=    − 1 =    −1
−i k12 + k22 sin k2 L + 2k1 k2 cos k2 L −i k12 + k22 sin k2 L + 2k1 k2 cos k2 L
  
−2ik12 sin k2 L + 2k1 k2 cos k2 L − −i k12 + k22 sin k2 L + 2k1 k2 cos k2 L
=   
−i k12 + k22 sin k2 L + 2k1 k2 cos k2 L


A01 −2ik12 sin k2 L + 2k1 k2 cos k2 L + i k12 + k22 sin k2 L − 2k1 k2 cos k2 L
=   
A1 −i k12 + k22 sin k2 L + 2k1 k2 cos k2 L

A01 i k22 − k12 sin k2 L M
=  2 2
 ≡ (3.97)
A1 −i k1 + k2 sin k2 L + 2k1 k2 cos k2 L N

reemplazando las Ecs. (3.95,3.96) en la ecuación segunda de las Ecs. (3.90) resulta

A3 ik1 L A2 ik2 L A02 −ik2 L


e = e + e
A1 A1 A1
A3 ik1 L k1 (k1 + k2 ) e−ik2 L ik2 L k1 (k1 − k2 ) eik2 L
e =    e −    e−ik2 L
A1 −i k12 + k22 sin k2 L + 2k1 k2 cos k2 L −i k12 + k22 sin k2 L + 2k1 k2 cos k2 L
A3 ik1 L k1 (k1 + k2 ) − k1 (k1 − k2 ) 2k1 k2
e =  2 2
 = 2 2
 
A1 −i k1 + k2 sin k2 L + 2k1 k2 cos k2 L −i k1 + k2 sin k2 L + 2k1 k2 cos k2 L
3.7. BARRERA DE POTENCIAL 147

A3 2k1 k2 e−ik1 L P
= 2 2
 ≡ (3.98)
A1 −i k1 + k2 sin k2 L + 2k1 k2 cos k2 L N
ahora calculamos los coeficientes de reflexión y transmisión por medio de las Ecs. 3.97
2
Jref l A01 2 M M ∗ |M |2 k22 − k12 sin2 k2 L
R = = = = = (3.99)
Jinc A1 N N∗ |N |2 |N |2
2 2
Jtrans A3 2 2
T = = = |P | = 4k1 k2 (3.100)
Jinc A1 |N | 2
|N |2
calculamos ahora la magnitud al cuadrado del denominador N
    
|N |2 = N N ∗ = 2k1 k2 cos k2 L − i k12 + k22 sin k2 L 2k1 k2 cos k2 L + i k12 + k22 sin k2 L
2  
= 4k12 k22 cos2 k2 L + k12 + k22 sin2 k2 L = 4k12 k22 1 − sin2 k2 L + k14 + k24 + 2k12 k22 sin2 k2 L

= 4k12 k22 + k14 + k24 − 2k12 k22 sin2 k2 L
2
|N |2 = 4k12 k22 + k22 − k12 sin2 k2 L (3.101)

reemplazando (3.101) en las Ecs.(3.99, 3.100), los coeficientes de reflexión y transmisión quedan
0 2 
2 − k 2 2 sin2 k L
A1 k 2 1 2
R = = 2 2 (3.102)
A1 2 2 2 2
4k1 k2 + k2 − k1 sin k2 L
2
A3 4k12 k22
T = = 2 (3.103)
A1 4k12 k22 + k22 − k12 sin2 k2 L

se vé inmediatamente que R + T = 1. Es más útil escribir a R y T en términos de cantidades Fı́sicas más directas
como E y V0 . Para ello reemplazamos las expresiones (3.84, 3.85) en la Ec. (3.103)

2mE
 h 2m(E−V0 ) i
2 2
4k1 k2 4 ~2 ~2
T =  = h i h i √ 
2
4k12 k22 + k22 − k12 sin2 k2 L 2mE
 2m(E−V0 ) 2mE 2m(E−V0 ) 2 2 2m(E−V0 )
4 ~2 ~2
+ ~2 − ~2
sin ~ L

4E (E − V0 )
= √ 
2 2 2m(E−V0 )
4E (E − V0 ) + [E − (E − V0 )] sin ~ L

4E (E − V0 )
T = √  (3.104)
2 2 2m(E−V0 )
4E (E − V0 ) + V0 sin ~ L

si hacemos una gráfica de T contra L con valores fijos de E, V 0 y m (ver Fig 3.3), y tenemos en cuenta que sin2 x
es periódica en x con periodo π, entonces T es periódica en L con periodo
π π~
∆L = =p (3.105)
k2 2m (E − V0 )

El mı́nimo de T se obtiene cuando el seno al cuadrado adquiere el valor 1 y el máximo se obtiene cuando el seno al
cuadrado adquiere el valor cero. Es claro entonces que
4E (E − V0 )
Tmı́n = > 0 ; Tmáx = 1 (3.106)
4E (E − V0 ) + V02

vemos que se obtienen valores de L para los cuales la transmisión es total (T = 1), lo cual ocurre cuando L n =
n∆L = nπ/k2 o equivalentemente
nπ nπ~
Ln = =p (3.107)
k2 2m (E − V0 )
148 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES

Figura 3.3: Gráfica de T vs L, con E, V 0 y m fijos, para una barrera de potencial como la indicada en la Fig. 3.2
con la condición E > V0 .

decimos entonces que se obtienen resonancias en la transmisión para estos valores de L n , los cuales corresponden
a múltiplos enteros de la semilongitud de onda de la partı́cula en la región II 9 . Estos hechos se ilustran en la Fig.
3.3. Este es el análogo cuántico de la transmisión en un interferómetro de Fabry-Perot en óptica, en el cual también
se observan estas resonancias en la transmisión. Cuando E > V 0 , se tiene que la reflexión de la partı́cula en cada
discontinuidad del potencial (i.e. en x = 0, L) ocurre sin corrimiento de fase de la función de onda. Por esta razón,
la condición de resonancia k2 L = nπ coincide con los valores de L para los cuales pueden existir ondas estacionarias
en la región II. Por otro lado, cuando L 6= L n surge un corrimiento de fase en las reflexiones que genera interferencia
destructiva, la cual se maximiza lejos de la resonancia, es decir cuando L = (n + 1/2) π, como se aprecia en la Fig.
3.3 esto genera el valor mı́nimo de T . Nótese que en L = (n + 1/2) π tendrı́amos una resonancia en la reflexión,
pero la reflexión no es total ya que la transmisión nunca es nula 10 .
Un estudio del comportamiento del paquete de onda en una barrera de potencial con E > V 0 muestra que cuando
se cumple la condición de resonancia, el paquete de onda pasa un tiempo relativamente grande en la región II. En
mecánica cuántica esto se denomina resonancia en el scattering, ya que en un problema de dispersión por este
tipo de potencial el paquete de onda estarı́a pasando un tiempo relativamente largo en la región de colisión (que
serı́a la región II).

3.7.2. Caso E < V0 : Efecto túnel

En el análogo óptico, tenemos una capa de ancho L con ı́ndice de refracción imaginario (región II) rodeado de
un medio transparente (regiones I y III). En este caso las regiones I y III poseen ondas oscilantes en tanto que la

9
El hecho de que sean múltiplos enteros de semilongitudes de onda (y no de las longitudes de onda) proviene del hecho de que la Ec.
(3.104), depende de sin2 x cuyo periodo π es la mitad del periodo de la función sin x.
10
Naturalmente, la condición de resonancia en la transmisión Ec. (3.107) puede interpretarse para L fijo como los valores k 2n de número
de onda que producen dicha resonancia. Si asumimos por ejemplo que L, V0 y m son fijos, lo que estamos obteniendo son las energı́as de
resonancia En , que implicarán unas frecuencias de resonancia En = hνn .
3.7. BARRERA DE POTENCIAL 149

región II corresponde a ondas evanescentes lo cual se escribe como


  r
d2 2 2mE
+ k1 ϕ (x) = 0 ; k1 ≡ (región I) (3.108)
dx2 ~2
 2  r
d 2m (V0 − E)
2
− ρ22 ϕ (x) = 0 ; ρ2 ≡ (región II) (3.109)
dx ~2
 2  r
d 2 2mE
2
+ k3 ϕ (x) = 0 ; k3 = k1 ≡ (región III) (3.110)
dx ~2

comparando las Ecs. (3.108, 3.109, 3.110) con las Ecs. (3.84, 3.85, 3.86), vemos que podemos utilizar las soluciones
anteriores reemplazando k2 por −iρ2 con lo cual se obtiene
2
A3 4E (V0 − E)
T = = √  ; R =1−T (3.111)
A1 2 2 2m(V0 −E)
4E (V0 − E) + V0 sinh ~ L

para una partı́cula clásica que en t → −∞ está en x → −∞, es decir en la región I, las regiones II y III están
prohibidas. Contrario a las predicciones para una partı́cula clásica, vemos que en el caso cuántico las probabilidades
en las regiones II y III son distintas de cero. En particular esto implica una probabilidad diferente de cero de que la
partı́cula cruce la barrera de potencial, fenómeno conocido como efecto túnel. En la región II el comportamiento es
de onda evanescente de rango 1/ρ2 . Cuando L . 1/ρ2 la partı́cula tiene una probabilidad considerable de cruzar la
barrera por efecto túnel. Este efecto tiene muchas aplicaciones en Fı́sica tales como el efecto Josephson, la inversión
de la molécula de amonio, el diodo túnel etc.
Es natural entonces comparar la longitud o rango de penetración 1/ρ 2 de la onda evanescente, con el ancho L de
la barrera. Si el ancho de la barrera es mucho mayor que el rango de la onda evanescente tenemos que L >> 1/ρ 2
de modo que ρ2 L >> 1, usando la Ec. (3.109) esta condición queda
r
2m (V0 − E) ex
ρ2 L = L >> 1 ; sinh x ' ; x >> 1
~2 2

con estas aproximaciones, la Ec. (3.111) queda


2
A3 4E (V0 − E) 4E (V0 − E) 16E (V0 − E) −2ρ2 L
T = '  ρ L 2 ' = e
A1 2
V0 4e 2ρ2 L
V02
4E (V0 − E) + V02 e 22
 
E E
T ' 16 1− e−2ρ2 L << 1 (3.112)
V0 V0

en tal caso la atenuación es muy fuerte y la probabilidad de transmisión muy baja.


Para tener una idea de los órdenes de magnitud del efecto, pensemos en un electrón con energı́a E = 1eV (electrón-
o
voltio) que cruzará una barrera de potencial V 0 = 2eV, de ancho L = 1A. Usando V0 = 2E = 2eV ası́ como los
o
valores de la masa del electrón y de la constante de Planck en la Ec. (3.109), vemos que el rango 1/ρ 2 ' 1,96A, es
decir del orden de magnitud de la ancho de la barrera, por lo cual se espera una probabilidad considerable de que
el electrón cruce la barrera, evaluando esta probabilidad con la Ec. (3.111) se obtiene T ' 0,78 un resultado muy
diferente al clásico ya que en este caso es de hecho más probable la transmisión que la reflexión.
Si reemplazamos al electrón por un protón solo hay que cambiar la masa asociada (unas 1840 veces la del
o
electrón), permaneciendo iguales los demás datos. En tal caso el rango es 1/ρ 2 ' 4,6 × 10−2 A de modo que la
barrera es mucho más ancha que el rango de la onda evanescente. Usando la Ec. (3.111) o la Ec. (3.112) tenemos
que T ' 4 × 10−19 . Esta tremenda diferencia con respecto al electrón se debe a la gran sensibilidad de la exponencial
decreciente en la Ec. (3.112) con la masa, o del seno hiperbólico en (3.111) con la masa. Esto también explica
porqué el efecto túnel no es observable en sistemas macroscópicos.
150 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES

3.8. Pozo de potencial


El pozo de potencial se describe con el perfil

 0 si x < x1 (región I)
V (x) = −V0 < 0 si x1 < x < x2 (región II)

0 si x2 < x (región III)

3.8.1. Partı́cula con energı́a −V0 < E < 0

Figura 3.4: Perfil de un pozo de potencial de profundidad V 0 , con discontinuidades en x = −a/2 y x = a/2.

Para esta situación, definiremos el pozo de potencial en la forma (ver Fig. 3.4)

 0 si x < − a2 (región I)
V (x) = −V0 < 0 si − a2 < x < a2 (región II)

0 si a2 < x (región III)

donde hemos elegido colocar el origen de tal modo que V (x) = V (−x).
Una partı́cula clásica en un pozo de potencial como éste, y con energı́a E negativa (pero mayor que −V 0 ) solo
puede oscilar entre −a/2 y a/2 con energı́a cinética E k = E +V0 . En el análogo óptico, para la situación −V 0 < E < 0
los ı́ndices de refracción n1 y n3 en las regiones I y III son imaginarios, en tanto que n 2 es real. Esto es equivalente
a una capa de aire de ancho “a” entre dos medios reflectivos. Las diferentes ondas que se reflejan sucesivamente en
x = −a/2 y x = a/2 se destruyen unas a otras excepto para ciertas frecuencias muy especı́ficas (modos normales)
3.8. POZO DE POTENCIAL 151

que permiten la formación de ondas estacionarias. Desde el punto de vista cuántico, esto significa que las energı́as
negativas de la partı́cula están cuantizadas. En contraste, para la partı́cula clásica todos los valores de energı́a entre
−V0 y cero son posibles. Vale la pena mencionar que los valores permitidos de la energı́a no están dados por la bien
conocida condición a = kλ2 /2, ya que existen ondas evanescentes que generan un corrimiento de fase en los puntos
de reflexión x = −a/2 y x = a/2.
En las regiones I, II y III las soluciones de la ecuación de Schrödinger independiente del tiempo son
r
ρx 0 −ρx 2mE
ϕI (x) = B1 e + B1 e ; ρ= − 2 >0 (3.113)
~
r
2m (E + V0 )
ϕII (x) = A2 eikx + A02 e−ikx ; k = >0 (3.114)
r ~2
2mE
ϕIII (x) = B3 eρx + B30 e−ρx ; ρ = − 2 > 0 (3.115)
~
asumiremos de nuevo la condición inicial de que la onda viaja inicialmente desde la región I. A fin de que estas
funciones sean acotadas en la región I (x → −∞) y en la región III (x → ∞) se requiere que

B10 = B3 = 0 (3.116)

con lo cual las ecuaciones se simplifican a

ϕI (x) = B1 eρx ; ϕII (x) = A2 eikx + A02 e−ikx ; ϕIII (x) = B30 e−ρx (3.117)

las condiciones de empalme resultan


 a  a  
dϕI − a2 dϕII − a2
ϕI − = ϕII − ; =
2 2 dx  dx 
a a dϕII a2 dϕIII a2
ϕII = ϕIII ; =
2 2 dx dx
estas condiciones aplicadas sobre las Ecs. (3.117) nos dan
a a a a
 a a

B1 e−ρ 2 = A2 e−ik 2 + A02 eik 2 ; ρB1 e−ρ 2 = ik A2 e−ik 2 − A02 eik 2
a a a a
 a a

B30 e−ρ 2 = A2 eik 2 + A02 e−ik 2 ; −ρB30 e−ρ 2 = ik A2 eik 2 − A02 e−ik 2 (3.118)

en este caso la amplitud incidente es B 1 (aunque de una onda evanescente) y por tanto los cocientes se normalizan
con esta cantidad. Las Ecs. (3.118) quedan
 
A2 (ρ−ik) a A02 (ρ+ik) a ik A2 (ρ−ik) a A02 (ρ+ik) a
1 = e 2 + e 2 ; 1= e 2 − e 2 (3.119)
B1 B1 ρ B1 B1
 
B30 A2 (ρ+ik) a A02 (ρ−ik) a B30 ik A02 (ρ−ik) a A2 (ρ+ik) a
= e 2 + e 2 ; = e 2 − e 2 (3.120)
B1 B1 B1 B1 ρ B1 B1

de la primera de las ecuaciones (3.119) tenemos

A02 (ρ+ik) a A2 (ρ−ik) a


− e 2 = e 2 − 1 (3.121)
B1 B1

y reemplazando esta cantidad en la segunda de las ecuaciones (3.119) se obtiene


 
ik A2 (ρ−ik) a A2 (ρ−ik) a ρ A2 a 1ρ  a A2
1 = e 2 + e 2 − 1 ⇒ = 2 e(ρ−ik) 2 − 1 ⇒ + 1 e(−ρ+ik) 2 =
ρ B1 B1 ik B1 2 ik B1
 
A2 ρ + ik a
= e(−ρ+ik) 2 (3.122)
B1 2ik
152 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES

reemplazando (3.122) en (3.121) tenemos


     
A02 (ρ+ik) a ρ + ik (−ρ+ik) a a A02 ρ + ik a
− e 2 = e 2 e(ρ−ik) 2 − 1 ⇒ =− − 1 e−(ρ+ik) 2
B1 2ik B1 2ik
0
 
A2 ρ − ik a
= − e−(ρ+ik) 2 (3.123)
B1 2ik

reemplazando (3.122, 3.123) en la primera Ec. (3.120) tenemos


         
B30 ρ + ik (−ρ+ik) a2 (ρ+ik) a2 ρ − ik −(ρ+ik) a2 (ρ−ik) a2 ρ + ik ika ρ − ik
= e e − e e = e − e−ika
B1 2ik 2ik 2ik 2ik
ρ  ika  1h i
= e − e−ika + eika + e−ika
2ik 2
B30 ρ
= sin ka + cos ka (3.124)
B1 k
igualando las Ecs. (3.120) y usando las expresiones (3.122, 3.123), obtenemos
 
A2 (ρ+ik) a A02 (ρ−ik) a ik A02 (ρ−ik) a A2 (ρ+ik) a
e 2 + e 2 = e 2 − e 2 ⇒
B1 B1 ρ B1 B1

          
ρ + ik (−ρ+ik) a2 (ρ+ik) a2 ρ − ik −(ρ+ik) a2 a ik ρ − ik −(ρ+ik) a2 a
e e + − e e(ρ−ik) 2 = − e e(ρ−ik) 2
2ik 2ik ρ 2ik
   
ρ + ik (−ρ+ik) a2 (ρ+ik) a2
− e e
2ik

   
ρ + ik ika ρ − ik −ik n o
e − e−ika = (ρ − ik) e−ika + (ρ + ik) eika
2ik 2ik 2ikρ
−ik n o
(ρ + ik) eika − (ρ − ik) e−ika = (ρ − ik) e−ika + (ρ + ik) eika
ρ

   
ρ + ik ρ − ik −ik n o
eika − e−ika = (ρ − ik) e−ika + (ρ + ik) eika
2ik 2ik 2ikρ
−ik n o
(ρ + ik) eika − (ρ − ik) e−ika = (ρ − ik) e−ika + (ρ + ik) eika
ρ
dividiendo ambos miembros por ρ + ik resulta
     
(ρ − ik) −ika −ik (ρ − ik) −ika ik (ρ − ik) −ika ik
eika − e = e + eika ⇒ eika 1 + = e 1−
(ρ + ik) ρ (ρ + ik) ρ (ρ + ik) ρ
   
2ika ρ + ik (ρ − ik) ρ − ik
e =
ρ (ρ + ik) ρ
(ρ − ik)2
e2ika = (3.125)
(ρ + ik)2

vale la pena discutir la estrategia de solución antes de seguir adelante. A priori podrı́a pensarse que las Ecs. (3.118)
nos pueden dar solución para todas las amplitudes B 1 , A2 , A02 y B3 , puesto que tenemos cuatro ecuaciones. Sin
embargo, no es lógico fı́sicamente que la amplitud de entrada B 1 pueda ser determinada por las condiciones de
empalme ya que esta amplitud tiene relación con las condiciones iniciales, las cuales puedo acomodar en principio
arbitrariamente. Por esta razón la estrategia de solución se interpreta diciendo que las cuatro ecuaciones (3.118) nos
brindan soluciones para los tres cocientes A 2 /B1 , A02 /B1 , B30 /B1 mas una ligadura entre las cantidades ρ y k dada
por la Ec. (3.125).
3.8. POZO DE POTENCIAL 153

Por otro lado, las Ecs. (3.113, 3.114) nos muestran que ρ y k están relacionadas con la energı́a E de la partı́cula.
Esto implica que la ligadura (3.125) solo se satisface para ciertos valores de la energı́a. Por tanto, al imponer el
acotamiento de ϕ (x) hemos llegado a una cuantización de la energı́a. Esto se puede ver teniendo en cuenta que
la ligadura (3.125) provino del hecho de que el sistema de cuatro ecuaciones (3.119, 3.120) está sobredeterminado
para el conjunto de tres cocientes A 2 /B1 , A02 /B1 , B30 /B1 ; pero esto a su vez ocurre debido a la eliminación de las
amplitudes Ec. (3.116) que se realizó para mantener acotada la solución.
En resumen, para un pozo de potencial como el de la Fig. 3.4 de profundidad V 0 y de ancho a, la función de
onda (acotada) en las tres regiones en que el potencial divide al espacio vienen dadas por

ϕI (x) = B1 eρx ; ϕII (x) = A2 eikx + A02 e−ikx ; ϕIII (x) = B30 e−ρx (3.126)
r r
2mE 2m (E + V0 )
ρ = − 2 >0 ; k= >0 (3.127)
 ~  ~2  
A2 ρ + ik (−ρ+ik) a2 A02 ρ − ik a B30 ρ
= e ; =− e−(ρ+ik) 2 ; = sin ka + cos ka (3.128)
B1 2ik B1 2ik B1 k
(ρ − ik)2
e2ika = (3.129)
(ρ + ik)2
donde hemos supuesto que la partı́cula incide desde la región I.

Caso 1 para energı́a negativa


La ligadura (3.129) nos conduce a dos situaciones posibles
I)
ρ − ik
= −eika (3.130)
ρ + ik
reescribimos esta relación en la forma
(ρ/k) − i ρ ρ  ρh i h i
= −eika ⇒ −i=− + i eika ⇒ 1 + eika = i 1 − eika
(ρ/k) + i k k k
 (e −1) e−ika/2
ika  
ρ eika − 1 i 2 eika/2 − e−ika/2 /2i sin ka
2
= = = −ika/2  = 
k i (1 + eika ) −ika/2
(1 + eika ) e 2 e + eika/2 /2 cos ka
2

quedando finalmente  
ρ ka
= tan (3.131)
k 2
definimos la magnitud del complejo ρ + ik en la forma
r
p 2mV0
k0 ≡ k 2 + ρ 2 = (3.132)
~2
donde hemos tenido en cuenta las Ecs. (3.127). Usando identidades trigonométricas y las Ecs. (3.131, 3.132), tenemos
que

1 ka ρ2 k 2 + ρ2
ka
 = 1 + tan2 =1+ 2 =
cos2 2
2 k k2
 2
1 k0
ka
 = (3.133)
cos2 2
k

de modo que la Ec. (3.130) es equivalente a las Ecs. (3.131, 3.133) que se pueden sintentizar en las ecuaciones
   

cos ka = k ; tan
ka
>0 (3.134)
2 k0 2

Donde hemos tenido en cuenta que la Ec. (3.133) proviene de la Ec. (3.131), pero sustituyendo una tangente al
154 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES

Figura 3.5: Solución gráfica de las Ecs. (3.134, 3.138). La intersección de la lı́nea recta con las lı́neas punteadas
cosenoidales nos dan los puntos denotados por P , correspondientes a soluciones de las Ecs. (3.134) y asociados a
funciones de onda pares. La intersección de la recta con las lı́neas punteadas del arco senoidal nos dan los puntos
denotados por I, correspondientes a soluciones de las Ecs. (3.138) y asociados a funciones de onda impares.

cuadrado con lo cual se pierde la información del signo de esta tangente al llegar a la Ec.
(3.133).

La primera de las Ecs. (3.134) se puede solucionar graficando la parte izquierda y = cos ka 2
y la parte derecha
y = k/k0 y encontrando la intersección entre las dos gráficas. Es decir graficamos los arcos cosenoidales (arcos del
coseno con nodos en (2q + 1) π/a de la Fig. 3.5 con q entero no negativo) y la lı́nea recta de pendiente 1/k 0 para
obtener tal intersección. Ahora bien, las franjas ascendentes del coseno (lı́neas contı́nuas del arco cosenoidal en la
Fig. 3.5) violan la condición dada por la segunda ecuación (3.134), en tanto que las franjas descendentes (lı́neas
punteadas del arco cosenoidal en la Fig. 3.5) satisfacen tal condición 11 . Los puntos de intersección de la recta con
las lı́neas punteadas del coseno se denotan en la Fig. 3.5 con la letra P , y sus componentes x nos dan los valores k n
que cuantizan al número de onda y por tanto a la energı́a, la cual viene dada por la ecuación (3.127)
r
2m (En + V0 )
kn = (3.135)
~2
Por otro lado, dividiendo las dos primeras Ecs. (3.128) se obtiene
  a
ρ−ik
0
A2 − 2ik e−(ρ+ik) 2 (ρ − ik) e−ik 2
a
(ρ − ik) −ika
=   =− ik a2
=− e
A2 ρ+ik (−ρ+ik) a2 (ρ + ik) e (ρ + ik)
2ik e

y utilizando la Ec. (3.130) resulta


A02
=1
A2
si reemplazamos la Ec. (3.131) (la cual es equivalente a la Ec. 3.130) en la tercera de las Ecs. (3.128) y definiendo
x ≡ ka/2 obtenemos
 
B30 ρ ka
= sin ka + cos ka = tan sin ka + cos ka = tan x sin 2x + cos 2x
B1 k 2
 sin x
= tan x (2 sin x cos x) + 1 − 2 sin2 x = 2 sin x cos x + 1 − 2 sin2 x
cos x
B30
= 1
B1
11
Por ejemplo en la franja 0 ≤ k ≤ π/a es claro que tan (ka/2) > 0, en tanto que en la franja π/a < k < 2π/a se tiene que
tan (ka/2) ≤ 0, y ası́ sucesivamente.
3.8. POZO DE POTENCIAL 155

En conclusión la Ec. (3.130) que define el caso 1 de nuestro análisis, conduce a las relaciones

A02 = A2 ; B30 = B1 (3.136)

y al reemplazar estas relaciones en la Ecs. (3.126) esto nos da

ϕI (x) = B1 eρx ; ϕII (x) = 2A2 cos kx ; ϕIII (x) = B1 e−ρx (3.137)

para −a/2 ≤ x ≤ a/2 (región II), es claro que −x también pertenece a la región II. Si x pertenece a la región I (x ≤
−a/2) entonces −x pertenece a la región III (−x ≥ a/2). Similarmente, si x está en la región III entonces −x está en
la región I. Vemos además que la Ec. (3.137) nos dice que

ϕI (x) = B1 eρx = ϕIII (−x) ; ϕII (x) = ϕII (−x)

lo cual nos lleva a la conclusión de que en el caso 1 caracterizado por la Ec. (3.130), la función de onda es par en
todas las regiones i.e.
ϕ (−x) = ϕ (x) ; x ∈ (−∞, ∞)

Caso 2 para energı́a negativa


La Ec. (3.129), tiene dos soluciones, la primera corresponde a la Ec. (3.130) y la segunda vendrá dada por
ρ − ik
= eika
ρ + ik
un cálculo análogo nos lleva a que los números de onda permitidos están dados por
   

sin ka = k ; tan ka < 0 (3.138)
2 k0 2

la Fig. 3.5 muestra la intersección entre la recta de pendiente 1/k 0 y los arcos senoidales (arcos del seno con nodos
en k = 2qπ/a siendo q entero no negativo). La intersección entre la recta y la parte punteada (descendente) de los
arcos senoidales, nos da los puntos denotados por I en la Fig. 3.5, cuya abcisa nos da el valor cuantizado de k n , con
el cual se encuentra la energı́a cuantizada usando la Ec. (3.135). Nótese que los niveles encontrados se encuentran
entre los niveles hallados para el primer caso. Puede similarmente demostrarse que la función de onda asociada es
impar.

Relación entre k0 y los estados acotados


Obsérvese que si
π
0 ≤ k0 ≤
a
La Fig. 3.5 nos muestra que solo existe un estado acotado para la partı́cula y dicho estado se asocia con una función
de onda par. En otras palabras, la recta tiene una pendiente muy alta de modo que cruza la recta horizontal (máximo
de los sinusoides) antes de llegar al primer nodo de la función cosenoidal (de modo que solo cruza una vez la lı́nea
punteada del coseno) y antes de llegar al primer máximo de la función senoidal (de modo que no cruza la lı́nea
punteada del seno). Un análisis similar nos muestra que cuando tenemos
π 2π
≤ k0 ≤
a a
aparecen solo dos estados uno par y otro impar. Generalizando, si se cumple la condición
2pπ (2p + 1) π 1 3 5
≤ k0 ≤ ; p = 0, , 1, , 2, , . . . (3.139)
a a 2 2 2
 
aparecen [p + 1] estados pares y p + 12 estados impares, siendo [p] la función parte entera de p que se define como

[p] ≡ k tal que : k es entero con k ≤ p < k + 1


156 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES

Para el ejemplo de la figura 3.5 tenemos que 4π/a < k 0 < 5π/a, de modo que p = 2. El número de estados pares es
[2 + 1] = 3, el número de estados impares es 2 + 12 = 2.
Es útil escribir la condición (3.139), en términos de parámetros más fı́sicos. De la definición (3.132) podemos
escribir la condición (3.139) en la forma
r  2  2
2pπ 2mV0 (2p + 1) π 2pπ 2mV0 (2p + 1) π
≤ ≤ ⇒ ≤ ≤
a ~2 a a ~2 a
π ~2
2 π 2 ~2
(2p)2 ≤ V0 ≤ (2p + 1)2
2ma2 2ma2
π 2 ~2 1 3 5
(2p)2 V1 ≤ V0 ≤ (2p + 1)2 V1 ; V1 ≡ ; p = 0, , 1, , 2, , . . . (3.140)
2ma2 2 2 2
La Ec. (3.140), nos sugiere definir a V 1 como un potencial umbral. Por ejemplo si p = 0 tenemos que 0 ≤ V 0 ≤ V1
conduce a un estado par y ningún estado impar. Si p = 1/2, la condición queda V 1 ≤ V0 ≤ 4V1 que conduce a una
función par y otra impar y ası́ sucesivamente.
Si V0 >> V1 (de modo que p >> 1) entonces la pendiente de la recta 1/k 0 es muy pequeña y los primeros números
de onda prácticamente coinciden con los nodos de los arcos senoidal y cosenoidal. Es decir, para los números de
onda más bajos tenemos que

k' ; para n entero y n << p
a
y aplicando la Ec. (3.135), la energı́a queda

n2 π 2 ~2
E' − V0 ; para n entero y n << p (3.141)
2ma2

Pozo de potencial con profundidad infinita


Asumiremos que V (x) es cero fuera del intervalo 0 < x < a, e infinito negativo −V 0 → −∞ en dicho intervalo.
Supondremos sin embargo que E + V0 ≡ ∆E > 0 en 0 < x < a y que ∆E es finito, a fin de que la partı́cula posea
energı́a cinética finita. La discusión es totalmente análoga a la realizada en la sección 3.6.2, Pág. 143 para escalón de
potencial infinito. Según esta discusión, al penetrar en la barrera la onda es evanescente con longitud de penetración
que tiende a cero, en el lı́mite podemos entonces considerar que la función decae a cero inmediatamente, es decir
la función de onda se anula en las discontinuidades de salto infinito. Esto es consistente con las ecuaciones que se
obtienen en este lı́mite para el empalme, como se aprecia en las Ecs. (3.81, 3.82). Adicionalmente, la Ec. (3.82)
también nos muestra que la función de onda debe seguir siendo continua en los empalmes, con lo cual la función de
onda en nuestro caso debe ser nula fuera del intervalo [0, a]. No obstante, vimos que en general la primera derivada
ya no es contı́nua, debido a que tenemos un potencial no acotado.
Como E + V0 ≡ ∆E es positivo y finito, la solución de la ecuación de onda está dada por
r
ikx 0 −ikx 2m ∆E
ϕ (x) = Ae + A e para 0 ≤ x ≤ a; k ≡ (3.142)
~2
poniendo la condición de nulidad de la función de onda en el extremo x = 0 tenemos que

ϕ (0) = 0 = A + A0 ⇒ A = −A0 ⇒
 
ϕ (x) = A eikx − e−ikx = 2iA sin kx (3.143)

usando nulidad de la función de onda (3.143) en el extremo x = a tenemos

ϕ (a) = 2iA sin ka = 0

con lo cual ka = nπ o equivalentemente



kn = ; n entero positivo (3.144)
a
3.8. POZO DE POTENCIAL 157

n es positivo ya que se asume k positivo en la Ec. (3.142) 12 . La función queda



ϕ (x) = 2iA sin x
a
la constante 2iA la elegimos como positiva (fase cero) de modo que normalice a la función de onda. Con esto se
tiene finalmente r
2  nπx 
ϕn (x) = sin
a a
con energı́as
n2 π 2 ~2
∆En = (3.145)
2ma2
en este caso la cuantización de la energı́a es mucho más simple de demostrar. Nótese que la Ec. (3.144), nos dice
que la condición para el estado estacionario es tal que el ancho a del potencial debe contener un número entero de
semilongitudes de onda π/k. Este es el análogo a la formación de ondas estacionarias con extremo fijo en óptica.
Vemos que la condición de extremo fijo (nulidad de la función de onda en los extremos) solo se da para pozos
infinitamente profundos. Si el pozo tiene profundidad finita, el extremo no es totalmente fijo, lo cual se traduce en
la penetración de una onda evanescente (pero no nula) en las regiones fuera del pozo.
Si bien no hay pozos infinitos, en la práctica pozos muy profundos poseen el comportamiento aquı́ descrito.
Pero ¿que es un pozo muy profundo?. La respuesta está en el potencial umbral V 1 definido en la Ec. (3.140).
Efectivamente, vimos que cuando V0 >> V1 los estados más bajos se comportan como los de un pozo infinito como
se vé al comparar las Ecs. (3.141, 3.145). Debe tenerse en cuenta sin embargo, que aún cuando V 0 sea mucho mayor
que V1 siempre habrá estados excitados que se desvı́en significativamente del comportamiento aquı́ descrito, vale
decir cuando la aproximación n << p ya no sea válida, como se vé en la Ec. (3.141).

3.8.2. Partı́cula con energı́a E > 0


En esta situación, definiremos el origen de modo que

 0 si x < 0 (región I)
V (x) = −V0 < 0 si 0 < x < L (región II)

0 si L < x (región III)

con el fin de poder comparar con los resultados de la sección 3.7.1. Cuando la partı́cula clásica tiene energı́a positiva
y viene desde −∞, viaja con energı́a cinética constante E k = E hasta x = 0, donde experimenta un aumento
abrupto en su energı́a cinética a E k = E + V0 , y luego una desaceleración similar en x = L, continuando hacia la
derecha con energı́a cinética constante E k = E.
Para E > 0, en el análogo óptico todos los ı́ndices de refracción son reales
c 1√ c 1p
n1 = n 3 = 2mE ; n2 = 2m (E + V0 )
Ω~ Ω~
y los resultados se pueden extraer de la Sec. 3.7.1, con la asignación V 0 → −V0 . Puesto que n2 es mayor que n1
y n3 la situación óptica es análoga a tener una capa de vidrio en medio del aire 13 . Para obtener la onda reflejada
para x < 0, o la onda transmitida para x > L, es necesario superponer un número infinito de ondas que surgen
de la reflexión sucesiva entre x = 0 y x = L (interferómetro múltiple análogo a un Fabry-Pérot). Se encuentra que
para ciertas frecuencias incidentes la onda es completamente transmitida (asumiendo que L, V 0 y m son fijos). En el
caso cuántico, la partı́cula tiene cierta probabilidad de ser reflejada, pero existen ciertos valores llamados energı́as
resonantes para los cuales la probabilidad de transmisión es 1 y por tanto la probabilidad de reflexión es cero.

12
Si tomáramos la raı́z negativa en la Ec. (3.142) tendrı́amos la misma solución de la función de onda.
13
En la Sec. 3.7.1, la situación óptica era la de una capa de aire rodeada de vidrio.
Capı́tulo 4

Enunciado matemático de los postulados de


la mecánica cuántica

4.1. Los fenómenos clásicos


En mecánica clásica, un sistema discreto de partı́culas se describe a través de un conjunto de coordenadas
generalizadas qi (t) y de velocidades generalizadas q̇ i (t), y podemos utilizar por ejemplo el Lagragiano L = L (q i , q̇i , t)
como el generador de las ecuaciones de movimiento del conjunto {q i (t) , q̇i (t)}. Las qi0 s deben ser independientes en
el sentido de que debe ser posible mover una sola de estas coordenadas sin violar las ligaduras impuestas sobre el
sistema. De esta forma, para un péndulo simple con el origen ubicado en el pivote, la única coordenada generalizada
es θ puesto que la distancia r de la lenteja es fija, de modo que no es posible mover el valor de r sin violar la ligadura
de distancia constante al origen. Por esta razón el número de coordenadas generalizadas n del sistema no es en
general igual a 3N , siendo N el número de partı́culas. No obstante, las ligaduras son usualmente manifestaciones
macroscópicas de fuerzas microscópicas, por ejemplo la tensión de la cuerda del péndulo es el resultado de las
fuerzas que generan los enlaces moleculares de la cuerda. Por esta razón, en el mundo microscópico el concepto de
ligadura básicamente desaparece y los sistemas de partı́culas se tratan en general como sistemas no ligados por las
interacciones. Por tanto, el número de grados de libertad de posición será usualmente n = 3N .
A menudo resulta más ventajoso utilizar en lugar del conjunto {q i , q̇i } un nuevo conjunto {qi , pi } donde las
variables pi están dadas por
∂L (q, q̇, t)
pi ≡
∂ q̇i
y pi se denomina el momento canónicamente conjugado a la variable q i . Si definimos la transformada de Legendre
del Lagrangiano en la forma X
H≡ pi q̇i − L (qi , q̇i , t)
i

a esta cantidad cuando se escribe enteramente en términos del conjunto {q i , pi }, la llamamos el Hamiltoniano del
sistema y actúa como generador de ecuaciones de movimiento para el sistema {q i , pi }, a través de las llamadas
ecuaciones de Hamilton
∂H ∂H
q̇i = ; ṗi = −
∂pi ∂qi
La resolución de estas ecuaciones nos genera el comportamiento de q i y pi como función del tiempo y por tanto
toda la información fı́sica del sistema. El Hamiltoniano es una función que puede variar tanto funcional como
numéricamente cuando se hace un cambio en el sistema coordenado. El uso directo de las ecuaciones de Hamilton
permite demostrar que
dH ∂H
=
dt ∂t
En consecuencia, si para un sistema coordenado dado el Hamiltoniano no es función explı́cita del tiempo, esta
cantidad será una constante de movimiento y si una cierta coordenada generalizada q i no aparece en el Hamiltoniano,
pero sı́ aparece su momento conjugado p i , se tiene que este momento conjugado será una constante de movimiento.
Adicionalmente, para muchos casos de interés el Hamiltoniano corresponde a la energı́a total del sistema, para que el
4.1. LOS FENÓMENOS CLÁSICOS 159

Hamiltoniano sea la energı́a del sistema se deben cumplir los siguientes requisitos (como condiciones de suficiencia):
(a) El lagrangiano asociado debe poder descomponerse en la forma

L (q, q̇, t) = L0 (q, t) + L1 (q, q̇, t) + L2 (q, q̇, t)

siendo Li con i = 0, 1, 2 una función homogénea de grados 0, 1 y 2 en las variables q̇ i . (b) La transformación que
lleva de las coordenadas cartesianas a las coordenadas generalizadas

ri = ri (q1 , ..., qn )

no debe depender explı́citamente del tiempo, y (c) el potencial asociado solo debe ser función de las coordenadas y
el tiempo. Para los sistemas microscópicos estas condiciones se cumplen en casi todos los casos de interés. Vale decir
que la condición (c) es violada por los potenciales asociados a las interacciones electromagnéticas para las cuales el
potencial depende también de las q̇ i . No obstante, se puede demostrar que aún con la violación de esta condición,
el Hamiltoniano sigue siendo la energı́a del sistema para el caso especial de interacciones electromagnéticas. Nótese
que esto tiene que ver con el hecho de que estas son condiciones de suficiencia pero no de necesidad.
En virtud de la discusión anterior, asumiremos para nuestros propósitos que el Hamiltoniano corresponde numéri-
camente a la energı́a total del sistema. De particular importancia será el Hamiltoniano asociado a una partı́cula no
relativista, no ligada y sometida a un potencial que no depende de las velocidades generalizadas. En este caso el
Hamiltoniano corresponde a la energı́a total de la partı́cula y se podrá escribir en la forma

p2
H= + V (r, t)
2m
si usamos como coordenadas generalizadas las coordenadas cartesianas de la partı́cula, se tendrá que el momento
lineal pi será el momento canónicamente conjugado a la variable x i con i = 1, 2, 3. Si aplicamos las ecuaciones de
Hamilton a este Hamiltoniano, las ecuaciones de movimiento quedan

pi ∂V
ẋi = ; ṗi = −
m ∂xi
que coinciden con las leyes Newtonianas básicas.
Por otro lado, existen en la mecánica clásica los fenómenos ondulatorios, estos aparecen de manera natural
como excitaciones o perturbaciones colectivas de un sistema de partı́culas, como es el caso de las cuerdas vibrantes
o las olas en el agua, estos fenómenos colectivos se pueden entender a la luz de las leyes de Newton pero no
se presentan fenómenos ondulatorios clásicos para una sola partı́cula. Más bien se trata de una perturbación
que se transmite de una partı́cula a otra generando propiedades de propagación. Por otro lado, existen fenómenos
ondulatorios (electromagnéticos) que no están asociados clásicamente a partı́culas y que no están regidos por las
leyes de Newton sino por las denominadas ecuaciones de Maxwell. Podemos entonces por un lado hablar de materia
(regida por la mecánica Newtoniana) que genera los fenómenos corpusculares y las ondas mecánicas, y la radiación
(regida por las ecuaciones de Maxwell, que genera fenómenos ondulatorios que clásicamente no están asociados a
la materia). De otra parte, podemos hablar de fenómenos corpusculares generados por las partı́culas individuales y
fenómenos ondulatorios generados por los campos electromagnéticos o por perturbaciones colectivas en la materia.
En todo caso, salvo por la ley de Lorentz que nos da la interacción de la radiación con la materia, estos dos tipos de
entes fı́sicos radiación y materia son completamente distintos en mecánica clásica y se rigen por leyes muy distintas.
Por otro lado, una partı́cula individual no puede generar fenómenos ondulatorios de modo que el comportamiento
corpuscular está bien diferenciado del comportamiento ondulatorio.
De la anterior discusión podemos inferir las principales caracterı́sticas de los sistemas clásicos
(1) El estado de un sistema en un tiempo t queda totalmente especificado por el valor de sus coordenadas y
momentos conjugados en tal tiempo. Esto equivale a conocer sus posiciones, masas y velocidades en dicho instante.
(2) Al especificar el estado del sistema en cierto tiempo, cualquier cantidad fı́sica tiene un valor único que se
reflejará en el proceso de medida (con ciertas incertidumbres de ı́ndole experimental).
(3) Las ecuaciones de Hamilton son un posible conjunto de ecuaciones de movimiento. De ellas se observa que
dados los valores de qi (t0 ) , pi (t0 ) para un tiempo inicial t0 , la evolución de qi , pi es única de modo que los valores
qi (t) , pi (t), están completamtne determinados para todo tiempo. En consecuencia el estado del sistema se conoce
160 CAPÍTULO 4. ENUNCIADO MATEMÁTICO DE LOS POSTULADOS DE LA MECÁNICA CUÁNTICA

completamente para cualquier tiempo t ≥ t 0 si lo conocemos para t0 . Esto a su vez implica que cualquier cantidad
fı́sica evoluciona de manera única y su valor al ser medido será único en cualquier instante.
(4) En principio todos valores reales de q i , pi son posibles de obtener en un sistema mecánico (al menos dentro de
ciertos intervalos). Por tanto un observable F (q i , pi ) también posee valores en un espectro contı́nuo al menos dentro
de cierto intervalo. Además en el proceso de medición estos serán también los valores accesibles de las cantidades
fı́sicas.
(5) Las ecuaciones de Maxwell nos dan cuenta de la radiación a través de grados de libertad contı́nuos caracter-
izados por los campos eléctricos y magnéticos. La evolución de estas ecuaciones es única para condiciones iniciales
y de frontera adecuadas, junto con el conocimiento de la distribución de cargas y corrientes.

4.2. Los fenómenos cuánticos


La exposición sistemática de los sistemas microscópicos descritos anteriormente nos ha llevado a encontrar
fenómenos que difieren radicalmente de los fenómenos clásicos, veamos los más importantes
(1) Existen ciertas cantidades fı́sicas tales como la energı́a, el momento angular etc. que bajo ciertas condiciones
solo nos arrojan medidas discretas. Este fenómeno de cuantización de las medidas accesibles aparece en escenarios
tan diversos como la radiación del cuerpo negro, el efecto fotoeléctrico y la medición de los espectros atómicos.
(2) Tanto la materia como la radiación presentan fenómenos de dualidad onda partı́cula. Pueden dispersarse
como partı́culas pero también interferir y difractarse como las ondas.
(3) La repetición sistemática de ciertos experimentos bajo las mismas condiciones iniciales, nos lleva a que la
medida de los observables no es reproducible. Sin embargo, cuando muchos experimentos idénticos son realizados,
aparece un patrón reproducible relativo a la distribución con que se obtienen las diferentes medidas. Estos nos lleva
a la idea de que existe un patrón de probabilidad para obtener cada uno de los resultados accesibles (que en general
pueden o no estar cuantizados).
(4) La distribución de probabilidad está asociada con el carácter ondulatorio de los sistemas.
(5) En un proceso de medida se evidencia solo uno de los aspectos (ondulatorio o corpuscular) de la naturaleza
cuántica, como una moneda que posee dos caras pero solo nos muestra una a la vez (principio de complementareidad).
(6) La cuantización de los observables nos conduce a pensar que los estados asociados a estos observables también
están cuantizados (autoestados del sistema). El principio de superposición que poseen las ondas sugiere pensar que el
estado del sistema en un tiempo t es la superposición de todos los autoestados, en donde cada autoestado contribuye
con cierto peso.
(7) El proceso de medida nos cambia el estado del sistema de manera drástica: justo antes de la medida el estado
del sistema es la superposición de todos los autoestados, justo después de la medida el sistema queda preparado en
una superposición que solo incluye a los autoestados asociados con el autovalor obtenido.
(8) Lo anterior nos induce a pensar que existe una perturbación fundamental que no puede ser minimizada, y
que es inherente al proceso de medición e independiente de la resolución del aparato de medida.
(9) La probabilidad de obtener un autovalor está relacionada con los coeficientes asociados a sus autoestados.
Lo anterior es confirmado por la repetición sucesiva de los experimentos. Nótese que esto además implica que la
forma en que actuará la perturbación fundamental no se puede predecir con certeza.
(10) Como corolario se obtiene que si vuelvo a hacer una medida del mismo observable justo después de la primera
medición, el autovalor se reproduce con total certeza. Lo anterior es confirmado por los hechos experimentales.
(11) La distribución de probabilidad para la materia evoluciona de manera determinista, siendo la ecuación de
Schrödinger un buen prospecto como generador de esta evolución, al menos en el régimen no relativista.
(12) La función de onda (solución de la ecuación de Schrödinger) que describe la distribución de probabilidad
debe ser de cuadrado integrable para poder mantener la conservación de la probabilidad.
(13) Para una partı́cula el estado clásico en un tiempo t se caracteriza por seis cantidades (3 posiciones y tres
momentos) en tanto que para una partı́cula cuántica está caracterizada por un número infinito de cantidades: los
valores de ψ (r, t) para cada posición r.
En sı́ntesis, los postulados deben dar cuenta de las caracterı́sticas arriba citadas.
4.3. ESTABLECIMIENTO DE LOS POSTULADOS 161

4.3. Establecimiento de los postulados


4.3.1. Descripción de los estados y las cantidades fı́sicas
Hemos visto que el estado de una partı́cula se caracteriza por la función de onda ψ (r, t) que es una función de
cuadrado integrable. Adicionalmente, vimos que a cada función de onda en el espacio z le corresponde un ket |ψi en
el espacio de estados Er . Donde la relación entre ambos viene dada por |ψ (t)i → hr |ψ (t)i = ψ (r, t). Esta relación
nos muestra a la función de onda como una representación del ket |ψ (t)i en la base {|ri}. Además, la representación
por kets posee la flexibilidad de ser expresada en cualquier base. Generalizaremos este enunciado de una partı́cula
al caso de un sistema fı́sico arbitrario
Primer postulado: El estado de un sistema fı́sico en un tiempo t 0 está especificado por un ket |ψ (t0 )i ∈ E.
Siendo E un subespacio de un espacio de Hilbert H, donde H es isomorfo e isométrico al espacio L 2 de las funciones
cuadráticamente integrables.
Al ser E un espacio vectorial, una combinación lineal de estados es también un estado, lo cual implica un principio
de superposición. Más adelante veremos las implicaciones fı́sicas de este principio de superposición.
De otra parte, observamos que la ecuación de Schrödinger independiente del tiempo nos lleva a una ecuación de
valores propios
H |ψi = E |ψi

donde el operador H está definido por


P2
H= + V (r)
2m
siendo P el operador cuyos valores propios corresponden al momento de la partı́cula. Este operador H tiene como
valores propios los valores accesibles de energı́a del sistema. En forma similar vimos que al menos para partı́cula
libre los operadores R y P tiene como valores propios los valores accesibles (contı́nuos) de posición y momento. Vale
además decir que H, R y P son todos observables. La generalización de estos hechos nos lleva al segundo y tercer
postulado
Segundo postulado: Toda cantidad fı́sica medible A, está descrita por un operador A que actúa sobre el espacio
vectorial E. Dicho operador es un observable, i.e. un operador hermı́tico cuyo espectro de autoestados es completo.
Más adelante veremos que la caracterı́stica de observable es esencial. Nótese que en la mecánica cuántica los
estados están representados por vectores y las cantidades Fı́sicas por operadores.
Tercer postulado: El único resultado posible en una medición de una cantidad fı́sica A es uno de los autovalores
del correspondiente observable A.
Por supuesto, toda medida experimental debe ser un número real. El carácter hermı́tico de A nos garantiza
que una medida de A nos dará un valor real, ya que todo valor propio de A es real. Adicionalmente, dado que el
problema de valores propios conduce en muchas circunstancias a valores propios discretos, es de esperarse que este
postulado nos de cuenta de la naturaleza cuántica de algunas cantidades fı́sicas.

4.3.2. El proceso de medición y la distribución de probabilidad


Cuando analizamos el experimento de fotones polarizados (sección 2.7.2), nos topamos con el principio de
descomposición espectral, al cual le daremos un carácter más general en la presente sección. Consideremos que un
sistema está caracterizado en el tiempo t, por el ket |ψ (t)i (de acuerdo con el primer postulado) el cual asumiremos
como normalizado a 1
hψ |ψi = 1

sabemos que si queremos medir una cantidad fı́sica A asociada a un observable A no podemos hacer una predicción
del resultado con toda certeza sino solo una predicción de la probabilidad de obtener un valor dado accesible, es
decir un autovalor dado de A.
Asumamos por ahora que el espectro de A es totalmente discreto y no degenerado, en tal caso a cada valor
propio an le corresponde un único vector propio normalizado |u n i (excepto por una fase constante). La ecuación de
valores propios de A es
A |un i = an |un i
162 CAPÍTULO 4. ENUNCIADO MATEMÁTICO DE LOS POSTULADOS DE LA MECÁNICA CUÁNTICA

y dado que A es un observable, los vectores propios {|u n i} forman una base ortonormal en E. El vector de estado
|ψi se puede entonces expandir en esta base X
|ψi = cn |un i
n

y postularemos siguiendo el principio de descomposición espectral (sección 2.7.2 Ecs. 2.5, 2.6, 2.7), que la probabil-
idad de obtener el valor propio ak está dada por

P (ak ) = |ck |2 = |huk |ψi|2

¿Que ocurre si el autovalor es degenerado?, en este caso varios vectores ortonormales corresponden a este valor
propio
A uin = an uin ; i = 1, ..., gn

dado que A es observable, el conjunto uin forma una base de modo que podemos expandir el estado |ψi en dicha
base
XX gn

|ψi = cin uin (4.1)
n i=1

en este caso la probabilidad P (ak ) debe involucrar a todos los coeficientes asociados a los estados propios con valor
propio ak
gk
X gk
i 2 X i
P (ak ) =
ck = hu |ψi 2
k
i=1 i=1
con lo cual estableceremos el cuarto postulado para espectros discretos
Cuarto postulado (caso de espectro discreto): Cuando se mide una cantidad fı́sica A sobre un sistema que
está en el estado normalizado |ψi, la probabilidad P (a k ) de obtener el autovalor ak correspondiente al observable
A es
gk
X i
P (ak ) = hu |ψi 2 (4.2)
k
i=1

siendo gk el grado de degeneración de ak y uik i = 1, ..., gk un conjunto ortonormal de vectores que forman una
base en el autosubespacio Ek generado por el valor propio ak del observable A.
Naturalmente, cuando ak no es degenerado, entonces gk = 1 y la suma solo contiene un término, siendo el
autoespacio Ek de una dimensión.
Nótese que para
 que este postulado tenga sentido, es necesario que el cálculo de la probabilidad no dependa de
i
la base especı́fica uk que se use. Esto se puede ver fácilmente considerando la descomposición de E como suma
directa de los autoespacios Ek
E = E 1 ⊕ E2 ⊕ . . . ⊕ E k ⊕ . . . (4.3)
nótese que para poder hacer esta descomposición, es necesario que el operador sea un observable (extensión del
teorema espectral a dimensión infinita). Si retomamos la Ec. (4.1) y la reescribimos adecuadamente resulta
g1
X g2 gk
i X X
|ψi = ci1 u + i i
c2 u2 + . . . + cik uik + . . .
1
i=1 i=1 i=1
y es claro que
gm
X
|ψm i ≡ cim uim ∈ Em (4.4)
i=1
de modo que
|ψi = |ψ1 i + |ψ2 i + . . . + |ψk i + . . . ; |ψm i ∈ Em (4.5)
Por otro lado, en virtud de la descomposición (4.3), existe una única expansión de |ψi en vectores de cada autoespacio.
En otras palabras, cada |ψm i en la expansión es único. En términos de proyectores tenemos que

|ψi = (P1 + P2 + . . . + Pk + . . .) |ψi = P1 |ψi + P2 |ψi + . . . + Pk |ψi + . . .


Pm |ψi = |ψm i ∈ Em
4.3. ESTABLECIMIENTO DE LOS POSTULADOS 163

en notación de Dirac el proyector Pm se escribe


gm
X i
i
Pm = u um
m
i=1

como se puede verificar al operar sobre |ψi


gm
X gm
X
i
i
Pm |ψi = um um ψi = cim uim = |ψm i ∈ Em
i=1 i=1

la probabilidad es
gk
X gk gk
i 2 X i X
P (ak ) = ck = huk |ψi 2 = hψ uik huik |ψi
i=1 i=1 i=1
P (ak ) = hψ| Pk |ψi (4.6)

y usando la idempotencia y hermiticidad de P k se tiene que


 
P (ak ) = hψ| Pk Pk |ψi = hψ| Pk† (Pk |ψi)
P (ak ) = hψk | ψk i = kψk k2

pero dado que |ψk i es único y su norma es independiente de la base en que se calcule, vemos que esta probabilidad
es independiente de la base como se esperaba. La Ec. (4.6) es una forma alternativa de calcular esta probabilidad.
Veamos el caso de un espectro contı́nuo no degenerado. La ecuación de valores propios de A es

A |vα i = α |vα i

siendo α un ı́ndice contı́nuo y siendo |v α i ortonormal en el sentido extendido. Siendo A un observable (también en
el sentido extendido), podemos expandir el ket |ψi en términos de los autoestados de A
Z
|ψi = dα c (α) |vα i

puesto que el conjunto de medidas accesibles de A es contı́nuo, debemos definir una densidad de probabilidad, tal
como lo hicimos con la función de onda ψ (r, t) y su transformada de Fourier ψ̄ (p, t). En el caso de estas funciones
la probabilidad de encontrar a la partı́cula en un volumen d 3 r o dentro de un intervalo tridimensional de momento
d3 p están dados por

dP (r) = |ψ (r, t)|2 d3 r = |hr |ψi|2 d3 r ; R |ri = r |ri


2
dP̄ (p) = ψ̄ (p, t) d3 p = |hp |ψi|2 d3 p ; P |pi = p |pi

la extrapolación natural para un espectro contı́nuo arbitrario es

dP (α) = ρ (α) dα ; ρ (α) = |hvα |ψi|2

siendo dP (α) la probabilidad de obtener un valor dentro del intervalo entre α y α + dα. Naturalmente, α puede
estar indicando varios ı́ndices contı́nuos.
Cuarto postulado (caso contı́nuo no degenerado): Cuando se mide la cantidad fı́sica A sobre un sistema
que está en el estado normalizado |ψi, la probabilidad de obtener un valor dentro del intervalo entre α y α + dα
está dada por
dP (α) = |hvα |ψi|2 dα ≡ ρ (α) dα (4.7)
siendo |vα i el autovector correspondiente al autovalor α del observable A asociado a la cantidad Fı́sica A. A la
cantidad ρ (α) la llamamos la densidad de probabilidad asociada al autovalor α.
164 CAPÍTULO 4. ENUNCIADO MATEMÁTICO DE LOS POSTULADOS DE LA MECÁNICA CUÁNTICA

Nótese que tanto en el contı́nuo como en el discreto, la probabilidad de obtener cualquier valor accesible es igual
a la unidad como debe ser
X X X
P (ak ) = hψ| Pk |ψi = hψ| Pk |ψi = hψ| I |ψi = hψ |ψi = 1
k k k

o alternativamente
X gk
XX i 2
P (ak ) = c = hψ |ψi = 1
k
k k i=1

en el caso contı́nuo
Z b Z b Z b Z b 
2
dP (α) = |hvα |ψi| dα = hψ |vα i hvα |ψi dα = hψ| |vα i hvα | dα |ψi = hψ| I |ψi = 1
a a a a

siendo [a, b] el intervalo en donde se define la variable contı́nua α. Por supuesto, si la función es de cuadrado
integrable pero no está normalizada, estas probabilidades se pueden calcular normalizando a |ψi
0
ψ = p 1 |ψi
hψ |ψi

y para el discreto y el contı́nuo se obtiene


gk
X g
i 0 2
huk ψ = 1 X k
i
huk |ψi 2
P (ak ) =
hψ |ψi
i=1 i=1
1
dP (α) = ρ (α) dα = |c (α)|2
hψ |ψi

es importante enfatizar que el carácter de observable de A es vital para la construcción del cuarto postulado, ya
que éste depende de que un estado (arbitrario) pueda expandirse en términos de los autovectores de A.
Si el espectro contı́nuo es degenerado podemos escribir
E E

A vαβ = α vαβ β ∈ [c, d]

y la densidad de probabilidad asociada a α se obtiene sumando sobre todos los vectores propios con valor propio α
Z d 2 Z d 2 
β β
ρ (α) = hvα |ψi dβ ; dP (α) = hvα |ψi dβ dα
c c

la extensión a casos en donde parte del espectro es contı́nuo y parte discreto es relativamente simple y será ilustrada
posteriormente con ejemplos.

4.3.3. Relevancia fı́sica de las fases en mecánica cuántica


Consideremos dos kets |ψi y |ψ 0 i relacionados en la forma
0
ψ = eiθ |ψi

siendo θ un número real. Es fácil ver que los dos vectores poseen la misma norma y que la probabilidad predicha
para una medición arbitraria es la misma para ambos kets.

hψ 0 ψ 0 = hψ| e−iθ eiθ |ψi = hψ |ψi
i 0 2 iθ i i
hu |ψ i e hu |ψi 2 hu |ψi 2
k k k
= =
hψ 0 |ψ 0 i hψ |ψi hψ |ψi

aún más, los kets relacionados en la forma 00


ψ = αeiθ |ψi
4.3. ESTABLECIMIENTO DE LOS POSTULADOS 165

también contienen la misma información fı́sica, ya que estrictamente los observables solo se calculan con kets
normalizados. En consecuencia, dos kets linealmente dependientes representan el mismo estado del sistema fı́sico.
Este resultado debe interpretarse con cuidado. Por ejemplo, sea el estado

|ψi = λ1 |ψ1 i + λ2 |ψ2 i

donde λ1 y λ2 son complejos. De lo anterior, sabemos que e iθ1 |ψ1 i representa al mismo estado que |ψ1 i y que
eiθ2 |ψ2 i representa al mismo estado que |ψ2 i, no obstante el estado

|ϕi = λ1 eiθ1 |ψ1 i + λ2 eiθ2 |ψ2 i

no representa el mismo estado fı́sico que |ψi, ya que la diferencia de fase θ 2 − θ1 dará lugar a fenómenos de
interferencia, volveremos sobre esto más adelante. Por el momento mencionaremos que los dos estados describirán
la misma fı́sica solo si θ1 = θ2 + 2nπ, siendo n un entero. Pues en tal caso e iθ1 = eiθ2 y resulta

|ϕi = eiθ1 [λ1 |ψ1 i + λ2 |ψ2 i] = eiθ1 |ψi

de modo que un factor de fase global no afecta las predicciones fı́sicas, pero las fases relativas de los coeficientes de
una expansión son significativas.

4.3.4. El proceso de medida y la reducción del paquete de onda


Hasta el momento hemos hablado del valor experimental obtenido en la medición pero no del estado del sistema
una vez que la medición se ha efectuado. En el experimento de polarización de fotones vimos que justo después de
que la medida es realizada, el sistema queda preparado en el autoestado asociado al autovalor que se obtuvo en la
medición. Vamos ahora a generalizar este proceso conocido como reducción del paquete de onda.
Supongamos que queremos medir una cantidad fı́sica A asociada a un observable A en un tiempo dado t. Si |ψi
representa el estado del sistema justo antes de la medición, el cuarto postulado nos permite obtener la probabilidad
para cada autovalor posible en la medición. Sin embargo, una vez que la medida es efectuada solo uno de los posibles
autovalores es obtenido. Por tanto, justo después de la medición, ya no podemos hablar de la probabilidad de obtener
un autovalor, pues ya sabemos cual de ellos se obtuvo, de manera que poseemos una información adicional y es
comprensible que el estado del sistema ya no sea |ψi ya que justo después de la medición el estado debe incorporar
la información del autovalor especı́fico que se obtuvo. Por tanto, es de esperarse que el estado |ψ k i justo después
de la medida sea la componente de |ψi asociada con el autoestado a k . Tendremos entonces que cuando se ejecuta
una medida con resultado ak , el estado tendrá un cambio abrupto desde |ψi (justo antes de la medición) hasta |ψ k i
pero normalizado (justo después de la medición).
(ak ) 1 Pk |ψi
|ψi −→ p |ψk i = p
hψk |ψk i hψ| Pk |ψi
Es importante decir que la normalización es necesaria ya después de la medición |ψ k i describe todo el estado del
sistema y no solo una componente de tal estado como antes de la medición. Recordando las expansiones (4.1, 4.5)
y la expresión (4.4) para la componente |ψ k i de |ψi sobre el autoespacio Ek , se tiene
gn
XX
|ψi = cin uin
n i=1
gk
X
(a ) 1
cik uik
k
|ψi −→ qP 2
gk cm
m=1 k i=1

Quinto postulado: Si la medida de la cantidad fı́sica A sobre el sistema en el estado |ψi, nos da el valor propio
ak , el estado del sistema inmediatamente después de la medida está dado por la proyección normalizada de |ψi sobre
el autoespacio Ek asociado con ak
gk
X
(ak ) Pk |ψi 1 1
|ψi −→ p =p |ψk i = qP 2 cik uik (4.8)
hψ| Pk |ψi hψk |ψk i gk cm i=1
m=1 k
166 CAPÍTULO 4. ENUNCIADO MATEMÁTICO DE LOS POSTULADOS DE LA MECÁNICA CUÁNTICA

el estado del sistema inmediatamente después de la medición es entonces un autovector de A con autovalor a k . Pero
no un autovector cualquiera de Ek , sino la componente sobre este autoespacio del estado |ψi que se tenı́a antes de
la medición. Cuando hay ausencia de degeneración g k = 1 y se tiene que el estado después de la medición es
(ak ) 1 1 
|ψi −→ q ck |uk i = |ck | eiα |uk i
2 |ck |
|ck |
(ak )
|ψi −→ eiα |uk i

el cual es fı́sicamente idéntico a |u k i. Efectivamente en este caso salvo por una constante de proporcionalidad, el au-
tovector asociado a ak es único. Este postulado nos da cuenta de los cambios abruptos en el estado, o perturbaciones
fundamentales que se aprecian en diversos experimentos.

4.3.5. Evolución fı́sica de los sistemas cuánticos


Ya hemos usado argumentos de plausibilidad para suponer que la ecuación de Schrödinger es la ecuación que
gobierna la evolución temporal de los estados correspondientes a un sistema de una partı́cula cuántica no relativista.
Postularemos que esta misma ecuación gobierna la evolución temporal de todos los sistemas cuánticos no relativistas
Sexto postulado: La evolución temporal de un vector de estado |ψ (t)i está regida por la ecuación de Schrödinger
d
i~ |ψ (t)i = H (t) |ψ (t)i
dt
donde H (t) es el observable asociado con la energı́a total del sistema. H (t) se conoce como el operador Hamiltoniano
del sistema y se obtiene del Hamiltoniano clásico por medio de ciertas reglas de cuantización.
Antes de explicar las reglas de cuantización, discutiremos un aspecto importante de la evolución temporal que
resulta de la combinación del quinto y sexto postulados. La ecuación de Schrödinger me dará la evolución del estado
del sistema desde un tiempo inicial t 0 hasta un tiempo final t2 , siempre que en este intervalo no se realice ninguna
medida. Asumamos por el contrario, que se realiza la medida de una cantidad A asociada a un observable A, en
el tiempo t1 con t0 < t1 < t2 , y que el resultado es el valor propio a k . En tal caso, la ecuación de Schrödinger
me permitirá calcular la evolución del estado desde su valor en t 0 dado por |ψ (t0 )i hasta el valor que adquiere en
t1 (justo antes de la medida) dado por |ψ (t 1 )i, como en ese instante se realiza una medida el sistema tendrá un
cambio discontı́nuo de estado de modo que en t 1 (pero justo después de la medida) el sistema queda en el estado
|ψk |−1 |ψk i, por tanto la evolución temporal del sistema para tiempos posteriores a t 1 deberá tomar este valor como
condición inicial |ψ 0 (t1 )i = |ψk |−1 |ψk i para obtener su evolución hasta cualquier valor posterior del tiempo digamos
t2 , siempre que no se haga otra medida entre t 1 y t2 . En general, cada medida obligará a una “recalibración” de
las condiciones iniciales (tomando como tiempo inicial el tiempo en que se realiza cada medida), para calcular la
evolución temporal del estado.
Volvamos ahora a las condiciones de cuantización

4.3.6. Reglas de cuantización


Hemos visto que el Hamiltoniano clásico tiene asociado un operador cuyos valores propios son las energı́as
accesibles del sistema. Conocemos la forma de este operador para la representación en la base {|ri}, y vemos que a
partir del Hamiltoniano clásico H (r, p, t) el operador Hamiltoniano queda en la forma

p2 P2 ~2 2
+ V (r) → + V (R) = − ∇ + V (r)
2m 2m 2m
H (r, p, t) → H (R, P, t)

siendo P y R los operadores de momento y posición definidos en la sección 1.43.4. En lo anterior hemos usado el
hecho de que en la representación de la base {|ri}, el operador P está representado por el operador diferencial −i~∇,
y el operador R está representado por la multiplicación por el valor de posición R → r (ver Ecs. 1.184, 1.189).
Nuevamente, extenderemos este algoritmo a la construcción de un operador A asociado a una cantidad fı́sica
A que está definida en la mecánica clásica. Consideremos una partı́cula sin espı́n sujeta a un potencial escalar,
estableceremos la siguiente regla de cuantización
4.3. ESTABLECIMIENTO DE LOS POSTULADOS 167

A la posición r (x, y, z) de la partı́cula se le asocia el observable R (x, y, z). Al momento p (p x , py , pz ) de la


partı́cula se le asocia el observable P (p x , py , pz ).
Recordemos que las componentes de los operadores R y P satisfacen las relaciones canónicas de commutación

[Ri , Rj ] = [Pi , Pj ] = 0 ; [Ri , Pj ] = − [Pj , Ri ] = i~δij (4.9)

por tanto, dado que una cantidad fı́sica clásica A se puede escribir en términos de r, p, t i.e. A (r, p, t), el corre-
spondiente observable A se obtendrá reemplazando las variables dinámicas r, p en la expresión A (r, p, t) por los
observables R y P
A (t) = A (R, P, t)
sin embargo, este algoritmo puede generar algunas ambigüedades e inconsistencias. Asumamos por ejemplo que en
la cantidad fı́sica A (r, p, t) aparece un término de la forma

r · p = xpx + ypy + zpz

en mecánica clásica, el producto r · p es conmutativo, de modo que también podemos escribirlo como

p · r = p x x + py y + pz z

pero en el proceso de cuantización, ambos términos conducen a operadores diferentes ya que R y P no conmutan

R · P 6= P · R

adicionalmente, ninguno de estos operadores es Hermı́tico 1

(R · P)† = (XPx + Y Py + ZPz )† = Px† X † + Py† Y † + Pz† Z † = Px X + Py Y + Pz Z = P · R

la segunda de las Ecs. (1.42) nos sugiere la forma de generar un operador hermı́tico con este producto

R · P + (R · P)† R·P+P·R P · R + (P · R)†


Z ≡ = = ⇒
2 2 2
R·P+P·R
Z ≡
2
esta forma además de ser hermı́tica, es simétrica con respecto a R · P y P · R es decir con respecto a la cuantización
de cualquiera de los dos operadores. De modo que debemos añadir una regla de simetrización de los operadores que
incluya operadores más complejos que R · P
Regla de cuantización y simetrización: El observable A que describe a una cantidad fı́sica definida clásica-
mente por A (r, p, t), se obtiene reemplazando para A a las variables dinámicas r, p (canónicamente conjugadas)
por los observables R, P, en una forma adecuadamente simetrizada.
Más adelante veremos sin embargo, que ciertos observables A en mecánica cuántica no provienen de una cantidad
fı́sica A definida clásicamente, sino que surgen directamente como observables cuánticos, este es el caso del espı́n de
la partı́cula.
Es importante enfatizar que las reglas de cuantización y las propiedades de commutación establecidas en esta
sección solo son válidas para las coordenadas cartesianas. Si bien es posible extenderlas a otros tipos de coordenadas,
no adquirirán formas tan simples. Veamos algunos ejemplos del uso de las reglas de cuantización.
(a) El caso más simple es el de una partı́cula de masa m, bajo una interacción que se puede describir por
un potencial que solo depende de la posición y el tiempo, el Hamiltoniano clásico en coordenadas cartesianas
vendrá dado por
p2 dr
H (r, p) = + V (r) ; p = m = mv
2m dt
la regla de cuantización no presenta dificultades ya que no es necesaria ninguna simetrización puesto que R y P
nunca se acoplan, de modo que no aparecen productos de operadores que no conmutan. El Hamiltoniano como
observable queda
P2
H (R, P) = + V (R)
2m
1
Recordemos que el producto de operadores hermı́ticos no es en general hermı́tico (ver teorema 1.34).
168 CAPÍTULO 4. ENUNCIADO MATEMÁTICO DE LOS POSTULADOS DE LA MECÁNICA CUÁNTICA

en este caso particular en virtud del sexto postulado la cuación de Schrödinger queda
 2 
d P
i~ |ψ (t)i = + V (R) |ψ (t)i
dt 2m

(b) Veamos ahora el Hamiltoniano de una partı́cula sometida a una interacción electromagnética, en tal caso el
Hamiltoniano clásico se escribe en la forma
1
H (r, p) = [p − qA (r, t)]2 + qφ (r, t) (4.10)
2m
siendo A (r, t) , φ (r, t) los potenciales vectorial y escalar, p es el momento canónicamente conjugado a r y está dado
por
dr
p = m + qA (R, t) = mv + qA (R, t)
dt
nótese que el momento p canónicamente conjugado a r, no es el momento lineal de la partı́cula, esto se debe a
que para una partı́cula en un campo electromagnético, el potencial generalizado asociado depende de la velocidad
generalizada y no solo de la posición. De nuevo la cuantización es sencilla puesto que no hay operadores para
simetrizar, el Hamiltoniano como observable queda
1
H (R, P) = [P − qA (R, t)]2 + V (R, t) ; V (R, t) ≡ qφ (R, t)
2m
y la ecuación de Schrödinger resulta
 
d 1 2
i~ |ψ (t)i = [P − qA (R, t)] + V (R, t) |ψ (t)i
dt 2m

habiamos mencionado antes que a pesar de que el potencial generalizado depende de la velocidad, el Hamiltoniano
continúa siendo la energı́a del sistema, esto se puede ver teniendo en cuenta que el momento lineal de la partı́cula
que denotaremos por p~ está relacionado con el momento conjugado a la variable r en la forma

~ = p − qA
p

de modo que el Hamiltoniano clásico queda


p~2
H= + V (r, t)
2m
el primer término es la energı́a cinética y el segundo es la componente del potencial que genera trabajo. La clave
está en el hecho de que el campo magnético (que es el que introduce el potencial dependiente de la velocidad) no
realiza trabajo.
Este ejemplo también nos sirve para realizar una aclaración importante, en la regla de cuantización es el momento
p canónicamente conjugado a r, y no el momento lineal p~ el que debe reemplazarse por el operador P. Si recordamos
que dos variables xi , pi canónicamente conjugadas clásicamente son tales que sus corchetes de Poisson cumplen la
relación
[xi , xj ]pois = [pi , pj ]pois = 0 ; [xi , pj ]pois = − [pj , xi ]pois = δij (4.11)
diremos que las cantidades que clásicamente cumplen las relaciones canónicas (4.11) con corchetes de Poisson,
pasarán en el proceso de cuantización a cumplir las relaciones canónicas (4.9) con conmutadores. Nótese además
que las propiedades fundamentales de los conmutadores (1.36-1.41) también las cumplen los corchetes de Poisson y
con ambas se podrá generar un álgebra de Lie.
Capı́tulo 5

Consecuencias de los postulados sobre los


observables y sus medidas

Ya hemos estudiado los kets de posición |ri y los kets de momento |pi ası́ como los operadores de posición y
momento R y P. Por simplicidad usaremos el caso unidimensional, las ecuaciones de valores propios para X, P x son

X |xi = x |xi ; Px |px i = px |px i

estos operadores tienen un espectro contı́nuo lo cual coincide con el hecho experimental de que todos los valores
reales son posibles para las posiciones y momentos de la partı́cula. Si utilizamos el cuarto postulado podemos
calcular la probabilidad de obtener una posición dentro del intervalo entre x y x + dx o la probabilidad de obtener
un momento en el intervalo entre px y px + dpx .
2
dP (x) = |hx |ψi|2 dx = |ψ (x)|2 dx ; dP̄ (p) = |hp |ψi|2 dp = ψ̄ (p) dp

de hecho estas expresiones fueron usadas para establecer el cuarto postulado. No obstante, es de particular interés
la interpretación a la luz de este postulado del caso en el que el estado del sistema está descrito justamente por |x 0 i
o |p0 i, en tal caso estas probabilidades quedan
2  2 2  2
dP (x) = hx x0 dx = δ x − x0 dx ; dP̄ (p) = hp p0 dp = δ p − p0 dp

si integramos estas probabilidades entre x 0 − ε y x0 + ε o entre p0 − ε y p0 + ε respectivamente, tenemos que la


probabilidad da la unidad sin importar el tamaño de ε, si por el contrario calculamos la integral en cualquier
volumen que excluya al punto x0 o p0 esta integral da cero. Por tanto |x0 i describe un estado en donde la partı́cula
está en un punto bien definido del espacio y |p 0 i describe una partı́cula con momento especı́fico p 0 . Para el estado
|x0 i la medida de posición es totalmente predecible y para el estado |p 0 i es totalmente predecible la medida del
momento. Nótese que para el estado |x 0 i la densidad de probabilidad asociada a la posición diverge en el punto x 0 y
se anula en los demás, esto está relacionado con el hecho de que este no es un estado fı́sicamente realizable, ya que
no es de cuadrado integrable. Similar discusión ocurre para el estado |p 0 i para el cual la densidad de probabilidad
asociada al momento diverge en el punto p 0 y se anula en los demás.
El estado |x0 i se puede calcular en las bases {|xi} y {|pi}

 e−ipx0 /~
x0 (x) = hx x0 = δ x − x0 ; x̄0 (p) = hp x0 = √
2π~

si calculamos la probabilidad de que al medir el momento lineal de la partı́cula en el estado |x 0 i se encuentre un


valor entre p y p + dp, obtenemos
2 dp
dP (p) = x̄0 (p) dp =
2π~
encontramos una probabilidad uniforme. Nuevamente, esto viola la conservación de la probabilidad por ser un estado
impropio. Sin embargo, es interesante ver que el colapso de la función de onda en un punto del espacio (es decir la
certeza total de tener una posición descrita por el estado |x 0 i) lleva a la incertidumbre total en el momento, como
170CAPÍTULO 5. CONSECUENCIAS DE LOS POSTULADOS SOBRE LOS OBSERVABLES Y SUS MEDIDAS

ya se discutió para el principio de incertidumbre de Heisenberg. Un análisis similar se puede hacer para el estado
impropio |p0 i. Como X, P tiene como valores propios las posiciones y momentos de estos estados colapsados, tiene
sentido que la regla de cuantización reemplace x por X y p por P .
Vale la pena mencionar que para interpretar adecuadamente una función de onda, es esencial conocer la base
en la que está escrita. A manera de ejemplo, obsérvese que el ket |xi corresponde a una partı́cula perfectamente
localizada en x y con incertidumbre total del momento, en tanto que el ket |−pi corresponde a una partı́cula con
momento perfectamente definido −p y con total incertidumbre en la posición. Ahora veamos como se escribe |xi en
la base {|pi} y como se escribe |−pi en la base {|xi}

e−ipx/~ e−ipx/~
x̄ (p) = hp |xi = √ ; −p (x) = hx |−pi = √
2π~ 2π~
nótese que dos estados totalmente distintos pueden ser descritos con la misma forma funcional si ambos están
escritos en bases diferentes. Una onda plana en la base {|pi} corresponde a una partı́cula bien localizada, en tanto
que la misma onda plana en la base {|xi} está asociada a una partı́cula con momento bien definido.
Como ya se mencionó, en algunos casos la ecuación de valores propios (establecida en el tercer postulado)
conduce a un espectro discreto y en otros casos a un espectro contı́nuo, lo cual nos generará la discretización de
ciertas cantidades fı́sicas. Lo interesante es que tanto para los casos discretos como para los contı́nuos hay una
excelente concordancia con los experimentos.
Los postulados cuatro y cinco plantean ciertos problemas fundamentales inherentes al proceso de medida. Por
ejemplo, la existencia de una perturbación fundamental implica que el sistema no se puede considerar independien-
temente al aparato de medida, en realidad el conjunto sistema fı́sico-aparato de medida deben considerarse como un
todo. El punto es que el proceso de observación requiere de una interacción entre el sistema y el aparato. Además el
aparato de medida (para un sistema fı́sico dado) define tanto los autoresultados como los autoestados que se pueden
obtener en el proceso de medición, como se discutió en la sección 2.7.2, página 106 sobre la medición de fotones
polarizados. Esto conlleva a preguntas delicadas sobre el proceso de medida que no discutiremos aquı́.
Nótese que de acuerdo con los postulados cuarto y quinto, la indeterminación en el proceso de medida indica
por un lado la existencia de la perturbación fundamental pero también la no determinación de su comportamiento
especı́fico, ya que a partir del estado antes de la medida (que se puede obtener en forma totalmente determinista), la
medida nos lleva a un cambio abrupto que no se puede determinar con certeza. Puesto que la ecuación de Schrödinger
es totalmente determinista, la generación de la perturbación fundamental y de la indeterminación son inherentes al
proceso de medida.
En lo que sigue consideraremos solo medidas ideales. Esto significa que se asume que el aparato de medida es
perfecto, de modo que solo se generan las perturbaciones e incertidumbres inherentes a las leyes cuánticas. En la
realidad, los aparatos son imperfectos y por tanto presentan una incertidumbre experimental que afecta de manera
adicional a la medida. Por ejemplo, un analizador deja pasar ondas polarizadas no solo en una dirección fija sino
en cierto intervalo alrededor de esta dirección. Sin embargo, a diferencia de las incertidumbres y perturbaciones
cuánticas, estas incertidumbres y perturbaciones experimentales pueden disminuı́rse indefinidamente (al menos en
principio) para acercarse cada vez más al lı́mite ideal.

5.1. Consideraciones estadı́sticas


5.1.1. Valor medio de un observable para un sistema en un estado dado
Para verificar el cuarto postulado, es necesario preparar un sistema en un estado bien definido y repetir el
experimento muchas veces, donde para cada experimento tenemos un sistema idéntico con el mismo estado inicial.
Estrictamente, las predicciones solo se reproducirán en el lı́mite cuando N (número de reproducciones del experi-
mento o número de eventos) tiende a infinito. En la práctica N es finito y por tanto deben usarse técnicas estadı́sticas
para interpretar los resultados.
De aquı́ en adelante denominaremos observable tanto a la cantidad fı́sica como al operador cuántico asociado.
Definiremos el valor esperado (o valor medio) de un observable, como el promedio de los resultados obtenidos cuando
se realiza un gran número de mediciones N de dicho observable, para sistemas idénticos que se preparan en un estado
especı́fico |ψi. Denotaremos al valor esperado del observable A para el sistema en el estado |ψi en la forma hAi |ψi
o cuando se sobreentienda cual es el estado, la notación se simplificará en la forma hAi.
5.1. CONSIDERACIONES ESTADÍSTICAS 171

La idea es poder predecir el valor esperado con base en los postulados. Comencemos primero con el caso de
espectro discreto. Si se realizan N experimentos para idénticos sistemas cada uno en el estado |ψi y se obtiene el
autovalor an para el observable A un número N (an ) de veces, la probabilidad de obtener dicho autovalor se define
como
N (an )
P (an ) ≡ lı́m (5.1)
N →∞ N
y es claro que X
N (an ) = N
n
el valor medio es simplemente la suma de todas las medidas obtenidas dividida por el número N de medidas. Por
supuesto, cuando un número N (an ) de medidas han dado el mismo resultado a n , la suma con que contribuyen estos
eventos se escribe simplemente como a n N (an ) y se suma sobre los resultados diferentes obtenidos
1 X
hAi|ψi = an N (an )
N n

a N (an ) se le conoce como la frecuencia del evento. Si tomamos el lı́mite cuando N → ∞ y usamos la definición
(5.1) de probabilidad se tiene que X
hAi|ψi = an P (an )
n

y usando la Ec. (4.2) que proviene del cuarto postulado, se obtiene

X gn
X gn
i 2 X X
hAi|ψi = an hψ u = a n hψ uin huin |ψi
n
n i=1 n i=1

donde uin son los vectores propios (ortonormalizados) de A asociados al valor propio a n

A uin = an uin

de modo que
gn
XX gn
XX

hAi|ψi = hψ| an uin huin |ψi = hψ| A uin huin |ψi
n i=1 n i=1
" gn
# " #
XX i
i X
hAi|ψi = hψ| A un un |ψi = hψ| A Pn |ψi = hψ| AI |ψi
n i=1 n

donde hemos usado la relación de completez para el discreto Ec. (1.168), nótese que el uso de la completez requiere
una vez más que A sea un observable. Finalmente, la expresión para el valor esperado queda

hAi|ψi = hψ| A |ψi (5.2)

para el caso del espectro contı́nuo no degenerado, el argumento es similar. Consideremos N experimentos idénticos
y denominemos dN (α) el número de experimentos cuyo resultado esté incluı́do entre α y α + dα, la probabilidad
la definimos similarmente como
dN (α)
dP (α) = lı́m
N →∞ N
el valor medio o esperado se escribe como
Z Z
1
hAi|ψi = lı́m α dN (α) = α dP (α)
N →∞ N

usando de nuevo el cuarto postulado (para espectro contı́nuo), sustituı́mos dP (α) por su valor en la Ec. (4.7)
Z Z
hAi|ψi = α |hψ |vα i|2 dα = α hψ |vα i hvα |ψi dα
172CAPÍTULO 5. CONSECUENCIAS DE LOS POSTULADOS SOBRE LOS OBSERVABLES Y SUS MEDIDAS

y dado que
A |vα i = α |vα i
se obtiene
Z Z Z
hAi|ψi = α |hψ |vα i|2 dα = hψ| α |vα i hvα |ψi dα = hψ| A |vα i hvα |ψi dα
Z 
hAi|ψi = hψ| A |vα i hvα | dα |ψi = hψ| AI |ψi = hψ| A |ψi

donde hemos usado la relación de completez para el contı́nuo Ec. (1.168). Por tanto, se obtiene de nuevo la Ec.
(5.2). Es importante aclarar que hAi |ψi es un promedio realizado sobre un conjunto de mediciones idénticas, y no
debe confundirse con los promedios temporales que se utilizan con frecuencia en fı́sica para estados que dependen
del tiempo.
Si el ket no está normalizado, la Ec. (5.2) se debe convertir en

hψ| A |ψi
hAi|ψi =
hψ |ψi

5.1.2. Valor esperado para los observables X, P


Para realizar el cálculo del valor esperado de un observable debemos recurrir a una representación especı́fica.
Calculemos hXi|ψi usando la representación {|ri}
Z Z
3
hXi|ψi = hψ| X |ψi = d r hψ |ri hr| X |ψi = d3 r ψ ∗ (r) xhr |ψi
Z
hXi|ψi = d3 r ψ ∗ (r) x ψ (r) (5.3)

calculando hP i|ψi usando la representación {|pi} se obtiene


Z
hPx i|ψi = d3 p ψ̄ ∗ (p) px ψ̄ (p) (5.4)

si por ejemplo se calcula hP i |ψi usando la representación {|ri} se tiene


Z Z  
~
hPx i|ψi = hψ| Px |ψi = d3 r hψ |ri hr| Px |ψi = d3 r ψ ∗ (r) ∂x hr |ψi
i
Z  
~
hPx i|ψi = d3 r ψ ∗ (r) ∂x ψ (r) (5.5)
i

5.1.3. Valor esperado para el commutador de dos observables


El fácil ver que el commutador de dos operadores hermı́ticos es antihermı́tico

[A, B]† = (AB − BA)† = BA − AB = − [A, B]

esto significa que podemos escribir el commutador entre dos operadores hermı́ticos como

[A, B] = iC ; C = C †

siendo C un operador hermı́tico, los valores propios de iC son puramente imaginarios al igual que su valor esperado
con respecto a cualquier estado |ψi. Podemos escribir entonces

h[A, B]i = iM

siendo M un número real. Vemos que si A y B son observables, su commutador no es un observable ya que no es
hermı́tico.
5.1. CONSIDERACIONES ESTADÍSTICAS 173

5.1.4. La desviación media cuadrática


Si bien el valor medio o esperado hAi nos da el orden de magnitud de los resultados esperados al medir la
cantidad fı́sica A, es también estadı́sticamente importante conocer la dispersión que presentan los datos cuando se
realizan una gran cantidad de medidas. Asumamos que el espectro de A es contı́nuo. Si hacemos una gráfica de
ρ (α) vs α, el valor esperado hAi será la abscisa del “centro de gravedad” del área bajo la curva, nótese además que
si esta curva no es simétrica alrededor de hAi entonces el valor α m para el cual ρ (αm ) adquiere su valor máximo,
no necesariamente coincide con hAi. De hecho, puede existir más de un máximo local.
La gráfica de ρ (α) vs α suele ser asintótica, es decir tiende a cero para α → ±∞, pero usualmente no es igual a
cero para ningún α real. Esto implica que estrictamente hay en la mayorı́a de los casos una probabilidad diferente
de cero de encontrar cualquier valor real de α. Sin embargo, es usual definir un ancho δA centrado en hAi en el cual
esté la mayor parte del área bajo la curva, es decir existe una probabilidad cercana a la unidad de que la medida
de α arroje un valor entre hAi − δA/2 y hAi + δA/2. La cantidad δA caracteriza el ancho de la curva de modo
que a menor δA, tenemos que los resultados estarán más concentrados alrededor de hAi, lo cual indica una menor
dispersión de las medidas.
Veremos ahora como encontrar una cantidad que caracterice la dispersión de las medidas. A priori uno podrı́a
pensar en tomar la diferencia entre cada valor α i obtenido y hAi, (a esta diferencia la llamamos la desviación del
dato αi ), para luego promediar estas desviaciones. Este método sin embargo, no es adecuado ya que el promedio de
las desviaciones es siempre cero tanto en el contı́nuo como en el discreto
N N
1 X 1 X
D (αi ) ≡ hAi − αi ; hD (A)i = D (αi ) = [hAi − αi ] ⇒
N N
i=1 i=1
N
X n
X
1 1 1
hD (A)i = N hAi − αi = hAi − nk αk = hAi − hAi = 0
N N N
i=1 k=1

donde el promedio de A se reescribió multiplicando α k por su frecuencia nk (número de datos con el mismo resultado)
y sumando sobre los datos diferentes (k = 1, .., n). Similarmente en el contı́nuo
Z α1
1
hD (A)i = hhAi − αi = hAi − ρ (α) α dα
α 1 − α 0 α0
hD (A)i = hAi − hAi = 0

donde el ρ (α) dα es la frecuencia diferencial en el contı́nuo (densidad por diferencial de volumen). La anulación de la
desviación promedio tiene que ver con la definición misma de valor promedio o esperado, en el cual las desviaciones
negativas se compensan con las positivas. Para evitar este fenómeno de cancelación, podemos definir las desviaciones
cuadráticas en la forma D E
(∆A)2 ≡ (A − hAi)2
y definimos entonces la raı́z de la desviación media cuadrática como
rD E
∆A = (A − hAi)2 (5.6)

y usando la expresión para el valor medio o esperado dada por la Ec. (5.2) obtenemos
q
∆A = hψ| (A − hAi)2 |ψi

la desviación media cuadrática se puede reescribir en la forma


D E Dh iE

(A − hAi)2 = A2 − 2A hAi + hAi2 = A2 − 2 hAi hAi + hAi2
D E

(A − hAi)2 = A2 − hAi2

y la raı́z de la desviación media cuadrática queda


q
∆A = hA2 i − hAi2 (5.7)
174CAPÍTULO 5. CONSECUENCIAS DE LOS POSTULADOS SOBRE LOS OBSERVABLES Y SUS MEDIDAS

por ejemplo para el espectro contı́nuo de un observable A, ∆A queda en la forma


Z α1
2
(∆A) = [α − hAi]2 ρ (α) dα
α0
Z α1 Z α1 2
2 2
(∆A) = α ρ (α) dα − α ρ (α) dα
α0 α0

5.2. Observables compatibles


Consideremos dos observables A y B que conmutan

[A, B] = 0

asumiremos por simplicidad que ambos espectros son discretos. El teorema 1.69 nos dice que existe un conjunto
completo de vectores propios comunes a ambos observables, es usual denotar esta base como {|a n , bp , ii}, o aún más
simple como {|n, p, ii}
A |n, p, ii = an |n, p, ii ; B |n, p, ii = bp |n, p, ii

donde el ı́ndice i indica que a cada par de autovalores (a n , bp ) le pueden corresponder varios autovectores linealmente
independientes. Por tanto, para cada posible valor del par (a n , bp ) existe por lo menos un vector |n, p, ii para el
cual la medida de A siempre será an y la medida de B siempre será bp . Veamos las implicaciones fı́sicas sobre los
observables asociados a operadores que conmutan.
Partamos de un estado inicial normalizado dado |ψi (que en principio es arbitrario). Este estado se puede escribir
como
X
|ψi = cn0 ,u,v n0 , u, v (5.8)
n0 ,u,v

asumamos que primero hacemos una medida del observable A y se obtiene a n y que inmediatamente después (de
modo que en el tiempo transcurrido se pueda despreciar la evolución temporal del estado) realizamos una medida
de B de la cual obtenemos el valor bp . Calculemos la probabilidad P (an , bp ) de obtener an en la primera medida y
bp en la segunda. Usando el cuarto postulado Ec. (4.2) y la Ec. (5.8), la probabilidad P (a n ) de obtener la primera
medida es
  2
X
X X
2

P (an ) = n, p , i ψi =
0 0 n, p , i 
0 0
cn0 ,u,v n , u, v 
0

p0 ,i0 p0 ,i0 n0 ,u,v
2 2
X X


X X

= c 0 0 0
0 ,u,v n, p , i n , u, vi = c 0 ,u,v δn,n0 δp0 u δi0 v
n n
p0 ,i0 n0 ,u,v p0 ,i0 n0 ,u,v

X
P (an ) = cn,p0 ,i0 2 (5.9)
p0 ,i0

pero según el quinto postulado Ec. (4.8), el sistema luego de esta primera medición queda preparado en el estado
normalizado |ψn i definido por
1 X
|ψn i = qP cn,p0 ,i0 n, p0 , i0 (5.10)
2 0 0
|c
k,m n,k,m | p ,i

este será entonces el estado en el que estará el sistema justo antes de la medición de B. Recurriendo de nuevo al
cuarto postulado Ec. (4.2) la probabilidad de que habiendo obtenido en la primera medición el valor a n se obtenga
5.2. OBSERVABLES COMPATIBLES 175

en la segunda medición el valor bp estará dada por


  2

X
2
X
1 X
0 0  cn,p0 ,i0 n, p , i 
0 0
Pan (bp ) = n , p, i ψn i = n , p, i qP 2 0 0
n0 ,i n0 ,i k,m |cn,k,m | p ,i

P P 2 P P
0 0 0 2
n0 ,i p0 ,i0 cn,p0 ,i0 hn , p, i |n, p , i i n0 ,i p0 ,i0 cn,p0 ,i0 δn0 n δpp0 δii0
= P 2 = P 2
k,m |cn,k,m | k,m |cn,k,m |
P 2
n0 ,i |cn,p,i δn0 n |
Pan (bp ) = P 2
k,m |cn,k,m |
P 2
i |cn,p,i |
Pan (bp ) = P 2 (5.11)
k,m |cn,k,m |

ahora bien, la probabilidad P (an , bp ) que buscamos corresponde a una composición de eventos: para que estos
dos eventos de hecho ocurran, debemos primero encontrar a n para lo cual hay una probabilidad P (a n ) y entonces
habiendo cumplido la primera condición, debemos encontrar b p para lo cual hay una probabilidad Pan (bp ) por lo
tanto
P (an , bp ) = P (an ) × Pan (bp ) (5.12)
sustituyendo (5.9) y (5.11) en (5.12) se obtiene
 " #
X P 2
2 |c n,p,i |
P (an , bp ) =  cn,p0 ,i0  P i
2
0
p ,i 0 k,m |cn,k,m |
X
P (an , bp ) = |cn,p,i |2 (5.13)
i

y el estado del sistema después de la segunda medición de acuerdo con el quinto postulado Ec. (4.8), será
Pp |ψn i
|ψn,p i = p (5.14)
hψn | Pp |ψn i

evaluemos el numerador y el denominador de esta expresión, usando la Ec. (5.10).


  
X 1 X
Pp |ψn i =  |l, p, vi hl, p, v|  qP cn,p0 ,i0 n, p0 , i0 
2 0 0
l,v k,m |cn,k,m | p ,i
hP P i hP P i
c 0 0 |l, p, vi hl, p, v| n, p 0 , i0 i c 0 0 |l, p, vi δ δ 0 δ 0
l,v p ,i n,p ,i
0 0 l,v p ,i n,p ,i
0 0 ln pp vi
= qP = qP
2 2
k,m |cn,k,m | k,m |cn,k,m |
P 0
0 cn,p,i0 |n, p, i i
Pp |ψn i = qiP (5.15)
2
k,m |cn,k,m |

  P P ∗
P 0 0
X
0
i0 cn,p0 ,r cn,p,i0 hn, p , r| n, p, i i
 ∗ 0  i0 cn,p,i0 |n, p, i i p0 ,r
hψn | Pp |ψn i = cn,p0 ,r n, p , r P 2 = P
2
p0 ,r k 0 ,m0 cn,k 0 ,m0 k 0 ,m0 cn,k 0 ,m0
P P ∗ P ∗ P 2
i0 cn,p0 ,r cn,p,i0 δnn δp0 p δri0 i0 cn,p,i0 cn,p,i0

p0 ,r i0 cn,p,i0
hψn | Pp |ψn i = P = P = P 2 ⇒
2 2
k 0 ,m0 cn,k 0 ,m0 k 0 ,m0 cn,k 0 ,m0 k 0 ,m0 cn,k 0 ,m0
qP 2
q
i0 cn,p,i0
hψn | Pp |ψn i = qP 2 (5.16)

k 0 ,m0 cn,k 0 ,m0
176CAPÍTULO 5. CONSECUENCIAS DE LOS POSTULADOS SOBRE LOS OBSERVABLES Y SUS MEDIDAS

Reemplazando (5.15, 5.16) en (5.14), el estado justo después de la segunda medida queda finalmente

1 X
|ψn,p i = qP cn,p,i |n, p, ii (5.17)
2
k |cn,p,k | i

es fácil verificar que |ψn,p i es un estado propio de A y B con valores propios a n y bp


P P P
iqcn,p,i [A |n, p, ii] cn,p,i [an |n, p, ii]
iq i cn,p,i [|n, p, ii]
A |ψn,p i = P = P = an q P
2 2 2
k |cn,p,k | k |cn,p,k | k |cn,p,k |
A |ψn,p i = an |ψn,p i

y similarmente para B
B |ψn,p i = bp |ψn,p i
Por tanto, si midiéramos de nuevo A (nuevamente los tiempos deben ser cortos para que el estado no haya evolu-
cionado significativamente a partir del estado descrito por la Ec. 5.17) la probabilidad de obtener el resultado a n es
1 y no se altera el estado del sistema. Igualmente si medimos B con el sistema en el estado |ψ n,p i la probabilidad
de obtener bp es 1 y el estado permanece inalterado después de la medición.
Volvamos ahora al estado inicial |ψi del sistema y hagamos las mediciones en el orden contrario (primero B y
luego A). Evaluaremos la probabilidad de obtener el valor b p en la primera medida y el valor an en la segunda medida
que denotamos como P (bp , an ), siguiendo los mismos razonamientos del caso anterior vemos que la probabilidad de
obtener bp en la primera medida es
X
P (bp ) = cn0 ,p,i0 2
n0 ,i0

y si el valor bp es obtenido, el estado después de la medición será

1 X
|ϕp i = qP cn0 ,p,i0 n0 , p, i0
uv |cu,p,v |2 n0 ,i0

y la probabilidad de que partiendo del estado |ϕ p i se obtenga el valor an del observable A en la segunda medida es

1 X
Pbp (an ) = P 2 |cn,p,i |2
|c
uv u,p,v | i

adicionalmente la probabilidad de que ocurran ambos eventos en este orden será

P (bp , an ) = P (bp ) × Pbp (an )


X
P (bp , an ) = |cn,p,i |2 (5.18)
i

si de hecho encontramos bp en la primera medida y an en la segunda, el estado del sistema después de la segunda
medida será
1 X
|ϕp,n i = qP cn,p,i |n, p, ii (5.19)
2
k |c n,p,k | i

comparando la Ec. (5.13) con la Ec. (5.18) vemos que la probabilidad de obtener un par especı́fico de valores (a n , bp )
de los observables A y B respectivamente, es igual sin importar el orden en que se midan (siempre teniendo en cuenta
que la distancia temporal entre dos medidas debe ser pequeña para evitar la evolución del sistema). Adicionalmente,
al comparar (5.17) con (5.19) vemos que el estado después de la segunda medida también es el mismo en ambos
casos. Finalmente, una medida posterior de A ó B nos dará con certeza los valores a n ó bp .
Nótese que estos hechos dependen de que podamos encontrar un conjunto completo común de vectores propios
para ambos observables, para lo cual es necesario y suficiente que ambos observables conmuten (teorema 1.69). Por
esta razón a los observables conmutantes también se les denomina observables compatibles.
5.3. OBSERVABLES NO COMPATIBLES E INCERTIDUMBRES 177

Podemos resumir las propiedades de los observables compatibles de la siguiente manera: Cuando dos observables
A y B son compatibles, si medimos primero A entonces la medida posterior de B no causa ninguna pérdida de
información previamente obtenida en la medida de A y viceversa. Por el contrario, la medida de B se “adiciona”
como información a lo que se obtiene en la primera medida. Además la realización de las dos medidas ejecutadas
en cualquier orden arroja la misma distribución de probabilidad para cada par accesible de valores propios. Ahora
supongamos que se realizan dos experimentos ambos con el mismo estado inicial, midiendo en el primero la secuencia
A ⇒ B y en el segundo la secuencia B ⇒ A, si en ambos experimentos se obtienen los mismos valores propios,
entonces obtendremos el mismo estado final.
Vale decir que si en un experimento particular en el orden A ⇒ B se obtuvo (a n , bp ), no quiere decir que en otro
experimento especı́fico con las mismas condiciones iniciales y en el orden B ⇒ A se obtenga (b p , an ), ya que lo que
se igualan son las probabilidades1 . Adicionalmente, tampoco tenemos que llegar al mismo estado final en ambos
experimentos, solo tenemos garantizado que si en ambos experimentos obtenemos los mismos valores propios, el
estado final será el mismo.
Ahora bien, puesto que no es relevante el orden en que se ejecutan las medidas de A y B podemos considerar
la medición simultánea de ambos observables. Nótese que para observables compatibles se puede hacer una especie
de “extensión” de los postulados cuarto y quinto como se puede apreciar de las Ecs. (5.13, 5.18) y de las Ecs. (5.17,
5.19). De estas ecuaciones se observa que podemos considerar a la dupla (a n , bp ) como un solo resultado que
corresponde a la superposición de vectores ortonormales |n, p, ii donde i indica la degeneración asociada al “único
valor propio” cnp ≡ (an , bp ).

5.3. Observables no compatibles e incertidumbres


Según el teorema 1.69 si A y B no conmutan, no existe un conjunto completo de vectores propios comunes a
ambos observables2 . Por tanto, los argumentos anteriores no serán válidos. Esto se puede ilustrar de manera sencilla
si reemplazamos el espacio de Hilbert E por el espacio vectorial real de dos dimensiones. Supongamos que |u 1 i , |u2 i
son autovectores ortonormales del observable A (que definen a los ejes X,Y ) con autovalores a 1 y a2 . Sean |v1 i , |v2 i
autovectores ortonormales de B (que definen ejes X 0 Y 0 en general rotados con respecto a XY ), con valores propios
b1 y b2 . Si definimos θ el ángulo de rotación (en dirección antihoraria) de los ejes X 0 Y 0 con respecto a los ejes XY
tenemos que las bases correspondientes a los autovectores de A y B están relacionadas por
|v1 i = cos θ |u1 i + sin θ |u2 i
 π  π
|v2 i = cos θ + |u1 i + sin θ + |u2 i = − sin θ |u1 i + cos θ |u2 i
2 2
en resumen estas relaciones y sus inversas quedan
|v1 i = cos θ |u1 i + sin θ |u2 i ; |v2 i = − sin θ |u1 i + cos θ |u2 i
|u1 i = cos θ |v1 i − sin θ |v2 i ; |u2 i = sin θ |v1 i + cos θ |v2 i
ahora pensemos que la condición inicial está dada por un vector unitario |ψi en dirección arbitraria que hace un
ángulo ϕ con |u1 i. En ambas bases este vector se escribe
|ψi = cos ϕ |u1 i + sin ϕ |u2 i ; |ψi = cos (ϕ − θ) |v1 i + sin (ϕ − θ) |v2 i
Primero mediremos A y asumamos que encontramos el valor a 1 , el sistema quedará preparado en el estado |u 1 i. Si
luego medimos B y encontramos por ejemplo b 2 el estado final del sistema será |v2 i.
(a1 ) (b2 )
|ψi =⇒ |u1 i =⇒ |v2 i (5.20)
si por otro lado, realizamos las medidas en el orden opuesto y encontramos los mismos valores propios anteriores
pero en la secuencia b2 ⇒ a1 el esquema será
(b2 ) (a1 )
|ψi =⇒ |v2 i =⇒ |u1 i (5.21)
1
Es decir el patrón de distribución de valores propios en ambos casos debe ser el mismo cuando se hace una gran cantidad de
experimentos de cada tipo.
2
Esto no significa que no puedan existir vectores propios comunes a ambos. Pero si estos existen, no serán suficientes para conformar
una base.
178CAPÍTULO 5. CONSECUENCIAS DE LOS POSTULADOS SOBRE LOS OBSERVABLES Y SUS MEDIDAS

el estado final del sistema no es el mismo en ambos casos. Ahora, las probabilidades en ambos casos serı́an

P (a1 , b2 ) = P (a1 ) × Pa1 (b2 ) = |hψ| u1 i|2 × |hu1 | v2 i|2


P (b2 , a1 ) = P (b2 ) × Pb2 (a1 ) = |hψ| v2 i|2 × |hv2 | u1 i|2

cada uno de estos productos internos da

hψ| u1 i = cos ϕ ; hψ| v2 i = sin (ϕ − θ) ; hu1 | v2 i = hv2 | u1 i = − sin θ

por lo tanto
P (a1 , b2 ) = cos2 ϕ sin2 θ ; P (b2 , a1 ) = sin2 (ϕ − θ) sin2 θ
con lo cual se observa que
P (b2 , a1 ) 6= P (a1 , b2 )
esto significa entonces que dos observables no compatibles no se pueden medir simultáneamente 3 . Se puede ver de
las Ecs. (5.20, 5.21) que la segunda medida genera la pérdida de la información suministrada por la primera. Si por
ejemplo después de la secuencia A ⇒ B representada por (5.20) medimos de nuevo A, no podemos tener certeza
del resultado ya que |v2 i no es autovector de A. Toda la información que se ganó en la primera medida de A se ha
perdido.

5.4. La desviación media cuadrática y el principio de incertidumbre para


observables arbitrarios (opcional)
Supongamos que tenemos dos observables A y B arbitrarios, siguiendo los argumentos de la sección 5.1.3,
definiremos el valor esperado de su conmutador en la forma

iM ≡ h[A, B]i (5.22)

donde M es un número real. Asumamos que el sistema fı́sico está en el estado |ψi. Con base en dicho estado,
construiremos un ket |ϕi y su bra asociado hϕ| en la forma

|ϕi = (A + iλB) |ψi ; hϕ| = hψ| (A − iλB) (5.23)

siendo λ una variable real arbitraria. Estudiaremos las predicciones para el producto de las incertidumbres ∆A, ∆B
donde las incertidumbres se definirán a través de la raı́z de la desviación media cuadrática de cada observable.
La norma al cuadrado de |ϕi se escribe como

hϕ| ϕi = hψ| (A − iλB) (A + iλB) |ψi = hψ| A 2 + iλAB − iλBA + λ2 B 2 |ψi







hϕ| ϕi = A2 + iλ hAB − BAi + λ2 B 2 = A2 + iλ h[A, B]i + λ2 B 2



hϕ| ϕi = λ2 B 2 − λM + A2 ≥ 0 (5.24)

donde hemos usado la Ec. (5.22). Ahora bien, por definición la norma al cuadrado de |ϕi es no negativa para todo
valor de λ. Por tanto, el polinomio cuadrático en λ definido por la ecuación (5.24) debe ser no negativo para todo
λ, esto solo es posible si tal polinomio no posee raı́ces reales en λ o a lo más las raı́ces reales deben ser degeneradas
y corresponder a un mı́nimo local (en cuyo caso la norma de |ϕi es cero para un valor dado de λ, y positiva para
los otros valores). Esto implica que como ecuación cuadrática para λ, el discriminante deber ser negativo o cero



M 2 − 4 A2 B 2 ≤ 0 ⇒ (5.25)

2
2 M 2
A B ≥ (5.26)
4
3
Supongamos que medimos un observable A en el tiempo t y otro observable B en el tiempo t + ∆t. La medición simultánea se puede
definir consistentemente solo si los “lı́mites laterales” ∆t → 0+ (donde se mide en el orden A ⇒ B) y ∆t → 0− (donde se mide en el
orden B ⇒ A) conducen a las mismas predicciones en términos de distribución de probabilidad, y estados. Por esta razón solo se puede
definir adecuadamente la medición simultánea de observables compatibles.
5.4. LA DESVIACIÓN MEDIA CUADRÁTICA Y EL PRINCIPIO DE INCERTIDUMBRE PARA OBSERVABLES A

recordando que |ψi describe el estado del sistema, introducimos dos nuevos observables A 0 , B 0 definidos por

A0 = A − hAi I = A − hψ| A |ψi (5.27)


0
B = B − hBi I = B − hψ| B |ψi (5.28)

donde hAi y hBi son números reales e I es el operador identidad. Es claro que las relaciones de conmutación de
A0 , B 0 coinciden con las de A y B
 0 0
A , B = [A, B] = iM (5.29)
con lo cual el resultado (5.26) también es válido para A 0 y B 0



M2
A02
B 02 ≥ ⇒
4
D ED E M2
(A − hAi)2 (B − hBi)2 ≥
4
y teniendo en cuenta la definición de la raı́z de la deviación media cuadrática Ec. (5.6), tenemos que

M2
(∆A)2 (∆B)2 ≥ ⇒
4
|M |
(∆A) · (∆B) ≥
2
y recordando la definición (5.22) resulta
|h[A, B]i|
(∆A) · (∆B) ≥ (5.30)
2
Si definimos la incertidumbre en los observables como la raı́z de la desviación media cuadrática de su distribución,
esto se puede considerar como una extensión del principio de incertidumbre. Nótese que en este caso el lı́mite inferior
está muy bien definido, precisamente porque hemos definido de manera muy clara el ancho de la distribución por
medio de la raı́z de la desviación media cuadrática.
Vale decir además que solo tendremos un lı́mite inferior no nulo, cuando los observables NO son compatibles (no
conmutantes). Para los observables compatibles no hay un principio de incertidumbre, lo que permite sin ambigüedad
su medición simultánea y la no destrucción de la información por efecto de mediciones adicionales.
Un caso especial muy importante es el de dos variable conjugadas. Se dice que dos observables Q, P son
conjugados si
[Q, P ] = i~
esta es una extrapolación natural del concepto de variables canónicamente conjugadas en mecánica clásica, que
cumplen propiedades similares pero con los corchetes de Poisson en lugar de los conmutadores. Para observables
conjugados, la expresión (5.30) queda en la forma

∆Q · ∆P ≥ ~/2

A su vez, un caso especial de variables conjugadas son los pares de posición y momento (X, P x ), (Y, Py ) y (Z, Pz ).
Se obtiene entonces
∆X · ∆Px ≥ ~/2 ; ∆Y · ∆Py ≥ ~/2 ; ∆Z · ∆Pz ≥ ~/2
que son las relaciones de incertidumbre de Heisenberg (2.31), pero con lı́mites inferiores precisos, lo cual surge de
haber definido de manera precisa las incertidumbres.

5.4.1. Paquetes de mı́nima incertidumbre


Es natural preguntarse por las condiciones que se requieren para obtener un paquete de mı́nima incertidumbre.
Es decir, bajo que condiciones obtenemos la igualdad en la Ec. (5.30). Esto implica imponer la igualdad en las
desigualdades (5.24-5.30). En particular, esto implica que el polinomio cuadrático en λ definido por la ecuación
180CAPÍTULO 5. CONSECUENCIAS DE LOS POSTULADOS SOBRE LOS OBSERVABLES Y SUS MEDIDAS

(5.24) sea nulo y corresponda a un mı́nimo local para algún valor λ 0 (raı́z real degenerada), esto conlleva a la
nulidad de la norma de |ϕi. Lo anterior se obtiene con la anulación del discriminante Ec. (5.25)



M2
M2
A2 B2 = ⇒ A2 = (5.31)
4 4 hB 2 i

que a su vez nos lleva a la solución λ ≡ λ 0 para la cuadrática (5.24)




M 2 A2
λ0 = = (5.32)
2 hB 2 i M

donde hemos usado la Ec. (5.35). Redefiniendo los observables a través de las Ecs. (5.27, 5.28) y teniendo en cuenta
la invarianza del conmutador Ec. (5.29) vemos que los resultados obtenidos para A y B son también válidos para
A0 y B 0 (ya que todos ellos dependen solo de la relación de conmutación Ec. 5.22). Por tanto para el ket
0 
0 
ϕ = A0 + iλB 0 |ψi ; ϕ = hψ| A0 − iλB 0

podemos hacer el mismo procedimiento que se realizó para el ket |ϕi de la Ec. (5.23), y llegar a que la norma de
|ϕ0 i es nula cuando λ = λ0 . Pero la norma es cero si y solo si el ket es nulo, por lo tanto

A0 + iλB 0 |ψi = 0 ⇒
[A − hAi + iλ0 (B − hBi)] |ψi = 0 (5.33)

ası́ mismo las Ecs. (5.31) son aplicables también para A 0 , B 0 con lo cual



02
M2 M 2 A02
A = ; λ0 = = (5.34)
4 hB 02 i 2 hB 02 i M

y teniendo en cuenta que



02 D E
D E
A ≡ (A − hAi)2 ≡ (∆A)2 ; B 02 ≡ (B − hBi)2 ≡ (∆B)2

las Ecs. (5.34) quedan finalmente

M2 M 2 (∆A)2
(∆A)2 = ; λ 0 = = (5.35)
4 (∆B)2 2 (∆B)2 M

la Ec. (5.33) junto con las ligaduras (5.35) nos dictaminan la condición para obtener paquetes de mı́nima incer-
tidumbre. Su solución explı́cita debe realizarse en una base especı́fica y depende de la naturaleza de los operadores
A y B.
Un caso particular de interés surge para variables conjugadas para lo cual definimos A ≡ Q, B ≡ P y M ≡ ~.
La Ec. (5.33) y las ligaduras (5.35) quedan en la forma

~2 ~ 2 (∆Q)2
[Q − hQi + iλ0 (P − hP i)] |ψi = 0 ; (∆Q)2 = ; λ0 = = (5.36)
4 (∆P )2 2 (∆P )2 ~

usando la representación {|qi} y el hecho de que en esta representación P actúa como (~/i)d/dq (ver Ec. 1.205, Pág.
93) se obtiene4
  
~ d
hq| [Q − hQi + iλ0 (P − hP i)] |ψi = 0 ⇒ q − hQi + iλ0 − hP i hq |ψi = 0 ⇒
i dq
 
d
q + ~λ0 − hQi − iλ0 hP i ψ (q) = 0 (5.37)
dq
4
Debe tenerse en cuenta que la Ec. (1.205) fué demostrada para cualquier par de observables conjugados y no solo para posiciones y
momentos.
5.5. PREPARACIÓN DE UN ESTADO 181

para resolver la ecuación diferencial (5.37) es conveniente introducir la función h (q) definida por

ψ (q) = eihP iq/~ h (q − hQi) (5.38)

insertando la Ec. (5.38) en la Ec. (5.37) resulta


 h i
d
q + ~λ0 − hQi − iλ0 hP i eihP iq/~ h (q − hQi) = 0
dq
d h ihP iq/~ i
[q − hQi − iλ0 hP i] eihP iq/~ h (q − hQi) + ~λ0 e h (q − hQi) = 0
dq
i hP i d
[q − hQi − iλ0 hP i] eihP iq/~ h (q − hQi) + ~λ0 h (q − hQi) eihP iq/~ + ~λ0 eihP iq/~ h (q − hQi) = 0
~ dq
d
[q − hQi] h (q − hQi) + ~λ0 h (q − hQi) = 0
dq
sustituyendo
q 0 = q − hQi (5.39)
queda  
d 
q + ~λ0 0 h q 0 = 0
0
(5.40)
dq
cuya solución es
 − q
02

h q 0 = Ce 2λ0 ~ (5.41)
siendo C una constante de normalización que elegiremos como positiva. Reemplazando las Ecs. (5.36, 5.39) en la
solución (5.41), tenemos
h i
(q−hQi)2 (q−hQi) 2
− −
h (q − hQi) = Ce 4(∆Q)2 = Ce 2(∆Q)
(5.42)
finalmente reemplazando (5.42) en (5.38) y normalizando (con constante positiva) resulta
h i
(q−hQi) 2
1 ihP iq/~ −
ψ (q) = q e e 2(∆Q)
(5.43)
4 2
2π (∆Q)

para encontrar el paquete de onda recı́proco, es decir en la base {|pi}, podemos proceder de manera análoga al
desarrollo anterior, o haciendo la transformada de Fourier de la Ec. (5.43). En tal caso se encuentra la función de
onda recı́proca ψ̄ (p) definida por
h i
(q−hP i) 2
1 − ~i hQip − 2(∆P )
ψ̄ (p) = q e e (5.44)
4
2π (∆P )2
En la Sec. 2.12.3, pág. 120, habı́amos demostrado que los paquetes gaussianos son de mı́nima incertidumbre. En
la presente sección hemos demostrado el recı́proco: para dos observables conjugados Q y P , hemos demostrado que
si ∆Q · ∆P es exactamente ~/2, la función de onda asociada con este estado en la representación |qi es un paquete
gaussiano ası́ como la representación de la función de onda en la base |pi.

5.5. Preparación de un estado


Consideremos un sistema fı́sico en el estado |ψi y midamos el observable A, asumiremos que todos los observables
tienen espectro discreto. Si el valor obtenido a n es no degenerado el autovector normalizado |u n i en que se prepara
el sistema es fı́sicamente único, por tanto conocemos perfectamente el estado después de la medida, y además dicho
estado es independiente de |ψi (el estado justo antes de la medida).
Sin embargo, si el autovalor an es degenerado, el estado inmediatamente después de la medida será
gn
X
0 Pn |ψi 1
ψn = = qP cin uin
hψ| Pn |ψi gn k 2
k=1 |cn | i=1
182CAPÍTULO 5. CONSECUENCIAS DE LOS POSTULADOS SOBRE LOS OBSERVABLES Y SUS MEDIDAS

tanto los valores absolutos de los coeficientes c in como sus fases son relevantes. Y puesto que este estado es la
proyección |ψn0 i (normalizada) del vector |ψi sobre el autosubespacio E n tendremos que el autoestado final depende
de |ψi y por lo tanto también los coeficientes c in siempre que En sea de más de una dimensión (si En es de una sola
dimensión, solo hay un vector normalizado fı́sicamente relevante).
Ahora bien, dado que vimos que la medición de otro observable B compatible con A adiciona información sobre
el estado, y se puede medir simultáneamente con A, vemos que si el resultado (a n , bp ) de las dos medidas corresponde
a un único autovector |an , bp i ≡ |n, pi común a A y B no tendremos suma sobre i en (5.17) y resulta
cnp
|ψnp i = |n, pi = eiθ |n, pi
|cnp |

que es fı́sicamente equivalente a |n, pi. En otras palabras, el autoespacio E np de autovectores comunes a A y B con
valores propios an y bp es de una dimensión y por tanto define fı́sicamente un único vector normalizado. Por tanto,
la especificación de estos dos valores determina el estado final de manera única e independiente de |ψi.
Podrı́a ocurrir sin embargo que existan varios vectores |n, p, ii linealmente independientes que conduzcan al
mismo par (an , bp ) de valores propios de A y B, es decir el espacio E np no es unidimensional y para determinar la
proyección de |ψi sobre Enp se requiere conocer a |ψi. En este caso podemos ganar más información introduciendo
un tercer observable C compatible con los otros dos y medir su valor propio c q . El proceso debe continuar hasta que
se remueva completamente la degeneración es decir cuando el autoespacio E npq... sea unidimensional, en cuyo caso
el estado |npq . . .i es fı́sicamente único.
Por otro lado, es posible que la medición de cierto conjunto de autovalores especı́ficos sea suficiente para de-
terminar el estado de manera única, pero cuando el mismo sistema me arroja otros valores propios las medidas
podrı́an resultar insuficientes. Por ejemplo, si medimos el observable A y se obtiene el valor no degenerado a 1 , el
estado estará totalmente determinado. Pero si la medida nos arroja el valor a 2 (degenerado), necesitaremos medir
otro observable compatible para determinar el estado.
La idea por supuesto es determinar un conjunto de observables A 1 , A2 , . . . , Am ; que determine de manera única
el estado después de la medida (independiente de |ψi) sin importar los valores experimentales obtenidos. Para ello
es necesario que todos los autoespacios de la forma E n1 ,n2 ,...,nm sean unidimensionales. En otras palabras, el conjunto
completo de autovectores {|n1 , n2 , . . . , nm i} común a los observables A1 , A2 , . . . , Am no debe presentar degeneración
para ningún conjunto posible de medidas (a n1 , . . . , anm ). Esto indica entonces que el conjunto {A 1 , A2 , . . . , Am }
forma un C.S.C.O. (ver sección 1.23). Adicionalmente, es natural pensar que el conjunto {A 1 , A2 , . . . , Am } sea
minimal en el sentido de que al remover un observable del conjunto el sistema ya no sea un C.S.C.O. Usualmente
se asume que un C.S.C.O. dado es minimal a menos que se indique lo contrario.
Los métodos para preparar un sistema cuántico en un estado bien definido son similares en principio a los
que se usan para polarizar luz. Cuando se coloca un polarizador en el camino de un haz de luz, la luz que sale
está polarizada en una dirección especı́fica caracterı́stica del polarizador, e independiente del estado de polarización
de la luz incidente. Similarmente se pueden construı́r dispositivos para preparar un sistema cuántico de manera que
solo permitan el paso de un estado correspondiente a un autovalor especı́fico. Si queremos preparar completamente
el estado, será necesario usar m dispositivos que midan a los observables A 1 , .., Am que solo permitan el paso de un
conjunto especı́fico de autovalores (a n1 , ..., anm ).
Es claro que puede haber infinidad de C.S.C.O, si cambiamos el conjunto completo de observables compatibles,
obtendremos otros estados del sistema. Para entender mejor esto, recordemos que los autoestados están definidos
no solo por el sistema a estudiar sino también por los aparatos de medición (ver sección 2.7.2, pág 106).

5.6. Propiedades adicionales de la ecuación de Schrödinger


Hemos establecido formalmente en el sexto postulado, que la ecuación de Schrödinger es la ecuación de evolución
de los estados de sistemas cuánticos no relativistas. Veremos algunas propiedades adicionales de esta ecuación (ver
sección 3.3)

5.6.1. Aspectos adicionales sobre la conservación de la probabilidad (opcional)


Hemos visto que la norma de los estados permanece invariante en el tiempo cuando la ecuación de Schrödinger
es la ecuación de evolución, lo cual es esencial para la conservación de la probabilidad. Adicionalmente para una
5.6. PROPIEDADES ADICIONALES DE LA ECUACI ÓN DE SCHRÖDINGER 183

partı́cula sometida a un potencial que solo depende de la posición V (r, t) cuyo Hamiltoniano es

P2
H= + V (R, t)
2m
podemos encontrar una ecuación de continuidad que nos expresa la conservación local de la probabilidad en la forma
∂ρ
+ ∇ · J = 0 ; ρ ≡ ψψ ∗ = |ψ (r, t)|2 (5.45)
∂t   
~ ∗ ∗ 1 ∗ ~
J ≡ [ψ ∇ψ − ψ∇ψ ] = Re ψ ∇ψ (5.46)
2mi m i
siendo ρ, J la densidad y corriente de probabilidad respectivamente. Escribamos J en la forma
          ∗ 
1 ∗ ~ ~ ∗ 1 ∗ ~ ~
J ≡ ψ ∇ ψ−ψ ∇ ψ = ψ ∇ ψ − ψ − ∇ψ
2m i i 2m i i
    ∗ 
1 ~ ~
= hψ| ri ∇ hr| ψi + hr| ψi ∇ hr| ψi
2m i i
1 1
J = [hψ| ri hr| P |ψi + hr| ψi hr| P |ψi∗ ] = [hψ| ri hr| P |ψi + hψ| P |ri hr| ψi]
2m 2m
1
J = {hψ| [|ri hr| P + P |ri hr|] |ψi}
2m
donde hemos usado la Ec. (1.189). Finalmente
 
1 P P
J = [hψ| K (r) |ψi] ; K (r) ≡ |ri hr| + |ri hr| (5.47)
2 m m
para la densidad de corriente es más fácil ver que

ρ = [hψ| [|ri hr|] |ψi] = hψ| % (r) |ψi ; % (r) ≡ |ri hr| (5.48)

si comparamos las Ecs. (5.47, 5.48) con la Ec. (5.2), vemos que la densidad y la corriente de probabilidad se pueden
ver como el valor esperado de los operadores K (r) y % (r) respectivamente. Ahora bien, en coordenadas cartesianas
los momentos canónicos son los momentos lineales (cuando el potencial no depende de la velocidad). Por tanto,
P/m se puede considerar el “operador velocidad” V. En consecuencia, el “operador densidad de corriente” K (r)
está relacionado con el operador densidad % (r) en la forma
1
K (r) ≡ {%V + V%}
2
que corresponde a la cuantización de la relación J =ρv, pero adecuadamente simetrizada.
Si la partı́cula se coloca en un campo electromagnético descrito por los potenciales φ (r, t) y A (r, t) , el Hamil-
toniano asociado es (ver Ec. 4.10)

[P − qA (R, t)]2
H= + V̄ (R, t) ; V̄ (R, t) ≡ qφ (R, t) + V (R) (5.49)
2m
donde V (R) es un potencial escalar que describe una interacción adicional a la del campo electromagnético sobre
la partı́cula. Con un procedimiento similar al de la sección 3.3.4, la densidad de corriente resultante es
   
1 ∗ ~
JEM = Re ψ ∇ − qA ψ (5.50)
m i

que también se puede obtener de la corriente (5.46) simplemente reemplazando P → P − qA, o equivalentemente
~ ~
i ∇ → i ∇ − qA (R, t).
Un ejemplo sencillo para el cálculo de ρ y J es la onda plana. Sea un estado (no estrictamente fı́sico) descrito
por una onda plana
ψ (r, t) = Aei(k·r−ωt)
184CAPÍTULO 5. CONSECUENCIAS DE LOS POSTULADOS SOBRE LOS OBSERVABLES Y SUS MEDIDAS

la densidad de probabilidad es claramente


ρ = ψψ ∗ = |A|2
que es uniforme y constante. El cálculo de J (r, t) es inmediato
     
1 ~ 1 ~A i(k·r−ωt)
J = Re ψ ∗ ∇ψ = Re A∗ e−i(k·r−ωt) ∇e
m i m i
   n o
1 ~A 1
J = Re A∗ e−i(k·r−ωt) ikei(k·r−ωt) = Re ~ |A|2 k
m i m
~k
J = |A|2 (5.51)
m
y recordando que vg = ~k/m es la velocidad de grupo asociada al momento ~k (sección 2.11 Ec. 2.41). Vemos
que esta corriente también es análoga a la relación clásica J = ρv. La corriente generada por una onda plana es
estacionaria (independiente del tiempo) y además es uniforme y homogénea.

5.7. Evolución del valor esperado de un observable y su relación con la


mecánica clásica
Si A es un observable, su valor esperado cuando el sistema está en el estado |ψ (t)i se escribe como

hAi (t) = hψ (t)| A |ψ (t)i

Vale decir que el valor medio o esperado solo depende de t ya que por ejemplo si usamos la representación de
{|ri} este valor esperado corresponde a una integral sobre todo el espacio para un tiempo fijo. En contraste, el
observable clásico A (r, p, t) asume un valor para ciertas posiciones y momentos especı́ficos en un tiempo dado (ya
que las partı́culas están localizadas y sus momentos se pueden medir simultáneamente junto con las posiciones).
Para estos observables clásicos, la dependencia con el tiempo puede ser tanto explı́cita como implı́cita, es decir a
través de r (t) y p (t).
Cuando cuantizamos el observable asignamos a la cantidad clásica A (r, p, t) el operador hermı́tico A ≡ A (R, P, t).
Obsérvese que ni los autoestados ni los autovalores de los operadores R y P dependen del tiempo, por tanto los
observables cuánticos R y P no pueden dar cuenta de una dependencia implı́cita con el tiempo. En conclusión, los
observables cuánticos solo dependen del tiempo de manera explı́cita. En cuanto al valor esperado del observable, la
variación temporal de hAi se debe tanto a la variación temporal del estado |ψ (t)i (dictaminada por la ecuación de
Schrödinger), como a la variación temporal del observable mismo A (t). Si usamos por ejemplo la representación de
coordenadas, el valor esperado de A queda
Z  
3 ∗ ~
hAi = d r ψ (r, t) A r, ∇, t ψ (r, t)
i

de lo cual es claro que esta cantidad solo depende del tiempo, ya que está integrada sobre las variables espaciales.
Vamos a estudiar la variación temporal del valor esperado de un observable arbitrario y a relacionarla con la
variación temporal clásica. Derivando el valor esperado con respecto al tiempo resulta
     
d d ∂A d
hψ (t)| A |ψ (t)i = hψ (t)| A |ψ (t)i + hψ (t)| |ψ (t)i + hψ (t)| A |ψ (t)i
dt dt ∂t dt

donde hemos usado que dA/dt = ∂A/∂t ya que un observable cuántico solo puede depender del tiempo de manera
explı́cita. Usando las Ecs. (3.23, 3.24) tenemos
     
d 1 ∂A 1
hψ (t)| A |ψ (t)i = hψ (t)| − H (t) A |ψ (t)i + hψ (t)| |ψ (t)i + hψ (t)| A H (t) |ψ (t)i
dt i~ ∂t i~
 
d 1 ∂A
hψ (t)| A |ψ (t)i = hψ (t)| [AH − HA] |ψ (t)i + hψ (t)| |ψ (t)i
dt i~ ∂t
5.7. EVOLUCIÓN DEL VALOR ESPERADO DE UN OBSERVABLE Y SU RELACI ÓN CON LA MECÁNICA CLÁS

quedando finalmente  
d 1 ∂A
hAi = h[A, H]i + (5.52)
dt i~ ∂t
vale recordar que en el formalismo clásico Hamiltoniano, un observable A cl que es función de las variables del espacio
de fase y del tiempo es decir Acl = Acl (q, p, t), posee una evolución temporal dada por
dAcl ∂Acl
= [Acl , H]pois + (5.53)
dt ∂t
donde en lugar del conmutador, está el corchete de Poisson entre el observable  y el Hamiltoniano. Volviendo al
problema cuántico, veremos que el valor esperado (y no el operador A r, ~i ∇, t ) es el que debe ser comparado con
el correspondiente observable clásico.

5.7.1. Evolución temporal de los valores esperados de R, P: Teorema de Ehrenfest


Dado que R, P son todos los observables fundamentales para la cuantización de una partı́cula sin espı́n, es
necesario explorar la evolución temporal de sus valores esperados. Si bien estos observables no dependen del tiempo,
sus valores esperados sı́ poseen una dependencia temporal proveniente de la evolución del estado |ψ (t)i.
Asumiendo un Hamiltoniano de la forma
P2
H= + V (R) (5.54)
2m
asignando A → R en la Ec. (5.52) y usando el Hamiltoniano (5.54) tenemos
     
d 1 P2 ∂R 1 P2 1
hRi = R, + V (R) + = R, + h[R, V (R)]i
dt i~ 2m ∂t i~ 2m i~

y usando las propiedades de los conmutadores (1.36-1.41) ası́ como las relaciones canónicas de conmutación (4.9)
obtenemos    
d 1 1 i~I i~I
hRi = h[R, P] Pi + hP [R, P]i = P + P
dt 2mi~ 2mi~ 2mi~ 2mi~
quedando finalmente
d 1
hRi = hPi
dt m
similarmente el valor esperado para P es
     
d 1 P2 ∂P 1 P2 1
hPi = P, + V (R) + = P, + h[P, V (R)]i
dt i~ 2m ∂t i~ 2m i~
d 1
hPi = h[P, V (R)]i
dt i~
y usando la Ec. (1.139) pág. 67, se obtiene

[P, V (R)] = −i~∇V (R)

se obtienen entonces la relaciones fundamentales


d 1 d
hRi = hPi ; hPi = − h∇V (R)i (5.55)
dt m dt
estas dos ecuaciones se conocen como teorema de Ehrenfest. Muy semejantes a las relaciones asociadas a sus
correspondientes observables clásicos.
En virtud de la similitud con las relaciones clásicas, es natural buscar el lı́mite clásico a través del teorema de
Ehrenfest Ecs. (5.55). La función de onda ψ (r, t) que describe el estado de una partı́cula, es en general un paquete
de ondas. hRi representa tres coordenadas hX i i que en general dependen del tiempo. Al punto definido por hRi (t)
en el instante t, lo llamaremos el centro del paquete de onda en tal instante. Nótese que si el paquete es asimétrico
el centro del paquete será en general diferente del punto en donde la amplitud es máxima. Cuando movemos el
186CAPÍTULO 5. CONSECUENCIAS DE LOS POSTULADOS SOBRE LOS OBSERVABLES Y SUS MEDIDAS

parámetro tiempo el punto hRi (t) se mueve en el espacio generando la trayectoria del centro del paquete. Por
supuesto, esta trayectoria no se puede asociar a la partı́cula cuyo estado está descrito por el paquete completo que
tiene una extensión dada5 . Sin embargo, si la extensión del paquete de ondas es mucho menor que todas las demás
longitudes involucradas en el problema, podemos aproximar el paquete de ondas por su centro y la descripción
clásica resultará una buena aproximación.
La pregunta natural es entonces si el movimiento del centro del paquete de onda obedece las leyes de la mecánica
clásica. La respuesta yace en el teorema de Ehrenfest, la primera de las Ecs. (5.55) nos dice que la velocidad del
centro del paquete es igual al momento promedio del paquete dividido por m. Por tanto la segunda de las Ecs.
(5.55) se puede escribir como
d2 hRi
m = − h∇V (R)i
dt2
por tanto, el centro del paquete seguirá una trayectoria clásica solo si la cantidad − h∇V (R)i coincide con la fuerza
clásica en el punto donde se ubica el centro del paquete

Fcl = [−∇V (r)]r=hRi

debemos observar sin embargo que − h∇V (R)i es en realidad el valor promedio de la fuerza sobre el paquete
completo, que no necesariamente debe coincidir con su valor en el centro del paquete

h∇V (R)i 6= [∇V (r)]r=hRi (5.56)

lo cual se puede expresar diciendo que el valor medio de una función no es en general igual al valor que toma cuando
se evalúa en el valor medio de la variable. Esto se puede ver con facilidad tomando un ejemplo especı́fico, sea un
potencial de la forma
V (x) = λxn (5.57)
siendo λ una constante real y n un entero positivo. La cuantización de este potencial nos lleva a

V (X) = λX n (5.58)

el lado izquierdo de (5.56) nos da


   
d d

V (X) = (λX n ) = λn X n−1
dx dx

en tanto que el lado derecho de (5.56) es


   
d d  
V (x) = n
(λx ) = nλxn−1 x=hXi = λn hXin−1
dx x=hXi dx x=hXi



y en general X n−1 6= hXin−1 . Por ejemplo, para n = 3 se tiene que X 2 6= hXi2 y la diferencia entre ambas es
proporcional a la raı́z de la desviación media cuadrática definida en la Ec. (5.7).
Sin embargo, para n = 0 (partı́cula libre), n = 1 (partı́cula en un campo de fuerzas uniforme) y n = 2 (partı́cula
en un potencial parabólico i.e. un oscilador armónico), la igualdad sı́ se cumple y vemos que el centro del paquete
de onda en estos casos obedece las leyes de la mecánica clásica.
Por otro lado, aunque los dos lados de (5.56) no son en general iguales, ocurre que en algunas circunstancias
(escenarios semiclásicos) la diferencia entre ambos es despreciable, esto ocurre cuando el paquete de onda es lo
suficientemente localizado. Para verlo, escribamos el lado izquierdo de (5.56) en la base {|ri}.
Z Z
h∇V (R)i = d3 r ψ ∗ (r, t) [∇V (r)] ψ (r, t) = d3 r |ψ (r, t)|2 ∇V (r) (5.59)

asumir el paquete muy localizado equivale a decir que |ψ (r, t)| 2 es una distribución que toma valores no despreciables
solo en cierto dominio cuyas dimensiones son mucho mas pequeñas que las distancias sobre las cuales ∇V (r)
5
Nótese incluso que cada punto en esta trayectoria no necesariamente coincide con el punto de máxima densidad de probabilidad en
cada instante.
5.8. SOLUCIONES DE LA ECUACIÓN DE SCHRÖDINGER PARA SISTEMAS CONSERVATIVOS 187

varı́a apreciablemente. Por tanto, en este dominio centrado alrededor de hRi, la cantidad ∇V (r) es prácticamente
constante. En tal caso se puede reemplazar ∇V (r) en (5.59) por su valor en r = hRi y se puede sacar de la integral en
(5.59), y teniendo en cuenta que ψ (r, t) está normalizada, se obtiene que para paquetes suficientemente localizados
tenemos que
h∇V (R)i ∼= [∇V (r)]r=hRi (5.60)
es claro en particular que en el lı́mite macroscópico en el cual las longitudes de onda de De Broglie son mucho
menores que las distancias sobre las cuales los potenciales y sus gradientes varı́an, los paquetes de onda pueden ser
lo suficientemente localizados para satisfacer la Ec. (5.60) y al mismo tiempo mantener un momento bien definido.
Este último punto es muy importante, ya que no basta con que hRi se comporte de manera semejante al valor
clásico de posición para llegar a un escenario clásico, pues un paquete muy localizado en hRi implica que el paquete
de onda en el espacio de los momentos puede ser muy disperso, y tendrı́amos que aunque hPi pueda tener un
comportamiento similar al valor clásico, la dispersión de hPi significará una incertidumbre enorme en su medida lo
cual nos aleja del escenario clásico. Por tanto, es necesario que los valores de ∆r y ∆p compatibles con el principio
de incertidumbre sean mucho menores que todas las distancias y momentos involucradas en el problema, situación
que en general se cumple en los sistemas macroscópicos.
Bajo las condiciones anteriores, el movimiento del paquete de onda es prácticamente el de una partı́cula clásica
de masa m sometida al potencial V (r). Vemos como era de esperarse que la ecuación de Schrödinger genera las
soluciones clásicas con ciertas condiciones lı́mite apropiadas que en particular son satisfechas por los sistemas
macroscópicos.

5.8. Soluciones de la ecuación de Schrödinger para sistemas conservativos


En mecánica clásica, si el Hamiltoniano no depende explı́citamente del tiempo, es una constante de movimiento
en virtud de que su derivada total coincide con su derivada parcial. Si además el Hamiltoniano coincide con la energı́a
del sistema entonces la energı́a total del sistema es constante en el tiempo y hablamos de un sistema conservativo.
Es natural entonces averiguar por las propiedades de un sistema conservativo cuando cuantizamos un Hamiltoniano
que es clásicamente constante de movimiento y que corresponde a la energı́a del sistema.
Consideremos en primer lugar la ecuación de valores propios del Hamiltoniano
H |ϕn,τ i = En |ϕn,τ i (5.61)
asumiremos por simplicidad un espectro discreto. El ı́ndice τ denota la degeneración de los valores propios que puede
corresponder a varios ı́ndices. Tales ı́ndices nos fijarán los autovalores de observables que constituyen un C.S.C.O.
junto con H. Puesto que H no depende explı́citamente del tiempo, los autovalores E n y autovectores |ϕn,τ i tampoco
dependerán del tiempo.
Hemos visto para un caso especı́fico de sistema conservativo (ver sección 3.2) que la Ec. de Schrödinger se puede
solucionar a partir de este problema de valores propios. En este caso veremos que la Ec. (5.61) también se puede
utilizar para resolver la ecuación de Schrödinger. Teniendo en cuenta que H es observable, podemos expandir la
solución de la Ec. de Schrödinger en términos de la base {|ϕ n,τ i}
X
|ψ (t)i = cn,τ (t) |ϕn,τ i ; cn,τ (t) ≡ hϕn,τ |ψ (t)i (5.62)
n,τ

nótese que toda la dependencia temporal de |ψ (t)i está contenida en los c n,τ (t). Aplicando el bra hϕn,τ | sobre la
ecuación de Schrödinger y teniendo en cuenta que este bra no depende del tiempo
d
i~ hϕn,τ |ψ (t)i = hϕn,τ | H |ψ (t)i (5.63)
dt
y dada la hermiticidad de H el hermı́tico conjugado de (5.61) es
hϕn,τ | H = En hϕn,τ | (5.64)
aplicando (5.64) y la segunda Ec. (5.62) en (5.63) se obtiene
d
i~ cn,τ (t) = En cn,τ (t)
dt
188CAPÍTULO 5. CONSECUENCIAS DE LOS POSTULADOS SOBRE LOS OBSERVABLES Y SUS MEDIDAS

la cual se puede integrar directamente para obtener

cn,τ (t) = cn,τ (t0 ) e−iEn (t−t0 )/~ (5.65)

por tanto, si H no depende del tiempo podemos encontrar a |ψ (t)i a partir de su valor inicial |ψ (t 0 )i en la siguiente
forma
(a) Expandimos el valor inicial del estado en la base de autoestados de H
XX
|ψ (t0 )i = cn,τ (t0 ) |ϕn,τ i ; cn,τ (t0 ) ≡ hϕn,τ |ψ (t0 )i (5.66)
n τ

(b) En virtud de las Ecs. (5.62) y (5.65), multiplicamos cada sumando en la expansión (5.66) por la fase e −iEn (t−t0 )/~ ,
siendo En el autovalor asociado a los autoestados |ϕ n,τ i
XX
|ψ (t)i = cn,τ (t0 ) e−iEn (t−t0 )/~ |ϕn,τ i (5.67)
n τ

para el caso de espectro contı́nuo se realiza un procedimiento análogo para obtener


XZ
|ψ (t)i = dE cτ (E, t0 ) e−iE(t−t0 )/~ |ϕE,τ i (5.68)
τ

o si la degeneración τ también es contı́nua tenemos


Z Z
|ψ (t)i = dτ dE c (τ, E, t0 ) e−iE(t−t0 )/~ |ϕE,τ i

nótese finalmente que los sumandos en (5.67) poseen fases diferentes para diferentes valores de n. Por tanto, dichas
fases son fı́sicamente relevantes y producen fenómenos de interferencia.

5.8.1. Estados estacionarios


Un caso especial importante surge cuando el estado inicial del sistema |ψ (t 0 )i coincide con un ket propio de H.
En tal caso la expansión (5.66) viene dada por autoestados de H asociados a un solo valor propio
X
|ψ (t0 )i = cn,τ (t0 ) |ϕn,τ i (5.69)
τ

y dado que no hay suma sobre n, la Ec. (5.67) para el estado |ψ (t)i queda
X
|ψ (t)i = e−iEn (t−t0 )/~ cn,τ (t0 ) |ϕn,τ i = e−iEn (t−t0 )/~ |ψ (t0 )i
τ

de modo que el estado inicial y el estado en cualquier tiempo solo difieren en una fase global fı́sicamente irrelevante.
Por tanto, todas las propiedades fı́sicas de sistemas que están inicialmente preparados en un autoestado de H,
permanecen inalteradas en el tiempo. Por esta razón a los estados propios del Hamiltoniano se les denomina estados
estacionarios.
De aquı́ surge además la manifestación cuántica de la conservación de la energı́a para sistemas conservativos. Si
en el tiempo t0 medimos la energı́a de un sistema conservativo y encontramos el valor E n , el sistema queda preparado
luego de la medición en un autoestado de H dado por (5.69) con valor propio E n . A partir de este momento se puede
aplicar la ecuación de Schrödinger tomando este autoestado de H como estado inicial, pero dado que dicho estado es
estacionario, no se genera fı́sicamente evolución temporal y para todo tiempo el estado continúa siendo autoestado
de H con energı́a En . En consecuencia, una segunda medida de la energı́a del sistema en cualquier tiempo posterior
nos dará el mismo valor de energı́a E n obtenido en la primera medición.
Finalmente, vale la pena señalar que lo anterior nos conduce a que solo hay evolución cuando la energı́a en el
estado inicial no está bien definida (de manera que hay varias fases de la forma e −iEk (t−t0 )/~ ). Esto nos llevará más
adelante a una relación de incertidumbre entre el tiempo de evolución y la energı́a.
5.8. SOLUCIONES DE LA ECUACIÓN DE SCHRÖDINGER PARA SISTEMAS CONSERVATIVOS 189

5.8.2. Constantes de movimiento

La Ec. (5.52) nos dice que la cantidad hAi será constante de movimiento si se cumplen las condiciones

∂A
= 0 ; [A, H] = 0 (5.70)
∂t

aplicando estas condiciones en (5.52) se obtiene que

d hAi d
= hψ (t)| A |ψ (t)i = 0 (5.71)
dt dt

para cualquier estado |ψ (t)i del sistema. Es claro que si se cumplen las condiciones (5.70) el valor medio de A
será constante de movimiento6 . En consecuencia, definiremos por extensión que un observable A es constante de
movimiento si cumplen las condiciones (5.70). En palabras, un observable es constante de movimiento si no depende
explı́citamente del tiempo y conmuta con el Hamiltoniano. En particular si H no depende del tiempo (sistemas
conservativos), H como tal es constante de movimiento.
Veremos que si A es constante de movimiento hay algunas consecuencias fı́sicas adicionales. En primer lugar,
puesto que A y H son observables que conmutan, poseen un conjunto común completo de kets propios

H |ϕn,p,τ i = En |ϕn,p,τ i ; A |ϕn,p,τ i = ap |ϕn,p,τ i

de nuevo asumimos espectros discretos por simplicidad 7 . El ı́ndice τ fija los valores propios de observables que
forman un C.S.C.O. con H y A. Ahora bien, los kets |ϕ n,p,τ i son autoestados de H y por tanto son estados
estacionarios (siempre que H no dependa del tiempo). En consecuencia, si |ϕ n,p,τ i define el estado inicial del sistema,
permanecerá en este estado indefinidamente (excepto por una fase global irrelevante). No obstante, |ϕ n,p,τ i también
es ket propio de A. En consecuencia, cuando A es una constante de movimiento, existen estados estacionarios
|ϕn,p,τ i del sistema fı́sico que permanecen para todo tiempo como autoestados de A con el mismo autovalor a p . Por
esta razón a los autovalores de A se les denomina números cuánticos buenos. Es claro que si |ϕ n,p,τ i es el estado
inicial, el valor de la energı́a y de a p serán siempre el mismo sin importar el tiempo en que se midan, el orden en
que se midan (son observables compatibles), o cuantas veces se midan, además hay una certeza total en sus valores
(ambas cantidades están bien definidas y se conservan).
Ahora supongamos que el estado inicial no es del tipo |ϕ n,p,τ i, sino un ket arbitrario |ψ (t0 )i. Veremos que si el
sistema es conservativo, la probabilidad de encontrar un cierto valor a p es independiente del tiempo cuando se mide
la constante de movimiento A. Expandiendo |ψ (t 0 )i en la base {|ϕn,p,τ i} se tiene

XXX
|ψ (t0 )i = cn,p,τ (t0 ) |ϕn,p,τ i
n p τ

y aplicando el procedimiento descrito por las Ecs. (5.66) y (5.67) se obtiene

XXX
|ψ (t)i = cn,p,τ (t) |ϕn,p,τ i ; cn,p,τ (t) = cn,p,τ (t0 ) e−iEn (t−t0 )/~
n p τ

y usando el postulado de descomposición espectral, la probabilidad P (a p , t) de obtener ap cuando A se mide sobre

6


Si se pide ∂A
∂t
= h[A, H]i = 0, entonces la Ec. (5.71) solo será válida para un estado o estados especı́ficos |ψ (t)i. La idea aquı́ es
estudiar constantes de movimiento inherentes al sistema y no a condiciones iniciales especı́ficas.
7
Si en lugar de la Ec. (5.70) asumimos la condición más débil ∂A
∂t
+ [A, H] = 0, tenemos que A no conmuta en general con H. Por
tanto, aunque tal condición conduce a la conservación de hAi Ec. (5.71), no conduce a la existencia de una base común para A y H de
modo que las consecuencias fı́sicas adicionales que discutiremos aquı́, no son válidas para esta condición más débil.
190CAPÍTULO 5. CONSECUENCIAS DE LOS POSTULADOS SOBRE LOS OBSERVABLES Y SUS MEDIDAS

el sistema en el tiempo t (y por tanto en el estado |ψ (t)i) está dado por


2
X X X
2

P (ap , t) = |hϕn,p,τ |ψ (t)i| = hϕn,p,τ | cn0 ,p0 ,τ 0 (t) ϕn0 ,p0 ,τ 0

n,τ n,τ n 0 p0 τ 0
2 2
X X
X X

= c 0 0 0 (t) hϕ ϕ 0 0 0 = c 0 0 0 (t) δ 0 δ 0 δ 0
n ,p ,τ n,p,τ n ,p ,τ n ,p ,τ n,n p,p τ,τ

n,τ n p τ
0 0 0
n,τ n p τ 0 0 0
XX X X
= |cn,p,τ (t)|2 = cn,p,τ (t) c∗n,p,τ (t)
n τ n τ
XX
−iEn (t−t0 )/~
P (ap , t) = cn,p,τ (t0 ) e c∗n,p,τ (t0 ) eiEn (t−t0 )/~
n τ

cada fase se anula y se obtiene XX


P (ap , t) = |cn,p,τ (t0 )|2 = P (ap , t0 )
n τ
lo cual prueba la independencia con el tiempo de esta distribución de probabilidad. En particular, si en t 0 el sistema
está en un autoestado de A con autovalor a m , de modo que P (ak , t0 ) = δkm , esta probabilidad no evoluciona en el
tiempo; por lo tanto, para cualquier instante se obtiene la misma medida a m , y el estado del sistema en cualquier
tiempo continúa siendo autoestado de A con valor propio a m .

5.8.3. Frecuencias de Bohr de un sistema y reglas de selección


Sea B un observable del sistema que estamos estudiando y que no necesariamente conmuta con H. La evolución
temporal de hBi está dada por la Ec. (5.52)
 
d 1 ∂B
hBi = h[B, H]i +
dt i~ ∂t

para un sistema conservativo el estado en cualquier instante vendrá dado por (5.67), con lo cual podemos calcular
el valor esperado de B cuando el sistema está en el estado |ψ (t)i. Para ello necesitamos el bra asociado a (5.67) el
cual viene dado por XX

hψ (t)| = c∗n0 ,τ 0 (t0 ) eiEn0 (t−t0 )/~ ϕn0 ,τ 0 (5.72)


n0 τ0

usando (5.67, 5.72) el valor esperado de B resulta


" # " #
XX
XX
hψ (t)| B |ψ (t)i = c∗n0 ,τ 0 (t0 ) eiEn0 (t−t0 )/~ ϕn0 ,τ 0 B cn,τ (t0 ) e−iEn (t−t0 )/~ |ϕn,τ i
n0 τ0 n τ
XXXX

hBi|ψ(t)i = c∗n0 ,τ 0 (t0 ) cn,τ (t0 ) ϕn0 ,τ 0 B |ϕn,τ i ei(En0 −En )(t−t0 )/~ (5.73)
n0 τ0 n τ

asumiremos de aquı́ en adelante que B no depende explı́citamente del tiempo, en tal caso los elementos matriciales
ϕn0 ,τ 0 B |ϕn,τ i son constantes. De esto y de la Ec. (5.73) se vé que la evolución temporal de hBi (t) se debe
exclusivamente a las fases, es decir a términos oscilantes con frecuencias dadas por
1 |En0 − En | |En0 − En |
νn0 ,n ≡ =
2π ~ h
tales frecuencias son caracterı́sticas del sistema bajo estudio pero son independientes del observable B considerado
y de las condiciones iniciales del sistema (descritas por los coeficientes c ∗n0 ,τ 0 (t0 ) cn,τ (t0 ) ), ya que solo dependen de
los valores propios de H.
Las frecuencias νn0 ,n se denominan las frecuencias de Bohr del sistema. Por ejemplo, para un átomo los valores
esperados de todos los parámetros atómicos (tales como momentos dipolares eléctricos y magnéticos), oscilan a las
varias frecuencias de Bohr del átomo. Es razonable imaginar que estas frecuencias pueden ser absorbidas o emitidas
5.8. SOLUCIONES DE LA ECUACIÓN DE SCHRÖDINGER PARA SISTEMAS CONSERVATIVOS 191

por el átomo, lo cual nos permite entender intuitivamente la relación de Bohr entre las diferentes frecuencias
absorbidas o emitidas y las diferencias en las energı́as atómicas.
Puede verse de (5.73) que aunque las frecuencias involucradas en la evolución temporal de
hBi no dependen
de B, los pesos de cada frecuencia
sı́ dependen de B a través de los elementos matriciales ϕn0 ,τ 0 B |ϕn,τ i. En
particular si hay elementos ϕn0 ,τ 0 B |ϕn,τ i que sean nulos, las correspondientes frecuencias v n0 ,n estarán ausentes
de la expansión de hBi (t) sin importar cual sea el estado inicial del sistema. Este es el origen de las reglas de
selección que nos indican
las frecuencias que pueden ser emitidas o absorbidas bajo las condiciones dadas. Los
elementos de matriz ϕn ,τ B |ϕn,τ i nos dicen la importancia de cada frecuencia de Bohr.
0 0

De lo anterior vemos que el estudio de las reglas de selección proviene del cálculo de los elementos no diagonales
ϕn0 ,τ 0 B |ϕn,τ i de los diversos observables atómicos (o de cualquier otro sistema cuántico) tales como los dipolos
eléctricos y magnéticos.
Por otro lado, la Ec. (5.73) muestra que el peso completo de cada frecuencia está dado por el producto
 XX ∗

W n, n0 = cn0 ,τ 0 (t0 ) cn,τ (t0 ) ϕn0 ,τ 0 B |ϕn,τ i
τ τ0

y por tanto también depende de las condiciones iniciales por medio de c ∗n0 ,τ 0 (t0 ) cn,τ (t0 ). Vale la pena anotar


que si bien la nulidad de los elementos ϕn0 ,τ 0 B |ϕn,τ i conduce a la ausencia de una frecuencia de Bohr para
cualquier estado inicial del sistema, también se puede dar la ausencia de una frecuencia por la nulidad del producto
c∗n0 ,τ 0 (t0 ) cn,τ (t0 ), es decir por ciertas condiciones iniciales especı́ficas. En particular, si el estado inicial es un estado
estacionario de energı́a Ek la expansión de |ψ (t0 )i solo contiene un valor de n (n = k) y el producto c ∗n0 ,τ 0 (t0 ) cn,τ (t0 )
solo es no nulo para n = n0 = k, en este caso hBi no depende del tiempo y no hay frecuencias de Bohr no triviales,
nótese que esta regla de selección se da por condiciones iniciales y se da para cualquier observable B.
Es interesante ver que de la Ec. (5.73) también podemos verificar que el valor esperado de una constante de
movimiento no depende del tiempo. Al ser B constante de movimiento, no depende explı́citamente del tiempo con
lo cual la dependencia temporal de hBi recae exclusivamente en las fases que contienen la energı́a en la Ec. (5.73).
Ahora bien el teorema 1.68 (pág. 50) nos dice que dado que B conmuta con H (por ser constante
de movimiento),
si |ϕn,τ i y ϕn ,τ corresponden a autovalores diferentes (E n 6= En ) entonces el producto ϕn ,τ B |ϕn,τ i es cero.
0 0 0 0 0

Por tanto para una constante de movimiento solo sobreviven los términos con n = n 0 para los cuales las fases
ei(En0 −En )(t−t0 )/~ serán iguales a la unidad y no habrá dependencia temporal.

5.8.4. Relación de incertidumbre entre tiempo y energı́a


A continuación veremos que los sistemas conservativos presentan la propiedad de que entre mayor sea la incer-
tidumbre en la energı́a, más rápida es la evolución temporal. Para ver esto, definimos ∆t como un intervalo de tiempo
caracterı́stico al final del cual el sistema ha evolucionado de forma apreciable, y ∆E denotará la incertidumbre en
la energı́a.
Veamos primero el caso en el cual la energı́a está completamente definida, esto ocurre cuando el sistema está en
un autoestado de H, de modo que ∆E = 0. Hemos visto que este estado es estacionario y que por tanto no
evoluciona, podemos considerar entonces que el tiempo para que el sistema evolucione apreciablemente es infinito,
vemos entonces que cuando ∆E = 0 se tiene que ∆t → ∞.
Ahora asumamos que el sistema en el estado inicial se encuentra en el estado |ψ (t 0 )i que es una superposición
de solo dos autoestados de H que denotamos por |ϕ 1 i , |ϕ2 i

|ψ (t0 )i = c1 |ϕ1 i + c2 |ϕ2 i (5.74)

el estado en cualquier tiempo será entonces

|ψ (t)i = c1 e−E1 (t−t0 )/~ |ϕ1 i + c2 e−E2 (t−t0 )/~ |ϕ2 i

si medimos la energı́a encontramos E 1 ó E2 . En consecuencia, la incertidumbre en la energı́a es del orden de

∆E ∼
= |E2 − E1 |
192CAPÍTULO 5. CONSECUENCIAS DE LOS POSTULADOS SOBRE LOS OBSERVABLES Y SUS MEDIDAS

ahora consideremos un observable arbitrario B que no conmuta con H. La probabilidad de encontrar en una medida
de B en el tiempo t el valor propio bm (que asumimos no degenerado por simplicidad) asociado con el autovector
|um i nos da

P (bm , t) = |hum |ψ (t)i|2 = hum |ψ (t)i hψ (t) |um i


n h io
= hum | c1 e−E1 (t−t0 )/~ |ϕ1 i + c2 e−E2 (t−t0 )/~ |ϕ2 i
nh i o
× c∗1 eE1 (t−t0 )/~ hϕ1 | + c∗2 eE2 (t−t0 )/~ hϕ2 | |um i

n o
P (bm , t) = c1 e−E1 (t−t0 )/~ hum | ϕ1 i + c2 e−E2 (t−t0 )/~ hum | ϕ2 i
n o
× c∗1 eE1 (t−t0 )/~ hϕ1 | um i + c∗2 eE2 (t−t0 )/~ hϕ2 | um i
= c1 c∗1 hum | ϕ1 i hϕ1 | um i + c2 c∗2 hum | ϕ2 i hϕ2 | um i
+c1 c∗2 e−E1 (t−t0 )/~ eE2 (t−t0 )/~ hum | ϕ1 i hϕ2 | um i + c2 c∗1 e−E2 (t−t0 )/~ eE1 (t−t0 )/~ hum | ϕ2 i hϕ1 | um i

P (bm , t) = |c1 |2 |hum | ϕ1 i|2 + |c2 |2 |hum | ϕ2 i|2 + c1 c∗2 e(E2 −E1 )(t−t0 )/~ hum | ϕ1 i hϕ2 | um i
h i∗
+ c1 c∗2 e(E2 −E1 )(t−t0 )/~ hum | ϕ1 i hϕ2 | um i
n o
P (bm , t) = |c1 |2 |hum | ϕ1 i|2 + |c2 |2 |hum | ϕ2 i|2 + 2Re c1 c∗2 e(E2 −E1 )(t−t0 )/~ hum | ϕ1 i hϕ2 | um i (5.75)
nótese que la interferencia está dada por la diferencia entre las dos fases. Esta ecuación muestra que la probabilidad
oscila entre dos valores extremos, con una frecuencia de Bohr dada por
|E2 − E1 |
v21 =
h
vale la pena mencionar que esta frecuencia de Bohr no dependió del observable, sino de las condiciones iniciales
descritas por la Ec. (5.74), y por supuesto de los valores propios del Hamiltoniano. El tiempo caracterı́stico de
evolución será entonces un periodo de oscilación de la probabilidad
1 h h
∆t ∼
= = ∼
=
ν21 |E2 − E1 | ∆E
con lo cual se obtiene la relación
∆t · ∆E ∼
=h
Asumamos ahora que el espectro de H es contı́nuo y no degenerado. El estado inicial |ψ (t 0 )i se puede escribir
como Z
|ψ (t0 )i = dE c (E) |ϕE i

siendo |ϕE i el ket propio de H con autovalor E. Asumamos que en una gráfica de |c (E)| 2 (densidad de probabilidad
para E) vs. E, la densidad de probabilidad solo es apreciable en un intervalo [E 0 − ∆E/2, E0 + ∆E/2]. La cantidad
∆E representa entonces la incertidumbre en la energı́a del sistema (que depende del algoritmo para elegir el ancho).
El estado en un tiempo t se obtiene de (5.68)
Z
|ψ (t)i = dE c (E) e−iE(t−t0 )/~ |ϕE i

la probabilidad de obtener bm cuando se mide el observable B (de espectro discreto) en el estado |ψ (t)i es
Z 2
2

P (bm , t) = |hum |ψ (t)i| = dE c (E) e −iE(t−t 0 )/~
hum |ϕE i
Z 2
E0 +∆E/2

P (bm , t) ∼
= dE c (E) e−iE(t−t0 )/~ hum |ϕE i (5.76)
E0 −∆E/2
5.9. CONSECUENCIAS FÍSICAS DEL PRINCIPIO DE SUPERPOSICI ÓN 193

en general hum |ϕE i no varı́a en forma rápida con E cuando E varı́a alrededor de E 0 . Si ∆E es lo suficientemente
pequeño, la variación de hum |ϕE i en la integral (5.76) se puede despreciar con respecto a la variación de c (E). Con
lo cual la integral (5.76) se puede aproximar a
Z 2
E0 +∆E/2

P (bm , t) ∼ 2
= |hum |ϕE0 i| dE c (E) e−iE(t−t0 )/~
E0 −∆E/2

cuando esta aproximación es válida vemos que P (b m , t) es proporcional al cuadrado del módulo de la transformada
de Fourier de c (E). Aplicando la propiedad de incertidumbre para la transformada de Fourier, vemos que el ancho
en t de P (bm , t), es decir ∆t está relacionado con el ancho ∆E de |c (E)| 2 por medio de la relación

∆E · ∆t & h

usualmente conocida como la cuarta relación de incertidumbre de Heisenberg. Sin embargo, esta relación es diferente
a la mostrada por las componentes de R y P ya que el tiempo es un parámetro para el cual no existe un operador
cuántico asociado, y las variables H y t no son canónicamente conjugadas.
A priori podrı́a pensarse que la presencia de incertidumbre en la energı́a para un sistema conservativo, entra
en conflicto con la conservación de la energı́a. Debemos observar sin embargo, que el concepto de conservación (o
no conservación) de una cantidad fı́sica involucra la comparación entre dos o más medidas de dicha cantidad. Si el
estado inicial no es estacionario, entonces hay una incertidumbre en la energı́a, tal incertidumbre persiste y puede
evolucionar en el tiempo mientras no se realice una medida. No obstante, cuando se realiza una medida de la energı́a,
el sistema queda preparado en un estado estacionario con energı́a bien definida E n , y ya se discutió que toda medida
posterior de la energı́a dará el mismo valor E n con toda certeza. Lo mismo ocurrirá con cualquier cantidad posterior
de medidas de este observable. Tenemos entonces un principio de conservación puesto que el experimento revela que
para un sistema conservativo, las medidas de esta cantidad fı́sica en diferentes tiempos coinciden siempre. Similar
discusión se puede dar para la conservación del momento u otra cantidad fı́sica.

5.8.5. Cuarta relación de incertidumbre para un paquete de onda unidimensional


Veamos el caso de un paquete de ondas unidimensional. A la incertidumbre ∆p en el momento del paquete le
podemos asociar una incertidumbre en la energı́a de la forma
dE
∆E = ∆p ; E = ~ω ; p = ~k ⇒
dp

∆E = ∆p = vg ∆p (5.77)
dk
por otra parte, el tiempo caracterı́stico de evolución ∆t es el tiempo que le toma a este paquete de onda viajando
a la velocidad vg para “pasar” un punto fijo en el espacio, es decir para que haya recorrido una longitud igual a su
extensión espacial ∆x. Por tanto
∆x
∆t ∼
= (5.78)
vg
y combinando las Ecs. (5.77, 5.78) resulta

∆E · ∆t ∼
= ∆x · ∆p & ~

5.9. Consecuencias fı́sicas del principio de superposición


El primer postulado nos dice que los estados accesibles de un sistema cuántico forman un espacio vectorial
completo, lo cual implica que la superposición lineal (incluso infinita) de estados fı́sicamente realizables también nos
da un estado fı́sicamente realizable. Veremos las consecuencias fı́sicas de este primer postulado.
Hemos mencionado ya los efectos de interferencia que surgen de este primer postulado cuando se combina con
los demás, estos fueron especialmente importantes en la explicación de la dualidad onda partı́cula. Vimos además
que la interferencia se da entre las amplitudes de probabilidad por lo cual debemos examinar tales amplitudes en
forma detallada
194CAPÍTULO 5. CONSECUENCIAS DE LOS POSTULADOS SOBRE LOS OBSERVABLES Y SUS MEDIDAS

5.9.1. Diferencia entre superposición lineal y mezcla estadı́stica


Sean |ψ1 i y |ψ2 i dos estados normalizados ortogonales

hψ1 |ψ1 i = hψ2 |ψ2 i = 1 ; hψ1 |ψ2 i = 0

estos estados podrı́an ser por ejemplo estados propios de un observable B asociados a valores propios diferentes
b1 y b2 . Si el sistema está en el estado |ψ1 i podemos calcular todas las probabilidades concernientes a resultados
de medidas de un cierto observable A. Si asumimos por ejemplo que el autovalor a n de A es no degenerado y
denotamos |un i a su autovector asociado normalizado, la probabilidad de encontrar el valor a n cuando se mide A
sobre el sistema estando éste en el estado |ψ 1 i está dado por

P1 (an ) = |hun |ψ1 i|2

análogamente podemos medir esta probabilidad cuando el sistema está en el estado |ψ 2 i

P2 (an ) = |hun |ψ2 i|2

ahora consideremos un estado normalizado |ψi que se construye como superposición de los estados |ψ 1 i y |ψ2 i

|ψi = c1 |ψ1 i + c2 |ψ2 i ; |c1 |2 + |c2 |2 = 1 (5.79)

este vector estará normalizado si |ψ 1 i y |ψ2 i lo están. Puesto que |ψ1 i y |ψ2 i son autovectores del observable B
correspondientes a valores propios diferentes b 1 y b2 , la probabilidad de medir b1 es |c1 |2 y la de medir b2 es |c2 |2 . Con
frecuencia se dice que cuando el sistema está en el estado |ψi descrito por (5.79), entonces |c 1 |2 es la probabilidad
de encontrar al sistema en el estado |ψ 1 i y |c2 |2 es la probabilidad de encontrarlo en el estado |ψ 2 i, debe decirse sin
embargo que esto solo es cierto si se ejecuta una medida del observable B, ya que si se mide cualquier otro observable
C en general |ψ1 i y |ψ2 i no serán autoestados de C y por tanto luego de la medida el sistema no quedará en ninguno
de estos estados. En este caso se tendrá que expandir a |ψi en autoestados de C (esto es posible dado que es un
observable), y obtener los respectivos coeficientes. Esto nos muestra una vez más que el aparato de medida y la
medida misma juegan un papel muy importante en los postulados.
Volviendo a la distribución de probabilidades para b 1 y b2 , lo anterior podrı́a sugerir erróneamente que N sistemas
idénticos cada uno en el estado |ψi descrito por (5.79), equivalen a otro conjunto compuesto por N |c 1 |2 sistemas
idénticos cada uno en el estado |ψ1 i, junto con N |c2 |2 sistemas idénticos cada uno en el estado |ψ 2 i. A esto se le
denomina una mezcla estadı́stica de los estados |ψ 1 i y |ψ2 i con pesos |c1 |2 y |c2 |2 .
Para chequear esta hipótesis calcularemos la probabilidad de encontrar el autovalor a n cuando medimos A, sobre
el sistema en el estado |ψi. Si interpretamos este estado como una mezcla estadı́stica de los estados |ψ 1 i y |ψ2 i con
pesos |c1 |2 y |c2 |2 , esta probabilidad se puede calcular como la suma ponderada de probabilidades P 1 (an ) y P2 (an ) 8
?
P (an ) = |c1 |2 P1 (an ) + |c2 |2 P2 (an ) (5.80)

por otro lado, aplicando los postulados de la mecánica cuántica, esta probabilidad se calcula como

P (an ) = |hun | ψi|2

la probabilidad es el módulo al cuadrado de la amplitud de probabilidad hu n | ψi. Tal amplitud es la suma de


dos términos
hun | ψi = hun | {c1 |ψ1 i + c2 |ψ2 i} = c1 hun | ψ1 i + c2 hun | ψ2 i
el módulo al cuadrado se calcula con un procedimiento idéntico al que nos llevó a la Ec. (5.75) (excepto por la
ausencia de las exponenciales de la energı́a)

P (an , t) = |c1 |2 |hun | ψ1 i|2 + |c2 |2 |hun | ψ2 i|2 + 2Re {c1 c∗2 hun | ψ1 i hψ2 | un i}
8
Puesto que P1 (an ) es la probabilidad de obtener el valor an cuando el sistema está en el estado |ψ1 i, es claro 2 que en una mezcla
estadı́stica con N muy grande, el número de estados |ψ 1 i que arrojará a n cuando se mide A sobre los N c1 estados |ψ1 i, viene

dada por N c21 P1 (an ). Similarmente, N c22 P2 (an ) es el número de estados |ψ2 i de la mezcla estadı́stica que arrojarán el valor an
en la medición de A. Es claro entonces que la probabilidad de obtener an cuando se mide sobre la mezcla estadı́stica completa es
N |c 2
1 |P1 (an )+N |c2 |P2 (an )
2
lı́mN →∞ N
que coincide con la Ec. (5.80).
5.9. CONSECUENCIAS FÍSICAS DEL PRINCIPIO DE SUPERPOSICI ÓN 195

puesto que las cantidades c1 , c2 , hun | ψ1 i y hψ2 | un i son complejas podemos escribirlas en notación polar

c1 = |c1 | eiθ1 , c2 = |c2 | eiθ2 , hun | ψ1 i = |hun | ψ1 i| eiδ1


hψ2 | un i = hun | ψ2 i∗ = |hun | ψ2 i| e−iδ2

con lo cual la probabilidad queda


n o
P (an , t) = |c1 |2 |hun | ψ1 i|2 + |c2 |2 |hun | ψ2 i|2 + 2Re |c1 | |c2 | |hun | ψ1 i| |hun | ψ2 i| ei(θ1 +δ1 −θ2 −δ2 )
n o
P (an , t) = |c1 |2 |hun | ψ1 i|2 + |c2 |2 |hun | ψ2 i|2 + 2 |c1 | |c2 | |hun | ψ1 i| |hun | ψ2 i| Re ei(θ1 +δ1 −θ2 −δ2 )

quedando finalmente

P (an , t) = |c1 |2 |hun | ψ1 i|2 + |c2 |2 |hun | ψ2 i|2 + 2 |c1 | |c2 | |hun | ψ1 i| |hun | ψ2 i| cos (θ1 + δ1 − θ2 − δ2 )

que se puede reescribir como

P (an , t) = |c1 |2 P1 (an ) + |c2 |2 P2 (an ) + 2 |c1 | |c2 | |hun | ψ1 i| |hun | ψ2 i| cos (θ1 + δ1 − θ2 − δ2 )

este resultado difiere del mostrado en (5.80) en donde se consideró a |ψi como una mezcla estadı́stica. El punto es
que la mezcla estadı́stica no considera los efectos de interferencia contenidos en el producto cruzado que se obtiene
cuando se eleva al cuadrado una suma de amplitudes. El resultado muestra que la probabilidad no depende solo
de los módulos de los pesos |c1 | y |c2 | y de las amplitudes |hun | ψ1 i| y |hun | ψ2 i| sino también de sus fases relativas
θ1 , θ2 , δ1 y δ2 . Nótese sin embargo, que una fase global e iθ multiplicando al estado |ψi no afecta esta probabilidad
puesto que se elimina con su conjugado en el término de interferencia.

5.9.2. Efectos de interferencia en fotones polarizados


Consideremos fotones polarizados que se propagan en la dirección u z en los cuales el estado de polarización
está representado por el operador unitario
1
u = √ (ux + uy ) (5.81)
2
este estado es una superposición de dos estados de polarización ortogonales u x y uy . Esto representa luz polarizada
linealmente a un ángulo de π/4 con respecto a los ejes X e Y .
Si consideráramos u como una mezcla estadı́stica de los estados u x y uy con idénticos pesos, tendrı́amos que
 2
N fotones en el estado u son equivalentes a N × √12 = N2 fotones en el estado ux y N2 fotones en el estado
uy . Si colocáramos en la trayectoria del haz de luz un analizador cuyo eje u 0 sea perpendicular a u (y de modo
que u, u0 generen un plano paralelo a XY), para la mezcla estadı́stica la mitad de los fotones pasarı́a el analizador.
En contraste, tanto la teorı́a cuántica como los experimentos muestran que ninguno de los N fotones en el estado
u pasa el analizador (ver sección 2.7.2).
Este ejemplo muestra que una superposición lineal de la forma (5.81) es diferente a una mezcla estadı́stica de
iguales proporciones entre los estados u x y uy . Nótese por ejemplo que la superposición en (5.81) describe un haz de
luz polarizada a π/4 de los ejes X e Y . En contraste, una mezcla estadı́stica está asociada con un haz no polarizado
puesto que el sistema contiene fotones de diferente polarización la mitad en dirección u x y la otra mitad en la
dirección uy .
La importancia de las fases relativas de los coeficientes de la expansión se puede ilustrar con los siguientes estados
de polarización
1 1 1 1
u1 = √ (ux + uy ) ; u1 = √ (ux − uy ) ; u1 = √ (ux + iuy ) ; u1 = √ (ux − iuy )
2 2 2 2
los cuales difieren solo en las fases relativas de sus coeficientes siendo estas fases 0, π, π/2 y −π/2 respectivamente.
Estos cuatro estados son fı́sicamente distintos: los dos primeros representan luz polarizada linealmente pero en direc-
ciones distintas (el primer estado es ortogonal al segundo). Los dos últimos representan luz polarizada circularmente
(dextrógira y levógira respectivamente).
196CAPÍTULO 5. CONSECUENCIAS DE LOS POSTULADOS SOBRE LOS OBSERVABLES Y SUS MEDIDAS

5.9.3. Suma sobre los estados intermedios

Para ilustrar el uso adecuado del principio de superposición, vamos a examinar dos experimentos ilustrativos.
En esta sección asumiremos que los observables A, B, C tienen un espectro discreto y no degenerado. Asumiremos
también que todas las medidas sucesivas se hacen en intervalos de tiempo cortos, de manera que el sistema no ha
tenido tiempo de evolucionar.
Primer experimento: Asumamos que en cierto tiempo, se midió el observable A y se obtuvo el valor propio
a. El estado después de la medida será el ket propio |u a i asociado con a. Inmediatamente después medimos al
observable C que no conmuta con A y obtenemos el valor c, de modo que el sistema quedará en el estado |v c i. La
probabilidad de que habiendo obtenido el valor a en la primera medida, obtengamos en la segunda medida un valor
c está dada por
Pa (c) = |hvc |ua i|2 (5.82)

Segundo experimento: En este experimento medimos de forma sucesiva los observables A, B, y C que no
conmutan entre sı́. Si Pa (b, c) es la probabilidad de que habiendo obtenido el resultado a en la primera medida se
obtengan los valores b y c en las otras dos, tenemos que esta probabilidad es el producto

Pa (b, c) = Pa (b) × Pb (c)

es decir Pa (b, c) es la probabilidad Pa (b) de que habiendo obtenido el valor a del observable A en la primera medida,
obtengamos b en la segunda, multiplicada por la probabilidad de que habiendo obtenido un valor b del observable
B en la segunda medida obtengamos un valor c de C en la tercera. Si denotamos |w b i al ket propio de B asociado
con el valor propio b, la cantidad Pa (b, c) estará dada por

Pa (b, c) = |hvc | wb i|2 |hwb | ua i|2 (5.83)

Veamos ahora las semejanzas y diferencias entre ambos experimentos. Asumiremos que en ambos experimentos
se han obtenido los mismos valores especı́ficos de A y C. En ambos experimentos el estado después de la medición
de A es |ua i, de hecho el papel de esta medición es el de fijar a |u a i como el estado inicial. Después de la medición de
C en ambos experimentos el estado será |v c i que lo tomaremos como el estado final. Los dos experimentos coinciden
entonces en el estado inicial y en el final.
Para ambos experimentos es posible descomponer el estado justo antes de la medida de C en términos de
autovectores |wb i de B, y decir que entre los estados |u a i y |vc i el sistema puede “pasar” a través de diferentes
“estados intermedios” |wbi i. Cada uno de estos estados intermedios define un posible “camino” entre el estado inicial
|ua i y el estado final |vc i.
De aquı́ surge la diferencia fundamental entre los dos experimentos. En el primero el camino que el sistema
ha tomado para ir desde |ua i hasta |vc i no ha sido determinado experimentalmente, ya que solo hemos medido la
probabilidad Pc (a) de que comenzando en el estado |u a i terminemos en el estado |vc i. En el segundo experimento
el camino para ir desde |ua i hasta |vc i ha sido determinado experimentalmente midiendo el observable B, ya que
esta medida nos permite obtener la probabilidad P a (b, c) de que el sistema comenzando en |u a i, pase a través de
un estado intermedio dado |wb i y termine en el estado |vc i.
La idea ahora es relacionar a Pa (c) con Pa (b, c). Resulta tentador pensar que en el primer experimento el sistema
es “libre de pasar” a través de todos los estados intermedios |w b i, pareciera entonces que la probabilidad global P a (c)
es la suma de todas las probabilidades P a (b, c) asociadas con cada uno de los posibles “caminos”, esto conducirı́a a

?
X
Pa (c) = Pa (b, c) (5.84)
b

veremos que este resultado es incorrecto a la luz de los postulados de la mecánica cuántica. La manera más simple
para relacionar Pa (c) con Pa (b, c) consiste en tomar la fórmula de probabilidad P a (c) Ec. (5.82) y aplicarle la
relación de completez para la base {|w b i}
5.9. CONSECUENCIAS FÍSICAS DEL PRINCIPIO DE SUPERPOSICI ÓN 197

2
X

Pa (c) = |hvc |ua i|2 = hvc |wb i hwb |ua i (5.85)

b
" #" #∗
X X
Pa (c) = hvc |wb i hwb |ua i hvc |wb0 i hwb0 |ua i
b b0
XX
Pa (c) = hvc |wb i hwb |ua i hvc |wb0 i∗ hwb0 |ua i∗
b b0

es conveniente separar los términos en las componentes diagonales b = b 0 y los no diagonales


X XX
Pa (c) = hvc |wb i hwb |ua i hvc |wb i∗ hwb |ua i∗ + hvc |wb i hwb |ua i hvc |wb0 i∗ hwb0 |ua i∗
b b b0 6=b
X XX
Pa (c) = |hvc |wb i|2 |hwb |ua i|2 + hvc |wb i hwb |ua i hvc |wb0 i∗ hwb0 |ua i∗
b b b0 6=b

y teniendo en cuenta la Ec. (5.83) tenemos que


X XX
Pa (c) = Pa (b, c) + hvc |wb i hwb |ua i hvc |wb0 i∗ hwb0 |ua i∗ (5.86)
b b b0 6=b

comparando (5.86) con (5.84) vemos nuevamente que los términos cruzados que aparecen en el cuadrado del módulo
de la suma en (5.85) están ausentes en (5.84), y por tanto todos los efectos de interferencia entre los diferentes
posibles caminos.
Los argumentos anteriores nos muestran que es necesario razonar en términos de amplitudes de probabilidad
para aplicar adecuadamente el principio de superposición. Cuando los estados intermedios del sistema no están
determinados experimentalmente son las amplitudes de probabilidad y no las probabilidades las que se deben
sumar.
Para comprender mejor el error en el razonamiento que nos llevó a la Ec. (5.84), recurrimos al quinto postulado de
reducción del paquete de onda. En el segundo experimento, la medida del observable B involucra una perturbación
del sistema bajo estudio y durante la medida su ket de estado experimenta un cambio abrupto que se manifiesta
como la proyección sobre uno de los estados |w b i, esta perturbación inevitable y fundamental es la responsable de la
desaparición de los efectos de interferencia. En el primer experimento no podemos decir que el sistema fı́sico “pasa”
a través de uno u otro de los estados |w b i, es más acertado decir que el sistema pasa a través de todos los estados
|wb i en forma ponderada. Esto se puede ver teniendo en cuenta que el estado antes de la medida de B del segundo
experimento es |ua i y este también es el estado del sistema en el primer experimento antes de la medida de C, en
el primer experimento el estado antes de la medida de C es
X
|ua i = cb |wb i
b

vemos entonces que cuando no se realiza la medida de B el sistema “está en todos los estados posibles |w b i” aunque
en forma ponderada por los coeficientes c b .
De otra parte si las medidas sucesivas no se hacen en tiempos cortos, es posible realizar razonamientos similares
teniendo en cuenta la evolución del sistema con la ecuación de Schrödinger, y en todo caso la diferencia fundamental
entre superposiciones lineales de estados y mezcla estadı́stica de estados continúa existiendo (ver sección 7.1.2 Pág.
220).
Nótese que estos razonamientos son muy similares a los que se describieron en la sección 2.7 sobre el experimento
de Young de la doble rendija. En él, la densidad de probabilidad de que un fotón emitido por la fuente llegue a
un punto dado M en la pantalla se obtiene primero superponiendo linealmente los campos eléctricos radiados por
cada rendija para luego elevar al cuadrado y obtener la intensidad en M (y por tanto la densidad de probabilidad
deseada). El campo eléctrico hace las veces de la amplitud de probabilidad y la intensidad hace las veces de la
densidad de probabilidad como tal. Cuando no intentamos determinar por cual rendija pasa el fotón (es decir no
198CAPÍTULO 5. CONSECUENCIAS DE LOS POSTULADOS SOBRE LOS OBSERVABLES Y SUS MEDIDAS

determinamos experimentalmente el “estado intermedio”), son los campos eléctricos radiados por cada rendija los que
se deben superponer linealmente y no sus intensidades, con el fin de obtener la intensidad (densidad de probabilidad)
resultante. Podemos decir entonces que el campo radiado por una rendija sobre el punto M representa la amplitud
para un fotón emitido desde la fuente (estado inicial) de pasar a través de tal rendija (estado intermedio) antes de
arrivar al punto M sobre la pantalla (estado final), pero sin la medición del estado intermedio se considera que el
fotón pasa por ambas rendijas (todos los estados intermedios accesibles).
De lo anterior podemos obtener las siguientes conclusiones
(a) Las predicciones probabilı́sticas de la teorı́a cuántica se obtienen siempre elevando al cuadrado el módulo de
una amplitud de probabilidad
(b) Cuando en un experimento particular no se mide un estado intermedio, no se debe razonar en términos de
las probabilidades de los diversos resultados accesibles que se hubieran obtenido en tales medidas. Se debe razonar
en términos de las amplitudes de probabilidad. Esto tiene que ver con que las medidas destruyen la interferencia,
dado que se obtienen valores bien definidos de un observable y un estado intermedio dado. En contraste cuando
una medida no se efectúa, el sistema está simultáneamente en todos los estados intermedios posibles y es esta
simultaneidad la que permite la interferencia.
(c) El hecho de que los estados de un sistema fı́sico se pueden superponer linealmente significa que las amplitudes
de probabilidad con frecuencia tiene la forma de una suma de amplitudes parciales. La correspondiente probabilidad
es entonces igual al módulo al cuadrado de esta suma de términos con lo cual las amplitudes parciales interfieren
entre sı́.

5.10. El principio de superposición para casos en que varios estados están


asociados a una medida
En la anterior sección hemos trabajado el caso de mediciones asociadas a valores propios no degenerados en los
cuales hay un solo estado asociado a cada medida. En este caso la probabilidad de ocurrencia de un evento se ha
escrito como el cuadrado del módulo de una suma de términos (amplitudes). No obstante, cuando hay presencia
de degeneración el cuarto postulado Ec. (4.2) nos dice que la probabilidad de obtener un valor propio degenerado
involucra una suma de cuadrados de módulos. Debe tenerse en cuenta sin embargo que cada sumando en (4.2) puede
a su vez ser el módulo al cuadrado de una suma de amplitudes. Esto implicará discutir con cuidado el uso adecuado
del principio de superposición para obtener la probabilidad asociada a valores propios degenerados.
Por otra parte, existe otro escenario importante en el cual varios estados están asociados con una medición:
cuando la resolución del aparato de medida es insuficiente (como ocurre en la realidad). Hasta el momento hemos
considerado medidas ideales pero es necesario discutir cómo las limitaciones experimentales deben ser manejadas
para obtener predicciones teóricas sobre los resultados. Esta discusión permitirá además extender el quinto postulado
de reducción del paquete de onda a los espectros contı́nuos.

5.10.1. El principio de superposición para valores propios degenerados



Cuando un valor propio an es gn −degenerado, sus kets propios linealmente independientes uin generan un
autosubespacio En de dimensión gn . En este caso, el estado en el cual queda el sistema después de obtener a n en
la medición no está unı́vocamente determinado, ya que depende del estado inicial |ψi (estado justo antes de la
medición). Si el estado inicial |ψi es dado, el estado justo después de la medición vendrá dado por la proyección
normalizada de |ψi sobre En que denotamos por |ψn i. Sin embargo, incluso cuando se obtiene la misma medida a n
esta proyección es diferente cuando cambia el vector inicial, por lo cual podemos decir que hay varios estados finales
asociados a la medida an .
La Ec. (4.2) nos dice como calcular la probabilidad P (a n ) de obtener el valor an cuando conocemos el estado
|ψi del sistema justo antes de la medición.
gn
X
i 2
P (an ) = un ψi (5.87)
i=1

para calcular esta probabilidad escogemos una base ortonormal uin del autosubespacio En y calculamos la proba-

2
bilidad uin ψi de encontrar al sistema en cada uno de los estados de esta base, la probabilidad P (a n ) será entonces
5.10. EL PRINCIPIO DE SUPERPOSICIÓN PARA CASOS EN QUE VARIOS ESTADOS EST ÁN ASOCIADOS A U


2
la suma de estas gn probabilidades. Debemos tener en cuenta que cada probabilidad uin ψi puede ser el cuadrado
del módulo de una suma de amplitudes que nos generará interferencias. Por ejemplo si el estado inicial normalizado
es de la forma
|ψi = c1 |ψ1 i + c2 |ψ2 i
cada sumando en (5.87) será de la forma

i 2
i

u ψi = c1 u ψ1 i + c2 ui ψ2 i 2
n n n

con lo cual se obtienen interferencias al expandir el módulo al cuadrado.

5.10.2. Aparatos insuficientemente selectivos en la medida


Supongamos que tenemos un dispositivo para medir el observable A de un sistema fı́sico dado, y que el estado
justo antes de la medición viene dado por X
|ψi = ck,i uik (5.88)
k,i

siendo uik los estados propios de A con valor propio a k . Asumamos que el dispositivo posee las siguientes
caracterı́sticas.
(a) El dispositivo solo puede dar dos respuestas (autoresultados), que por convención denotaremos como “si” y
“no”.
(b) Si el estado inicial del sistema |ψi está en una combinación lineal cuyos valores propios yacen todos en un
intervalo dado ∆ del eje real, la respuesta será definitivamente “sı́”. En otras palabras, la respuesta es “sı́” con toda
certeza, cuando todos los ck,i no nulos de (5.88) sean tales que ak ∈ ∆.
(c) La respuesta es definitivamente “no” si el estado inicial del sistema |ψi está en una combinación lineal de
estados donde todos los valores propios asociados a los estados de la combinación lineal yacen fuera del intervalo ∆.
Vemos que ∆ define el poder de resolución del instrumento. Ası́ mismo ∆ define los autoestados asociados a los
autoresultados “si” y “no”. Si existe un solo valor propio a n de A en el intervalo ∆ el dispositivo tendrá una resolución
infinita, ya que para el sistema en un estado inicial arbitrario, la probabilidad P (si) será igual a la probabilidad de
obtener an en la medida de A. La probabilidad de obtener “no” es naturalmente P (no) = 1 − P (si).
Por otro lado, si existen varios valores propios a n de A en ∆, el dispositivo no tiene suficiente resolución para
discriminar entre estos diferentes autovalores. En este caso hablamos de un aparato o dispositivo insuficientemente
selectivo.
Para estudiar la distribución de probabilidad de P (no) , P (si) con estos dispositivos insuficientemente selectivos,
debemos primero estudiar la perturbación que estos aparatos crean sobre el sistema cuando realizan una medida.
Para caracterizar esta perturbación añadiremos la siguiente hipótesis: El dispositivo transmite sin perturbar todos
los estados propios de A asociados con autovalores incluı́dos en el intervalo ∆, ası́ como cualquier combinación lineal
de estos estados, en cambio el dispositivo bloquea los autoestados de A asociados con valores propios fuera del
intervalo ∆ ası́ como todas sus combinaciones lineales. El dispositivo actúa entonces como un filtro perfecto para
todos los estados asociados con ∆.
Ilustraremos la plausibilidad de esta hipótesis con un ejemplo. Cuando el espectro de un observable es contı́nuo,
todo dispositivo experimental para medir este espectro es siempre insuficientemente selectivo. Tomaremos en conse-
cuencia un ejemplo con espectro contı́nuo. Supongamos que queremos medir la coordenada x de un electrón que se
propaga en la dirección uz . Para ello colocamos sobre el plano XY (en z = 0) una superficie bloqueadora con una
ranura con bordes entre x1 y x2 y de ancho infinito paralelo al eje Y . Un paquete de onda que esté completamente
incluı́do entre los planos x = x1 y x = x2 , entrará a la región derecha (viniendo desde la izquierda) sin ninguna mod-
ificación (esto equivale a un “sı́”). Que el paquete de onda esté entre los planos x = x 1 y x = x2 significa que es una
superposición de autoestados de R con autovalores x, y, z donde los x están todos incluı́dos en el intervalo [x 1 , x2 ].
Por otro lado, cualquier paquete de onda situado por debajo de x = x 1 o por encima de x = x2 será bloqueado por
la superficie y no pasará a la derecha (esto equivale a un “no”).
Vemos que para un dispositivo insuficientemente selectivo, hay varios estados finales posibles luego de una
medición que ha dado la respuesta “si” incluso cuando el espectro de A es no degenerado, ya que los estados propios
de A asociados a los diferentes autovalores a k en ∆ son estados posibles finales.
200CAPÍTULO 5. CONSECUENCIAS DE LOS POSTULADOS SOBRE LOS OBSERVABLES Y SUS MEDIDAS

Queremos estudiar cuales son las predicciones que podemos hacer con estos dispositivos cuando un sistema
fı́sico en un estado arbitrario es medido con uno de ellos. Para el ejemplo anterior cuando el paquete de onda
está completamente adentro (o afuera) del intervalo [x 1 , x2 ], la respuesta es definitivamente si (no). Debemos estudiar
las probabilidades P (si) y P (no) cuando el paquete no está completamente adentro ni completamente afuera.
Veremos que esto es equivalente a medir un observable cuyo espectro sea degenerado.
 al caso de un espectro discreto. Consideremos el autosubespacio E ∆ generado
Por el momento retornaremos
por todos los autoestados uin de A cuyos valores propios yacen en el intervalo ∆. El proyector P ∆ sobre este
subespacio es
X X gn
i
i
P∆ = un un (5.89)
an ∈∆ i=1

donde hemos tenido en cuenta que las autovalores a n pueden ser degenerados. Nótese que E ∆ esta compuesto
por todos los estados accesibles del sistema después de que la medida de A ha dado el valor “si”. En términos
más matemáticos, podemos decir que la respuesta del dispositivo es definitivamente “si” cuando el estado inicial
pertenece a E∆ , es decir para cualquier estado propio de P ∆ con valor propio +1. Adicionalmente, la respuesta es
definitivamente “no” cuando el estado inicial pertenece al complemento ortogonal de E ∆ es decir cuando el estado
es autoestado de P∆ con valor propio 0. Si denotamos Ee∆ al complemento ortogonal de E∆ podemos escribir

E ]
= E∆ ⊕ Ee∆ ; |ψi = |ψ∆ i ⊕ |ψ ∆i
]
; |ψi ∈ E ; |ψ∆ i ∈ E∆ ; |ψ e
∆ i ∈ E∆ (5.90)
]
P∆ |ψi = |ψ∆ i ; P∆ |ψ∆ i = (+1) |ψ∆ i ; P∆ |ψ ]
∆ i = (0) |ψ∆ i (5.91)

donde |ψi es un estado arbitrario. Vemos entonces que las respuestas “si” y “no” que nos da nuestro dispositivo
equivalen a los autovalores +1 y 0 respectivamente del observable P ∆ . Podemos decir entonces que el dispositivo
está realmente midiendo los valores propios de P ∆ en lugar de los de A.
Con tal interpretación podemos calcular las distribuciones de probabilidad P (si) y P (no) aplicando los postula-
dos al observable P∆ que es el que realmente se está midiendo. La probabilidad P (si) es la probabilidad de obtener
el valor propio +1 para el observable P ∆ . Si el estado inicial normalizado es |ψi tal probabilidad se puede escribir
aplicando el cuarto postulado (pag. 162) y la Ec. (4.2)
X
P (si) = P (+1) = |hvm | ψi|2 ; P (no) = 1 − P (si)
m

donde {|vm i} es una base ortonormal asociada al subespacio E (+1) generado por el valor propio +1 de P∆ . De (5.91)

es claro que E(+1) es justamente E∆ ; por tanto una base ortonormal {|vm i} posible es precisamente la base uin
con an ∈ ∆, que se construyó para E∆ . Por tanto, las probabilidades quedan en la forma
gn
X X
i 2
P (si) = P (+1) = un ψi ; P (no) = 1 − P (si) (5.92)
an ∈∆ i=1

otra forma es usar las Ecs. (4.6, 5.90) donde en este caso el proyector sobre el autoespacio E (+1) = E∆ del observable
P∆ es justamente P∆
P (si) = hψ| P∆ |ψi = hψ∆ |ψ∆ i (5.93)
aplicando (5.89) en (5.93) vemos que se reproduce (5.92)
gn
" gn
#
X X i
i X X i
i
|ψ∆ i = P∆ |ψi = un un ψi ; hψ| P∆ |ψi = hψ| un un ψi (5.94)
an ∈∆ i=1 an ∈∆ i=1
gn
X X gn
X X
i
i
i 2
hψ| P∆ |ψi =
hψ un un ψi = un ψi (5.95)
an ∈∆ i=1 an ∈∆ i=1

Similarmente, puesto que el dispositivo no perturba los estados que pertenecen a E ∆ y bloquea aquellos que
pertenecen a Ee∆ , vemos que el estado del sistema después de la medición cuando ha dado un resultado “si”, es decir
5.11. DISCUSIÓN GENERAL SOBRE EL FENÓMENO DE INTERFERENCIA 201

cuando el autovalor obtenido para P ∆ es +1 está dado por |ψ∆ i pero normalizado, de las Ecs. (5.94, 5.95) se tiene
0 |ψ∆ i P∆ |ψi
ψ = = (5.96)
hψ∆ |ψ∆ i hψ| P∆ |ψi
P Pgn i
i
0 an ∈∆ i=1 un un ψi
ψ = qP (5.97)
P gm k 2
am ∈∆ k=1 |hum | ψi|

cuando ∆ contiene solo un autovalor a n de A, E∆ y P∆ se reducen a En y Pn y la resolución del aparato es infinita, en


el sentido de que las incertidumbres y perturbaciones son solo las inherentes a las leyes de la mecánica cuántica, es
decir estamos hablando de medidas ideales en el sentido cuántico. Vemos entonces que las Ecs. (4.6, 4.8) se pueden
ver como casos particulares de las Ecs. (5.93, 5.96). Nótese que la suma sobre a n en las Ecs. (5.92, 5.97) se puede ver
como una “degeneración adicional”. Se puede observar que cuando ∆ contiene varios valores propios, el problema
se asemeja a un problema con degeneración incluso si cada a n en ∆ es no degenerado, ya que en lo que concierne al
cálculo de la probabilidad Ec. (5.92), la suma sobre a n es también una suma de módulos al cuadrado al igual que
la suma sobre i.

5.11. Discusión general sobre el fenómeno de interferencia


Hemos visto que en algunos casos la probabilidad se calcula como el cuadrado del módulo de una suma de
amplitudes y en otros casos como suma de módulos cuadrados (sumas de probabilidades). Es importante dejar claro
cuando se emplea cada algoritmo.
Nuevamente el experimento de Young de la doble rendija resulta ilustrativo. Supongamos que queremos calcular
la probabilidad de que un determinado fotón golpee la pantalla en un cierto intervalo [x 1 , x2 ]. Esta probabilidad es
proporcional a la intensidad total incidente sobre todo este intervalo
Z x2 Z x2
IT = I (x) dx = |E (x)|2 dx
x1 x1

es decir es una suma de cuadrados (suma de densidades de probabilidad). No obstante, la intensidad en un punto
de la pantalla x ∈ [x1 , x2 ] es el cuadrado del campo eléctrico E (x) el cual es la superposición lineal de los campos
eléctricos EA (x) y EB (x) radiados por las dos rendijas A y B sobre el punto x en la pantalla. I (x) es entonces
|EA (x) + EB (x)|2 es decir el cuadrado de una suma. EA (x) y EB (x) son las amplitudes asociadas a los dos caminos
posibles (paso por cada rendija) que terminan en el mismo punto x. Estas amplitudes se adicionan para obtener la
amplitud en x ya que no estamos tratando de determinar por cual rendija pasa el fotón. Luego, para calcular la
intensidad total se suman estos módulos al cuadrado (suma de intensidades), es decir se suman las intensidades sobre
los diferentes puntos x, para obtener la intensidad total en el intervalo [x 1 , x2 ] (equivalente a suma de probabilidades
para obtener probabilidad total).
La anterior discusión nos muestra que la suma de amplitudes se realiza cuando partiendo desde un estado
inicial dado llegamos por diferentes caminos al mismo estado final (en este caso un punto fijo x en la pantalla).
Tendremos tantas amplitudes como caminos intermedios considerados. Una vez calculado el módulo al cuadrado
de la suma de estas amplitudes se suman estos cuadrados sobre estados finales diferentes (en este ejemplo
corresponde a sumar las intensidades sobre los diferentes puntos x del intervalo).
Resumimos el algoritmo en la siguiente forma: Se suman las amplitudes correspondientes al mismo estado final,
luego se suman las probabilidades correspondientes a estados finales ortogonales.
El hecho de que se sume sobre estados ortogonales tiene que ver con que usualmente los diferentes estados que
se usan para construı́r una base son todos ortogonales entre sı́. En general, debemos decir que se suma sobre estados
linealmente independientes.

5.12. Medición insuficiente de espectros contı́nuos


Ya mencionamos que todo dispositivo que mida un observable con espectro contı́nuo necesariamente debe ser
insuficiente, ya que ningún instrumento de medición está exento de la incertidumbre experimental. Por tanto, la
202CAPÍTULO 5. CONSECUENCIAS DE LOS POSTULADOS SOBRE LOS OBSERVABLES Y SUS MEDIDAS

discusión sobre la aplicación de los postulados para medidas insuficientes resulta apropiado para el estudio de la
medición de espectros contı́nuos.
El ejemplo más simple y directo es la medición de la posición de una partı́cula. Nos preguntamos por la proba-
bilidad de encontrar a la partı́cula en una posición dentro de un intervalo ∆ = [x 1 , x2 ] con un dispositivo similar al
descrito anteriormente.
Asumamos que la partı́cula (sin espı́n) está en un estado |ψi. El subespacio E ∆ asociado con esta medida
es el expandido por los kets {|ri = |x, y, zi / x 1 ≤ x ≤ x2 }. Puesto que estos kets son ortonormales en el sentido
extendido, la aplicación de la regla descrita en la sección 5.11 nos dice que
Z x2 Z ∞ Z ∞ Z x2 Z ∞ Z ∞
P (x1 ≤ x ≤ x2 ) = dx dy dz |hx, y, z |ψi|2 = dx dy dz |ψ (r)|2 (5.98)
x1 −∞ −∞ x1 −∞ −∞

vemos que la Ec. (5.93) conduce al mismo resultado ya que P ∆ viene dado en este caso por
Z x2 Z ∞ Z ∞
P∆ = dx dy dz |x, y, zi hx, y, z|
x1 −∞ −∞

de modo que
Z x2 Z ∞ Z ∞ 
P (x1 ≤ x ≤ x2 ) = hψ| P∆ |ψi = hψ| dx dy dz |x, y, zi hx, y, z| |ψi
Z x2 Z ∞ Z ∞x1 −∞ −∞

P (x1 ≤ x ≤ x2 ) = dx dy dz hψ |x, y, zi hx, y, z| ψi (5.99)


x1 −∞ −∞
Z x2 Z ∞ Z ∞
P (x1 ≤ x ≤ x2 ) = dx dy dz |ψ (r)|2 (5.100)
x1 −∞ −∞

ahora debemos encontrar el estado |ψ 0 i después de que la medición arroje un valor “si”, es decir cuando la posición
de la partı́cula esté dentro de ∆ después de la medición. Para ello aplicamos la Ec. (5.96)
Z x2 Z ∞ Z ∞
0 P∆ |ψi 1

ψ = = dx 0
dy 0
dz 0 x0 , y 0 , z 0 x0 , y 0 , z 0 ψi
hψ| P∆ |ψi hψ| P∆ |ψi x1 −∞ −∞
Z x2 Z ∞ Z ∞
0 1 
ψ = dx0 dy 0 dz 0 r0 ψ r0 ; N ≡ hψ| P∆ |ψi
N x1 −∞ −∞

donde el factor de normalización N ≡ hψ| P ∆ |ψi = P (x1 ≤ x ≤ x2 ), está dado por la Ec. (5.100). Es inmediato
encontrar la función de onda asociada a |ψ 0 i
Z Z Z
1 x2 0 ∞ 0 ∞ 
hr ψ 0 = dx dy dz hr r0 ψ r0
N x1
Z x2 Z−∞∞ Z−∞∞
1    
ψ 0 (x, y, z) = dx0 dy 0 dz δ x − x0 δ y − y 0 δ z − z 0 ψ x0 , y 0 , z 0
N x1 −∞ −∞
Z x2
1  
ψ 0 (x, y, z) = dx0 δ x − x0 ψ x0 , y, z
N x1

y como x puede estar dentro o fuera del intervalo [x 1 , x2 ] la función de onda será

ψ (x, y, z) si x1 ≤ x ≤ x2
ψ 0 (x, y, z) = (5.101)
0 si x ∈ / [x1 , x2 ]

vemos entonces que la parte de ψ (r) que corresponde al intervalo asociado al aparato de medición persiste sin
modificación, ya que el factor 1/N simplemente asegura que el estado se mantenga normalizado. El resto es suprimido
por la medición. Podemos decir entonces que el paquete de onda inicial ψ (r) de la partı́cula está siendo “truncado”
por los lı́mites de la “ranura”. Podemos entonces entender a partir de estos procesos porqué hablamos de una
reducción del paquete de onda.
Ahora bien, si tenemos un gran número de partı́culas todas en el estado |ψi, entrando sucesivamente en el
aparato, el resultado será algunas veces “si” y otras veces “no” según la distribución de probabilidad prescrita
5.13. POSTULADO DE REDUCCIÓN DEL PAQUETE DE ONDA (QUINTO POSTULADO) PARA UN ESPECTRO

anteriormente. Si la respuesta es “si”, la partı́cula sigue su camino a partir de un estado inicial “truncado” o
“reducido” dado por |ψ 0 i; si el resultado es “no” la partı́cula es absorbida por la placa colocada en el plano XY .
Es claro que cuando el espectro es contı́nuo, el dispositivo será siempre insuficientemente selectivo puesto que el
intervalo [x1 , x2 ] siempre contiene infinitos puntos por pequeño que este sea. Vale la pena sin embargo, analizar el
lı́mite cuando el ancho de este intervalo tiende a cero. Tomemos un intervalo de ancho ∆x centrado en x 0 , si ∆x lo
tomamos lo suficientemente pequeño podemos despreciar la variación de ψ (r) en x y reemplazarla por su valor en
x0 , en cuyo caso se puede integrar en x la probabilidad dada por (5.98)
  Z ∞ Z ∞
∆x ∆x
P x0 − , x0 + ' ∆x dy dz |ψ (x0 , y, z)|2
2 2 −∞ −∞
dP (x0 ) = ρ (x0 ) dx

donde de acuerdo con el cuarto postulado hemos interpretado a la densidad de probabilidad asociada a x 0 como la
integral en y y z de la expresión anterior. La diferencia con la Ec. (4.7) es que en (4.7) el espectro se consideraba no
degenerado en tanto que aquı́ el espectro de X es infinitamente degenerado en E r , ya que todo vector de la forma
|x, y, zi es vector propio de X. Por esta razón, en esta densidad de probabilidad interviene una integral doble sobre
y y z.

5.13. Postulado de reducción del paquete de onda (quinto postulado) para


un espectro contı́nuo
En la discusión del quinto postulado dada en la sección 4.3.4, nos hemos restringido al caso discreto. Sin embargo,
la discusión realizada en la sección 5.12 sobre dispositivos insuficientemente selectivos nos permite extender el
postulado al caso de espectro contı́nuo. El cual estableceremos de la siguiente forma
Quinto postulado o postulado de reducción del paquete de onda (caso contı́nuo): Si estando el sistema
en un estado |ψi realizamos una medida sobre el observable A de espectro contı́nuo no degenerado, obteniendo como
resultado un valor dentro del intervalo [α 0 − ∆α, α0 + ∆α], el estado del sistema inmediatamente después de la
medida está descrito por
Z α0 + ∆α
0
ψ = P∆α (α0 ) |ψi
2
; P∆α (α0 ) ≡ dα |να i hνα |
hψ| P∆α (α0 ) |ψi α0 − ∆α
2

el proceso de reducción aparece con claridad en la Ec. (5.101), si la generalizamos a cualquier observable A de
espectro contı́nuo {α} con función de onda hν α |ψi que representa a |ψi en la base {|ν α i}. Según la Ec. (5.101)
adecuadamente generalizada, el sistema queda preparado en un estado cuya función de onda es cero fuera del
intervalo de selección y dentro de dicho intervalo conserva la forma de la función de onda original (excepto por un
factor de normalización). Sin importar que tan pequeño sea ∆α nunca obtenemos el autoestado |ν α0 i después de la
medida, el cual en la base {|να i} estarı́a representado por hνα |να0 i = δ (α − α0 ). Pues la función de onda truncada
siempre tiene un ancho finito ∆α. Finalmente, es claro que el factor de normalización debe ser mayor que la unidad.
Capı́tulo 6

Aplicación de los postulados cuando se posee


información parcial de un sistema

Hemos estudiado hasta el momento la aplicación de los postulados cuando el estado del sistema se conoce
perfectamente. Veremos dos casos en los cuales manejamos información parcial del sistema (a) cuando el sistema
está compuesto de dos o más subsistemas, y solo realizamos medidas de un subsistema especı́fico. (b) cuando
desconocemos las condiciones iniciales detalladas y solo poseemos información en forma de probabilidad, como
ocurre en la mecánica estadı́stica. Estudiaremos primero el caso (a).

6.1. Aplicación de los postulados cuando se mide un observable de un sub-


sistema
Hemos visto que cuando dos subsistemas cuánticos se condensan, podemos formar un único sistema global a
través del producto tensorial de los espacios de Hilbert asociados a cada subsistema. Nuestro propósito es estudiar el
comportamiento del sistema global cuando se realiza la medida de un observable asociado a uno de los subsistemas.
Consideremos el sistema fı́sico como compuesto de dos subsistemas (1) y (2) descritos por los espacios de Hilbert
E (1) y E (2). El espacio de estados asociado al sistema global es

E ≡ E (1) ⊗ E (2)

por ejemplo un sistema de dos electrones (sin espı́n), está descrito por una función de onda de la forma ψ (x 1 , y1 , z1 ; x2 , y2
con un ket del espacio Er (1) ⊗ Er (2). Consideremos el caso en el cual se mide un observable asociado a solo uno
de los subsistemas. Asumiremos de aquı́ en adelante que las medidas se realizarán sobre el subsistema (1) ya que
el análisis del caso en que se hace una medida sobre el subsistema (2) es totalmente análogo. El observable A e (1)
asociado a una medida sobre el subsistema (1) es la extensión tensorial del observable A (1) (ver Ec. 1.127)

e (1) ≡ A (1) ⊗ I (2)


A (6.1)

ya vimos en la sección 1.32.3 que el espectro de Ae (1) en E (1) ⊗ E (2) es idéntico al espectro de A (1) en E (1). Vimos
adicionalmente que la degeneración de cada valor propio en E (1) ⊗ E (2) es el producto de su degeneración en E (1)
por la dimensión de E (2). Esto implica que (si E (2) es de dos o más dimensiones) todo valor propio de A e (1) es
degenerado. En consecuencia, cuando se realiza una medida sobre el subsistema (1), el estado del sistema global
después de la medida dependerá tanto del resultado de la medida como del estado justo antes de ésta. Fı́sicamente,
esto se debe a que el resultado no da ninguna información sobre el subsistema (2), y por tanto el ket asociado no
constituye un C.S.C.O.
Vamos a calcular la probabilidad de obtener un valor propio dado a n en una medida del observable A e (1). Para
ello apelamos a la Ec. (4.6) pág 163
P (1) (an ) = hψ| Pen (1) |ψi (6.2)

siendo |ψi el estado (normalizado) en el que se encuentra el sistema global antes de la medición. El proyector
6.1. APLICACIÓN DE LOS POSTULADOS CUANDO SE MIDE UN OBSERVABLE DE UN SUBSISTEMA205

extendido Pen (1) se escribe en términos del proyector P n (1) en E (1) en la forma
gn
X i

Pen (1) ≡ Pn (1) ⊗ I (2) ; Pn (1) = un (1) uin (1) (6.3)
i=1

siendo uin (1) una base ortonormal en E (1) y gn la degeneración de an en E (1). Pen (1) es entonces el proyector
en E (1) ⊗ E (2) sobre el autosubespacio generado por a n en E (1) ⊗ E (2). Adicionalmente podemos expresar la
identidad de (2) usando una base ortonormal {|v k (2)i} de E (2) con lo cual Pen (1) queda
" gn # " #
X
X
Pen (1) ≡ Pn (1) ⊗ I (2) = uin (1) uin (1) ⊗ |vk (2)i hvk (2)|
i=1 k
gn X
X  i  

= un (1) ⊗ |vk (2)i uin (1) hvk (2)|
i=1 k
gn X
X i

e
Pn (1) = un (1) vk (2) uin (1) vk (2) (6.4)
i=1 k

aplicando este proyector en la Ec. (6.2) resulta


gn X
X 

P (1) (an ) = hψ| Pen (1) |ψi = hψ| uin (1) vk (2) uin (1) vk (2) |ψi
i=1 k
gn X
X

= hψ| uin (1) vk (2)i uin (1) vk (2) ψi
i=1 k
gn X
X
i
P (1)
(an ) = hψ| Pen (1) |ψi = un (1) vk (2) ψi 2 (6.5)
i=1 k

adicionalmente, el estado |ψ 0 i justo después de la medición se puede calcular empleando la Ec. (4.8) pág. 165, y
teniendo en cuenta las Ecs. (6.5, 6.4)
Pgn P i
i
0 e
ψ = q Pn (1) |ψi i=1 k un (1) vk (2) un (1) vk (2) ψi
= qP P (6.6)
gn i (1) v (2)| ψi|2
hψ| Pen (1) |ψi i=1 k |hu n k

Nótese que las Ecs. (6.2, 6.3, 6.6), nos dicen que la base ortonormal {|v k (2)i} en E (2) se puede elegir arbitrariamente
sin alterar las predicciones fı́sicas sobre los observables del subsistema (1). Esto es de esperarse, ya que al no realizarse
ninguna medida en el sistema (2), ningún conjunto de estados en E (2) es preferencial.

6.1.1. Interpretación fı́sica de los estados que son productos tensoriales


En la sección 1.32, vimos que no todos los estados en E (1) ⊗ E (2) se pueden expresar como producto tensorial
de estados en E (1) y en E (2). Estudiaremos aquı́ el significado fı́sico de los estados que sı́ son producto tensorial de
los subespacios anteriores, sea |ψi ∈ E (1) ⊗ E (2) tal que

|ψi = |ϕ (1)i ⊗ |χ (2)i = |ϕ (1) χ (2)i ; |ϕ (1)i ∈ E (1) , |χ (2)i ∈ E (2) ; k|ϕ (1)ik = k|χ (2)ik (6.7)
e (1), el estado |ψ 0 i después de la medición se
supongamos que |ψi es el estado del sistema antes de la medición de A
obtiene aplicando las Ecs. (6.6, 6.7, 6.3)

0 Pe (1) |ψi [Pn (1) ⊗ I (2)] [|ϕ (1)i ⊗ |χ (2)i]


ψ = q n =p
hψ| Pen (1) |ψi [hϕ (1)| ⊗ hχ (2)|] [Pn (1) ⊗ I (2)] [|ϕ (1)i ⊗ |χ (2)i]
0 Pn (1) |ϕ (1)i ⊗ I (2) |χ (2)i Pn (1) |ϕ (1)i ⊗ |χ (2)i
ψ = p =p
[hϕ (1)| ⊗ hχ (2)|] [Pn (1) |ϕ (1)i ⊗ I (2) |χ (2)i] hϕ (1)| Pn (1) |ϕ (1)i hχ (2)| χ (2)i
206CAPÍTULO 6. APLICACIÓN DE LOS POSTULADOS CUANDO SE POSEE INFORMACI ÓN PARCIAL DE UN

que se puede escribir como


0 0
ψ = ϕ (1) ⊗ |χ (2)i ; ϕ0 (1) ≡ p Pn (1) |ϕ (1)i
hϕ (1)| Pn (1) |ϕ (1)i

vemos que el estado posterior a la medición también es un producto tensorial tal que el estado del subsistema (1)
ha cambiado pero no el estado asociado al subsistema (2). La probabilidad P (a n ) queda en la forma

P (1) (an ) = hψ| Pen (1) |ψi = hϕ (1) χ (2)| [Pn (1) ⊗ I (2)] |ϕ (1) χ (2)i
= hϕ (1)| Pn (1) |ϕ (1)i hχ (2)| I (2) |χ (2)i
(1)
P (an ) = hϕ (1)| Pn (1) |ϕ (1)i

de lo cual se vé que P (1) (an ) no depende de |χ (2)i solo del estado |ϕ (1)i del subsistema (1). Por tanto, cuando el
estado del sistema está descrito por un producto tensorial como en la Ec. (6.7), las predicciones fı́sicas asociadas a
solo uno de los dos subsistemas, no dependen del estado del otro subsistema y se obtienen únicamente a partir del
estado del subsistema sobre el que se mide.
En consecuencia, un estado producto |ϕ (1)i ⊗ |χ (2)i describe una simple yuxtaposición de los subsistemas (1) y
(2) cada uno de ellos en los estados |ϕ (1)i y |χ (2)i respectivamente. En tal estado, se dice que los dos subsistemas
NO están correlacionados, esto implica que la medición de observables que pertenecen a uno u otro subsistema
corresponden a variable aleatorias independientes. Esto ocurre cuando los subsistemas han sido preparados en los
estados |ϕ (1)i y |χ (2)i para luego unirlos sin interacción.

6.1.2. Significado fı́sico de estados que no son productos tensoriales


Sean {|un (1)i} y {|vk (2)i} bases de E (1) y E (2) respectivamente. Si el estado |ψi no está asociado a un producto
temsorial entonces este se escribe como
X
|ψi = cn,k |un (1)i ⊗ |vk (2)i
n,k

donde hay por lo menos dos sumandos diferentes de cero. Veamos las predicciones sobre la medición de un observable
Ae (1) asociado solo al subsistema (1). En tal caso, es fácil probar que las predicciones fı́sicas no se pueden escribir solo
en términos de un estado del subsistema (1). Esto se puede ver aplicando las fórmulas (6.5, 6.6) en el contexto más
general. Esta situación corresponde entonces a la existencia de correlaciones entre los dos subsistemas, los resultados
de medidas sobre cada subsistema corresponden a variables aleatorias dependientes y que pueden ser correlacionadas.
Puede demostrarse por ejemplo que si dos subsistemas descritos por un producto tensorial se “concetan” entre sı́ por
medio de una interacción, el nuevo estado ya no será un producto tensorial.
Estudiemos primero el caso más sencillo, asumiendo que el valor propio a n obtenido en la medida es no degener-
ado, en tal caso desaparece la sumatoria sobre i en la Ec. (6.3) y en todas las demás ecuaciones. El estado después
de la medida se obtiene de (6.6) suprimiendo la suma sobre i
P P
0 k |u n (1) vk (2)i hun (1) vk (2)| ψi |un (1)i ⊗ k |vk (2)i hun (1) vk (2)| ψi
ψ = q = q
P 2 P 2
k |hu n (1) v k (2)| ψi| k |hun (1) vk (2)| ψi|
P
0 k |vk (2)i hun (1) vk (2)| ψi
ψ = |un (1)i ⊗ χ0 (2) ; χ0 (2) = q (6.8)
P 2
k |hu n (1) v k (2)| ψi|

en este caso, sin importar el estado |ψi previo a la medición del subsistema (1), el estado global posterior a la
medición de un observable no degenerado es siempre un producto tensorial. Esto es resultado se puede extender al
caso en que se realiza un conjunto de mediciones asociadas a un C.S.C.O. es decir cuando la medición es completa
con respecto a un subsistema (estas mediciones son naturalmente parciales con respecto al sistema global).
Cuando el estado del sistema global no es un producto tensorial del tipo |ϕ (1)i⊗|χ (2)i, no podemos asociar cada
ket |ϕ (1)i , |χ (2)i a los subsistemas (1) y (2) 1 . Surge entonces la pregunta de como caracterizar cada sistema parcial
1
Por ejemplo, la energı́a de un sistema compuesto no es en general la suma de las energı́as individuales ya que la interacción aporta a
dicha energı́a, además no hay una manera no ambigüa de “repartir” la energı́a total del sistema asignándole una porción a cada sistema.
6.2. OPERADOR DENSIDAD 207

en un sistema correlacionado. Esta pregunta es de gran interés si tenemos en cuenta que en general todo sistema
fı́sico ha interactuado en el pasado con otros sistemas incluso si está aislado en el momento en que estudiamos tal
sistema. Esto implica que el sistema total (sistema bajo estudio más el sistema con el que interactuó en el pasado)
no es en general un estado producto y no es posible asociar un vector de estado |ϕ (1)i con el sistema bajo estudio.
Este problema se resuelve asociando al subsistema (1) (sistema bajo estudio) un operador (operador densidad) en
lugar de un vector, volveremos sobre este punto en la sección 6.2.
Por el momento, tomaremos un caso en el cual se puede asociar un vector de estado para el sistema (1), esto
es cuando se realiza un conjunto completo de medidas del subsistema (1). Hemos visto que en tal situación, para
cualquier estado del sistema global (1) + (2) antes de la medida, un conjunto completo de medidas en E (1) coloca
al sistema global en un estado que es producto tensorial como se vé en la Ec. (6.8). El vector asociado con (1) es el
que se obtiene de manera única (salvo por un factor multiplicativo), por medio de los valores del conjunto completo
de medidas sobre (1). En consecuencia, el conjunto completo de medidas sobre (1) borra todas las correlaciones que
surgen de interacciones previas entre los dos sistemas. En particular, si en el momento de la medida el sistema (2)
está muy lejos y ya no interactúa con el sistema (1), el sistema (2) puede ser totalmente omitido para efectos de
estudiar al sistema (1).
Hemos visto que cuando el estado |ψi es un producto tensorial, el vector de estado asociado al subsistema (2),
no depende de medidas hechas sobre el sistema (1). Ahora bien, cuando el estado del sistema global es |ψi antes de
las medidas, y realizamos un conjunto completo de medidas sobre (1), la Ec. (6.8) nos muestra el estado |ψ 0 i en el
cual queda preparado el sistema global. Dicha ecuación nos muestra que cuando |ψi no es un producto tensorial, el
vector de estado |χ0 (2)i asociado al sistema (2) posterior a las medidas, depende del resultado del conjunto completo
de medidas en (1). Esto es a priori sorprendente ya que el estado del sistema (2) después de ejecutar un conjunto
completo de medidas en (1), dependerá del resultado de dichas medidas incluso si el sistema (2) está muy lejos del
sistema (1) en el momento de realizar las medidas. En otras palabras un conjunto completo de medidas sobre (1)
influirı́a sobre el sistema (2) incluso cuando éstos no interactúan. Esta paradoja ha sido ampliamente estudiada por
cinetı́ficos como Einstein, Podolsky, Rosen y Bell.

6.2. Operador densidad


Cuando conocemos completamente el estado del sistema en un cierto tiempo, podemos predecir determinı́sti-
camente el estado en cualquier tiempo posterior en tanto no se realice una medida. También podemos predecir
perfectamente probabilidades de obtener determinados resultados cuando se realizan medidas. Para determinar
completamente el estado en cierto tiempo es suficiente realizar un conjunto de medidas que formen un C.S.C.O.
Este es el caso en el experimento de polarización de fotones descrito en la sección 2.7.2 en el cual el estado de
polarización de esto es conocido perfectamente cuando el haz atravieza el polarizador.
Sin embargo, ocurre con frecuencia que el estado del sistema no está completamente determinado. Por ejemplo,
los estados de polarización de los fotones que emanan de una fuente de luz natural (no polarizada) no están bien
definidos. Otro ejemplo lo constituyen los átomos de un gas a cierta temperatura, para los cuales el valor de la energı́a
cinética de los átomos solo se conoce estadı́sticamente. La pregunta natural es cómo incorporar esta información
incompleta en el formalismo de modo que se pueda aprovechar de la mejor manera posible. Esto nos llevará a la
introducción del operador densidad que nos permitirá incorporar los resultados parciales en los postulados de la
mecánica cuántica.

6.2.1. El concepto de mezcla estadı́stica de estados


Ya hemos mencionado el concepto de mezcla estadı́stica de estados (ver sección 5.9.1, pág 194). Cuando tenemos
información incompleta de un sistema es usual utilizar el concepto de probabilidad para incorporar la información
parcial. Como ejemplo, cada estado de polarización posible para un fotón posee la misma probabilidad en un haz de
luz no polarizada. Un sistema termodinámico en equilibrio a temperatura T posee una probabilidad proporcional a
e−En /kT de estar en el estado de energı́a En .
En mecánica cuántica es usual que la información parcial se presente de la siguiente forma: Un sistema cuántico
dado posee un conjunto de estados accesibles {|ψ n i} siendo pk la probabilidad de obtener un estado especı́fico |ψ k i
208CAPÍTULO 6. APLICACIÓN DE LOS POSTULADOS CUANDO SE POSEE INFORMACI ÓN PARCIAL DE UN

donde obviamente X
pk = 1 ; 0 ≤ pk ≤ 1
k

decimos entonces que el sistema está en una mezcla estadı́stica de estados accesibles {|ψ n i} con probabilidades
{pn }. Queremos ahora hacer predicciones sobre los resultados cuando se realiza un conjunto de medidas sobre el
sistema. Si el sistema estuviera en un estado |ψ k i podrı́amos aplicar los postulados para realizar las correspondientes
predicciones. Sin embargo, dado que no tenemos certeza sobre el estado inicial sino solo una probabilidad p k de que
se encuentre en ese estado, los resultados obtenidos deben ser ponderados por el factor p k y luego sumados sobre
todos los estados accesibles en la mezcla estadı́stica.
Los estados accesibles {|ψk i} se pueden normalizar y de hecho asumiremos de aquı́ en adelante que están
normalizados. Sin embargo, estos estados no son necesariamente ortogonales.
Por otra parte será necesario distinguir en nuestro estudio dos tipos diferentes de probabilidad: (a) Probabilidad
de obtener un estado |ψk i en el tiempo inicial. En otras palabras, probabilidad de encontrar al sistema en t 0 en
unas condiciones iniciales dadas. Este tipo de probabilidad se utiliza también en mecánica estadı́stica clásica y es
inherente a la información incompleta sobre las condiciones iniciales. (b) Probabilidad de obtener ciertos resultados
cuando se realizan medidas en el sistema, esta probabilidad es eminentemente cuántica y proviene de los postulados
de la mecánica cuántica, además no desaparece incluso si determinamos perfectamente las condiciones iniciales
(estado {|ψk i}) del sistema.
Adicionalmente, es necesario diferenciar entre una mezcla estadı́stica y una superposición lineal de estados (ver
secciones 5.9.1, 5.9.3). Cuando tenemos una superposición lineal de estados
X
|ψi = ck |ψk i (6.9)
k

es frecuente decir que cuando el vector de estado es |ψi, el sistema tiene probabilidad |c k |2 de estar en el estado
|ψk i. Esto en realidad significa que cuando se realiza un conjunto de medidas que corresponden a un C.S.C.O. y que
tienen a |ψk i como autovector, la probabilidad de encontrar el conjunto de autovalores asociados con |ψ k i es |ck |2 .
Vimos en la sección 5.9.3 que un estado |ψi dado por la Ec. (6.9) no equivale simplemente a un sistema que tiene la
probabilidad |ck |2 de estar en el estado |ψk i para cada estado accesible. Esto se debe a que una combinación lineal
del conjunto {|ψk i} genera interferencias entre los estados accesibles debidas a términos cruzados de la forma c k c∗p
que surgen cuando los módulos de la amplitud de probabilidad se suman y luego se elevan al cuadrado.
Lo anterior implica que no podemos en general describir una mezcla estadı́stica a través de un “vector de estado
promedio” que sea una superposición de los estados {|ψ k i}. Como ya mencionamos, cuando tomamos una suma
ponderada de probabilidades no se obtienen términos de interferencia entre los estados accesibles de la mezcla
estadı́stica.
Ya hemos sugerido una estrategia para estudiar los estados que son una mezcla estadı́stica que es calcular las
predicciones fı́sica asociadas a cada estado |ψ k i ponderando cada estado con su probabilidad para entonces sumar
sobre los estados accesibles. Aunque este método es correcto resulta engorroso en muchos casos. Por otro lado ante
la imposibilidad de describir los estados mezclados por medio de un “vector promedio”, recurriremos a utilizar un
“operador promedio” que denominaremos operador densidad. Comenzaremso el tratamiento con el caso más sencillo
en el cual el estado del sistema es completamente conocido

6.2.2. Estados puros y operador densidad


Cuando el estado inicial es perfectamente conocido solo hay un estado accesible |ψ m i de modo que las proba-
bilidades asociadas a los estados están dadas por p k = δkm . En tal caso existe un vector de estado que describe al
sistema en cualquier instante de tiempo X
|ψ (t)i = cn (t) |un i
n

siendo {|un i} una base ortonormal en el espacio de estados, que por simplicidad asumiremos discreta. Si el estado
está normalizado los coeficientes satisfacen la relación
X
|cn (t)|2 = 1 (6.10)
n
6.2. OPERADOR DENSIDAD 209

si A es un observable, sus elementos de matriz en la base {|u n i} y su valor esperado cuando el sistema está en el
estado |ψ (t)i están dados por

hun | A |up i = Anp (6.11)


X
hAi (t) = hψ (t)| A |ψ (t)i = hψ (t)| un i hun | A |up i hup |ψ (t)i (6.12)
n,p
X
hAi (t) = c∗n (t) cp (t) Anp ; ck (t) ≡ huk |ψ (t)i (6.13)
n,p

y la evolución de |ψ (t)i se describe con la ecuación de Schrödinger


d
i~ |ψ (t)i = H (t) |ψ (t)i (6.14)
dt
siendo H (t) el Hamiltoniano del sistema. Nótese que el valor esperado de A depende cuadráticamente de los
coeficientes de Fourier como se aprecia en la Ec. (6.13). El producto de coeficientes c ∗n (t) cp (t) que aparece en dicha
ecuación se puede escribir en la forma

c∗n (t) cp (t) = hup |ψ (t)i hψ (t)| un i = hup | [|ψ (t)i hψ (t)|] |un i

de modo que este producto es claramente un elemento de la representación matricial del proyector |ψ (t)i hψ (t)| en
la base {|uk i}. Es natural entonces definir un operador ρ (t) en la forma

ρ (t) ≡ |ψ (t)i hψ (t)| (6.15)

que denominaremos operador densidad. Su representación matricial en la base {|u k i} es claramente

ρpn = hup | ρ (t) |un i = c∗n (t) cp (t) (6.16)

mostraremos a continuación que el operador densidad ρ (t), posee la misma información fı́sica que el vector de estado
|ψ (t)i. Para verlo reescribiremos las fórmulas (6.10, 6.13, 6.14) en términos de ρ (t). Sustituyendo (6.16) en (6.10)
tenemos X X X
|cn |2 = c∗n cn = 1 ⇒ ρnn = 1
n n n
de modo que la traza del operador densidad es igual a la unidad

T rρ (t) = 1 (6.17)

teniendo en cuenta las relaciones (6.11, 6.16), la Ec. (6.13) queda


X X X
hAi (t) = c∗n (t) cp (t) Anp = hup | ρ (t) |un i hun | A |up i = hup | ρ (t) A |up i
n,p n,p p
hAi (t) = T r {ρ (t) A} (6.18)

ahora calcularemos la evolución temporal de ρ (t), partiendo de la Ecuación de Schrödinger y su conjugada


   
d d d d
ρ (t) = [|ψ (t)i hψ (t)|] = |ψ (t)i hψ (t)| + |ψ (t)i hψ (t)|
dt dt dt dt
1 1 1 1
= H (t) |ψ (t)i hψ (t)| + |ψ (t)i hψ (t)| H (t) = H (t) ρ (t) − ρ (t) H (t)
i~ (−i~) i~ i~
d 1
ρ (t) = [H (t) , ρ (t)]
dt i~
veamos ahora como se escribe la probabilidad P (a n ) de obtener el valor an cuando se mide el observable A, en
términos del operador densidad. La Ec. (4.6) nos muestra que P (a n ) es el valor esperado del proyector P n sobre el
autoespacio generado por an
P (an ) = hψ (t)| Pn |ψ (t)i = hPn i (6.19)
210CAPÍTULO 6. APLICACIÓN DE LOS POSTULADOS CUANDO SE POSEE INFORMACI ÓN PARCIAL DE UN

y usando (6.18) en (6.19) se obtiene


P (an ) = hPn i = T r {Pn ρ (t)} (6.20)
otras propiedades del operador densidad se siguen directamente de su definición Ec. (6.15)
ρ† (t) = ρ (t) ; ρ2 (t) = ρ (t) ; T rρ2 (t) = 1
En resumen, hemos encontrado las siguientes expresiones para el operador densidad y su relación con los ob-
servables fı́sicos
hAi (t) = T r {ρ (t) A} ; P (an ) = T r {Pn ρ (t)} (6.21)
d
i~ ρ (t) = [H (t) , ρ (t)] (6.22)
dt
T rρ = 1, ρ† (t) = ρ (t) (6.23)
2 2
ρ (t) = ρ (t) ; T rρ (t) = 1 (6.24)
la primera de las Ecs. (6.21) nos expresa la conservación de la probabilidad en el lenguaje del operador densidad.
Veremos que estas ecuaciones serán también válidas en el caso de estados mezclados, excepto las Ecs. (6.24), las
cuales provienen del hecho de que para estados puros, el operador densidad es un proyector.
Para el caso de estados puros, el formalismo de operador densidad es totalmente equivalente al de vectores de
estado. No obstante, el formalismo de operador densidad posee algunas ventajas incluso para estudiar estados puros.
Por ejemplo, los estados fı́sicamente equivalentes |ψ (t)i y e iθ |ψ (t)i están asociados a un solo operador densidad
ρ (t) = |ψ (t)i hψ (t)| de modo que el operador densidad remueve la arbitrariedad introducida por la fase en el vector
de estado. Por otra parte, las Ecs. (6.21, 6.22, 6.23) muestran que las fórmulas básicas para los observables son
lineales con respecto al operador densidad ρ (t). En contraste, las Ecs. (6.12, 6.19) son cuadráticas en el vector de
estado |ψ (t)i. Veremos que la linealidad simplificará el tratamiento considerablemente.

6.2.3. Mezcla estadı́stica de estados: estados no puros


Estudiaremos ahora la incorporación del operador densidad para la caracterización de estados mezclados, en los
cuales no es posible una caracterización por vectores de estado. Sean {p k } las probabilidades de encontrar al sistema
en los cada estado accesible {|ψk i}. Estas probabilidades pk son números reales que satisfacen las condiciones
X
0 ≤ pk ≤ 1 ; pk = 1 (6.25)
k

veamos como calcular la probabilidad P (a n ) de que al medir el observable A se obtenga el valor a n . Comenzaremos
por evaluar la probabilidad Pk (an ) de obtener el valor an del observable A, cuando el sistema se encuentra en el
estado |ψk i, puesto que tal probabilidad sale directamente de los postulados
Pk (an ) = hψk | Pn |ψk i
para obtener P (an ) debemos entonces ponderar esta probabilidad con la probabilidad p k de que el sistema esté en
el estado |ψk i 2 , para luego sumar sobre todos los estados accesibles
X
P (an ) = pk Pk (an ) (6.26)
k

Pk (an ) es una probabilidad asociada a un estado puro (con vector de estado |ψ k i) de modo que podemos evaluarla
aplicando la Ec. (6.20)
Pk (an ) = T r {ρk Pn } (6.27)
siendo ρk = |ψk i hψk | el operador densidad asociado al vector de estado |ψ k i. Para obtener P (an ) en términos de
los operadores densidad ρk sustituı́mos (6.27) en (6.26)
( )
X X
P (an ) = pk T r {ρk Pn } = T r pk ρk Pn (6.28)
k k
2
Esto nos da la probabilidad de que ocurran simultáneamnte dos hechos: (a) que el estado del sistema sea |ψ k i y (b) que el valor
obtenido en la medida del observable A sea an .
6.2. OPERADOR DENSIDAD 211

obsérvese que si definimos X


ρ (t) = pk ρk (t) (6.29)
k
y sustituı́mos esta definición en (6.28), obtendremos una expresión para estados mezclados análoga a la Ec. (6.20)
para estados puros
P (an ) = T r {ρPn } (6.30)
es natural entonces definir a ρ en la Ec. (6.29), como el operador densidad asociado al sistema en un estado mezclado.
Nótese que ρ es el promedio ponderado de los operadores ρ k asociados a estados puros.

6.2.4. Propiedades generales del operador densidad


Derivaremos las propiedades del operador densidad para estados mezclados. Obviamente, tales propiedades
deben contener como caso particular las propiedades del operador densidad para estados puros, para lo cual debe
hacerse pk = δkm . Calculemos primero la traza de ρ
" #
X X X
T rρ = T r pk ρk = pk T rρk = pk = 1
k k k

donde hemos usado las Ecs. (6.29, 6.17, 6.25). La expresión para la probabilidad Ec. (6.30) coincide con la expresión
para estados puros, con la extensión apropiada del operador densidad Ec. (6.29). Veamos lo que ocurre con el valor
esperado de un observable
(" # ) (" # )
X X X X
hAi = pk hAk i = pk T r {ρk A} = T r pk ρk A = T r pk ρk A
k k k k
hAi = T r {ρA}

esto también se puede ver usando la Ec. (6.30) en la forma


( )
X X X
hAi = an P (an ) = an T r {ρPn } = T r ρ an Pn = T r {ρA}
n n n

calculemos ahora la evolución temporal del operador densidad para estados mezclados. Para ello asumiremos que
a diferencia del estado del sistema, su Hamiltoniano está bien definido. En otras palabras, el sistema como tal
está perfectamente definido aunque no lo esté su estado. Puede verse fácilmente que si en el tiempo t 0 el sistema
tiene una probabilidad pk de estar en el estado |ψk i entonces en un tiempo posterior t, tiene la misma probabilidad
de estar en el estado |ψk (t)i. Si el sistema está en el estado |ψ k i (puro) en t0 , la evolución temporal está dada por
al ecuación de Schrödinger
d
i~ |ψk (t)i = H (t) |ψk (t)i ; |ψk (t0 )i = |ψk i
dt
el operador densidad en el tiempo t está dado por
X
ρ (t) = pk ρk (t) (6.31)
k

donde hemos usado el hecho ya mencionado de que p k no evoluciona en el tiempo. Usando (6.22, 6.31) encontramos
que
" #
dρ (t) X dρk (t) X 1 1 X 1
= pk = pk [H (t) , ρk (t)] = H (t) , pk ρk (t) = [H (t) , ρ]
dt dt i~ i~ i~
k k k
dρ (t)
i~ = [H (t) , ρ]
dt
nótese que hemos usado la linealidad de las Ecs. (6.22, 6.31) con respecto a ρ k (t) para obtener la evolución temporal
de ρ. Vemos entonces que ecuación de evolución temporal es totalmente análoga a la obtenida para estados puros
Ec. (6.22).
212CAPÍTULO 6. APLICACIÓN DE LOS POSTULADOS CUANDO SE POSEE INFORMACI ÓN PARCIAL DE UN

Nótese sin embargo, que ρ definido por (6.31) no es un proyector (a menos que p k = δkm , en cuyo caso tenemos
un estado puro). Se puede verificar que cuando el estado es mezclado i.e. p k 6= δkm tenemos que

ρ2 6= ρ ; T rρ2 < 1 (6.32)

y que verificando una sola de las ecuaciones (6.24) nos dice que el sistema está en un estado puro. En conclusión,
utilizando la definición (6.31) del operador densidad ρ para estados mezclados, se obtienen las Ecs. (6.21-6.23), pero
las Ecs. (6.24) para estados puros son reemplazadas por las Ecs. (6.32) para estados mezclados.
Demostraremos adicionalmente que ρ es un operador positivo, en primer lugar es claro que ρ es hermı́tico puesto
que pk son números reales no negativos. Adicionalmente, si tomamos un ket arbitrario |ui podemos escribir
X X X
hu| ρ |ui = pk hu| ρk |ui = pk hu| ψk ihψk |ui = pk |hu| ψk i|2
k k k
hu| ρ |ui ≥ 0 (6.33)

donde hemos usado el hecho de que las probabilidades p k son no negativas. Esto demuestra que ρ es un operador
positivo.
Resumimos estos resultados en la siguiente forma: sea un sistema que está en una mezcla estadı́stica de estados
con estados accesibles {|ψk i}, cada uno de ellos asociado a una probabilidad {p k }, definimos el operador densidad
ρ con las siguientes propiedades
X
ρ (t) ≡ pk ρk (t) ; ρk (t) ≡ |ψk i hψk | (6.34)
k

ρ = ρ ; T rρ = 1 ; ρ es un operador positivo (6.35)
2 2
ρ (t) = ρ (t) ; T rρ (t) = 1 para estados puros (i.e. pk = δkm ) (6.36)
2 2
ρ (t) 6= ρ (t) ; T rρ (t) < 1 para estados mezclados (i.e. p k 6= δkm ) (6.37)
hAi (t) = T r {ρ (t) A} ; P (an ) = T r {Pn ρ (t)} (6.38)
d
i~ ρ (t) = [H (t) , ρ (t)] (6.39)
dt

6.2.5. Populaciones y coherencias


Veremos ahora el significado Fı́sico de los elementos matriciales ρ np de ρ en una cierta base {|un i}. Consideremos
primero los elementos diagonales ρnn . De acuerdo con (6.34) estos elementos están dados por
X X X X
ρnn = pk [ρk ]nn = pk [|ψk i hψk |]nn = pk hun |ψk i hψk | un i = pk |hun |ψk i|2
k k k k
X 2

ρnn = pk c(k)
n ; c(k)
n ≡ hun |ψk i (6.40)
k

(k) 2
los factores cn son cantidades positivas que fı́sicamente se interpretan de la siguiente manera: Si el estado del

(k) 2
sistema es |ψk i y si se mide un observable A cuyos vectores propios están dados por la base {|u n i}, entonces cn
es la probabilidad de que el sistema quede preparado en el estado |u n i después de la medida de A.
Ahora bien, la Ec. (6.40), nos dice que ρ nn es la suma ponderada (a través de las probabilidades asociadas a
los estados) de las probabilidades arriba mencionadas. En otras palabras, ρ nn representa la probabilidad promedio
de encontrar al sistema en el estado |u n i. Este promedio surge de la indeterminación que tenemos sobre el estado
inicial del sistema. Por las razones anteriores, ρ nn se conoce como la populación del estado |u n i; puesto que si
realizáramos la misma medida un número N de veces para sistemas idénticos bajo las mismas condiciones iniciales 3 ,
3
En este caso, las mismas condiciones iniciales no significan que el sistema parta siempre del mismo estado |ψ k i. Lo que significa es
que en el momento inicial para cada experimento, el sistema posee los mismo estados accesibles {|ψk i} con las mismas ponderaciones
{pk } para éstos. Podemos decir que el sistema está en la misma condición mezclada inicial, ya que para cada experimento, el operador
densidad es el mismo en el tiempo inicial.
6.2. OPERADOR DENSIDAD 213

siendo N un número muy grande, un número N ρ nn de sistemas estarán en el estado |u n i. Es claro además de la Ec.

(k) 2
(6.40), que ρnn es un número real positivo, igual a cero solo si todos los cn son cero.
Con un cálculo muy similar se encuentran los elementos no diagonales de ρ en la base {|u n i}
X
ρnp = pk c(k)
n cp
(k)∗
; c(k)
n ≡ hun |ψk i (6.41)
k

(k) (k)∗
los términos cruzados cn cp son del mismo tipo que los estudiados en la sección 5.9.1. Por tanto, ellos expresan
los efectos de interferencia entre los estados |u n i y |up i que pueden surgir cuando el estado |ψ k i es una superposición
lineal coherente de éstos estados. La Ec. (6.41) nos dice que ρ np es el promedio de éstos términos cruzados tomados
sobre todos los estados accesibles de la mezcla estadı́stica. A diferencia de las populaciones, ρ np se puede anular
incluso si los términos cruzados no son nulos, esto se debe a que estos términos cruzados son números complejos
(y no números reales no negativos como ocurre con los ρ nn ). Si un ρnp es cero, significa que hay una cancelación
estadı́stica de los efectos de interferencia entre los estados |u n i y |up i. Por otro lado, si ρnp no es cero, decimos
que existe cierta coherencia entre éstos estados. Por esta razón, a los elementos no diagonales ρ np suele llamárseles
coherencias.
Es importante mencionar que la distinción entre populaciones y coherencias depende de la base {|u n i} escogida
en el espacio de estados, o en otras paralabras del observables A para el cual construı́mos la base {|u n i} de vectores
propios. Puesto que ρ es hermı́tico, es posible encontrar una base ortonormal {|χ l i} donde ρ sea diagonal, ρ se puede
escribir entonces en la forma X
ρ= πl |χl i hχl |
l
πl los valores propios de ρ. Dado que ρ es positivo, sus valores propios son reales no-negativos y puesto que
siendo P
T rρ = l πl = 1 tenemos que X
0 ≤ πl ≤ 1 ; πl = 1
l
por tanto se puede considerar que ρ describe una mezcla estadı́stica de los estados |χ l i con probabilidades πl .
Claramente, no hay coherencias entre los estados {|χ l i}.
Usando la Ec. (6.33) se puede demostrar que

ρnn ρpp ≥ |ρnp |2

de esto se obtiene en particular, que ρ solo puede tener coherencias entre estados cuya populación es no nula.
Un caso interesante ocurre cuando la base elegida {|u n i} son autovectores del Hamiltoniano, y éste último no
depende explı́citamente del tiempo. Tenemos entonces que

H |un i = En |un i

usando la Ec. (6.39) y teniendo en cuenta que |u n i y En no dependen del tiempo (ya que el Hamiltoniano no deenden
del tiempo) se encuentra que
 
d d
hun | i~ ρ |up i = hun | [H, ρ] |up i ⇒ i~ hun | ρ |up i = hun | [Hρ − ρH] |up i
dt dt
dρnp dρnp
⇒ i~ = hun | [En ρ − ρEp ] |up i ⇒ i~ = (En − Ep ) hun | ρ |up i
dt dt
dρnp
i~ = (En − Ep ) ρnp
dt
conviene colocar los términos diagonales y no diagonales por aparte
dρnn dρnp
i~ = 0 ; i~ = (En − Ep ) ρnp
dt dt
de lo cual se deduce
i
ρnn (t) = constante ; ρnp = e ~ (Ep −En )t ρnp (0)
de modo que las populaciones son constantes y las coherencias oscilan a las frecuencias de Bohr del sistema.
214CAPÍTULO 6. APLICACIÓN DE LOS POSTULADOS CUANDO SE POSEE INFORMACI ÓN PARCIAL DE UN

6.3. Aplicaciones del operador densidad


6.3.1. Sistema en equilibrio termodinámico
Este ejemplo es tomado de la mecánica estadı́stica cuántica. Consideremos un sistema termodinámico en equi-
librio con un baño térmico a temperatura absoluta T . Se puede mostrar que su operador densidad es
n o
ρ = Z −1 e−H/kT ; Z ≡ T r e−H/kT

donde H es el Hamiltoniano del sistema, k la constante de Boltzmann y Z es una función de normalización (conocida
como función de partición) para mantener la traza de ρ igual a la unidad.
Vamos a calcular las populaciones y coherencias para la base ortonormal {|u n i} asociada a los autoestados del
Hamiltoniano. Los elementos matriciales de ρ estarán dados por

ρnp = Z −1 hun | e−H/kT |up i = Z −1 hun | e−Ep /kT |up i = Z −1 e−Ep /kT hun | up i
ρnp = Z −1 e−Ep /kT δnp

vemos entonces que en el equilibrio termodinámico, las populaciones de los estados estacionarios |u n i son funciones
exponencialmente decrecientes de la energı́a, además el decrecimiento es más rápido a medida que disminuye la
temperatura. Por otro lado, las coherencias entre los estados estacionarios son nulas.

6.3.2. Descripción de subsistemas con base en observables globales de un sistema: el concepto


de traza parcial
Volveremos a estudiar sistemas consistentes en dos subsistemas (1) y (2) como se describió en la sección 6.1.
Sea E (1) [E (2)] el espacio de estados del subsistema (1) [(2)], y sea {|u n (1)i} [{|vp (2)i}] una base ortonormal en
el espacio E (1) [E (2)]. El espacio de estados para el sistema global E y una base ortonormal para dicho espacio se
obtienen como

E = E (1) ⊗ E (2) ; {|un (1) vp (2)i} ≡ {|un (1)i ⊗ |vp (2)i} ≡ {|un (1)i |vp (2)i}

Sea un observable A que actúa en el espacio E. Ya hemos estudiado como extender un operador que proviene de uno
de los espacios factores. Ahora estudiaremos un proceso inverso: con base en el operador A que actúa en el espacio
producto, encontraremos un operador A (1) que actúa en el espacio E (1), y que nos permitirá hacer predicciones
fı́sicas sobre el sistema (1). Esta operación se denominará la traza parcial con respecto al sistema (2). Naturalmente,
se puede inducir análogamente el operador A (2) sobre el sistema (2) usando la traza parcial con respecto al sistema
(1).
Introduciremos el operador A (1) por medio del operador A, definiendo los elementos matriciales de A (1) en la
base {|un (1)i} de E (1)
( )
X X
hun (1)| A (1) |un0 (1)i ≡ hun (1) vp (2)| A |un0 (1) vp (2)i = hun (1)| [hvp (2)| A |vp (2)i] |un0 (1)i (6.42)
p p

como esta definición es válida para cualquier base {|u n (1)i} de E (1) tenemos
X
A (1) ≡ [hvp (2)| A |vp (2)i] (6.43)
p

si definimos la traza parcial con respecto al sistema (2) de un operador A sobre E en la forma
X
T r2 A ≡ hvp (2)| A |vp (2)i (6.44)
p

podemos escribir la definición de A (1), Ec. (6.43) en la forma

A (1) ≡ T r2 A (6.45)
6.3. APLICACIONES DEL OPERADOR DENSIDAD 215

para comprender el concepto de traza parcial, escribamos la traza “normal” de un operador A en términos de la
base {|un (1)i |vp (2)i} de E
XX
T rA = hun (1) vp (2)| A |un (1) vp (2)i (6.46)
n p

comparando (6.46) con (6.44) vemos que la apariencia de las dos ecuaciones es similar, excepto que en (6.44) solo
se suma sobre la base del sistema (2). Por esta razón, hablamos de la traza parcial de A con respecto al sistema (2).
Nótese además que la traza parcial con respecto al sistema (2) de un operador A sobre E es un operador en E (1),
en contraste con la traza normal, la cual es un número complejo.
Veamos ahora como se escribe la traza normal de A en términos de las trazas parciales sobre los sistemas (1) y
(2).

( )
XX X X
T rA = hun (1)| {hvp (2)| A |vp (2)i} |un (1)i = hun (1)| hvp (2)| A |vp (2)i |un (1)i
n p n p
X
= hun (1)| {T r2 A} |un (1)i = T r1 (T r2 A)
n

asumiendo que las sumatorias pueden intercambiarse encontramos que

T rA = T r1 (T r2 A) = T r2 (T r1 A) (6.47)

Es fácil ver que la traza parcial con respecto al sistema (1) de un operador sobre E (1) es un número complejo, e
igualmente cuando tomamos el sistema (2). Por esta razón, si tomamos la traza parcial con respecto a (1) y luego
la traza parcial con respecto a (2) (o viceversa) de un observable A sobre E, el resultado es un número complejo
como se vé en la Ec. (6.47).
Obtendremos ahora la traza (normal) de A (1) (calculada sobre E (1)). Para ello usamos la Ec. (6.43), con lo
cual se obtiene
" #
X X X XX
T rA (1) = hun | A (1) |un i = hun | hvp (2)| A |vp (2)i |un i = hun vp (2)| A |un vp (2)i
n n p n p
T rA (1) = T rA (6.48)

En conclusión la traza de A (calculada sobre E) coincide con la traza de A (1) (calculada sobre E (1)) y obviamente
también coincide con la traza de A (2) (calculada sobre E (2)).
Adicionalmente, es fácil ver a partir de la Ec. (6.43), que si A es hermı́tico entonces A (1) y A (2) también lo
son.

6.3.3. Traza parcial y operador densidad

Una de las aplicaciones de mayor interés del concepto de traza parcial se obtiene cuando lo aplicamos al operador
densidad ρ sobre E = E (1) ⊗ E (2). Puesto que la traza de ρ es igual a la unidad, la traza de ρ (1) y ρ (2) también
lo será, de acuerdo con la Ec. (6.48). Ası́ mismo, los operadores ρ (1) y ρ (2) también serán hermı́ticos y en general,
puede demostrarse que ρ (1) y ρ (2) satisfacen todas las propiedades de un operador densidad establecidas en la
sección 6.2.44 .
Sea además A (1) un observable definido sobre E (1). La Ec. (6.38) nos dice que el valor esperado del observable

4
Sin embargo, la evolución temporal de ρ (1) ó ρ (2) no viene en general dada por la Ec. (6.39).
216CAPÍTULO 6. APLICACIÓN DE LOS POSTULADOS CUANDO SE POSEE INFORMACI ÓN PARCIAL DE UN

e (1) ≡ A (1) ⊗ I2 sobre E está dado por


A
D E n o X h i
e (1)
A = T r ρA e (1) = e (1) |un (1) vp (2)i
hun (1) vp (2)| ρA
n,p
 
X X

= hun (1) vp (2)| ρ u 0 (1) vp0 (2) un0 (1) vp0 (2) (A (1) ⊗ I2 ) |un (1) vp (2)i
 0 0 n 
n,p n ,p
XX

= hun (1) vp (2)| ρ un0 (1) vp0 (2) hun0 (1)| A (1) |un (1)i vp0 (2) I2 |vp (2)i
n,p n0 ,p0
XX
= hun (1) vp (2)| ρ un0 (1) vp0 (2) hun0 (1)| A (1) |un (1)i δpp0
n,p n0 ,p0

e (1) queda
con lo cual es valor esperado de A
" #
D E X X
e (1) =
A hun (1) vp (2)| ρ |un0 (1) vp (2)i hun0 (1)| A (1) |un (1)i
n,n0 p

pero el factor dentro de paréntesis cuadrados es el elemento matricial de ρ (1), como se observa en la definición
(6.42). Con lo cual tenemos
D E X XX X
Ae (1) = [hun (1)| ρ (1) |un0 (1)i] hun0 (1)| A (1) |un (1)i = [ρ (1)]nn0 [A (1)]n0 n = [ρ (1) A (1)]nn
n,n0 n n0 n
D E
Ae (1) = T r [ρ (1) A (1)] (6.49)

comparando con la expresión


D E (6.38) vemos que la traza parcial ρ (1) nos permite calcular los valores esperados de
e
observables del tipo A (1) como si el sistema (1) estuviera aislado y tuviera a ρ (1) como su operador densidad.
Similarmente, obtenemos una expresión análoga a la segunda de las Ecs. (6.38) para calcular probabilidades asociadas
a observables del tipo A e (1), es decir para resultados de medidas realizadas solo sobre el sistema (1).
En la sección 6.1.2, vimos que no es posible asignar un vector de estado al sistema (1), si el estado del sistema
global (1) + (2) no está descrito por un producto tensorial de estados de E (1) y E (2). Esto nos muestra otra ventaja
del operador densidad: independientemente de que el sistema global esté o no esté en un producto de estados, o de
que el sistema esté en un estado puro o mezclado, siempre es posible construı́r un operador densidad ρ (1) asociado
al subsistema (1), utilizando las trazas parciales. Esto permite el cálculo de todas las cantidades asociadas solo con
el sistema (1). En contraste, para que podamos asignar un vector de estado a cada subsistema del sistema global, se
requiere que dicho sistema global esté en un estado puro y que el vector de estado que lo describe sea un producto
tensorial de vectores de cada subsistema. 
Por otro lado, Se puede demostrar a partir de la Ec. (6.42) que T r ρ2 (1) no es en general igual a la unidad,
incluso si T rρ = T rρ2 = 1. Fı́sicamente, esto significa que incluso si ρ describe un estado puro, los operadores
densidad ρ (1) y ρ (2) obtenidos por trazas parciales no necesariamente describen estado puros. En otras palabras,
no es en general posible asignar un vector de estado al subsistema (1) [o al (2)], excepto en el caso en el cual el
sistema global es un estado producto.
Lo anterior nos induce a estudiar el caso en el cual el sistema global está en un estado producto

|ψi = |ϕ (1)i |χ (2)i = |ϕ (1) χ (2)i (6.50)

puesto que esto implica un estado puro, el operador densidad viene dado por la Ec. (6.15)

ρ = |ϕ (1) χ (2)i hϕ (1) χ (2)| = [|ϕ (1)i hϕ (1)|] ⊗ [|χ (2)i hχ (2)|]

esto se puede escribir en la forma

ρ = σ (1) ⊗ τ (2) (6.51)


σ (1) ≡ |ϕ (1)i hϕ (1)| , τ (2) ≡ |χ (2)i hχ (2)| (6.52)
6.3. APLICACIONES DEL OPERADOR DENSIDAD 217

Calculando las trazas parciales a partir de (6.44) se tiene que


X X
T r2 {σ (1) ⊗ τ (2)} ≡ hvp (2)| [σ (1) ⊗ τ (2)] |vp (2)i = σ (1) hvp (2)| τ (2) |vp (2)i
p p
T r2 {σ (1) ⊗ τ (2)} = σ (1) T r [τ (2)] = σ (1)

y similarmente para T r1 {σ (1) ⊗ τ (2)}, con lo cual se obtiene

T r2 {σ (1) ⊗ τ (2)} = σ (1) ; T r1 {σ (1) ⊗ τ (2)} = τ (2) (6.53)

por tanto si el operador densidad está descrito por (6.51), tal operador representa una simple yuxtaposición de un
sistema (1) descrito por el operador densidad σ(1), y un sistema (2) descrito por τ (2). No hay correlación entre
estos dos subsistemas.
Nótese que los resultados arriba mencionados dependen de la Ec. (6.51), pero no de las Ecs. (6.50, 6.52). Esto
implica que la validez de (6.53) se extiende a un contexto más general, ya que es posible encontrar estados del
sistema en los cuales ρ se puede factorizar en la forma (6.51), pero en donde los operadores factor no necesariamente
son de la forma descrita por (6.52), es decir σ (1) y τ (2) pueden corresponder a estados puros y/o mezclados. Si al
menos uno de los operadores σ (1) , τ (2) corresponde a un estado mezclado, el estado del sistema no estará descrito
por un vector de la forma (6.50). Lo anterior implica la simple yuxtaposición de dos sistemas cada uno en un estado
mezclado, pero que no están correlacionados entre sı́, y el sistema global será en general mezclado.
Capı́tulo 7

Formulaciones alternativas de la mecánica


cuántica

7.1. Operador evolución temporal: definición y propiedades


En la sección 3.3.2 vimos que la transformación que nos lleva de un estado inicial |ψ (t 0 )i al estado |ψ (t)i del
mismo sistema en un instante posterior t, es una transformación lineal descrita por la Ec. (3.21)

|ψ (t)i = U (t, t0 ) |ψ (t0 )i (7.1)

por otro lado, vimos en la sección 3.3.3, que los kets |ψ (t)i poseen la misma norma para todo tiempo, propiedad
fundamental para obtener conservación de la probabilidad. Esto implica entonces que el operador U (t, t 0 ) debe ser
unitario (debe conservar la norma). Caracterizar este operador conocido como operador evolución temporal, es en
todo sentido equivalente fı́sicamente a resolver la ecuación de Schrödinger. Una primera propiedad que se desprende
directamente de la definición Eq. (7.1) es que
U (t0 , t0 ) = I (7.2)
escribiendo la Ec. de Schrödinger en el lenguaje de los kets y usando la Eq. (7.1) se tiene
d
i~ |ψ (t)i = H (t) |ψ (t)i (7.3)
 dt


i~ U (t, t0 ) |ψ (t0 )i = H (t) U (t, t0 ) |ψ (t0 )i
∂t
y teniendo en cuenta que el estado inicial es en principio arbitrario, podemos escribir

i~ U (t, t0 ) = H (t) U (t, t0 ) (7.4)
∂t
vemos que (7.4) es una ecuación diferencial de primer orden para U (t, t 0 ) que debe cumplir la condición inicial (7.2).
Las Ecs. (7.2, 7.4) se pueden sintetizar en una sola ecuación integral
Z
i t  
U (t, t0 ) = I − H t0 U t0 , t0 dt0
~ t0

La Ec. (7.1) es válida para todos los valores de t y t 0 (de momento no hemos introducido causalidad), por tanto
podemos escribir

|ψ (t1 )i = U (t1 , t0 ) |ψ (t0 )i (7.5)


|ψ (t2 )i = U (t2 , t1 ) |ψ (t1 )i (7.6)

y sustituyendo (7.5) en (7.6) se tiene

|ψ (t2 )i = U (t2 , t1 ) [U (t1 , t0 ) |ψ (t0 )i]


|ψ (t2 )i = [U (t2 , t1 ) U (t1 , t0 )] |ψ (t0 )i (7.7)
7.1. OPERADOR EVOLUCIÓN TEMPORAL: DEFINICIÓN Y PROPIEDADES 219

de la misma forma, la acción de U (t2 , t0 ) se puede escribir usando (7.1)

|ψ (t2 )i = U (t2 , t0 ) |ψ (t0 )i (7.8)

y puesto que |ψ (t2 )i y |ψ (t0 )i son arbitrarios, la comparación de las Ecs. (7.7, 7.8) nos da

U (t2 , t0 ) = U (t2 , t1 ) U (t1 , t0 ) (7.9)

este procedimiento se puede generalizar para escribir

U (tn , t0 ) = U (tn , tn−1 ) U (tn−1 , tn−2 ) . . . U (t2 , t1 ) U (t1 , t0 ) (7.10)

donde t0 , t1 , . . . , tn son arbitrarios. Si asumimos causalidad i.e. t 0 < t1 < . . . < tn , la Ec. (7.10) se puede interpretar
diciendo que el sistema evoluciona desde t 0 pasando progresivamente por los estados intermedios t 1 , t2 , . . .,tn−1 hasta
llegar a tn . Si usamos t0 = t2 en (7.9) y tenemos en cuenta (7.2) llegamos a

U (t2 , t2 ) = I = U (t2 , t1 ) U (t1 , t2 )


U (t1 , t2 ) = U −1 (t2 , t1 ) (7.11)

es importante insistir en que t1 y t2 son arbitrarios y no se ha asumido causalidad. La relación (7.11) es sin embargo
muy lógica desde el punto de vista causal.
Veremos como es el operador evolución temporal infinitesimal, es decir el que conecta a un tiempo t con un
tiempo t + dt, para ello escribimos la ecuación de Schrödinger (7.3) en forma diferencial

i
i~ d |ψ (t)i = H (t) |ψ (t)i dt ⇒ [|ψ (t + dt)i − |ψ (t)i] = − H (t) |ψ (t)i dt ⇒
  ~
i
|ψ (t + dt)i = I − H (t) dt |ψ (t)i (7.12)
~

de la definición de operador evolución temporal se tiene

|ψ (t + dt)i = U (t + dt, t) |ψ (t)i (7.13)

comparando (7.12) con (7.13) se tiene que


 
i
U (t + dt, t) = I − H (t) dt
~

vemos que el operador infinitesimal de evolución temporal es unitario a primer orden ya que H es hermı́tico
 
† i
U (t + dt, t) = I + H (t) dt ⇒
~
  
i i
U (t + dt, t) U † (t + dt, t) = I − H (t) dt I + H (t) dt
~ ~
 
U (t + dt, t) U † (t + dt, t) = I + O (dt)2

una transformación unitaria finita se obtiene con sucesivas transformaciones infinitesimales, este proceso de inte-
gración solo requiere términos de primer orden ya que los de segundo orden continúan yendo a cero cuando se toma
el lı́mite. Por tanto, el operador finito de evolución temporal será también unitario como tenı́a que ser

U † (t1 , t2 ) = U −1 (t1 , t2 ) = U (t2 , t1 )


220 CAPÍTULO 7. FORMULACIONES ALTERNATIVAS DE LA MEC ÁNICA CUÁNTICA

7.1.1. Operador evolución temporal para sistemas conservativos


Cuando H no es función del tiempo, la Ec. (7.4) junto con la condición inicial (7.2) se pueden integrar para
obtener
U (t, t0 ) = e−iH(t−t0 )/~ (7.14)
es fácil verificar que este operador es unitario y que U (t 0 , t) = U −1 (t, t0 ). La unitariedad de U (t, t0 ) (y por tanto
la conservación de la probabilidad) está directamente relacionada con la hermiticidad de H. Una vez más, vemos el
papel clave de la hermiticidad del Hamiltoniano en la conservación de la probabilidad. A manera de consistencia,
vamos a encontrar la Ec. (5.67) a partir de la Ec. (5.66) aplicando el operador evolución temporal para sistemas
conservativos. La Ec. (5.66) es una expansión del estado inicial del sistema en la base |ϕ n,τ i de estados propios del
Hamiltoniano XX
|ψ (t0 )i = cn,τ (t0 ) |ϕn,τ i ; cn,τ (t0 ) ≡ hϕn,τ |ψ (t0 )i (7.15)
n τ
al aplicar el operador evolución temporal a un |ϕ n,τ i queda
X∞  k X∞  k
−iH(t−t0 )/~ 1 i 1 i
U (t, t0 ) |ϕn,τ i = e |ϕn,τ i = − H (t − t0 ) |ϕn,τ i = − (t − t0 ) H k |ϕn,τ i
k! ~ k! ~
k=0 k=0

X 1   k ∞
X 1   k
i i
= − (t − t0 ) Enk |ϕn,τ i = − En (t − t0 ) |ϕn,τ i
k! ~ k! ~
k=0 k=0
−iEn (t−t0 )/~
U (t, t0 ) |ϕn,τ i = e |ϕn,τ i (7.16)

aplicando U (t, t0 ) a ambos lados de la Ec. (7.15) y teniendo en cuenta que este operador es lineal tenemos
XX
U (t, t0 ) |ψ (t0 )i = cn,τ (t0 ) U (t, t0 ) |ϕn,τ i
n τ
XX
|ψ (t)i = cn,τ (t0 ) e−iEn (t−t0 )/~ |ϕn,τ i (7.17)
n τ

donde hemos usado (7.16). Esta ecuación coincide con (5.67).

7.1.2. Observaciones adicionales sobre el operador evolución temporal (opcional)


Cuando H depende explı́citamente del tiempo podrı́amos pensar en analogı́a con la ecuación (7.14), que el
operador evolución temporal es igual al operador V (t, t 0 ) dado por
Rt
− ~i H(t0 ) dt0
V (t, t0 ) = e t0

sin embargo, esto no es correcto en general, dado que la derivada de un operador de la forma e F (t) no es en general
igual a F 0 (t) eF (t) (ver Eq. 1.146, pag. 69) de modo que en este caso
∂V (t, t0 )
i~ 6= H (t) V (t, t0 )
∂t
Consideremos ahora los experimentos descritos en la sección 5.9.3 en los cuales se llegaba desde el mismo estado
inicial |ua i hasta el mismo estado final |vc i de dos maneras: (1) Efectuando medidas de los observables A y C
obteniendo dichos estados y (2) Efectuando sucesivamente medidas de los observables A, B y C donde para el
estado intermedio se obtiene |wb i. En la discusión de la sección 5.9.3 se asumió que las medidas se hacı́an en
intervalos muy cortos de modo que el sistema no tenı́a tiempo de evolucionar. Ahora asumiremos que las medidas se
hacen en intervalos en los cuales la evolución temporal es apreciable. Para el primer caso asumimos que el sistema
está en el estado |ua i en t0 , y |vc i en t2 . Para el segundo caso asumimos que el sistema está en el estado |u a i en t0 ,
en el estado |wc i en t1 y finalmente en el estado |vc i en t2 . Es decir t0 , t1 y t2 definen los tiempos en que se realizan
las medidas.
En tal situación, la Ec. (5.82) se convierte en
 2 2
Pa (c) = hvc | ψ t−
2 i = |hvc | U (t2 , t0 ) |ua i| (7.18)
7.2. BRAS, KETS Y OBSERVABLES EQUIVALENTES 221


donde ψ t− 2 es el estado del sistema que evoluciona
 desde |u a i en t0 hasta el instante justo antes de la medida
de C, por eso la notación t− , es claro que ψ t+ = |vc i (estado justo después de la medida de C). La Ec. (5.83)
2 2
queda  2 
Pa (b, c) = hvc | φ t− hwb | ψ t− i 2 = |hvc | U (t2 , t1 ) |wb i|2 |hwb | U (t1 , t0 ) |ua i|2
2 i 1 (7.19)

siendo φ t2 el estado

del sistema justo antes de la medida de C, cuando el sistema evoluciona a partir del estado
|wb i en t1 . El estado ψ t− 1 describe al sistema justo antes de la medida de B cuando evoluciona desde |u a i en t0 .
Ahora usando la Ec. (7.9) se tiene

hvc | U (t2 , t0 ) |ua i = hvc | U (t2 , t1 ) U (t1 , t0 ) |ua i


X
hvc | U (t2 , t0 ) |ua i = hvc | U (t2 , t1 ) |wb i hwb | U (t1 , t0 ) |ua i (7.20)
b

sustituyendo (7.20) en la Ec. (7.18), y comparando el resultado con la Ec. (7.19), se puede verificar que al igual que
en la ecuación (5.86) se tiene que X
Pa (c) 6= Pa (b, c)
b

7.2. Bras, kets y observables equivalentes


A través de la discusión de los postulados de la mecánica cuántica y sus consecuencias, hemos observado que
las predicciones de la mecánica cuántica tales como valores accesibles de un observable, probabilidades, valores
esperados del observable etc. están expresados en términos de ecuaciones de valores propios y productos escalares,
es decir expresiones de la forma
A |ηi = a |ηi ; m = hφ| A |ψi (7.21)
donde |ηi , |φi , |ψi se refiere a estados arbitrarios del sistema y A es un observable (operador hermı́tico comple-
to). Desde este punto de vista los bras, kets y observables (entendidos estos últimos como operadores hermı́ticos
completos) no son cantidades medibles sino solo herramientas para calcular los verdaderos observables fı́sicos (val-
ores propios y productos escalares). Esto es análogo a lo que ocurre con los potenciales escalar y vectorial en
electrodinámica los cuales son excelentes herramientas pero no corresponden a observables fı́sicos.
Esto indica que si los kets, bras y observables se redefinen de manera que no se alteran los valores propios ni los
productos escalares, tendremos una imagen diferente pero totalmente equivalente fı́sicamente desde el punto de vista
de los postulados. La alternativa más evidente para hacer este cambio de imagen es el uso de operadores unitarios
ya que estos no alteran el valor del producto interno. Vamos a reexpresar el producto interno en (7.21) insertando
operadores identidad a través de un operador unitario I = O † O = OO †
    h i 
hφ| A |ψi = hφ| O † O A O † O |ψi = hφ| O † OAO † [O |ψi]
 
hφ| A |ψi = hOφ| OAO † |Oψi (7.22)

ahora redefinimos los operadores, kets y bras en la forma




A0 ≡ OAO † ; ψ 0 ≡ |Oψi = O |ψi ; ψ 0 ≡ hOψ| = hψ| O † (7.23)

y combinando las Ecs. (7.22, 7.23) es claro que




hφ| A |ψi = φ0 A0 ψ 0 (7.24)

adicionalmente puede verificarse que el espectro de valores propios de A 0 coincide con el de A, y los vectores propios
de A0 están dados por |η 0 i ≡ O |ηi , siendo |ηi los kets propios de A
   
A |ηi = a |ηi ⇒ OA |ηi = aO |ηi ⇒ OA O † O |ηi = aO |ηi ⇒ OAO † [O |ηi] = a [O |ηi]

A |ηi = a |ηi ⇒ A0 η 0 = a η 0 ; A0 ≡ OAO † ; η 0 ≡ O |ηi

En conclusion, los nuevos bras, kets y operadores mantienen intactos los valores propios y productos internos
asociados con los observables fı́sicos y por tanto describen la misma Fı́sica que los bras, kets y operadores originales.
222 CAPÍTULO 7. FORMULACIONES ALTERNATIVAS DE LA MEC ÁNICA CUÁNTICA

7.2.1. La transformada de un operador y sus propiedades


Si tomamos la igualdad expresada en (7.24) para los elementos de una base del espacio


hui | A |uj i = u0i A0 u0j
E

tal igualdad se puede interpretar diciendo que el elemento matricial A 0ij de A0 en la base u0j coincide con el
elemento matricial Aij de A en la base |uj i; siendo ambas bases ortonormales (conectadas por una transformación
unitaria). En este contexto se dice que A 0 es la transformada del operador A. La transformada A 0 posee propiedades
muy útiles, ya vimos que el espectro de ambos operadores es idéntico y sus vectores propios están conectados por
una transformación unitaria. Las siguientes propiedades se obtienen de la definición
†  †  0
A0 = OAO †
= OA† O † = A†
†
A = A † ⇔ A 0 = A0

de modo que la hermiticidad se preserva con esta relación. Vemos además que la transformada de A está conectada
con A por una transformación de similaridad, con el requerimiento de que el operador que realiza la transformación
sea unitario. Como las transformaciones de similaridad preservan el producto, es claro que
n
A0 = (An )0

y usando la definición para una función F (A) del operador A, Ec. (1.129) se obtiene

F 0 (A) = F A0 (7.25)

donde en este caso F 0 (A) significa la transformada de la función F (A) con respecto al operador O, y no la derivada
de F (A) “con respecto a A” (ver notación en la sección 1.34.1 Eq. 1.135). Para los conmutadores de las transformadas
de dos operadores A y B tenemos
 0 0 h i      
A ,B = OAO † , OBO † = OAO † OBO † − OBO † OAO †
   
= OA O † O BO † − OB O † O AO † = OABO † − OBAO † = O (AB − BA) O †
 0 0
A ,B = O [A, B] O † = [A, B]0 (7.26)

de modo que el conmutador de las transformadas es la transformada del conmutador. Si el conmutador es propor-
cional a la identidad (observables conjugados) tenemos
 
[Q, P ] = αI ⇒ Q0 , P 0 = O [Q, P ] O † = αOIO † = αI
 
[Q, P ] = αI ⇒ Q0 , P 0 = [Q, P ] (7.27)

el caso más importante son los observables X, P para los cuales vemos que el conmutador de sus transformadas
X 0 , P 0 , es idéntico al de los operadores originales.

7.3. La imagen de Schrödinger y la imagen de Heisenberg


Denotaremos a los kets, bras y observables originalmente utilizados en la mecánica cuántica como |ψ S i , hψS | ,
AS ; indicando que están en la “imagen de Schrödinger”. En esta imagen, los observables básicos X, P no dependen
del tiempo y los observables que se construyen con ellos solo pueden tener dependencia explı́cita con el tiempo
(excluiremos el espı́n por ahora) de modo que A S = AS (X, P, t), simplificaremos la notación a A S = AS (t). La
evolución temporal del estado en la imagen de Schrödinger se obtiene a través de la ecuación de Schrödinger (de
allı́ el nombre de la imagen) o equivalentemente, a través del operador evolución temporal Ec. (7.1)

|ψS (t)i = U (t, t0 ) |ψS (t0 )i ⇒ |ψS (t0 )i = U † (t, t0 ) |ψS (t)i (7.28)
7.3. LA IMAGEN DE SCHRÖDINGER Y LA IMAGEN DE HEISENBERG 223

donde hemos tenido en cuenta que U (t, t 0 ) es unitario, y por tanto también lo es U † (t, t0 ). Nótese que definiendo a
O ≡ U † (t, t0 ) como el operador unitario para transformar bras, kets y observables, según la Ec. (7.23), vemos que
la Ec. (7.28) nos conduce a que los nuevos bras y kets serán independientes del tiempo. Denotaremos a los nuevos
bras, kets y operadores con el subı́ndice H para indicar “la imagen de Heisenberg”. Usando O ≡ U † (t, t0 ) en las
Ecs. (7.23) y aplicando la Ec. (7.28) se obtiene

|ψH i ≡ U † (t, t0 ) |ψS (t)i = |ψS (t0 )i ; hψH | ≡ hψS (t)| U (t, t0 ) = hψS (t0 )| (7.29)

AH ≡ U (t, t0 ) AS (t) U (t, t0 ) (7.30)

la Ec. (7.29) nos muestra que en la imagen de Heisenberg, los kets y bras no poseen evolución temporal y su
valor coincide con el del estado en la imagen de Schrödinger en t 0 . Por otro lado, incluso los observables A que en
la imagen de Schrödinger no dependen del tiempo, adquieren dependencia temporal en la imagen de Heisenberg
como se aprecia en la Ec. (7.30). Se tiene entonces que la evolución temporal en la imagen de Heisenberg recae
completamente en los operadores.
Calculemos la evolución temporal del operador A H (t) para un operador arbitrario AS (t). Derivando la Ec.
(7.30) y usando la Ec. (7.4) ası́ como su adjunta, se tiene que
dAH (t) dU † (t, t0 ) dAS (t) dU (t, t0 )
= AS (t) U (t, t0 ) + U † (t, t0 ) U (t, t0 ) + U † (t, t0 ) AS (t)
dt dt dt dt
dAH (t) 1 † † dA S (t)
= − U (t, t0 ) HS (t) AS (t) U (t, t0 ) + U † (t, t0 ) U (t, t0 )
dt i~ dt
1
+ U † (t, t0 ) AS (t) HS (t) U (t, t0 )
i~
insertando un operador identidad apropiadamente tenemos
dAH (t) 1 h i dAS (t)
= − U † (t, t0 ) HS (t) U (t, t0 ) U † (t, t0 ) AS (t) U (t, t0 ) + U † (t, t0 ) U (t, t0 )
dt i~ dt
1 h i
+ U † (t, t0 ) AS (t) U (t, t0 ) U † (t, t0 ) HS (t) U (t, t0 )
i~
dAH (t) 1 h † ih i dAS (t)
= − U (t, t0 ) HS (t) U (t, t0 ) U † (t, t0 ) AS (t) U (t, t0 ) + U † (t, t0 ) U (t, t0 )
dt i~ dt
1 h † ih i
+ U (t, t0 ) AS (t) U (t, t0 ) U † (t, t0 ) HS (t) U (t, t0 )
i~  
dAH (t) 1 † dAS (t) 1
= − HH (t) AH (t) + U (t, t0 ) U (t, t0 ) + AH (t) HH (t)
dt i~ dt i~
 
dAH (t) dAS (t)
i~ = [AH (t) , HH (t)] + i~ (7.31)
dt dt H
una ecuación muy similar a la ecuación para un observable clásico u (q, p) que es función del espacio de fase q, p, en
donde tenemos corchete de Poisson en lugar de conmutador (ver Ec. 5.53). A manera de consistencia, veremos que
es fácil reproducir la Ec. (5.52) teniendo en cuenta que por construcción

hAi (t) = hψS (t)| AS (t) |ψS (t)i = hψH | AH (t) |ψH i

teniendo en cuenta la Ec. (7.31) y el hecho de que en la imagen de Heisenberg los estados no dependen del tiempo
se tiene
   
d hAi (t) dAH (t) 1 dAS (t)
= hψH | |ψH i = hψH | [AH (t) , HH (t)] + |ψH i
dt dt i~ dt H
  
d hAi (t) 1 dAS (t)
= h[AH (t) , HH (t)]iH + (7.32)
dt i~ dt H H

una vez más, por construcción estas cantidades son iguales al caso en que todo lo evaluamos en la imagen de
Schrödinger, de modo que sustituyendo el subı́ndice H por S en la Ec. (7.32), se reproduce la Ec. (5.52). Nótese
sin embargo, que la expresión (7.31) es más general que la Ec. (5.52) ya que la última es válida solo para valores
esperados en tanto que (7.31) es válida para los operadores como tal.
224 CAPÍTULO 7. FORMULACIONES ALTERNATIVAS DE LA MEC ÁNICA CUÁNTICA

7.3.1. Algunos sistemas simples en la imagen de Heisenberg


Tomemos el caso de una partı́cula no-relativista unidimensional de masa m sometida a un potencial del tipo
V (XS , t). Usando la Ec. (7.25), tenemos que

PS2 P2
HS (t) = + V (XS , t) ; HH (t) = H + V (XH , t) (7.33)
2m 2m
la Ec. (7.27) nos dice que
[XH , PH ] = [XS , PS ] = i~ (7.34)
sustituyendo (7.33, 7.34) en (7.31) se obtiene la evolución temporal de los operadores X H , PH
   
dXH (t) dXS PH2
i~ = [XH (t) , HH (t)] + i~ = XH (t) , + V (XH , t)
dt dt H 2m
 
PH2 PH PH PH
= XH (t) , = [XH (t) , PH ] + [XH (t) , PH ] = i~
2m 2m 2m m
dXH (t) PH
=
dt m

  
dPH (t) dPS PH2
i~ = [PH (t) , HH (t)] + i~ = PH (t) , + V (XH , t)
dt dt H 2m
= [PH (t) , V (XH , t)] = −i~∂XH V (XH , t)
dPH (t) ∂V (XH , t)
= −
dt ∂XH
donde se ha usado la Ec. (1.139) pág. 67. Hemos obtenido entonces la evolución temporal de los observables básicos
en la imagen de Heisenberg
dXH (t) PH dPH (t) ∂V (XH , t)
= ; =− (7.35)
dt m dt ∂XH
estas ecuaciones son una generalización del teorema de Ehrenfest Ec. (5.55), ya que estas ecuaciones son válidas
para los operadores como tal y no solo para sus valores esperados.
Vemos que la analogı́a con las ecuaciones clásicas es más fuerte en la imagen de Heisenberg. En la imagen de
Schrödinger, la analogı́a aparece solo cuando se toman los valores esperados de los observables. En contraste, en la
imagen de Heisenberg la analogı́a aparece directamente en la ecuaciones de movimiento para los observables.
Un sistema simple de amplio interés ocurre cuando el sistema es conservativo (H S es independiente del tiempo),
y el observable AS conmuta con el Hamiltoniano HS . Para sistemas conservativos, el operador evolución temporal
está dado por (7.14)
i
U (t, t0 ) = e− ~ HS (t−t0 )
si AS conmuta con HS también conmuta con eαHS de modo que conmuta con U (t, t0 ). El observable asociado en la
imagen de Heisenberg queda entonces

AH (t) = U † (t, t0 ) AS (t) U (t, t0 ) = U † (t, t0 ) U (t, t0 ) AS (t) = AS (t)

En conclusión, si el sistema es conservativo y A S conmuta con HS , los observables en las imágenes de Schrödinger y
de Heisenberg coinciden. Como caso particular, H S = HH para sistemas conservativos. Nótese que no es necesario
que AS sea constante de movimiento, ya que en general hemos permitido que A S (t) sea función explı́cita del tiempo.

7.4. La imagen de interacción


Consideremos un sistema fı́sico descrito por un Hamiltoniano H 0S en la imagen de Schrödinger. Denotaremos el
operador evolución temporal asociado a H 0S como U0 (t, t0 ) de modo que se cumplen las Ecs. (7.4)
∂U0 (t, t0 )
i~ = H0S (t) U0 (t, t0 ) ; U0 (t0 , t0 ) = I (7.36)
∂t
7.4. LA IMAGEN DE INTERACCIÓN 225

asumimos ahora que el sistema es “perturbado” por cierta interacción adicional, de modo que el Hamiltoniano se
modifica en la forma
HS (t) = H0S (t) + WS (t) (7.37)
definiremos una transformación unitaria para kets, bras y observables a través del operador evolución temporal del
“Hamiltoniano no perturbado” H0S . Por tanto, los nuevos kets, bras y observables se definirán como

|ψI (t)i ≡ U0† (t, t0 ) |ψS (t)i ; hψI (t)| ≡ hψS (t)| U0 (t, t0 ) ; AI ≡ U0† (t, t0 ) AS U0 (t, t0 ) (7.38)

nótese que en ausencia de perturbación i.e. cuando W S (t) = 0, el ket |ψI (t)i es independiente del tiempo (y todo
coincide con la imagen de Heisenberg). No obstante, la presencia de W S (t) hace que |ψI (t)i tenga aún dependencia
temporal. Coloquialmente, podemos decir que el operador unitario elegido, “absorbe” la dependencia temporal del
ket debida a H0S dejándonos solo con la dependencia temporal causada por W S (t). Ya veremos que las ecuaciones de
movimiento apoyan esta visión cualitativa de la situación. Las Ecs. (7.36, 7.37, 7.38), describen lo que se denomina
la “imagen de interacción”.
Primero describiremos la dinámica de los kets |ψ I (t)i en la imagen de interacción. Derivando la primera de las
Ecs. (7.38) resulta
d |ψI (t)i dU † (t, t0 ) d |ψS (t)i
i~ ≡ i~ 0 |ψS (t)i + i~U0† (t, t0 )
dt dt dt
y usando las Ecs. (7.36, 7.3) tenemos

d |ψI (t)i
i~ ≡ −U0† (t, t0 ) H0S (t) |ψS (t)i + U0† (t, t0 ) HS (t) |ψS (t)i
dt h i
= −U0† (t, t0 ) H0S (t) U0 (t, t0 ) U0† (t, t0 ) |ψS (t)i
h i
+U0† (t, t0 ) HS (t) U0 (t, t0 ) U0† (t, t0 ) |ψS (t)i

d |ψI (t)i h ih i
i~ = − U0† (t, t0 ) H0S (t) U0 (t, t0 ) U0† (t, t0 ) |ψS (t)i
dt h ih i
+ U0† (t, t0 ) HS (t) U0 (t, t0 ) U0† (t, t0 ) |ψS (t)i
d |ψI (t)i n oh i
i~ = U0† (t, t0 ) [HS (t) − H0S (t)] U0 (t, t0 ) U0† (t, t0 ) |ψS (t)i
dt h ih i
= U0† (t, t0 ) WS (t) U0 (t, t0 ) U0† (t, t0 ) |ψS (t)i

quedando finalmente
d |ψI (t)i
i~ = WI (t) |ψI (t)i (7.39)
dt
de modo que la evolución temporal del ket |ψ I (t)i en la imagen de interacción está regida solo por el término de
perturbación como se habı́a anticipado. Es fácil demostrar que la ecuación diferencial (7.39) es equivalente a la
ecuación integral dada por
Z
1 t 0  
|ψI (t)i = |ψI (t0 )i + dt WI t0 ψI t0 (7.40)
i~ t0
teniendo en cuenta la Ec. (7.38) y el hecho de que U 0 (t0 , t0 ) = I, obtenemos la condición

|ψI (t0 )i = |ψS (t0 )i

la ecuación integral (7.40) se puede resolver por iteración de manera que |ψ I (t)i queda escrita como una expansión
en series de potencias integrales de W I (t)
( Z  2 Z t Z t1 )
1 t 1
|ψI (t)i = I + dt1 WI (t1 ) + dt1 WI (t1 ) dt2 WI (t2 ) + . . . |ψI (t0 )i (7.41)
i~ t0 i~ t0 t0
226 CAPÍTULO 7. FORMULACIONES ALTERNATIVAS DE LA MEC ÁNICA CUÁNTICA

Estudiemos ahora la evolución temporal de los observables en esta imagen. Para esto se deriva en el tiempo la
segunda de las ecuaciones (7.38), el procedimiento es muy similar al realizado para obtener la Ec. (7.31), el único
detalle a tener en cuenta es que aquı́ se usa U 0 (t, t0 ) que está asociado a H0S , de modo que el análogo a la Ec.
(7.31) queda  
dAI (t) dAS (t)
i~ = [AI (t) , H0I (t)] + i~ (7.42)
dt dt I
las ecuaciones de evolución (7.39) y (7.42) muestran que los kets de estado tienen solo a W I (t) como fuente de cambio,
en tanto que los operadores tiene solo a H 0I como fuente de cambio. Cada parte del Hamiltoniano contribuye a
uno u otro cambio, a diferencia de la imágen de Schrödinger en donde la dinámica de los kets está regida por el
Hamiltoniano completo, o la de Heisenberg en la cual la dinámica de los operadores se rige por el Hamiltoniano
completo.
Es notable que la Ec. (7.39) para los kets, se asemeja a la ecuación de Schrödinger en la imagen del mismo
nombre, aunque en la Ec. (7.39) solo aparece la perturbación. Análogamente, la Ec. (7.42) para los operadores se
asemeja a la Ec. (7.31) en la imagen de Heisenberg, aunque en (7.42) solo aparece el Hamiltoniano no perturbado.
Si por ejemplo, WS (t) es mucho menor1 que H0S (t), la dinámica del vector |ψI (t)i es mucho mas “suave” que
la dinámica de |ψS (t)i. Este hecho facilita el uso de diversos métodos de aproximación. En la práctica, esta imagen
resulta útil cuando H0S es un Hamiltoniano suficientemente simple para conocer su solución analı́tica, de modo que
WS (t) se considera una perturbación que se puede evaluar por diferentes métodos. Dado que los operadores toman
sus valores no perturbados (que en principio se asumen conocidos), podemos concentrarnos solo en la evolución de
los kets |ψI i que en general tienen una evolución suave. Por ejemplo H 0S puede ser la energı́a cinética (solución de
partı́cula libre como caso no perturbado) y W S (t) puede ser la energı́a potencial, o H 0S puede ser la energı́a cinética
más una parte de la energı́a potencial que sea suficientemente simple, y W S (t) contiene interacciones externas
adicionales más complejas.

1
Naturalmente, la comparación entre dos observables se refiere en realidad a la comparación entre su valores propios.
Capı́tulo 8

El oscilador armónico cuántico

El oscilador armónico es un sistema de gran importancia en la fı́sica clásica. Tal importancia radica en el hecho
de que todo movimiento acotado alrededor de un punto de equilibrio estable puede ser aproximado a un movimiento
armónico simple, siempre que las oscilaciones sean suficientemente pequeñas. La cuantización del oscilador armónico
aparece en el nacimiento mismo de la mecánica cuántica, ya que la hipótesis de Planck consistió en cuantizar los
modos normales que están asociados a osciladores armónicos en el interior de un cuerpo negro. Adicionalmente, las
pequeñas oscilaciones alrededor del equilibrio también están presentes en el mundo microscópico, como es el caso
de las vibraciones de moléculas diatómicas o de los átomos alrededor del punto de equilibrio en un red cristalina,
etc. Puesto que en estos casos las “elongaciones” alrededor del equilibrio son comparables a la longitud de onda de
De Broglie de los objetos que vibran, es claro que las correcciones cuánticas serán importantes para estos sistemas
que se comportan como osciladores armónicos.

8.1. Propiedades generales del oscilador armónico cuántico unidimensional


El Hamiltoniano cuantizado del oscilador armónico será de la forma
P2 1
H= + mω 2 X 2
2m 2
puesto que H no es función del tiempo, el oscilador armónico cuántico define un sistema conservativo. En conse-
cuencia, el estudio mecánico cuántico de dicho sistema se reduce al estudio de su ecuación de valores propios

H |ϕi = E |ϕi

que en la base {|xi} se escribe como


 
~2 d2 1 2 2
− + mω x ϕ (x) = E ϕ (x)
2m dx2 2
antes de resolver en detalle la ecuación de valores propios vale la pena mencionar que la forma del potencial
1 2 1
V (x) = kx = mω 2 x2
2 2
nos permite obtener algunas propiedades generales de las soluciones. En primer lugar, los autovalores del Hamil-
toniano son positivos, ya que se puede mostrar que en general si la función potencial tiene una cota inferior, los
autovalores E de un Hamiltoniano de la forma
P2
H= + V (X)
2m
son mayores que el mı́nimo de V (x) de modo que si V (x) ≥ V m ⇒ E > Vm . Para nuestro caso Vm = 0 y por tanto
E > 0.
Las autofunciones de H en la base {|xi} tienen paridad definida. Esto es debido a que el potencial es una función
par
V (−x) = V (x)
228 CAPÍTULO 8. EL OSCILADOR ARMÓNICO CUÁNTICO

podemos buscar autofunciones de H en la base {|xi} con paridad definida. Veremos que esto combinado con el hecho
de que el espectro no es degenerado nos conduce a que las funciones de onda asociadas con los estados estacionarios
son necesariamente pares o impares.
El espectro de energı́a es discreto, cualquiera que sea el valor total de la energı́a, el movimiento clásico está lim-
itado a un intervalo acotado, y se puede demostrar que en este caso los autovalores son discretos.
Veremos ahora el problema de valores propios en detalle.

8.2. El problema de valores propios del Hamiltoniano


Veremos que el espectro de energı́as de la ecuación de valores propios

H |ϕi = E |ϕi

se puede resolver con base en las relaciones canónicas de conmutación

[X, P ] = i~

por conveniencia utilizaremos los siguientes operadores adimensionales


r
b≡ mω P
X X ; Pb ≡ √ (8.1)
~ m~ω

con los cuales, las relaciones canónicas de conmutación quedan


h i
b Pb = i
X, (8.2)

y el Hamiltoniano se puede escribir en la forma


 
b
H = ~ω H ; b≡1 X
H b 2 + Pb2 (8.3)
2
podemos entonces simplificar la ecuación de valores propios en la forma

b ϕi = ε ν ϕi
H ν ν

donde tanto el operador H b como los valores propios εν son adimensionales. Los ı́ndices ν, i pueden ser (por el
momento) contı́nuos o discretos y el ı́ndice i nos indica el grado de degeneración.   
b y Pb fueran números, podrı́amos escribir H b en (8.3) de la forma H b Pb
b = X+i b Pb
X−i
Nótese que si X √ √
2
, es decir
2
como el producto de dos funciones lineales. Sin embargo, dado que X b y Pb son operadores no conmutantes, esta
factorización no es correcta. Sin embargo, veremos que la redefinición de estos operadores lineales nos simplifica
considerablemente el problema de valores propios, definiremos entonces

1 b  1 b 
a ≡ √ X + iPb ; a† ≡ √ X − iPb (8.4)
2 2
r  r 
mω P † mω P
a = X + i√ ; a = X − i√ (8.5)
2~ 2m~ω 2~ 2m~ω

cuya inversa se escribe como

b = 1   i  
X √ a† + a ; Pb = √ a† − a (8.6)
2 2
r   r
~ † m~ω  † 
X = a +a ; P =i a −a (8.7)
2mω 2
8.2. EL PROBLEMA DE VALORES PROPIOS DEL HAMILTONIANO 229

el conmutador de a† y a se calcula con las reglas canónicas de conmutación


h i 1hb i h i h i
a, a† = b − iPb = 1 X
X + iPb, X b − i X
b + iPb, X b + iPb , Pb
2 2 2
1 h b b i i h b b i i h b bi i h b b i
= X, X + P, X − X, P − iP , P
2 2 2 2
h
i b b i h
i b b i h i
= P, X + P , X = i Pb, X b
2 2
y usando la Ec. (8.2) queda h i
a, a† = I (8.8)
esta relación es entonces equivalente a las reglas canónicas de conmutación. Ahora queremos escribir el Hamiltoniano
en términos de los operadores a, a† , para ello calculamos primero el producto a † a 1
1b  
b + iPb = 1 X
 
a† a = X − iPb X b 2 + Pb2 + iX
b Pb − iPbX
b
2 2
1  h i
a† a = b 2 + Pb 2 + i X,
X b Pb
2
1  b 2 b2 
a† a = X +P −I (8.9)
2
de aquı́ en adelante reemplazamos la identidad I por el número 1 lo cual no es causa de ambigüedad. Nótese que la
presencia del término adicional I/2 es debido a la no conmutatividad de Xb y Pb. Comparando (8.3) con (8.9) vemos
que el Hamiltoniano adimensional será
Hb = N + 1 ; N ≡ a† a (8.10)
2
es claro que el nuevo operador N es Hermı́tico
 †  †
N † = a† a = (a)† a† = a† a = N

por otro lado el Hamiltoniano adimensional también se puede escribir como

b = aa† − 1
H
2
ahora bien, de acuerdo con la Ec. (8.10), Hb y N solo difieren en un operador que es múltiplo de la identidad. En
b
consecuencia, los autovectores de H son autovectores de N y viceversa.
Ahora calcularemos los conmutadores de N con a y a † por medio de la Ec. (8.8)
h i h i
[N, a] = a† a, a = a† [a, a] + a† , a a = −a
h i h i h i h i

N, a = a a, a = a a, a + a , a a = a†
† † † † † †

en resumen, el álgebra de conmutadores entre a, a † y N se escribe


h i h i
a, a† = 1 ; [N, a] = −a ; N, a† = a† (8.11)

donde también hemos tenido en cuenta la Ec. (8.8). Veremos que la ecuación de valores propios se resolverá en
términos de las propiedades de los operadores a, a † y N . De momento, hemos reducido el problema a encontrar los
vectores y valores propios del operador N
N ϕiν = ν ϕiν

y teniendo en cuenta las Ecs. (8.3, 8.10) los autovectores ϕiν serán también autovectores del Hamiltoniano H con
autovalores E = ν + 12 ~ω  
i 1

H ϕν = ν + ~ω ϕiν (8.12)
2
1
De acuerdo con la discusión anterior este producto serı́a el Hamiltoniano si los operadores Pb, X
b fueran conmutantes.
230 CAPÍTULO 8. EL OSCILADOR ARMÓNICO CUÁNTICO

8.3. Determinación del espectro



En todo lo que sigue, asumiremos que los ϕiν están normalizados. Calculemos la norma del vector a ϕiν . Dicha
norma es obviamente no negativa
i 2


a ϕν = ϕiν a† a ϕiν = ϕiν N ϕiν
i 2

a ϕν = ν ϕiν ϕiν i = ν ≥ 0 (8.13)

lo cual nos indica que

Lemma 1 Los valores propios del operador N son no negativos


i
a ϕ = 0 ⇔ ν = 0 pero dado que a ϕi = 0 ⇔ a ϕi = 0 se tiene que
La Ec. (8.13) nos muestra que ν ν ν
a ϕiν = 0 ⇔ ν = 0. i
De acuerdo
i a lo anterior, si ν > 0 entonces a ϕν no es cero. Apliquemos ahora el conmutador [N, a] sobre el
autovector ϕν usando las reglas de conmutación (8.11)

[N, a] ϕiν = −a ϕiν ⇒ N a ϕiν = aN ϕiν − a ϕiν = aν ϕiν − a ϕiν
   
N a ϕiν = (ν − 1) a ϕiν

esta expresión nos indica que cuando ν > 0 el vector a ϕiν es vector propio de N con autovalor ν − 1. Esto indica
además que ν ≥ 1 cuando ν > 0, ya que de lo contrario ν − 1 serı́a un autovalor negativo de N contradiciendo el
lema anterior. Estos resultados los podemos resumir en la siguiente forma
i
Lemma 2 Sea ϕν un autovector no nulo de N con autovalor ν. Tenemos que (a) a ϕiν = 0 ⇔ ν = 0. (b) Si

ν > 0 ⇒ a ϕiν es un autovector no nulo de N con autovalor ν − 1.

El anterior lema nos caracteriza
las propiedades de los vectores a ϕiν , es natural entonces preguntarse por las
propiedades de los vectores a† ϕiν . Con un proceso similar al anterior se tiene que
2

n o
nh i o
† i
a ϕν = ϕiν aa† ϕiν = ϕiν aa† − a† a + a† a ϕiν = ϕiν a, a† + N ϕiν
2


† i
a ϕν = ϕiν (1 + N ) ϕiν = (ν + 1) ϕiν ϕiν i
2
† i
a ϕν = ν + 1

donde hemos usado la Ec. (8.8). Puesto que ν ≥ 0 el vector a † ϕiν es siempre no nulo. Ahora usando la Ec. (8.11)
calculemos
h i
N, a† ϕiν = a† ϕiν ⇒ N a† ϕiν = a† N ϕiν + a† ϕiν = νa† ϕiν + a† ϕiν
h i h i
N a† ϕiν = (ν + 1) a† ϕiν

vemos que a† ϕiν es un autovector de N con autovalor ν + 1. Lo anterior podemos resumirlo en la forma
i
Lemma 3 Sea ϕν un autovector no nulo de N con autovalor ν. Tenemos que (a) a † ϕiν es siempre no nulo. (b)

a† ϕiν es un autovector de N con autovalor ν + 1.

Por ahora sabemos que el espectro de N es no negativo. Asumamos que ν no es entero y mostraremos que esta
hipótesis contradice al lema 1 y por tanto debe ser rechazada. Si ν no es entero podemos encontrar un entero n tal
que
n<ν <n+1 (8.14)
consideremos la sucesión de kets
i
ϕν , a ϕiν , a2 ϕiν , . . . , ap ϕiν , . . . , an ϕiν (8.15)
8.3. DETERMINACIÓN DEL ESPECTRO 231

i
aplicaremos iterativamente el lema 2. ϕν = a0 ϕiν es por hipótesis un autovector no nulo de N con valor propio

ν0 = ν − 0. Ahora a ϕiν de acuerdo con el lema es un autovector no nulo (ya que ν > 0) de N con valor propio
ν1 = ν − 1, podemos ϕi ≡ ϕi
denotar entonces a ν i si v −1 p−1
ν−1 . Otra aplicación del lema lleva a que > 0 entonces

2 i i p ϕiν = a
a i ϕν = a ϕν−1 es un autovector no nulo de N con valor propio ν 2 = ν −2. En general a ϕν = a a
ϕ
ν−p+1 es autovector no nulo de N con valor propio ν − p, siempre y cuando se cumpla que ν − p + 1 > 0.
Adicionalmente, puesto que ν no es entero, ν − p es no nulo, con lo cual el lema 1, nos dice que v − p > 0. A su vez,
de la Ec. (8.14) vemos que la condición ν − p > 0 solo se cumple en el intervalo 0 ≤ p ≤ n.
En sı́ntesis, de acuerdo con el lema 2, un vector a p ϕiν de la sucesión (8.15) con 0 ≤ p ≤ n, es un autovector no
nulo de N con valor propio ν − p > 0.
Veamos ahora que pasa con un vector fuera de la sucesión para lo cual calculamos
 
an+1 ϕiν = a an ϕiν

an ϕiν es un autovector no nulo de N con valor propio v − n > 0 (de acuerdo con la Ec. 8.14). Por tanto podemos
aplicar el lema 2 para decir que an+1 ϕiν es autovector de N con autovalor ν − n − 1 pero este valor propio es
estrictamente negativo de acuerdo con la Ec. (8.14). Esto contradice el lema 1 por lo cual debemos rechazar la
hipótesis de que ν es no entero.
Lo anterior se puede describir de otra forma diciendo que a p ϕiν con 0 ≤ p ≤ n es autovector de N donde los
valores propios νp tienen la siguiente caracterı́stica: ν 0 = ν ∈ (n, n + 1); ν1 ∈ (n − 1, n); v2 ∈ (n − 2, n − 1) ; . . . ;
νn−1 ∈ (1, 2); νn ∈ (0, 1). Al aplicar de nuevo el operador a, el valor propio correspondiente quedarı́a en el intervalo
(−1, 0) que está prohibido por el lema 1.
Veremos ahora que la hipótesis de que ν es entero es perfectamente consistente con los lemas anteriores, en tal
caso la Ec. (8.14) se cambia por
n=ν <n+1
i
y el ket a ϕν es un autovector no nulo de N con valor propio v − n = 0. Como su valor propio es cero, el lema 2
n

nos dice que


an+1 ϕin = 0 (8.16)
i
por tanto el conjunto de vectores diferentes obtenida por aplicación reiterada de a sobre ϕ ν está limitada cuando
ν = n es entero, ya que el lema 2 predice que para todo entero m ≥ n + 1 tenemos que a m ϕiν = 0, y se obtiene el
vector cero para cualquier aplicación adicional del operador a. De esta manera se evita la contradicción con el lema
1 evitando valores propios negativos.
Veremos ahora que el espectro de N consta
de todos los enteros no negativos. Ya hemos construı́do un autovector
de N con valor propio nulo: an ϕin ≡ ϕi0 . Ahora bien, el lema 3 nos dice que la aplicación sucesiva de a † sobre ϕi0
k
nos genera autoestados a† ϕi0 , con valor propio k, barriendo claramente todos los valores enteros no negativos.
Utilizando la Ec. (8.12) decimos que los autovalores de H tienen la forma
 
1
En = n + ~ω ; n = 0, 1, 2, . . .
2
vemos entonces que la energı́a del oscilador armónico cuántico está cuantizada, ya que no puede adquirir cualquier
valor. El espaciamiento entre los valores accesibles es además uniforme, es decir cada estado excitado consiste en
agregar un cuanto ~ω al estado anterior. Adicionalmente, el estado base (estado de menor energı́a) no posee energı́a
cero sino ~ω/2. Nótese que el espaciamiento uniforme de los niveles de energı́a del oscilador armónico cuántico con
valor de espaciamiento ~ω, coincide con la hipótesis de Planck para el estudio de la radiación del cuerpo negro.

8.3.1. Interpretación de los operadores a, a† y N


i 
Si comenzamos con un estado ϕn de H con valor propio En = n + 1 ~ω, la aplicación de los operadores
2
a y a† sobre ϕin nos da
 
i i i 1

a ϕn = αn−1 ϕn−1 ; ϕn−1 → En−1 = (n − 1) + ~ω = En − ~ω
2
 
1
a† ϕin = αn+1 ϕin+1 ; ϕin+1 → En+1 = (n + 1) + ~ω = En + ~ω
2

N = a† a ϕin = n ϕin ; n = 0, 1, 2, 3, . . .
232 CAPÍTULO 8. EL OSCILADOR ARMÓNICO CUÁNTICO


vemos que la acción de a sobre ϕin equivale a “extraer” un cuanto de energı́a ~ω del valor de energı́a E n del estado
original. En otras palabras, su acción sobre un autovector de N (o de H) consiste en hacer desaparecer un cuanto
de energı́a. Por esta razón se denomina operador
de destrucción o de aniquilación.
† i
Similarmente, la acción de a sobre ϕn equivale a “añadir” un cuanto de energı́a ~ω al valor original de energı́a
En . Su acción sobre un autovector de N (o de H) consiste en hacer aparecer un cuanto de energı́a. Por esta razón
se denomina operador de construcción o creación.
Finalmente, vemos que el operador N aplicado sobre ϕin nos da el valor n de cuantos que están asociados con
el nivel de energı́a (hay n cuantos agregados al valor del mı́nimo de la energı́a). Por esta razón N se conoce como
operador número.

8.3.2. Estudio de la degeneración del espectro


Mostraremos que el espectro del oscilador armónico es no degenerado. Comenzaremos estudiando el estado base.
Todos los autoestados de H asociados a E 0 = ~ω/2, o equivalentemente todos los autoestados de N asociados con
n = 0, deben satisfacer según el lema 2 la siguiente condición

a ϕi0 = 0 (8.17)

debemos ver entonces cuantos kets linealmente independientes satisfacen esta condición. Usando las Ecs. (8.5), la
Ec. (8.17) queda en la forma

r  r r r 
1 mω i i mω mω mω i
√ X+√
P ϕ0 = 0 ⇒ X+ √ P ϕi0 = 0 ⇒
2 ~ m~ω ~ ~ ~ m~ω
 
mω i
X + P ϕi0 = 0
~ ~

que en la base {|xi} se escribe


 
mω d
x+ ϕi0 (x) = 0 ; ϕi0 (x) = hx ϕi0 (8.18)
~ dx

debemos entonces resolver la ecuación diferencial de primer orden (8.18). Su solución más general es de la forma
1 mω 2
ϕi0 (x) = ce− 2 ~
x
(8.19)

siendo c una constante de integración (solo hay una en virtud de que la ecuación es de primer orden). Por tanto
todas las soluciones no nulas posibles de (8.18) son linealmente dependientes. Existe por tanto un único ket dentro
de factores multiplicativos asociado a E 0 = ~ω/2. Por tanto, el estado base es no degenerado 2 .
La demostración de que los demás estados no son degenerados la haremos por inducción para lo cual ya tenemos
el primer paso al demostrar que el estado base no es degenerado.
El segundo paso en la inducción es probar que si E n = (n + 1/2) ~ω no es degenerado entonces el nivel E n+1 =
(n + 1 + 1/2) ~ω tampoco lo es. Nuestra hipótesis es entonces que dentro de factores multiplicativos, solo hay un
vector |ϕn i tal que
N |ϕn i = n |ϕn i (8.20)
i
ahora consideramos un autovector ϕn+1 correspondiente al autovalor n + 1, donde el ı́ndice i indica una posible
degeneración
N ϕin+1 = (n + 1) ϕin+1 (8.21)
i
el lema 2 nos dice que a ϕn+1 es un
autovector no nulo de N con autovalor n. Dado que este ket no es degenerado
por hipótesis, tenemos que a ϕin+1 es linealmente dependiente con |ϕn i

a ϕin+1 = ci |ϕn i
2
Aunque aquı́ usamos la base {|xi}, es claro que el grado de degeneración es independiente de la base utilizada.
8.4. ESTADOS PROPIOS DEL HAMILTONIANO 233

si aplicamos a† a ambos lados se tiene



a† a ϕin+1 = ci a† |ϕn i

N ϕin+1 = ci a† |ϕn i (8.22)

donde hemos usado la definición de N Ec. (8.10). Combinando (8.21) con (8.22) se tiene

(n + 1) ϕin+1 = ci a† |ϕn i
i ci h i
ϕn+1 = a† |ϕn i (8.23)
(n + 1)

el lema 3 nos dice que


a† |ϕn i es autovector de N con autovalor (n + 1). La expresión (8.23) nos muestra que

todos los kets ϕn+1 asociados al valor propio (n + 1) son linealmente dependientes con a † |ϕn i. Por tanto el valor
i

propio n + 1 es no degenerado y la demostración está completa. Todos los valores propios del Hamiltoniano son no
degenerados.

8.4. Estados propios del Hamiltoniano


Ya que hemos resuelto el problema de valores propios, procederemos ahora a estudiar el problema de los kets
propios del Hamiltoniano del oscilador armónico unidimensional. Tomaremos como hipótesis de trabajo que N y H
son observables, de modo que sus kets propios {|ϕ n i} constituyen una base ortonormal 3 de Ex , y se cumplen por lo
tanto, relaciones de ortonormalidad y completez
X
hϕn0 |ϕn i = δn0 n ; |ϕn i hϕn | = 1
n

la completez será probada más adelante utilizando la representación {|xi}, es decir calculando las funciones de onda
ϕn (x) y mostrando que estas funciones son completas en el espacio de las funciones cuadráticamente integrables en
x.
Por otro lado N y H tienen un espectro no degenerado. Por tanto cada uno de estos observables constituye por
sı́ solo un C.S.C.O. en Ex .

8.4.1. Construcción de los kets propios con base en el ket del estado base
El ket |ϕ0 i asociado al estado base i.e. a n = 0 en N y a E 0 = ~ω/2 en H, es el vector en Ex que satisface la
condición
a |ϕ0 i = 0
y es único salvo constantes de proporcionalidad. Si lo asumimos normalizado, la ambigüedad se reduce a solo un
factor de fase global arbitraria eiθ , con θ real. Aplicando el lema 3 pág 230, el vector |ϕ 1 i asociado a n = 1 es
proporcional a a† |ϕ0 i
|ϕ1 i = c1 a† |ϕ0 i (8.24)
determinaremos c1 requiriendo que |ϕ1 i esté normalizado y que tal coeficiente sea real y positivo (es decir c 1 se fija
con fase cero). Para esto se calcula la norma de |ϕ 1 i
  †  n o
hϕ1 |ϕ1 i = hϕ0 | a† c∗1 c1 a† |ϕ0 i = |c1 |2 hϕ0 | aa† |ϕ0 i

y usando la regla de conmutación (8.8) se obtiene


 
hϕ1 |ϕ1 i = |c1 |2 hϕ0 | a† a + 1 |ϕ0 i = |c1 |2 hϕ0 | (N + 1) |ϕ0 i = |c1 |2 hϕ0 | (0 + 1) |ϕ0 i
hϕ1 |ϕ1 i = |c1 |2 hϕ0 | ϕ0 i ⇒ c1 = 1
3
La ortonormalidad está garantizada automáticamente, debido a la ausencia de degeneración.
234 CAPÍTULO 8. EL OSCILADOR ARMÓNICO CUÁNTICO

la Ec. (8.24) queda entonces


|ϕ1 i = a† |ϕ0 i
De manera similar construı́mos a |ϕ 2 i aplicando el operador creación a † sobre |ϕ1 i

|ϕ2 i = c2 a† |ϕ1 i (8.25)

nuevamente requeriremos que c2 sea una constante real positiva que normalice a |ϕ 2 i. De aquı́ en adelante este
será el requerimiento para todas las constantes con que se construyen los siguientes estados.

hϕ2 |ϕ2 i = |c2 |2 hϕ1 | aa† |ϕ1 i = |c2 |2 hϕ1 | (N + 1) |ϕ1 i = |c2 |2 hϕ1 | (1 + 1) |ϕ1 i
1
hϕ2 |ϕ2 i = 2 |c2 |2 = 1 ⇒ c2 = √
2
con lo cual la Ec. (8.25) queda
1 1  † 2
|ϕ2 i = √ a† |ϕ1 i = √ a |ϕ0 i
2 2
este proceso se puede generalizar para construı́r al estado |ϕ n i con base en el estado |ϕn−1 i

|ϕn i = cn a† |ϕn−1 i (8.26)

hϕn |ϕn i = |cn |2 hϕn−1 | aa† |ϕn−1 i = |cn |2 hϕn−1 | (N + 1) |ϕn−1 i = |cn |2 hϕn−1 | [(n − 1) + 1] |ϕn−1 i
1
hϕn |ϕn i = n |cn |2 ⇒ cn = √
n
con lo cual la Ec. (8.26) queda
1
|ϕn i = √ a† |ϕn−1 i ; n = 1, 2, 3, . . . (8.27)
n
usando la Ec. (8.27) iterativamente, podemos conectar a |ϕ n i con el estado base
1 1 1  2 1 1 1  3
|ϕn i = √ a† |ϕn−1 i = √ √ a† |ϕn−2 i = √ √ √ a† |ϕn−3 i
n n n−1 n n−1 n−2
1 1 1 1 1  n
|ϕn i = √ √ √ . . . √ √ a† |ϕ0 i
n n−1 n−2 2 1
quedando finalmente
1  † n
|ϕn i = √ a |ϕ0 i ; n = 0, 1, 2, 3, . . . (8.28)
n!
En sı́ntesis, todos los autoestados de N y H√ se pueden construı́r con base en el autoestado base |ϕ 0 i por aplicación
sucesiva del operador creación. El factor 1/ n! garantiza la normalización de cada nuevo estado creado, bajo la
convención de que los coeficientes de normalización tengan fase cero, es decir que sean reales y positivos.

8.4.2. Ortonormalidad de los kets propios (opcional)


Es interesante ver a manera de consistencia, que la expresión (8.28) conduce a que los kets |ϕ n i son ortonormales
1 0
 n
hϕn0 |ϕn i = √ hϕ0 | an a† |ϕ0 i (8.29)
n! n0 !
veamos como actúan los operadores sobre el ket
 n    n−1   
n−1
n0 † n0 −1 † † n0 −1 †
a a |ϕ0 i = a aa a |ϕ0 i = a (N + 1) a |ϕ0 i
0
 n 0
hp i 0
hp i
an a† |ϕ0 i = an −1 (N + 1) (n − 1)! |ϕn−1 i = an −1 [(n − 1) + 1] (n − 1)! |ϕn−1 i
" #
 n p 1  n−1
n0 † n0 −1 †
a a |ϕ0 i = na (n − 1)! p a |ϕ0 i
(n − 1)!
8.4. ESTADOS PROPIOS DEL HAMILTONIANO 235

0
 n 0
 n−1
an a† |ϕ0 i = nan −1 a† |ϕ0 i (8.30)

donde hemos usado la Ec. (8.28). Utilizaremos el resultado (8.30) iterativamente, para ello analizamos tres casos
1) n < n0 . En este caso usamos la propiedad (8.30) n−veces de forma iterativa
 n   n−1    n−2 
0 0 0
an a† |ϕ0 i = n an −1 a† |ϕ0 i = n (n − 1) an −2 a† |ϕ0 i
 n   n−3 
n0 † n0 −3 †
a a |ϕ0 i = n (n − 1) (n − 2) a a |ϕ0 i
 n   n−n 
0 0
an a† |ϕ0 i = n [n − 1] [n − 2] . . . [n − (n − 1)] an −n a† |ϕ0 i (8.31)
 n   0 
n0 † |n0 −n| †
a a |ϕ0 i = n × [n − 1] × . . . × 1 × a a |ϕ0 i (8.32)

finalmente  n
0 0
an a† |ϕ0 i = n!a|n −n| |ϕ0 i (8.33)

0
pero por hipótesis |n0 − n| es un entero mayor o igual que 1, por tanto a |n −n| |ϕ0 i = 0 ya que a |ϕ0 i = 0. Usando
(8.29) y (8.33) resulta que

1 0
 n 1 n 0
o
hϕn0 |ϕn i = √ hϕ0 | an a† |ϕ0 i = √ hϕ0 | n!a|n −n| |ϕ0 i = 0
n! n0 ! n! n0 !

2) si n = n0 podemos usar (8.31) para obtener


 n  0
an a† |ϕ0 i = n!a0 a† |ϕ0 i = n! |ϕ0 i (8.34)

Usando (8.29) y (8.34) resulta que si n = n 0

1  n 1
hϕn |ϕn i = √ hϕ0 | an a† |ϕ0 i = hϕ0 | {n! |ϕ0 i} = 1
n! n! n!

3) n > n0 . En este caso podemos conjugar el producto interno hϕ n0 |ϕn i = hϕn |ϕn0 i∗ y probar la ortogonalidad del
miembro derecho con lo cual quedamos nuevamente en el primer caso. Alternativamente, podemos usar la propiedad
(8.30) n0 −veces de forma iterativa, aplicando la Ec. (8.28). En tal caso el análogo de la Ec. (8.31) es
 n  
n0 †
 0
 n0 −n0  † n−n0
a a |ϕ0 i = n [n − 1] [n − 2] . . . n − n − 1 a a |ϕ0 i (8.35)
 n   |n−n0 | 
n0 †
 0
 0 †
a a |ϕ0 i = n [n − 1] [n − 2] . . . n − n + 1 × a a |ϕ0 i (8.36)
0
 n   hp i
an a† |ϕ0 i = n [n − 1] [n − 2] . . . n − n0 + 1 × (n − n0 )! |ϕn−n0 i (8.37)

y el producto interno (8.29) queda

1 0
 n
hϕn0 |ϕn i = √ hϕ0 | an a† |ϕ0 i
n! n0 !
p
n [n − 1] [n − 2] . . . [n − n0 + 1] (n − n0 )!
= √ hϕ0 |ϕn−n0 i = 0
n! n0 !

donde hemos usado el hecho de que n − n0 es un entero mayor o igual que uno, de modo que hϕ 0 |ϕn−n0 i = 0.
236 CAPÍTULO 8. EL OSCILADOR ARMÓNICO CUÁNTICO

8.4.3. Acción de los operadores creación y destrucción sobre los autoestados del Hamiltoniano
Las Ecs. (8.7) nos muestran que los observables X, P se pueden escribir en términos de a y a † , por lo tanto
cualquier observable fı́sico (sin espı́n) se puede escribir en términos de a y a † . Por otro lado, como los autoestados
{|ϕn i} del Hamiltoniano del oscilador armónico, constituyen una base en E x , recurriremos con frecuencia a esta base
para construı́r representaciones matriciales. Por lo anterior, resulta de especial importancia estudiar la acción de los
operadores a y a† sobre los estados {|ϕn i}.
La acción de a† sobre |ϕn i se puede obtener reemplazando n por n + 1 en la Ec. (8.27)

a† |ϕn i = n + 1 |ϕn+1 i ; n = 0, 1, 2, . . .

para obtener a |ϕn i multiplicamos la Ec. (8.27) por a.


1 1 1
a |ϕn i = √ aa† |ϕn−1 i = √ (N + 1) |ϕn−1 i = √ [(n − 1) + 1] |ϕn−1 i
n n n

a |ϕn i = n |ϕn−1 i ; n = 0, 1, 2, . . .

tenemos entonces que la acción de los operadores más relevantes sobre los autoestados |ϕ n i son
√ √
a† |ϕn i = n + 1 |ϕn+1 i ; a |ϕn i = n |ϕn−1 i ; n = 0, 1, 2, . . . (8.38)
 
1
N |ϕn i = n |ϕn i ; H |ϕn i = n + ~ω |ϕn i ; n = 0, 1, 2, . . . (8.39)
2
Se puede ver que la segunda de las Ecs. (8.38) contiene automáticamente el hecho de que a |ϕ 0 i = 0. Nótese que el
adjunto de las Ecs. (8.38) es √ √
hϕn | a = n + 1 hϕn+1 | ; hϕn | a† = n hϕn−1 | (8.40)
podemos expresar el significado de las Ecs. (8.38, 8.40) en palabras diciendo que a es un operador destrucción
(construcción) para kets (bras), en tanto que a † es un operador construcción (destrucción) para kets (bras).
La acción de los observables básicos X y P sobre los autoestados |ϕ n i se obtiene usando las Ecs. (8.7)
r r
~  †  ~ √ √ 
X |ϕn i = a + a |ϕn i = n + 1 |ϕn+1 i + n |ϕn−1 i
2mω 2mω
r r
mω~  †  mω~ √ √ 
P |ϕn i = i a − a |ϕn i = i n + 1 |ϕn+1 i − n |ϕn−1 i
2 2
con estas relaciones es fácil encontrar la representación matricial de los operadores a, a † , X y P en la base {|ϕn i}
√ √
hϕm | a |ϕn i = nhϕm |ϕn−1 i = nδm,n−1 (8.41)

√ √
hϕm | a |ϕn i = n + 1hϕm |ϕn+1 i = n + 1δm,n+1 (8.42)
r
~ √ √ 
hϕm | X |ϕn i = n + 1δm,n+1 + nδm,n−1 (8.43)
2mω
r
mω~ √ √ 
hϕm | P |ϕn i = i n + 1δm,n+1 − nδm,n−1 (8.44)
2
se puede ver que las matrices representativas de a y a † son hermı́ticas conjugadas una de otra como era de esperarse,
pues en este caso las matrices son reales y la una es la traspuesta de la otra. En forma explı́cita estas matrices vienen
dadas por
 √   
0 1 √0 0 ··· √0 0 0 0 ···
 0 0 2 √0 · · ·   1 0 0 0 ··· 
   √ 
 0 0 0  
3 · · ·  ; a† =  0 2 √0 0 · · · 
a= 
 0 0 0 0 ···   0 0 3 0 ··· 
   
.. .. .. .. . . .. .. .. .. . .
. . . . . . . . . .
nótese que las matrices de X y P son proporcionales a la suma y la diferencia de las matrices anteriores. Finalmente,
las matrices asociadas a X y P son hermı́ticas como se esperaba.
8.5. FUNCIONES PROPIAS ASOCIADAS A LOS ESTADOS ESTACIONARIOS EN LA BASE {|Xi} 237

8.5. Funciones propias asociadas a los estados estacionarios en la base {|xi}


Los resultados obtenidos hasta el momento se han extraı́do a partir de los kets abstractos |ϕ n i y el álgebra
abstracta de los operadores a, a† y N . En otras palabras, todos los resultados anteriores son independientes de la
base4 . El único resultado que no ha sido demostrado es el hecho de que los estados {|ϕ n i} forman una base, lo cual
hasta el momento es solo una hipótesis de trabajo que debe ser examinada. Con el fin de verificar la completez de
los kets propios de H y con el fin de poder hacer cálculos concretos de probabilidades vamos a encontrar estos kets
propios de H en la base {|xi} es decir las funciones de onda asociadas.
Ya hemos determinado la función de onda asociada al estado base ϕ 0 (x) la cual está dada por la Ec. (8.19)
 mω 1/4 1 mω 2
ϕ0 (x) = hx |ϕ0 i = e− 2 ~
x
(8.45)
π~

donde (mω/π~)1/4 es un factor de normalización. Dado que los demás estados se obtienen de la Ec. (8.28)
1  † n
|ϕn i = √ a |ϕ0 i (8.46)
n!
debemos obtener la representación del vector |ϕ n i en la base {|xi} para ello multiplicamos la Ec. (8.46) por el bra
hx|
 n  n
1 † 1 1 b b
hx |ϕn i = √ hx| a |ϕ0 i = √ hx| √ X − iP |ϕ0 i
n! n! 2
 r n
1 1 mω i
ϕn (x) = √ hx| √ X−√ P |ϕ0 i
n! 2 ~ mω~
r n
1 1 mω i ~ d
ϕn (x) = √ √ x− √ hx| ϕ0 i
n! 2n ~ mω~ i dx

"r r #n
1 mω ~ d
ϕn (x) = √ x− hx| ϕ0 i
~
2n n! mω dx
"r  #n
1 ~ mω d
ϕn (x) = √ x− hx| ϕ0 i
2n n! mω ~ dx
  n  1  n
1 ~ 2 mω d
ϕn (x) = x− ϕ0 (x)
n! 2mω ~ dx

ahora usando en forma explı́cita la función de onda del estado base Ec. (8.45) se tiene que
  n  1   n
1 ~ 2 mω  14 mω d 1 mω 2
ϕn (x) = x− e− 2 ~ x
n! 2mω π~ ~ dx
1 mω 2
de lo anterior se puede ver fácilmente que ϕ n (x) es el producto de e− 2 ~ x por un polinomio de grado n y paridad
(−1)n . Los polinomios que surgen se denominan polinomios de Hermite.
Las dos primeras funciones asociadas a estados excitados (con energı́a mayor al estado base) son
  
4 mω 3 1/4 − 1 mω x2
ϕ1 (x) = xe 2 ~
π ~
 mω 1/4 h mω i 1 mω 2
ϕ2 (x) = 2 x2 − 1 e− 2 ~ x
4π~ ~
si se grafica la función de onda y la densidad de probabilidad para n = 0, 1, 2 (ver Figs. 8.1, 8.2) y para valores
4
La ausencia de degeneración del estado base se demostró utilizando la base especı́fica {|xi}, pero el resultado debe ser independiente
de la base.
238 CAPÍTULO 8. EL OSCILADOR ARMÓNICO CUÁNTICO

Figura 8.1: Funciones de onda asociadas a n = 0, 1, 2 para el oscilador armónico.

Figura 8.2: Densidades de probabilidad asociadas a n = 0, 1, 2 para el oscilador armónico.

grandes de n (Figs. 8.3), se pueden observar las siguientes caracterı́sticas: cuando n aumenta, la región en x en la
cual la densidad de probabilidad toma valores no despreciables se vuelve mayor. Esto corresponde a la caracterı́stica
clásica de que la amplitud de movimiento (y por tanto la región accesible) aumenta con la energı́a. También veremos
que el valor promedio o esperado de la energı́a potencial se incrementa con la energı́a (y por tanto con n). Aunque
esto se puede ver de un cálculo directo, se puede explicar cualitativamente teniendo en cuenta que para n grandes,
ϕn (x) toma valores no despreciables en regiones donde x es grande y por tanto donde V (x) es grande. Las gráficas
también muestran que el número de ceros de ϕ n (x) es igual a n, lo cual se puede demostrar formalmente con las
propiedades de los polinomios de Hermite. Un análisis de estos polinomios muestra también que el valor promedio
de la energı́a cinética se incrementa con n puesto que la energı́a viene dada por
Z ∞
1
2 ~2 d2 ϕn
P =− ϕ∗n (x) dx (8.47)
2m 2m −∞ dx2

y cuando el número de ceros de ϕn (x) aumenta, también se incrementa la curvatura de la función de onda y en la
Ec. (8.47) la segunda derivada de ϕn se incrementa a su vez.
Otra caracterı́stica sobresaliente para grandes valores de n es que la densidad de probabilidad es grande para

x = ±xM siendo xM la amplitud clásica de movimiento cuando la energı́a es E n . Esto se relaciona con la caracterı́stica
clásica de que en xM la partı́cula está en reposo instantáneo y por tanto, en promedio se mantiene más tiempo en
las vecindades de ±xM que por ejemplo en las vecindades de x = 0 donde la rapidez es máxima.

8.6. Valores esperados y dispersión para los observables cuando el sistema


está en un estado estacionario del oscilador armónico
Dado que ninguno de los observables X y P conmuta con H, los autoestados |ϕ n i del Hamiltoniano no son
autoestados de X ni P . Por tanto, si el oscilador armónico está en un estado estacionario |ϕ n i la medida de X ó P
dará en principio cualquier valor ya que el espectro de estos observables incluye a todos los números reales.
Calcularemos los valores esperados de X y P y las raı́ces de la desviación media cuadrática ∆X y ∆P , cuando el
8.6. VALORES ESPERADOS Y DISPERSIÓN PARA LOS OBSERVABLES CUANDO EL SISTEMA EST Á EN UN E

Figura 8.3: Función de onda (izquierda) y densidad de probabilidad (derecha) asociadas a n = 10, para el oscilador
armónico.

sistema está en un estado estacionario |ϕ n i. Los valores esperados se calculan directamente de las Ecs. (8.43, 8.44)

hXi = hϕn | X |ϕn i = hP i = hϕn | P |ϕn i = 0

estos valores son válidos para todo tiempo. Nótese que el comportamiento del centro del paquete de onda difiere
profundamente del caso clásico en el cual las variables x y p son oscilantes en el tiempo (excepto cuando la energı́a
es cero)5 . Para calcular ∆X, ∆P deben calcularse los valores esperados de X 2 y P 2

(∆X)2 = hϕn | X 2 |ϕn i − [hϕn | X |ϕn i]2 = hϕn | X 2 |ϕn i (8.48)


2 2 2 2
(∆P ) = hϕn | P |ϕn i − [hϕn | P |ϕn i] = hϕn | P |ϕn i (8.49)

y usando (8.7) tenemos que


     
2 ~ † † ~ †
2
† † 2
X = a +a a +a = a + aa + a a + a
2mω 2mω
  
~ 2
X2 = a †
+ (1 + N ) + N + a 2
2mω
  
~ 2
X2 = a † 2
+ a + 2N + 1 (8.50)
2mω

    
2 m~ω † † m~ω  † 2 † † 2
P = − a −a a −a =− a − aa − a a + a
2 2
  
m~ω 2
P2 = − a† + a2 − 2N − 1 (8.51)
2

reemplazando (8.50, 8.51) en (8.48, 8.49) es claro que


  
2 ~ †
2
2
(∆X) = hϕn | a + a + 2N + 1 |ϕn i (8.52)
2mω
  
m~ω 2
(∆P )2 = − hϕn | a † 2
+ a − 2N − 1 |ϕn i (8.53)
2
5
Puede verse que clásicamente los valores promedio de x y p tomados sobre un periodo completo de movimiento, sı́ son nulos como en
el caso cuántico. Sin embargo, debemos recordar que en el caso cuántico los promedios no son tomados sobre un periodo de movimiento.
240 CAPÍTULO 8. EL OSCILADOR ARMÓNICO CUÁNTICO

calculando cada elemento matricial se tiene


p
hϕn | a2 |ϕn i = n (n − 1)hϕn |ϕn−2 i = 0 (8.54)
 2 p
hϕn | a† |ϕn i = (n + 1) (n + 2)hϕn |ϕn+2 i = 0 (8.55)
hϕn | (2N + 1) |ϕn i = (2n + 1) hϕn |ϕn i = (2n + 1) (8.56)

reemplazando (8.54, 8.55, 8.56) en (8.52, 8.53), resulta


(2n + 1) ~ (2n + 1) m~ω
(∆X)2 = ; (∆P )2 =
2mω 2
Finalmente    
2 1 ~ En 1
(∆X) = n+ = 2
; (∆P )2 = n+ m~ω = mEn (8.57)
2 mω mω 2
nótese que a medida que aumenta el nivel de energı́a, se ensanchan ambos paquetes. Esto es perfectamente permitido
por el principio de incertidumbre el cual solo prohibe un angostamiento indefinido de ambos paquetes. El producto
de estas desviaciones que se puede tomar como la definición de incertidumbre, es
 
1 ~
∆X · ∆P = n + ~≥
2 2
La cota inferior para el producto ∆X · ∆P depende de la forma del potencial, y en el caso del oscilador armónico
adquiere el mı́nimo valor posible ~/2 cuando n = 0, es decir cuando el sistema está en el estado base. Esto
está relacionado con el hecho de que en el estado base, la función de onda es una gaussiana y las gaussianas son
dsitribuciones de mı́nima incertidumbre (ver Sec. 2.12.3).
Por otro lado, es bien sabido que si x M es la amplitud del oscilador armónico clásico con energı́a E n =
(n + 1/2) ~ω, la relación entre la energı́a y la amplitud es
1
En = mω 2 x2M
2
usando (8.57) se tiene que

En 1 mω 2 x2M 1
(∆X)2 = 2
= 2
= x2M
mω 2 mω 2
1
∆X = √ xM (8.58)
2
análogamente, si pM es la amplitud de oscilación del momento clásico se tiene que

pM = mωxM
1
∆P = √ pM (8.59)
2
vemos que el ancho ∆X es del orden del ancho del intervalo [−x M , xM ], esto es de esperarse ya que esta es la región
clásicamente accesible y ya vimos en la sección 8.5 que es aproximadamente en esta región en donde ϕ n (x) adquiere
valores no despreciables. Un resultado similar se sigue para el intervalo [−p M , pM ].
Lo anterior permite también entender porqué ∆X se incrementa con n: la densidad |ϕ n (x)|2 posee dos picos
simétricos situados aproximadamente en x = ±x M . La desviación media cuadrática no puede ser mucho menor que
la distancias entre picos incluso si estos son muy agudos. Un argumento similar se sigue para ∆P .
Ahora bien, el valor esperado de la energı́a potencial en el estado |ϕ n i, se puede calcular teniendo en cuenta la
Ec. (8.48), y está dado por
1
1
hV (X)i = mω 2 X 2 ⇒ hV (X)i = mω 2 (∆X)2 (8.60)
2 2
similarmente, el valor esperado de la energı́a cinética es
 2
P 1
= (∆P )2 (8.61)
2m 2m
8.7. PROPIEDADES DEL ESTADO BASE 241

y reemplazando (8.57) en (8.60, 8.61) resulta


 
1 1 En
hV (X)i = n+ ~ω =
2 2 2
 2  
P 1 1 En
= n+ ~ω =
2m 2 2 2

el valor esperado de las energı́as cinética y potencial es igual. Esto es consistente con el teorema del virial. No
obstante, debe tenerse en cuenta que en el teorema del virial el promedio es sacado sobre un periodo de movimiento,
en tanto que el promedio cuántico no está asociado a una evolución temporal.
Es notable además la simetrı́a entre los resultados sobre las variables X y P , esto se debe a que el Hamiltoniano
es muy simétrico en ambos ya que la energı́a cinética es proporcional a P 2 y la energı́a potencial es proporcional
X 2 . Tal simetrı́a se vé de forma manifiesta en la Ec. (8.3).
Los estados estacionarios |ϕn i no tienen equivalente en la mecánica clásica ya que tienen energı́a no nula a pesar
de que hXi y hP i sı́ son nulos. Sin embargo, podemos establecer cierta analogı́a entre el estado estacionario |ϕ n i y
el estado de una partı́cula clásica cuya posición está descrita por

x = xM cos (ωt − ϕ)

y para el cual la fase inicial ϕ es escogida arbitrariamente, es decir puede tomar cualquier valor entre 0 y 2π con
la misma probabilidad. Los valores esperados de x y p son entonces nulos ya que
 Z 2π 
1
x̄cl = xM cos (ωt − ϕ) dϕ = 0
2π 0
 Z 2π 
1
p̄cl = −pM sin (ωt − ϕ) dϕ = 0
2π 0

ahora, calculando el valor esperado de x 2cl y p2cl

 Z 2π 
1 2 x2
x2cl = xM cos (ωt − ϕ) dϕ = M
2π 0 2
 Z 2π  2
1 p
p2cl = pM sin2 (ωt − ϕ) dϕ = M
2π 0 2
la desviación media cuadrática clásica de x y p queda
q q
xM pM
∆xcl = x2cl − (xcl )2 = √ ; ∆pcl = p2cl − (pcl )2 = √
2 2
y vemos que coincide con sus valores cuánticos Ecs. (8.58, 8.59). Este promedio clásico se está realizando sobre los
posible valores de la fase y no sobre un periodo de movimiento. Es decir, al igual que el promedio cuántico, no
involucra evolución temporal.

8.7. Propiedades del estado base


En la mecánica clásica, el estado de más baja energı́a del oscilador armónico se obtiene cuando la partı́cula
está en reposo en el origen (condiciones iniciales x = p = 0) y la energı́a total es cero. En contraste, el sistema
cuántico posee un estado de mı́nima energı́a |ϕ 0 i con energı́a no nula y lap función de onda asociada posee una
extensión espacial caracterizada por la desviación media cuadrática ∆X = ~/2mω.
La diferencia entre las dos descripciones tiene su origen en el principio de incertidumbre, que impide la min-
imización simultánea de la energı́a cinética y la potencial, ya que los operadores energı́a cinética y potencial no
conmutan entre sı́. El estado base es entonces el resultado de la minimización de la suma de las dos energı́as. Nótese
que el resultado clásico x = p = 0 para obtener energı́a mı́nima cero, requerirı́a una determinación total simultánea
de posición y momento, que cuánticamente no es posible.
242 CAPÍTULO 8. EL OSCILADOR ARMÓNICO CUÁNTICO

Podemos realizar un argumento semicuantitativo para estimar el orden de magnitud de la energı́a base y la
extensión espacial de su función de onda. Pensemos que la distancia ξ caracteriza la extensión espacial de la función
de onda, es decir ξ ∼ ∆X. Entonces, de acuerdo con (8.60) el potencial promedio será del orden de
1
V ∼
= mω 2 ξ 2
2
pero
∆X · ∆P ∼
= ~ ⇒ ξ · ∆P ∼
=~ (8.62)
por tanto
~ p2 (∆P )2 ∼ ~2
∆P ∼
= ⇒T = = =
ξ 2m 2m 2mξ 2
con lo cual el orden de magnitud de la energı́a total es

~2 1
E =T +V ∼
= + mω 2 ξ 2 (8.63)
2mξ 2 2

para valores pequeños de ξ, T domina sobre V y para valores grandes de ξ ocurre lo contrario. El estado base se
calcula de manera aproximada con el mı́nimo de la función E en la Ec. (8.63)
 
dE ~2
= 0 ⇒ − 3 + mω 2 ξm = 0
dξ ξ=ξm mξm
~2 ~2
− + mω 2 ξm
4 4
= 0 ⇒ ξm = 2 2
m m ω
por tanto el valor mı́mimo aproximado del promedio de la energı́a total es
2 2
 
~ 1 ~ 1 ~ ~ω ~ω
E ∼ = 2
2 2
+ mω ξm = ~
 + mω 2
= +
2mξm 2 2m mω 2 mω 2 2
E ∼ = ~ω

nótese que la Ec. (8.62) implica tomar un principio de “mı́nima incertidumbre” ya que implica que el producto de
las incertidumbres se acerca al lı́mite inferior. Vemos entonces que la combinación de mı́nima incertidumbre con la
minimización del promedio de la suma de las energı́as cinética y potencial, nos predice correctamente el orden de
magnitud de la energı́a del estado base.

8.8. Evolución temporal de los observables del oscilador armónico


Consideremos un oscilador armónico cuyo estado en t = 0 está descrito por el estado normalizado

X
|ψ (0)i = cn (0) |ϕn i (8.64)
n=0

como el sistema es conservativo, el estado en cualquier tiempo se obtiene empleando las Ecs. (5.66, 5.67).

X 1
|ψ (t)i = cn (0) e−i(n+ 2 )ωt |ϕn i
n=0

el valor esperado de cualquier observable estará dado por


" ∞ # "∞ #
X 1 X 1
hψ (t)| A |ψ (t)i = c∗m (0) ei(m+ 2 )ωt hϕm | A cn (0) e−i(n+ 2 )ωt |ϕn i
m=0 n=0

XX ∞
hψ (t)| A |ψ (t)i = c∗m (0) cn (0) ei(m−n)ωt hϕm | A |ϕn i
m=0 n=0
8.8. EVOLUCIÓN TEMPORAL DE LOS OBSERVABLES DEL OSCILADOR ARM ÓNICO 243

el valor esperado de A es entonces


∞ X
X ∞
hψ (t)| A |ψ (t)i = c∗m (0) cn (0) Amn ei(m−n)ωt ; Amn ≡ hϕm | A |ϕn i (8.65)
m=0 n=0

puesto que m y n son enteros, la evolución temporal de los valores esperados solo involucra frecuencias de la forma
kω/2π con k entero. Por tanto las frecuencias de Bohr están constituı́das por “armónicos” que son múltiplos enteros
del “armónico fundamental” ω/2π. Para el caso particular de los observables X y P estos valores esperados se
obtienen de (8.43, 8.65)
∞ X
X ∞
hXi = c∗m (0) cn (0) Xmn ei(m−n)ωt
m=0 n=0
r∞ ∞
~ XX ∗ √ √ 
hXi = cm (0) cn (0) n + 1δm,n+1 + nδm,n−1 ei(m−n)ωt
2mω m=0 n=0
r (∞ ∞
)
~ X √  X √ 
hXi = c∗n+1 (0) cn (0) n + 1 ei[(n+1)−n]ωt + c∗m (0) cm+1 (0) m + 1 ei[m−(m+1)]ωt
2mω
n=0 m=0
r ( ∞ ∞
)
~ X √ X √
hXi = n + 1c∗n+1 (0) cn (0) eiωt + n + 1c∗n (0) cn+1 (0) e−iωt
2mω
n=0 n=0

donde hemos tenido en cuenta que los ı́ndices m y n son mudos


r ∞
2~ X √  
hXi = n + 1Re c∗n+1 (0) cn (0) eiωt (8.66)
mω n=0

Vemos entonces que solo se incluyen ondas sinusoidales de frecuencia angular ω. Esto está relacionado con la solución
clásica del oscilador armónico la cual es monocromática para la variable x. Para hP i se obtiene un resultado similar.
Por otro lado, en la discusión del teorema de Ehrenfest de la sección 5.7.1 vimos que la condición de igualdad de
los dos miembros en la Ec. (5.56) necesaria para obtener el lı́mite clásico adecuado, se cumple para todo estado |ψi,
cuando se usa el potencial del oscilador armónico que corresponde a n = 2 en la Ec. (5.58). Por tanto, de acuerdo
con las Ecs. (5.55, 5.52) se tiene que

d hXi 1 hP i
= h[X, H]i =
dt i~ m
d hP i 1
= h[P, H]i = −mω 2 hXi
dt i~
integrando estas ecuaciones se obtiene
1
hXi (t) = hXi (0) cos ωt + hP i (0) sin ωt (8.67)

hP i (t) = hP i (0) cos ωt − mω hXi (0) sin ωt (8.68)

que es la forma sinusoidal que se obtuvo en (8.66).


Es importante mencionar que este análogo clásico solo es válido si el estado |ψ (0)i descrito por (8.64) es una
superposición con al menos dos coeficientes no nulos, ya que si solo uno de ellos es no nulo el sistema estará inicial-
mente en un estado estacionario y los valores esperados no evolucionarán en el tiempo 6 . En consecuencia, cuando
el oscilador está en un estado estacionario el comportamiento cuántico será muy diferente al clásico incluso si n
es muy grande. Si queremos un paquete de onda cuya posición promedio oscile en el tiempo, deben superponerse
varios estados estacionarios.
6
Cuando solo uno de los coeficientes en (8.64) es no nulo, entonces al menos uno de los coeficientes cn (0) ó cn+1 (0) es nulo para
cada n en la Ec. (8.66), con lo cual hXi = 0. Similarmente hP i = 0. Como en particular hXi (0) = hP i (0) = 0, también se obtiene que
hXi (t) = hP i (t) = 0 de las Ecs. (8.67, 8.68).
Capı́tulo 9

Estados coherentes cuasi-clásicos del


oscilador armónico (opcional)

Ya hemos estudiado las propiedades de los estados estacionarios del oscilador armónico y hemos observado que
su comportamiento difiere significativamente del oscilador armónico clásico. Por ejemplo, los valores esperados de
X y P son cero y no oscilantes como ocurre en el caso clásico (excepto en el caso en que la energı́a clásica es cero).
Vimos también que para emular razonablemente el caso clásico, se necesita la superposición de al menos dos estados
estacionarios. Por otro lado, es de esperarse que en el lı́mite de energı́as mucho mayores que ~ω (números cuánticos
n muy grandes), las predicciones clásicas y cuánticas sean casi idénticas, ya que al tener una enorme cantidad de
cuantos se enmascara su carácter discreto.
Hemos visto que muchos sistemas clásicos y cuánticos se pueden describir con el oscilador armónico al menos
en primera aproximación. Por esta razón es importante saber como pasar gradualmente de una descripción clásica
a una descripción cuántica o vice versa. En otras palabras es importante caracterizar ciertos parámetros que nos
indiquen como dicernir cuando los resultados clásicos o cuánticos sean adecuados para describir cierto sistema fı́sico.
Un caso importante es la radiación electromagnética, hemos visto que para altas intensidades la descripción clásica
es adecuada, en tanto que para bajas intensidades el carácter discreto de la radiación se manifiesta claramente.
Lo anterior nos induce a indagar por la existencia de estados cuánticos que conduzcan a predicciones fı́sicas muy
similares a las clásicas, al menos para el oscilador armónico macroscópico. Veremos que los estados que cumplen
esta condición son superposiciones coherentes de los estados estacionarios |ϕ n i del oscilador armónico. Por tal
razón a dichos estados se les denomina como estados coherentes del oscilador armónico o también estados
cuasi-clásicos. Los estados coherentes de la radiación electromagnética permiten dicernir cuantitativamente la
importancia de los efectos cuánticos en la radiación para cada sistema radiativo.
La idea es entonces encontrar estados para los cuales los valores de hXi , hP i , y hHi sean semejantes a los
valores clásicos para todo tiempo. Adicionalmente, puesto que estos observables no son compatibles (no conmutan
entre sı́) no es posible construı́r un estado cuántico en donde las tres cantidades estén bien definidas. Los estados
coherentes deben entonces lidiar inevitablemente con el principio de incertidumbre, de modo que también deben
lograr que las desviaciones medias cuadráticas ∆X, ∆P, ∆H sean despreciables en el lı́mite macroscópico.

9.1. Parametrización del oscilador clásico con parámetros cuánticos


Tomemos como punto de partida las ecuaciones clásicas del oscilador armónico
dx (t) p (t) dp (t)
= ; = −mω 2 x (t) (9.1)
dt m dt
reescribiremos por conveniencia estas ecuaciones en variable adimensionales x b y pb definidas por
r
1 mω
x
b (t) = βx (t) , pb (t) = p (t) ; β = (9.2)
~β ~
reemplazando (9.2) en (9.1) tenemos
db
x (t) db
p (t)
= ωb
p (t) ; = −ωb
x (t) (9.3)
dt dt
9.2. CONSTRUCCIÓN DE LOS ESTADOS COHERENTES O CUASI-CL ÁSICOS 245

nótese que la “normalización” de las variables x y p se realizó con constantes que dependen de ~, de modo que
facilite la comparación del oscilador clásico con el oscilador cuántico. El estado clásico está determinado para todo
tiempo por las variables x (t) , p (t) o equivalentemente, por las variables x b (t) y pb (t). Estas a su vez se pueden
sintentizar en un número complejo adimensional α (t) en la forma
1
α (t) = √ [bx (t) + ib
p (t)] (9.4)
2
y las ecuaciones (9.3) se pueden escribir como una única ecuación compleja en la forma

dα (t)
= −iω α (t) (9.5)
dt
cuya solución es
1
α (t) = α0 e−iωt ; α0 = α (0) = √ [b p (0)] ≡ |α0 | eiδ
x (0) + ib (9.6)
2
siendo α0 un número complejo que se puede escribir como α 0 = |α0 | eiδ , claramente la solución representa un fasor
de magnitud |α0 | y cuya fase está dada por δ − ωt. Es decir, el fasor rota con velocidad angular −ω (de modo que
si ω > 0 el giro es en dirección horaria alrededor de O). √
Es claro
√ además que las componentes cartesianas del fasor α (t) en cualquier instante, corresponden a x
b (t) / 2
y pb (t) / 2. Vemos entonces que la descripción completa del movimiento se obtiene a través de la condición inicial
descrita por α0 , en la Ec. (9.6). Esta condición inicial se expresa bien sea como posición y momento inicial (com-
ponentes cartesianas adimensionales) o bien sea como |α 0 | y δ (parámetros polares correspondientes a la amplitud
adimensional de la oscilación y fase inicial respectivamente). De las Ecs. (9.4, 9.6) se obtiene
1   √   i   √  
b (t) = √ α0 e−iωt + α∗0 eiωt = 2Re α0 e−iωt ; pb (t) = − √ α0 e−iωt − α∗0 eiωt = 2Im α0 e−iωt
x (9.7)
2 2
ahora escribiremos la energı́a del sistema clásico H la cual es una constante de movimiento y por tanto coincide con
su valor inicial para todo tiempo
1 1
H = [p (0)]2 + mω 2 [x (0)]2
2m 2
~ω n 2
o
H = [b p (0)]2
x (0)] + [b (9.8)
2
teniendo en cuenta la segunda de las Ecs. (9.6), la energı́a queda en la forma

H = ~ω |α0 |2 (9.9)

para un oscilador macroscópico es claro que la energı́a es mucho mayor a la energı́a del cuanto fundamental de modo
que
|α0 | >> 1 (9.10)

9.2. Construcción de los estados coherentes o cuasi-clásicos


Buscaremos estados mecano-cuánticos para los cuales los valores esperados hXi , hP i y hHi sean muy similares a
los valores clásicos x, p, H. Para ello compararemos a X, P con las variables adimensionales xb, pb para lo cual definire-
mos los correspondientes observables adimensionales. Adicionalmente, escribiremos los observables en términos de
los operadores creación y destrucción
 
b 1  †

b 1 i  †

† 1
X = βX = √ a + a ; P = P = −√ a − a ; H = ~ω a a + (9.11)
2 ~β 2 2

si comparamos las Ecs. (9.11) con las Ecs. (9.7, 9.6) vemos que el operador a es el análogo de la cantidad clásica
α (t) y a† posee el papel de α∗ (t). Clásicamente hemos visto que la cantidad compleja α 0 (condiciones iniciales) nos
dictamina la evolución temporal de los observables clásicos que se describen con α (t) en la Ec. (9.6), y dado que a
246CAPÍTULO 9. ESTADOS COHERENTES CUASI-CL ÁSICOS DEL OSCILADOR ARMÓNICO (OPCIONAL)

es el análogo cuántico de α, es natural continuar la analogı́a calculando la evolución temporal de hai para el sistema
en un estado arbitrario |ψ (t)i. Tal evolución se obtiene de la Ec. (5.52)

d
i~ hai (t) = h[a, H]i (t) (9.12)
dt
donde hemos tenido en cuenta que a es solo función de X y P y por tanto no depende explı́citamente del tiempo.
El miembro derecho de (9.12) se escribe como
  Dh iE Dh i E
† I
h[a, H]i (t) = ~ω a, a a + (t) = ~ω a, a† a (t) = ~ω a, a† a (t)
2
h[a, H]i (t) = ~ω hai (t)

con lo cual la Ec. (9.12) queda


d
i hai (t) = ω hai (t) (9.13)
dt
cuya solución es
hai (t) = hai (0) e−iωt (9.14)


la solución para a† (t) es la compleja conjugada de (9.14)
D E D E
a† (t) = a† (0) eiωt = hai∗ (0) eiωt (9.15)

nótese que las soluciones cuánticas (9.14, 9.15) son los análogos de la solución clásica (9.6), como era de esperarse
en virtud de la analogı́a a, a† ↔ α, α∗ . Sustituyendo (9.14) y (9.15) en (9.11) se obtiene
D E 1  
b (t) =
X √ hai (0) e−iωt + hai∗ (0) eiωt
2
D E i  
Pb (t) = − √ hai (0) e−iωt − hai∗ (0) eiωt (9.16)
2
el lı́mite clásico se obtiene igualando los valores esperados con las variables clásicas
D E D E
b (t) = x
X b (t) ; Pb (t) = pb (t) (9.17)

esta igualación se realiza comparando las Ecs. (9.16) con las Ecs. (9.7). De esto se ve que la condición necesaria y
suficiente para obtener el lı́mite clásico (9.17) es que en t = 0 se cumpla la condición

hai (0) = α0 (9.18)

siendo α0 el parámetro complejo que caracteriza al movimiento clásico que pretendemos emular cuánticamente, y
viene dado por la segunda de las Ecs. (9.6). Debemos ahora obtener la condición para la igualación de las energı́as
clásica y cuántica, para ello calculamos el valor esperado del Hamiltoniano cuántico, como éste es constante de
movimiento, se puede evaluar en cero
D E ~ω
hHi = ~ω a† a (0) +
2
debemos igualar esta energı́a con su valor clásico H y obtener la condición que se genera con tal igualación. Para
ello podemos despreciar el término ~ω/2, ya que el lı́mite clásico corresponde a energı́as mucho mayores

que ~ω.
Recordemos que el término ~ω/2 es puramente cuántico en su origen. La igualación de hHi ' ~ω a† a (0) con el
valor clásico dado por la Ec. (9.9) nos lleva a la condición
D E
a† a (0) = |α0 |2 (9.19)

recordando que hemos asumido un estado |ψ (t)i para el sistema, las condiciones (9.18, 9.19) se escriben como

hψ (0)| a |ψ (0)i = α0 ; hψ (0)| a† a |ψ (0)i = |α0 |2 (9.20)


9.3. PROPIEDADES DE LOS ESTADOS |αi 247

veremos que las condiciones (9.20) son suficientes para determinar el estado normalizado |ψ (0)i excepto por un
factor de fase constante. Para verlo introducimos el operador b (α 0 ) definido por

b (α0 ) ≡ a − α0

nótese que este operador mide la “desviación” entre el comportamiento del operador cuántico a y el de su análogo
clásico α0 en el tiempo inicial, tenemos que
 
b† (α0 ) b (α0 ) = a† − α∗0 (a − α0 ) = a† a − a† α0 − α∗0 a + |α0 |2

con lo cual
n o
kb (α0 ) |ψ (0)ik2 = hψ (0)| b† (α0 ) b (α0 ) |ψ (0)i = hψ (0)| a† a − a† α0 − α∗0 a + |α0 |2 |ψ (0)i
kb (α0 ) |ψ (0)ik2 = hψ (0)| a† a |ψ (0)i − α0 hψ (0)| a† |ψ (0)i − α∗0 hψ (0)| a |ψ (0)i + |α0 |2

y usando las condiciones (9.20) tenemos que

kb (α) |ψ (0)ik2 = |α0 |2 − α0 α∗0 − α∗0 α0 + |α0 |2 = 0

como la norma del ket b (α) |ψ (0)i es nula entonces el ket como tal es nulo, por tanto

b (α) |ψ (0)i = 0 ⇒ (a − α0 ) |ψ (0)i = 0


a |ψ (0)i = α0 |ψ (0)i (9.21)

recı́procamente, si el ket normalizado |ψ (0)i satisface esta relación, podemos devolvernos en los pasos y ver que las
condiciones (9.20) se satisfacen. Nótese que el resultado b (α) |ψ (0)i = 0 es el esperado, ya que cuando el estado
|ψ (0)i es cuasi-clásico, es razonable que la “desviación” entre el comportamiento clásico y el cuántico se anule.
Lo anterior nos lleva a la conclusión de que el estado cuasi-clásico asociado con un movimiento clásico caracter-
izado por el parámetro α0 , es tal que el vector de estado |ψ (0)i en t = 0 es un autovector del operador destrucción
a con autovalor α0 . Escribiremos los autovectores de a y su autovalores en la forma

a |αi = α |αi (9.22)

veremos además que la solución de (9.22) es única salvo constantes.

9.3. Propiedades de los estados |αi


Vamos a determinar las soluciones para el ket |αi de la Ec. (9.22). Para ello expandiremos el ket |αi en la base
de estados estacionarios del oscilador armónico

X
|αi = cn (α) |ϕn i (9.23)
n=0

aplicando el operador destrucción a ambos lados de la expansión y usando la Ec. (8.38), se obtiene

X ∞
X √ 
a |αi = cn (α) [a |ϕn i] ⇒ a |αi = cn (α) n |ϕn−1 i (9.24)
n=0 n=0

sustituyendo la Ec. (9.24) en la Ec. (9.22) y usando (9.23) resulta



X ∞
X

ncn (α) |ϕn−1 i = α ck (α) |ϕk i
n=0 k=0

reemplazando n → k + 1 en el miembro izquierdo, se tiene



X ∞
X

k + 1ck+1 (α) |ϕk i = α ck (α) |ϕk i
k=0 k=0
248CAPÍTULO 9. ESTADOS COHERENTES CUASI-CL ÁSICOS DEL OSCILADOR ARMÓNICO (OPCIONAL)

nótese que aunque la suma de la izquierda debe ir desde k = −1, este primer término es nulo. Apelando a la
independencia lineal de los |ϕk i se obtiene
α
ck+1 (α) = √ ck (α) (9.25)
k+1
utilizando esta relación iterativamente tenemos
 
α α α α2
ck (α) = √ ck−1 (α) = √ √ ck−2 (α) = p ck−2 (α)
k k k−1 k (k − 1)
 
α2 α α3
ck (α) = p √ ck−3 (α) = p ck−3 (α)
k (k − 1) k−2 k (k − 1) (k − 2)
αk
ck (α) = p ck−k (α)
k (k − 1) (k − 2) . . . × 2 × 1

de modo que todos los coeficientes de la expansión de |αi se pueden generar a partir de c 0 (α)

αk
ck (α) = √ c0 (α) (9.26)
k!
Escogeremos a c0 (α) como real y positivo (fase cero). Adicionalmente, escogeremos c 0 (α) de modo que |αi quede
adecuadamente normalizado. De acuerdo con (9.23), la normalización de |αi nos lleva a

X ∞
X ∞ X
X ∞
1 = hα |αi = c∗k (α) cn (α) hϕk |ϕn i = c∗k (α) cn (α) δkn
k=0 n=0 k=0 n=0

X
⇒ |ck (α)|2 = 1 (9.27)
k=0

reemplazando (9.26) en (9.27) se tiene



X
2 |α|2k 2
|c0 (α)| = 1 ⇒ |c0 (α)|2 e|α| = 1
k!
k=0
|α|2
c0 (α) = e− 2 (9.28)

reemplazando (9.26) y (9.28) en (9.23) queda finalmente



X X∞ X∞
αn αn |α|2
|αi = cn (α) |ϕn i = √ c0 (α) |ϕn i = √ e− 2 |ϕn i
n=0 n=0
n! n=0
n!
X∞

|α|2 αn
|αi = e 2 √ |ϕn i (9.29)
n=0 n!

9.3.1. Valores permitidos de la energı́a para un estado coherente |αi


Los estados coherentes son autoestados de un operador que no es observable (el operador a no es hermı́tico). Por
tanto sus valores propios pueden ser complejos y no corresponden a observables fı́sicos. Sin embargo, estos estados
son de cuadrado integrable y por tanto pertenecen al espacio de estados fı́sicos posibles. Asumamos entonces un
oscilador en el estado |αi descrito por la Ec. (9.29). La probabilidad de obtener el valor E m = (m + 1/2) ~ω para el
sistema en el estado |αi se puede calcular de (9.29)
2
|α|2 X∞
α n

Pm (α) = |hϕm |αi|2 = e− 2 √ hϕm |ϕn i
n!
n=0
2m
2 |α|
Pm (α) = e−|α|
m!
9.3. PROPIEDADES DE LOS ESTADOS |αi 249

es fácil ver que la probabilidad anterior cumple con la condición


!
|α|2 −|α|2 |α|
2(m−1)
Pm (α) = e ⇒
m (m − 1)!
|α|2
Pm (α) = Pm−1 (α)
m
de modo que la distribución de la probabilidad es del tipo Poisson. Se puede verificar que el máximo de esta
probabilidad se obtiene cuando
m = la parte entera de |α| 2 (9.30)
calcularemos ahora el valor esperado de la energı́a el cual debe ser comparado con la energı́a clásica. Para ello
notemos primero que de la Ec. (9.22), se tiene que
ka |αik2 = kα |αik2 ⇒ hα| a† a |αi = hα| α∗ α |αi ⇒
hα| a† a |αi = |α|2 (9.31)

con lo cual
 
1 †
hHiα = ~ω hα| a a + |αi
2
 
1
hHiα = ~ω |α|2 + (9.32)
2
teniendo en cuenta el resultado (9.30), vemos que si |α| >> 1 (como corresponde al lı́mite clásico), la cantidad hHi α
es muy similar en valor
relativo
a la energı́a E n que corresponde al máximo de Pn (α). Con el fin de calcular el
ancho ∆H calcularemos H 2 α
      

2 2 2 † 1 2 2 2 † † † 1
H α = ~ ω hα| a a + |αi = ~ ω hα| a a a a + a a + |αi
2 4
   
2 2 2 2 † 1 2 2 2 2 2 1
= ~ ω hα| N N |αi + ~ ω hα| a a + |αi = ~ ω hN α |N αi + ~ ω |α| +
4 4
 

2 1
H α = ~2 ω 2 k|N αik2 + ~2 ω 2 |α|2 + (9.33)
4
donde hemos usado la Ec. (9.31) y el hecho de que N = a † a es hermı́tico. Multiplicando (9.22) por a † se tiene que
2

a† a |αi = αa† |αi ⇒ N |αi = αa† |αi ⇒ kN |αik2 = |α|2 a† |αi
 
⇒ kN |αik2 = |α|2 hα| aa† |αi ⇒ kN |αik2 = |α|2 hα| a† a + 1 |αi
 
kN |αik2 = |α|2 |α|2 + 1 (9.34)

donde hemos usado nuevamente (9.31). Reemplazando (9.34) en (9.33) se obtiene


   

2 2 2 2 2 2 2 2 1
H α = ~ ω |α| |α| + 1 + ~ ω |α| +
4
 

2 1
H α = ~2 ω 2 |α|4 + 2 |α|2 + (9.35)
4
y el ancho se obtiene usando (9.32) y (9.35)
    
2
1 1 2
(∆Hα ) = H α − 2
hHi2α 2 2
= ~ ω |α| + 2 |α| + 4 2
− ~ω |α| + 2
4 2
 
1 1
(∆Hα )2 = ~2 ω 2 |α|4 + 2 |α|2 + − |α|4 − |α|2 − = ~2 ω 2 |α|2
4 4
(∆Hα ) = ~ω |α| (9.36)
250CAPÍTULO 9. ESTADOS COHERENTES CUASI-CL ÁSICOS DEL OSCILADOR ARMÓNICO (OPCIONAL)

en el lı́mite cuasi-clásico el ancho relativo debe ser mucho menor que uno, con el fin de poder afirmar que la energı́a
está bien definida. El ancho relativo se puede calcular de (9.32) y (9.36)
∆Hα |α|
=  (9.37)
hHiα |α|2 + 12
para el lı́mite cuasi-clásico |α| >> 1, se tiene que
∆Hα |α| 1
' 2 = |α| << 1 (9.38)
hHα i |α|
de modo que se puede considerar que la energı́a está bien definida en el lı́mite cuasi-clásico. Es inmediato ver que
hN iα = |α|2 ; ∆Nα = |α|
lo cual nos dice que para obtener un estado cuasi-clásico |α| >> 1, se debe suporponer un enorme número de estados
|ϕn i ya que ∆Nα >> 1. Sin embargo, el valor relativo de la dispersión sobre N también es muy pequeño
∆Nα 1
' << 1
hN iα |α|

9.3.2. Cálculo de los observables X, P en el estado |αi


Con el fin de realizar la comparación con los valores clásicos, calcularemos hXi , hP i , ∆X, ∆P . Para ello se
usan las expresiones de X y P en términos de a y a † (ver Ecs. 8.7), junto con la Ec. (9.22)
r   r i r ~ r
~ † ~ h † ∗ 2~
hXiα = hα| a + a |αi = hα| a |αi + hα| a |αi = (α + α) = Re (α)
2mω 2mω 2mω mω
r   r r
m~ω m~ω ∗ m~ω (α − α∗ ) √
hP iα = i hα| a† − a |αi = i (α − α) = (−2i) i = 2m~ωIm (α)
2 2 2
 2i   

2 ~  2 ~  2 ~ 2
† † 2 † † † 2
X α = hα| a + a |αi = hα| a + a + a a + aa |αi = hα| a + a + 2N + 1 |αi
2mω 2mω 2mω
~ h ∗2 i ~ h ∗ i
= α + α2 + 2 |α|2 + 1 = (α + α)2 + 1
2mω 2mω  

2 m~ω   2 m~ω  2 m~ω h ∗2 i
P α = − hα| a† − a |αi = − hα| a† + a2 − 2N − 1 |αi = −α − α2 + 2 |α|2 + 1
2 2 2
m~ω h i
= − (α − α∗ )2 + 1
2

~ h ∗ i ~ ~
(∆Xα )2 = X 2 α − hXi2α = (α + α)2 + 1 − (α∗ + α)2 =
2mω 2mω 2mω
"r #2

2 m~ω h i m~ω ∗
2 2 ∗ 2
(∆Pα ) = P α − hP iα = − (α − α ) + 1 − i (α − α)
2 2
m~ω h i m~ω m~ω
= − (α − α∗ )2 + 1 + (α∗ − α)2 =
2 2 2
resumiendo los anteriores resultados tenemos que
r
2~ √
hXiα = hα| X |αi = Re (α) ; hP iα = hα| P |αi = 2m~ωIm (α) (9.39)


2 ~ h i
m~ω h i
X α = (α + α∗ )2 + 1 ; P 2 α = 1 − (α − α∗ )2 (9.40)
r2mω r 2
~ m~ω
∆Xα = ; ∆Pα = (9.41)
2mω 2
se observa que los anchos ∆Xα y ∆Pα no dependen de α y el producto de los anchos toma su valor mı́nimo
~
∆Xα · ∆Pα = (9.42)
2
lo cual es muy deseable para un lı́mite cuasi-clásico.
9.4. GENERADOR Y FUNCIÓN DE ONDA DE LOS ESTADOS COHERENTES 251

9.4. Generador y función de onda de los estados coherentes


Teniendo en cuenta la Ec. (8.28) vemos que el estado coherente de la Ec. (9.29) se puede escribir en términos
del operador construcción a partir del estado base del oscilador armónico
 "  #

|α|2 X αn

|α|2 X αn a † n ∞
|α|2 X αa
† n
|αi = e− 2 √ |ϕn i = e− 2 √ √ |ϕ0 i = e− 2 |ϕ0 i
n! n! n! n!
n=0 n=0 n=0
 
|α|2 †
|αi = e− 2 eαa |ϕ0 i ≡ D̄ (α) |ϕ0 i (9.43)

podemos generar a |αi a partir de |ϕ0 i con un operador más simétrico, para ello tenemos en cuenta que el operador
destrucción a aniquila el estado base, con lo cual tenemos que
 
−α∗ a ∗ α∗2 2
e |ϕ0 i = 1 − α a + a + . . . |ϕ0 i = |ϕ0 i (9.44)
2!
de la Ec. (9.44) podemos reescribir la Ec. (9.43) en la forma
 
|α|2 † ∗
|αi = e− 2 eαa e−α a |ϕ0 i

con lo cual se obtiene

|αi = D (α) |ϕ0 i (9.45)


2
− |α| † ∗a
D (α) ≡ e 2 eαa e−α (9.46)

teniendo en cuenta que h i h i


αa† , −α∗ a = −αα∗ a† , a = |α|2 I

y usando la relación (1.147), las Ecs. (9.45, 9.46) quedan


† −α∗ a
D (α) = eαa ; |αi = D (α) |ϕ0 i (9.47)

este operador (conocido como operador de Weyl) es unitario


∗ a−αa†
D † (α) = eα ⇒ D (α) D † (α) = D † (α) D (α) = I

La Ec. (9.47) nos muestra que podemos ver al operador unitario D (α) como un operador “creación” del estado
coherente |αi a partir del estado base del oscilador armónico. La Ec. (9.47) nos permite encontrar la función de
onda asociada a los estados coherentes

ψα (x) = hx| αi = hx| D (α) |ϕ0 i (9.48)

para calcular la función de onda, primero escribimos el operador αa † − α∗ a en términos de X y P usando las Ecs.
(8.5) r    
† ∗ mω α − α∗ i α + α∗
αa − α a = √ X− √ √ P
~ 2 m~ω 2
teniendo en cuenta que
r      r
mω α − α∗ i α + α∗ i mω
√ X, − √ √ P = − √ (α − α∗ ) (α + α∗ ) [X, P ]
~ 2 m~ω 2 2 m~ω ~
1 2 
= α − α∗2
2
y usando de nuevo la relación (1.147), el operador D (α) queda
r     ∗2 
αa† −α∗ a mω α − α∗ i α + α∗ α − α2
D (α) = e = exp √ X exp − √ √ P exp
~ 2 m~ω 2 4
252CAPÍTULO 9. ESTADOS COHERENTES CUASI-CL ÁSICOS DEL OSCILADOR ARMÓNICO (OPCIONAL)

sustituyendo este resultado en (9.48) se obtiene


  r   
α∗2 − α2 mω α − α∗ i α + α∗
ψα (x) = exp hx| exp √ X exp − √ √ P |ϕ0 i
4 ~ 2 m~ω 2
 ∗2  r  ( " r # )
α −α 2 mω α − α ∗ i ~
ψα (x) = exp exp √ x hx| exp − (α + α∗ ) P |ϕ0 i (9.49)
4 ~ 2 ~ 2mω

ahora bien, el operador e−iλP/~ es el operador traslación de λ a lo largo de x (siendo P la componente x del momento)
ver sección 1.44.2 Ec. (1.202), pág 93, de modo que
( "r # ) * r
i ~ ~
∗ ∗
hx| exp − (α + α ) P = x − (α + α )
~ 2mω 2mω

con lo cual la Ec. (9.49) queda


  r  r !
α∗2 − α2 mω α − α∗ ~
ψα (x) = exp exp √ x ϕ0 x− (α + α∗ ) (9.50)
4 ~ 2 2mω

si escribimos α y α∗ en términos de hXiα y hP iα según las Ecs. (9.39), tenemos que


r
∗ hP i mω
α−α = 2i Im(α) = 2i √ α ; α + α∗ = 2Re (α) = 2 hXiα (9.51)
2m~ω 2~
hXiα hP iα
α∗2 − α2 = − (α − α∗ ) (α + α∗ ) = −2i (9.52)
~
reemplazando las Ecs. (9.51, 9.52) en la función de onda (9.50) tenemos que
  r  r  r !
hXiα hP iα mω 2i hP iα ~ mω
ψα (x) = exp −i exp √ √ x ϕ0 x− 2 hXiα
2~ ~ 2 2m~ω 2mω 2~
hXiα hP iα
ψα (x) = eiθα eihP iα x/~ ϕ0 (x − hXiα ) ; θα ≡ − (9.53)
2~
la ecuación (9.53) nos muestra que ψ α (x) se puede obtener a partir de la función de onda ϕ 0 (x) del estado base
del oscilador armónico en la siguiente forma: Se traslada esta función a lo largo de x en una cantidad hXi α y
se multiplica por la exponencial oscilante e ihP iα x/~ . El factor eiθa es irrelevante y puede ser omitido, nótese sin
embargo que el término eihP iα x no es una fase global sino local ya que dependen de x, y por tanto es relevante. Esta
exponencial nos asegura que el valor promedio de P en el estado ψ α (x) sea hP iα .
Si reemplazamos la forma explı́cita de ϕ 0 (x) (Ec. 8.45, Pág. 237), en la Ec. (9.53) obtenemos
 " r #2 
 mω  1     1  
1 mω mω 4 iθα ihP iα x/~ 1 2mω
(x − hXiα )2 =
4 iθα ihP i x/~
ψα (x) = e e α exp − e e exp − (x − hXiα )
π~ 2 ~ π~  2 ~ 
(   )
 1 x − hXiα 2
iθα mω 4 x
ψα (x) = e exp − + i hP iα (9.5
π~ 2∆Xα ~

donde hemos usado también la Ec. (9.41). La forma del paquete de onda asociada con el estado |αi está dada por
r (   )
2 mω 1 x − hXiα 2
|ψα (x)| = exp − (9.55)
π~ 2 ∆Xα

con lo cual para cualquier estado coherente |αi obtenemos un paquete Gaussiano. Esto a su vez está relacionado
con la propiedad de mı́nima incertidumbre que obtuvimos en la Ec. (9.42).
9.5. LOS ESTADOS COHERENTES SON COMPLETOS PERO NO ORTOGONALES 253

9.5. Los estados coherentes son completos pero no ortogonales


Los estados coherentes o cuasi-clásicos |αi son autovectores del operador a, el cual no es hermı́tico. Por tanto, no
es claro si estos estados satisfacen relaciones de completez y ortogonalidad. Veremos que el conjunto de los estados
coherentes {|αi} es completo pero no es ortogonal.
Consideremos primero el producto interno de dos estados cuasi-clásicos. Aplicando (9.29) tenemos
" ∞
#" ∞
#
0 |α|2 X α∗m |α0 |2 X α0n
hα α = e 2 −
√ hϕm | e 2 −
√ |ϕn i
m=0 m! n=0 n!
" ∞ ∞ #
|α|2 | α0 |2 X X α0n α∗m
= e − 2 e− 2 √ √ hϕm | ϕn i
m=0 n=0 n! m!
"∞ # "∞ #
|α|2 |α0 |2 X α0n α∗n |α|2 |α0 |2 X (α0 α∗ )n
= e − 2 e− 2 √ √ = e − 2 e− 2
n! n! n!
n=0 n=0
0 |α|2 |α0 |2 ∗ 0

hα α = e − 2 − 2
e eα α

con lo cual resulta 0 2 2


hα α = e−|α−α0 | (9.56)
de modo que este producto escalar no es nunca cero. Los estados coherentes no son ortogonales.
Veremos no obstante que los estados |αi poseen una relación de completez de la forma
Z Z
1
|αi hα| d2 α = 1 (9.57)
π

comenzaremos reemplazando |αi al lado izquierdo de (9.57) por su expresión en (9.29)


Z Z Z Z " ∞
#" ∞
#
1 1 |α|2 X αn |α|2 X α∗m
I ≡ |αi hα| d2 α = e− 2 √ |ϕn i e− 2 √ hϕm | d2 α
π π n! m!
n=0 m=0
Z Z " ∞ X ∞
#
1 2 X αn α∗m
I = e−|α| √ √ |ϕn i hϕm | d2 α (9.58)
π n! m!
n=0 m=0

el complejo α lo podemos escribir como

α = ρeiϕ = x + iy ; d2 α = ρ dρ dϕ = dx dy = d {Re (α)} d {Im (α)} (9.59)

donde hemos tenido en cuenta la expresión del diferencial de área en coordenadas polares 1 . Sustituyendo la
parametrización polar de la Ec. (9.59) en la integral (9.58), ésta última queda como
Z Z "∞ ∞   #
1 2 X X ρeiϕ n ρe−iϕ m
e−|ρe |

I = √ √ |ϕn i hϕm | ρ dρ dϕ
π n! m!
n=0 m=0
Z Z "∞ ∞ #
1 2 X X ρn+m ei(n−m)ϕ
I = e−|ρ| √ |ϕn i hϕm | ρ dρ dϕ
π n=0 m=0 n!m!
∞ ∞ Z Z 2π
1 X X ∞ −ρ2 n+m 1
I = e ρ ρ dρ √ |ϕn i hϕm | dϕ ei(n−m)ϕ (9.60)
π n!m!
n=0 m=0 0 0

la integral sobre ϕ es inmediata Z 2π


ei(n−m)ϕ dϕ = 2πδnm
0
1
Combinando las Ecs. (9.39, 9.59), podemos ver que d2 α = d {Re (α)} d {Im (α)} = 2~ 1
d hXiα d hP iα , con lo cual la Ec. (9.57) que
expresa la completez de los estados coherentes, se puede interpretar como una integral sobre el espacio de fase clásico.
254CAPÍTULO 9. ESTADOS COHERENTES CUASI-CL ÁSICOS DEL OSCILADOR ARMÓNICO (OPCIONAL)

de modo que la Ec. (9.60) queda en la forma


X∞ X ∞ Z ∞ X∞ Z ∞
−ρ2 n+m 1 2 1
I = 2 e ρ ρ dρ √ |ϕn i hϕm | δmn = 2 e−ρ ρn+n ρ dρ √ |ϕn i hϕn |
n=0 m=0 0 n!m! n=0 0 n!n!
X∞ Z ∞ 
−ρ2 2n 1
I = 2 e ρ ρ dρ |ϕn i hϕn |
0 n!
n=0

haciendo el cambio de variable u = ρ2 , du = 2ρ dρ tenemos


X 1 Z ∞ Z ∞
−ρ2 2n
In |ϕn i hϕn | ; In = 2 ρ dρ e ρ = du e−u un (9.61)
n
n! 0 0

haciendo dV = du e−u y U = un integramos In por partes


Z ∞ Z

n −u ∞
In = −u e 0 − −e (nun−1 ) du = n du e−u un−1
−u
0

con lo cual encontramos una relación de recurrencia para I n


In = nIn−1
cuya solución es
In = nIn−1 = n (n − 1) In−2 = n (n − 1) (n − 2) In−3 = . . . = [n × (n − 1) × (n − 2) × · · · × 2 × 1] In−n
In = n!I0
de la Ec. (9.61) tenemos que
Z ∞ ∞
I0 = du e−u = −e−u 0 = 1 ⇒
0
In = n!I0 = n!
que al sustituı́rlo en (9.61) nos da X
I= |ϕn i hϕn | = 1
n
donde hemos usado la completez de las autofunciones del oscilador armónico. Con esto se demuestra la Ec. (9.57),
que nos expresa la completez de los estados coherentes |αi.

9.6. Evolución temporal de los estados coherentes


Consideremos un oscilador armónico que en t = 0 está en un estado coherente dado |ψ (0)i = |α 0 i. Veremos
la evolución temporal de este estado y de los observables más importantes. Ya hemos visto que hXi (t) y hP i (t)
permanecen iguales a sus valores clásicos para todo tiempo. De hecho, esta caracterı́stica fué la motivación para la
construcción de estos estados.
Para calcular la evolución temporal del estado del sistema, expandimos el estado inicial en autoestados del
Hamiltoniano del oscilador armónico usando (9.29)
X |α0 |2 αn
|ψ (0)i = |α0 i = cn (0) |ϕn i ; cn (0) ≡ e− 2 √0 (9.62)
n n!
Como el Hamiltoniano del oscilador armónico es independiente del tiempo, la evolución temporal del estado se
puede calcular con la Ec. (5.67)
X |α0 |2 X αn 1
|ψ (t)i = cn (0) e−iEn t/~ |ϕn i = e− 2 √ 0 e−i(n+ 2 )ωt |ϕn i
n n n!
2 n
|α0 |2 X αn |α0 e−iωt | X α0 e−iωt
−i ωt − 0 −inωt −i ωt −
|ψ (t)i = e 2 e 2 √ e |ϕn i = e 2 e 2 √ |ϕn i (9.63)
n n! n n!
9.6. EVOLUCIÓN TEMPORAL DE LOS ESTADOS COHERENTES 255

comparando (9.63) con (9.62), vemos que el ket |ψ (t)i se obtiene del ket inicial |ψ (0)i = |α 0 i cambiando α0 por
ωt
α0 e−iωt y multiplicando el ket resultante por la fase global (irrelevante) e −i 2 , con lo cual |ψ (t)i se puede reescribir
como
|ψ (t)i = e−iωt/2 α = α0 e−iωt (9.64)
por tanto el estado cuasi-clásico continúa siendo autovector del operador a, para todo tiempo t. Su autovalor es
α0 e−iωt que es el parámetro α (t) descrito por las ecuaciones (9.4, 9.6) y que geométricamente es un fasor que rota
en el plano complejo con velocidad angular −ω. Recordemos que este fasor caracteriza en todo tiempo al oscilador
armónico clásico cuya evolución pretendemos reproducir a través del estado |ψ (t)i. Los valores esperados de hXi y
hP i para todo tiempo se obtienen a partir de (9.64) y (9.39)
r
2~   √  
hXiα(t) (t) = Re α0 e−iωt ; hP iα(t) (t) = 2m~ωIm α0 e−iωt (9.65)

y tal como se predijo, estas ecuaciones son similares a la evolución clásica Ecs. (9.7).
Por otro lado, la energı́a promedio es independiente del tiempo
   

−iωt 2 1 2 1

hHiα(t) (t) = ~ω α0 e + = ~ω |α0 | + (9.66)
2 2

finalmente, las raı́ces de las desviaciones medias cuadráticas ∆H α(t) , ∆Xα(t) y ∆Pα(t) calculadas con las Ecs. (9.36,
9.41) nos dan r r
~ m~ω
∆H = ~ω |α0 | ; ∆X = ; ∆P = (9.67)
2mω 2
vemos que los anchos no dependen del tiempo. En particular ∆X y ∆P permanecen siendo paquetes de mı́nima
incertidumbre para todo tiempo. No hay dispersión de los paquetes de onda. Veamos un poco más en detalle la
evolución del paquete de onda, la función de onda ψ (x, t) para todo tiempo se puede calcular con las Ecs. (9.54,
9.64)
 1/4 h i2
iθα mω
xhP i(t) − x−hXi(t)
−iωt/2 i ~
ψ (x, t) = e e e e 2∆X
π~
vemos que la forma del paquete es Gaussiana para todo tiempo t. Su forma no varı́a en el tiempo puesto que

|ψ (t)|2 = |ϕ0 (x − hXi (t))|2

vemos que los estados cuasi-clásicos son tales que los anchos ∆X y ∆P permanecen como paquetes de mı́nima
incertidumbre y la forma del paquete permanece intacta cuando éste se propaga. Esta ausencia de dispersión y
de cambio del perfil del paquete es la que le da el nombre de “estados coherentes” a los estados cuasi-clásicos del
oscilador armónico.
La Fig. 9.1 muestra el movimiento de un paquete de onda de un estado coherente. De acuerdo con la Ec. (9.65),
el valor esperado de X oscila alrededor de x = 0 con periodo T = 2π/ω, y dado que el paquete de onda no se
distorsiona, este será también el movimiento del paquete como un todo. En contraste, vimos en la sección 2.13.1 que
un paquete Gaussiano libre se distorsiona cuando se propaga, ya que su ancho aumenta a medida que se propaga
(dispersión del paquete de onda). Vemos en contraste que un paquete Gaussiano sometido a un potencial parabólico
(oscilador armónico) no posee dispersión. Esto se debe a que la tendencia del paquete a dispersarse es compensada
por el potencial, cuyo efecto es empujar al paquete hacia el origen desde regiones donde x (y por tanto V (x)) es
grande.
Adicionalmente, ya hemos visto en las secciones (9.3.1, 9.3.2) que cuando |α| >> 1, las raı́ces de las desviaciones
medias cuadráticas de X, P y H no cambian, son mucho menores que sus valores esperados asociados y además
dichos valores esperados emulan en todo tiempo la evolución clásica. De modo que escogiendo un valor de |α|
lo suficientemente alto, obtenemos una evolución temporal cuántica para la cual la posición y momento de los
osciladores son en valor relativo, tan definidos como es posible, ya que los paquetes son de mı́nima incertidumbre,
y su valor caracterı́stico tiene un comportamiento similar al clásico. Por tanto, en este lı́mite el estado |αi emula
muy bien las propiedades de un oscilador macroscópico (clásico) para el cual la posición, momento y energı́a están
bien definidos.
256CAPÍTULO 9. ESTADOS COHERENTES CUASI-CL ÁSICOS DEL OSCILADOR ARMÓNICO (OPCIONAL)

Figura 9.1: Propagación de un paquete de onda Gaussiano sometido a un potencial parabólico y asociado a un estado
cuasi-clásico. El paquete oscila alrededor del punto de equilibrio. La forma y el ancho del paquete Permanecen
intactos en el tiempo.

9.7. Tratamiento mecano-cuántico de un oscilador armónico macroscópico


Consideraremos un ejemplo macroscópico que nos permita una apreciación numérica de la discusión anterior. Sea
un cuerpo de masa m = 1kg, suspendido de una cuerda de longitud l = 0,1m colocado en un campo gravitacional
g ' 10m/seg 2 . Sabemos que para pequeñas oscilaciones el periodo de movimiento es
s
l
T = 2π ' 0,63seg ; ω = 10Rad/seg
g

asumamos que este oscilador realiza movimiento periódico de amplitud x M = 1cm. Nos preguntamos ahora por el
estado mecano-cuántico que mejor representa esta oscilación.
De acuerdo con la discusión anterior, dicho estado es del tipo |αi. Combinando la relación clásica entre energı́a
y amplitud con la Ec. (9.32) (despreciando el factor 1/2 en esta última) se obtiene

1
E = mω 2 x2M = ~ω |α|2 ⇒
2
r

|α| = xM
2~

en donde el argumento de α depende de la fase inicial de movimiento. Para nuestro caso tenemos las siguientes
9.7. TRATAMIENTO MECANO-CUÁNTICO DE UN OSCILADOR ARMÓNICO MACROSCÓPICO 257

estimaciones numéricas

|α| '5 × 1015 >> 1
r
~
∆X = ' 2,2 × 10−18 m << xM
2mω
r
m~ω
∆P = ' 2,2 × 10−17 kg m/s
2
la raı́z de la desviación media cuadrática para la velocidad está dada por

∆V ' 2,2 × 10−17 m/s

el valor máximo de la velocidad del oscilador es 0,1m/s y la raı́z del valor medio cuadrático es de este mismo orden
de magnitud. Por tanto, las incertidumbres en la posición y velocidad son completamente despreciables con respecto
a las cantidades involucradas en el problema. Por ejemplo ∆X es menor que un fermi (10 −15 m) que es el tamaño
aproximado de un núcleo atómico. Es claro que esta cantidad es despreciable para una longitud macroscópica.
Finalmente, la energı́a del oscilador se conoce con una excelente precisión relativa, usando la Ec. (9.38) resulta

∆H 1
' ' 0,4 × 10−15 << 1
hHi |α|

todo esto nos muestra porqué la mecánica clásica provee una adecuada descripción del oscilador armónico macroscópi-
co.
Capı́tulo 10

Teorı́a general del momento angular en


mecánica cuántica

Es bien conocida la gran importancia que tiene el momento angular en mecánica clásica. En primer lugar es
una constante de movimiento cuando el sistema es aislado constituyendo uno de los principios de conservación más
fundamentales en la teorı́a clásica. Además, también es una cantidad conservada para una partı́cula sometida a
una fuerza central, y trae como consecuencia el hecho de que el movimiento sea en un plano y que se conserve la
velocidad aerolar (segunda ley de Kepler).
Veremos que estas propiedades tienen su contrapartida cuántica. Por ejemplo, veremos más adelante que para
una partı́cula sometida a una interacción central, los operadores L 1 , L2 , L3 que surgen de cuantizar las cantidades
clásicas, son constantes de movimiento en el sentido cuántico, es decir no dependen explı́citamente del tiempo y
conmutan con el Hamiltoniano. Veremos además que existe otro tipo de momento angular que no depende de R ni P
ni de ninguna otra variable geométrica clásica. Estos momentos angulares que surgen directamente como observables
cuánticos y no como la cuantización de observables clásicos se denominan momentos angulares intrı́nsecos. Este
momento angular intrı́nseco (también conocido como espı́n), está cuantizado desde el principio y es esencial para
entender el mundo microscópico como veremos más adelante.
De aquı́ en adelante denotaremos como momento angular orbital L a cualquier momento angular que provenga
de la cuantización de un momento angular clásico. Llamaremos momento angular de espı́n S o simplemente espı́n,
a cualquier momento angular intrı́nseco de una partı́cula. Finalmente, en sistemas complejos como núcleos, átomos,
moléculas, etc. los momentos angulares orbitales de sus constituyentes se combinan y también se combinan con
los espines de sus constituyentes para formar el momento angular total J. La notación J representará entonces
la resultante entre la suma de momentos orbitales e intrı́nsecos, pero también se usará para denotar un momento
angular genérico cuando no hagamos distinción entre el momento angular intrı́nseco y orbital. Las reglas de adición
de los momentos angulares se estudiarán en capı́tulos subsecuentes.
Existen una serie de propiedades de los momentos angulares que solo dependen de sus relaciones de conmutación
y que serán válidas para cualquier momento angular sin importar su naturaleza. Veremos en particular, que toda
componente de un momento angular posee un espectro discreto, propiedad denominada “cuantización espacial”.
Desarrollaremos en capı́tulos posteriores, las aplicaciones concernientes tanto al momento angular orbital como al
intrı́nseco.

10.1. Definición de momento angular por sus propiedades de conmutación


10.1.1. Cuantización del momento angular orbital
Para obtener los tres observables L 1 , L2 , L3 asociados a un momento angular orbital clásico de componentes
L1 , L2 , L3 , donde



L = r×p (10.1)
Li = εijk xj pk ; i, j, k = 1, 2, 3 (10.2)
10.1. DEFINICIÓN DE MOMENTO ANGULAR POR SUS PROPIEDADES DE CONMUTACI ÓN 259

simplemente reemplazamos cada componente x j , pk por los correspondientes operadores X j , Pk . La cantidad εijk es el
tensor de Levi Civita. Nótese que aunque aparece un producto de estos operadores, no es necesaria una simetrización
puesto que en (10.2) solo sobreviven los términos con j 6= k de modo que los operadores en el producto conmutan
según las reglas canónicas de conmutación (4.9). Por esta razón, no hay ambigüedad en el orden y el operador que se
obtiene es automáticamente hermı́tico. Visto de otra manera, la simetrización del producto coincide con el producto
original cuando los operadores conmutan. Los observables cuánticos son entonces

Li = εijk Xj Pk ; i, j, k = 1, 2, 3 (10.3)
L = R×P (10.4)

calculemos entonces los conmutadores entre los L i con base en las relaciones canónicas de conmutación (4.9)

[L1 , L2 ] = [X2 P3 − X3 P2 , X3 P1 − X1 P3 ] = [X2 P3 , X3 P1 − X1 P3 ] − [X3 P2 , X3 P1 − X1 P3 ]


= [X2 P3 , X3 P1 ] − [X2 P3 , X1 P3 ] − [X3 P2 , X3 P1 ] + [X3 P2 , X1 P3 ]
= X2 [P3 , X3 P1 ] + [X2 , X3 P1 ] P3 − X2 [P3 , X1 P3 ] − [X2 , X1 P3 ] P3
−X3 [P2 , X3 P1 ] − [X3 , X3 P1 ] P2 + X3 [P2 , X1 P3 ] + [X3 , X1 P3 ] P2

[L1 , L2 ] = X2 [P3 , X3 ] P1 + X3 [X2 , P1 ] P3 − X2 [P3 , X1 ] P3 − X1 [X2 , P3 ] P3


−X3 [P2 , X3 ] P1 − X3 [X3 , P1 ] P2 + X3 [P2 , X1 ] P3 + X1 [X3 , P3 ] P2

[L1 , L2 ] = −i~X2 P1 + i~X1 P2 = i~ (R × P)3


[L1 , L2 ] = i~L3

procediendo de forma similar con los demás conmutadores se obtiene

[L1 , L2 ] = i~L3 ; [L1 , L3 ] = −i~L2 ; [L2 , L3 ] = i~L1

o más sintéticamente
[Li , Lj ] = i~εijk Lk (10.5)
este resultado se puede generalizar cuando tenemos N partı́culas sin espı́n. El momento angular total del sistema
en mecánica cuántica es
N
X
L= L(i) ; L(i) ≡ R(i) × P(i)
i=1

y cada momento angular individual L (i)


satisface relaciones de conmutación del tipo (10.5) y conmuta con L (j) para
i 6= j, ya que son operadores actuando en el espacio de estados de partı́culas diferentes. Por tanto para N partı́culas
tendrı́amos h i
(m) (n) (m)
Li , L j = i~εijk δmn Lk

Se puede demostrar adicionalmente que el origen de las reglas de conmutación (10.5) yace en las propiedades
geométricas de las rotaciones en tres dimensiones. Esto está relacionado con el hecho de que en mecánica clásica, el
momento angular junto con el torque forman las variables fundamentales de la dinámica rotacional.

10.1.2. Definición de momento angular


De nuestro trabajo con el oscilador armónico hemos aprendido que muchas propiedades se pueden extraer de las
reglas de conmutación entre los operadores sin utilizar una representación especı́fica. Esto nos induce a generalizar los
resultados anteriores para definir un operador momento angular como cualquier tripla de observables J = (J 1 , J2 , J3 ),
que satisface las relaciones
[Ji , Jj ] = i~εijk Jk (10.6)
será de gran utilidad el operador
J2 = J12 + J22 + J32
260 CAPÍTULO 10. TEORÍA GENERAL DEL MOMENTO ANGULAR EN MEC ÁNICA CUÁNTICA

este operador es Hermı́tico ya que cada componente es hermı́tica. Vale la pena enfatizar que el carácter de observable
de los Ji forma parte esencial de la definición de momento angular 1 . Calculemos primero el conmutador de J 2 con
J, para lo cual calculamos para cada componente
 2       
J , J1 = J12 + J22 + J32 , J1 = J22 , J1 + J32 , J1
= J2 [J2 , J1 ] + [J2 , J1 ] J2 + J3 [J3 , J1 ] + [J3 , J1 ] J3
= −i~J2 J3 − i~J3 J2 + i~J3 J2 + i~J2 J3
 2

J , J1 = 0

y similarmente con las otras componentes de modo que


 2 
J ,J = 0 (10.7)

toda la teorı́a del momento angular en cuántica se basará completamente en las reglas de conmutación (10.6,
10.7). En particular, estas relaciones muestran que no es posible medir simultáneamente las tres componentes del
momento angular, pero sı́ es posible medir simultáneamente una sola componente y la cantidad J 2 . Es decir cualquier
componente de J es una variable compatible con J 2 . Esto implicará que si asumimos que J 2 y Ji son observables,
podemos encontrar una base común de vectores propios para J 2 y uno de los Ji . Es usual elegir la componente de
J3 , y decimos que tomamos a X3 como “eje de cuantización” de modo que construı́mos una base que diagonalice
simultáneamente a J2 y a J3 .

10.2. Propiedades algebráicas del momento angular


Estudiaremos la estructura del espectro de J 2 y J3 ası́ como la estructura de sus vectores propios comunes.
Veremos que muchos de los argumentos se asemejan a los que se utilizaron para el oscilador armónico.
En primer lugar, inspirados por la definición de los operadores a y a † en las Ecs. (8.4) introduciremos los
siguientes operadores

J+ ≡ J1 + iJ2 ; J− ≡ J1 − iJ2 (10.8)


1 1
J1 = (J+ + J− ) ; J2 = (J+ − J− ) (10.9)
2 2i

y al igual que los operadores a y a† , los operadores J± no son hermı́ticos y son conjugados el uno del otro. En todo
el estudio del momento angular trabajaremos con los operadores J 2 , J3 , J+ , J− por lo cual será necesario encontrar
todas las relaciones de conmutación entre ellos

10.2.1. Álgebra de los operadores J2 , J3 , J+ , J−


Usando las Ecs. (10.6, 10.7, 10.8) podemos encontrar las relaciones de conmutación requeridas

[J3 , J± ] = [J3 , J1 ± iJ2 ] = [J3 , J1 ] ± i [J3 , J2 ] = i~J2 ± i (−i~J1 ) = ~ {iJ2 ± J1 }


[J3 , J+ ] = ~J+ ; [J3 , J− ] = −~J−

[J+ , J− ] = [J1 + iJ2 , J1 − iJ2 ] = [J1 , J1 − iJ2 ] + i [J2 , J1 − iJ2 ]


= [J1 , J1 ] − i [J1 , J2 ] + i [J2 , J1 ] + [J2 , J2 ] = 2i [J2 , J1 ] = 2i (−i~J3 )
[J+ , J− ] = 2~J3 (10.10)

       
J2 , J ± = J2 , J1 ± iJ2 = J2 , J1 ± i J2 , J2
 
J2 , J ± = 0
1
Para un conjunto concreto de tres operadores, el carácter de observable solo podrá verificarse cuando se sepa sobre que espacio
actúan los operadores momento angular. Las reglas de conmutación no especifican sobre qué espacio actúan los momentos angulares.
10.3. ESTRUCTURA DE VALORES Y VECTORES PROPIOS 261

también serán útiles los siguientes productos

J+ J− = (J1 + iJ2 ) (J1 − iJ2 ) = J12 + J22 + iJ2 J1 − iJ1 J2


= J12 + J22 + J32 − J32 + i [J2 , J1 ] = J2 − J32 + i (−i~J3 )
J+ J− = J2 − J32 + ~J3 (10.11)

el producto J− J+ se puede obtener explı́citamente o usando las Ecs. (10.10, 10.11)

J− J+ = J+ J− − [J+ , J− ] = J2 − J32 + ~J3 − 2~J3


J− J+ = J2 − J32 − ~J3

resumiremos el álgebra encontrada hasta ahora. Tenemos las definiciones

J ≡ (J1 , J2 , J3 ) ; J2 ≡ J12 + J22 + J32 (10.12)


J+ ≡ (J1 + iJ2 ) ; J− ≡ (J1 − iJ2 ) (10.13)

donde los Ji son observables con las siguientes propiedades algebráicas


 2 
[Ji , Jj ] = i~εijk Jk ; J ,J = 0 (10.14)
[J3 , J+ ] = ~J+ ; [J3 , J− ] = −~J− (10.15)
 2 
[J+ , J− ] = 2~J3 ; J , J± = 0 (10.16)
2
J+ J− = J − J32 + ~J3 ; J− J+ = J − 2
J32 − ~J3 (10.17)

10.3. Estructura de valores y vectores propios


10.3.1. Notación
Dado que J2 es la suma de cuadrados de tres operadores hermı́ticos, tal operador es positivo

hψ| J2 |ψi = hψ| J12 |ψi + hψ| J22 |ψi + hψ| J32 |ψi = hψ| J1† J1 |ψi + hψ| J2† J2 |ψi + hψ| J3† J3 |ψi
= kJ1 |ψik2 + kJ2 |ψik2 + kJ3 |ψik2 ≥ 0

este resultado era de esperarse ya que la variable clásica es el módulo al cuadrado de un vector el cual es no negativo.
En particular eligiendo a |ψi como un autovector de J 2 vemos que

hψ| J2 |ψi = hψ| a |ψi = a hψ| ψi = a k|ψik2 ≥ 0 ⇒ a ≥ 0

los autovalores deben ser no negativos (en analogı́a con los autovectores de N en el oscilador armónico). Dado que
J tiene dimensiones de momento angular, el valor propio de J 2 se puede parametrizar como a = µ~2 siendo µ una
cantidad adimensional no negativa. Adicionalmente, se puede demostrar que para todo µ ≥ 0 la ecuación

j (j + 1) = µ (10.18)

tiene una y solo una raı́z no negativa 2 . Por tanto la especificación de µ determina completamente a j y viceversa.
Por tanto, sin pérdida de generalidad podemos denotar a los valores propios de J 2 en la forma

J2 |ψi = j (j + 1) ~2 |ψi ; j ≥ 0

si consideramos que {|ψi} es la base de vectores propios comunes a J 2 y J3 denotaremos a los valores propios de J 3
en la forma
J3 |ψi = m~ |ψi
siendo m una cantidad adimensional.
2 √ 
La Ec. (10.18) tiene como solución j± = −1 ± 1 + 4µ /2. Si µ ≥ 0, la única solución no negativa para j es j+ .
262 CAPÍTULO 10. TEORÍA GENERAL DEL MOMENTO ANGULAR EN MEC ÁNICA CUÁNTICA

Puesto que J2 y J3 son observables conmutantes, ellos hacen parte de un C.S.C.O pero no necesariamente lo
constituyen por sı́ solos. Por esa razón denotaremos a los kets propios comunes a los dos con tres números cuánticos:
j para rotular los valores propios de J 2 , m para rotular los valores propios de J 3 y k asociado a la degeneración.
Naturalmente, estos ı́ndices pueden ser de momento contı́nuos o discretos y k podrı́a simbolizar varios ı́ndices (los
necesarios para completar un C.S.C.O.).
En sı́ntesis escribiremos la ecuación de valores propios en la forma

J2 |j, m, ki = j (j + 1) ~2 |j, m, ki ; J3 |j, m, ki = m~ |j, m, ki (10.19)

10.3.2. Caracterı́sticas generales de los valores propios de J2 y J3


Asumiremos que los estados propios están normalizados y que J 2 y J3 son observables. En analogı́a con el
oscilador armónico, vamos a caracterizar primero a los vectores J + |j, m, ki y J− |j, m, ki, por medio de sus normas
al cuadrado

kJ+ |j, m, kik2 = hj, m, k| J− J+ |j, m, ki ≥ 0 (10.20)


2
kJ− |j, m, kik = hj, m, k| J+ J− |j, m, ki ≥ 0 (10.21)

y usando las Ecs. (10.17, 10.19) resulta



kJ± |j, m, kik2 = hj, m, k| J2 − J32 ∓ ~J3 |j, m, ki

= hj, m, k| j (j + 1) ~2 − m2 ~2 ∓ m~2 |j, m, ki
= j (j + 1) ~2 − m2 ~2 ∓ m~2
kJ± |j, m, kik2 = ~2 {j (j + 1) − m (m ± 1)} (10.22)

reemplazando (10.22) en (10.20, 10.21) se tiene que

j (j + 1) − m (m + 1) = (j − m) (j + m + 1) ≥ 0 (10.23)
j (j + 1) − m (m − 1) = (j − m + 1) (j + m) ≥ 0 (10.24)

asumamos que j − m < 0, dado que j ≥ 0 entonces m > 0 y j + m + 1 > 0. Por tanto, (j − m) (j + m + 1) < 0,
contradiciendo la Ec. (10.23). Debemos rechazar la hipótesis de que j − m < 0.
Es necesario entonces que j − m ≥ 0, de esta hipótesis se obtiene que j − m + 1 > 0, y para satisfacer la Ec.
(10.24) se requiere que (j + m) ≥ 0, tenemos entonces que las condiciones

j−m≥0 y j +m ≥0 (10.25)

por construcción satisfacen (10.24). Solo falta ver que estas condiciones también cumplen con la desigualdad (10.23).
Usando la segunda condición j + m ≥ 0 vemos que implica j + m + 1 > 0, y esto junto con la primera condición
en (10.25) nos satisface la Ec. (10.23). Vemos entonces que las condiciones (10.25) son necesarias y suficientes para
que se cumplan las desigualdades (10.23) y (10.24). Finalmente, y teniendo en cuenta que j es no negativo, estas
condiciones se pueden reescribir como

j−m ≥ 0 y j+m≥0 ⇔ j ≥m y j ≥ −m
⇔ j ≥ |m| ⇔ −j ≤ m ≤ j

con lo cual obtenemos el siguiente lema

Lemma 4 Si j (j + 1) ~2 y m~ son valores propios de J2 y J3 asociados al ket propio común |j, m, ki entonces j y
m satisfacen la desigualdad
−j ≤ m ≤ j (10.26)

Ahora veremos con base en la Ec. (10.26), las caracterı́sticas de los kets J − |j, m, ki y J+ |j, m, ki, siendo |j, m, ki
autovector común de J2 y J3 .
10.3. ESTRUCTURA DE VALORES Y VECTORES PROPIOS 263

En primer lugar, veremos las condiciones necesarias y suficientes para la nulidad del vector J − |j, m, ki. Esto se
puede hacer con base en la Ec. (10.22)
J− |j, m, ki = 0 ⇔ kJ− |j, m, kik2 = 0 ⇔ ~2 {j (j + 1) − m (m − 1)} = 0
⇔ (j − m + 1) (j + m) = 0
cuyas soluciones son m = −j (su mı́nimo valor posible) y m = j + 1. Pero la segunda solución contradice al lema 4
Ec. (10.26). Por tanto
m = −j ⇔ J− |j, m, ki = 0 (10.27)
por tanto si m > −j el vector J− |j, m, ki será no nulo siempre que se cumpla la Ec. (10.26). Esto se puede corroborar
reemplazando m > −j en la Ec. (10.22) verificando que la norma de J − |j, m, ki no es nula. Ahora demostraremos
que J− |j, m, ki es un ket propio de J2 y J3 . Puesto que J2 y J− conmutan según la Ec. (10.16), podemos escribir

 
J2 , J− |j, m, ki = 0 ⇒ J2 J− |j, m, ki = J− J2 |j, m, ki ⇒ J2 J− |j, m, ki = J− j (j + 1) ~2 |j, m, ki
⇒ J2 [J− |j, m, ki] = j (j + 1) ~2 [J− |j, m, ki]
por tanto J− |j, m, ki es ket propio de J2 con valor propio j (j + 1) ~2 . Este resultado está relacionado con el hecho
de que J2 y J− conmutan, como se aprecia en el teorema 1.66, pág. 50. Ahora veremos que J − |j, m, ki es también
ket propio de J3 , para lo cual empleamos la Ec. (10.15)
[J3 , J− ] |j, m, ki = −~J− |j, m, ki ⇒ J3 J− |j, m, ki = (J− J3 − ~J− ) |j, m, ki ⇒
J3 J− |j, m, ki = (J− m − J− ) ~ |j, m, ki
⇒ J3 [J− |j, m, ki] = (m − 1) ~ [J− |j, m, ki]
de modo que J− |j, m, ki es autovector de J3 con autovalor (m − 1) ~. Los anteriores resultados se pueden resumir
en el siguiente lema
Lemma 5 Sea |j, m, ki un vector propio común a J 2 y J3 con valores propios j (j + 1) ~2 y m~. Se tiene que (a)
m = −j si y solo si J− |j, m, ki = 0. (b) Si m > −j entonces J− |j, m, ki 6= 0 y es autovector de J2 y J3 con valores
propios j (j + 1) ~2 y (m − 1) ~.
El siguiente paso natural es estudiar al vector J + |j, m, ki. De la Ec. (10.22) podemos ver las condiciones nece-
sarias y suficientes para que J+ |j, m, ki sea nulo.
J+ |j, m, ki = 0 ⇔ kJ+ |j, m, kik2 = 0 ⇔ ~2 {j (j + 1) − m (m + 1)} = 0
⇔ (j + m + 1) (j − m) = 0
las soluciones son m = j y m = − (j + 1) pero la segunda solución es incompatible con el lema 4 Ec. (10.26). Por
tanto
m = j ⇔ J+ |j, m, ki = 0 (10.28)
si m < j, y usando (10.16, 10.15) obtenemos
 2 
J , J+ |j, m, ki = 0 ⇒ J2 J+ |j, m, ki = J+ J2 |j, m, ki ⇒
J2 [J+ |j, m, ki] = j (j + 1) ~2 [J+ |j, m, ki]

[J3 , J+ ] |j, m, ki = ~J+ |j, m, ki ⇒ J3 J+ |j, m, ki = J+ J3 |j, m, ki + ~J+ |j, m, ki


J3 J+ |j, m, ki = m~J+ |j, m, ki + ~J+ |j, m, ki
J3 [J+ |j, m, ki] = (m + 1) ~ [J+ |j, m, ki]
por tanto J+ |j, m, ki es vector propio de J2 y de J3 con valores propios j (j + 1) ~2 y (m + 1) ~. Tenemos entonces
el siguiente lema
Lemma 6 Sea |j, m, ki un vector propio común a J 2 y J3 con valores propios j (j + 1) ~2 y m~. Se tiene que (a)
m = j si y solo si J+ |j, m, ki = 0. (b) Si m < j entonces J+ |j, m, ki 6= 0 y es autovector de J2 y J3 con valores
propios j (j + 1) ~2 y (m + 1) ~.
Veremos que estos lemas permiten encontrar el espectro de J 2 y J3 .
264 CAPÍTULO 10. TEORÍA GENERAL DEL MOMENTO ANGULAR EN MEC ÁNICA CUÁNTICA

10.3.3. Determinación de los valores propios de J2 y J3


Asumamos que |j, m, ki es un autovector de J 2 y J3 con valores propios j (j + 1) ~2 y m~. El lema 4 nos dice
que
−j ≤ m ≤ j
como el ket es fijo los valores de j y m son fijos. Es claro que existe un número entero no negativo p, tal que

−j ≤ m − p < −j + 1 (10.29)

formamos ahora una sucesión de vectores


n o
|j, m, ki , J− |j, m, ki , (J− )2 |j, m, ki , . . . , (J− )p |j, m, ki (10.30)

demostraremos que estos son vectores propios no nulos de J 2 y J3 y que para potencias más altas de J− , se obtienen
vectores nulos. Esto se realiza aplicando iterativamente el lema 5
Comenzamos aplicando el lema 5 a |j, m, ki. Por hipótesis |j, m, ki es vector propio no nulo de J 2 y J3 con valores
propios j (j + 1) ~2 y m~. Si m > −j podemos aplicar el lema 5 con lo cual J − |j, m, ki ≡ |j, m − 1, ki es vector
propio no nulo de J2 y J3 con valores propios j (j + 1) ~2 y (m − 1) ~. Si m − 1 > −j podemos aplicar de nuevo
el lema y J− |j, m − 1, ki = (J− )2 |j, m, ki ≡ |j, m − 2, ki es vector propio
h no nulo de iJ 2 y J3 con valores propios
j (j + 1) ~2 y (m − 2) ~. En general si m − (n − 1) > −j entonces J − (J− )n−1 |j, m, ki = J− |j, m − (n − 1) , ki =
(J− )n |j, m, ki ≡ |j, m − n, ki es vector propio no nulo de J 2 y J3 con valores propios j (j + 1) ~2 y (m − n) ~.
Veremos que estas condiciones se satisfacen solo para n = 0, 1, . . . , p. Si asumimos que 0 ≤ n ≤ p entonces

m − (n − 1) = m − n + 1 ≥ m − p + 1 ≥ −j + 1

donde hemos usado (10.29) en el último paso. Por tanto

m − (n − 1) ≥ −j + 1 > −j

de modo que la condición m − (n − 1) > −j necesaria para aplicar el lema 5 se cumple cuando n = 0, 1, . . . , p.
Ahora veamos lo que ocurre con el vector (J − )p+1 |j, m, ki = J− [(J− )p |j, m, ki]. Puesto que (J− )p |j, m, ki es
autovector de J2 y J3 con valores propios j (j + 1) ~2 y (m − p) ~, el lema 4 Ec. (10.26) nos dice que (m − p) ≥ −j.
Asumamos de momento que
(m − p) > −j
una aplicación adicional del lema 5 nos dice que J − [(J− )p |j, m, ki] es autovector no nulo de J2 y J3 con valores
propios j (j + 1) ~2 y (m − p − 1) ~. Ahora aplicando la Ec. (10.29) se tiene que

m − p − 1 < −j

lo cual contradice al lema 4 Ec. (10.26). Por tanto debemos rechazar la hipótesis m − p > −j. Solo nos queda
entonces que m − p = −j y al aplicar el lema 5 se obtiene

(J− )p+1 |j, m, ki = J− |j, m − p, ki = 0

y todas las potencias mayores también se anulan. Esta anulación evita el conflicto con el lema 4.
De lo anterior se deduce que existe un entero no negativo p tal que

m − p = −j (10.31)

Por un razonamiento similar, existe un entero no negativo q, tal que

j ≤ m+q <j +1

y se puede demostrar que para este entero no negativo q, la sucesión


n o
|j, m, ki , J+ |j, m, ki , (J+ )2 |j, m, ki , . . . , (J+ )q |j, m, ki (10.32)
10.4. PROPIEDADES DE LOS VECTORES PROPIOS DE J 2 Y J3 265

consiste de vectores no nulos, pero potencias mayores de J + producen vectores nulos con lo cual se evita una
contradicción con el lema 4. Esto implica a su vez que existe un entero no negativo q tal que

m+q =j (10.33)

aquı́ aparece una diferencia con respecto al oscilador armónico, ya que ambos operadores J + y J− tienen una sucesión
limitada de potencias que generan vectores no nulos. En el oscilador armónico, la sucesión de a † no está limitada.
Esto tiene que ver con el hecho de que J + ( J− ) es un operador que incrementa (decrementa) el valor de m dejando j
sin cambiar. Pero para un j dado, m tiene lı́mite superior e inferior, por tanto hay lı́mites tanto para el decremento
como para el incremento. Otra diferencia importante es la degeneración y el hecho de que el conjunto J 2 , J3 no
forma en general un C.S.C.O.
Combinando las Ecs. (10.31, 10.33) se tiene que

p+q
p + q = 2j ⇒ j =
2

pero p + q es un entero no negativo. Por tanto, j solo puede adquirir valores enteros o semienteros no negativo

1 3 5
j = 0, , 1, , 2, , . . .
2 2 2

Estos son los valores posibles pero no hemos demostrado que tenga que tomarlos todos (de hecho no es ası́ en
general). Adicionalmente, si existe un autovector no nulo |j, m, ki de J 2 y J3 , las sucesiones (10.30, 10.32) constan
de autovectores no nulos de J2 con valores propios j (j + 1) ~2 y también de J3 con autovalores dados por

−j~, (−j + 1) ~, (−j + 2) ~, . . . , (j − 2) ~, (j − 1) ~, j~

es decir tenemos 2j + 1 valores posibles de m para un j dado. Puesto que estos valores se obtienen de las sucesiones
ya mencionadas, todos los 2j + 1 valores de m posibles bajo la restricción (10.26) son valores propios accesibles para
un valor dado de j.
Podemos sintetizar estos resultados en la siguiente forma: Sea J un momento angular arbitrario que obedece
las reglas de conmutación (10.6). Si j (j + 1) ~ 2 y m~ denotan los autovalores de J2 y J3 asociados al ket común
|j, m, ki. Tenemos que

Los únicos valores posibles de j son enteros o semienteros no negativos: 0, 12 , 1, 32 , 2, 52 , . . .. No necesariamente


j debe tomar todos estos valores.

Para un valor dado de j existen 2j + 1 valores posibles de m: −j, − j + 1, − j + 2, . . . , j − 2, j − 1, j. La


cantidad m es entera si j es entera y semientera si j es entera. Todos los valores de m son permitidos si uno
de ellos lo es.

10.4. Propiedades de los vectores propios de J2 y J3


Veremos que las propiedades algebráicas de los operadores J 2 , J3 , J+ , J− , nos permiten extraer información
sobre los estados propios de J2 y J3 incluso sin especificar el espacio de Hilbert E sobre el cual actúan los operadores.
Para ello solo requerimos dos hipótesis de trabajo: (1) Que J 2 y J3 son observables con respecto al espacio E sobre
el cual actúan, y (2) Que conocemos por algún medio experimental y/o teórico, los valores de j que son permitidos
en nuestro sistema fı́sico (recordemos que j debe ser entero o semientero no negativo, pero no necesariamente debe
cubrir todos los valores enteros y semienteros no negativos).
Debemos recordar que para un j dado que esté permitido, todos los valores de m permitidos por la Ec. (10.26)
deben aparecer. En el oscilador armónico aprendimos que con un solo estado (el estado base) podemos generar todos
los estados propios por medio del operador construcción. En esta sección desarrollaremos un método para generar
los autoestados de J2 y J3 a partir de un subconjunto de estos estados y de los operadores J + y J− .
266 CAPÍTULO 10. TEORÍA GENERAL DEL MOMENTO ANGULAR EN MEC ÁNICA CUÁNTICA

10.4.1. Generación de autoestados por medio de los operadores J+ y J−


Consideremos un operador momento angular J que actúa sobre un espacio de estados E, y mostraremos un
algoritmo para construir una base ortonormal en E de vectores propios comunes a J 2 y J3 .
Tomemos un par de valores propios j (j + 1) ~ 2 y m~ que sean realizables fı́sicamente para nuestro sistema
fı́sico. Los autovectores asociados |j, m, ki pueden ser degenerados en j, m lo cual se indica con el ı́ndice k. Los
vectores propios asociados al par (j, m) forman un autosubespacio E (j, m) de dimensión g (j, m). Si g (j, m) > 1
para al menos un par (j, m), entonces el conjunto J 2 , J3 no forma un C.S.C.O. Escogeremos en E (j, m) una base
ortonormal de vectores {|j, m, ki} con k = 1, . . . , g (j, m).
Si m 6= j existe un subespacio E (j, m + 1) de E compuesto por autovectores de J 2 , J3 con valores propios
j (j + 1) ~2 y (m + 1) ~. Análogamente, si m 6= −j existe un subespacio E (j, m − 1) con autovectores de J 2 , J3
y valores propios j (j + 1) ~2 , (m − 1) ~. Si m 6= j construiremos una base ortonormal en E (j, m + 1) a partir de
la base ya construı́da para E (j, m). Similarmente, si m 6= −j generaremos una base ortonormal en E (j, m − 1)
partiendo de la base en E (j, m).
En primer lugar mostraremos que para k 1 6= k2 los vectores J+ |j, m, k1 i y J+ |j, m, k2 i son ortogonales. De igual
forma se verá que J− |j, m, k1 i y J− |j, m, k2 i son ortogonales. Para ello calculamos el producto interno entre los
kets en cuestión utilizando las fórmulas (10.17)

(J± |j, m, k2 i , J± |j, m, k1 i) = hj, m, k2 | J∓ J± |j, m, k1 i = hj, m, k2 | J2 − J32 ∓ ~J3 |j, m, k1 i
 
= j (j + 1) − m2 ∓ m ~2 hj, m, k2 | j, m, k1 i
(J± |j, m, k2 i , J± |j, m, k1 i) = [j (j + 1) − m (m ± 1)] ~2 hj, m, k2 | j, m, k1 i (10.34)

y puesto que los vectores {|j, m, ki i} asociados a E (j, m) son ortonormales por hipótesis, se tiene

Theorem 10.1 Sean |j, m, k1 i y |j, m, k2 i dos autovectores ortogonales de J 2 y J3 con valores propios j (j + 1) ~2 ,
m~, y k1 6= k2 . Entonces J± |j, m, k2 i es ortogonal a J± |j, m, k1 i.

Si k1 = k2 , la Ec. (10.34) nos permite calcular la norma de J ± |j, m, k2 i

kJ± |j, m, kik2 = [j (j + 1) − m (m ± 1)] ~2

por tanto podemos construı́r vectores ortonormales asociados a |j, m ± 1, ki para lo cual simplemente debemos
normalizar los vectores J± |j, m, ki.
Comencemos con J+ |j, m, ki, normalizando los vectores J + |j, m, ki obtenemos un conjunto ortonormal en
E (j, m + 1) dado por
J+ |j, m, ki
|j, m + 1, ki ≡ p (10.35)
~ j (j + 1) − m (m + 1)
multipliquemos (10.35) por J− usando (10.17)

J− J+ |j, m, ki J2 − J32 − ~J3 |j, m, ki
J− |j, m + 1, ki = p = p
~ j (j + 1) − m (m + 1) ~ j (j + 1) − m (m + 1)
[j (j + 1) − m (m + 1)] ~ |j, m, ki
= p
j (j + 1) − m (m + 1)
p
J− |j, m + 1, ki = ~ j (j + 1) − m (m + 1) |j, m, ki (10.36)

Vamos a demostrar que el conjunto ortonormal {|j, m + 1, ki} en E (j, m + 1) generado por todos los elementos
de la base {|j, m, ki} de E (j, m) a través de (10.35), constituye una base para E (j, m + 1). La demostración se
hará por contradicción, es decir asumiendo que {|j, m + 1, ki} no es una base, según el teorema 1.23, Pág. 24, esta
negación equivale a decir que existe un vector no nulo |j, m + 1, αi en E (j, m + 1) ortogonal a todos los vectores del
conjunto.
Asumamos que existe un vector no nulo |j, m + 1, αi en E (j, m + 1) ortogonal a todos los elementos del conjunto
ortonormal {|j, m + 1, ki}. Por tanto, α 6= k para todos los k 0 s del conjunto anterior. Dado que m+1 6= −j, el vector
J− |j, m + 1, αi es no nulo en virtud del lema 5, y dicho vector yace en E (j, m). Ahora bien, puesto que α 6= k, el
10.5. CONSTRUCCIÓN DE UNA BASE ESTÁNDAR CON BASE EN UN C.S.C.O 267

teorema 10.1 dice que J− |j, m + 1, αi será ortogonal a todos los vectores J − |j, m + 1, ki. Por otro lado, la Ec. (10.36)
nos dice que J− |j, m + 1, ki es colineal con |j, m, ki. En consecuencia, al barrer toda la base {|j, m, ki} obtenemos
que el conjunto {J− |j, m + 1, ki} generado de esta manera también es una base para E (j, m). De lo anterior vemos
que J− |j, m + 1, αi es un vector no nulo de E (j, m), ortogonal a todos los vectores de la base {|j, m, ki}, pero esto
es imposible en virtud del teorema 1.23. Por tanto, el conjunto de vectores {|j, m + 1, ki} generado por la base
{|j, m, ki} de E (j, m) por medio de (10.35) es completo.
De una forma similar se puede demostrar que cuando m 6= −j podemos definir vectores |j, m − 1i en la forma

J− |j, m, ki
|j, m − 1, ki ≡ p (10.37)
~ j (j + 1) − m (m − 1)

para formar una base ortonormal en E (j, m − 1). Nótese que (10.37) se obtiene de (10.36) reemplazando m → m−1.
Las Ecs. (10.35, 10.37) implican una escogencia de fase cero entre |j, m ± 1, ki y el vector J ± |j, m, ki, de modo que
la constante de proporcionalidad entre ambos es real y positiva. Esta convención de fase cero es conocida como
convención de Cordon-Shortley.
En particular vemos que las Ecs. (10.35) establecen relaciones uno a uno y sobreyectivas entre las bases de
E (j, m) y E (j, m + 1). Igualmente las Ecs. (10.37) nos dan una relación uno a uno y sobreyectiva entre las bases de
E (j, m) y E (j, m − 1). En consecuencia, los espacios E (j, m) y E (j, m ± 1) son de la misma dimensionalidad. Por
inducción se obtiene entonces que la dimensionalidad de cualquier E (j, m) solo depende de j

g (j, m) = g (j)

describamos un procedimiento sistemático para generar una base ortonormal para el espacio completo E. Para
un valor accesible de j encontramos un subespacio de la forma E (j, m) digamos E (j, j), y encontramos una base
ortonormal de dicho espacio {|j, j, ki ; k = 1, . . . , g (j)}. Ahora usando (10.37) contruı́mos iterativamente las bases
para E (j, j − 1) , E (j, j − 2) , . . . , E (j, −j). La unión de las bases de los 2j + 1 subespacios asociados a j nos da una
base ortonormal para el subespacio E (j) dado por

E (j) = E (j, j) ⊕ E (j, j − 1) ⊕ E (j, j − 2) ⊕ . . . ⊕ E (j, −j) (10.38)

es claro que el espacio E (j) es de dimensionalidad (2j + 1) g (j). Una vez generada la base para un E (j), cambiamos a
otro valor accesible de j y repetimos el procedimiento, barriendo todos los valores accesibles de j. La base ortonormal
para E se obtiene de la unión de las bases asociadas a cada valor de j puesto que

E = E (j1 ) ⊕ E (j2 ) ⊕ E (j3 ) ⊕ . . . (10.39)

siendo {j1 , j2 , j3 , . . .} los valores accesibles de j en el sistema fı́sico considerado. Insistimos que este debe ser un
subconjunto del conjunto de todos los enteros y semienteros no negativos. La tabla 10.1 describe esquemáticamente
el algoritmo para generar una base para E (j) a partir de la base para E (j, j).
La base generada con este algoritmo se conoce como la base estándar del espacio de estados E, para la cual
existen relaciones de completez y ortonormalidad
g(j)
+j X
X X
hj, m, k j 0 , m0 , k 0 = δjj 0 δmm0 δkk0 ; |j, m, ki hj, m, k| = I (10.40)
j m=−j k=1

Por supuesto podemos empezar por E (j, −j) y construı́r con base en J + . Finalmente, podemos empezar por un
E (j, m) con −j < m < j, en tal caso habrá que generar con J + “hacia arriba” hasta j y con J− “hacia abajo” hasta
−j.

10.5. Construcción de una base estándar con base en un C.S.C.O


Un método muy utilizado para generar una base estándar consiste en usar un conjunto de observables

{A1 , A2 , . . . , An }
268 CAPÍTULO 10. TEORÍA GENERAL DEL MOMENTO ANGULAR EN MEC ÁNICA CUÁNTICA

k=1 k=2 ... k = g (j)


E (j, j) |j, j, 1i |j, j, 2i ... |j, j, g (j)i
⇓ J− ⇓ J− ⇓ J− ... ⇓ J−
E (j, j − 1) |j, j − 1, 1i |j, j − 1, 2i ... |j, j − 1, g (j)i
⇓ J− ⇓ J− ⇓ J− ... ⇓ J−
.. .. .. ..
. . . .
E (j, m) |j, j − m, 1i |j, j − m, 2i ... |j, j − m, g (j)i
⇓ J− ⇓ J− ⇓ J− ... ⇓ J−
.. .. .. ..
. . . .
E (j, −j) |j, −j, 1i |j, −j, 2i ... |j, −j, g (j)i
E (j, k = 1) E (j, k = 2) E (j, k = g (j))
Cuadro 10.1: Construcción de la base estándar para E (j) de dimensión (2j + 1) g (j). Comenzando con cada uno
de los g (j) vectores |j, j, ki de la primera fila, usamos el operador J − para construı́r los 2j + 1 vectores de cada
columna. Los g (j) vectores de la m−ésima fila, expanden al subespacio E (j, m). Los 2j + 1 vectores de la k−ésima
columna expanden al subespacio E (j, k). Hay un total de 2j + 1 subespacios de la forma E (j, m) y un total de g (j)
subespacios de la forma E (j, k). El espacio total se puede obtener por suma directa de los E (j, m), o alternativamente
por suma directa de los E (j, k).

que junto con J2 y J3 formen un C.S.C.O. y que además conmuten con todas las componentes de J

[Ai , J] = 0 ; i = 1, . . . , n

un observable que conmute con las componentes de J se denomina un escalar. Por simplicidad asumiremos que un
solo escalar A es suficiente para formar un C.S.C.O con J 2 y J3 . Veamos la acción de A sobre un estado arbitrario
|j, m, ki de E (j, m), definiendo |ψi ≡ A |j, m, ki tenemos que

J2 |ψi = J2 A |j, m, ki = AJ2 |j, m, ki = j (j + 1) ~2 A |j, m, ki = j (j + 1) ~2 |ψi


J3 |ψi = J3 A |j, m, ki = AJ3 |j, m, ki = m~A |j, m, ki = m~ |ψi

donde hemos usado el hecho de que A conmuta con J 2 y J3 . Tenemos entonces que |ψi ≡ A |j, m, ki es autovector
de J2 y J3 con autovalores j (j + 1) ~2 y m~ y por lo tanto pertenece a E (j, m). Por tanto cada subespacio E (j, m)
es globalmente invariante bajo la acción de un operador A que conmute con J 2 y J3 . Si ahora escogemos un valor
de j, el subespacio E (j, j) será en particular invariante bajo A y podemos diagonalizar la restricción de A sobre
E (j, j), con cierta base ortonormal {|j, j, ki} de E (j, j), 3 de modo que

A |j, j, ki = ajk |j, j, ki (10.41)

el conjunto {|j, j, ki ; j f ijo; k = 1, . . . , g (j)} es una base ortonormal de E (j, j), a partir de la cual se puede
construı́r la base ortonormal para E (j). Aplicando este procedimiento para cada valor accesible de j obtenemos la
base ortonormal {|j, m, ki} para el espacio completo E.
Los resultados anteriores no requieren que A sea escalar, solo requieren que conmute con J 2 y J3 . Sea {|j, m, ki}
la base de vectores de E (j, m) obtenida por la aplicación sucesiva de J − sobre la base {|j, j, ki}. Veremos que si A
es un escalar, los kets {|j, m, ki} además de ser vectores propios de J 2 y J3 también serán vectores propios de A.
Para ver esto observemos que para un escalar A se tiene

[A, J− ] = [A, J1 − iJ2 ] = [A, J1 ] − i [A, J2 ] = 0 (10.42)

Usando (10.41, 10.42) se obtiene

A [J− |j, j, ki] = J− A |j, j, ki = ajk [J− |j, j, ki]


3
Recordemos que A es hermı́tico y por tanto normal. Para todo operador normal existe una representación ortonormal que lo diago-
naliza.
10.5. CONSTRUCCIÓN DE UNA BASE ESTÁNDAR CON BASE EN UN C.S.C.O 269

J− |j, j, ki es autovector de A con el mismo autovalor que |j, j, ki (teorema 1.66). Equivalentemente, |j, j − 1, ki es
autovector de A con el mismo autovalor que |j, j, ki. Aplicando sucesivamente este proceso vemos que los kets dados
por
|j, j, ki , |j, j − 1, ki , . . . , |j, −j, ki
son vectores propios de A con valor propio a jk por tanto podemos escribir

A |j, m, ki = ajk |j, m, ki ; m = j, j − 1, . . . , −j + 1, − j (10.43)

el espectro de A es entonces el mismo para todos los subespacios E (j, m) con j fijo, pero depende en general tanto
de j como de k, de modo que un conjunto de números cuánticos (j, m, k) define unı́vocamente a un vector |j, m, ki
de E, como corresponde a un C.S.C.O.
Nótese que un observable que conmute con J 2 y J3 no necesariamente conmuta con J1 y J2 . En particular, el
conjunto (J2 , J3 , A) podrı́a formar un C.S.C.O. sin que A conmute con J 1 y/o J2 . En tal caso sin embargo, J± no
conmuta con A y por tanto J± |j, m, ki no necesariamente es autovector de A con el mismo valor propio de |j, m, ki.
Por tanto, cuando A conmuta con J2 y J3 pero no es escalar, la base {|j, m, ki} obtenida por aplicación sucesiva de
J− sobre {|j, j, ki} debe ser rotada a otra base {|j, m, αi} para diagonalizar a la restricción de A sobre E (j, m). En
cambio cuando A es escalar esta última rotación no es necesaria.

10.5.1. Descomposición de E en subespacios del tipo E (j, k)


En los procedimientos anteriores hemos descompuesto el espacio completo E en la forma dada por la combinación
de las Ecs. (10.38, 10.39)

E = E (j1 , j1 ) ⊕ E (j1 , j1 − 1) ⊕ E (j1 , j1 − 2) ⊕ . . . ⊕ E (j1 , −j1 ) ⊕


E (j2 , j2 ) ⊕ E (j2 , j2 − 1) ⊕ E (j2 , j2 − 2) ⊕ . . . ⊕ E (j2 , −j2 ) ⊕
E (j3 , j3 ) ⊕ E (j3 , j3 − 1) ⊕ E (j3 , j3 − 2) ⊕ . . . ⊕ E (j3 , −j3 ) ⊕ . . .

siendo j1 , j2 , j3 , . . . los valores permitidos de j para el sistema en estudio. Esta es una descomposición en subespacios
del tipo E (j, m). Sin embargo los subespacios E (j, m) tienen ciertas desventajas, por un lado su dimensión g (j)
depende del sistema fı́sico especı́fico ya que esta dimensión nos da cuenta de la degeneración asociada al par (j, m),
por tanto g (j) es desconocido al menos en el caso general. Adicionalmente un subespacio del tipo E (j, m) no es
invariante ante J, por ejemplo
1 1 1
J1 |j, m, ki = (J+ + J− ) |j, m, ki = c+ |j, m + 1, ki + c− |j, m − 1, ki (10.44)
2 2 2
de acuerdo con (10.40) este estado es ortonormal a |j, m, ki y no es nulo ya que por lo menos uno de los estados
|j, m + 1, ki , |j, m − 1, ki tiene que ser no nulo y ambos son ortogonales entre sı́.
Examinando la tabla (10.1) vemos que cada subespacio del tipo E (j, m) es generado por la expansión de los
g (j) vectores de la m−ésima fila de la tabla (los g (j) valores posibles de k). Vemos sin embargo que hay otra manera
de agrupar los vectores: podemos generar un subespacio con los (2j + 1) vectores de una columna fija de la tabla,
con lo cual obtenemos un subespacio del tipo E (j, k) puesto que en este caso es el par (j, k) el que permanece fijo
en la expansión.
La descomposición de E quedarı́a en la forma

E = E (j1 , k = 1) ⊕ E (j1 , k = 2) ⊕ . . . ⊕ E (j1 , k = g (j1 )) ⊕


E (j2 , k = 1) ⊕ E (j2 , k = 2) ⊕ . . . ⊕ E (j2 , k = g (j2 )) ⊕
E (j3 , k = 1) ⊕ E (j3 , k = 2) ⊕ . . . ⊕ E (j3 , k = g (j3 )) ⊕ . . . (10.45)

los subespacios E (j, k) poseen las propiedades siguientes: (a) la dimensión de E (j, k) es 2j + 1 de modo que para
un j dado su dimensión se conoce sin importar el sistema fı́sico que se esté trabajando. (b) E (j, k) es globalmente
invariante bajo J. Incluso se puede demostrar que E (j, k) es irreducible como subespacio invariante de J, es decir
no hay un subespacio propio de E (j, k) que sea invariante bajo J.
Nos limitaremos a demostrar la invarianza de E (j, k) bajo J. Una base para este espacio es de la forma
{|j, m, ki ; m = −j, −j + 1, . . . , j − 1, j}. Para J 3 es inmediato, para J1 tomamos el resultado de la Ec. (10.44)
270 CAPÍTULO 10. TEORÍA GENERAL DEL MOMENTO ANGULAR EN MEC ÁNICA CUÁNTICA

notando que los dos kets son estados con el mismo valor de j, k y solo difieren en m. Por tanto J 1 |j, m, ki pertenece
a E (j, k). Para J2 el argumento es similar. En general E (j, k) será invariante bajo cualquier función del tipo F (J),
lo cual se puede ver simplemente de la expansión de Taylor de F (J) y de que E (j, k) es invariante ante cualquier
potencia de J.

10.6. Representaciones matriciales de los operadores momento angular


Los elementos matriciales de los Ji en la base estándar {|j, m, ki}, se pueden calcular a través de la acción de
los operadores J3 , J± sobre los kets propios |j, m, ki de J2 y J3 descritos por las Ecs. (10.19, 10.35, 10.37)
p
J3 |j, m, ki = m~ |j, m, ki ; J± |j, m, ki = ~ j (j + 1) − m (m ± 1) |j, m ± 1, ki (10.46)

combinando las Ecs. (10.9, 10.46) encontramos la acción de J 1 y J2 sobre los kets de la base
1 ~ hp
J1 j 0 , m 0 , k 0 = (J+ + J− ) j 0 , m0 , k 0 = j 0 (j 0 + 1) − m0 (m0 + 1) j 0 , m0 + 1, k 0
2 2
p i
+ j 0 (j 0 + 1) − m0 (m0 − 1) j 0 , m0 − 1, k 0 (10.47)

1 ~ hp 0 0
J2 j 0 , m 0 , k 0 = (J+ − J− ) j 0 , m0 , k 0 = j (j + 1) − m0 (m0 + 1) j 0 , m0 + 1, k 0
2i 2i
p i
− j (j + 1) − m (m − 1) j 0 , m0 − 1, k 0
0 0 0 0 (10.48)

de las Ecs. (10.46, 10.47, 10.48) y la ortonormalidad de la base, los elementos matriciales de J i y J± quedan

hj, m, k| J3 j 0 , m0 , k 0 = m~δkk0 δjj 0 δmm0 (10.49)
0 0 0 p
hj, m, k| J± j , m , k = ~ j (j + 1) − m0 (m0 ± 1)δkk0 δjj 0 δm,m0 ±1 (10.50)

1 ~ hp
hj, m, k| J1 j 0 , m0 , k 0 = hj, m, k| (J+ + J− ) j 0 , m0 , k 0 = δkk0 δjj 0 j (j + 1) − m0 (m0 + 1)δm,m0 +1
2 2i
p
+ j (j + 1) − m0 (m0 − 1)δm,m0 −1 (10.51)

1 ~ hp
hj, m, k| J2 j 0 , m0 , k 0 = hj, m, k| (J+ − J− ) j 0 , m0 , k 0 = δkk0 δjj 0 j (j + 1) − m0 (m0 + 1)δm,m0 +1
2i 2i
i
p
− j (j + 1) − m0 (m0 − 1)δm,m0 −1 (10.52)

lo cual muestra que los elementos matriciales de J solo dependen de j y m pero no de k. Este hecho implica que la
representación matricial de las componentes de J en la base estándar {|j, m, ki} tiene una forma particularmente
simple cuando descomponemos E en subespacios del tipo E (j, k). Las Ecs. (10.49, 10.50, 10.51, 10.52) muestran que
un operador Ji (o una función de la forma F (J)) tiene elementos matriciales nulos cuando el elemento enlaza dos
kets base asociados a espacios E (j1 , k1 ) y E (j2 , k2 ) con j1 6= j2 y/o con k1 6= k2 . Por tanto la matriz será diagonal
por bloques donde los bloques son todos de dimensión 2j + 1 (que es la dimensión de un espacio E (j, k)) en la forma
E (j, k) ··· E (j, k 0 ) E (j 0 , k 0 ) ···
matriz
E (j, k) 0 0 0
(2j + 1) × (2j + 1)
matriz
E (j, k 0 ) 0 0 0
(2j + 1) × (2j + 1)
(10.53)
..
.
matriz
E (j 0 , k 0 ) 0 0 0
(2j 0 + 1) × (2j 0 + 1)
..
. 0 0 0 0
10.6. REPRESENTACIONES MATRICIALES DE LOS OPERADORES MOMENTO ANGULAR 271

comenzando por el valor de j1 más bajo permitido construı́mos las matrices asociadas a E (j 1 , k1 ) para el k = k1 más
bajo permitido, luego manteniendo j 1 fijo recorremos los posibles valores de k, una vez terminado este recorrido,
continuamos con el siguiente valor permitido j 2 de j, recorriendo el ı́ndice k nuevamente y ası́ sucesivamente. Las
matrices asociadas a estos subespacios son de dimensión 2j i + 1.
Por tanto, lo que debemos hacer es calcular las matrices de dimensión finita (2j + 1) ×(2j + 1) que representan a
cada operador en cada subespacio E (j, k). Adicionalmente, estas matrices no dependen de k y por tanto no dependen
del sistema fı́sico bajo estudio. Solo dependen de j y del operador que se quiere representar.
En sı́ntesis, la representación matricial de una componente J i del momento angular en la base estándar, se puede
calcular dentro de un subespacio de la forma E (j, k) sin alusión alguna al sistema fı́sico que se está trabajando. La
matrices del tipo (Ji )(j) son en consecuencia de carácter universal y representan al operador J i dentro del subespacio
E (j, k) para todos los posibles valores de j es decir j = 0, 12 , 1, . . .. Cuando tenemos un sistema fı́sico especı́fico,
debemos determinar cuales de estos valores de j son permitidos y el número de subespacios E (j, k) asociados con
cada j, es decir el grado de degeneración (2j + 1) g (j). La matriz representativa de J i será entonces diagonal por
bloques con la estructura descrita en la Ec. (10.53), y se puede construı́r a partir de las matrices universales definidas
para cada subespacio E (j, k). Para cada valor de j, tendremos g (j) bloques idénticos de (J i )(j) , es decir todos los
valores posibles de k, una vez que para un j dado se barren los valores posibles de k, se cambia al siguiente valor
0
accesible j 0 y se construyen g (j 0 ) bloques idénticos de (Ji )(j ) y ası́ sucesivamente.

10.6.1. Representaciones matriciales del tipo (Ji )(j) en la base estándar para j arbitrario
De lo anterior, los elementos matriciales para j arbitrario de un operador (J i )(j) dentro de un subespacio E (j, k)
están dados por

hj, m, k| J3 j 0 , m0 , k 0 = m~δkk0 δjj 0 δmm0 (10.54)

2 0 0 0
2
hj, m, k| J j , m , k = j (j + 1) ~ δkk0 δjj 0 δmm0 (10.55)
p
hj, m, k| J± j 0 , m0 , k 0 = ~ j (j + 1) − m0 (m0 ± 1)δkk0 δjj 0 δm,m0 ±1 (10.56)

~ hp
hj, m, k| J1 j 0 , m0 , k 0 = δkk0 δjj 0 j (j + 1) − m0 (m0 + 1)δm,m0 +1
2 i
p
+ j (j + 1) − m0 (m0 − 1)δm,m0 −1 (10.57)

~ hp
hj, m, k| J2 j 0 , m0 , k 0 = δkk0 δjj 0 j (j + 1) − m0 (m0 + 1)δm,m0 +1
2i i
p
− j (j + 1) − m0 (m0 − 1)δm,m0 −1 (10.58)

vemos que la matriz de (J3 )(j) es diagonal, esto se debe a que se eligió a X 3 como el eje de cuantización (la
base estándar consta de vectores propios de J 2 y J3 ), sus elementos son los 2j + 1 valores de m~. Para las matrices
(J1,2 )(j) los únicos elementos no nulos son los que están por encima y por debajo de la diagonal. (J 1 )(j) es una matriz
(j)
simétrica y real en tanto que (J2 )(j) es antisimétrica y puramente imaginaria. La matriz J2 es naturalmente
diagonal ya que esta es una base de vectores propios de J 2 , y adémas sus elementos diagonales son idénticos, de
(j)
modo que J2 es j (j + 1) ~2 I, siendo I la matriz identidad de dimensión (2j + 1) × (2j + 1). La matriz (J + )(j)
solo tiene elementos no nulos por encima de la diagonal, en tanto que la matriz (J − )(j) solo tiene elementos no nulos
por debajo de la diagonal.
Puesto que todas las direcciones del espacio son equivalentes, es claro que la elección del eje de cuantización
es arbitraria. De esto se desprende que todos los J i deben tener los mismos valores propios. Los vectores propios
serán sin embargo diferentes ya que los J i no conmutan entre sı́. En consecuencia, dentro de un subespacio dado
E (j, k) los autovalores de J1 , J2 , J3 son j~, (j − 1) ~, . . . , (−j + 1) ~, −j~. Estos también serán los valores propios de
cualquier componente de la forma Jn = J · n siendo n un vector unitario de dirección arbitraria. Los autovectores
comunes de J2 y J1 son combinaciones lineales de los |j, m, ki con j y k fijos. Lo mismo ocurre con los vectores
propios comunes a J2 y J2 .
272 CAPÍTULO 10. TEORÍA GENERAL DEL MOMENTO ANGULAR EN MEC ÁNICA CUÁNTICA

En conclusión una base ortonormal {|j, m, ki} del espacio de estados compuesta por vectores comunes a J 2 y J3

J2 |j, m, ki = j (j + 1) ~2 |j, m, ki ; J3 |j, m, ki = m~ |j, m, ki

se denomina un base estándar si la acción de J ± sobre estos vectores está dada por
p
J± |j, m, ki = ~ j (j + 1) − m (m ± 1) |j, m ± 1, ki

10.6.2. Representaciones matriciales en la base estándar para j = 0


Los subespacios E (j = 0, k) son de dimensión 2 (0) + 1 = 1. Y el único valor posible de m es cero. Las matrices
(Ji )(j) son números y de acuerdo con las Ecs. (10.57, 10.58, 10.54) estos números son cero.

10.6.3. Representaciones matriciales en la base estándar para j = 1/2


Los subespacios E (j = 1/2, k) son de dimensión 2 (1/2)+1 = 2. Las matrices dentro de un subespacio E (j = 1/2, k) s
de dimensión 2 × 2 y los vectores base los elegiremos en el orden m 1 = 1/2, m2 = −1/2. Las representaciones ma-
triciales se obtienen usando las Ecs. (10.57, 10.58, 10.54, 10.55), teniendo en cuenta que estamos interesados en las
representaciones dentro de un subespacio E (j = 1/2, k) de modo que k = k 0 . Con estas consideraciones calcularemos
la representación matricial de J1 usando (10.57)
  "s  
1 1 ~ 1 1
(J1 )pq ≡ , mp , k J1 , mq , k = δkk δ 1 , 1 + 1 − mq (mq + 1) δmp ,mq +1
2 2 2 2 2 2 2
s   #
1 1
+ + 1 − mq (mq − 1) δmp ,mq −1
2 2
"r r #
~ 3 3
(J1 )pq = − mq (mq + 1) δmp ,mq +1 + − mq (mq − 1) δmp ,mq −1
2 4 4

de aquı́ en adelante se omite el ı́ndice k ya que las representaciones matriciales no dependen de tal ı́ndice. Estas
expresiones muestran que los elementos diagonales son cero, por tanto
 
(1/2) 1 1 1 1
(J1 )11 ≡ , J1 , =0
2 2 2 2
 
(1/2) 1 1 1 1
(J1 )22 ≡ , − J1 , − =0
2 2 2 2
y los términos no diagonales son
  "s   
(1/2)
1 1 1 1 ~ 3 1 1
(J1 )12 ≡ , J1 , − = − − − + 1 δ 1 ,− 1 +1
2 2 2 2 2 4 2 2 2 2

s    #
3 1 1
+ − − − − 1 δ 1 ,− 1 −1
4 2 2 2 2

r
(1/2) ~ 3 1 ~
(J1 )12 = + δ1,1 =
2 4 4 2 2 2

  "s  
(1/2) 1 1 1 1 ~ 3 1 1
(J1 )21 ≡ , − J1 , = − + 1 δ− 1 , 1 +1
2 2 2 2 2 4 2 2 2 2

s   #
3 1 1
+ − − 1 δ− 1 , 1 −1
4 2 2 2 2

(1/2) ~
(J1 )21 =
2
10.6. REPRESENTACIONES MATRICIALES DE LOS OPERADORES MOMENTO ANGULAR 273

este elemento se podı́a también calcular teniendo en cuenta que la matriz de J 1 es simétrica real. La matriz repre-
sentativa queda entonces  
(1/2) ~ 0 1
(J1 ) =
2 1 0
de manera similar se calculan los elementos matriciales de los otros operadores, el resultado es
     
(1/2) ~ 0 1 (1/2) ~ 0 −i (1/2) ~ 1 0
(J1 ) = ; (J2 ) = ; (J3 ) = (10.59)
2 1 0 2 i 0 2 0 −1
     

2 (1/2) 3 2 1 0 (1/2) 0 1 (1/2) 0 0
J = ~ ; (J+ ) =~ ; (J− ) =~ (10.60)
4 0 1 0 0 1 0

10.6.4. Representaciones matriciales en la base estándar para j = 1


Los subespacios E (j = 1, k) son de dimensión 2 (1) + 1 = 3. Las matrices son de dimensión 3 × 3. Ordenaremos
los vectores base con m1 = 1, m2 = 0, m3 = −1.
Calculemos por ejemplo la representación de J 2 usando (10.58), esta ecuación muestra que los términos de la
diagonal son cero ası́ como aquellos en donde los ı́ndices difieren en más de una unidad, por tanto
(1) (1) (1) (1) (1)
(J2 )11 = (J2 )22 = (J2 )33 = (J2 )13 = (J2 )31 = 0
para los otros elementos usamos (10.58) con j = 1, k = k 0 , y omitimos k
q q 
~
h1, mp | J2 |1, mq i = 1 (1 + 1) − mq (mq + 1) δmp ,mq +1 − 1 (1 + 1) − mq (mq − 1) δmp ,mq −1
2i
q q 
~
h1, mp | J2 |1, mq i = 2 − mq (mq + 1) δmp ,mq +1 − 2 − mq (mq − 1) δmp ,mq −1
2i
teniendo en cuenta además que la matriz asociada a J 2 es antisimétrica, solo tendremos que calcular dos términos
(1) ~ h√ √ i ~ ~
(J2 )12 = h1, m1 | J2 |1, m2 i = h1, 1| J2 |1, 0i = 2 δ1,0+1 − 2 δ1,0−1 = √ [δ1,1 − δ1,−1 ] = √
2i 2i 2i
(1) i~ (1)
(J2 )12 = − √ = − (J2 )21
2

(1) ~ hp
(J2 )23 = h1, m2 | J2 |1, m3 i = h1, 0| J2 |1, −1i = 2 − (−1) [(−1) + 1] δ0,−1+1
p 2i
− 2 − (−1) [(−1) − 1] δ0,−1−1
(1) ~√
(J2 )23 = 2⇒
2i
(1) i~ (1)
(J2 )23 = − √ = − (J2 )23 ⇒
2
la matriz queda entonces  
0 −i 0
~
(J2 )(1) = √  i 0 −i 
2 0 i 0
de manera similar se obtienen las otras matrices resultando
   
0 1 0 0 −i 0
~ ~
(J1 )(1) = √  1 0 1  ; (J2 )(1) = √  i 0 −i 
2 0 1 0 2 0 i 0
   
1 0 0 (1) 1 0 0
(J3 )(1) = ~  0 0 0  ; J2 = 2~2  0 1 0 
0 0 −1 0 0 1
 √   
0 2 √0 √0 0 0
(J+ )(1) = ~  0 0 2  ; (J− )(1) = ~  2 √0 0 
0 0 0 0 2 0
274 CAPÍTULO 10. TEORÍA GENERAL DEL MOMENTO ANGULAR EN MEC ÁNICA CUÁNTICA

se puede verificar que las representaciones matriciales construı́das obedecen las reglas de conmutación (10.6). Se
puede verificar que los autovalores de las matrices (J i )(1/2) son todos iguales y están dados por ±~/2. Similarmente,
los valores propios de las matrices (J i )(1) son todos iguales y corresponden a +~, 0, −~. En sı́ntesis todas las carac-
terı́sticas generales discutidas al final de la sección 10.6.1 se cumplen para las matrices calculadas explı́citamente.
Capı́tulo 11

Propiedades de los momentos angulares


orbitales

Aplicaremos la teorı́a general desarrollada en el capı́tulo 10 al caso del momento angular orbital que sirvió orig-
inalmente para encontrar el álgebra con la cual se definió un momento angular generalizado. Utilizaremos la base
{|ri} para mostrar que los valores propios de L 2 son de la forma l (l + 1) ~2 son l entero no negativo. Es decir
las consideraciones fı́sicas excluirán a los valores semienteros en tanto que todos los valores enteros no negativos
aparecen en el espectro. Encontraremos también las funciones propias en la base {|ri} y sus principales propiedades.
En la representación {|ri} los observables R y P corresponden a multiplicación por r y al operador diferencial
−i~∇ respectivamente. La cuantización de las tres componentes del momento angular en la base {|ri} se representa
como
L = R× P = −i~r × ∇     
~ ∂ ∂ ~ ∂ ∂ ~ ∂ ∂
L1 = x2 − x3 ; L2 = x3 − x1 ; L3 = x1 − x2 (11.1)
i ∂x3 ∂x2 i ∂x1 ∂x3 i ∂x2 ∂x1
L± ≡ L1 ± iL2 (11.2)
será más conveniente trabajar en coordenadas polares esféricas, ya que más adelante veremos que el operador
momento angular solo operará sobre los ángulos θ, ϕ y no sobre la variable r.
x1 = r sin θ cos ϕ ; x2 = r sin θ sin ϕ ; x3 = r cos θ
r ≥ 0 ; 0 ≤ θ ≤ π ; 0 ≤ ϕ < 2π (11.3)
un elemento de volumen d3 r = dx dy dz en coordenadas esféricas está dado por
d3 r = r 2 dr dΩ ; dΩ = sin θ dθ dϕ (11.4)
donde dΩ es un elemento diferencial de ángulo sólido en la dirección de los ángulos θ y ϕ.
A partir de (11.3) calculamos las derivadas parciales
∂x1 ∂x1 ∂x1
= sin θ cos ϕ ; = r cos θ cos ϕ ; = −r sin θ sin ϕ
∂r ∂θ ∂ϕ
∂x2 ∂x2 ∂x2
= sin θ sin ϕ ; = r cos θ sin ϕ ; = r sin θ cos ϕ
∂r ∂θ ∂ϕ
∂x3 ∂x3 ∂x3
= cos θ ; = −r sin θ ; =0
∂r ∂θ ∂ϕ
y las relaciones entre derivadas parciales esféricas y cartesianas nos dan
∂ ∂x1 ∂ ∂x2 ∂ ∂x3 ∂ ∂ ∂ ∂
= + + = sin θ cos ϕ + sin θ sin ϕ + cos θ
∂r ∂r ∂x1 ∂r ∂x2 ∂r ∂x3 ∂x1 ∂x2 ∂x3
∂ ∂x1 ∂ ∂x2 ∂ ∂x3 ∂ ∂ ∂ ∂
= + + = r cos θ cos ϕ + r cos θ sin ϕ − r sin θ
∂θ ∂θ ∂x1 ∂θ ∂x2 ∂θ ∂x3 ∂x1 ∂x2 ∂x3
∂ ∂x1 ∂ ∂x2 ∂ ∂x3 ∂ ∂ ∂
= + + = −r sin θ sin ϕ + r sin θ cos ϕ
∂ϕ ∂ϕ ∂x1 ∂ϕ ∂x2 ∂ϕ ∂x3 ∂x1 ∂x2
276 CAPÍTULO 11. PROPIEDADES DE LOS MOMENTOS ANGULARES ORBITALES

en forma matricial

    
∂r sin θ cos ϕ sin θ sin ϕ cos θ ∂1
 ∂θ  =  r cos θ cos ϕ r cos θ sin ϕ −r sin θ   ∂2 
∂ϕ −r sin θ sin ϕ r sin θ cos ϕ 0 ∂3

calculando la inversa de esta matriz se obtiene

   cos θ cos ϕ  
∂1 cos ϕ sin θ r − rsin ϕ
sin θ ∂r
 ∂2  =  sin θ sin ϕ cos θ sin ϕ cos ϕ   ∂θ  (11.5)
r r sin θ
∂3 cos θ − sinr θ 0 ∂ϕ

reemplazando (11.3, 11.5) en (11.1) obtenemos

   
i sin θ cos θ sin ϕ cos ϕ
L1 = x2 ∂3 − x3 ∂2 = r sin θ sin ϕ cos θ ∂r − ∂θ − r cos θ sin θ sin ϕ ∂r + ∂θ + ∂ϕ
~ r r r sin θ
cos θ cos ϕ
= − sin2 θ sin ϕ ∂θ − cos2 θ sin ϕ ∂θ − ∂ϕ
sin θ
i cos ϕ
L1 = − sin ϕ ∂θ − ∂ϕ (11.6)
~ tan θ

y se proceden de forma similar con las otras componentes

   
i cos θ cos ϕ sin ϕ sin θ
L2 = x3 ∂1 − x1 ∂3 = r cos θ cos ϕ sin θ ∂r + ∂θ − ∂ϕ − r sin θ cos ϕ cos θ ∂r − ∂θ
~ r r sin θ r
sin ϕ
= cos2 θ cos ϕ ∂θ − cos θ ∂ϕ + sin2 θ cos ϕ ∂θ
sin θ
i sin ϕ
L2 = cos ϕ ∂θ − ∂ϕ (11.7)
~ tan θ

 
i cos θ sin ϕ cos ϕ
L3 = x1 ∂2 − x2 ∂1 = r sin θ cos ϕ sin θ sin ϕ ∂r + ∂θ + ∂ϕ
~ r r sin θ
 
cos θ cos ϕ sin ϕ
−r sin θ sin ϕ cos ϕ sin θ ∂r + ∂θ − ∂ϕ
r r sin θ
= sin θ cos θ cos ϕ sin ϕ∂θ + cos2 ϕ ∂ϕ − sin θ cos θ sin ϕ cos ϕ ∂θ + sin2 ϕ ∂ϕ
i
L3 = ∂ ϕ (11.8)
~


con las Ecs. (11.6, 11.7, 11.8), se puede evaluar L 2 = L21 + L22 + L23 , lo cual es más sencillo si lo ponemos actuar
sobre una función arbitraria ψ (r, θ, ϕ)
277

  2   2  
2 ∂ cos ϕ ∂ ∂ sin ϕ ∂ ∂ 2
L ψ = i~ sin ϕ + ψ + i~ − cos ϕ + ψ + −i~ ψ
∂θ tan θ ∂ϕ ∂θ tan θ ∂ϕ ∂ϕ
  
∂ cos ϕ ∂ ∂ cos ϕ ∂
= −~2 sin ϕ + sin ϕ + ψ
∂θ tan θ ∂ϕ ∂θ tan θ ∂ϕ
  
2 ∂ sin ϕ ∂ ∂ sin ϕ ∂ ∂2ψ
−~ − cos ϕ + − cos ϕ + ψ − ~2 2
∂θ tan θ ∂ϕ ∂θ tan θ ∂ϕ ∂ϕ
   
2 ∂ ∂ψ cos ϕ ∂ψ 2 cos ϕ ∂ ∂ψ cos ϕ ∂ψ
= −~ sin ϕ sin ϕ + −~ sin ϕ +
∂θ ∂θ tan θ ∂ϕ tan θ ∂ϕ ∂θ tan θ ∂ϕ
   
∂ ∂ψ sin ϕ ∂ψ sin ϕ ∂ ∂ψ sin ϕ ∂ψ ∂2ψ
+~2 cos ϕ − cos ϕ + − ~2 − cos ϕ + − ~2 2
∂θ ∂θ tan θ ∂ϕ tan θ ∂ϕ ∂θ tan θ ∂ϕ ∂ϕ
 
∂ ∂ψ ∂ψ ∂ 1 cos ϕ ∂ ∂ψ
= −~2 sin ϕ sin ϕ + cos ϕ +
∂θ ∂θ ∂ϕ ∂θ tan θ tan θ ∂θ ∂ϕ
 
cos ϕ ∂ψ ∂ ∂ ∂ψ 1 ∂ψ ∂ cos ϕ ∂ ∂ψ
−~2 sin ϕ + sin ϕ + cos ϕ +
tan θ ∂θ ∂ϕ ∂ϕ ∂θ tan θ ∂ϕ ∂ϕ tan θ ∂ϕ ∂ϕ
 
∂ ∂ψ ∂ψ ∂ 1 sin ϕ ∂ ∂ψ
+~2 cos ϕ − cos ϕ + sin ϕ +
∂θ ∂θ ∂ϕ ∂θ tan θ tan θ ∂θ ∂ϕ
 
2 sin ϕ ∂ψ ∂ ∂ ∂ψ 1 ∂ψ ∂ sin ϕ ∂ ∂ψ ∂2ψ
−~ − cos ϕ − cos ϕ + sin ϕ + − ~2 2
tan θ ∂θ ∂ϕ ∂ϕ ∂θ tan θ ∂ϕ ∂ϕ tan θ ∂ϕ ∂ϕ ∂ϕ

 
2 2 ∂2ψ 2 ∂ψ ∂ 1 sin ϕ cos ϕ ∂ ∂ψ
L ψ = −~ sin ϕ 2 + sin ϕ cos ϕ +
∂θ ∂ϕ ∂θ tan θ tan θ ∂θ ∂ϕ
 2 
2 cos ϕ ∂ψ cos ϕ sin ϕ ∂ ∂ψ cos ϕ sin ϕ ∂ψ cos2 ϕ ∂ 2 ψ
−~ + − +
tan θ ∂θ tan θ ∂ϕ ∂θ tan2 θ ∂ϕ tan2 θ ∂ϕ2
 2 
2 2 ∂ ψ ∂ψ ∂ 1 cos ϕ sin ϕ ∂ ∂ψ
+~ − cos ϕ 2 + cos ϕ sin ϕ +
∂θ ∂ϕ ∂θ tan θ tan θ ∂θ ∂ϕ
 2 
2 sin ϕ ∂ψ sin ϕ cos ϕ ∂ ∂ψ sin ϕ cos ϕ ∂ψ sin2 ϕ ∂ 2 ψ 2
2∂ ψ
−~ − + + − ~
tan θ ∂θ tan θ ∂ϕ ∂θ tan2 θ ∂ϕ tan2 θ ∂ϕ2 ∂ϕ2

agrupando derivadas se tiene

L2 ψ ∂2ψ 2
2 ∂ ψ cos2 ϕ ∂ 2 ψ sin2 ϕ ∂ 2 ψ ∂ 2 ψ
= sin2 ϕ + cos ϕ + + +
−~2 ∂θ 2 ∂θ 2 tan2 θ ∂ϕ2 tan2 θ ∂ϕ2 ∂ϕ2
sin ϕ cos ϕ ∂ ∂ψ sin ϕ cos ϕ ∂ ∂ψ cos ϕ sin ϕ ∂ ∂ψ cos ϕ sin ϕ ∂ ∂ψ
+ − + −
tan θ ∂θ ∂ϕ tan θ ∂ϕ ∂θ tan θ ∂ϕ ∂θ tan θ ∂θ ∂ϕ
∂ψ ∂ 1 ∂ψ ∂ 1 cos ϕ ∂ψ sin2 ϕ ∂ψ
2
+ sin ϕ cos ϕ − cos ϕ sin ϕ + +
∂ϕ ∂θ tan θ ∂ϕ ∂θ tan θ tan θ ∂θ tan θ ∂θ
cos ϕ sin ϕ ∂ψ sin ϕ cos ϕ ∂ψ
− +
tan2 θ ∂ϕ tan2 θ ∂ϕ

L2 ψ ∂2ψ 1 ∂2ψ ∂2ψ 1 ∂ψ


= + + +
−~2 ∂θ 2 tan2 θ ∂ϕ2 ∂ϕ2 tan θ ∂θ
 2   2 
∂ 1 ∂ 1 ∂
= + +1 + ψ
∂θ 2 tan2 θ ∂ϕ2 tan θ ∂θ
 2 
L2 ψ ∂ 1 ∂2 1 ∂
= + + ψ (11.9)
−~2 ∂θ 2 sin2 θ ∂ϕ2 tan θ ∂θ
278 CAPÍTULO 11. PROPIEDADES DE LOS MOMENTOS ANGULARES ORBITALES

11.1. Momentos angulares orbitales como operadores diferenciales en coor-


denadas esféricas
Las Ecs. (11.6, 11.7, 11.8) nos dicen que las componentes del momento angular en coordenadas esféricas se
escriben en la forma

 
∂ cos ϕ ∂
L1 = i~ sin ϕ + (11.10)
∂θ tan θ ∂ϕ
 
∂ sin ϕ ∂
L2 = i~ − cos ϕ + (11.11)
∂θ tan θ ∂ϕ
~ ∂
L3 = (11.12)
i ∂ϕ

y las Ecs. (11.9, 11.2) nos dicen que los operadores L 2 , L± quedan
 2 
2 2 ∂ 1 ∂ 1 ∂2
L = −~ + + (11.13)
∂θ 2 tan θ ∂θ sin2 θ ∂ϕ2
 
∂ ∂
L+ = ~eiϕ + i cot θ (11.14)
∂θ ∂ϕ
 
−iϕ ∂ ∂
L− = ~e − + i cot θ (11.15)
∂θ ∂ϕ

en la representación {|ri} las funciones propias asociadas a los valores propios l (l + 1) ~ 2 de L2 y m~ de L3 cumplen

L2 ψ (r, θ, ϕ) = l (l + 1) ~2 ψ (r, θ, ϕ) ; L3 ψ (r, θ, ϕ) = m~ψ (r, θ, ϕ) (11.16)

y al reemplazar (11.13, 11.12) en las Ecs. (11.16) estas últimas se convierten en ecuaciones diferenciales parciales
cuya solución son las funciones propias
 2 
∂ 1 ∂ 1 ∂2
− + + ψ (r, θ, ϕ) = l (l + 1) ψ (r, θ, ϕ) (11.17)
∂θ 2 tan θ ∂θ sin2 θ ∂ϕ2

−i ψ (r, θ, ϕ) = m~ψ (r, θ, ϕ) (11.18)
∂ϕ
donde l es en general entero o semientero no negativo y m toma solo los valores −l, −l + 1, . . . , l − 1, l.
Nótese que en las ecuaciones (11.17, 11.18) no hay operador derivada asociado a r. Por tanto r se puede considerar
un parámetro y asumir una separación de variables de la forma

ψlmk (r, θ, ϕ) = f (r) Ylm (θ, ϕ) (11.19)

insertando (11.19) en las ecuaciones diferenciales (11.17, 11.18) queda


 2 
∂ 1 ∂ 1 ∂2
− + + Ylm (θ, ϕ) = l (l + 1) Ylm (θ, ϕ) (11.20)
∂θ 2 tan θ ∂θ sin2 θ ∂ϕ2

−i~ Ylm (θ, ϕ) = m~Ylm (θ, ϕ) (11.21)
∂ϕ
que están expresando la ecuación de valores propios

L2 Ylm (θ, ϕ) = l (l + 1) Ylm (θ, ϕ) ; L3 Ylm (θ, ϕ) = m~Ylm (θ, ϕ)

f (r) es una función de r que aparece como constante de integración para las ecuaciones diferenciales (11.17, 11.18).
Es importante tener en cuenta que f (r) debe ser tal que ψ lm (r, θ, ϕ) = f (r) Ylm (θ, ϕ) sea de cuadrado integrable.
El hecho de que f (r) sea arbitrario nos indica que L 2 y L3 no forman un C.S.C.O. en el espacio E r de funciones
de r es decir de funciones en r, θ, ϕ. En virtud de esto deberı́amos introducir un ı́ndice adicional en las Ecs. (11.20,
11.2. VALORES PERMITIDOS DE L Y M 279

11.21) para las soluciones indicando la posible degeneración de éstas. Sin embargo, veremos que estas soluciones
serán únicas para l y m dados salvo por un factor constante. Esto indica que toda la degeneración estará en el factor
f (r) en la Ec. (11.19).
Para normalizar la función completa ψ lmk (r, θ, ϕ) es conveniente normalizar la parte angular Y lm (θ, ϕ) y la parte
radial f (r) separadamente. Estas relaciones de normalización se manifestarán en ecuaciones de la forma
Z 2π Z
dϕ sin θ |Ylm (θ, ϕ)|2 dθ = 1
0
Z ∞
r 2 |f (r)|2 dr = 1
0

11.2. Valores permitidos de l y m


La Ec. (11.21) para Ylm (θ, ϕ) muestra que Ylm (θ, ϕ) es igual a

Ylm (θ, ϕ) = Flm (θ) eimϕ (11.22)

podemos cubrir todo el espacio barriendo ϕ entre 0 y 2π. Nótese que si Y lm (θ, ϕ) no fuera contı́nua en algún valor
de θ, ϕ, no serı́a diferenciable y no podrı́a ser función propia de los operadores diferenciales L 3 y L2 . En particular
la continuidad en ϕ = 0 nos lleva a
Ylm (θ, ϕ = 0) = Ylm (θ, ϕ = 2π)
que implica además
e2imπ = 1 (11.23)
m solo puede ser entero o semientero. Si m es semientero se puede parametrizar como m = (n + 1/2) con n =
0, 1, 2, . . ., en este caso se tiene
1
e2imπ = e2(n+ 2 )iπ = e2niπ eiπ = −1
de modo que si m es semientero viola la condición (11.23). Por otro lado, sabemos que l y m son ambos enteros o
ambos semienteros. En consecuencia, tanto m como l solo pueden tomar valores enteros.
La siguiente pregunta natural es si l puede tomar todos los valores enteros no negativos. Para ello tendremos en
cuenta que según la teorı́a general (lema 6, Pág. 263) se debe satisfacer

L+ Yll (θ, ϕ) = 0 (11.24)

ahora reemplazando (11.14) y (11.22), en la Ec. (11.24) tenemos


 
iϕ ∂ ∂ h i
~e + i cot θ Fll (θ) eilϕ = 0
∂θ ∂ϕ
 
∂Fll (θ)
+ i (il) cot θ Fll (θ) eilϕ = 0
∂θ

finalmente  
d
− l cot θ Fll (θ) = 0 (11.25)

teniendo en cuenta que
d (sin θ)
cot θ dθ = (11.26)
sin θ
la solución general de la ecuación es
Fll (θ) = cl (sin θ)l (11.27)
siendo cl una constante de normalización. Se puede demostrar inversamente que esta función es función propia de
L2 y L3 con autovalores l (l + 1) ~2 y l~. Usando (11.12) y (11.22) vemos que
~ ∂ h i il~
L3 Yll (θ, ϕ) = Fll (θ) eilϕ = Fll (θ) eilϕ
i ∂ϕ i
280 CAPÍTULO 11. PROPIEDADES DE LOS MOMENTOS ANGULARES ORBITALES

L3 Yll (θ, ϕ) = l~Yll (θ, ϕ) (11.28)


multiplicando (11.24) por L− y usando (10.17) resulta

L− L+ Yll (θ, ϕ) = L2 − L23 − ~L3 Yll (θ, ϕ) = 0 ⇒
0 ⇒

⇒ L2 Yll (θ, ϕ) = L23 + ~L3 Yll (θ, ϕ) = (L3 + ~) L3 Yll (θ, ϕ)

y usando (11.28) mostramos que

L2 Yll (θ, ϕ) = (L3 + ~) (l~) Yll (θ, ϕ) = (l~ + ~) (l~) Yll (θ, ϕ)
L2 Yll (θ, ϕ) = l (l + 1) ~2 Yll (θ, ϕ)

por tanto para cada valor entero no negativo de l, existe una función Y ll única dentro de factores constantes de la
forma
Yll (θ, ϕ) = cl (sin θ)l eilϕ (11.29)
y a través de la acción iterativa de L − podemos construı́r Yl,l−1 , . . . , Yl,m , . . . , Yl,−l . En sı́ntesis, para cada par (l, m)
con l entero no negativo y m entero con la condición −l ≤ m ≤ l; existe una y solo una función Y lm (θ, ϕ) (dentro
de factores constantes), que se puede calcular de (11.29) y que es función propia de L 2 y L3 con valores propios
l (l + 1) ~2 y m~. A estas autofunciones se les denomina armónicos esféricos.

11.3. Propiedades fundamentales de los armónicos esféricos


Algunas de las propiedades de los armónicos esféricos se pueden extraer de la teorı́a general. Por ejemplo, de la
Ec. (10.46) tenemos que p
L± Ylm (θ, ϕ) = ~ l (l + 1) − m (m ± 1)Yl,m±1 (θ, ϕ)
utilizando las expresiones diferenciales de L ± Ecs. (11.14, 11.15) junto con (11.22), expresamos esta propiedad en
forma diferencial
 
iϕ ∂ p
e − m cot θ Ylm (θ, ϕ) = l (l + 1) − m (m + 1)Yl,m+1 (θ, ϕ)
∂θ
 
∂ p
e−iϕ − − m cot θ Ylm (θ, ϕ) = l (l + 1) − m (m − 1)Yl,m−1 (θ, ϕ)
∂θ

11.3.1. Ortonormalidad y completez


Las Ecuaciones (11.20, 11.21) determinan a los armónicos esféricos salvo por un factor multiplicativo. Podemos
escoger este factor de manera que se normalicen estas autofunciones. La condición de ortonormalidad se escribe
como1 Z
Yl∗0 m0 (θ, ϕ) Ylm (θ, ϕ) dΩ = δll0 δmm0

teniendo en cuenta la expresión del ángulo sólido (11.4) esta se escribe como
Z 2π Z π
dϕ sin θ dθ Yl∗0 m0 (θ, ϕ) Ylm (θ, ϕ) = δll0 δmm0 (11.30)
0 0

es un hecho además que cualquier función de θ y ϕ se puede expandir en términos de los armónicos esféricos
∞ X
X +l Z 2π Z π

f (θ, ϕ) = clm Ylm (θ, ϕ) ; clm = hlm| f i = dϕ sin θ dθ Ylm (θ, ϕ) f (θ, ϕ)
l=0 m=−l 0 0

1
La constante de normalización para Ylm (θ, ϕ) arbitrario se puede calcular determinando la constante de normalización para Yll (θ, ϕ)
en la Ec. (11.29) y usando la Ec. (10.37) de la Pág. 267, que garantiza la normalización de cada Y lm (θ, ϕ) generado a través de L− a
partir de Yll (θ, ϕ).
11.4. CONSTRUCCIÓN DE BASES ESTÁNDAR DE LA FUNCIÓN DE ONDA ESPACIAL DE UNA PARTÍCULA S

por tanto los armónicos esféricos son una base ortonormal en el espacio E Ω de funciones de θ y ϕ. Esto se expresa
con relaciones de completez que aplican en este espacio
∞ X
X +l

   δ (θ − θ 0 ) δ (ϕ − ϕ0 )
Ylm (θ, ϕ) Ylm θ 0 , ϕ0 = δ cos θ − cos θ 0 δ ϕ − ϕ0 =
sin θ
l=0 m=−l

la inclusión de δ (cos θ − cos θ 0 ) en la relación de completez se debe a que el elemento diferencial de ángulo sólido se
escribe como dΩ = sin θ dθ dϕ = −d (cos θ) dϕ.

11.3.2. Propiedades de paridad y conjugación


El cambio r → −r en coordenadas cartesianas se expresa como (x 1 , x2 , x3 ) → (−x1 , −x2 , −x3 ). En coordenadas
esféricas esta transformación de paridad se expresa en la forma

r →r , θ →π−θ , ϕ→π+ϕ

se puede demostrar que


Ylm (π − θ, π + ϕ) = (−1)l Ylm (θ, ϕ)
de modo que los armónicos esféricos tienen paridad definida, la cual es independiente de m. Si l es par (impar) todos
sus 2l + 1 armónicos esféricos asociados son pares (impares). También se puede demostrar que bajo conjugación los
armónicos esféricos tienen la propiedad

Ylm (θ, ϕ) = (−1)m Yl,−m (θ, ϕ)

11.4. Construcción de bases estándar de la función de onda espacial de una


partı́cula sin espı́n
En general L2 y L3 no forman un C.S.C.O. de modo que los subespacios E r (l, m) no son en general unidimen-
sionales. Por tanto aplicaremos el algoritmo descrito en la sección 10.4.1 para construir una base estándar para
Er .
Comenzamos entonces por el subespacio E r (l, l) que serı́a el espacio de las autofunciones de L 2 y L3 con valores
propios l (l + 1) ~2 y l~. El punto de partida es construı́r una base ortonormal en E r (l, l) que denotaremos por
{ψl,l,k (r)} donde k es el ı́ndice que recorre la base cuando L 2 y L3 no forman un C.S.C.O.
El siguiente paso consiste en aplicar iterativamente el operador L − sobre todos los elementos {ψl,l,k (r)} de
Er (l, l) para generar una base ortonormal sobre los subespacios

Er (l, l − 1) , Er (l, l − 2) , . . . , Er (l, m) , . . . , Er (l, −l + 1) , Er (l, −l)

Todos los elementos de estas bases cumplen con las Ecs. (10.19, 10.46), que en este contexto se escriben como

L2 ψl,m,k (r) = l (l + 1) ~2 ψl,m,k (r) ; L3 ψl,m,k (r) = m~ψl,m,k (r) (11.31)


p
L± ψl,m,k (r) = ~ l (l + 1) − m (m ± 1)ψl,m±1,k (r) (11.32)

pero ya hemos visto que todas las funciones propias de L 2 y L3 correspondientes a un par especı́fico (l, m) poseen la
misma dependencia angular denotada por Y lm (θ, ϕ). Es decir la variación de k para l, m fijos, solo hace que varı́e la
dependencia radial de ψl,m,k (r). De las Ecuaciones (11.19) ya dedujimos que las funciones propias ψ l,m,k (r) tienen
la forma
ψl,m,k (r) = Rl,m,k (r) Ylm (θ, ϕ) (11.33)
apliquemos el operador L± sobre la Ec. (11.33) teniendo en cuenta que tales operadores solo actúan sobre la
componente angular
p
L± ψl,m,k (r) = Rl,m,k (r) L± Ylm (θ, ϕ) = ~ l (l + 1) − m (m ± 1)Rl,m,k (r) Yl,m±1 (r)
282 CAPÍTULO 11. PROPIEDADES DE LOS MOMENTOS ANGULARES ORBITALES

comparando con la Ec. (11.32) vemos que la función radial debe satisfacer para todo r la condición

Rl,m±1,k (r) = Rl,m,k (r)

la aplicación sucesiva de L± nos lleva a que R (r) no puede depender de m. Este resultado se puede enunciar de la
siguiente manera: Si {ψl,m,k (r)} constituye una base estándar de E r , su función radial asociada no puede depender
de m de modo que estas funciones se escriben como

ψl,m,k (r) = Rl,k (r) Ylm (θ, ϕ) (11.34)

Podrı́amos estar tentados a pensar que la función radial solo depende de la degeneración k. Sin embargo, la
función radial también depende en general de l por la siguiente razón: una función de la forma f (r) g (θ, ϕ) solo
puede ser contı́nua en el origen (r = 0, θ y ϕ arbitrarios) si g (θ, ϕ) se reduce a una constante o si f (r) tiende a
cero cuando r → 0 con f (0) = 0. Para ver esto, basta con observar que si g (θ, ϕ) es no trivial, entonces el lı́mite de
f (r) g (θ, ϕ) cuando r → 0 dependerá de la dirección por la cual nos aproximemos al origen si f (r) no tiende a cero
cuando r → 0. De lo anterior vemos que si requerimos que ψ l,m,k (r) sea contı́nuo, entonces solo las funciones radiales
con l = 0 pueden ser no nulas en el origen (puesto que Y 00 es constante). Si además requerimos diferenciabilidad
hasta cierto orden en el origen obtendremos condiciones sobre R l,k (r) que dependen de l.
Las relaciones de ortonormalidad de estas funciones se escriben en la forma
Z Z ∞
3 ∗
d r ψl,m,k (r) ψl0 ,m0 ,k0 (r) = r 2 dr Rl,k

(r) Rl0 ,k0 (r)
0
Z 2π Z π

× dϕ sin θ dθ Ylm (θ, ϕ) Yl0 m0 (θ, ϕ) = δkk0 δll0 δmm0
0 0

y dado que los armónicos esféricos son ortonormales Ec. (11.30) tenemos que
Z ∞ Z 2π Z π 
2 ∗ ∗
r dr Rl,k (r) Rl0 ,k0 (r) dϕ sin θ dθ Ylm (θ, ϕ) Yl0 m0 (θ, ϕ) = δkk0 δll0 δmm0
0 0 0
Z ∞
δll0 δmm0 r 2 dr Rl,k

(r) Rl0 ,k0 (r) = δkk0 δll0 δmm0 (11.35)
0
Z ∞
r 2 dr Rl,k

(r) Rl,k0 (r) = δkk0 (11.36)
0
de modo que las funciones radiales R l,k (r) están normalizadas con respecto a r y dos funciones radiales asociadas
al mismo valor de l pero con diferente valor de k son ortogonales.
Nótese que la relación (11.36) proviene del hecho de que las funciones ψ l,l,k (r) = Rl,k (r) Yll (θ, ϕ) que se esco-
gieron como base en el subespacio Er (l, l) son ortonormales. Por tal razón, es esencial que el ı́ndice l sea el mismo en
ambas funciones radiales de la ecuación (11.36). Si l 6= l 0 entonces ψl,m,k y ψl0 ,m0 ,k0 deben ser ortogonales puesto que
corresponden a funciones propias de L 2 con diferente valor propio, pero la ortogonalidad de los armónicos esféricos
ya garantiza la ortogonalidad de las ψ 0 s cuando l 6= l 0 , de modo que en general la integral a la izquierda de (11.36)
toma cualquier valor, esto se puede apreciar haciendo l 6= l 0 en (11.35).

11.5. Valores esperados y desviaciones medias cuadráticas de observables


cuando el sistema está en un estado |l, m, ki
Supongamos que una partı́cula sin espı́n está en el estado |l, m, ki que es autoestado de L 2 y L3 con valores
propios l (l + 1) ~2 y m~. Por tanto, el cuadrado de su momento angular y su proyección a lo largo de X 3 están bien
definidos. Supongamos ahora que queremos medir las proyecciones a lo largo de los otros dos ejes L 1 y L2 ; puesto
que estos observables no conmutan con L 3 , los estados |l, m, ki no son en general autoestados de L 1 ni de L2 , por
tanto las predicciones sobre sus autovalores serán solo probabilı́sticas.
Calculemos entonces los valores esperados y las raı́ces de las desviaciones medias cuadráticas de L 1 y L2 . Para
ello expresamos estos observables en términos de los operadores escalera L ± invirtiendo las Ecs. (11.34)
1 1
L1 = (L+ + L− ) ; L2 = (L+ − L− )
2 2i
11.5. VALORES ESPERADOS Y DESVIACIONES MEDIAS CUADR ÁTICAS DE OBSERVABLES CUANDO EL SI

por tanto L1 |l, m, ki es una combinación lineal de los estados |l, m + 1, ki y |l, m − 1, ki, similarmente ocurre con
L2 |l, m, ki, esto nos lleva por tanto a que

hl, m, k| L1 |l, m, ki = hl, m, k| L2 |l, m, ki = 0 (11.37)

para calcular las desviaciones medias cuadráticas debemos calcular los valores esperados de L 21 , L22
1
hl, m, k| L21 |l, m, ki = hl, m, k| (L+ + L− ) (L+ + L− ) |l, m, ki
4
1  
= hl, m, k| L2+ + L2− + L+ L− + L− L+ |l, m, ki
4

1
hl, m, k| L22 |l, m, ki = − hl, m, k| (L+ − L− ) (L+ − L− ) |l, m, ki
4
1  
= − hl, m, k| L2+ + L2− − L+ L− − L− L+ |l, m, ki
4
los términos con L2± no contribuyen puesto que L2+ |l, m, ki = c± |l, m ± 2, ki. Por tanto ambos valores esperados
son idénticos. Usando la Ec. (10.17) se obtiene
1
hl, m, k| L21 |l, m, ki = hl, m, k| L22 |l, m, ki = hl, m, k| [L+ L− + L− L+ ] |l, m, ki
4
1   ~2  
= hl, m, k| 2L2 − 2L23 |l, m, ki = l (l + 1) − m2 (11.38)
4 2
las desviaciones medias cuadráticas son
~2  
(∆L1 )2 = (∆L2 )2 = hl, m, k| L21 |l, m, ki − [hl, m, k| L1 |l, m, ki]2 = l (l + 1) − m2
2
en resumen cuando la partı́cula está en el estado |l, m, ki, los valores esperados y raı́ces de las desviaciones medias
cuadráticas de L1 y L2 son

hl, m, k| L1 |l, m, ki = hl, m, k| L2 |l, m, ki = 0


r
1
∆L1 = ∆L2 = ~ [l (l + 1) − m2 ]
2

p resultado posee el siguiente análogo clásico: asumamos un momento angular clásico de módulo |L| = L =
Este
~ l (l + 1) y cuya tercera componente L 3 es igual a m~. Si graficamos a L en un espacio de configuración con ejes
L1 , L2 , L3 colocando el vector L con la cola en el origen, podemos describir tal vector en coordenadas esféricas con
ángulo polar θ y ángulo azimutal ϕ

L1 = L sin θ cos ϕ ; L2 = L sin θ sin ϕ ; L3 = L cos θ


L21 + L22 = L2 sin2 θ

de acuerdo con nuestras hipótesis p


L=~ l (l + 1) ; L3 = m~
por tanto
 
L21 + L22 = L2 − L23 = l (l + 1) ~2 − m2 ~2 = l (l + 1) − m2 ~2
q p
L21 + L22 = L sin θ = ~ [l (l + 1) − m2 ]

y las componentes del momento angular son


p
L1 = L sin θ cos ϕ = ~ [l (l + 1) − m2 ] cos ϕ
p
L2 = L sin θ sin ϕ = ~ [l (l + 1) − m2 ] sin ϕ
p
L3 = L cos θ = ~ l (l + 1) cos θ
284 CAPÍTULO 11. PROPIEDADES DE LOS MOMENTOS ANGULARES ORBITALES

asumamos ahora que los valores de L y θ son conocidos y que el ángulo azimutal ϕ es una variable aleatoria que
puede tomar cualquier valor en el intervalo [0, 2π) con igual probabilidad en todo el rango. Si promediamos sobre ϕ
tenemos
Z 2π
~p 2
L1 = [l (l + 1) − m ] cos ϕ dϕ = 0
2π 0
Z 2π
~p
L2 = [l (l + 1) − m2 ] sin ϕ dϕ = 0
2π 0
L1 = L 2 = 0 (11.39)

adicionalmente
Z 2π
~2   ~2  
L21 = l (l + 1) − m2 cos2 ϕ dϕ =
l (l + 1) − m2
2π 0 2
Z 2π
~2  ~2  
L22 = l (l + 1) − m2 sin2 ϕ dϕ = l (l + 1) − m2
2π 0 2
~ 2  
L21 = L22 = l (l + 1) − m2 (11.40)
2

vemos que los promedios clásicos de L 1 , L2 , L21 , L22 dados por las Ecs. (11.39, 11.40) son idénticos a los valores
esperados cuánticos dados en las Ecs. (11.37,
para una partı́cula en el estado |l, m, ki. Por tanto, en lo

11.38)
que concierne a los valores de hL1 i, hL2 i , L21 , L22 , una partı́cula cuántica en el estado |l, m, ki se comporta de
p
manera similar a una particula clásica con momento angular de magnitud L = ~ l (l + 1) y con tercera componente
L3 = m~ para el cual ϕ es una variable aleatoria con distribución uniforme de probabilidad sobre el intervalo [0, 2π).
No obstante, este análogo clásico también tiene sus limitaciones. Por ejemplo en este modelo clásico puesto que
ϕ es aleatoria
p y puede tomarp cualquier valor en el contı́nuo nos lleva a que L 1 y L2 puede tomar cualquier valor
entre −~ [l (l + 1) − m2 ] y ~ [l (l + 1) − m2 ]. En contraste, para el caso cuántico los valores accesibles de todas las
componentes para una medida individual de la partı́cula en el estado |l, m, ki están cuantizados. Especı́ficamente,
hemos visto que los valores accesibles de L 1 y L2 coinciden con los de L3 , puesto que l es fijo hay 2l + 1 valores
accesibles que son l~, (l − 1) ~, . . . , (−l + 1) ~, −l~.

11.6. Probabilidades asociadas a la medida de L2 y L3 en un estado arbitrario


Consideremos una partı́cula cuyo estado está descrito por la función de onda normalizada dada por

hr |ψi = ψ (r) = ψ (r, θ, ϕ)

calcularemos ahora la probabilidad de obtener un valor especı́fico l (l + 1) ~ 2 de L2 y/o un valor especı́fico m~ de


L3 .
Puesto que L2 y L3 son variables compatibles, podemos hacer una medición simultánea de estas cantidades.
Denotaremos PL2 ,L3 (l, m) la probabilidad de obtener los valores l (l + 1) ~ 2 y m~ en una medición simultánea de
dichas cantidades. Para ello expandimos ψ (r) en autoestados de L 2 y L3 , para lo cual escogeremos una base estándar
de la forma (11.34)
ψl,m,k (r) = Rl,k (r) Ylm (θ, ϕ)
esta expansión es entonces XXX
ψ (r) = cl,m,k Rl,k (r) Ylm (θ, ϕ) (11.41)
k l m

donde los coeficientes de Fourier de la expansión son los usuales


Z
cl,m,k = hl, m, k |ψi = d3 r ψl,m,k ∗
(r) ψ (r)
Z ∞ Z 2π Z π
= r 2 dr Rl,k

(r) dϕ ∗
sin θ dθ Ylm (θ, ϕ) ψ (r, θ, ϕ) (11.42)
0 0 0
11.6. PROBABILIDADES ASOCIADAS A LA MEDIDA DE L 2 Y L3 EN UN ESTADO ARBITRARIO 285

de acuerdo con los postulados, la probabilidad P L2 ,L3 (l, m) está dada por
X
PL2 ,L3 (l, m) = |cl,m,k |2 (11.43)
k

si medimos L2 solamente, la probabilidad PL2 (l) de obtener l (l + 1) ~2 es

l
X l
X X
PL2 (l) = PL2 ,L3 (l, m) = |cl,m,k |2 (11.44)
m=−l k m=−l

ahora, si medimos L3 únicamente, la probabilidad de obtener m~ es


X X X
PL3 (m) = PL2 ,L3 (l, m) = |cl,m,k |2 (11.45)
l≥|m| k l≥|m|

estrictamente la condición l ≥ |m| se satisface automáticamente ya que no hay coeficientes c l,k,m con l < |m|.
Adicionalmente, si tenemos en cuenta que L 2 , Li , L± son operadores diferenciales que solo actúan sobre las
variables angulares, solo la dependencia angular en ψ (r) será relevante para calcular estas probabilidades. En
consecuencia, r se puede ver como un parámetro para estos cálculos (cantidad arbitraria pero fija). Si consideramos
que ψ (r, θ, ϕ) es función de las variables θ, ϕ y que r es un parámetro, entonces como toda función de θ y ϕ se
podrá expandir en armónicos esféricos con coeficientes que dependen del parámetro r
XX
ψ (r, θ, ϕ) = al,m (r) Ylm (θ, ϕ) (11.46)
l m
Z 2π Z π

alm (r) = hlm| ψi = dϕ sin θ dθ Ylm (θ, ϕ) ψ (r, θ, ϕ) (11.47)
0 0

si comparamos las expansiones (11.41, 11.46) vemos que los c l,m,k son los coeficientes de la expansión de a l,m (r) en
las funciones Rl,k (r)
X
al,m (r) = cl,m,k Rl,k (r) (11.48)
k

usando (11.42) y (11.47) se obtiene


Z ∞ Z 2π Z π 
2 ∗ ∗
cl,m,k = r dr Rl,k (r) dϕ sin θ dθ Ylm (θ, ϕ) ψ (r, θ, ϕ)
Z0 ∞ 0 0

cl,m,k = r 2 dr Rl,k

(r) al,m (r) (11.49)
0

la Ec. (11.49) es la inversa de (11.48). De hecho la Ec. (11.49) se puede obtener multiplicando (11.48) por r 2 Rl,k
∗ (r),

integrando en r y utilizando la relación de ortonormalidad (11.36). Usando las Ecs. (11.36, 11.48) se obtiene
Z ∞ Z ∞ " #" #
X X
r 2 dr |al,m (r)|2 = r 2 dr c∗l,m,k Rl,k

(r) cl,m,k0 Rl,k0 (r)
0 0 k k0
Z ∞ XX Z ∞ X
r 2 dr |al,m (r)|2 = c∗l,m,k cl,m,k0 r 2 dr Rl,k

(r) Rl,k0 (r) = c∗l,m,k cl,m,k0 δkk0
0 k k0 0 k,k 0
Z ∞ X
r 2 dr |al,m (r)|2 = |cl,m,k |2
0 k

por lo tanto, la probabilidad PL2 ,L3 (l, m) descrita por la Ec. (11.43) se puede reescribir como
Z ∞
PL2 ,L3 (l, m) = r 2 dr |al,m (r)|2 (11.50)
0
286 CAPÍTULO 11. PROPIEDADES DE LOS MOMENTOS ANGULARES ORBITALES

de lo cual se puede deducir las probabilidades P L2 (l) y PL3 (m)


l
X Z ∞ X Z ∞
2
PL2 (l) = 2
r dr |al,m (r)| ; PL3 (m) = r 2 dr |al,m (r)|2 (11.51)
m=−l 0 l≥|m| 0

en sı́ntesis, para calcular las probabilidades asociadas a las medidas de los observables L 2 y L3 podemos considerar
a la función de onda solo como función de las variables θ, ϕ y expandir dicha función en armónicos esféricos como
se vé en la Ec. (11.46). Los coeficientes de esta expansión se usan entonces para calcular las probabilidades como se
vé en las Ecs. (11.50, 11.51).
Ahora bien, la Ec. (11.12) nos muestra que el operador L 3 solo depende del ángulo azimutal ϕ. Por tanto, para
el cálculo de PL3 (m) podemos considerar a ϕ como la única variable en ψ (r) siendo r y θ parámetros en la función
de onda. Para ver esto basta con observar que los armónicos esféricos son el producto de una función de solo θ por
una función de solo ϕ
eimϕ
Ylm (θ, ϕ) = Zlm (θ) √ (11.52)

con esta parametrización cada una de las funciones del producto está normalizada, esto se vé teniendo en cuenta
que
Z 2π 0
e−imϕ eim ϕ
dϕ √ √ = δmm0
0 2π 2π
si sustituı́mos esto en la relación de ortonormalidad para los armónicos esféricos Ec. (11.30) encontramos que
Z 2π Z π
dϕ sin θ dθ Yl∗0 m0 (θ, ϕ) Ylm (θ, ϕ) = δll0 δmm0
0 0
Z 2π Z π " #  
e −im0 ϕ eimϕ

dϕ sin θ dθ Zl0 m0 (θ) √ Zlm (θ) √ = δll0 δmm0
0 0 2π 2π
"Z #Z
2π −im0 ϕ imϕ π
e e
√ √ dϕ sin θ dθ Zl∗0 m0 (θ) Zlm (θ) = δll0 δmm0
0 2π 2π 0
Z π
δmm0 sin θ dθ Zl∗0 m0 (θ) Zlm (θ) = δll0 δmm0 (11.53)
0
Z π

sin θ dθ Zl,m (θ) Zl0 ,m (θ) = δll0 (11.54)
0
nótese que en esta relación solo aparece un número cuántico m ya que si m 6= m 0 ambos miembros en (11.53) se
anulan para cualquier valor de la integral que aparece a la izquierda de (11.53), de modo que a priori esta integral
puede tomar cualquier valor.
Tomaremos entonces para el cálculo de P L3 a la función de onda ψ (r) como una función que solo depende de ϕ
como variable y que depende solo paramétricamente de θ y r. Su expansión de Fourier será
X Z 2π
eimϕ 1
ψ (r, θ, ϕ) = bm (r, θ) √ ; bm (r, θ) = √ dϕ e−imϕ ψ (r, θ, ϕ) (11.55)
m 2π 2π 0

si reescribimos las Ecs. (11.46, 11.47) con la parametrización (11.52) obtenemos


XX eimϕ
ψ (r, θ, ϕ) = al,m (r) Zlm (θ) √ (11.56)
l m 2π
Z 2π Z π
∗ e−imϕ
alm (r) = hlm| ψi = dϕ sin θ dθ Zlm (θ) √ ψ (r, θ, ϕ) (11.57)
0 0 2π
si comparamos las Ecs. (11.55) con las Ecs. (11.56, 11.57) vemos que los a lm con m fijo son los coeficientes de la
expansión de bm (r, θ) sobre las funciones Zlm (θ) para tal valor de m
X Z π

bm (r, θ) = al,m (r) Zlm (θ) ; alm (r) = sin θ dθ Zlm (θ) bm (r, θ) (11.58)
l 0
11.7. EJEMPLOS DE CÁLCULOS DE PROBABILIDAD PARA L2 Y L3 287

multiplicando a ambos lados de (11.58) por sin θ dθ y por el conjugado de cada miembro e integrando resulta
" #" #
X X
bm (r, θ) b∗m (r, θ) sin θ dθ = al,m (r) Zlm (θ) a∗l0 ,m (r) Zl∗0 m (θ) sin θ dθ
l l0
Z π XX Z π
2
|bm (r, θ)| sin θ dθ = al,m (r) a∗l0 ,m (r) Zlm (θ) Zl∗0 m (θ) sin θ dθ
0 l l0 0

y usando (11.54) resulta


Z π XX
|bm (r, θ)|2 sin θ dθ = al,m (r) a∗l0 ,m (r) δll0
0 l l0
Z π X
|bm (r, θ)|2 sin θ dθ = |al,m (r)|2 (11.59)
0 l
y sustituyendo (11.59) en la segunda de las ecuaciones (11.51), la probabilidad P L3 (m) queda en la forma
Z ∞ Z π
PL3 (m) = 2
r dr sin θ dθ |bm (r, θ)|2 (11.60)
0 0
Por lo tanto, en lo que respecta al cálculo de P L3 (m) se puede considerar que para la función de onda, las
cantidades r y θ son parámetros y la única variable es ϕ. Con esta consideración, la expansión de Fourier se hace
en la forma indicada en (11.55) y los coeficientes de la expansión se utilizan para calcular P L3 (m) como se observa
en la Ec. (11.60).
Por otro lado, vemos que para calcular P L2 los dos ángulos θ y ϕ son relevantes ya que el operador diferencial
asociado (11.13) depende de ambos ángulos. Por tanto la única cantidad que se puede considerar como parámetro
para este cálculo es r y debemos emplear la fórmula (11.51).

11.7. Ejemplos de cálculos de probabilidad para L2 y L3


11.7.1. Función de onda parcialmente separable
Supongamos que la función de onda ψ (r) de una partı́cula tiene la forma
ψ (r, θ, ϕ) = f (r) g (θ, ϕ) (11.61)
siempre es posible normalizar cada función por separado de modo que
Z ∞ Z 2π Z π
2
2
r dr |f (r)| = 1 ; dϕ sin θ dθ |g (θ, ϕ)|2 = 1 (11.62)
0 0 0
la expansión (11.46, 11.47) se escribe entonces en la forma
XX Z 2π Z π

f (r) g (θ, ϕ) = al,m (r) Ylm (θ, ϕ) ; alm (r) = f (r) dϕ sin θ dθ Ylm (θ, ϕ) g (θ, ϕ)
l m 0 0
XX
f (r) g (θ, ϕ) = f (r) dl,m Ylm (θ, ϕ) ; alm (r) ≡ f (r) dlm (11.63)
l m
quedando entonces
XX Z 2π Z π

g (θ, ϕ) = dl,m Ylm (θ, ϕ) ; dlm ≡ dϕ sin θ dθ Ylm (θ, ϕ) g (θ, ϕ)
l m 0 0

usando la segunda Ec. (11.63), la probabilidad P L2 ,L3 dada en (11.50) queda en la forma
Z ∞ Z ∞
2 2
PL2 ,L3 (l, m) = 2
r dr |al,m (r)| = |dl,m | r 2 dr |f (r)|2
0 0
Z 2π Z π
2 ∗
PL2 ,L3 (l, m) = |dl,m | ; dlm ≡ dϕ sin θ dθ Ylm (θ, ϕ) g (θ, ϕ) (11.64)
0 0
donde hemos usado la condición de normalización radial (11.62). Esta probabilidad es totalmente independiente de
la parte radial de la función de onda f (r).
288 CAPÍTULO 11. PROPIEDADES DE LOS MOMENTOS ANGULARES ORBITALES

11.7.2. Función de onda totalmente separable


Consideremos ahora el caso en el cual la función de onda admite una separación total

ψ (r, θ, ϕ) = f (r) h (θ) k (ϕ) (11.65)

de nuevo asumimos que cada función está normalizada por aparte


Z ∞ Z π Z 2π
2 2
2
r dr |f (r)| = sin θ dθ |h (θ)| = dϕ |k (ϕ)|2 = 1 (11.66)
0 0 0

Por supuesto la Ec. (11.65) es un caso especial de (11.61) de modo que los resultados precedentes son válidos aquı́.
Pero la separación adicional nos permite simplificar el cálculo de P L3 , pues la expansión (11.55) queda en este caso
en la forma
X Z 2π
eimϕ 1
f (r) h (θ) k (ϕ) = bm (r, θ) √ ; bm (r, θ) = √ f (r) h (θ) dϕ e−imϕ k (ϕ)
m 2π 2π 0
X e imϕ
f (r) h (θ) k (ϕ) = f (r) h (θ) cm √ ; bm (r, θ) ≡ cm f (r) h (θ) (11.67)
m 2π

quedando finalmente Z
X eimϕ 1 2π
k (ϕ) = cm √ ; cm ≡ √ dϕ e−imϕ k (ϕ) (11.68)
m 2π 2π 0

ahora aplicando (11.67 y 11.68) a la Ec. (11.60) para el cálculo de P L3 se obtiene


Z ∞ Z π Z ∞ Z π
2
PL3 (m) = 2
r dr sin θ dθ |bm (r, θ)| = 2
r dr sin θ dθ |cm f (r) h (θ)|2
0 0 0 0
Z ∞ Z π
2 2
= |cm | 2
r dr |f (r)| sin θ dθ |h (θ)|2
0 0

y usando las condiciones de normalización (11.66) se tiene


Z 2π
2 1
PL3 (m) = |cm | ; cm ≡√ dϕ e−imϕ k (ϕ) (11.69)
2π 0

11.7.3. Comportamiento de la probabilidad con θ y ϕ


Hasta ahora solo se ha considerado una estructura especı́fica de separación de variables en la función de onda en
forma de las Ecs. (11.61, 11.65). Tomaremos ahora ejemplos concretos que cumplan con alguna de estas ecuaciones,
por ejemplo asumamos que la función de onda es de la forma (11.65) pero totalmente independiente de θ y ϕ
1 1
h (θ) = √ ; k (ϕ) = √ (11.70)
2 2π
con lo cual la Ec. (11.65) se convierte en
1
ψ (r) = f (r) √ = f (r) Y00 (θ, ϕ)

de modo que una medida de L2 y/o L3 da el valor cero con total certeza.
Ahora modifiquemos solo la dependencia con θ
r
3 1
h (θ) = cos θ ; k (ϕ) = √
2 2π
r
3
ψ (r) = f (r) cos θ = Y10 (θ, ϕ)

11.7. EJEMPLOS DE CÁLCULOS DE PROBABILIDAD PARA L2 Y L3 289

de nuevo tenemos certeza total sobre los valores de L 2 y L3 en una medida (l = 1, m = 0). Para L2 obtenemos
2~2 y para L3 tendremos cero. Vemos que la modificación de la dependencia de θ no modifica las predicciones
concernientes a L3 puesto que tales predicciones solo dependen del ángulo ϕ.
Ahora modificamos la dependencia de ϕ (con respecto al primer problema) de modo que

1 eiϕ
h (θ) = √ ; k (ϕ) = √
2 2π
eiϕ
ψ (r) = f (r) √

la dependencia angular ya no está dada por un solo armónico esférico. Aplicando (11.69) vemos que P L3 (m) nos da
Z 2π Z 2π
2 1 −imϕ 1
PL3 (m) = |cm | ; cm ≡√ dϕ e k (ϕ) = dϕ e−imϕ eiϕ = δm1
2π 0 2π 0
PL3 (m) = δm1

por tanto m solo puede tomar el valor m = 1, vemos entonces que las predicciones sobre L 3 han cambiado por la
introducción de la dependencia azimutal. Las predicciones
√ sobre L 2 cambian también con respecto a las dadas por

(11.70). Para calcular PL2 es necesario expandir e / 4π en armónicos esféricos. Se puede verificar que todos los
armónicos con l impar y m = 1 aparecen en dicha expansión. Por tanto, ya no hay certeza en la medida de L 2 sino
una distribución de probabilidad. Tal como ya se discutió, la dependencia de ϕ entra en las predicciones sobre L 2 .
Capı́tulo 12

Interacciones centrales en mecánica cuántica

En mecánica cuántica es frecuente encontrarse con el problema de dos partı́culas interactuantes como es el caso
de la interacción electrón núcleo en un átomo hidrogenoide (sistema consistente en un núcleo y un electrón). Cuando
la interacción entre las dos partı́culas se puede describir por un potencial que solo depende de la posición relativa
entre ambas, es posible demostrar al igual que en mecánica clásica, que el problema se puede reducir al estudio
de una sola partı́cula ficticia. Además cuando la interacción entre las partı́culas depende solo de la distancia entre
ellas, el sistema equivalente es la partı́cula ficticia sujeta a un potencial central.
Una vez que el problema se reduce al problema equivalente de una partı́cula, se considerarán las propiedades
mecano cuánticas de una partı́cula sujeta a un potencial central V (r). Este problema está ı́ntimamente relacionado
con el problema del momento angular, ya que el hecho de que V (r) sea invariante ante rotaciones alrededor del
origen significará que el Hamiltoniano H conmuta con todas las componentes del momento angular orbital L, es
decir es un escalar. Esto simplificará considerablemente el problema de valores propios ya que será posible construı́r
una base común de funciones propias de H, L 2 y L3 . Esto a su vez permitirá que la dependencia angular de la
ecuación de valores propios se convierta en el problema de valores propios del momento angular orbital que ya se
ha estudiado en detalle. Por tanto, el problema se reducirá a encontrar la dependencia radial.

12.1. El problema de dos cuerpos y su reducción al problema equivalente de


una partı́cula en Mecánica Clásica

Figura 12.1: Variables de posición fundamentales en el problema de dos cuerpos.

Consideremos un sistema de dos masas puntuales m 1 y m2 como lo indica la Fig. 12.1, donde las únicas fuerzas
que actúan sobre ellas son las debidas al potencial mutuo U . La isotropı́a del espacio nos sugiere que si las masas no
poseen alguna propiedad vectorial, la interacción entre ellas debe ir dirigida a lo largo de la lı́nea que las une, esto
indica que el potencial debe ser función del valor absoluto de la coordenada relativa r 2 − r1 ≡ r. Este sistema tiene
12.1. EL PROBLEMA DE DOS CUERPOS Y SU REDUCCI ÓN AL PROBLEMA EQUIVALENTE DE UNA PART ÍC

seis grados de libertad y por tanto requiere de seis coordenadas generalizadas. Quizás el sistema de coordenadas
generalizadas más conveniente lo constituye las coordenadas de posición del centro de masa R, y las coordenadas
que determinan al vector relativo r. Estas coordenadas se pueden escribir en términos de las coordenadas de posición
de las partı́culas r1 y r2
m1 r1 + m 2 r2
r ≡ r 2 − r1 ; R ≡ (12.1)
m1 + m 2
estas ecuaciones se pueden invertir para obtener
m2
r1 = R − r
m1 + m 2
m1
r2 = R+ r (12.2)
m1 + m 2

también son útiles las coordenadas de posición de las partı́culas relativas al centro de masa r 01 y r02

r1 = R + r01 ; r2 = R + r02 (12.3)

con lo cual
m2
r01 = − r
m1 + m 2
m1
r02 = r (12.4)
m1 + m 2
En esta sección consideraremos una situación algo más general en donde el potencial puede depender también de
las derivadas temporales del vector relativo r. El Lagrangiano del sistema se puede escribir como
 
L = T Ṙ, ṙ − U (r, ṙ, ..)

es bien sabido que la energı́a cinética de un sistema clásico de partı́culas se puede escribir como la energı́a cinética
del centro de masa mas la energı́a cinética con respecto al centro de masa
  1 1 1 1 1
T Ṙ, ṙ = m1 ṙ21 + m2 ṙ22 = m1 ṙ02 02
1 + m2 ṙ2 + M Ṙ
2
(12.5)
2 2 2 2 2
donde M ≡ m1 +m2 . Usando (12.4) se puede escribir la energı́a cinética en términos de las coordenadas generalizadas
elegidas i.e. las componentes de Ṙ y ṙ
1 m1 m2 2 1
T = ṙ + M Ṙ2
2 M 2
el Lagrangiano queda de la forma
1 1 m1 m2 2
L = M Ṙ2 + ṙ − U (r, ṙ, ..) (12.6)
2 2 M
se puede ver que las coordenadas de R son todas cı́clicas, es decir no aparecen en el Lagrangiano pero sı́ aparecen
las coordenadas Ṙ. Si elegimos como coordenadas generalizadas las tres componentes cartesianas de R, vemos que
los tres momentos lineales (que serı́an los momentos canónicos) son constantes y por tanto, Ṙ = cte, de modo que
el centro de masa está en reposo o movimiento rectilı́neo uniforme 1

R = R0 + Ṙt (12.7)

si nuestro sistema original de referencia es inercial, entonces el sistema con origen en el centro de masa también lo
es. Podemos entonces ver el movimiento a partir del centro de masa en cuyo caso el Lagrangiano queda
1 2
L= µṙ − U (r, ṙ, ..) (12.8)
2
1
Desde el punto de vista Newtoniano esto se puede ver por el hecho de que el sistema está aislado, de modo que el centro de masa no
puede estar acelerado. En términos de simetrı́as, se dice que el sistema tiene invarianza traslacional que conduce a la conservación del
momento lineal.
292 CAPÍTULO 12. INTERACCIONES CENTRALES EN MEC ÁNICA CUÁNTICA

donde hemos definido


m1 m2
µ≡ (12.9)
M
como la masa reducida del sistema. El Lagrangiano (12.8) es el equivalente al Lagrangiano que se obtendrı́a si
tuviéramos una partı́cula de masa µ sometida a una fuerza que apunta siempre hacia un punto fijo (fuerza central),
y a una distancia r del centro de fuerza. Por lo tanto el problema de dos cuerpos sometidos a fuerzas centrales
mutuas, se puede reducir a un problema de una sola partı́cula que interactúa con un centro de fuerzas.
No debemos olvidar sin embargo, que la partı́cula equivalente a la cual está asociada el Lagrangiano (12.8),
NO existe, no hay ninguna partı́cula de masa µ y las trayectorias que se encuentran son para esta partı́cula
imaginaria. Para encontrar la trayectoria de las partı́culas originales con respecto al sistema inercial original, es
necesario devolverse tomando las Ecs. (12.2, 12.7) junto con las soluciones que encontremos para r. No obstante,
si ocurre que m1 << m2 entonces tanto la trayectoria como la masa imaginarias van a ser muy semejantes a la
trayectoria y masa real de m1 .
Ahora queremos construı́r un Hamiltoniano equivalente para cuantizar más adelante. Usando (12.6) suponiendo
que U solo depende de r, podemos calcular los momentos conjugados asociados a las componentes de R y de r, los
cuales están dados por
 
∂L ∂ 1 1 1 1
Pi = = M Ẋk Ẋk + µẋk ẋk − V (r) = M δik Ẋk + M Ẋk δik = M Ẋi
∂ Ẋi ∂ Ẋi 2 2 2 2
 
∂L ∂ 1 1
pi = = M Ẋk Ẋk + µẋk ẋk − V (r) = µẋi
∂ ẋi ∂ ẋi 2 2
tenemos entonces que

P = M Ṙ = m1 ṙ1 + m2 ṙ2 = p1 + p2 (12.10)


m1 m2 m1 m2 ṙ2 − m2 m1 ṙ1 m1 p2 − m 2 p1
p = µṙ = (ṙ2 − ṙ1 ) = = (12.11)
m1 + m 2 m1 + m 2 m1 + m 2
p p2 p1
= − (12.12)
µ m2 m1
P es el momento total y p es el momento relativo de las dos partı́culas. El Hamiltoniano clásico se escribe como

P2 p2
H (R, P, r, p) = + + V (r) (12.13)
2M 2µ
empleando las ecuaciones de Hamilton encontramos que

Ṗ = 0 ; ṗ = −∇V (r) (12.14)

la primera ecuación nos dice que el centro de masa tiene movimiento rectilı́neo uniforme como ya se habia observado.
La segunda ecuación es la segunda ley de Newton aplicada a la partı́cula imaginaria de masa µ. Puesto que el
centro de masa es también inercial, podemos ubicarnos allı́ para ver las ecuaciones de movimiento, en cuyo caso el
Hamiltoniano queda
p2
H (r, p) = + V (r) (12.15)

que es el equivalente al Lagrangiano (12.8) para la partı́cula µ con posición r y momento p (excepto que ya asumimos
que el potencial solo depende de r). Nótese que el primer término a la derecha de las Ecs. (12.6, 12.13) junto con la
primera de las Ecs. (12.14) nos permite interpretar al par R, P como variables conjugadas a una segunda partı́cula
imaginaria de masa M y que viaja a la velocidad constante del centro de masa ocupando para todo tiempo la
posición del centro de masa2 .
También se observa que la Ec. (12.12) nos dice que la velocidad p/µ de la partı́cula imaginaria es igual a la
diferencia entre la velocidades de las dos partı́culas es decir su velocidad relativa, lo cual es consistente con derivar
la primera de las Ecs. (12.1) con respecto al tiempo.
2
En sı́ntesis hemos cambiado el problema de dos cuerpos (reales) acoplados por el problema de dos cuerpos (imaginarios) totalmente
desacoplados.
12.2. REDUCCIÓN DEL PROBLEMA DE DOS CUERPOS EN MEC ÁNICA CUÁNTICA 293

12.2. Reducción del problema de dos cuerpos en mecánica cuántica


Cuando se realiza un proceso de cuantización no es obvio a priori que el problema de dos cuerpos se reduzca
al problema de un solo cuerpo. La razón estriba en que debemos cuantizar las variables asociadas a las partı́culas
reales, es decir debemos cuantizar (R 1 , P1 ) y (R2 , P2 ), después de esto podemos pasar a las coordenadas de centro
de masa que denotamos por (RC , PC ) y las coordenadas relativas (Rr , Pr ). Sin embargo, para poder interpretar
consistentemente estas nuevas coordenadas como equivalentes a dos partı́culas imaginarias, es necesario que dichas
nuevas coordenadas sean canónicas (es decir que obedezcan las reglas canónicas de conmutación). Adicionalmente,
para que el movimiento de estas dos partı́culas imaginarias se pueda desacoplar, es necesario que las variables
(RC , PC ) conmuten con las variables (Rr , Pr ). Veremos sin embargo, que estas condiciones sı́ se satisfacen para
el problema cuántico de dos cuerpos, de modo que la reducción al problema de un cuerpo también es posible en
mecánica cuántica.
Asociaremos los operadores R1 , P1 y R2 , P2 que describen la posición y el momento de las dos partı́culas y que
satisfacen las relaciones canónicas
h i h i h i
(i) (k) (i) (k) (i) (k)
Pj , P m = Xj , X m = 0 ; Xj , P m = δjm δik i~ ; i, k = 1, 2 ; j, m = 1, 2, 3 (12.16)

donde i, k rotulan partı́culas en tanto que j, m rotulan componentes. Definimos ahora los observables R C y Rr en
forma análoga a las Ecs. (12.1)
m1 R1 + m 2 R2
RC = ; Rr = R2 − R1 (12.17)
m1 + m 2
y los momentos tienen expresiones de la forma (12.10, 12.11)
m1 P2 − m 2 P1
PC = P 1 + P 2 ; P r = (12.18)
m1 + m 2
los conmutadores entre las componentes de R C , Rr , PC , Pr se pueden calcular con base en las definiciones (12.17,
12.18) y las reglas de conmutación (12.16) y se obtiene
h i h i h i
e (i) , X
X e (k) = Pe (i) , Pe(k) = 0 ; X e (i) , Pe(k) = δjm δik i~ ; i, k = 1, 2 ; j, m = 1, 2, 3
j m j m j m

e (1) ≡ (RC ) ; X
X e (2) ≡ (Rr ) ; Pe(1) ≡ (PC ) ; Pe(2) ≡ (Pr )
j j j j j j j j

es decir tanto el par RC , PC , como el par Rr , Pr obedecen reglas canónicas de conmutación. Además todo observable
del conjunto {RC , PC } conmuta con todo observable del conjunto {R r , Pr }.
Lo anterior nos permite interpretar al par R C , PC , y al par Rr , Pr como los observables posición y momento de
dos partı́culas ficticias distintas al igual que en el caso clásico.

12.2.1. Autovalores y autofunciones del Hamiltoniano


Usando las reglas de cuantización el Hamiltoniano para dos cuerpos sometidos a una fuerza central está dado
por
P21 P2
H= + 2 + V (R2 − R1 )
2m1 2m2
teniendo en cuenta que este Hamiltoniano no acopla observables de momento con observables de posición, el cálculo
para llegar del conjunto (R1 , P1 , R2 , P2 ) al conjunto (RC , PC , Rr , Pr ) es idéntico al del caso clásico puesto que
todos los productos que aparecen conmutan. El resultado es entonces totalmente análogo a (12.13)

P2C P2
H= + r + V (Rr )
2M 2µ
este Hamiltoniano se puede separar en la forma

P2C P2
H = H C + Hr ; HC ≡ ; Hr ≡ r + V (Rr )
2M 2µ
[HC , Hr ] = 0 ⇒ [HC , H] = 0 ; [Hr , H] = 0
294 CAPÍTULO 12. INTERACCIONES CENTRALES EN MEC ÁNICA CUÁNTICA

Asumiendo que H, HC , Hr son observables, tal conjunto tendrá entonces una base común de kets propios.

HC |ϕi = EC |ϕi ; Hr |ϕi = Er |ϕi ; H |ϕi = E |ϕi


H = H C + Hr ⇒ E = E C + Er (12.19)

consideremos la base {|rC , rr i}, donde los elementos de esta base son vectores propios comunes a los observables
RC y Rr . En esta base, un estado se representa por la función de onda ϕ (r C , rr ) que es función de seis variables.
Los operadores RC y Rr se representan por multiplicación de las funciones de onda por las variables r C y rr
respectivamente, en tanto que PC y Pr se representan por los gradientes
 
∂ ∂ ∂
PC → −i~∇C ≡ −i~ , ,
∂xC,1 ∂xC,2 ∂xC,3
 
∂ ∂ ∂
Pr → −i~∇r ≡ −i~ , ,
∂xr,1 ∂xr,2 ∂xr,3
el espacio de estados E puede ser considerado como el producto tensorial

E = E rC ⊗ E rr

donde los espacios ErC , Err están asociados a RC y Rr respectivamente. HC y Hr son entonces extensiones a E de
Hamiltonianos originalmente definidos en E rC y Err respectivamente. Podemos entonces encontrar una base |ϕi que
cumple las Ecs. (12.19) en la forma siguiente

|ϕi = |ϕC i ⊗ |ϕr i ; |ϕC i ∈ ErC ; |ϕr i ∈ Err


HC |ϕC i = EC |ϕC i ; Hr |ϕr i = Er |ϕr i ; H |ϕi = (EC + Er ) |ϕi

las dos primeras ecuaciones se pueden escribir en la base {|r C i} y {|rr i} respectivamente y se obtiene

~2 2
− ∇ ϕC (rC ) = EC ϕC (rC ) (12.20)
 2M C
~2 2
− ∇ + V (rr ) ϕr (rr ) = Er ϕr (rr ) (12.21)
2µ r
la Ec. (12.20) muestra que la partı́cula equivalente para la descripción del centro de masa es libre como en la
mecánica clásica. Sus soluciones son del tipo onda plana
1 i p2C
ϕC (rC ) = 3/2
e ~ pC ·rC ; EC = ≥0
(2π~) 2M

el espectro de energı́a es no negativo y contı́nuo y corresponde a la energı́a cinética del movimiento del sistema como
un todo.
La Ec. (12.21) describe la dinámica de la partı́cula imaginaria de masa µ con posición equivalente a la posición
relativa entre las dos partı́culas. Describe entonces el comportamiento del sistema de dos partı́culas en el sistema de
referencia del centro de masa. Si el potencial solo depende de |r 2 − r1 | y no de la dirección de este vector relativo,
la partı́cula µ estará sujeta a un potencial central V (r). El problema se reduce entonces a resolver la dinámica de
la partı́cula µ.
El momento angular del sistema es

J = L 1 + L2 ; L1 = R1 × P1 ; L2 = R2 × P2

se puede demostrar que este momento angular total también se puede escribir como

J = L C + Lr ; LC = RC × PC ; Lr = Rr × Pr

Adicionalmente, se puede demostrar que L C y Lr satisfacen las reglas de conmutación de un momento angular.
Naturalmente, las componentes de L C conmutan con las de Lr . Una vez más, estas propiedades nos permiten
interpretar consistentemente a LC y a Lr como momentos angulares de partı́culas cuánticas imaginarias.
12.3. EL PROBLEMA CLÁSICO DE UNA PARTÍCULA SOMETIDA A UNA FUERZA CENTRAL 295

12.3. El problema clásico de una partı́cula sometida a una fuerza central


Asumamos una partı́cula clásica sometida a una fuerza de la forma 3
dV
F = −∇V (r) = − ur
dr
dado que la fuerza es paralela al vector posición (siempre que el origen se elija en el centro de fuerza) tenemos que
~τ = r × F = 0 y puesto que ~τ = dL/dt, se tiene que L = cte. El momento angular clásico es entonces una constante
de movimiento para una partı́cula clásica sometida a una fuerza central. La trayectoria está contenida entonces
en un plano que pasa por el centro de fuerzas y que es perpendicular al momento angular. La velocidad se puede
descomponer en una componente radial (paralela a r) y una transversal (perpendicular a r). La velocidad radial
tiene como magnitud
dr
vr =
dt
y la magnitud de la velocidad tangencial está dada por
1
|vθ | = |v sin δ| = |ur × v| = |r × v|
r
siendo δ el ángulo entre ur y v. El módulo del momento angular es

|L| = |r × µv| = µr |vθ | ⇒


|L|
|vθ | =
µr

la energı́a total (cinética mas potencial) es


1 2 1 1
E = µv + V (r) = µvr2 + µvθ2 + V (r)
2 2 2
 2
1 2 1 |L|
E = µv + µ + V (r)
2 r 2 µr
1 2 L2
E = µvr + + V (r) (12.22)
2 2µr 2
El Hamiltoniano clásico en coordenadas esféricas se escribe como
!
p2r 1 p2ϕ
H = + + p2θ + V (r)
2µ 2µr 2 sin2 θ
p2ϕ
L2 = + p2θ
sin2 θ
La energı́a cinética en (12.22) se dividió en dos términos la energı́a cinética radial y la transversal. Nótese que la
dependencia angular del Hamiltoniano se puede absorber en L 2 teniendo en cuenta que esta es una constante de
movimiento
p2 L2
H= r + + V (r) (12.23)
2µ 2µr 2
la absorción de los ángulos y sus momentos conjugados en L 2 está relacionada con el hecho de que V (r) no depende
de los ángulos. El Hamiltoniano es la energı́a del sistema en este caso como se aprecia al comparar (12.22) con
(12.23). Podemos entonces tratar al Hamiltoniano como función solo de r y p r tomando a L2 como parámetro.
Tenemos entonces solo dos ecuaciones de Hamilton
∂H ∂H
ṙ = ; ṗr = −
∂pr ∂r
3
De aquı́ en adelante simplificaremos la notación y usaremos r, p en lugar de rr y pr para las variables dinámicas fundamentales del
problema de una partı́cula.
296 CAPÍTULO 12. INTERACCIONES CENTRALES EN MEC ÁNICA CUÁNTICA

tomando el Hamiltoniano (12.23) estas ecuaciones quedan

dr pr dpr L2 dV
= ; = 3−
dt µ dt µr dr
d2 r 1 dpr 2
d r L 2 dV
= ; µ 2 = 3− (12.24)
dt2 µ dt dt µr dr

si definimos el potencial efectivo


L2
Vef f (r) = V (r) +
2µr 2
el Hamiltoniano (12.23) y las ecuaciones de movimiento (12.24) quedan

p2r d2 r dVef f
H= + Vef f (r) ; µ 2 = −
2µ dt dr

que es equivalente a un problema unidimensional sujeto a la interacción descrita por el potencial efectivo (teniendo
en cuenta que r va entre 0 e ∞). Veremos como se traducen estas caracterı́sticas en la mecánica cuántica.

12.4. Hamiltoniano cuántico


De aquı́ en adelante nos concentraremos en la ecuación (12.21) de valores propios para el Hamiltoniano en la
representación de la coordenada relativa {|r r i}. Por tanto simplificamos su notación en la forma
 
~2 2
− ∇ + V (r) ϕ (r) = Eϕ (r) (12.25)

puesto que el potencial V solo depende de la distancia r de la partı́cula al origen, las coordenadas esféricas son más
adecuadas para el problema. El Laplaciano en coordenadas esféricas se escribe
 
2 1 ∂2 1 ∂2 1 ∂ 1 ∂2
∇ = r+ 2 + + (12.26)
r ∂r 2 r ∂θ 2 tan θ ∂θ sin2 θ ∂ϕ2

esta expresión da el Laplaciano solo para r 6= 0 y no está definida para r = 0, lo cual se debe a la posición
privilegiada del origen en coordenadas esféricas (el origen corresponde a r = 0 para cualquier valor de θ, ϕ), más
adelante impondremos condiciones sobre la función de onda en el origen. De la Ec. (11.13) vemos que el Laplaciano
(12.26) se puede escribir en términos de L 2

1 ∂2 L2
∇2 = r −
r ∂r 2 ~2 r 2

de modo que el Hamiltoniano cuántico se puede escribir


 
~2 2 ~2 1 ∂ 2 L2
H = − ∇ + V (r) = r − 2 2 + V (r)
2µ 2µ r ∂r 2 ~ r
2
~ ∂ 2 L 2
H = − r+ + V (r) (12.27)
2µr ∂r 2 2µr 2

que es el análogo del Hamiltoniano clásico (12.23). El operador diferencial L 2 contiene toda la dependencia angular.
El problema de valores propios del Hamiltoniano queda escrito en la forma
 
~2 ∂ 2 L2
− r+ + V (r) ϕ (r, θ, ϕ) = E ϕ (r, θ, ϕ) (12.28)
2µr ∂r 2 2µr 2
12.5. SOLUCIÓN GENERAL DEL PROBLEMA DE VALORES PROPIOS 297

12.5. Solución general del problema de valores propios


Puesto que las componentes de L solo actúan en la variables angulares, conmutan con todos los operadores que
solo dependan de r. Además, sabemos que L i conmuta con L2 . Por tanto de acuerdo con (12.27), las tres componentes
de L conmutan con el Hamiltoniano y como no dependen explı́citamente del tiempo, son todas constantes de
movimiento en el sentido cuántico (sección 5.8.2)

∂L d hLi
[H, L] = 0 ; = =0
∂t dt
por tanto H es un operador escalar con respecto a las rotaciones alrededor del origen, lo cual proviene de la invarianza
del potencial bajo rotaciones alrededor del origen. Por supuesto H también conmuta con L 2 . Sin embargo, aunque
tenemos a nuestra disposición cinco constantes de movimiento (L, L 2 , H), no podemos usarlas todas para solucionar
el problema de valores propios (12.28) ya que no todos estos operadores conmutan entre sı́. Solo podremos usar L 2 ,
L3 (u otra componente) y H. Si asumimos que H, L 2 , L3 son observables, existirá una base común de funciones
propias en el espacio Er de una partı́cula. Por lo tanto podemos sin retringir la generalidad del problema requerir
que la funciones de onda en (12.28) también sean funciones de onda de L 2 y L3

Hϕ (r) = Eϕ (r) ; L2 ϕ (r) = l (l + 1) ~2 ϕ (r) ; L3 ϕ (r) = m~ϕ (r) (12.29)

pero ya conocemos la forma de la parte angular de las autofunciones comunes de L 2 y L3 (sección 11.4). La Ec.
(11.34) nos indica que estas funciones son de la forma

ϕ (r) = Rlk (r) Ylm (θ, ϕ) (12.30)

donde este ϕ (r) es solución de las dos últimas ecuaciones (12.29) sin importar la forma de la parte radial. Por tanto,
solo queda resolver el problema de determinar R (r) a fin de que ϕ (r) sea autofunción del Hamiltoniano.

12.5.1. La ecuación radial


Si sustituı́mos (12.30) en la Ec. (12.28) de valores propios del Hamiltoniano
 
~2 ∂ 2 L2
− r+ + V (r) Rlk (r) Ylm (θ, ϕ) = E Rlk (r) Ylm (θ, ϕ)
2µr ∂r 2 2µr 2
 
~2 ∂ 2 L2 Ylm (θ, ϕ)
Ylm (θ, ϕ) − r + V (r) R lk (r) + R lk (r) = E Rlk (r) Ylm (θ, ϕ)
2µr ∂r 2 2µr 2

y teniendo en cuenta que los armónicos esféricos son autofunciones de L 2 con valor propio l (l + 1) ~2 se tiene
 
~2 ∂ 2 l (l + 1) ~2 Ylm (θ, ϕ)
Ylm (θ, ϕ) − r + V (r) R lk (r) + R lk (r) = E Rlk (r) Ylm (θ, ϕ)
2µr ∂r 2 2µr 2

la ecuación radial toma finalmente la forma


 
~2 d2 l (l + 1) ~2
− r+ + V (r) Rlk (r) = E Rlk (r) (12.31)
2µr dr 2 2µr 2

en realidad una solución de (12.31), sustituı́da en (12.30) no necesariamente representa una solución de la ecuación
de valores propios (12.25) del Hamiltoniano. Esto se debe a que la expresión (12.26) para el Laplaciano no es
necesariamente válida en r = 0. Debemos por tanto asegurarnos que la solución R (r) de (12.31) sea lo suficientemente
regular en el origen para que (12.30) sea en realidad solución de (12.25). Nótese además que aunque la Ec. (12.31) no
depende de los ángulos, sı́ depende de l, en realidad para cada valor de l tenemos un operador diferente en (12.31).
De las Ecs. (12.29), podemos decir que el problema de valores propios de L 2 , L3 , H lo resolvemos para cada par
de valores fijos de l y m. Esto implica que en el espacio de estados E r resolvemos el problema para cada subespacio
E (l, m) asociado a valores fijos de l y m. La Ec. (12.31) nos muestra que cuando estudiamos la parte radial (que es
la única desconocida) de las funciones propias del Hamiltoniano, la ecuación asociada depende de l pero no de m,
es decir la ecuación (12.31) es idéntica para todos los 2l + 1 subespacios E (l, m) con l fijo. Denotaremos por E l,k los
298 CAPÍTULO 12. INTERACCIONES CENTRALES EN MEC ÁNICA CUÁNTICA

autovalores del operador Hl definido por (12.31) y que corresponderá a los autovalores del Hamiltoniano dentro de
un subespacio dado E (l, m). El ı́ndice k (discreto o contı́nuo) indica los diferentes valores propios asociados al mismo
número cuántico l, los valores posibles de k indican la dimensionalidad de cada subespacio E (l, m). En (12.31) hemos
denotado las funciones propias de Hl con los ı́ndices Rl,k (r). Debe notarse sin embargo que los ı́ndices de la función
radial no tienen que ser los mismos de los valores propios E l,k puesto que podrı́amos tener varias funciones radiales
propias de Hl para un valor propio dado El,k en cuyo caso la función radial requerirı́a un ı́ndice adicional. Sin
embargo, demostraremos más adelante que para cada l, k solo existe una función radial linealmente independiente.
Por otra parte, para la Ec. (12.31)
 
~2 d2 l (l + 1) ~2
− r+ + V (r) Rlk (r) = El,k Rlk (r)
2µr dr 2 2µr 2

Definimos el cambio de variable


1
Rl,k (r) = ul,k (r) (12.32)
r
y multiplicamos a ambos lados por r
  
~2 d2 l (l + 1) ~2 1 1
r − 2
r+ 2
+ V (r) ul,k (r) = rEl,k ul,k (r)
2µr dr 2µr r r
 2 2
  2
  
~ d 1 l (l + 1) ~ 1 1
r − 2
r ul,k (r) + 2
ul,k (r) + V (r) ul,k (r) = El,k ul,k (r)
2µr dr r 2µr r r
 2 2 
~ d l (l + 1) ~2
− ul,k (r) + ul,k (r) + V (r) ul,k (r) = El,k ul,k (r)
2µ dr 2 2µr 2

quedando finalmente
 
~2 d2 l (l + 1) ~2
− + + V (r) ul,k (r) = El,k ul,k (r) (12.33)
2µ dr 2 2µr 2
de nuevo la Ec. (12.33) es análoga a un problema unidimensional de un partı́cula de masa µ sometida al potencial
efectivo Vef f definido por
l (l + 1) ~2
Vef f = V (r) +
2µr 2

teniendo en cuenta que r solo puede tomar valores no negativos. El término l (l + 1) ~ 2 / 2µr 2 es siempre positivo
de modo que si correspondiera a una interacción real corresponderı́a a una fuerza repulsiva, por este motivo se
conoce como potencial centrı́fugo. Debe tenerse en cuenta sin embargo, que el término centrı́fugo no corresponde a
una verdadera interacción sino a una porción de la energı́a cinética (energı́a cinética transversal). Cuando l = 0 el
término centrı́fugo está ausente. Para una interacción Coulombiana V (r) = −e 2 /r, si l 6= 0 el término centrı́fugo
domina para valores pequeños de r de modo que el potencial efectivo es repulsivo a cortas distancias.

12.5.2. Comportamiento de la solución radial en el origen


Ya hemos mencionado que debemos examinar las soluciones R (r) de la ecuación radial (12.31) en el origen para
garantizar que éstas también sean soluciones de la Ec. (12.25) puesto que en el paso de (12.25) a (12.31) se ha usado
el Laplaciano en coordenadas esféricas (12.26) que no está definido en el origen.
Asumiremos que el potencial V (r) es tal que

lı́m r 2 V (r) = 0 (12.34)


r→0

es decir, permanece finito o diverge menos rápido que 1/r 2 . Esta hipótesis es válida en la mayorı́a de los casos y en
particular para el potencial de Coulomb. Consideremos una solución de la Ec. (12.31) asumamos que en el origen
se comporta en la forma
lı́m Rl,k (r) ∼ Cr s (12.35)
r→0
12.6. ESTADOS ESTACIONARIOS DE UNA PART ÍCULA EN UN POTENCIAL CENTRAL 299

sustituyendo (12.35) en (12.31) tenemos


 
~2 d2 l (l + 1) ~2
− r+ + V (r) Cr s = El,k Cr s
2µr dr 2 2µr 2
~2 d2 s+1 l (l + 1) ~2 s
− r + r + V (r) r s = El,k r s
2µr dr 2 2µr 2
~2 s−1 l (l + 1) ~2 s
−s (s + 1) r + r + V (r) r s = El,k r s
2µr 2µr 2
~2 s−2 l (l + 1) ~2 s−2
−s (s + 1) r + r + [V (r) − El,k ] r s = 0
2µ 2µ
 
s−2 ~2 l (l + 1) ~2 2
r −s (s + 1) + + [V (r) − El,k ] r = 0
2µ 2µ

asumimos que r 6= 0 de modo que

~2 l (l + 1) ~2
−s (s + 1) + + [V (r) − El,k ] r 2 = 0
2µ 2µ

tomando el lı́mite cuando r → 0 y teniendo en cuenta la condición (12.34)

−s (s + 1) + l (l + 1) = 0
(l − s) (s + l + 1) = 0 (12.36)

por tanto tenemos dos soluciones posibles

s=l ó s = − (l + 1) (12.37)

es decir que para un valor propio dado E l,k hay dos soluciones linealmente independientes de la ecuación de segundo
orden (12.31), que se comportan como r l y como 1/r l+1 en la vecindad del origen respectivamente. La solución
1/r l+1 claramente diverge en el origen para todos los valores de l. Adicionalmente, se puede demostrar que la
función Ylm (θ, ϕ) /r l+1 no es una solución de la ecuación de valores propios (12.25) para r = 0, esto se debe a que
el laplaciano de Ylm (θ, ϕ) /r l+1 involucra la l−ésima derivada de δ (r). Por tales razones, la solución 1/r l+1 debe
ser descartada.
De lo anterior las soluciones aceptables para (12.33) deben ir a cero en el origen para todo l ya que

lı́m ul,k (r) = lı́m [rRl,k (r)] ∼ Cr l+1


r→0 r→0

de modo que a la Ec. (12.33) se le debe agregar la condición

ul,k (0) = 0 (12.38)

en la Ec. (12.33) r va entre 0 e infinito. Sin embargo, es posible asumir el problema como un problema unidimensional
equivalente en donde r tome todos los valores reales pero con potencial efectivo infinito para valores negativos de
r. En tal caso, la función de onda toma valores idénticamente ceros en la parte negativa de r y la condición (12.38)
asegura la continuidad de la función de onda en r = 0.

12.6. Estados estacionarios de una partı́cula en un potencial central


Hemos visto que cuando el potencial V (r) es independiente de θ y ϕ podemos requerir que las autofunciones
del Hamiltoniano sean también autofunciones de L 2 y L3 . Esto permite aseverar que la dependencia angular viene
dada por las autofunciones de L2 y L3 es decir los armónicos esféricos
1
ϕl,m,k (r) = Rl,k (r) Ylm (θ, ϕ) = ul,k (r) Ylm (θ, ϕ) (12.39)
r
300 CAPÍTULO 12. INTERACCIONES CENTRALES EN MEC ÁNICA CUÁNTICA

por tanto, la ecuación de valores propios del Hamiltoniano que involucra a r, θ, ϕ puede ser reemplazada por una
ecuación diferencial que solo involucra a r y que depende del parámetro l, Ec. (12.33), dicha ecuación junto con
la condición (12.38) nos dictamina la dependencia radial de la función de onda. Nótese que estas caracterı́sticas
emulan el comportamiento clásico.
Las funciones ϕl,m,k (r, θ, ϕ) deben ser de cuadrado integrable
Z
|ϕl,m,k (r, θ, ϕ)|2 r 2 dr dΩ = 1

la estructura de la función de onda Ec. (12.39) permite separar la parte radial y la angular
Z Z ∞ Z
|ϕl,m,k (r, θ, ϕ)|2 r 2 dr dΩ = r 2 dr |Rl,m,k (r)|2 |Ylm (θ, ϕ)|2 dΩ = 1
0

y puesto que los armónicos esféricos están normalizados entonces la función radial está normalizada por aparte
Z ∞ Z ∞
2
2
r dr |Rl,m,k (r)| = dr |ul,m,k (r)|2 = 1 (12.40)
0 0

en realidad es conveniente aceptar en algunos casos autofunciones que no sean de cuadrado integrable. Esto ocurre
cuando al menos parte del espectro de H es contı́nuo, en cuyo caso requerimos que las funciones de onda sean
ortonormales en el sentido extendido es decir
Z ∞ Z ∞
2 ∗

r dr Rl,k0 (r) Rl,k (r) = dr u∗l,k0 (r) ul,k (r) = δ k − k 0 (12.41)
0 0

siendo k un ı́ndice contı́nuo.


En las Ecs. (12.40, 12.41), los integrandos convergen en su lı́mite inferior r = 0 debido a la condición (12.38).
Esto es fı́sicamente necesario ya que la probabilidad de encontrar a la partı́cula en cualquier volumen de dimen-
sión finita permanece finita (en particular para un volumen que contiene al origen) 4 . Por tanto, es solo debido al
comportamiento de la función de onda en r → ∞ que la integral (12.41) diverge en k = k 0 cuando el espectro es
contı́nuo.
Las Ecs. (12.39) nos dicen que las funciones propias del Hamiltoniano de una partı́cula inmersa en un potencial
central V (r) dependen de por lo menos tres ı́ndices l, m, k (k podrı́a representar varios ı́ndices contı́nuos o discretos).
La función ϕl,m,k (r) en (12.39) es autofunción simultánea de H, L 2 , L3 con autovalores El,k , l (l + 1) ~2 y m~. A
k se le conoce como número cuántico radial, l se denomina número cuántico azimutal y m el número cuántico
magnético. La parte radial Rl,k (r) = ul,k /r de la autofunción ası́ como el autovalor E l,k no dependen del número
cuántico magnético m y están dadas por la ecuación radial (12.33) junto con la condición (12.38). Por otro lado, la
parte angular de la función de onda (armónicos esféricos) depende de l y m pero no de k, dicha parte angular es
independiente de la forma del potencial V (r).

12.6.1. Degeneración de los niveles de energı́a


Consideraremos ahora el problema de la degeneración de los niveles de energı́a. Las 2l+1 funciones ϕ l,m,k (r, θ, ϕ)
con l y k fijos y m variando entre −l y l son autofunciones de H con el mismo valor propio E l,k , dado que estas
2l + 1 funciones corresponden a valores propios diferentes de L 3 serán claramente ortogonales. En consecuencia hay
por lo menos un degeneración de orden 2l + 1 del valor propio E l,k , tal degeneración es independiente de la forma
del potencial y por esta razón se denomina una degeneración esencial. La degeneración esencial se debe al hecho de
que H contiene a L2 pero no a L3 y a que el Hamiltoniano es siempre invariante rotacional (escalar). Puesto que H
contiene a L2 pero no a L3 , se tiene que m no aparece en la ecuación radial que proviene del problema de valores
propios del Hamiltoniano pero sı́ aparece l.
No obstante, es posible que El,k correspondiente a la ecuación radial con operador H l coincida con El0 ,k0 de
otra ecuación radial (l 6= l 0 ). Esto ocurre para ciertos potenciales, y se conoce como degeneraciones accidentales. En
particular, el potencial de Coulomb que describe a los átomos hidrogenoides exhibe degeneraciones accidentales.
4
Nótese que si no se hubiera descartado la posibilidad de que lı́mr→0 Rl,k (r) ∼ 1/r l+1 , hubiésemos tenido comportamiento divergente
en el origen.
12.6. ESTADOS ESTACIONARIOS DE UNA PART ÍCULA EN UN POTENCIAL CENTRAL 301

La ecuación radial (12.33) para un l fijo, al ser una ecuación de segundo orden posee a priori dos soluciones
linealmente independientes. Sin embargo, la condición (12.38) ha surgido de eliminar una de ellas puesto que se
descartó el comportamiento del tipo lı́m r→0 Rl,k (r) = 1/r l+1 . Por tanto solo tenemos una solución linealmente
independiente para cada El,k . Debemos también considerar el comportamiento de las soluciones para r → ∞. Si
V (r) → 0 cuando r → ∞ los valores de El,k para los cuales la solución clásica es acotada ( y que cuánticamente
cumplen la condición 12.38) forman un conjunto discreto, como veremos más adelante para el átomo de Hidrógeno.
Si asumimos que los operadores H, L2 y L3 son observables, la discusión anterior nos muestra que consti-
tuyen un C.S.C.O. ya que para valores fijos de E l,k solo hay una función radial linealmente independiente, y
para l y m fijos la función angular (armónico esférico) es única. Por tanto, para un conjunto dado de autovalores
El,k , l (l + 1) ~2 , m~ existe una única función normalizada (dentro de factores de fase) del tipo ϕ l,m,k (r). El auto-
valor de L2 dictamina la forma especı́fica de la ecuación radial, el autovalor de H nos determina la función radial
Rl,k (r) de forma única y m determina junto con l el armónico esférico (solución angular).
Capı́tulo 13

Átomos hidrogenoides

El problema de mayor interés de la interacción central entre dos cuerpos lo constituyen los átomos Hidrogenoides
consistentes en un núcleo y un electrón. Tal es el caso del átomo de Hidrógeno y sus isótopos el deuterio y el tritio.
Ası́ mismo también son átomos hidrogenoides los iones con un solo electrón como el He + , Li++ etc. Veremos más
adelante que los átomos alcalinos (con un solo electrón en el último nivel de energı́a) se pueden tratar también como
Hidrogenoides si consideramos que los electrones internos actúan como un apantallamiento del núcleo y que el sistema
núcleo-electrones internos actúa como un “núcleo efectivo” para el electrón externo. De momento trabajaremos con
el caso más simple.

13.1. El átomo de Hidrógeno


El átomo de Hidrógeno consiste en un electrón y un protón que interactúan de manera esencialmente elec-
trostática, es decir bajo un potencial de la forma

q2 e2 q2
V (r) = − =− ; ≡ e2
4πε0 r r 4πε0
siendo r la distancia entre el protón y el electrón, q corresponde a la carga electrónica en unidades SI en tanto que e
es el valor en unidades cgs. Numéricamente tenemos los siguientes valores aproximados para la masa m p del protón,
me del electrón y la carga q del protón

mp = 1,7 × 10−27 kg ; me = 0,91 × 10−30 kg ; q = 1,6 × 10−19 Coulombs

puesto que se trata de dos partı́culas sujetas a una interacción central, podemos reducirlo al problema de una
partı́cula relativa de masa µ y donde el vector posición de la partı́cula imaginaria es el vector posición relativo entre
las dos. Usaremos un Hamiltoniano del tipo (12.15)

p2 e2
H (r, p) = −
2µ r
puesto que mp >> me la masa reducida del sistema será prácticamente la masa del electrón
 
me mp me ∼ me ∼
µ≡ = me = m e 1 − = me
mp + m e 1+ m p
m p

y el centro de masa del sistema está prácticamente en la posición del protón. Por tanto la partı́cula imaginaria
asociada al centro de masa, tiene prácticamente las caracterı́sticas del protón (la masa del protón es casi la masa
total del sistema y el centro de masa está prácticamente en la posición del protón). La partı́cula imaginaria de masa
reducida tiene prácticamente las caracterı́sticas del electrón, ya que la masa reducida del sistema es casi la masa
del electrón y la posición del electrón con respecto al centro de masa es prácticamente su posición con respecto al
protón. Adoptaremos la posición de que el protón está en el centro de masa y que el electrón es la partı́cula relativa.
Con el fin de fijar el valor de ciertos parámetros, usaremos el modelo semi-clásico de Bohr que si bien no es
compatible con nuestros postulados, permitirá definir conceptos y parámetros útiles para el estudio de los espectros
13.2. PROBLEMA DE VALORES PROPIOS DEL ÁTOMO DE HIDRÓGENO 303

atómicos. Dentro de este modelo el electrón viaja en una órbita circular de radio r alrededor del protón, la energı́a
total es la energı́a cinética más la potencial electrostática y obedece la segunda ley de Newton. Adicionalmente, el
momento angular del electrón está cuantizado en unidades de ~, estas suposiciones se condensan en

1 2 v2 e2
E = µv + V (r) ; µ = −∇V (r) ; l = n~ ; V (r) = −
2 r r
1 2 e2 v2 e2
E = µv − ; µ = 2 ; µvr = n~ ; n entero positivo
2 r r r
las órbitas posibles son solo aquellas que cumplen la regla de cuantización del momento angular. Con este postulado
Bohr explicó la existencia de niveles discretos de energı́a. Calculemos los valores cuantizados de E n , rn y vn . Para
ello primero se calcula la energı́a de ionización E I que es la energı́a que se le debe dar al átomo de Hidrógeno en su
estado base para remover su electrón. También se pueden estimar con base en el modelo, el radio del átomo para el
estado base (radio de Bohr a0 ) y la velocidad del electrón v0 en el estado base, tales cantidades dan

µe4 ~2 e2
EI = ; a 0 = ; v 0 = (13.1)
2~2 µe2 ~
con estos parámetros de entrada los valores cuantizados de E n , rn y vn son
1 1
En = − 2
EI ; r n = n 2 a0 ; v n = v0 (13.2)
n n
los valores experimentales de EI y de los niveles de energı́a En estuvieron en concordancia con la teorı́a de Bohr.
Un estimativo de la energı́a de ionización y del radio que caracteriza las dimensiones atómicas es

EI ∼
= 13,6eV , a0 ∼
= 0,52 A

puede verse que el principio de incertidumbre explica la existencia de un estado base estable y permite además la
estimación del orden de magnitud de la energı́a base y de la extensión espacial de su función de onda.

13.2. Problema de valores propios del átomo de Hidrógeno


Dado que el potencial es central, podemos aplicar los resultados del capı́tulo 12. En la representación {|ri} la
ecuación de valores propios del Hamiltoniano es
 
~2 2 e2
− ∇ − ϕ (r) = Eϕ (r)
2m r

la función propia ϕ (r) admite la forma


1
ϕl,m,k (r) = ul,k (r) Ylm (θ, ϕ)
r
donde ul,k (r) está dado por la ecuación (12.33)
 2 2 
~ d l (l + 1) ~2 e2
− + − ul,k (r) = El,k ul,k (r) (13.3)
2µ dr 2 2µr 2 r

a la cual le debemos agregar la condición (12.38)

ul,k (0) = 0 (13.4)

El espectro de H posee una parte discreta (energı́as negativas) y una parte contı́nua (energı́as positivas). El espectro
contı́nuo está asociado con el hecho de que para E > 0 la región accesible clásica no está acotada, en este caso
las autofunciones asociadas no serán de cuadrado integrable. En contraste, para E < 0, la naturaleza discreta del
espectro está asociada con el hecho de que la región accesible clásicamente es acotada, en tal caso las funciones
propias son de cuadrado integrable.
304 CAPÍTULO 13. ÁTOMOS HIDROGENOIDES

Es cómodo trabajar de modo que a0 y EI sean las unidades de longitud y energı́a, lo cual se logra introduciendo
los parámetros adimensionales
s
r El,k
ρ= ; λl,k = − (13.5)
a0 EI

Vamos a examinar los estados acotados de energı́a negativa por lo cual el signo negativo dentro del radical es de
hecho necesario. Usando la primera de las Ecs. (13.5) en la ecuación radial (13.3), ésta se escribe como
 
~2 d2 l (l + 1) ~2 e2
− + − ul,k (ρ) = El,k ul,k (ρ)
2µ d (a0 ρ)2 2µ (a0 ρ)2 a0 ρ
 
~2 d2 l (l + 1) ~2 1 e2
− + − − El,k ul,k (ρ) = 0
2µa20 dρ2 2µa20 ρ2 a0 ρ

multiplicando la ecuación por −2µa 20 /~2 se obtiene


 
d2 l (l + 1) 2µa0 e2 2µa20
− + 2 + 2 El,k ul,k (ρ) = 0
dρ2 ρ2 ~ ρ ~

y usando las Ecs. (13.1)


(    2 )
d2 l (l + 1) 2µ ~2 e2 2µ ~2
− + 2 + 2 El,k ul,k (ρ) = 0
dρ2 ρ2 ~ µe2 ρ ~ µe2
 
d2 l (l + 1) 2 2~2
− + + 4 El,k ul,k (ρ) = 0
dρ2 ρ2 ρ µe
 2  
d l (l + 1) 2 El,k
− + − − ul,k (ρ) = 0
dρ2 ρ2 ρ EI

finalmente usando la segunda de las Ecs. (13.5) la ecuación radial queda


 
d2 l (l + 1) 2 2
− + − λ l,k ul,k (ρ) = 0 (13.6)
dρ2 ρ2 ρ

Un análisis asintótico cualitativo del comportamiento de u l,k (ρ) nos permitirá simplificar la forma de la Ec.
(13.6). Cuando ρ → ∞, los términos proporcionales a 1/ρ y 1/ρ 2 se vuelven despreciables y la Ec. (13.6) se
convierte en  2 
d 2
− λl,k ul,k (ρ) = 0
dρ2

cuyas soluciones son e±ρλl,k . Sin embargo, más adelante veremos que incluso en este lı́mite no se puede despreciar
completamente a los términos 1/ρ y 1/ρ 2 lo cual nos llevará a soluciones del tipo ρ n e±ρλl,k .
No obstante, este análisis asintótico cualitativo permite encontrar una forma aproximada de la solución esperada
en la ası́ntota. Nótese que la solución e ρλl,k es divergente en ρ → ∞ lo cual nos permite predecir que este tipo de
solución será descartada. Todo lo anterior nos induce a realizar el siguiente cambio de variable

ul,k (ρ) = e−ρλl,k yl,k (ρ) (13.7)

naturalmente este cambio de variable no significa ninguna pérdida de generalidad, ni descarta ningún tipo de
solución. Simplemente, parece simplificar a priori la forma funcional de la solución que de antemano consideramos
como aceptable. Realizando el cambio de variable (13.7) en la Ec. (13.6) nos queda

d2 h −ρλl,k i  l (l + 1) 2 
e yl,k (ρ) + − + − λl,k e−ρλl,k yl,k (ρ) = 0
2
(13.8)
dρ2 ρ2 ρ
13.3. SOLUCIÓN DE LA ECUACIÓN RADIAL POR SERIES DE POTENCIAS 305

calculamos la derivada
 
d2 h −ρλl,k i d −ρλl,k −ρλl,k dyl,k (ρ)
e y l,k (ρ) = −λl,k e yl,k (ρ) + e
dρ2 dρ dρ

dyl,k (ρ)
= (−λl,k )2 e−ρλl,k yl,k (ρ) − λl,k e−ρλl,k

2 
−ρλl,k dyl,k (ρ) −ρλl,k d yl,k (ρ)
−λl,k e +e
dρ dρ2
 
d d2
= e−ρλl,k λ2l,k − 2λl,k + 2 yl,k (ρ)
dρ dρ

reemplazando esta derivada en (13.8) se obtiene


 
−ρλl,k d d2 l (l + 1) 2
e λ2l,k − 2λl,k + − 2
+ − λl,k yl,k (ρ) = 0
dρ dρ2 ρ2 ρ

simplificando y reorganizando queda finalmente


 2  
d d 2 l (l + 1)
− 2λl,k + − yl,k (ρ) = 0 (13.9)
dρ2 dρ ρ ρ2

y la condición (13.4) queda


yl,k (0) = 0 (13.10)

13.3. Solución de la ecuación radial por series de potencias


13.3.1. Serie de potencias radial y relaciones de recurrencia
Consideraremos la expansión de yl,k (ρ) en series de potencias

X
yl,k (ρ) = ρs cq ρq (13.11)
q=0

donde por definición c0 es el primer coeficiente no nulo en la expansión

c0 6= 0

La condición (13.10) implica que s es estrictamente positivo. De modo que s es la mı́mima potencia de ρ que aparece
en la expansión (13.11). Calculemos la primera y segunda derivada de la expansión (13.11)
 
∞ ∞
dyl,k (ρ) d X X
= cq ρq+s  = (q + s) cq ρq+s−1 (13.12)
dρ dρ
q=0 q=0
 
2 X∞ X∞
d yl,k (ρ) d  q+s−1 
= (q + s) c q ρ = (q + s) (q + s − 1) cq ρq+s−2 (13.13)
dρ2 dρ q=0 q=0

reemplazando (13.11, 13.12, 13.13) en (13.9) resulta


 
d2 yl,k (ρ) dyl,k (ρ) 2 l (l + 1)
− 2λl,k + − yl,k (ρ) = 0
dρ2 dρ ρ ρ2

X ∞
X   ∞
q+s−2 q+s−1 2 l (l + 1) X
(q + s) (q + s − 1) cq ρ − 2λl,k (q + s) cq ρ + − cq ρq+s = 0
ρ ρ2
q=0 q=0 q=0
306 CAPÍTULO 13. ÁTOMOS HIDROGENOIDES


X ∞
X ∞
X ∞
X
(q + s) (q + s − 1) cq ρq+s−2 − 2λl,k (q + s) cq ρq+s−1 + 2cq ρq+s−1 − l (l + 1) cq ρq+s−2 = 0
q=0 q=0 q=0 q=0

X ∞
X
[(q + s) (q + s − 1) − l (l + 1)] cq ρq+s−2 + [2 − 2λl,k (q + s)] cq ρq+s−1 = 0
q=0 q=0

escribiendo separadamente el primer término de la primera sumatoria



X
0 = [s (s − 1) − l (l + 1)] c0 ρs−2 + [(q + s) (q + s − 1) − l (l + 1)] cq ρq+s−2
q=1

X
+ [2 − 2λl,k (q + s)] cq ρq+s−1 (13.14)
q=0

para la primera sumatoria hacemos q 0 = q − 1 de modo que



X ∞
X
q+s−2
    0
[(q + s) (q + s − 1) − l (l + 1)] cq ρ = q0 + s + 1 q 0 + s − l (l + 1) cq0 +1 ρq +s−1 (13.15)
q=1 q 0 =0

reemplazando (13.15) en (13.14) y teniendo en cuenta que los ı́ndices son mudos resulta

X
0 = [s (s − 1) − l (l + 1)] c0 ρs−2 + [(q + s + 1) (q + s) − l (l + 1)] cq+1 ρq+s−1
q=0

X
+ 2 [1 − λl,k (q + s)] cq ρq+s−1
q=0


X
[s (s − 1) − l (l + 1)] c0 ρs−2 + {[(q + s + 1) (q + s) − l (l + 1)] cq+1 + 2 [1 − λl,k (q + s)] cq } ρq+s−1 = 0
q=0

para que la serie sea cero para todo ρ, es necesario y suficiente que cada coeficiente de la expansión sea cero lo cual
nos conduce a

[s (s − 1) − l (l + 1)] c0 = 0
[(q + s + 1) (q + s) − l (l + 1)] cq+1 + 2 [1 − λl,k (q + s)] cq = 0 ; q = 0, 1, . . . , ∞

que se pueden reescribir como

(s − l − 1) (s + l) c0 = 0 (13.16)
[(q + s + 1) (q + s) − l (l + 1)] cq+1 = 2 [λl,k (q + s) − 1] cq ; q = 0, 1, . . . , ∞ (13.17)

y teniendo en cuenta que c0 6= 0 por definición, la Ec. (13.16) nos dice que s solo puede tomar dos valores

s = l + 1 ó s = −l

pero recordando que s debe ser estrictamente positivo para garantizar un comportamiento aceptable en el origen
(condición 13.10), el único valor aceptable como solución es

s=l+1 (13.18)

Esto es consistente con la discusión de la sección 12.5.2. Reemplazando s = l + 1 en (13.17) se obtiene

[(q + l + 2) (q + l + 1) − l (l + 1)] cq+1 = 2 [λl,k (q + l + 1) − 1] cq ; q = 0, 1, . . . , ∞

haciendo q 0 = q + 1 esta relación se convierte en


 0      
q + l + 1 q 0 + l − l (l + 1) cq0 = 2 λl,k q 0 + l − 1 cq0 −1 ; q 0 = 1, 2, . . . , ∞
13.3. SOLUCIÓN DE LA ECUACIÓN RADIAL POR SERIES DE POTENCIAS 307

teniendo en cuenta que q 0 es ı́ndice mudo y reorganizando términos se obtiene

q (q + 2l + 1) cq = 2 [(q + l) λl,k − 1] cq−1 ; q = 1, 2, . . . , ∞ (13.19)

la Ec. (13.19) define una relación de recurrencia para los coeficientes de la expansión (13.11). Si fijamos c 0 podemos
calcular todos los demás coeficientes con esta recurrencia. Por otro lado, de la Ec. (13.19) se obtiene

cq 2 [(q + l) λl,k − 1]
= (13.20)
cq−1 q (q + 2l + 1)

que claramente tiende a cero cuando q → 0, por tanto la serie converge para todo ρ (criterio del cociente para
series). Por tanto, hemos determinado para todo λ l,k una solución de (13.9) que satisface la condición (13.10).

13.3.2. Condición asintótica ρ → ∞ y truncamiento de la serie


Ya hemos mirado la condición en el origen pero no en ρ → ∞. Si el término entre paréntesis a la derecha de
(13.19) no es cero para ningún valor entero q, la expansión (13.11) será una verdadera serie ya que la relación de
recurrencia generará infinitos coeficientes c q , para q grande podemos ver de (13.20) que

cq 2qλl,k 2λl,k
lı́m = → (13.21)
q→∞ cq−1 q2 q

ahora la expansión en series de potencias de la función e 2ρλl,k es



2ρλl,k
X (2λl,k )q dq 2λl,k
e = dq ρq ; dq = ⇒ = (13.22)
q! dq−1 q
q=0

comparando (13.21) con (13.22) se puede demostrar que para valores grandes de ρ, la serie se comporta en la forma
e2ρλl,k . De la Ec. (13.7), la función radial u l,k (r) se comporta como

ul,k (ρ) ∼ eρλl,k

la cual no es fı́sicamente aceptable 1 . Por tanto, no es aceptable una solución en serie (cantidad infinita de términos
no nulos). En consecuencia, es necesario que la expansión (13.11) sea truncada y se convierta en una sumatoria
(polinomio). En tal caso la Ec. (13.7) nos dice que el comportamiento asintótico de u l,k (r) es el producto de un
polinomio por una función e−ρλl,k el cual es aceptable.
Definiremos ck como el primer coeficiente nulo de la expansión. Esto equivale a decir que existe un valor
entero positivo k tal que ck−1 6= 0, pero el término entre paréntesis a la derecha de (13.19) es cero para q = k. En
tal caso, la relación de recurrencia (13.19), nos indica que el coeficiente c k será nulo y que los términos subsecuentes
también serán nulos. La expansión (13.11) será un polinomio ya que la relación de recurrencia generará un número
finito de coeficientes cq . Para un valor fijo de l, rotulamos el correspondiente valor de λ l,k con este entero k. Es claro
que k ≥ 1, puesto que c0 6= 0. Igualando a cero el término entre paréntesis a la derecha de (13.19) cuando q = k se
obtiene
1
λl,k = (13.23)
l+k
reemplazando estos valores permitidos de λ l,k en la Ec. (13.5) para la energı́a se obtiene
s
1 El,k
= −
l+k EI
EI
El,k = − ; k = 1, 2, 3, . . . (13.24)
(l + k)2
1
Esta función radial diverge cuando ρ → ∞. Además no es de cuadrado integrable, en tanto que para soluciones de energı́a negativa
(acotadas clásicamente), se esperan funciones de cuadrado integrable. Además, estas funciones ni siquiera son ortonormales en el sentido
extendido.
308 CAPÍTULO 13. ÁTOMOS HIDROGENOIDES

Tomando en cuenta (13.11, 13.18), y el hecho de que c q = 0 para q ≥ k, la función yl,k (ρ) queda en la forma
k−1
X
l+1
yl,k (ρ) = ρ cq ρq (13.25)
q=0

tenemos entonces que yl,k (ρ) es un polinomio donde la menor potencia es ρ l+1 y la máxima potencia es ρl+k .

13.3.3. Coeficientes del polinomio radial en términos de c0


La relación de recurrencia (13.19) permite encontrar los coeficientes del polinomio a partir de c 0 , reemplazando
(13.23) en (13.19) la relación de recurrencia queda
 
1 2 (q + l) − 2 (l + k)
q (q + 2l + 1) cq = 2 (q + l) − 1 cq−1 = cq−1
l+k (l + k)
2q + 2l − 2l − 2k
q (q + 2l + 1) cq = cq−1
(l + k)
2 (k − q)
cq = − cq−1 (13.26)
q (q + 2l + 1) (l + k)
demostraremos por inducción que
 q
q 2 (k − 1)! (2l + 1)!
cq = (−1) c0 (13.27)
l+k (k − q − 1)! q! (q + 2l + 1)!
primero para q = 1, la relación (13.26) nos dice que 2
 
2 (k − 1) 2 1
c1 = − c0 = − (k − 1) c0
1 × (1 + 2l + 1) (l + k) l+k 1 × (1 + 2l + 1)
 1
2 (k − 1)! (2l + 1)!
c1 = (−1)1 c0
l+k (k − 2)! 1! × (1 + 2l + 1)!
 1
2 (k − 1)! (2l + 1)!
c1 = (−1)1 c0 (13.28)
l+k (k − 1 − 1)! 1! (1 + 2l + 1)!
comparando (13.28) con (13.27) vemos que (13.27) se cumple para q = 1. Ahora asumimos que se cumple para q y
demostraremos que se cumple para q + 1. Usando (13.26) con q → q + 1 se obtiene
2 (k − q − 1)
cq+1 = − cq
(q + 1) (q + 2l + 2) (l + k)
(q + 1) (q + 2l + 2) (l + k)
cq = − cq+1 (13.29)
2 (k − q − 1)
reemplazando (13.29) en (13.27) tenemos


q
q2 (k − 1)! (2l + 1)!
cq = (−1) c0
l+k (k − q − 1)! q! (q + 2l + 1)!
 q
(q + 1) (q + 2l + 2) (l + k) 2 (k − 1)! (2l + 1)!
− cq+1 = (−1)q c0
2 (k − q − 1) l+k (k − q − 1)! q! (q + 2l + 1)!
 q
2 2 (k − 1)! (k − q − 1) (2l + 1)!
cq+1 = (−1) (−1)q c0
(l + k) l + k (k − q − 1)! q! (q + 1) (q + 2l + 1)! (q + 2l + 2)
 q+1
q+1 2 (k − 1)! (2l + 1)!
cq+1 = (−1) c0
l+k (k − q − 2)! (q + 1)! (q + 2l + 2)!
 q+1
q+1 2 (k − 1)! (2l + 1)!
cq+1 = (−1) c0 (13.30)
l+k [k − (q + 1) − 1]! (q + 1)! [(q + 1) + 2l + 1]!
2
También podemos ver que para q = 0, la Ec. (13.27) conduce a c0 = c0 . Por tanto podemos comenzar la inducción con q = 0.
13.3. SOLUCIÓN DE LA ECUACIÓN RADIAL POR SERIES DE POTENCIAS 309

comparando (13.30) con (13.27) vemos que si la relación (13.27) se cumple para q entonces se cumple para q + 1, lo
cual demuestra la validez de (13.27).

13.3.4. Cálculo de c0 y de la función radial para l = 0, k = 1


Ahora falta evaluar a c0 , lo cual se logra con la ecuación de normalización (12.40). Nótese que la Ec. (13.23)
nos dice que l = k = 0 está prohibido, por tanto calcularemos explı́citamente la función radial más simple que es
ul=0,k=1 (r). Comenzaremos empleando las ecuaciones (13.25) con l = 0, k = 1
k−1
X 0
X
l+1 q 0+1
yl,k (ρ) = ρ cq ρ ⇒ y01 (ρ) = ρ cq ρq = c 0 ρ
q=0 q=0

verifiquemos explı́citamente que c k = c1 = 0. Usando (13.26) para l = 0 y q = k = 1 se obtiene


2 (k − q) 2 (1 − 1)
cq = − cq−1 ⇒ c1 = − c0 = 0
q (q + 2l + 1) (l + k) 1 × [1 + 2 (0) + 1] (0 + 1)
ahora usando (13.7, 13.23) y la relación entre ρ y r Ec. (13.5)
1
u0,1 (ρ) = e−ρλ0,1 y0,1 (ρ) ; λ0,1 = = 1 ⇒ u0,1 (ρ) = c0 ρe−ρ
0+1
c0 −r/a0
u0,1 (r) = re
a0
finalmente usamos la ecuación de normalización (12.40) y elegimos c 0 con fase cero (constante real positiva)
Z ∞ Z ∞ Z
2 2 c20 ∞ 2 −2r/a0
|ul,k (r)| dr = 1 ⇒ |u01 (r)| dr = 1 ⇒ 2 r e dr = 1
0 0 a0 0
Z ∞
1 − 2 r  ∞ 1
r 2 e−2r/a0 dr = − a0 e a0 a20 + 2a0 r + 2r 2 = a30 ⇒
0 4 0 4
c20 a30 c20 a0
= 1⇒ =1
4a20 4
(0,1) 2
c0 = √ (13.31)
a0

donde hemos tenido en cuenta que c0 en general depende de los valores de l y k. Finalmente la función radial R l,k (r)
está dada por (12.32), para el caso de l = 0, k = 1 se tiene que
(0,1)
1 1 c0 2 1 −r/a0
R0,1 (r) = u0,1 (r) = re−r/a0 = √ e
r r a0 a 0 a0
2 −r/a0
R0,1 (r) = 3/2
e
a0

13.3.5. Cálculo de c0 y de la función radial para l = 0, k = 2


Calculemos ahora Rl,k (r) con l = 0, k = 2. Usando las Ecs. (13.25) con l = 0, k = 2
k−1
X 1
X
l+1 q 0+1
yl,k (ρ) = ρ cq ρ ⇒ y0,2 (ρ) = ρ cq ρq = ρ (c0 + c1 ρ)
q=0 q=0

usando (13.26) para l = 0, k = 2, q = 1, 2 se obtiene


2 (k − q) 2 (2 − 1) 1
cq = − cq−1 ⇒ c1 = − c0 = − c0 ⇒
q (q + 2l + 1) (l + k) (1 + 1) (0 + 2) 2
2 (2 − 2)
c2 = − c1 = 0
2 (2 + 1) (0 + 2)
310 CAPÍTULO 13. ÁTOMOS HIDROGENOIDES

verificando una vez más que ck = c2 = 0. Con estos coeficientes y0,2 (ρ) queda
   
1 1
y0,2 (ρ) = ρ c0 − c0 ρ = c0 ρ 1 − ρ
2 2

y usando (13.7, 13.23, 13.5)


 
−ρλ02 1 1 1 1
u0,2 (ρ) = e y0,2 (ρ) ; λ0,2 = = ⇒ u0,2 (ρ) = c0 ρ 1 − ρ e− 2 ρ
0+2 2 2
 
r r − r
u0,2 (r) = c0 1− e 2a0 (13.32)
a0 2a0

ahora debemos calcular el c0 que normaliza a u0,2 (r) de acuerdo con las Ecs. (13.32, 12.40) eligiendo fase cero para
c0
Z ∞ Z ∞  2  
2 2 r r 2 − ar
|u0,2 (r)| dr = 1 ⇒ c0 1− e 0 dr = 1
0 0 a0 2a0
evaluando la integral
Z ∞ 2  
r r 2 − ar 1 − a1 r  ∞
1− e 0 dr = − 3 e 0 8a0 + 8a0 r + 4a0 r + r = 2a0
4 3 2 2 4
0 a0 2a0 4a0 0

por tanto
(0,2) 1
c20 (2a0 ) = 1 ⇒ c0 =√
2a0
reemplazando en (13.32) queda
   
1 r r − 2ar 2r r − 2ar
u0,2 (r) = √ 1− e 0 = 1− e 0
2a0 a0 2a0 (2a0 )3/2 2a0
 
2 r − 2ar
R0,2 (r) = 1− e 0
(2a0 )3/2 2a0

13.3.6. Cálculo de c0 y de la función radial para l = k = 1


Como último ejemplo evaluamos Rl,k (r) para l = k = 1. Usando (13.25) con l = k = 1

k−1
X 0
X
yl,k (ρ) = ρl+1 cq ρq ; y1,1 (ρ) = ρ1+1 cq ρq
q=0 q=0
2
y1,1 (ρ) = c0 ρ

usando (13.7, 13.23, 13.5)

1 1 r2 − r
u1,1 (ρ) = e−ρλ1,1 y1,1 (ρ) ; λ1,1 = = ⇒ u1,1 (r) = c0 2 e 2a0 (13.33)
1+1 2 a0

normalizando u1,1 (r) con las Ecs. (13.33, 12.40) con c 0 positivo
Z ∞ Z ∞
r 4 − ar
|u1,1 (r)|2 dr = 1 ⇒ c20 e 0 dr = 1
0 0 a40

evaluando la integral
Z ∞ 
r 4 − ar 1 − ar 4 3 2 2 3
 ∞
4
e 0 dr = − 3 e 0 r + 4r a0 + 12r a0 + 24ra0 + 24a0 = 24a0
0 a40 a0 0
13.4. PARÁMETROS ATÓMICOS 311

con lo cual resulta


(1,1) 1 1 1
c20 (24a0 ) = 1 ⇒ c0 =√ = √
24a0 2 6a0
quedando
1 1 r 2 − 2ar 1 r 2 − 2ar 1 r 2 − 2ar
u1,1 (r) = √ e 0 = √ √ e 0 = √ e 0
2 6a0 a20 2 2 3 a5/2 (2a0 )3/2 3 a0
0
quedando finalmente
1 1 r − 2ar
R1,1 (r) = 3/2
√ e 0
(2a0 ) 3 a0
La Ec. (13.24) nos muestra que en el átomo de Hidrógeno, l y k no definen un nivel de energı́a por separado, es
conveniente introducir un número cuántico de la forma
n≡l+k (13.34)
de modo que n determina unı́vocamente el valor de la energı́a según se observa en (13.24) ya que en tal caso tenemos
EI
En = − ; n = 1, 2, 3, . . .
n2
Puesto que determinar n y l es equivalente a determinar k y l, será más conveniente reemplazar a k por n. En
consecuencia, utilizaremos los números cuánticos n, l, m en lugar de k, l, m de aquı́ en adelante. En virtud de que n
define la energı́a, se denomina el número cuántico principal, de aquı́ en adelante citaremos los números cuánticos
usando primero el número cuántico principal, luego el número cuántico azimutal y finalmente el número cuántico
magnético i.e. n, l, m.

13.4. Parámetros atómicos


Las fórmulas para la función de onda han sido escritas tomando a a 0 (radio de Bohr) como unidad de longitud
que nos dará una idea de la extensión espacial de las funciones de onda de los estados acotados del átomo de
Hidrógeno. Similarmente, la energı́a de ionización E I se utilizará para obtener el orden de magnitud de los niveles
de energı́a. Las ecuaciones (13.1) se pueden reescribir como
 2  
µe4 µe4 c2 1 e2 2 ~2 ~2 c ~c ~
EI = 2 = 2 2 = µc ; a0 = 2 = 2 = 2
2~ 2~ c 2 ~c µe µe c e µc
que se pueden reescribir como
1 1 e2 q2 ~
EI = α2 µc2 , a0 = λel ; α ≡ = ; λel ≡ (13.35)
2 α ~c 4πε0 ~c µc
la constante adimensional α se conoce como constante de estructura fina. Por otro lado puesto que µ ' m e se tiene
que λel es aproximadamente la longitud de onda de compton del electrón. Numéricamente
1 ~
α' ; λel ' ' 3,8 × 10−3 A
137 me c
la segunda de las Ecs. (13.35) nos dice que el radio de Bohr (radio atómico tı́pico) es unas dos órdenes de magnitud
mayor que la longitud de onda de Compton del electrón. La primera de las Ecs. (13.35) se escribe numéricamente
como
 
1 2 2 1 1 2
EI ' α me c ' me c2 ⇒ EI ' 2. 7 × 10−5 me c2
2 2 137
me c2 ' 0,5 × 106 eV
de modo que la energı́a de enlace tı́pica de un átomo es unas 10 −5 veces menor que la energı́a en reposo del
electrón me c2 .
EI << me c2
esta relación es indispensable para poder justificar una aproximación no relativista al problema. Los efectos rela-
tivistas son pequeños pero observables. Debido a que los efectos relativistas son pequeños pueden calcularse a través
de la teorı́a de perturbaciones.
312 CAPÍTULO 13. ÁTOMOS HIDROGENOIDES

13.5. Resumen de resultados


Para el átomo de Hidrógeno, que es un problema de dos cuerpos (un protón y un electrón) reducimos el problema
al de una partı́cula equivalente de masa aproximadamente igual a la masa m e del electrón (masa reducida µ del
sistema) y en donde el centro de masa está aproximadamente en la posición del protón. Es conveniente expresar los
resultados en términos del radio de Bohr a 0 y la energı́a de ionización EI los cuales en términos de las constantes
fı́sicas universales vienen dados por
 
µe4 1 2 2 ~2 1 ~ 1
EI = 2
= α µc ; a 0 = 2
= ' λel (13.36)
2~ 2 µe α µc α
e 2 q 2 ~
α ≡ = ; λel ≡ (13.37)
~c 4πε0 ~c me c

Siendo α la constante de estructura fina y λ el la longitud de onda de Compton del electrón. Teniendo en cuenta la
Ec. (13.34)
n≡l+k

enunciaremos los resultados en términos de los números cuánticos n, l, m. Un estado será rotulado usando el orden
|n, l, mi, es decir usando primero el número cuántico principal n, luego el número cuántico azimutal l y finalmente
el número cuántico magnético m.
La función de onda asociada es de la forma

un,l (r)
ϕn,l,m (r, θ, ϕ) = Rn,l (r) Ylm (θ, ϕ) = Ylm (θ, ϕ) (13.38)
r r
−ρλn r En 1 eimϕ
un,l (ρ) = e yn,l (ρ) ; ρ ≡ ; λn ≡ − = ; Ylm (θ, ϕ) = Zl,m (θ) √ (13.39)
a0 EI n 2

y los valores de energı́a son


EI
En = − ; n = 1, 2, 3, . . . (13.40)
n2
siendo Ylm (θ, ϕ) los armónicos esféricos. La solución de la función radial y n,l (ρ) es un polinomio dado por

n−l−1
X
l+1
yn,l (ρ) = ρ cq ρq (13.41)
q=0

donde los coeficientes cq se pueden encontrar a partir de c0 , con la siguiente fórmula de recurrencia

2 (n − l − q)
cq = − cq−1 (13.42)
q (q + 2l + 1) n
 q
q 2 (n − l − 1)! (2l + 1)!
cq = (−1) c0 (13.43)
n (n − l − q − 1)! q! (q + 2l + 1)!

finalmente la constante c0 (que en general depende de los valores de n y l) se determina como constante de normal-
ización para la función radial un,l (r)
Z ∞
|un,l (r)|2 dr = 1 (13.44)
0

a manera de ejemplo escribimos explı́citamente algunas funciones radiales


 
−3/2 −r/a0 −3/2 r − 2ar
Rn=1,l=0 (r) = 2 (a0 ) e ; R2,0 (r) = 2 (2a0 ) 1− e 0 (13.45)
2a0
1 r − 2ar
R2,1 (r) = (2a0 )−3/2 √ e 0 (13.46)
3 a0
13.6. DISCUSIÓN DE LOS RESULTADOS 313

13.6. Discusión de los resultados


La Ec. (13.40) nos da el espectro de energı́as del átomo de Hidrógeno

EI
El,k = − ; k = 1, 2, 3, ... (13.47)
(l + k)2

y nos muestra que para un l fijo existen infinitos valores de energı́a asociados a k = 1, 2, 3, .... Adicionalmente,
para cada par l, k la energı́a posee al menos una degeneración de orden 2l + 1 debido a los diferentes valores de
m asociados a l fijo, esta degeneración debida a la ausencia del número cuántico m en la ecuación radial, se denomina
degeneración esencial puesto que es propia de cualquier interacción central. No obstante, también están presentes
degeneraciones accidentales propias de la interacción especı́fica, ya que la Ec. (13.47) nos dice que dos autovalores
El,k y El0 ,k0 asociados a ecuaciones radiales distintas (l 6= l 0 ) serán iguales si l 0 + k 0 = l + k.
Usando ahora los números cuánticos n, l, m, la Ec. (13.47) queda

EI
En = − (13.48)
n2
utilizando la terminologı́a espectroscópica un valor de n especifica una capa o nivel electrónico.
Puesto que k es un entero positivo, hay un número finito de valores de l asociados a un valor dado de n. De la
definición de n Ec. (13.34) y los valores permitidos de k (1, 2, 3, ...) es claro que

l = 0, 1, 2, ..., n − 1 ; n = 1, 2, 3, ...

Cada combinación especı́fica n, l se denomina una subcapa o subnivel electrónico. Puesto que hay n valores de l
para un n dado se dice que cada capa o nivel n contiene n subcapas o subniveles. Ahora bien, puesto que L 2 , L3 y
H forman un C.S.C.O. se tiene que un estado está definido unı́vocamente por una tripla (n, l, m). En consecuencia,
cada subnivel (n, l) contiene 2l + 1 estados diferentes asociados a los diferentes valores de m para l fijo.
Dado que n especifica unı́vocamente a la energı́a y (n, l, m) especifica completamente al estado, la degeneración
de la energı́a para un n dado es el número total de valores de l, m para dicho valor de n
n−1 n−1
!
X X 2n (n − 1)
gn = (2l + 1) = 2 l +n= +n
2
l=0 l=0
2
gn = n

veremos más adelante que la presencia del momento angular intrı́nseco del electrón nos duplica este valor. Si tenemos
en cuenta adicionalmente el espı́n del protón, tendrı́amos un factor de dos adicional.
Usando una vez más la notación espectroscópica, los valores de l se denotan con una letra del alfabeto en la
siguiente forma
l=0↔s , l=1↔p , l=2↔d , l=3↔f , l=4↔g
la notación espectroscópica rotula un subnivel por el número n seguido por la letra que caracteriza al valor de l.
Por ejemplo, para el nivel base n = 1 (que no es degenerado según la Ec. (13.48) y que se conoce como “nivel K”)
solo l = 0 es posible, de modo que solo tiene el subnivel 1s. El primer estado excitado n = 2 (conocido como “nivel
L”) permite l = 0, 1 de modo que contiene los subniveles 2s y 2p. El segundo estado excitado (“nivel M ”) posee los
subniveles 3s, 3p, 3d.
Hemos visto que un estado se especifica con los números cuánticos n, l, m. Donde n, l especifica la dependencia
radial y l, m la dependencia angular. Veamos ahora las caracterı́sticas de la dependencia angular.

13.6.1. Dependencia angular


Si bien la función de onda

eimϕ
ϕ (r, θ, ϕ) = Rn,l (r) Ylm (θ, ϕ) = Rn,l (r) Zl,m (θ) √
2
314 CAPÍTULO 13. ÁTOMOS HIDROGENOIDES

depende de ambos ángulos, puesto que la mayorı́a de observables dependen del módulo al cuadrado de la función
de onda, debemos calcular la dependencia angular de |Y lm (θ, ϕ)|2 este módulo nos da

imϕ 2
e 1
|Ylm (θ, ϕ)| = Zl,m (θ) √ = |Zl,m (θ)|2
2
2 2
vemos entonces que este módulo al cuadrado tiene simetrı́a azimutal. Por tanto se obtiene una superficie de rev-
olución alrededor del eje Z de cuantización. |Y 00 |2 es constante y por tanto esféricamente simétrico. |Y 1m (θ, ϕ)|2 es
2
proporcional a cos2 θ; |Y2m (θ, ϕ)|2 es proporcional a 3 cos2 θ − 1 etc.
La función radial Rn,l (r) caracteriza a cada subnivel y se puede calcular con los resultados de la sección 13.5
introduciendo nuestro cambio de notación de R l,m,k (r) a Rn,l,m (r) .
El comportamiento de Rn,l (r) en la vencindad del origen es del tipo r l , de modo que solo los estados que
pertenecen a un subnivel s (l = 0) tienen una densidad de probabilidad diferente de cero en el origen. A medida
que l aumenta, es mayor la región alrededor del protón para la cual la probabilidad de encontrar el electrón es
despreciable, es de esperarse que esto aumente el valor esperado del radio atómico 3 . Esto tiene consecuencias en
procesos fı́sicos tales como la captura de electrones por núcleos y la estructura hiperfina de las lı́neas espectrales.
Vale la pena recordar que el concepto de subnivel aparece en el modelo semiclásico de Sommerfeld que asigna
a cada valor de n (número cuántico de Bohr) un número n de órbitas elı́pticas de la misma energı́a y diferente
momento angular. La órbita asociada al máximo momento angular para un n dado es circular. Puesto que el modelo
semiclásico de Sommerfeld fué exitoso para predecir la degeneración de los niveles de energı́a, es lógico pensar que
el modelo de Bohr se reproduce para los estados con l = n − 1 (máximo valor del momento angular para n dado).
En particular vamos a mostrar que para l = n − 1 se obtiene la segunda expresión (13.2) para los radios de Bohr.
La probabilidad de encontrar al electrón en un volumen dV que en coordenadas esféricas se caracteriza por
dV = r 2 dr sin θ dθ dϕ = r 2 dr dΩ
estará dada por
dPn,l,m (r, θ, ϕ) = |ϕn,l,m (r, θ, ϕ)|2 r 2 dr dΩ = |Rn,l (r)|2 r 2 dr × |Yl,m (θ, ϕ)|2 dΩ
si queremos encontrar la probabilidad de encontrar al electrón entre r y r + dr dentro de un cierto ángulo sólido
tenemos que esta probabilidad está dada por
Z Z θ2
1 ϕ2
dPn,l,m (r) = |Rn,l (r)|2 r 2 dr × dϕ |Zl,m (θ)|2 sin θ dθ
2 ϕ1 θ1
Z
ϕ 2 − ϕ 1 θ2
dPn,l,m (r) = Ml,m |Rn,l (r)|2 r 2 dr ; Ml,m ≡ |Zl,m (θ)|2 sin θ dθ (13.49)
2 θ1

donde [ϕ1 , ϕ2 ] y [θ1 , θ2 ] definen el intervalo de los ángulos que generan el ángulo sólido dentro del cual se quiere
evaluar la probabilidad.
Ahora evaluaremos esta probabilidad para l = n − 1. Aplicando l = n − 1 en (13.41)
0
X
yn,n−1 (ρ) = ρ(n−1)+1 cq ρq = c 0 ρn
q=0

Con esto y usando la tercera de las Ecs. (13.39) se calcula la función radial
1
un,n−1 (ρ) = e−ρλn,n−1 c0 ρn ; λn =
  n
n
ρ − r r
un,n−1 (ρ) = c0 e− n ρn = c0 e a0 n
a0
 n  
−a nr 1 r c0 − a r n a0 r n
Rn,n−1 (r) = c0 e 0 = e 0
r a0 a0 r a0
 n−1
c0 r − r
Rn,n−1 (r) = e a0 n (13.50)
a0 a0
3
Esto se asemeja al comportamiento clásico en el cual el aumento de la magnitud del momento angular produce un aumento en el
radio promedio de una órbita cerrada.
13.6. DISCUSIÓN DE LOS RESULTADOS 315

n→∞ E=0 E=0 E=0 E=0


n=4 4s 4p 4d 4f
n=3 3s 3p 3d

n=2 2s 2p

n = 1 (E = EI ) 1s
l = 0 (s) l = 1 (p) l = 2 (d) l = 3 (f )
Cuadro 13.1: Niveles de energı́a (negativos) para estados acotados del átomo de hidrógeno. Los niveles sobre una fila
poseen la misma energı́a (mismo número cuántico principal n). En n = 1 la energı́a corresponde en valor absoluto a
la energı́a de ionización, y para n muy grande la energı́a tiende a cero por la izquierda. A medida que se incrementa
n disminuye la brecha entre los valores de energı́a permitidos.

nivel 1s ϕ1,0,0 (r) = √1 3 e−r/a0


 πa0 
nivel 2s ϕ2,0,0 (r) = √ 3 1 − 2ar 0 e−r/2a0
1
8πa0
ϕ2,1,1 (r) = − √1 r −r/2a0
e sin θ eiϕ
8 πa30 a0
nivel 2p ϕ2,1,0 (r) = √1 3 ar0 e−r/2a0 cos θ
4 2πa0
ϕ2,1,−1 (r) = √1 3 ar0 e−r/2a0 sin θ e−iϕ
8 πa0
Cuadro 13.2: Funciones de onda asociadas al estado base ( n = 1) y al primer estado excitado ( n = 2).

finalmente la probabilidad se obtiene de (13.49) y (13.50)


Z θ2
2 2 ϕ2 − ϕ 1
dPn,n−1,m (r) = Mn−1,m |Rn,n−1 (r)| r dr ; Mn−1,m ≡ |Zn−1,m (θ)|2 sin θ dθ
2 θ1
"  n−1 #2 " n−1 #2  2
c0 r − a rn 2 r − a rn r
dPn,n−1,m (r) = Mn−1,m e 0 r dr = c20 Mn−1,m e 0 dr
a0 a0 a0 a0
 2n−2  2
− a2rn r r
dPn,n−1,m (r) = c20 Mn−1,m e 0 dr
a0 a0

la densidad de probabilidad radial para l = n − 1 es


 2n
dPn,n−1,m (r) r − a2rn
ρn,n−1 (r) ≡ = c20 Mn−1,m e 0
dr a0

esta densidad de probabilidad tiene un máximo en

r = r n = n 2 a0

que es el radio de Bohr para una órbita de energı́a E n .


La tabla 13.1, ilustra los niveles de energı́a y la degeneración de algunos estados. La tabla 13.2 muestra las
expresiones de la función de onda para los primeros niveles de energı́a.
Capı́tulo 14

Corrientes de probabilidad en átomos


hidrogenoides, acoples con campos
magnéticos

14.1. Corrientes de probabilidad para las soluciones estacionarias del átomo


de Hidrógeno
Siguiendo los resultados de la sección 3.3.5, expresamos la función de onda estacionaria en forma polar

ϕ (r) = α (r) eiξ(r) ; α (r) ≥ 0, 0 ≤ ξ (r) < 2π (14.1)

de modo que la densidad de probabilidad ρ (r) y la densidad de corriente de probabilidad J (r) están dadas por la
Ecs. (3.32, 3.33)
~
ρ (r) = α2 (r) ; J (r) = α2 (r) ∇ξ (r) (14.2)
µ
Teniendo en cuenta la estructura de las soluciones estacionarias Ecs. (13.38, 13.39) el módulo α (r) y la fase ξ (r)
para las soluciones hidrogenoides estacionarias están dadas por
1
αn.l,m (r) = |Rn,l (r)| |Ylm (θ, ϕ)| = √ |Rn,l (r)| |Zlm (θ)| ; ξ (r) = mϕ (14.3)
2
es importante tener en cuenta que µ denota la masa y m denota el autovalor m~ de L 3 . Aplicando las Ecs. (14.2)
y usando la expresión para el gradiente en coordenadas esféricas tenemos que:
 
~ 2 ~ ∂ 1 ∂ 1 ∂
Jn,l,m (r) = α (r) ∇ξ (r) = ρn,l,m (r) ur + uθ + uϕ (mϕ)
µ µ ∂r r ∂θ r sin θ ∂ϕ
~ m
Jn,l,m (r) = ρn,l,m (r) uϕ (14.4)
µ r sin θ
donde uϕ es el vector unitario ortogonal al plano formado por r y u 3 en el sentido en el cual se incrementa el ángulo
azimutal ϕ. La Ec. (14.4) nos dice que el sentido de rotación de la corriente está dictaminado por el signo de m
y de sin θ ya que las demás cantidades son todas positivas. La Ec. (14.4) nos dice que la corriente en cada punto
M definida por el vector posición r, es perpendicular al plano definido por r y u 3 . El fluı́do de probabilidad rota
alrededor del eje X3 . Puesto que |J| no es proporcional a r sin θ ρ (r) el sistema no rota como un todo. Es decir, la
velocidad angular de la corriente es diferente en cada punto. Si queremos ver la estructura de la corriente asociada
a un estado estacionario para un plano perpendicular a u 3 (es decir para θ fijo) vemos que si sin θ > 0, tenemos
rotación del fluı́do de probabilidad alrededor de u 3 en el sentido antihorario (horario) si m > 0, (m < 0). Si m = 0
no hay corriente de probabilidad en ningún punto del espacio.
Tomemos un elemento de volumen d3 r situado en el punto r, su contribución al momento angular con respecto
al origen (en el centro del núcleo) es:
dL = µr × Jn,l,m (r) d3 r
14.1. CORRIENTES DE PROBABILIDAD PARA LAS SOLUCIONES ESTACIONARIAS DEL ÁTOMO DE HIDRÓ

el momento angular total se obtiene por integración. Por simetrı́a todas las componentes en X 1 y X2 se anulan y
solo sobrevive la componente sobre X 3 la cual vendrá dada por
Z Z Z
ρn,l,m (r) ρn,l,m (r)
L3 = µ d3 r u3 · [r × Jn,l,m (r)] = m~ d3 r u3 · [r × uϕ ] = m~ d3 r uϕ · [u3 × r]
r sin θ r sin θ
Z Z Z
3 ρn,l,m (r)
= m~ d r uϕ · [r sin θ uϕ ] = m~ d r ρn,l,m (r) = m~ d3 r |ψ (r)|2
3
r sin θ
L3 = m~
donde hemos usado la Ec. (14.4), la identidad a·(b × c) = c·(a × b), y la Ec. (3.25) para la densidad de probabilidad.
De lo anterior se concluye que el autovalor m~ de L 3 puede interpretarse como el momento angular clásico asociado
al movimiento rotacional del fluı́do de probabilidad.

14.1.1. Efecto sobre la corriente debido a la introducción de un campo magnético


Asumamos ahora que al átomo de Hidrógeno se le aplica un campo magnético constante B. Tal campo puede
ser descrito por el siguiente potencial vectorial
1
A (r) = − r × B (14.5)
2
estudiaremos la corriente de probabilidad asociada al estado base. Por simplicidad asumiremos que el campo
magnético no modifica al estado base. Puesto que el Hamiltoniano H depende de B, esto no es del todo cor-
recto, pero puede demostrarse que para B = Bu 3 en el gauge descrito por la Ec. (14.5), las funciones ϕ n,l,m (r) son
auto funciones de H dentro de términos de segundo orden en B, los cuales son despreciables para campos tı́picos de
laboratorio. Aplicaremos entonces la expresión de la densidad de corriente para una partı́cula inmersa en un campo
electromagnético descrita por las Ecs. (5.49, 5.50) donde hacemos φ (R, t) = 0, aplicaremos además las Ecs. (14.1,
14.2)
       
1 ∗ ~ 1 −iξ(r) ~ iξ(r)
Jn,l,m = Re ϕn,l,m (r) ∇ − qA (r) ϕn,l,m (r) = Re α (r) e ∇ − qA (r) α (r) e
µ i µ i
 h i 
1 −iξ(r) ~ iξ(r) −iξ(r) iξ(r)
= Re α (r) e ∇ α (r) e − qα (r) e A (r) α (r) e
µ i
 
1 −iξ(r) iξ(r) ~ 2 −iξ(r) ~ iξ(r) 2
= Re α (r) e e ∇α (r) + α (r) e ∇e − qα (r) A (r)
µ i i
 
1 ~ i~
= Re α (r) ∇α (r) + α2 (r) e−iξ(r) eiξ(r) ∇ξ (r) − qα2 (r) A (r)
µ i i
1  α2 (r)
= Re −i~α (r) ∇α (r) + ~α2 (r) ∇ξ (r) − qα2 (r) A (r) = {~ ∇ξ (r) − qA (r)}
µ µ
ρn,l,m
Jn,l,m = [~ ∇ξn,l,m (r) − qA (r)] (14.6)
µ
sustituyendo (14.5) en la Ec. (14.6) con B = Bu 3 , el estado base tendrá una corriente dada por
    
ρ1,0,0 qB ρ1,0,0 ∂ (mϕ) 1 ∂ (mϕ) 1 ∂ (mϕ)
J1,0,0 = ~ ∇ξ1,0,0 (r) + r × u3 = ~ ur + uθ + uϕ
µ 2 µ ∂r r ∂θ r sin θ ∂ϕ m=0

qB
+ r × u3
2
     
~ [m]m=0 qB ρ1,0,0 qB
= ρ1,0,0 +r× u3 = − u3 × r
µ 2µ 2 µ
ρ1,0,0 qB
J1,0,0 = (~ωc × r) ; ω ~c ≡ − u3 (14.7)
2 µ
donde hemos usado la Ec. (14.3). El vector ω ~ c es la frecuencia de ciclotrón. La velocidad equivalente del fluı́do
está dada por J1,0,0 = ρ1,0,0 v1,0,0 con lo cual la velocidad equivalente nos da
ω
~c
v1,0,0 = ×r≡ω
~f × r (14.8)
2
318CAPÍTULO 14. CORRIENTES DE PROBABILIDAD EN ÁTOMOS HIDROGENOIDES, ACOPLES CON CAMP

La Ec. (14.7) nos muestra que la corriente de probabilidad en el estado base no es cero en presencia de un campo
magnético, es claro que esta corriente se anula al hacer B = 0. Las Ecs. (14.7, 14.8) nos muestran que el fluı́do de
probabilidad, gira como un todo1 alrededor de B (o de u3 ) con un frecuencia angular2 ω ~f = ω ~ c /2. Fı́sicamente,
este resultado se debe a la presencia del campo eléctrico E (r) transiente que se induce cuando se “enciende” el
campo magnético. Bajo la influencia de este campo eléctrico transitorio el electrón permanece aproximadamente en
su estado base y comienza a rotar alrededor del protón, con una velocidad angular que depende solo del valor de B
y no de la forma precisa en que se enciende el campo magnético. Por supuesto, una vez que la corriente se genera (y
desaparece el campo eléctrico transitorio), el campo magnético permanente puede sostenerla via fuerza de Lorentz,
ya que la carga ahora está en movimiento.
Es importante mencionar que si usamos un gauge diferente al dado por la Ec. (14.5) las funciones de onda serı́an
diferentes, y en la Ec. (14.6) existirı́an otras contribuciones a primer orden en B. Sin embargo, en cualquier gauge se
debe reproducir la Ec. (14.7) a primer orden en B, puesto que los resultados fı́sicos no pueden depender del gauge.
La Ec. (14.7), también se puede escribir en términos de los parámetros atómicos usando la función de onda
explı́cita del estado base del átomo de Hidrógeno que aparace en la tabla 13.2 página 315
 
|ϕ1,0,0 |2 e−2r/a0 qB qB e−2r/a0
J1,0,0 = (~ωc × r) = − u 3 × r = − (r sin θ uϕ )
2 2πa30 µ µ 2πa30
qBe−2r/a0
J1,0,0 = − r sin θ uϕ (14.9)
2πµa30
aquı́ vemos además que la densidad de corriente es proporcional a ρ (r) r sin θ, lo cual nos ratifica que el fluı́do de
probabilidad gira como un todo.

14.2. Átomo de hidrógeno en un campo magnético uniforme: paramagnetismo,


diamagnetismo y efecto Zeeman
Estudiaremos ahora los efectos que surgen cuando el átomo de hidrógeno está inmerso en un campo magnético.
Para los campos magnéticos tı́picos de laboratorio, el gradiente de dichos campos es tal que B no varı́a apreciable-
mente en distancias comparables a la escala atómica. Por tanto, para muchos casos tomar este campo como uniforme
será una buena aproximación, y ası́ lo haremos de aquı́ en adelante. Estudiaremos entonces el espectro de un electrón
sujeto a la interacción eléctrica interna debida al núcleo y a un campo magnético externo. Si bien la solución exacta
de la ecuación de Schrödinger es muy compleja en este caso, ésta será soluble bajo ciertas aproximaciones.
Una aproximación importante es la de ignorar los efectos debidos a la masa finita del núcleo, esta aproximación
está justificada dado que el protón es mucho más pesado que el electrón. Es importante observar que bajo la
influencia de un campo magnético no es rigurosamente posible reducir el problema de dos cuerpos acoplados al
problema de dos cuerpos desacoplados uno en el centro de masa con la masa del sistema y otro con la masa reducida
del sistema y la dinámica del vector relativo. Por tanto, al tener en cuenta los efectos de masa finita del núcleo no
es suficiente con reemplazar la masa del electrón por la masa reducida del sistema.
Usaremos además el hecho de que para campos magnéticos tı́picos de laboratorio el corrimiento del espec-
tro atómico debido al campo magnético externo es mucho menor al causado por el campo eléctrico interno. Los
corrimientos de los niveles atómicos son mucho menores que las separaciones entre niveles del átomo libre.
El estudio de los efectos de introducir un campo magnético nos permitirá comprender como surge el paramag-
netismo y el diamagnetismo en la mecánica cuántica

14.2.1. Hamiltoniano del sistema


Consideremos un electrón sin espı́n de masa m e y carga q sujeto a un potencial central V (r) y a un potencial
vectorial magnético A (r). Su Hamiltoniano es
1
H= [P − qA (R)]2 + V (R) (14.10)
2me
1
Es claro de las Ecs. (14.7, 14.8), que la velocidad angular ω~ f del fluı́do no depende de la posición en este caso.
2
La frecuencia de ciclotrón es la que tendrı́a un electrón clásico que solo estuviera bajo la interacción con el campo magnético. El
hecho de que la corriente de la nube electrónica tenga la mitad de este valor, se debe al efecto adicional del campo eléctrico generado por
el núcleo.
14.2. ÁTOMO DE HIDRÓGENO EN UN CAMPO MAGNÉTICO UNIFORME: PARAMAGNETISMO, DIAMAGNE

si el campo magnético B es uniforme, el potencial vectorial se puede escribir como


1
A (r) = − r × B (14.11)
2
para introducir esta cantidad en el Hamiltoniano (14.10) calcularemos el siguiente factor
h q i2 q2 q
[P − qA (R)]2 = P − R × B = P2 + (R × B)2 + [P · (R × B) + (R × B) · P] (14.12)
2 4 2
ahora bien, B es un vector constante y no un operador, por tanto conmuta con todos los operadores. Adicionalmente,
tenemos que

P · (R × B) = Pi εijk Rj Bk ; (R × B) · P = εijk Rj Bk Pi ; (R × P)i = εijk Rj Pk

suma sobre ı́ndices repetidos. Los únicos términos no nulos de esta sumatoria corresponden a aquellos en donde
todos los ı́ndices son diferentes, por tanto R j conmuta con Pi para los términos no nulos, de modo que

P · (R × B) = (R × B) · P ; R × P = −R × P

En consecuencia, a las expresiones anteriores se les puede aplicar las identidades vectoriales usuales. Utilizando

a · (b × c) = c · (a × b)
(a × b) · (c × d) = (a · c) (b · d) − (a · d) (b · c)

en la Ec. (14.12) queda


q2 q
[P − qA (R)]2 = P2 + (R × B) · (R × B) + [2P · (R × B)]
4 2
q 2
= P2 + [(R · R) (B · B) − (R · B) (B · R)] + q [B · (P × R)]
4
q 2 h i
[P − qA (R)]2 = P2 + R2 B2 − (R · B)2 − qB · (R × P) (14.13)
4
Ahora bien, la proyección r⊥ de un vector arbitrario r sobre un plano perpendicular a B se escribe
 r2 B2 cos2 θ
|r⊥ | = |r| sin θ ⇒ r2⊥ = r2 sin2 θ = r2 1 − cos2 θ = r2 − ⇒
B2
(r · B)2
r2⊥ = r2 −
B2
donde θ es el ángulo entre r y B. Con base en esto definimos el operador vectorial R ⊥ como la proyección de R
sobre un plano perpendicular a B
(R · B)2
R2⊥ ≡ R2 − (14.14)
B2
en particular si B = Bu3 tenemos que
R2⊥ = X12 + X22
reemplazando (14.14) en (14.13) y recordando que R × P es el momento angular orbital cuántico, tenemos
q2 B 2 2
[P − qA (R)]2 = P2 + R⊥ − qL · B (14.15)
4
reemplazando (14.15) en el Hamiltoniano (14.10) tenemos
 
1 2 q2 B 2 2
H = P + R⊥ − qL · B + V (R)
2me 4
P2 µB q2 B 2 2
H ≡ H 0 + H1 + H2 ; H0 ≡ + V (R) , H1 ≡ − [L · B] , H2 ≡ R (14.16)
2me ~ 8me ⊥
q~ (R · B)2
µB ≡ ; R2⊥ ≡ R2 − (14.17)
2me B2
320CAPÍTULO 14. CORRIENTES DE PROBABILIDAD EN ÁTOMOS HIDROGENOIDES, ACOPLES CON CAMP

donde H0 es el Hamiltoniano “no perturbado” asociado al átomo de Hidrógeno libre. Nótese que cuando B 6= 0
el momento mecánico ya no es P sino [P − qA (R)], por tanto la energı́a cinética será [P − qA (R)] 2 /2me . Aún
más, el término P2 /2me depende del gauge escogido. Puede demostrarse que en el gauge definido por la Ec. (14.11)
~ R es el momento mecánico de la partı́cula con respecto a
P2 /2me es la energı́a cinética “relativa” Π 2R /2me donde Π
un sistema rotante de Larmor que rota alrededor de B con velocidad angular ω L = −qB/2me . Ası́ mismo, se puede
demostrar que el término H2 corresponde a la energı́a cinética Π 2E /2me relativa a la velocidad de arrastre de este
~R ·Π
marco de referencia, en tanto que el término H 1 está asociado al término cruzado Π ~ E /me .

14.2.2. Estimación numérica de las contribuciones H0 , H1 y H2


Haremos un estimativo numérico de las diferencias de energı́a ∆E (y las frecuencias correspondientes ∆E/h),
asociadas a cada Hamiltoniano. Hemos visto que las diferencias de energı́a ∆E 0 asociadas a H0 (átomo de Hidrógeno
libre) son del orden de magnitud de la energı́a de ionización E I como se aprecia en la Ec. (13.40). Utilizando las
Ecs. (13.36) se tiene que
 2 2
me 4 me ~
∆E0 ' EI = 2 e = 2
2~ 2~ me a0
~2 ∆E0
∆E0 ' 2 ; ' 1014 Hz
2me a0 h
ahora usando las Ecs. (14.16) para H 1 y teniendo en cuenta que los momentos angulares son del orden de la constante
de Planck, se obtiene
∆E1 µB [~B] B q~ B qB 1 qB
' = µB = = =
h ~ h h 2me h 4πme 2π 2me
∆E1 ωL qB
' ; ωL ≡
h 2π 2me
donde hemos tenido en cuenta (14.17). La cantidad ω L se refiere a la velocidad angular de Larmor. Podemos ver
que ωL /2π es la mitad de la frecuencia de ciclotrón. Para campos tı́picos de laboratorio asumiremos B . 10 5 gauss,
con lo cual se obtiene
∆E1 ωL
' . 1011 Hz ⇒
h 2π
∆E1 < < ∆E0
ahora evaluaremos el orden de magnitud de ∆E 2 asociado a H2 . Los elementos matriciales del operador R 2⊥ =
X12 + X22 son de dimensiones atómicas y por tanto del orden de magnitud de a 0 (radio de Bohr). Por tanto, de la
Ec. (14.16) se obtiene
q2 B 2 2 ∆E2 q 2 B 2 2 2π q 2 B 2 2 2π 2me
∆E2 ' a0 ⇒ ' a0 = a ⇒
8me ∆E1 8me hωL 8me 0 h qB
∆E2 πqBa20
'
∆E1 2h
por otro lado
∆E1 h qB 2me a0 qBa20 2πqBa20
' = =
∆E0 2π 2me ~2 ~ h
vemos que
∆E2 ∆E1

∆E1 ∆E0
de modo que las diferencias de energı́a presentan una clara jerarquı́a
∆E2 << ∆E1 << ∆E0
los efectos del campo magnético son en la práctica mucho menores que los del campo eléctrico interno, además
será en general suficiente tener en cuenta solo el término H 1 y el término H2 solo se tendrá en cuenta cuando H1 se
anule.
Aunque el término H1 es más importante, analizaremos primero el término H 2 ya que esto permitirá justificar
algunas aproximaciones que se usan cuando solo se considera H 1
14.2. ÁTOMO DE HIDRÓGENO EN UN CAMPO MAGNÉTICO UNIFORME: PARAMAGNETISMO, DIAMAGNE

14.2.3. Término diamagnético


Hemos dicho que solo consideraremos el efecto de H 2 cuando se anule el efecto de H1 . Tal es el caso cuando
tenemos un estado de momento angular cero en el átomo de Hidrógeno. En la sección 14.1.1 vimos que la presencia de
un campo magnético uniforme modifica la corriente de probabilidad asociada al electrón. Esta corriente tiene simetrı́a
axial con respecto al eje B. La corriente gira como un todo alrededor de B en la dirección horaria (antihoraria)
cuando q > 0 (q < 0). La corriente eléctrica que se genera tiene asociado un momento magnético hM 2 i que como
veremos es antiparalelo a B y por tanto está asociado a una energı́a de acople positiva que explica el origen del
término H2 .
Para ver esto recurrimos a calcular clásicamente el momento magnético M 2 asociado a una carga q en movimiento
circular de radio r. Si la velocidad de la carga es v su movimiento equivale a una corriente de la forma
v
i=q
2πr
la superficie definida por el circuito es S = πr 2 de modo que el momento magnético está dado por
qrv
|M| = |i × S| = (14.18)
2
ahora bien el momento angular λ̃ viene dado por
~λ = r × me v = r × (P − qA (r)) = L
~ − qr × A (r)
~ es el momento angular canónico. Puesto que la velocidad es tangencial, la magnitud de ~λ está dada por
donde L

~
|λ| = L − qr × A (r) = me rv

podemos escribir la Ec. (14.18) en la forma


~ = q q h~ i
M λ̃ = L − qr × A (r) (14.19)
2me 2me
puesto que estamos estudiando el caso L = 0, usando el gauge (14.11) el momento magnético queda 3
2 2 2  
~ 2 = − q r × A (r) = q r × (r × B) = q
M (r · B) r − r2 B
2me 4me 4me
vemos que M ~ 2 es proporcional a B. Por otro lado, si bien M ~ 2 no es colineal con B, es fácil ver que en el estado
base del átomo de hidrógeno (en el cual L ~ = 0), el valor esperado de M2 (donde M2 es la cuantización de M ~ 2 ) es
~
antiparalelo a B. En consecuencia, M2 representa el momento magnético inducido por B en el átomo . Su energı́a4

de acople con B viene dada por


Z B 2 
 
W2 = − M~ 2 B0 · dB0 = − 1 M ~ 2 (B) · B = − 1 q (r · B) r − r2 B · B
0 2 2 4me
" #
q 2 h i q 2 B 2 (r · B) 2
W2 = r2 B2 − (r · B)2 = r2 −
8me 8me B2

y usando la Ec. (14.17) tenemos


q2 2 2
W2 =
r B
8me ⊥
cuya cuantización conduce al Hamiltoniano H 2 descrito en la Ec. (14.16). Vemos entonces que H 2 describe el acople
entre el campo B y el momento magnético M ~ 2 inducido por B en el átomo. Puesto que de acuerdo con la ley de
Lenz el momento inducido se opone al campo aplicado 5 , la energı́a de acople es positiva. H 2 se denomina el término
diamagnético del Hamiltoniano.
3
Debe tenerse en cuenta que cuando m = 0, el momento angular que se anula es el canónico y no el mecánico. Esto tiene que ver con
el hecho de que es el momento angular canónico el que se cuantiza.
4
Vale recordar que la modificación de la corriente (con respecto a la que se genera para el átomo libre) se forma gracias al campo
eléctrico transiente que se induce cuando se conecta el campo magnético. Además, en el estado base no hay corriente ni momento dipolar
magnético permanente.
5
En realidad se opone al cambio de flujo, pero cuando el campo se conecta aumenta desde cero hacia B de modo que el aumento de
flujo va en la dirección del campo.
322CAPÍTULO 14. CORRIENTES DE PROBABILIDAD EN ÁTOMOS HIDROGENOIDES, ACOPLES CON CAMP

14.2.4. Término paramagnético


Asumiremos ahora que L ~ 6= 0 de modo que el Hamiltoniano H1 es el dominante (con respecto a H2 ). La relación
(14.19) nos indica la relación general entre el momento angular canónico λ y el momento magnético M. ~ Por otro
~ ~
lado, hemos demostrado que la contribución de H 2 sobre M está dada por la Ec. (14.19) con L = 0. Por tanto para
L~ 6= 0 tal ecuación se puede escribir como

q ~ 2
~ =M
M ~ 1 +M
~2 ; ~1≡
M L , ~ 2 ≡ − q r × A (r)
M
2me 2me
pero el análisis numérico indica que para el átomo de hidrógeno, la contribución del Hamiltoniano H 1 domina sobre
la contribución de H2 siempre que la primera sea no nula (i.e. L ~ 6= 0). Por lo tanto, si L
~ 6= 0 podemos aproximar el
momento magnético en la forma
~ 'M
M ~1= q L ~ (14.20)
2me
de modo que L ~ es prácticamente paralelo a M~ y ambos son perpendiculares al plano de la órbita clásica. La energı́a
de acople con B está dada por
W1 = − M ~1·B (14.21)
Al cuantizar las relaciones (14.20, 14.21) se obtiene
q q
M1 = L ; H1 = −M1 · B = − L·B (14.22)
2me 2me
que coincide con la Ec. (14.16), de modo que el Hamiltoniano H 1 corresponde al acople entre el campo magnético
B y el momento magnético atómico permanente puesto que M 1 es independiente de B, es decir M1 existe aunque
no exista campo magnético. En consecuencia, M 1 se genera a través de la corriente asociada al átomo de Hidrógeno
libre (ver sección 14.1).
De acuerdo con la Ec. (14.22), los autovalores del operador M 1 vienen dados por
 
q
m~ ≡ mµB
2me
de modo que µB es el “cuanto fundamental” de momento magnético como lo es ~ del momento angular. Es este
hecho lo que le da relevancia al magnetón de Bohr µ B . Más adelante veremos que además del momento angular
orbital L, el electrón posee un momento angular intrı́nseco o espı́n S, que también posee un momento magnético
asociado MS proporcional a S en la forma
µB
MS = 2 S
~
de hecho la necesidad de introducir este momento magnético adicional para explicar la estructura fina del átomo de
Hidrógeno, es una de las evidencias experimentales de la existencia del espı́n del electrón (ver sección 15.4.2).
Finalmente, es importante mencionar que el dominio de los efectos paramagnéticos sobre los diamagnéticos
(cuando los primeros son no nulos) se debe al pequeño tamaño del radio atómico, que a su vez genera una superficie
y un flujo muy pequeños. Por ejemplo, para un electrón libre sometido a un campo magnético, las contribuciones
paramagnética y diamagnética tienen la misma importancia relativa.

14.3. Efecto Zeeman


Hemos visto los nuevos términos que aparecen en el Hamiltoniano del átomo de Hidrógeno cuando se introduce
un campo magnético uniforme. A continuación veremos como estos nuevos términos modifican el espectro del átomo
de Hidrógeno. En particular, examinaremos la forma en que se modifica la emisión de la lı́nea óptica conocida como
o
la “lı́nea de resonancia” (λ ' 1200A) con la inclusión del campo magnético. Veremos que no solo se cambia la
frecuencia sino también la polarización de las lı́neas atómicas. Esto se conoce como efecto Zeeman.
Sin embargo, es necesario aclarar que para predecir el espectro real es necesario incluı́r el momento angular
intrı́nseco o espı́n del electrón (e incluso del protón) del cual surge la estructura fina e hiperfina del espectro y
modifica sustancialmente las componentes de la lı́nea de resonancia. A esto se le conoce usualmente como efecto
Zeeman anómalo. No obstante, la discusión que realizaremos aquı́ será válida cualitativamente.
14.3. EFECTO ZEEMAN 323

14.3.1. Corrimiento de los niveles atómicos con la corrección paramagnética


Estudiaremos la transición entre el estado base y el estado más bajo con momento angular no nulo es decir
entre los niveles 1s (n = 1, l = m = 0) y 2p (n = 2, l = 1, m = 1, 0, −1) 6 . Esta transición corresponde a la lı́nea
de resonancia del átomo de hidrógeno. Aunque el momento angular en el estado base es cero, no lo es en el estado
2p, por tanto despreciaremos la respuesta diamagnética cuando se coloca un campo magnético B, incluyendo solo
las correcciones de H1 . Si denotamos |ϕn,l,m i los estados comunes de H0 , L2 y L3 , se puede ver de inmediato que si
B = Bu3 entonces |ϕn,l,m i también es autoestado del Hamiltoniano perturbado H 0 + H1

µB   µB 
(H0 + H1 ) |ϕn,l,m i = H0 −
L · B |ϕn,l,m i = H0 − BL3 |ϕn,l,m i
~ ~
(H0 + H1 ) |ϕn,l,m i = (En − mµB B) |ϕn,l,m i

por tanto si ignoramos el término diamagnético, los |ϕ n,l,m i son aún estados estacionarios de H 0 + H1 , solo se
modifican los valores de energı́a. Calculemos el espectro de los estados involucrados en la lı́nea de resonancia

(H0 + H1 ) |ϕ1,0,0 i = E1 |ϕ1,0,0 i = −EI |ϕ1,0,0 i ; (H0 + H1 ) |ϕ2,1,m i = (E2 − mµB B) |ϕ2,1,m i
 
EI
(H0 + H1 ) |ϕ1,0,0 i = − − mµB B |ϕ2,1,m i
4

el nivel de energı́a 2p en presencia de B suele escribirse en la forma


 
B EI 3 q~ 3EI qB
E2p = − − mµB B = −EI + EI − m B = −EI + ~ + m~ −
4 4 2me 4~ 2me
B 3EI E2 − E 1
E2p = −EI + ~ (Ω + mωL ) ; Ω ≡ =
4~ ~
donde Ω es claramente la frecuencia de la lı́nea de resonancia en ausencia de B. En tanto que en presencia de B tal
frecuencia de resonancia es (Ω + mωL ).

14.3.2. Oscilaciones dipolares eléctricas


El momento dipolar eléctrico cuantizado del átomo está dado por

D = qR

para calcular el valor esperado hDi calculamos los elementos matriciales de B. Bajo paridad el operador D se
transforma a −D (ya que bajo paridad R → −R y q → q). El momento dipolar es por tanto un operador impar.
Adicionalmente los estados ϕn,l,m (r) tiene paridad bien definida en la base |ri, esto se debe a que los armónicos
esféricos tiene paridad definida teniendo paridad +1 (−1) para l par (impar). En particular se tiene que


hϕ1,0,0 | D |ϕ1,0,0 i = ϕ2,1,m0 D |ϕ2,1,m i = 0 ; ∀m, m0 (14.23)

los elementos de matriz no nulos asociados a la lı́nea de resonancia son entonces no-diagonales. Para calcular los
elementos de matrix hϕ2,1,m | D |ϕ1,0,0 i = q hϕ2,1,m | R |ϕ1,0,0 i escribiremos a x1 , x2 , x3 en términos de armónicos
esféricos
r

x1 = r sin θ cos ϕ = r [Y1,−1 (θ, ϕ) − Y1,1, (θ, ϕ)] (14.24)
3
r

x2 = r sin θ sin ϕ = ir [Y1,−1 (θ, ϕ) + Y1,1 (θ, ϕ)] (14.25)
3
r

x3 = r cos θ = r Y1,0 (θ, ϕ) (14.26)
3
6
La transición más baja corresponde al paso de 1s a 2s pero en este caso la respuesta diamagnética es dominante ya que el momento
angular en cero en ambos estados.
324CAPÍTULO 14. CORRIENTES DE PROBABILIDAD EN ÁTOMOS HIDROGENOIDES, ACOPLES CON CAMP

el cálculo de los elementos matriciales involucra una integral radial y una angular, en virtud de la separabilidad de
las funciones de onda estacionarias. La integral radial la definimos como una cantidad χ

Z ∞
χ≡ R2,1 (r) R1,0 (r) r 3 dr (14.27)
0

la parte angular consiste en productos escalares de armónicos esféricos que se pueden calcular fácilmente debido a
sus propiedades de ortogonalidad. Por ejemplo, calculemos el elemento matricial hϕ 2,1,1 | Dx1 |ϕ1,0,0 i en la base {|ri},
para lo cual aplicamos la Ec. (5.3)

Z
hϕ2,1,1 | Dx1 |ϕ1,0,0 i = q hϕ2,1,1 | X1 |ϕ1,0,0 i = q ϕ∗2,1,1 (r) x1 ϕ1,0,0 (r) d3 r
Z ( r )
 ∗
 2π
= q R2,1 (r) Y1,1 (θ, ϕ) r [Y1,−1 (θ, ϕ) − Y1,1, (θ, ϕ)] [R1,0 (r) Y0,0 (θ, ϕ)] r 2 dr dΩ
3
r Z  Z 

2π 3 ∗
= q R2,1 (r) R1,0 (r) r dr dΩ Y1,1 (θ, ϕ) [Y1,−1 (θ, ϕ) − Y1,1, (θ, ϕ)] Y0,0 (θ, ϕ)
3 0
r Z 
2π  ∗ ∗
 1
= q χ dΩ Y1,1 (θ, ϕ) Y1,−1 (θ, ϕ) − Y1,1 (θ, ϕ) Y1,1, (θ, ϕ) √
3 4π
q
= √ χ {δ1,1 δ1,−1 − δ1,1 δ1,1 }
6
q
hϕ2,1,1 | Dx1 |ϕ1,0,0 i = −√ χ
6

donde hemos usado las Ecs. (14.24, 14.27) y la ortonormalidad de los armónicos esféricos. Procediendo de manera
similar con los otros elementos matriciales se obtiene


hϕ2,1,1 | Dx1 |ϕ1,0,0 i = − hϕ2,1,−1 | Dx1 |ϕ1,0,0 i = − √ ; hϕ2,1,0 | Dx1 |ϕ1,0,0 i = 0 (14.28)
6
iqχ
hϕ2,1,1 | Dx2 |ϕ1,0,0 i = hϕ2,1,−1 | Dx2 |ϕ1,0,0 i = √ ; hϕ2,1,0 | Dx2 |ϕ1,0,0 i = 0 (14.29)
6

hϕ2,1,1 | Dx3 |ϕ1,0,0 i = hϕ2,1,−1 | Dx3 |ϕ1,0,0 i = 0 ; hϕ2,1,0 | Dx3 |ϕ1,0,0 i = √ (14.30)
3

se concluye que si el sistema está en un estado estacionario, la cantidad hDi es cero ya que los elementos diagonales
se anulan. Supondremos entonces que el sistema está inicialmente en una superposición del estado base 1s y uno de
los estados 2p.

ψ (0) = cos α |ϕ1,0,0 i + sin α |ϕ2,1,m i

donde m asume uno de sus valores permitidos 1, 0, −1. Consideraremos a α como un parámetro real, aplicando la
evolución temporal de un sistema conservativo calculamos la evolución temporal de este estado

|ψm (t)i = eiEI t/~


cos α |ϕ1,0,0 i + ei[EI −~(Ω+mωL )] t/~ sin α |ϕ2,1,m i
n o
= eiEI t/~
cos α |ϕ1,0,0 i + e−i(Ω+mωL ) t sin α |ϕ2,1,m i
|ψm (t)i = cos α |ϕ1,0,0 i + e−i(Ω+mωL ) t sin α |ϕ2,1,m i (14.31)

donde hemos omitido la fase global irrelevante en el último paso. Calcularemos hDi cuando el sistema está en el
estado |ψm (t)i en el tiempo t. Usando las Ecs. (14.23, 14.28, 14.29, 14.30, 14.31), obtendremos el valor esperado de
14.3. EFECTO ZEEMAN 325

D para los casos m = 1, 0, −1. Para m = 1 obtenemos


h i h i
hψm=1 (t)| Dx1 |ψm=1 (t)i = cos α hϕ1,0,0 | + ei(Ω+ωL ) t sin α hϕ2,1,1 | Dx1 cos α |ϕ1,0,0 i + e−i(Ω+ωL ) t sin α |ϕ2,1,1 i
= cos2 α hϕ1,0,0 | Dx1 |ϕ1,0,0 i + e−i(Ω+ωL ) t cos α sin α hϕ1,0,0 | Dx1 |ϕ2,1,1 i
+ei(Ω+ωL ) t sin α cos α hϕ2,1,1 | Dx1 |ϕ1,0,0 i + sin2 α hϕ2,1,1 | Dx1 |ϕ2,1,1 i
qχ qχ
= − √ e−i(Ω+ωL ) t sin 2α − √ ei(Ω+ωL ) t sin 2α
2 6 2 6
" #
qχ e −i(Ω+ω L ) t + ei(Ω+ωL ) t
= − √ sin 2α
6 2

hψm=1 (t)| Dx1 |ψm=1 (t)i = − √ sin 2α cos [(Ω + ωL ) t]
6
y se procede de manera similar com m = 0, −1. Los resultados son:
qχ qχ
hDx1 im=1 = − √ sin 2α cos [(Ω + ωL ) t] ; hDx2 im=1 = − √ sin 2α sin [(Ω + ωL ) t] ; hDx3 i1 = 0 (14.32)
6 6

hDx1 im=0 = hDx2 im=0 = 0 ; hDx3 im=0 = √ sin 2α cos Ωt (14.33)
3
qχ qχ
hDx1 im=−1 = √ sin 2α cos [(Ω − ωL ) t] ; hDx2 im=−1 = − √ sin 2α sin [(Ω − ωL ) t] ; hDx3 im=−1 (14.34)
=0
6 6
estas ecuaciones muestran que: (a) El vector hDi m=1 (t) rota en el plano X1 X2 alrededor de X3 , en dirección
antihoraria con velocidad angular Ω + ω L .(b) El vector hDim=0 (t) oscila a lo largo de X3 con frecuencia angular Ω.
(c) El vector hDim=−1 (t) rota en el plano X1 X2 alrededor de X3 pero en dirección horaria con velocidad angular
Ω − ωL .

14.3.3. Frecuencia y polarización de la radiación emitida


En los tres casos m = 1, 0, −1; el valor medio del dipolo eléctrico es una función oscilante del tiempo. Por lo
tanto, dicho dipolo debe radiar.
Puesto que las dimensiones atómicas son mucho menores que la longitud de onda óptica, la radiación de los
átomos a grandes distancias se puede tratar como la de un dipolo puntual. Asumiremos que la radiación emitida o
absorbida por el átomo durante la transición entre el estado |ϕ 2,1,m i y el estado base, se puede predecir correctamente
utilizando la teorı́a clásica de la radiación. Un tratamiento riguroso del problema requiere la cuantización del campo
electromagnético (electrodinámica cuántica), que predice el comportamiento de los fotones y la forma en que estos se
emiten en la radiación. Sin embargo, los resultados obtenidos por el método semi-clásico que abordaremos (en donde
la materia se trata cuánticamente y la radiación se trata clásicamente), predicen la distribución de la radiación en
muy buena aproximación.
Supondremos que tenemos una muestra que contiene un gran número de átomos de hidrógeno y que los excitamos
de alguna manera7 al estado 2p. En la mayorı́a de experimentos la excitación de los átomos es isotrópica y los tres
estados |ϕ2,1,m i ocurren con la misma probabilidad. En primer lugar, estudiaremos la distribución angular de la
radiación y de la polarización para cada m fijo, y posteriormente se superponen los resultados para encontrar el
espectro que se observa.
Cuando m = 1, la frecuencia angular de la radiación emitida es Ω + ω L según la Ec. (14.32). De modo que el
campo magnético corre ligeramente la frecuencia de la lı́nea óptica (recordemos que Ω es la frecuencia de la lı́nea
óptica en ausencia de B). De acuerdo con la teorı́a electromagnética clásica, un dipolo rotante como hDi 1 (t) emite
radiación en la dirección u3 con polarización circular de helicidad positiva σ + . Por otro lado, la radiación emitida
en el plano X1 X2 está linealmente polarizada (paralela a este plano) en otras direcciones la polarización es elı́ptica.
Para m = 0, el dipolo oscila linealmente en la dirección u 3 . Las Ecs. (14.33) muestran que la frecuencia angular
es Ω, es decir igual a la asociada a la ausencia de B, esto se debe a que el corrimiento de la frecuencia debida al
campo es proporcional a m. En este caso la electrodinámica clásica predice que su polariación es lineal en todas las
7
Por ejemplo, haciendo incidir un haz de luz muy monocromática cuyos fotones tengan una energı́a igual a la necesaria para realizar
la transición 1s → 2p.
326CAPÍTULO 14. CORRIENTES DE PROBABILIDAD EN ÁTOMOS HIDROGENOIDES, ACOPLES CON CAMP

direcciones. En particular, para una dirección de propagación sobre el plano X 1 X2 , esta polarización es paralela a
u3 (polarización π). Además no se emite radiación en la dirección u 3 , ya que un dipolo que oscila linealmente no
radı́a en la dirección de su eje de oscilación.
En el caso m = −1, las Ecs. (14.34) muestra que la frecuencia angular de la radiación emitida es Ω − ω L . La
dsitribución angular de la radiación es similar al caso m = 1. Sin embargo, puesto que el dipolo hDi m=−1 gira en la
dirección opuesta a hDim=1 , la polarización elı́ptica y circular tiene helicidad opuesta a la correspondiente a m = 1.
Si ahora asumimos que hay un número igual de átomos con m = 1, 0, −1, tenemos que se emiten tres frecuencias
bien definidas en todas direcciones (Ω+mω L con m = 1, 0, −1). La polarización asociada a m = 0 es lineal y la de las
otras dos es en general elı́ptica. Nótese que en la dirección de propagación perpendicular a B las tres polarizaciones
son lineales, la de m = 0 está polarizada en la dirección de B y las otras dos en dirección perpendicular a B. Las Ecs.
(14.32, 14.33, 14.34) nos muestran además que la intensidad de la lı́nea central m = 0 es dos veces la de cada una de
las lı́neas corridas. En la dirección paralela a B solo hay radiación debida a m = ±1 con frecuencias (Ω ± ω L ) /2π,
ambas asociadas a polarización circular pero de helicidad opuesta σ ± .
Hemos visto que un campo magnético constante remueve parcialmente la degeneración asociada a la energı́a de
un átomo de hidrógeno, ya que la energı́a ahora depende de los números cuánticos n y m. Es este efecto el que le
da el nombre de número cuántico magnético al valor propio de L 3 (y de cualquier momento angular J3 ).
Capı́tulo 15

Momento angular intrı́nseco

15.1. Comportamiento clásico de átomos paramagnéticos inmersos en un


campo magnético
Asumamos que el átomo bajo estudio es neutro de modo que no está sujeto a la fuerza de Lorentz cuando se
le aplica un campo magnético B. Para una gran cantidad de átomos neutros inmersos en un campo magnético B,
es posible demostrar que el momento dipolar magnético electrónico (primer término en la expansión multipolar
magnética de la distribución) es proporcional al momento angular electrónico para un nivel atómico dado 1

~ = γL
M (15.1)

la constante de proporcionalidad se denomina factor giromagnético del nivel bajo consideración. La fuerza resultante
F sobre el átomo neutro se puede obtener de una energı́a potencial W
 
W = −M ~ ·B ; F=∇ M ~ ·B

El torque asociado (tomando el origen en la posición del centro del átomo) es

~ ×B
~τ = M

y puesto que el teorema del momento angular nos dice que

dL
= ~τ
dt
se tiene que
dL ~ × B = γL × B
=M
dt
esto nos muestra que L es perpendicular a su razón de cambio y adicionalmente, la razón de cambio es perpendicular
al campo magnético B. Si B es constante en el tiempo en el punto donde se evalúa, esto indica que L no cambia de
magnitud y precesa alrededor del eje definido por el campo magnético, el ángulo θ entre B y L permanece constante
y la velocidad angular de precesión es ω = γ |B|. Ahora bien, puesto que M ~ es paralelo a L y sus magnitudes están
relacionadas por una constante, concluı́mos que también M ~ conserva su magnitud y precesa con el mismo ángulo
θ y la misma velocidad angular ω alrededor de B.
Si definimos al eje X3 a lo largo de B, para calcular la fuerza F podremos en buena aproximación despreciar en
W los términos proporcionales a M1 y M2 tomando a M3 como constante. Esto se debe a la tendencia natural de
los átomos a alinear su momento magnético con el campo magnético, si bien existen componentes “laterales” M 1 y
M2 estas tienden a cancelarse cuando se toma un promedio temporal que comprenda muchos periodos de precesión
y dado que las frecuencias de precesión son tan altas, solo estos promedios temporales de M 1 y M2 juegan un
papel en W y estos promedios son cero, ya que todas las direcciones ocurren en la precesión con igual magnitud.
1
Antes del advenimiento de la teorı́a cuántica, la espectroscopı́a permitı́a distinguir entre diferentes estados de un átomo.
328 CAPÍTULO 15. MOMENTO ANGULAR INTRÍNSECO

Adicionalmente, cuando se tiene en cuenta el efecto sobre muchas partı́culas, la cancelación estadı́stica funciona aún
mejor. La fuerza será entonces aproximadamente

F = ∇ (M3 B3 ) = M3 ∇B3

nótese que la fuerza resultante serı́a cero si el campo es uniforme independientemente de su intensidad. Por tanto,
una fuerza significativa requiere un alto gradiente del campo. Si asumimos por simplicidad que B 3 solo varı́a a lo
largo de X3 , es decir si ∂B3 /∂x1 = ∂B3 /∂x2 = 0 la fuerza sobre el átomo será paralela al eje X 3 y proporcional
a M3 . Si asumimos que tenemos una gran cantidad de átomos, se espera que los momentos magnéticos de éstos
estén orientados aleatoriamente antes de la aplicación del campo, pues tales orientaciones estarán dictaminadas por
fluctuaciones térmicas que son de naturaleza aleatoria 2 . Por tanto, antes de la aplicación del campo todos los valores
de M3 entre − |M| y |M| están presentes, en otras palabras, el ángulo θ entre B y M ~ puede tomar cualquier valor
entre 0 y π.

15.2. Experimento de Stern-Gerlach

Figura 15.1: (a) En el experimento de Stern-Gerlach, los átomos de plata que se emiten a alta temperatura del horno
E son colimados en F para luego ser deflectados por el gradiente de campo magnético creado por el electroimán A.
Finalmente, el átomo es registrado en el punto N de la pantalla P. (b) Vista frontal del electroimán. El haz incide
sobre el eje X2 .

Stern y Gerlach realizaron un experimento en 1922 para estudiar la deflexión de un haz de átomos neutros
paramagnéticos en un campo magnético de alto gradiente.
El montaje se muestra en la Fig. 15.1a. En un horno E se colocan átomos neutros de plata (que son param-
agnéticos) y se calientan a alta temperatura, luego se dejan escapar por un pequeño agujero y se propagan en lı́nea
recta en el alto vacı́o del montaje. El agujero colimador permite solo el paso de átomos en cierta dirección que
elegimos como eje X2 . El haz colimado en esta forma entra entonces a un electroimán A para ser deflectado antes
de impactar la pantalla P .
2
Esto implica despreciar posibles correlaciones entre los diferentes momentos magnéticos de los átomos.
15.3. RESULTADOS DEL EXPERIMENTO Y EL MOMENTO ANGULAR INTR ÍNSECO 329

De acuerdo con la teorı́a clásica, si queremos producir una deflexión apreciable, el electroimán debe producir un
campo B de alto gradiente. Una forma de lograrlo es a través de un imán configurado como se ilustra en la Fig.
15.1b. El campo magnético generado tiene un plano de simetrı́a (el plano X 2 X3 ) que contiene la dirección inicial del
haz colimado. Si despreciamos efectos de borde el campo magnético no tiene componente en la dirección X 2 , por
tanto el efecto sobre el haz es el mismo en cualquier punto sobre el eje X 2 dentro del electroimán. La componente
más grande de B es en la dirección de X 3 , además la variación del campo a lo largo de X 3 es muy fuerte, esto
ocurre gracias a la configuración angulosa del polo norte que produce una gran acumulación de lı́neas de campo
en la vecindad del ángulo, en tanto que en el polo sur la densidad de lı́neas es mucho menor. Puesto que el campo
magnético es solenoidal (∇ · B = 0), este debe adquirir una componente en la dirección X 1 que varı́a con la distancia
x1 al plano de simetrı́a X2 X3 .
La simetrı́a del electroimán muestra claramente que ∂B 3 /∂x2 = 0 ya que el campo magnético no depende de
x2 . Además ∂B3 /∂x1 = 0 en todos los puntos del plano de simetrı́a X 2 X3 .
En virtud de que el experimento reúne todas las condiciones descritas en la sección 15.1, concluı́mos que la
deflexión HN de un átomo que golpea la pantalla es proporcional a M 3 y por tanto a L3 . En consecuencia,
medir HN es equivalente a medir M3 ó L3 . Puesto que los momentos magnéticos de los átomos de plata estaban
distribuı́dos isotrópicamente antes de entrar en el electroimán, los valores de M 3 toman todos los valores posibles
(para una gran cantidad de átomos) entre − |M| y |M|. Por tanto, esperamos que se forme sobre la pantalla un
patrón contı́nuo simétrico con respecto a H, sobre la pantalla P . En otras palabras, se espera que haya impactos
sobre todos los puntos en el intervalo N 1 , N2 de manera mas o menos uniforme, donde N 1 (cota máxima) corresponde
al caso en que M3 toma el valor máximo M3 = |M| y N2 corresponde al caso en el cual M3 toma el valor mı́nimo
M3 = − |M|. Desde el punto de vista experimental efectos tales como la dispersión de las velocidades y el tamaño
finito del colimador ocasionarán que átomos con el mismo valor de M 3 no golpeen en el mismo punto, sino en
una vecindad de un punto que corresponde a la velocidad promedio de una partı́cula que pasa por el centro del
colimador. Por tanto el resultado clásico predice una distribución como la lı́nea punteada de la Fig. 15.2, que va un
poco más allá de N1 y N2 por aspectos experimentales.

15.3. Resultados del experimento y el momento angular intrı́nseco


En el experimento no se observó una distribución homogénea a lo largo de [N 1 , N2 ] como predecı́a el modelo
clásico. Lo que se observó fueron dos manchas bien definidas centradas en N 1 y N2 simétricas con respecto a H,
como lo muestran las lı́neas contı́nuas de la Fig. 15.2. Puesto que el ancho de estas manchas era mucho menor que el
ancho de N1 y N2 ; esto hacı́a sospechar que la deflexión estaba “cuantizada” en dos haces bien definidos. Este hecho
se puede confirmar disminuyendo el tamaño del colimador y/o disminuyendo la dispersión de velocidades del haz
(con un filtro de velocidades colocado antes del electroimán). Si la cuantización existe, lo anterior debe disminuir el
ancho de las manchas alrededor de N1 y N2 . La formación de dos zonas de impacto “cuantizadas” está en franca
contradicción con la teorı́a clásica.
Podrı́a pensarse por ejemplo que esta cuantización proviene de la cuantización del momento angular clásico (que
a su vez conducirı́a a la cuantización de M si asumimos que se mantiene la relación 15.1) hay varias razones para
rechazar este hipótesis como veremos a continuación.
En primer lugar, mostraremos que bajo las condiciones de este experimento no es necesario tratar los grados de
libertad de posición y momento cuánticamente. Para esto debemos verificar que para describir el movimiento de los
átomos de plata, es posible construı́r paquetes de onda cuyo ancho ∆x 3 y cuya dispersión ∆p3 sean completamente
despreciables con respecto a la escala de longitudes y momentos que se manejan en el experimento. Estos anchos
deben cumplir el principio de incertidumbre
∆x3 ∆p3 & ~

la masa M de un átomo de plata es de 1,8 × 10 −25 kg. Los anchos ∆x3 y ∆v3 = ∆p3 /M deben ser tales que

~
∆x3 ∆v3 & ' 10−9 M.K.S.A. (15.2)
M
ahora veamos cuales son las longitudes y velocidades tı́picas en el experimento. El ancho del colimador F es de
unos 10−4 m, la separación entre N1 y N2 entre las manchas es de varios milı́metros. La distancia sobre la cual
330 CAPÍTULO 15. MOMENTO ANGULAR INTRÍNSECO

Figura 15.2: La lı́nea contı́nua nos muestra las dos manchas bien localizadas alrededor de los puntos N 1 y N2 , que
se obtuvieron en el experimento de Stern-Gerlach. La lı́nea punteada nos muestra la predicción clásica.

el campo magnético varı́a apreciablemente se puede deducir de los valores del campo en medio del electroimán
(B ' 104 gauss) y su gradiente (∂B/∂x3 ' 105 gauss/cm), que nos da

B
' 10−3 mt
∂B/∂x3

ahora la velocidad de un átomo de plata que abandona el horno a una temperatura de 10 3 K es del orden de 500m/s.
Para haces bien colimados, la dispersión de las velocidades a lo largo de X 3 no es mucho menor a varios metros por
segundo. De lo anterior, es posible encontrar valores de ∆x 3 y ∆v3 que satisfagan la relación (15.2) que proviene
de la relación de incertidumbre, y que al mismo tiempo sean mucho menores que todas las escalas de longitud y
velocidad del experimento. Por tanto, los observables r y p se pueden tratar como clásicos y podemos pensar en
paquetes casi puntuales que se mueven sobre trayectorias clásicas. La cuantización de estos observables (o de otros
que dependan de éstos como el momento angular) darı́a una enorme cantidad de valores propios que simuları́an un
contı́nuo, esto estarı́a muy lejos de explicar una cuantización tan drástica en tan solo dos estados.
Una segunda razón es que los momentos angulares orbitales cuánticos l (l + 1) ~ 2 solo pueden tener valores de l
enteros. Esto implica que el número de proyecciones posibles a lo largo de X 3 para un l dado, es siempre un número
impar (2l + 1). Lo anterior entrarı́a en conflicto con la idea de tener un número par de “auto resultados” que en
este caso son dos.
Si asumimos que la deflexión aún se da por el acople del campo con un momento angular (es decir que aún hay
un momento angular que cumpla la Ec. 15.1) este momento angular debe tener solo dos proyecciones posibles a lo
largo de X3 , es decir
2j + 1 = 2
15.4. EVIDENCIA EXPERIMENTAL DEL MOMENTO ANGULAR INTR ÍNSECO DEL ELECTRÓN 331

lo cual nos lleva a j = 1/2. De esto se concluye que si el observable asociado a la deflexión observada es aún un
momento angular, no puede ser un momento angular orbital, ya que para éstos los valores semienteros están excluı́dos
por razones de periodicidad. El observable asociado no proviene entonces de la cuantización de un momento angular
clásico y se conoce como momento angular intrı́nseco o espı́n.

15.4. Evidencia experimental del momento angular intrı́nseco del electrón


Existen numerosas evidencias experimentales de la existencia del espı́n en los electrones. En particular, las
propiedades magnéticas de muchas sustancias requieren tener en cuenta esta propiedad. A manera de ejemplo, la
explicación del ferromagnetismo requiere el espı́n del electrón como componente esencial.
En esta sección solo citaremos dos propiedades a nivel atómico que evidencian la existencia de un momento
angular intrı́nseco del electrón: La estructura fina de las lı́neas espectrales atómicas y el efecto Zeeman anómalo

15.4.1. Estructura fina de las lı́neas espectrales

La teorı́a del átomo de Hidrógeno desarrollada en el capı́tulo 13 consideró al electrón como una partı́cula puntual
cuyo estado se puede describir con una función de onda espacial ϕ (x, y, z). Los resultados obtenidos en el capı́tulo
13 describen el espectro de emisión y absorción del átomo de Hidrógeno con buena precisión, ası́ como los niveles
de energı́a y las reglas de selección que nos indican las frecuencias de Bohr permitidas en el espectro.
Sin embargo, un estudio de alta resolución del espectro nos revela ciertas diferencias que aunque pequeñas son
observables. Estas diferencias se deben principalmente a dos aspectos: las correcciones relativistas y los efectos de
introducir un campo magnético que interactúe con el átomo.
En lo que respecta a la estructura fina del espectro del átomo de hidrógeno, se observó que cada lı́nea posee
varias componentes, es decir para un nivel de energı́a dado n hay realmente varias energı́as muy cercanas entre sı́.
Por supuesto, las diferencias entre energı́as de un mismo nivel son mucho menores que las diferencias entre energı́as
de niveles distintos, razón por la cual la concordancia con los experimentos de baja resolución era buena. Por lo
tanto, debe introducirse alguna corrección a la teorı́a desarrollada en el capı́tulo 13 para explicar el desdoblamiento
de las lı́neas espectrales allı́ predichas.

15.4.2. Efecto Zeeman anómalo

Cuando un átomo se coloca en un campo magnético uniforme, cada una de las lı́neas (es decir, cada componente
de la estructura fina) se desdobla en ciertas lı́neas equidistantes, donde la brecha es proporcional al campo magnético,
esto se conoce como efecto Zeeman. Este efecto se puede explicar usando el formalismo cuántico hasta ahora descrito.
La explicación teórica se basa en la relación del momento dipolar magnético M con el momento angular orbital del
electrón
µB q~
M= L ; µB = (15.3)
~ 2me

donde µB se conoce como el “magnetón de Bohr”. Sin embargo, la teorı́a presentada en el capı́tulo 13 solo está en
concordancia con el experimento en algunos casos que llamaremos “efecto Zeeman” normal. En otros casos, sin
embargo aparece un “efecto Zeeman anómalo” que resulta particularmente sustancial en átomos con número atómico
impar (en particular, el átomo de Hidrógeno), ya que sus niveles se dividen en un número par de subniveles en tanto
que la teorı́a predice que el número de subniveles debe ser impar ya que es igual a 2l+1 con l entero. Si asumimos que
en el efecto Zeeman anómalo el desdoblamiento continúa siendo generado por un momento angular J 2 , es necesario
que el valor propio j (j + 1) ~2 de este momento angular corresponda a j semi-entero para poder explicar que el
número de subniveles 2j + 1 sea par.
Nótese que un experimento del tipo Stern-Gerlach no serı́a práctico para la medición del momento angular
electrónico debido a que el electrón tiene carga neta (monopolo eléctrico), y la interacción del momento dipolar
magnético del electrón con el campo es mucho más débil que la interacción de Lorentz descrita por qv × B.
332 CAPÍTULO 15. MOMENTO ANGULAR INTRÍNSECO

15.5. Introducción del momento angular intrı́nseco en el formalismo de la


mecánica cuántica no relativista
Para poder introducir el momento angular intrı́nseco en el formalismo no relativista de la mecanica cuántica
será necesario introducir algunos postulados adicionales. La teorı́a no relativista para incorporar al espı́n fué desar-
rollada por Pauli. Más adelante, Dirac desarrolló una teorı́a relativista que desembocó en la llamada ecuación de
Dirac, en la cual el espı́n aparece en forma natural debido a la covarianza de la ecuación con el grupo de transfor-
maciones de Lorentz. Si bien, el espı́n también se puede deducir de las transformaciones no relativistas del grupo
de Galileo, la aparición del espı́n es mucho más natural en las teorı́as relativistas.
Sin embargo, dado que la teorı́a de Pauli es más simple que la de Dirac y que estamos desarrollando una teorı́a
no relativista, introduciremos el espı́n con los postulados de Pauli.
Antes de Pauli, Uhlenbeck y Goudsmit en 1925 propusieron que el electrón poseı́a un efecto de rotación que
generaba un momento angular intrı́nseco que llamaron espı́n (del inglés spin que significa rotación o giro). Se postula
entonces que existe un momento dipolar magnético M S que esta asociado con el momento angular intrı́nseco o espı́n
(denotado por S) en la forma
µB
MS = 2 S (15.4)
~
que tiene la misma estructura que la relación (15.3) para el momento angular orbital, pero con un factor de dos, que
nos dice que el factor giromagnético de espı́n es dos veces mayor que el factor giromagnético orbital. Esta relación
se impuso por razones estrictamente fenomenológicas, con el fin de ajustar la concordancia teorı́a experimento.
Más adelante, Pauli estableció una forma de incorporar este momento angular intrı́nseco en el formalismo de la
mecánica cuántica no relativista agregando unos postulados sobre estos observables.
Hasta el momento, hemos cuantizado solo observables que dependen de los observables básicos R y P y que
denominaremos observables orbitales, lo cuales actúan en el espacio de estados E r que es isométrico e isomorfo
con el espacio F de las funciones de onda. Similarmente denominamos espacio orbital de estados a E r .
Dentro de los postulados de Pauli, añadiremos a estos observables orbitales un conjunto de observables de espı́n
en la siguiente forma
(I) El operador de espı́n S ≡ (S1 , S2 , S3 ) es un momento angular, es decir cumple con las reglas de conmutación
(10.6)
[Si , Sj ] = i~εijk Sk
(II) Estos operadores de espı́n actúan en un espacio de estados de espı́n E s , en el cual los observables S2 y
S3 constituyen un C.S.C.O. Por tanto, E s es expandido por los estados propios comunes de S 2 y S3

S2 |s, ms i = s (s + 1) ~2 |s, ms i ; S3 |s, ms i = ms ~ |s, ms i

de acuerdo con la teorı́a general del momento angular, sabemos que s debe ser entero o semientero y que m s toma
todos los valores incluı́dos entre −s y s en saltos de unidad. Sabemos también que m s es entero (semi-entero) si y
solo si s es entero (semi-entero).
III) Una partı́cula dada está caracterizada por un valor único de espı́n s y diremos que esta partı́cula tiene espı́n
s.
Puesto que {|s, ms i} con s fijo es una base para el espacio de estados de espı́n E s , dicho espacio es de dimensión
finita 2s + 1. Notese además que todos los elementos de E s son estados propios de S2 con el mismo valor propio
s (s + 1) ~2 .
IV) El espacio de estados E de una partı́cula es el producto tensorial 3 de Er con Es

E = E r ⊗ Es

consecuentemente, todos los observables de espı́n conmutan con todos los observables orbitales. Además excepto
para s = 0, esto implica que para la caracterización del estado de una partı́cula no será suficiente especificar un ket
de Er . Por ejemplo, los observables X1 , X2 , X3 constituyen un C.S.C.O. en Er pero no en E, para formar un C.S.C.O.
en E debemos agregar un C.S.C.O. del espacio E s , por ejemplo S2 y algún Si (usualmente S3 ).
3
Para detalles sobre productos tensoriales ver sección 1.32, page 61.
15.6. PROPIEDADES DE UN MOMENTO ANGULAR 1/2 333

Adicionalmente, de las propiedades del producto tensorial, el producto tensorial de los elementos de una base
{|ϕn i} en Er con los elementos de una base {χi } en Es será una base de E = Er ⊗ Es

{|ϕn , χi i} ≡ {|ϕn i ⊗ |χi i}

Esto implica que todo estado de una partı́cula es una combinación lineal de estos productos tensoriales
XX XX
|ψi = cn,i |ϕn , χi i = cn,i |ϕn i ⊗ |χi i ; cn,i = hϕn , χi |ψi
n i n i

debemos recordar sin embargo, que no todo estado |ψi ∈ E proviene del producto tensorial de un estado |ϕi ∈ E r
con un estado |χi ∈ Es . Es decir que la relación

|ψi = |ϕi ⊗ |χi ; |ϕi ∈ Er ; |χi ∈ Es ; |ψi ∈ E (15.5)

no es válida en general. Sin embargo, cuando la relación (15.5) es válida para un cierto |ψi es claro que
XX
|ψi = cn,i |ϕn , χi i ; cn,i = hϕn |ϕi hχi |χi
n i

Estos postulados conciernen a una teorı́a general de espı́n. El siguiente postulado está dirigido más especifica-
mente al espı́n del electrón
(V) El electrón es una partı́cula de espı́n 1/2 (s = 1/2) y su momento dipolar magnético intrı́nseco está dado
por
µB µB
MS = (2s + 1) S=2 S
~ ~
que coincide con (15.4).
Adicionalmente, los constituyentes nucleares (protones y neutrones) también son partı́culas de espı́n 1/2 aunque
su factor giromagnético es diferente al del electrón. También existen partı́culas de espı́n 0, 1/2, 1, 3/2, 2, ...
A priori podrı́amos estar tentados a pensar que el espı́n es un efecto del tamaño del electrón que genera la
posibilidad de que esta partı́cula produzca rotaciones. En tal caso, además de los observables de posición (del centro
de masa del electrón), será necesario añadir tres observables asociados a la rotación (por ejemplo una cuantización
adecuada de los ángulos de Euler). Sin embargo, las rotaciones espaciales deben cumplir relaciones de periodicidad
similares a las que se imponen para los armónicos esféricos, lo cual nos exige que s sea entero. La presencia de
espı́n semientero indica que este observable no tiene un origen rotacional, ni puede provenir de la cuantización de
un momento angular clásico que sea función exclusiva de R y P. En el presente tratamiento, el electrón continúa
siendo una partı́cula puntual y el espı́n no tiene análogo clásico.

15.6. Propiedades de un momento angular 1/2


Puesto que los electrones ası́ como los nucleones son partı́cula de espı́n 1/2, el espacio de estados E s=1/2 merece
especial atención. En esta sección nos ocuparemos de estudiar solo el espacio E 1/2 y en el siguiente nos ocuparemos
de caracterizar el espacio de estados completo E = E 1/2 ⊗ Er
El espacio de estados E1/2 es de dimensión dos. Los autoestados comunes de S 2 y S3 , que conforman una base
ortonormal en E1/2 están dados por
     
1 1 1
s = 1 , m s = 1 , s = 1 , m s = − 1
≡ , , , −1
2 2 2 2 2 2 2 2

Simplificaremos la notación para estos autoestados comunes de S 2 y S3 en la forma


 
1 1 1 1
,
2 2 ≡ |+i ; 2 , − 2 ≡ |−i
334 CAPÍTULO 15. MOMENTO ANGULAR INTRÍNSECO

es común referirse a los autoestados |±i, como estado con espı́n “arriba” y “abajo” respectivamente 4 . Es claro que
 
1 1 1
S2 |±i = + 1 ~2 |±i ; S3 |±i = ± ~ |±i
2 2 2
3 2 1
S2 |±i = ~ |±i ; S3 |±i = ± ~ |±i (15.6)
4 2
con relaciones de ortonormalidad y completez

h+ |+i = h− |−i = 1 ; h+ |−i = 0 ; |+i h+| + |−i h−| = I s (15.7)

el estado más general de espı́n es entonces una combinación lineal de esta base

|χi = c+ |+i + c− |−i (15.8)

siendo c± números complejos. Dado que ambos estados |±i son autoestados de S 2 con el mismo autovalor, cualquier
combinación lineal de ellos también lo es. Por tanto, todos los estados de E s son autoestados de S2 con el mismo
valor propio (3/4) ~2 , esto implica que S2 es proporcional al operador identidad de E s

3 2
S2 = ~ Is
4
definiendo los operadores escalera Ec. (10.13), tenemos

S± = S1 ± iS2 (15.9)

Invirtiendo la relaciones (15.9) escribimos

S+ + S − S+ − S −
S1 = ; S2 = (15.10)
2 2i
La acción de los operadores S± sobre los vectores base está dada por las Ecs. (10.46) con j = s = 1/2

S+ |+i = S− |−i = 0 ; S+ |−i = ~ |+i ; S− |+i = ~ |−i (15.11)

Los operadores Si , S2 , S± poseen el álgebra de cualquier momento angular Ecs. (10.14-10.17). Sin embargo, hay
algunas propiedades algebráicas adicionales propias de j = s = 1/2. En lo que sigue tomaremos j = s = 1/2.
Las expresiones (15.10) junto con (15.11) nos permiten demostrar ciertas propiedades de los S i y de S± . Cal-
culemos primero S12 , S22 , S1 S2 , S2 S1

1 2  1 2 
S12 = S+ + S − 2
+ S+ S− + S− S+ ; S22 = − S+ + S− 2
− S + S− − S − S+ (15.12)
4 4
1 2 2
 1 2 2

S1 S2 = S+ − S + S− + S − S+ − S − ; S 2 S1 = S+ + S + S− − S − S+ − S −
4i 4i
S+2 − [S , S ] − S 2 S 2 + [S , S ] − S 2
+ − − + −
S1 S2 = ; S 2 S1 = + −
4i 4i
S+2 − 2~S − S 2 S 2 + 2~S3 − S− 2
3 −
S1 S2 = ; S 2 S1 = + (15.13)
4i 4i
donde hemos usado (10.16). Similarmente podemos calcular los otros productos

1 1
S1 S3 = (S+ S3 + S− S3 ) ; S3 S1 = (S3 S+ + S3 S− ) (15.14)
2 2
1 1
S2 S3 = (S+ S3 − S− S3 ) ; S3 S1 = (S3 S+ − S3 S− ) (15.15)
2i 2i
4
Este es por supuesto un abuso del lenguaje, ya que ambos estados poseen el mismo espı́n y se diferencian solo en su momento
magnético intrı́nseco.
15.6. PROPIEDADES DE UN MOMENTO ANGULAR 1/2 335

un estado arbitrario de Es está dado por (15.8). Por tanto la acción de los operadores S ± sobre un estado arbitrario
de Es se obtiene combinando (15.11) con (15.8)
2 2 2
S+ |χi = S+ [c+ |+i + c− |−i] = c− S+ |−i = ~c− S+ |+i = 0
2 2 2
S− |χi = S− [c+ |+i + c− |−i] = c+ S− |+i = ~c+ S− |−i = 0
S+ S− |χi = S+ S− [c+ |+i + c− |−i] = c+ S+ S− |+i = ~c+ S+ |−i = ~2 c+ |+i = ~2 P+ |χi
S− S+ |χi = S− S+ [c+ |+i + c− |−i] = c− S− S+ |−i = ~c− S− |+i = ~2 c− |−i = ~2 P− |χi
(S+ S− + S− S+ ) |χi = ~2 [P+ + P− ] |χi = ~2 |χi

y como |χi es arbitrario, se obtiene


2 2
S+ = S− = 0 ; S + S− = ~ 2 P+ ; S − S+ = ~ 2 P− ; (S+ S− + S− S+ ) = ~2 Is (15.16)

donde hemos definido los proyectores P ± de modo que

Es = E+ ⊕ E− ; |χi = |χi+ + |χi− ; |χi± ∈ E± , |χi ∈ Es


P± |χi = |χi± = c± |±i

usando (15.16) en (15.12) se obtiene


1 2  1
S12 = 2
S+ + S − + S + S− + S − S+ = ~2 Is
4 4
1 2  1
S22 = − S+ + S − 2
− S + S− − S − S+ = ~2 Is
4 4
3 2 1 2 1 2 1
S32 = S − S 1 − S 2 = ~ Is − ~ Is − ~ Is = ~2 Is
2 2 2
4 4 4 4
1
⇒ S12 = S22 = S32 = ~2 Is (15.17)
4
Ahora utilizando (15.16) en (15.13) se obtiene
i 2 2
 ~ i 2 2
 ~
S1 S2 = − S+ − 2~S3 − S− = i S3 ; S 2 S1 = − S+ + 2~S3 − S− = −i S3
4 2 4 2
i~
⇒ S 1 S2 + S 2 S1 = 0 ; S 1 S2 = S3 (15.18)
2
empleando (15.11) en (15.14) tenemos
1 1
S1 S3 |χi = (S+ S3 + S− S3 ) [c+ |+i + c− |−i] = (S+ + S− ) [c+ S3 |+i + c− S3 |−i]
2 2
~ ~c+ ~c−
= (S+ + S− ) [c+ |+i − c− |−i] = (S+ + S− ) |+i − (S+ + S− ) |−i
4 4 4
~2 c+ ~2 c−
= |−i − |+i
4 4
~2
S1 S3 |χi = [c+ |−i − c− |+i] (15.19)
4

1 c+ c−
S3 S1 |χi = (S3 S+ + S3 S− ) [c+ |+i + c− |−i] = (S3 S+ + S3 S− ) |+i + (S3 S+ + S3 S− ) |−i
2 2 2
~c+ ~c− ~2 c+ ~2 c− ~2
= S3 |−i + S3 |+i = − |−i + |+i = − [c+ |−i − c− |+i]
2 2 4 4 4
~2
S3 S1 |χi = − [c+ |−i − c− |+i] (15.20)
4
comparando (15.19) con (15.20) teniendo en cuenta que |χi es arbitrario se obtiene

S1 S3 + S 3 S1 = 0
336 CAPÍTULO 15. MOMENTO ANGULAR INTRÍNSECO

ahora miremos la acción de S2 sobre |χi


S+ − S − S+ − S − S+ − S − ~ ~
S2 |χi = [c+ |+i + c− |−i] = c+ |+i + c− |−i = −c+ |−i + c− |+i
2i 2i 2i 2i 2i
i~
S2 |χi = [c+ |−i − c− ~ |+i] (15.21)
2
comparando (15.21) con (15.20) resulta
i~
S3 S1 = S2 (15.22)
2
similarmente se puede demostrar que
i~
S2 S3 + S 3 S2 = 0 ; S 2 S3 = S1 (15.23)
2

15.6.1. Resumen de resultados


Los observables Si , S2 , S± poseen el álgebra de un momento angular Ecs. (10.14-10.17). Pero hay algunas
propiedades algebráicas adicionales especı́ficas de j = s = 1/2. Definiendo el anticonmutador de dos operadores
como
{A, B} ≡ AB + BA
Este álgebra especı́fica está dada por
2 2
S+ = S− = 0 ; S+ S− = ~2 P+ ; S− S+ = ~2 P− ; {S+ , S− } = ~2 Is (15.24)
1 i~
S12 = S22 = S32 = ~2 Is ; Si Sj = εijk Sk ; {Si , Sj } = 0 ; i 6= j (15.25)
4 2
vale la pena enfatizar que la última de las relaciones (15.25) nos dice que para s = 1/2, los operadores de espı́n S i
son anticonmutantes.

15.6.2. Representación matricial de los observables de espı́n


Un operador que actúa en Es se puede representar en la base {|+i , |−i} con una matriz 2 × 2. En particular,
usando (15.6, 15.9, 15.11) se puede construı́r la representación matricial de los S ± , Si y S2 (ver también las Ecs.
10.59, 10.60 Pag. 273). Esta representación matricial se puede resumir en la forma
     
~ 0 1 0 −i 1 0
(S) = σ ; σ1 = ; σ2 = ; σ3 =
2 1 0 i 0 0 −1
   
2
 3 2 3 2 0 1 0 0
S = ~ Is ≡ ~ σ0 ; (S+ ) = ~ ≡ ~σ+ ; (S− ) = ~ ≡ ~σ−
4 4 0 0 1 0

puesto que las matrices (~/2) σi y las matrices ~σ± son representaciones de los operadores S i y S± deben cumplir
el álgebra de éstos operadores Ecs. (15.24, 15.25)

[σi , σj ] = 2iεijk σk ; σ12 = σ22 = σ32 = 12×2


{σi , σj } = 0 ; σi σj = iεijk σk f or i 6= j
2 2
σ+ = σ− = 0 ; σ + σ− = P + ; σ − σ+ = P − ; σ + σ− + σ − σ+ = I s (15.26)

estas relaciones se pueden verificar explı́citamente. También se puede verificar explı́citamente que

T rσi = 0 ; det (σi ) = −1 ; i = 1, 2, 3 (15.27)

Las Ecs. (15.27) son independientes de la base ya que la traza y el determinante son invariantes ante transformaciones
de similaridad. Podemos verificar también la siguiente identidad

(~σ ·A) (σ̃ · B) = 12×2 (A · B) + iσ̃· (A × B) ; ~σ ≡ (σ1 , σ2 , σ3 ) (15.28)


15.7. DESCRIPCIÓN NO RELATIVISTA COMPLETA DE OPERADORES Y ESTADOS DE PART ÍCULAS CON E

donde A y B son vectores arbitrarios u operadores vectoriales cuyas tres componentes conmutan con las componentes
de S. No es necesario que A y B conmuten, pero si no conmutan, el orden de aparición de los operadores en (15.28)
debe ser estricto. La Ec. (15.28) se puede demostrar usando las propiedades (15.26) y la hipótesis de que las
componentes de A y B conmutan con las σ i . Usaremos sı́mbolos explı́citos de sumatoria para efectos de claridad
XX X XX
(σ̃ · A) (σ̃ · B) = (σm Am ) (σn Bn ) = (σm Am ) (σm Bm ) + (σm Am ) (σn Bn )
m n m m n6=m
" #
X XX X XX X
2
= σm Am Bm + σm σn Am Bn = 12×2 Am Bm + iεmnk σk Am Bn
m m n6=m m m n6=m k
X X XX X
= 12×2 Am Bm + i σk εmnk Am Bn = 12×2 (A · B) + i σk (A × B)k
m k m n6=m k
(σ̃ · A) (σ̃ · B) = 12×2 (A · B) + iσ̃· (A × B)

Finalmente, si definimos el conjunto de matrices

σµ ≡ (σ0 , σ̃) = (I, σ1 , σ2 , σ3 ) (15.29)

cualquier matriz compleja 2 × 2 se puede escribir como una combinación lineal compleja de estas cuatro matrices

M2×2 = cµ σµ ; µ = 0, 1, 2, 3

sumando sobre ı́ndices repetidos. Esto se debe a que las cuatro matrices σ µ son linealmente independientes y se
necesitan cuatro elementos (complejos) para determinar una matriz compleja 2 × 2. Por lo tanto, las cuatro matrices
σµ forman una base para el espacio vectorial complejo de todas las matrices complejas 2 × 2.

15.7. Descripción no relativista completa de operadores y estados de partı́cu-


las con espı́n 1/2
Hemos visto como se describen los estados y operadores de E r y de Es por aparte. Pero la descripción completa
del sistema cuántico requiere construı́r un único espacio de estados para el formalismo. El espacio de estados
completo E para una partı́cula de espı́n 1/2, se construye como el producto tensorial de E r y Es

E = E r ⊗ Es

15.7.1. Construcción de los estados


Si tenemos un operador definido en Er podemos extenderlo al espacio E mediante el producto tensorial con la
identidad de Es . Si A es un operador que transforma sobre E r podemos extenderlo a un operador A0 que transforma
sobre E en la forma
A0 ≡ A ⊗ I s
similarmente un operador B de Es se puede extender a un operador sobre E con la prescripción

B 0 = Ir ⊗ B

Sin embargo, no cambiaremos la notación para estas extensiones y las seguiremos llamando A y B. En particular,
podemos obtener un C.S.C.O. en E como la yuxtaposición de un C.S.C.O. en E r con un C.S.C.O. en Es . Por ejemplo,
en Es el conjunto S2 , S3 forma un C.S.C.O. a esto le podemos añadir un C.S.C.O. de E r para obtener un C.S.C.O.
de E. Como ejemplos tenemos
  
X1 , X2 , X3 , S2 , S3 ; P1 , P2 , P3 , S2 , S3 ; L2 , L3 , H, S2 , S3 (15.30)

puesto que todos los kets de E son kets propios de S 2 , este operador podrı́a ser omitido y aún tendrı́amos un C.S.C.O.
en E. Esto se debe a que estrictamente S 3 por sı́ solo ya forma un C.S.C.O. en E s . Sin embargo, es usual dejar S2
338 CAPÍTULO 15. MOMENTO ANGULAR INTRÍNSECO

dentro del C.S.C.O. ya que si bien es deseable que éste contenga el mı́nimo de operadores posible, no es obligatorio
que ası́ sea.
Vamos a escribir las relaciones con el primero de los C.S.C.O. en la Ec. (15.30). Una base en E se obtiene como
el producto tensorial de las bases en cada espacio

|r, εi ≡ |x1 , x2 , x3 , εi = |ri ⊗ |εi , |εi ∈ Es

las componentes xi varı́an entre −∞ e ∞ y ε toma los valores +1 o −1 (ı́ndice


 discreto que realmente significa
ms = ±1/2). Por definición {|r, εi} es una base de autovectores comunes a X1 , X2 , X3 , S2 , S3 en E

3 ~
Xi |r, εi = xi |r, εi ; S2 |r, εi = ~2 |r, εi ; S3 |r, εi = ε |r, εi ; ε ≡ ±1
4 2
puesto que esto es un C.S.C.O. cada |r, εi es único salvo factores constantes. Dado que {|ri} es ortonormal en E r en
el sentido extendido, y {|εi} es ortonormal en E s (ver Ecs. 15.7) entonces {|r, εi} es ortonormal en E en el sentido
extendido

0
0 
hr0 ε0 |r, εi = r ⊗ ε (|ri ⊗ |εi) = hr0 |ri hε0 |εi

hr0 ε0 |r, εi = δ r − r0 δεε0

la relación de completez que nos dice que {|r, εi} es una base en E es
XZ Z Z
d r |r, εi hr, ε| = d r |r, +i hr, +| + d3 r |r, −i hr, −| = IE
3 3

por tanto, todo estado |ψi ∈ E se puede expandir en {|r, εi}


XZ
|ψi = IE |ψi = d3 r |r, εi hr, ε| ψi
ε
XZ
|ψi = d3 r ψε (r) |r, εi , ψε (r) ≡ hr, ε| ψi (15.31)
ε

donde ψε (r) son las coordenadas o componentes (transformadas de Fourier) en la base {|r, εi}. Estas coordenadas
o componentes, dependen de tres ı́ndices contı́nuos r y del ı́ndice discreto ε. Por tanto, una función de onda en E se
especifica a través de dos funciones de onda espaciales correspondientes a los dos estados de espı́n

ψ (r) = ψ+ (r) + ψ− (r) (15.32)


ψ± (r) ≡ hr, ± |ψi (15.33)

como ψ+ (r) y ψ− (r) son estados ortogonales, es usual escribirlos en forma de un arreglo de dos componentes
conocido como espinor  
ψ+ (r)
[ψ] (r) = (15.34)
ψ− (r)
el bra hψ| asociado al espacio dual E ∗ se obtiene con el hermı́tico conjugado de la Ec. (15.31)
XZ
hψ| = d3 r ψε∗ (r) hr, ε|
ε

conjugando las Ecs. (15.32, 15.33) vemos que

ψ ∗ (r) = ψ+
∗ ∗
(r) + ψ− (r) ∗
; ψ± (r) ≡ hψ |r, ±i
∗ (r) que se pueden escribir en forma de espinor como
nos dice que el bra hψ| está representado por dos funciones ψ ±
el adjunto de (15.34) 
[ψ]† (r) = ψ+ ∗ (r) ψ ∗ (r)
− (15.35)
15.7. DESCRIPCIÓN NO RELATIVISTA COMPLETA DE OPERADORES Y ESTADOS DE PART ÍCULAS CON E

el producto escalar entre dos estados |ψi y |ϕi, se puede escribir como
" #
XZ Z X
3 3
hψ |ϕi = hψ| IE |ϕi = d r hψ |r, εi hr, ε| ϕi = d r hψ |r, εi hr, ε| ϕi
ε ε
Z
3
hψ |ϕi = d r [hψ |r, +i hr, +| ϕi + hψ |r, −i hr, −| ϕi]
Z
 ∗ 
hψ |ϕi = d3 r ψ+ ∗
(r) ϕ+ (r) + ψ− (r) ϕ− (r)

esto también se puede escribir en la forma


Z   
3 ∗ ∗
 ϕ+ (r)
hψ |ϕi = d r ψ+ (r) ψ− (r)
ϕ− (r)
Z
hψ |ϕi = d3 r [ψ]† (r) [ϕ] (r)

donde hemos usado (15.34, 15.35). Esta expresión se asemeja a la que se obtiene para el producto interno de dos kets
en Er , pero teniendo en cuenta que en vez de funciones de onda escalares tenemos espinores de dos componentes, de
modo que se debe realizar la multiplicación matricial antes de integrar en el espacio. En particular la normalización
queda en la forma
Z Z h i
hψ |ψi = |ψ| = d r [ψ] (r) [ψ] (r) = d3 r |ψ+ (r)|2 + |ψ− (r)|2 = 1
2 3 †
(15.36)

hemos visto que un vector de E no necesariamente es el producto tensorial de un vector en E r por otro en Es . Sin
embargo, esto es válido para algunos vectores (en particular los vectores base |r, εi), si el vector |ψi en cuestión es
de este tipo
|ψi = |ϕi ⊗ |χi ; |ϕi ∈ Er , |χi ∈ Es
el espinor asociado tendrá una forma simple ya que
Z
|ϕi = d3 r ϕ (r) |ri ; |χi = c+ |+i + c− |−i

usando las Ecs. (15.32, 15.33) se tiene que

ψ± (r) ≡ hr, ± |ψi = [hr| ⊗ h±|] [|ϕi ⊗ |χi] = hr |ϕi h± |χi = ϕ (r) h±| [c + |+i + c− |−i]
ψ± (r) = c± ϕ (r)

y los espinores dados en (15.34, 15.35) quedan


   
c+ ϕ (r) c+
[ψ] (r) = = ϕ (r)
c− ϕ (r) c−

[ψ]† (r) = ϕ∗ (r) c∗+ c∗−

si en particular |χi = |+i entonces c + = 1, c− = 0. Resultando

|ψi = |ϕi ⊗ |+i ⇒ ψ+ (r) ≡ hr |ϕi h+ |+i = ϕ (r) ; ψ− (r) ≡ hr |ϕi h− |+i = 0
 
1 
[ψ] (r) = ϕ (r) ; [ψ]† (r) = ϕ∗ (r) 1 0
0

similarmente, si |χi = |−i


 
0 
[ψ] (r) = ϕ (r) ; [ψ]† (r) = ϕ∗ (r) 0 1
1
340 CAPÍTULO 15. MOMENTO ANGULAR INTRÍNSECO

15.7.2. Construcción de operadores


Veremos como se puede caracterizar la acción de los operadores en E. Para ello trabajaremos primero operadores
originalmente definidos en Es , después operadores definidos en E r y finalmente operadores mixtos.

Operadores espinoriales
Asumamos que el operador As está definido originalmente solo por su acción sobre E s

As |εi = ε0 ; |εi , ε0 ∈ Es

Su extensión como operador sobre E se escribe

A0s ≡ As ⊗ Ir

definimos la acción del operador extendido en la forma



A0s |ψi = ψ 0 ; |ψi , ψ 0 ∈ E

expandiendo |ψi en la base |r, εi


XZ
|ψi = d3 r ψε (r) |r, εi
ε
XZ  
A0s |ψi = d3 r ψε (r) A0s |r, εi
ε

la acción de A0s sobre |r, εi es muy clara, ya que



A0s |r, εi = (As ⊗ Ir ) [|ri ⊗ |εi] = (Ir |ri) ⊗ [As |εi] = |ri ⊗ ε0

A0s |r, εi = r,ε0
XZ
0
As |ψi = d3 r ψε (r) r,ε0
ε

la extensión del operador solo afectará a la parte espinorial de |r, εi y la transformará de la misma forma que lo
hace el operador original, en tanto que la parte espacial permanece intacta. Estos operadores se pueden representar
como matrices 2×2 y de aquı́ en adelante usamos A para denotar al operador extendido 5 . Tomemos como ejemplo
a S+ , este operador actuando sobre un estado arbitrario |ψi de E nos da
XZ Z
S+ |ψi = d3 r ψε (r) [S+ |r,εi] = d3 r {ψ+ (r) [S+ |r,+i] + ψ− (r) [S+ |r,−i]}

S+ |ψi = d3 r ψ− (r) [S+ |r,−i]

donde hemos usado que S+ |+i = 0 y por tanto S+ |r,+i = 0. Y como S+ |−i = ~ |+i se tiene finalmente
Z
0
ψ ≡ S+ |ψi = ~ d3 r ψ− (r) |r,+i

las componentes espinoriales de |ψ 0 i son entonces


Z Z Z
0   0 
ψ+ (r) ≡ hr, + ψ = hr, +| ~ d r ψ− r r ,+ = ~ d r ψ− r hr, + r ,+ = ~ d3 r0 ψ− r0 hr r0 h+ |+i
0 3 0 0 0 3 0 0
Z
 
= ~ d3 r0 ψ− r0 δ r − r0 = ~ψ− (r)

5
Por supuesto la representación matricial de A0s es estrictamente de dimensión infinita, pero dado que A0s = As ⊗ 1r , se tiene que la
parte no trivial de la matriz es de dimensión finita.
15.7. DESCRIPCIÓN NO RELATIVISTA COMPLETA DE OPERADORES Y ESTADOS DE PART ÍCULAS CON E

0 (r), con lo cual resulta


de manera similar podemos obtener ψ−

ψ+0
(r) ≡ hr, + ψ 0 = ~ψ− (r) ; 0
ψ− (r) ≡ hr, − ψ 0 = 0
 
 0 ψ− (r)
ψ (r) = ~
0

pero esto también se puede escribir como


  
 0 0 1 ψ+ (r)
ψ (r) = ~
0 0 ψ− (r)
 0
ψ (r) = ~σ+ [ψ] (r)

es decir la misma representación matricial sirve para definir a S + tanto en Es como en E. ¿Cuál es la diferencia?.
Formalmente, en Es cada elemento de la matriz es un número. En cambio en E cada elemento matricial representa a
un operador que actúa sobre Er , por ejemplo, la matriz σ+ como representación extendida, rigurosamente significa
lo siguiente  
0 0r Ir
σ+ =
0r 0r
es decir cada elemento matricial representa a los operadores nulo e identidad del espacio E r . No obstante, desde el
punto de vista práctico esta notación es innecesaria.

Operadores orbitales
El procedimiento es similar. Asumamos A x que actúa sobre Er , definiendo su extensión y su acción sobre un ket
|ψi de E obtenemos

Ax |ri = r0 ; |ri , r0 ∈ Er

A0x ≡ Ax ⊗ Is ; A0x |r, εi = r0 , ε

XZ
|ψi = d3 r ψε (r) |r, εi
ε
X Z XZ
0  
ψ ≡ A0x |ψi = 3
d r ψε (r) A0x |r, εi = d3 r ψε (r) r0 , ε
Zε ε
0     
ψ ≡ A0x |ψi = d3 r ψ+ (r) A0x |r, +i + ψ− (r) A0x |r, −i

como A0x |r, +i actúa sobre un espacio idéntico a |ri (ya que actúa sobre un subespacio unidimensional de E s ),
podemos escribir Ax |r, +i. Igual ocurre para Ax |r, −i
Z
0     
ψ+ (r) ≡ hr, + ψ = hr, +| d3 r0 ψ+ r0 Ax r0 , + + ψ− r0 Ax r0 , −
0
Z
     
= d3 r0 hr, +| ψ+ r0 Ax r0 , + + hr, +| ψ− r0 Ax r0 , −
Z n     o
= d3 r0 A bx (r) ψ+ r0 hr, + r0 , + + ψ− r0 Ax hr, + r0 , −
Z n  o
= d3 r00 A bx (r) ψ+ r0 δ r − r0 = A bx (r) ψ+ (r)

bx (r) denota la forma del operador Ax en la base {|ri}, con lo cual se obtiene
donde A

ψ+0
(r) ≡ hr, + ψ 0 = A bx (r) ψ+ (r)

ψ 0 (r) ≡ hr, − ψ 0 = A bx (r) ψ− (r)

342 CAPÍTULO 15. MOMENTO ANGULAR INTRÍNSECO

! 
 0 bx (r)
A 0 ψ+ (r) h i
ψ (r) = = Abx (r) ⊗ Is [ψ] (r)
0 b
Ax (r) ψ− (r)
que nos muestra la forma correcta para la extensión del operador A x
Por tanto, la representación matricial 2 × 2 del operador es proporcional a la identidad, puesto que no hay
cambio en los estados espinoriales. Los operadores actúan sobre la parte espacial tal como lo hace el operador
original. Tomemos como ejemplo a los operadores X 1 , P1

ψε0 (r) = hr, ε| X1 |ψi = x1 ψε (r)


00 ~ ∂
ψε (r) = hr, ε| P1 |ψi = ψε (r)
i ∂x1
sus representaciones matriciales son
  !

x1 0 ~ ∂x1 0
[X1 ] = ; [P1 ] = ∂
0 x1 i 0 ∂x1

de nuevo cada elemento de la matriz es un operador sobre E r aunque esta vez es un operador no trivial. En este
caso el operador trivial es sobre los espinores y por eso la matriz es proporcional a la identidad.

Operadores mixtos
Si un operador es de carácter mixto, será una matriz 2×2 no trivial que actúa sobre E s y en donde cada elemento
matricial es un operador no trivial sobre E r . Algunos ejemplos de operadores mixtos que aparecen en cuántica son
L3 S3 , S · P. De acuerdo con la teorı́a de representaciones, las representaciones matriciales deben manifestar la
preservación del producto
  
~ ∂ ~
[L3 S3 ] = [L3 ] [S3 ] = Is Ir σ3
i ∂ϕ 2
" !#   

~ ∂ϕ 0 ~ 1 0
= ∂
i 0 ∂ϕ 2 0 −1
!

~2 ∂ϕ 0
[L3 S3 ] = ∂
2i 0 − ∂ϕ

[S · P] = [S1 P1 ] + [S2 P2 ] + [S3 P3 ] = [S1 ] [P1 ] + [S2 ] [P2 ] + [S3 ] [P3 ]


        
~ ~ ∂ ~ ~ ∂ ~ ~ ∂
= σ1 + σ2 + σ3
2 i ∂x1 2 i ∂x2 2 i ∂x3
2
 
~ ∂ ∂ ∂
= σ1 + σ2 + σ3
2i ∂x1 ∂x2 ∂x3

      
~2 0 1 ∂ 0 −i ∂ 1 0 ∂
[S · P] = + +
2i 1 0 ∂x1 i 0 ∂x2 0 −1 ∂x3
" ! ! !#

~2 0 ∂x1 0 −i ∂x∂ 2 ∂
∂x3 0
[S · P] = ∂ + +
2i ∂x1 0 i ∂x∂ 2 0 0 − ∂x∂ 3
!
∂ ∂
~2 ∂x3 ∂x1 − i ∂x∂ 2
[S · P] = ∂
2i ∂x1 + i ∂x∂ 2 − ∂x∂ 3

vale enfatizar que por construcción, operadores de espacios distintos conmutan.


En sı́ntesis, para un operador arbitrario A de E tal que

A |ψi = ψ 0
15.8. REPRESENTACIÓN EN LA BASE |P, εi 343

podemos asociarle una matriz 2 × 2 en la forma


 0
ψ (r) = [A] [ψ] (r)

donde la estructura de la matriz representa la transformación sobre el espacio de espines y cada elemento de la
matriz representa un operador en el espacio de coordenadas. Un elemento matricial hψ| A |ϕi estará dado por
Z
hψ| A |ϕi = d3 r [ψ]† (r) [A] [ϕ] (r)

expresión similar a la que se encuentra para el espacio de coordenadas, pero teniendo en cuenta que en vez de
funciones de onda escalares aquı́ tenemos espinores de dos componentes. Los productos matriciales deben hacerse
para entonces evaluar la integral. Esta representación solo se usará cuando sea particularmente simple. En general
al igual que en Er suele ser mejor trabajar con los operadores y estados en abstracto hasta donde sea posible.

15.8. Representación en la base |p, εi


Un tratamiento similar se puede desarrollar si escojemos los C.S.C.O como P 1 , P2 , P3 , S2 , S3 . En tal caso la base
es {|p, εi} el producto escalar con la base {|r, εi} nos da
p·r
ei ~
hr, ε p, ε0 = hr |pi hε ε0 = δεε0 (15.37)
(2π~)3/2
a cada vector |ψi se le asocia un espinor de dos componentes
 
  ψ̄+ (p)
ψ̄ (p) ≡ ; ψ̄± (p) = hp, ± |ψi
ψ̄− (p)

de acuerdo con (15.37) ψ̄± (p) es la transformada de Fourier de ψ ± (r).


XZ

ψ̄ε (p) = hp, ε |ψi = d3 r hp, ε r, ε0 r, ε0 ψi
ε0
XZ e−i p·r
~
ψ̄ε (p) = d3 r δεε0 ψε0 (r)
ε0 (2π~)3/2
Z
1 p·r
ψ̄ε (p) = 3/2
d3 r e−i ~ ψε (r)
(2π~)
los operadores también se representan por matrices 2×2. Cuando el operador original es espinorial la representación
matricial es idéntica a la que se encontró para la base {|r, εi}.

15.9. Cálculos de probabilidad para estados de espı́n 1/2


Aplicaremos los postulados de la mecánica cuántica para los observables sobre el espacio de estados E. Imag-
inemos que queremos medir simultáneamente la posición y la componente del espı́n de un partı́cula de espı́n 1/2
a lo largo de X3 . Puesto que r, S3 constituye un C.S.C.O. hay un único estado asociado a cada medida de estos
observables, x1 , x2 , x3 , ± ~2 . La probabilidad dP (r, +) de que la partı́cula se encuentre dentro de un volumen d 3 r
alrededor del punto r con su espı́n “arriba” (que es una forma de designar el caso en el cual la componente del espı́n
a lo largo de X3 es +~/2), está dada por

dP (r, +) = |hr, +| ψi|2 d3 r = |ψ+ (r)|2 d3 r

donde hemos asumido que la función de onda está normalizada en la forma (15.36). Similarmente la probabilidad de
que la partı́cula se encuentre dentro de un volumen d 3 r centrado en r con su espı́n “abajo” (es decir con la componente
del espı́n a lo largo de X3 igual a −~/2), está dada por

dP (r, −) = |hr, −| ψi|2 d3 r = |ψ− (r)|2 d3 r


344 CAPÍTULO 15. MOMENTO ANGULAR INTRÍNSECO

Si lo que queremos es medir la componente del espı́n a lo largo de X 1 , debemos tener en cuenta que los autoestados
(normalizados) de S1 vienen dados por
1
|±iS1 = √ [|r, +i ± |r, −i] (15.38)
2
siendo |±i los autoestados de S3 . Podemos verificar que estos son autoestados de S 1 en la siguiente forma

1 1 1 ~
S1 |±iS1 = √ S1 [|r, +i ± |r, −i] = √ (S+ + S− ) [|r, +i ± |r, −i] = √ [S− |r, +i ± S+ |r, −i] = √ [|r, +i ± |r
2 2 2 2 2 2 2
~
S1 |±iS1 = |±iS1
2
La probabilidad de encontrar al electrón en el volumen d 3 r centrado en r y con componente positiva de espı́n a lo
largo de X1 es
2
1 1
dPS1 (r, +) = |S1 hr, +| ψi| d r = √ [hr, +| + hr, −|] |ψi = |[hr, +| ψi + hr, −| ψi]|2
2 3
2 2
1
dPS1 (r, +) = |ψ+ (r) + ψ− (r)|2 d3 r (15.39)
2
Por supuesto, podemos estar interesados en calcular la probabilidad de que la partı́cula posea un momento
centrado en p en un volumen (de momento) d 3 p y con componente de espı́n a lo largo de Z de ±~/2. Para ello
usamos las componentes del estado |ψi en la base {|p, εi}, que nos da las transformadas de Fourier de ψ̄± (r)

ψ̄± (p) ≡ hp, ± |ψi

la probabilidad ya mencionada será entonces


2
dP (p, ±) = |hp, ± |ψi|2 d3 p = ψ̄± (p) d3 p

Por otro lado, podemos estar interesados en hacer mediciones incompletas en el sentido de que los observables
asociados a las medidas no formen un C.S.C.O. es decir que las medidas no conducen a determinar el estado de
manera única. Cuando las medidas son incompletas hay varios estados ortogonales asociados al mismo resultado y
debe sumarse los cuadrados de los módulos de las amplitudes correspondientes.
Como ejemplo, si no nos interesa conocer el espı́n, la probabilidad dP (r) de encontrar a la partı́cula en el
volumen d3 r centrado en r es igual a
n o n o
dP (r) = |hr, +| ψi| 2 + |hr, −| ψi|2 d3 r = |ψ+ (r)|2 + |ψ− (r)|2 d3 r

dado que los dos estados ortogonales |r, +i y |r, −i están asociados al mismo resultado r donde sus amplitudes de
probabilidad son ψ+ (r) y ψ− (r).
Ahora supongamos que queremos saber la probabilidad de que la partı́cula tenga componente S 3 igual a +~/2,
pero sin importar su ubicación ni el valor de las demás variables orbitales. Hay un conjunto infinito de estados
ortogonales {|r, +i} asociados a este resultado, cuyas probabilidades deben ser sumadas
Z Z
P+ = d r |hr, +| ψi| = d3 r |ψ+ (r)|2
3 2

si por ejemplo queremos encontrar la probabilidad de obtener un espı́n +~/2 a lo largo de X 1 , debemos integrar la
Ec. (15.39) en todo el espacio.
Capı́tulo 16

Adición de momentos angulares

16.1. El problema clásico de la adición del momento angular


Cuando tenemos un sistema de partı́culas el momento angular total del sistema es la suma de los momentos
angulares individuales
Xn
L= ri × p i (16.1)
i=1
cuando no hay fuerzas externas, el torque externo sobre el sistema es cero, y el momento angular total es constante
de movimiento. Algo similar ocurre cuando el torque neto con respecto a un origen dado es cero, ya que el momento
angular alrededor del mismo origen será constante de movimiento. En el último caso sin embargo, hay que tener
en cuenta que en general al cambiar el origen, el torque puede ser diferente de cero y el momento angular ya no
será constante de movimiento.
Cuando el sistema esté aislado, el momento angular total se conserva, sin embargo no necesariamente se con-
servará el momento angular de cada partı́cula, si hay fuerzas internas ellas causarán un cambio en los momentos
angulares individuales, de forma que la suma total sea constante. Solo cuando las partı́culas no son interactuantes
podemos garantizar la conservación de los momentos angulares individuales, ya que en este caso cada partı́cula
forma un sistema aislado.
Otro escenario en donde se conserva el momento lineal es en fuerzas centrales. Si tenemos dos partı́culas no
interactuantes cada una interactuando con el mismo centro de fuerzas (originada por una tercera partı́cula mucho
más masiva que las otras), el momento angular de cada partı́cula se conserva puesto que cada una está sometida a
una fuerza central. Pero si hay una interacciona entre las dos partı́culas, la fuerza neta sobre la partı́cula 1 ya no es
en general central, por tanto su momento angular ya no necesariamente es constante de movimiento, similarmente
ocurre para la partı́cula 2. No obstante, si se cumple el principio de acción y reacción en su forma fuerte, el momento
angular total de las dos partı́culas se conserva por la cancelación de los torques internos. En conclusión, en un sistema
aislado de partı́culas interactuantes solo el momento angular total se conserva pero no los momentos individuales.
Veremos que este fenómeno tiene su contrapartida cuántica.

16.2. Momento angular total en mecánica cuántica


Trabajaremos el sistema de dos partı́culas en mecánica cuántica. Primero asumiremos que no son interactuantes.
El Hamiltoniano en la base de {|r1 , r2 i} está dado por
H0 = H 1 + H 2
~2 2 ~2 2
H1 = − ∇1 + V (r1 ) ; H2 = − ∇ + V (r2 ) (16.2)
2µ1 2µ2 2
donde µi son las masas, V (r) el potencial central al cual están sometidas, y ∇ 2i indica el Laplaciano tomado con las
coordenadas de la partı́cula i. Del capı́tulo 12 sabemos que L (1) conmuta con H1 , y teniendo en cuenta que todos los
observables relacionados con una partı́cula conmutan con todos los observables relacionados con la otra, se obtiene
h i h i
L(1) , H1 = L(1) , H2 = 0 (16.3)
346 CAPÍTULO 16. ADICIÓN DE MOMENTOS ANGULARES

argumento similar se tiene para L(2) . Estos nos indica que


h i h i
L(1) , H0 = L(2) , H0 = 0

y como L(α) no depende explı́citamente del tiempo, se tiene que cada momento angular es constante de movimiento
por aparte, tal como en el caso clásico. Ahora asumimos que las dos partı́culas interactúan por medio de un potencial
W (|r2 − r1 |) que solo depende de la distancia entre las partı́culas, esto implica por supuesto asumir la validez de
la ley de acción y reacción. La distancia |r 2 − r1 | se escribe
r  
(1) (2) (1) (2)
|r2 − r1 | = xi − x i xi − xi (16.4)

suma sobre ı́ndices repetidos, el Hamiltoniano se escribe como

H = H1 + H2 + W (|r2 − r1 |)

con Hi dados por (16.2). Las relaciones (16.3) nos dan


h i h i h i
L(1) , H = L(1) , H1 + H2 + W (|r2 − r1 |) = L(1) , W (|r2 − r1 |)

(1)
analicemos por ejemplo la componente L 3 , para calcular el conmutador con W debemos aplicar el conmutador a
una función de onda arbitraria ψ (r)
! !
h i ~ ∂ ∂ ~ ∂ ∂
(1) (1) (1) (1) (1)
L3 , W ψ (r) = x1 (1)
− x2 (1)
(W ψ) − W x1 (1)
− x2 (1)
ψ
i ∂x2 ∂x1 i ∂x2 ∂x1
! !
~ (1) ∂W (1) ~ ∂W (1) ∂ψ (1) ∂ψ
= x1 (1)
− (1)
x2
ψ+ x1 (1)
− x2 W
i ∂x2 ∂x1 i ∂x2 ∂x1
!
~ (1) ∂ψ (1) ∂ψ
−W x1 (1)
− x2 (1)
i ∂x2 ∂x1
!
~ (1) ∂W (1) ∂W
= x1 (1)
− x2 (1)
ψ (r)
i ∂x2 ∂x1

y como ψ (r) es arbitraria se concluye que


!
h ~ i ∂W ∂W
(1) (1) (1)
L3 , W (|r2 − r1 |) = x1 (1)
− x2 (1)
i ∂x2 ∂x1

esta expresión no es necesariamente cero, de modo que L (1) no es en general constante de movimiento. Ahora bien,
si definimos el momento angular total L con una expresión análoga al caso clásico Ec. (16.1) tenemos

L = L(1) + L(2)

obtenemos un operador cuyas tres componentes son constantes de movimiento. Por ejemplo, se vé que
h i
(1) (2)
[L3 , H] = L3 + L 3 , H
!
~ (1) ∂W (1) ∂W (2) ∂W (2) ∂W
[L3 , H] = x1 (1)
− x2 (1)
+ x1 (2)
− x2 (2)
(16.5)
i ∂x2 ∂x1 ∂x2 ∂x1
16.2. MOMENTO ANGULAR TOTAL EN MECÁNICA CUÁNTICA 347

y puesto que W solo depende de |r2 − r1 | dada por (16.4) tenemos que
r  
(1) (2) (1) (2)
∂ xk − x k xk − x k
∂W ∂W ∂ |r2 − r1 | ∂W
(1)
= (1)
= (1)
∂xi ∂ |r 2 − r 1 | ∂x ∂ |r 2 − r1 | ∂xi
 i     
(1) (2) ∂ (1) (2) (1) (2)
2 xk − x k (1) x k − x k xk − xk δik
∂W ∂xi ∂W
= r    = r  
∂ |r2 − r1 | (1) (2) (1) (2) ∂ |r2 − r1 | (1) (2) (1) (2)
2 xk − x k xk − x k xk − x k xk − x k
(1) (2)
∂W ∂W xi − x i
(1)
=
∂xi ∂ |r2 − r1 | |r2 − r1 |
(2)
similarmente se calcula ∂W/∂xi se obtiene entonces
(1) (2)
∂W ∂W ∂ |r2 − r1 | ∂W xi − x i
(1)
= (1)
=
∂xi ∂ |r2 − r1 | ∂x ∂ |r2 − r1 | |r2 − r1 |
i
(2) (1)
∂W ∂W ∂ |r2 − r1 | ∂W xi − x i
(2)
= = (16.6)
∂xi ∂ |r2 − r1 | ∂x(2) ∂ |r2 − r1 | |r2 − r1 |
i

reemplazando (16.6) en (16.5), resulta


~ 1 ∂W h    
(1) (1) (2) (1) (1) (2)
[L3 , H] = x1 x2 − x 2 − x 2 x1 − x 1
i |r2 − r1 | ∂ |r2 − r1 |
   i
(2) (2) (1) (2) (2) (1)
+x1 x2 − x2 − x2 x1 − x1

por tanto tenemos que


[L3 , H] = 0
y similarmente para las otras componentes. De modo que aunque L (1) y L(2) no son individualmente constantes de
movimiento, sı́ lo es su suma L(1) + L(2) definida como el momento total del sistema, al igual que en el caso clásico.
En lo anterior asumimos que las partı́culas no tienen espı́n. Vamos a tomar como segundo ejemplo a una partı́cula
con espı́n sujeta a una interacción de tipo central. El Hamiltoniano para una partı́cula sometida a una fuerza central
Ec. (12.25) conmuta con el momento angular orbital L de la partı́cula y como todos los operadores de espı́n conmutan
con todos los operadores orbitales, entonces S también conmuta con el Hamiltoniano. Por tanto, L y S son cada
una constantes de movimiento. Sin embargo, puede demostrarse que las correcciones relativistas introducen en el
Hamiltoniano un acoplamiento espı́n-órbita que es un término de la forma

HSO = ξ (r) L · S

siendo ξ (r) una función conocida de la variable r. Por el momento no analizaremos la procedencia fı́sica de este
término, pero sı́ sus consecuencias. El Hamiltoniano ahora es
H 0 = H + ξ (r) L · S

Y se puede ver que ni L ni S conmutan con el nuevo Hamiltoniano


 
L3 , H 0 = [L3 , H + HSO ] = [L3 , HSO ] = ξ (r) [L3 , L1 S1 + L2 S2 + L3 S3 ]
 
L3 , H 0 = ξ (r) [L3 , L1 S1 + L2 S2 ] = ξ (r) [L3 , L1 ] S1 + ξ (r) [L3 , L2 ] S2
 
L3 , H 0 = i~ξ (r) {L2 S1 − L1 S2 }

similarmente
 
S3 , H 0 = [S3 , HSO ] = ξ (r) [S3 , L1 S1 + L2 S2 + L3 S3 ]
 0

S3 , H = ξ (r) [S3 , L1 S1 + L2 S2 ] = ξ (r) L1 [S3 , S1 ] + ξ (r) L2 [S3 , S2 ]
 0
  
S3 , H = i~ξ (r) {L1 S2 − L2 S1 } = − L3 , H 0
348 CAPÍTULO 16. ADICIÓN DE MOMENTOS ANGULARES

vemos entonces que  


S3 + L 3 , H 0 = 0
e igualmente para las otras componentes. De esto se deduce que
J≡L+S
es una constante de movimiento a pesar de que L y S no lo son. Llamaremos a J el momento angular total del
sistema.
Hay varias semejanzas entre los dos ejemplos realizados. En ambos tenemos dos momentos angulares parciales J (1)
(1) (2)
y J(2) que conmutan entre sı́. En ambos casos conocemos una base de autovectores de J 2(1) , J3 , J2(2) , J3 . También
ocurre en los dos ejemplos que cada momento angular no es constante de movimiento (cuando los subsistemas uno
y dos se acoplan) pero su suma sı́ lo es, definiendo
J ≡ J(1) + J(2)
(1) (2)
J conmuta con el Hamiltoniano del sistema. Nótese que la base de autovectores (conocida) de J 2(1) , J3 , J2(2) , J3
(1) (2)
no diagonaliza al Hamiltoniano puesto que éste no conmuta con J 3 ni con J3 . En contraste J2 y J3 sı́ conmutan
con el Hamiltoniano, por tanto una base común de J 2 y J3 hará que la matriz del Hamiltoniano sea diagonal por
bloques1 , tantos bloques como autosubespacios asociados a los conjuntos de autovalores de J 2 y J3 . Por tanto, la
estructura de la matriz será más simple en la base de vectores propios comunes a J 2 y J3 que en la base de vectores
(1) (2)
comunes a J2(1) , J3 , J2(2) , J3 .
(1) (2)
Puesto que el punto de partida es la base conocida de vectores propios comunes de J 2(1) , J3 , J2(2) , J3 nuestra
tarea será entonces construı́r a partir de ésta, una nueva base de vectores comunes a J 2 y J3 , esto nos enfrentará con
el problema de las reglas de adición o composición de los momentos angulares J (1) y J(2) . Abordaremos inicialmente
el problema de la adición de dos momentos angulares con j (1) = j(2) = 1/2.

16.3. La adición de dos momentos angulares es otro momento angular


Si tenemos dos momentos angulares arbitrarios J (1) y J(2) ambos sobre espacios diferentes, la suma (de los
operadores extendidos) es también un momento angular. Como cada J (α) es un momento angular, se tiene que
h i h i
(1) (1) (1) (2) (2) (2)
Ji , J j = iεijk Jk ; Ji , Jj = iεijk Jk

ahora se tiene que


h i h i h i
(1)
(2) (1) (2) (1) (1) (2) (2) (1) (2)
[Ji , Jj ] = Ji
+ Ji , Jj + Jj = Ji , J j + J j + Ji , J j + J j
h i h i h i h i
(1) (1) (1) (2) (2) (1) (2) (2)
[Ji , Jj ] = Ji , Jj + Ji , J j + Ji , J j + Ji , J j

dado que los momentos angulares J(1) y J(2) conmutan por ser de espacios diferentes, se tiene que
h i h i h i
(1) (1) (2) (2) (1) (2) (1) (2)
[Ji , Jj ] = Ji , Jj + Ji , J j = iεijk Jk + iεijk Jk = iεijk Jk + Jk
[Ji , Jj ] = iεijk Jk
lo cual muestra que si J(1) y J(2) son dos momentos angulares arbitrarios que conmutan entre sı́, entonces el operador
J ≡ J(1) + J(2)
también es un momento angular. Todas las propiedades generales de un momento angular serán válidas entonces
para J. Tendremos además otras propiedades para conmutadores mixtos (que involucren por ejemplo un momento
angular total y un momento angular parcial). En particular, veamos las propiedades de conmutación de J 2
 2
J2 = J(1) + J(2) = J2(1) + J2(2) + 2J(1) · J(2) (16.7)
1
De hecho existirá una base que diagonaliza a los tres operadores simultáneamente.
16.3. LA ADICIÓN DE DOS MOMENTOS ANGULARES ES OTRO MOMENTO ANGULAR 349

donde hemos tenido en cuenta que J(1) y J(2) conmutan. El producto escalar se puede expresar en términos de los
(1) (2) (1) (2)
operadores escalera J± , J± y los operadores J3 y J3 .
(1) (2) (1) (2) (1) (2)
J(1) · J(2) = J1 J1 + J2 J2 + J3 J3 (16.8)
1  (1) (1)

(2) (2)
 1  (1) (1)

(2) (2)

(1) (2)
= J+ + J − J+ + J − + 2 J+ − J − J+ − J − + J 3 J3
4 4i
1 h (1) (2) (1) (2) (1) (2) (1) (2) (1) (2) (1) (2)
= J J + J + J− + J − J+ + J − J− − J + J+ + J + J−
4 + + i
(1) (2) (1) (2) (1) (2)
+J− J+ − J− J− + J3 J3
1  (1) (2) (1) (2)

(1) (2)
J(1) · J(2) = J+ J− + J − J+ + J 3 J3 (16.9)
2
La idea ahora es comparar los conjuntos conmutantes
n o 
2 (1) 2 (2)
J(1) , J3 , J(2) , J3 ; J2 , J 3

donde el primero consiste de momentos angulares parciales y el segundo de momentos angulares totales. Puesto que
J(1) y J(2) conmutan con J2(1) y J2(2) , también conmuta J
h i h i
J, J2(1) = J, J2(2) = 0

en particular J2 y J3 conmutan con J2(1) y J2(2)


h i hi
J3 , J2(1) J3 , J2(2) = 0
= (16.10)
h i h i
J2 , J2(1) = J2 , J2(2) = 0 (16.11)

(1) (2)
por otro lado, es obvio que J3 conmuta con J3 y J3
h i h i
(1) (2)
J3 , J 3 = J3 , J 3 =0 (16.12)

(1) (2)
pero J2 no conmuta ni con J3 ni con J3 , lo cual vemos usando (16.7, 16.8)
h i h i h i
(1) (1) (1)
J2 , J 3 = J2(1) + J2(2) + 2J(1) · J(2) , J3 = 2 J(1) · J(2) , J3
h i h i h i h i
(1) (1) (2) (1) (2) (1) (1) (2) (1) (1) (2) (1)
J2 , J 3 = 2 J1 J1 + J 2 J2 , J 3 = 2 J1 J1 , J 3 + 2 J2 J2 , J 3
h i h i h i h i
(1) (2) (1) (1) (1) (2) (1) (2) (1) (1) (1) (2)
= 2J1 J1 , J3 + 2 J1 , J3 J1 + 2J2 J2 , J3 + 2 J2 , J3 J2
h i
(1) (1) (2) (1) (2)
J2 , J 3 = −2i~J2 J1 + 2i~J1 J2

quedando finalmente h i h i
(1) (1) (2) (1) (2)
J2 , J 3 = 2i~ J1 J2 − J2 J1 (16.13)
y puesto que J es un momento angular, se cumple que
 2 
J ,J = 0

y por tanto h i h i h i
(1) (2) (1) (2)
J2 , J 3 + J 3 =0 ⇒ J2 , J 3 = − J2 , J 3
el análisis anterior nos muestra que el siguiente conjunto de operadores conmuta entre sı́
n o
J2 , J3 , J2(1) , J2(2)
350 CAPÍTULO 16. ADICIÓN DE MOMENTOS ANGULARES

16.4. Adición de dos momentos angulares con j(1) = j(2) = 1/2


(k)
Cada espacio E1/2 asociado a j(k) fijo, es un espacio de dos dimensiones. Por tanto, su producto tensorial
(1) (2)
E = E 1/2 ⊗E1/2 será de 4 dimensiones. Denotaremos a la base ortonormal “natural” en este espacio por {|ε 1 i ⊗ |ε2 i} ≡
{|ε1 , ε2 i} y en forma explı́cita escribimos

{|ε1 , ε2 i} = {|+, +i , |+, −i , |−, +i , |−, −i} (16.14)


(1) (2)
estos vectores son autoestados de los observables J 2(1) , J3 , J2(2) , J3 . Estrictamente estos operadores deben ser las
extensiones tensoriales de los operadores originales.
3 2
J2(1) |ε1 , ε2 i = J2(2) |ε1 , ε2 i = ~ |ε1 , ε2 i (16.15)
4
(1) ~ (2) ~
J3 |ε1 , ε2 i = ε1 |ε1 , ε2 i ; J3 |ε1 , ε2 i = ε2 |ε1 , ε2 i (16.16)
2 2
el conjunto
(1) (2)
J2(1) , J3 , J2(2) , J3 (16.17)
(1) (2)
forma para el espacio E = E 1/2 ⊗E1/2 , un C.S.C.O. “natural”, en el sentido de que este es el C.S.C.O. que se desprende
de la base “natural” o
n de E. En otras palabras, la base (16.14) está compuesta por vectores propios comunes al C.S.C.O.
(1) 2 (2)
J(1) , J3 , J(2) , J3 . Estrictamente J2(1) , J2(2) pueden ser excluı́dos ya que son proporcionales a la identidad 2 .
2

También hemos visto que los 4 observables

J2(1) , J2(2) , J2 , J3 (16.18)

(1) (2)
conmutan entre sı́. Veremos ahora que este conjunto también es un C.S.C.O. en E = E 1/2 ⊗ E1/2 . Adicionar dos
momentos angulares implica construı́r el sistema ortonormal de autovectores comunes al conjunto (16.18). Este
(1) (2)
conjunto diferirá de (16.14) ya que J 2 no conmuta con J3 , J3 . Denotaremos los vectores de la nueva base en la
forma |J, M i donde los autovalores de J 2(1) , J2(2) (que permanecen iguales) están implı́citos 3 . Estos vectores satisfacen
las relaciones
3
J2(1) |J, M i = J2(2) |J, M i = ~2 |J, M i (16.19)
4
J2 |J, M i = J (J + 1) ~2 |J, M i (16.20)
J3 |J, M i = M ~ |J, M i (16.21)

ya que J es un momento angular, entonces J debe ser entero o semientero no negativo, M debe estar entre −J y J
variando en saltos unidad. El problema es entonces encontrar los valores que J y M pueden tomar con base en los
valores de j1 , j2 y m1 , m2 , ası́ como expresar la base {|J, M i} en términos de la base conocida (16.14).
A continuación resolveremos el problema diagonalizando las matrices 4×4 que representan a J 2 y a J3 en la base
{|ε1 , ε2 i}. Más adelante se empleará un método más general que se puede usar en espacios vectoriales de dimensión
arbitraria.

16.4.1. Autovalores de J3 y su degeneración


(1) (2)
Nótese que para los observables J2(1,2) todos los vectores en el espacio E = E 1/2 ⊗ E1/2 son autovectores, por tanto
|J, M i ya son autovectores de estos observables.
2
Nótese que la ecuación (16.15) nos dice que J2(1) = J2(2) , entendidos como extensiones sobre el espacio tensorial, ya que actúan de
manera idéntica sobre todos los elementos de la base. Esto también se puede ver teniendo en cuenta que ambos son  proporcionales
 a la
2 2 (1) (2) 2 (1) 2 (2)
identidad en sus respectivos espacios, de modo que sus extensiones son J(1) = 3/4~ E ⊗ E y J(2) = E ⊗ 3/4~ E de modo
que J2(1) = J2(2) = 3/4~2 E (1×2) . 
3
La notación completa serı́a J, M j(1) , j(2) = |J, M (1/2, 1/2)i.
16.4. ADICIÓN DE DOS MOMENTOS ANGULARES CON J(1) = J(2) = 1/2 351

Por otro lado, las Ecs. (16.10, 16.12) nos dicen que J 3 conmuta con los cuatro observables del C.S.C.O. dados
por la Ec. (16.17). Por tanto, esperamos que los vectores base {|ε 1 , ε2 i} sean automáticamente autovectores de J 3 .
Usando (16.16) se encuentra que
  ~
(1) (2)
J3 |ε1 , ε2 i = J3 + J3 |ε1 , ε2 i = (ε1 + ε2 ) |ε1 , ε2 i
2
vemos entonces que |ε1 , ε2 i es autovector de J3 con autovalor
1
M~ = (ε1 + ε2 ) ~ (16.22)
2
puesto que ε1 y ε2 toman los valores ±1, vemos que M toma los valores +1, 0, −1.
Los valores M = ±1 son no degenerados. Solo un autovector corresponde a cada uno de ellos: |+, +i corresponde
a +1 y |−, −i corresponde a −1. En otras palabras para que M = +1 solo hay una posibilidad ε 1 = ε2 = +1, el
caso M = −1 solo es posible si ε1 = ε2 = −1. En contraste, M = 0 tiene degeneración dos, a él corresponden los
estados |+, −i y |−, +i. Esto se traduce en que hay dos soluciones para M = 0, ε 1 = −ε2 = 1 y ε1 = −ε2 = −1.
Cualquier combinación lineal de los vectores |+, −i y |−, +i es un autoestado de J 3 con autovalor M = 0.
Estos resultados se ven claramente en la representación matricial de J 3 en la base {|ε1 , ε2 i}. Ordenando los
vectores en la forma de la Ec. (16.14) esta matriz es
 
1 0 0 0
 0 0 0 0 
(J3 ) = ~ 
 0 0 0 0 

0 0 0 −1

16.4.2. Diagonalización de J2
Aplicaremos J2 a los vectores de la base (16.14), para lo cual usaremos las Ecs. (16.7, 16.9)
 2
(1) (2) (1) (2) (1) (2)
J2 = J(1) + J(2) = J2(1) + J2(2) + J+ J− + J− J+ + 2J3 J3
(1) (2)
los 4 vectores |ε1 , ε2 i son autovectores de J2(1) , J2(2) , J3 y J3 como se vé en la Ecs. (16.15, 16.16), y la acción de los
operadores escalera viene dada por la Ecs. (15.11), por tanto podemos evaluar J 2 |ε1 , ε2 i para todos los elementos
de la base {|ε1 , ε2 i}
 
2 3 2 3 2 1
J |+, +i = ~ + ~ |+, +i + ~2 |+, +i
4 4 2
= 2~2 |+, +i (16.23)
 
2 3 2 3 2 1
J |+, −i = ~ + ~ |+, −i − ~2 |+, −i + ~2 |−, +i
4 4 2
= ~2 [|+, −i + |−, +i] (16.24)
 
2 3 2 3 2 1
J |−, +i = ~ + ~ |−, +i − ~2 |−, +i + ~2 |+, −i
4 4 2
= ~2 [|+, −i + |−, +i] (16.25)
 
2 3 2 3 2 1
J |−, −i = ~ + ~ |−, −i + ~2 |−, −i
4 4 2
= 2~2 |−, −i (16.26)

la matriz representativa de J2 en la base {|ε1 , ε2 i} en el orden dado por (16.14) está dada por
 
2 0 0 0
  0 1 1 0 
J2 = ~ 2   0 1

1 0 
0 0 0 2
352 CAPÍTULO 16. ADICIÓN DE MOMENTOS ANGULARES

puesto que J2 conmuta con J3 , la matriz tendrá elementos no cero solo entre autovectores de J 3 asociados con el
mismo autovalor, lo cual explica los ceros de la matriz. De acuerdo con los resultados de la sección 16.4.1, los únicos
elementos no diagonales de J2 que son diferentes de cero, son aquellos que relacionan a los vectores {|+, −i , |−, +i},
los cuales están asociados al mismo valor de M (M = 0).
Ahora para diagonalizar esta matriz podemos tener en cuenta que es diagonal por bloques partiéndose en tres
submatrices  
A1×1 0 0
 0 B2×2 0 
0 0 C1×1
La matrices unidimensionales son las asociadas a los vectores |±, ±i que son autovectores de J 2 , como se vé en las
Ecs. (16.23,16.26). Los autovalores asociados son 2~ 2 . Ahora debemos diagonalizar la submatriz
 
2 1 1
B2×2 = ~
1 1

que representa a J2 dentro del subespacio dos dimensional generado por {|+, −i , |−, +i}, es decir el autosubespacio
de J3 que corresponde a M = 0. Los autovalores λ~ 2 = J (J + 1) ~2 de esta matriz se encuentran con la ecuación
caracterı́stica
(1 − λ)2 − 1 = 0
cuyas raı́ces son λ = 0 y λ = 2. Esto nos da los últimos autovalores de J 2 : 0 y 2~2 , es decir J = 0 y 1. Los
autovectores nos dan
1
|J = 1, M = 0i = √ [|+, −i + |−, +i] (16.27)
2
1
|J = 0, M = 0i = √ [|+, −i − |−, +i] (16.28)
2
como siempre, se puede colocar una fase global si se desea.
Vemos entonces que J2 tiene dos autovalores diferentes: 0 y 2~ 2 . El autovalor nulo es no degenerado y tiene como
único vector asociado a (16.28). Por otro lado, el valor propio 2~ 2 tiene degeneración triple, ya que está asociado a
los vectores |+, +i , |−−i y a la combinación lineal (16.27).

16.4.3. Autoestados de J2 y J3 : singlete y triplete


Hemos obtenido entonces los autovalores de J 2 y J3 ası́ como un conjunto completo de autovectores comunes
de J2 y J3 (que automáticamente son autoestados de J 2(1) y J2(2) ). Expresaremos los autoestados en la notación
(16.19-16.21).
El número cuántico J de (16.20) puede tomar dos valores: 0 y 1. El primero está asociado con un único vector,
que es también autovector de J3 con autovalor cero, el cual denotamos por
1
|0, 0i = √ [|+, −i − |−, +i] (16.29)
2
en tanto que para J = 1 hay tres vectores asociados con tres valores distintos de M
1
|1, 1i = |+, +i ; |1, 0i = √ [|+, −i + |−, +i] ; |1, −1i = |−−i (16.30)
2
se puede chequear fácilmente que los cuatro vectores dados en (16.29, 16.30) son ortonormales. La especificación de
J y M determina a un vector de esta base unı́vocamente, de modo que J 2 y J3 forman un C.S.C.O.. Aunque no es
necesario, a este C.S.C.O se le pueden agregar los operadores J 2(1) y J2(2) .
Por tanto cuando adicionamos dos momentos angulares con j 1 = j2 = 1/2 (por ejemplo dos espı́nes), el número J
que caracteriza al autovalor J (J + 1) ~ 2 del operador J2 puede ser igual a cero o igual a uno. Con cada uno de estos
valores se asocia una familia de (2J + 1) vectores ortogonales (tres para J = 1, uno para J = 0) que corresponden
a los 2J + 1 valores de M para J fijo.
16.5. MÉTODO GENERAL DE ADICIÓN DE DOS MOMENTOS ANGULARES ARBITRARIOS 353

A la familia (16.30) de tres vectores asociados a J = 1 se le denomina un triplete. Al vector |0, 0i asociado
a J = 0 se le denomina un singlete. La Ec. (16.30) nos muestra que los estados del triplete son simétricos con
respecto al intercambio de dos momentos angulares (por ejemplo espı́nes), en tanto que el estado singlete Ec.
(16.29) es antisimétrico. Es decir si cada vector |ε 1 , ε2 i se reemplaza por |ε2 , ε1 i, las expresiones (16.30) permanecen
invariantes en tanto que (16.29) cambia de signo. Esto tendrá gran importancia cuando las partı́culas cuyos espines
se adicionan sean idénticas. Además esto nos indica la combinación lineal de |+, −i con |−, +i que se requiere para
completar el triplete (debe ser simétrica). La parte singlete serı́a entonces la combinación lineal antisimétrica de
|+, −i con |−, +i la cual es ortogonal a la parte simétrica y por supuesto a los demás estados del triplete.

16.5. Método general de adición de dos momentos angulares arbitrarios


Consideraremos un sistema fı́sico descrito por el espacio E, y J un momento angular relativo a este sistema.
J puede ser un momento angular parcial o el momento angular total del sistema. Vimos en la sección 10.4.1, que
siempre es posible construı́r una base estándar {|j, m, ki} compuesta de autovectores comunes a J 2 y J3

J2 |j, m, ki = j (j + 1) ~2 |j, m, ki ; J3 |j, m, ki = m~ |j, m, ki (16.31)

de modo que la acción de los operadores escalera sobre esta base estándar está dada por las Ecs. (10.46)
p
J± |j, m, ki = ~ j (j + 1) − m (m ± 1) |j, m ± 1, ki (16.32)

denotamos como E (j, k) al autosubespacio expandido por vectores de la base estándar con j, k fijos. Este espacio
es de dimensión 2j + 1 correspondiente a los valores de m para un j dado. La dimensión no depende de k. Las Ecs.
(16.31, 16.32) nos dicen que los 2j + 1 vectores de la base para E (j, k) se transforman entre sı́ por medio de los
operadores J2 , J3 , J+ , J− . Es decir, el autosubespacio E (j, k) es globalmente invariante bajo estos cuatro operadores
y más en general es globalmente invariante bajo la acción de una función F (J). El espacio completo E se puede
escribir como una suma directa de subespacios ortogonales E (j, k) como se vé en la Ec. (10.45)

E = E (j1 , k = 1) ⊕ E (j1 , k = 2) ⊕ . . . ⊕ E (j1 , k = g (j1 )) ⊕


E (j2 , k = 1) ⊕ E (j2 , k = 2) ⊕ . . . ⊕ E (j2 , k = g (j2 )) ⊕
E (j3 , k = 1) ⊕ E (j3 , k = 2) ⊕ . . . ⊕ E (j3 , k = g (j3 )) ⊕ . . . (16.33)

debido a la invariancia de estos subespacios bajo los operadores J 2 , J3 , J+ , J− , F (J) estos operadores tendrán
una representación matricial en la base estándar donde los elementos matriciales no nulos están dentro de cada
subespacio E (j, k). Además dentro de cada subespacio E (j, k) los elementos de matriz de una función del tipo F (J)
son independientes de k.
Recordemos además que si a J2 y J3 le agregamos los operadores necesarios para formar un C.S.C.O. podemos
dar un significado fı́sico a k construyendo los vectores propios comunes a todo el C.S.C.O. si por ejemplo solo se
requiere un operador A para formar el C.S.C.O. y asumimos que A conmuta con J (escalar), podemos requerir que
los autovectores |j, m, ki también sean autovectores de A

A |j, m, ki = aj,k |j, m, ki (16.34)

de modo que la base estándar {|j, m, ki} estará determinada por las Ecs. (16.31, 16.32, 16.34). Cada E (j, k) es
también autosubespacio de A y el ı́ndice k discrimina entre los diferentes autovalores a j,k asociados a cada valor
de k. Cuando se requiere más de un operador para formar el C.S.C.O. el ı́ndice k corresponde realmente a varios
ı́ndices.

16.5.1. Formación del sistema a partir de dos subsistemas


Asumamos que nuestro sistema fı́sico se forma por la unión de dos subsistemas (por ejemplo un sistema de dos
partı́culas o la unión del sistema orbital con el de espı́n para una sola partı́cula). Usaremos los ı́ndices (1) y (2) para
denotar cantidades relativas a cada subsistema.
354 CAPÍTULO 16. ADICIÓN DE MOMENTOS ANGULARES

Asumiremos que para el espacio de estados E 1 del subsistema (1) conocemos una base estándar {|j 1 , m1 , k1 i} de
(1)
vectores propios comunes a J2(1) y J3 siendo J(1) el momento angular asociado al subsistema (1) por tanto las Ecs.
(16.31, 16.32) nos dan
(1)
J2(1) |j1 , m1 , k1 i = j1 (j1 + 1) ~2 |j1 , m1 , k1 i ; J3 |j1 , m1 , k1 i = m1 ~ |j1 , m1 , k1 i
(1)
p
J± |j1 , m1 , k1 i = ~ j1 (j1 + 1) − m1 (m1 ± 1) |j1 , m1 ± 1, k1 i

y similarmente para la base estándar {|j 2 , m2 , k2 i} del espacio E2 asociado al subsistema (2)
(2)
J2(2) |j2 , m2 , k2 i = j2 (j2 + 1) ~2 |j2 , m2 , k2 i ; J3 |j2 , m2 , k2 i = m2 ~ |j2 , m2 , k2 i
(2)
p
J± |j2 , m2 , k2 i = ~ j2 (j2 + 1) − m2 (m2 ± 1) |j2 , m2 ± 1, k2 i

el espacio de estados del sistema completo es el producto tensorial de los espacios E 1 y E2

E = E 1 ⊗ E2

y sabemos que el producto tensorial de las bases de E 1 y E2 formará una base en E. Denotamos esta base como

|j1 , m1 , k1 i ⊗ |j2 , m2 , k2 i ≡ |j1 , j2 ; m1 , m2 ; k1 , k2 i (16.35)

los espacios E1 y E2 son sumas directas de subespacios del tipo E 1 (j1 , k1 ) y E2 (j2 , k2 ) respectivamente. Estas sumas
están descritas por la Ec. (16.33)
      
(1) (1) (1) (1)
E1 = E1 j1 , k(1) = 1 ⊕ E1 j1 , k(1) = 2 ⊕ . . . ⊕ E1 j1 , k(1) = g j1 ⊕
      
(1) (1) (1) (1)
E1 j2 , k(1) = 1 ⊕ E1 j2 , k(1) = 2 ⊕ . . . ⊕ E1 j2 , k(1) = g j2 ⊕
      
(1) (1) (1) (1)
E1 j3 , k(1) = 1 ⊕ E1 j3 , k(1) = 2 ⊕ . . . ⊕ E1 j3 , k(1) = g j3 ⊕ ... (16.36)

(m)
y similarmente para el sistema (2). En este caso la notación j i representa diversos valores de j para el subsistema
m. No obstante, esta notación no será necesaria de aquı́ en adelante y usaremos j m para denotar el valor de j
asociado al subsistema m. Estas sumas las resumimos en la forma
X X
E1 = E1 (j1 , k1 ) ; E2 = E2 (j2 , k2 )
⊕ ⊕

por lo tanto E será la suma directa de subespacios E (j 1 , j2 ; k1 , k2 ) obtenido por el producto tensorial de los sube-
spacios E1 (j1 , k1 ) y E2 (j2 , k2 )
X
E= E (j1 , j2 ; k1 , k2 ) ; E (j1 , j2 ; k1 , k2 ) = E1 (j1 , k1 ) ⊗ E2 (j2 , k2 ) (16.37)

la dimensión del subespacio E (j1 , j2 ; k1 , k2 ) es (2j1 + 1) (2j2 + 1). Este subespacio será globalmente invariante ante
cualquier función de F (J1 ) y F (J2 ), donde naturalmente J1 y J2 son las extensiones de los operadores definidos
originalmente en cada subsistema.

16.5.2. Momento angular total y sus relaciones de conmutación


Vimos en la sección 16.3 que la suma de los momentos angulares

J = J(1) + J(2)

es también un momento angular siendo J (1) y J(2) las extensiones adecuadas. Por tanto J al igual que J (1) y J(2)
satisface las propiedades algebráicas de un momento angular. No obstante, también hay algunas relaciones de
conmutación entre momentos angulares totales y parciales que son de importancia en nuestra discusión (ver sección
16.5. MÉTODO GENERAL DE ADICIÓN DE DOS MOMENTOS ANGULARES ARBITRARIOS 355

16.3). Vimos que J(1) y J(2) conmutan con J2(1) y J2(2) y por tanto también con J. En particular J 2 y J3 conmutan
(1) (2)
con J2(1) y J2(2) . Además es inmediato que J3 y J3 conmutan con J3 , por tanto
h i h i h i h i h i h i
(1) (2)
J3 , J2(1) = J3 , J2(2) = J2 , J2(1) = J2 , J2(2) = J3 , J3 = J3 , J3 = 0 (16.38)

(1) (2)
sin embargo, J3 y J3 no conmutan con J2 lo cual se pudo ver partiendo de las Ecs. (16.7, 16.9)

J2 = J2(1) + J2(2) + 2J(1) · J(2) (16.39)


(1) (2) (1) (2) (1) (2)
J2 = J2(1) + J2(2) + 2J3 J3 + J+ J− + J− J+ (16.40)

con lo cual se llega a la Ec. (16.13)


h i h i h i
(1) (2) (1) (2) (1) (2)
J2 , J 3 = − J2 , J 3 = 2i~ J1 J2 − J2 J1 (16.41)

16.5.3. Cambio de base a realizar


Un vector de la base
{|j1 , m1 , k1 i ⊗ |j2 , m2 , k2 i} ≡ {|j1 , j2 ; m1 , m2 ; k1 , k2 i} (16.42)
es autoestado simultáneo de los observables
(1) (2)
J2(1) , J2(2) , J3 , J3

con autovalores j1 (j1 + 1) ~2 , j2 (j2 + 1) ~2 , m1 ~, m2 ~. Se observa entonces que la base (16.42) es adecuada para
el estudio de los momentos angulares individuales J (1) y J(2) de cada subsistema. Ahora bien, las Ecs. (16.38) nos
dicen que el conjunto de observables
J2(1) , J2(2) , J2 , J3
también conmutan entre sı́. Obsérvese que si construı́mos una base común a estos observables, serı́a más adecuada
para el estudio del momento angular total del sistema ya que un vector de esta base permitirı́a extraer los valores
propios de J2 y J3 . Esta base debe ser diferente a la anterior puesto que según la Ec. (16.41), J 2 no conmuta con
(1) (2)
J3 ni con J3 .
Además losnı́ndices k1 y o k2 tienen un significado fı́sico que es extensión natural del procedimiento para cada
2 (1)
subsistema. Si A1 , J(1) , J3 forma un C.S.C.O. en E1 donde A1 conmuta con J(1) entonces podemos escoger una
base estándar {|j1 , m1 , k1 i} consistente en los vectores
n ortonormales
o completos comunes a estos observables. Si algo
2 (2)
similar ocurre con un conjunto de observables A2 , J(2) , J3 en E2 entonces el conjunto

(1) (2)
A1 , A2 ; J2(1) , J2(2) ; J3 , J3

forma un C.S.C.O. en E cuyos autovectores están dados por la Ec. (16.42). Por otro lado, puesto que A 1 conmuta
con J(1) y con J(2) entonces conmutará con J. Esto a su vez implica que A 1 conmuta con J2 y J3 . Lo mismo ocurre
para el observable A2 , por tanto los observables en el conjunto

A1 , A2 ; J2(1) , J2(2) ; J2 , J3

conmutan entre ellos. Puede demostrarse que además forman un C.S.C.O. y la nueva base que buscaremos es un
sistema ortonormal de vectores propios comunes de este C.S.C.O.
Ahora bien, el subespacio E (j1 , j2 ; k1 , k2 ) definido en (16.37) es globalmente invariante bajo la acción de un
operador que sea función de J(1) o que sea función de J(2) . Por tanto, es globalmente invariante ante la acción de un
F (J). Esto implica que los observables J 2 y J3 que pretendemos diagonalizar, tienen elementos matriciales no nulos
solo dentro de cada espacio E (j1 , j2 ; k1 , k2 ). Las matrices de dimensión infinita que representan a J 2 y J3 en la base
(16.42) son diagonales por bloques y se pueden escribir como suma directa de submatrices cada una asociado a un
subespacio de la forma E (j1 , j2 ; k1 , k2 ). Por tanto, el problema se reduce a diagonalizar las submatrices asociadas a
cada subespacio E (j1 , j2 ; k1 , k2 ) cuya dimensión es (2j1 + 1) (2j2 + 1).
356 CAPÍTULO 16. ADICIÓN DE MOMENTOS ANGULARES

 
Por otro lado, los elementos matriciales en la base (16.42) para cualquier función F J(1) ó F J(2) son inde-
pendientes de k1 y k2 (solo los elementos matriciales de A 1 dependen de k1 y los de A2 dependen de k2 ). Por tanto,
esto también vale para J2 y J3 . En consecuencia, la diagonalización de estos dos operadores dentro de todos los
subespacios E (j1 , j2 ; k1 , k2 ) con el mismo valor de j1 y j2 , se realiza de forma idéntica. Por esta razón hablamos de
adición de los momentos angulares sin hacer referencia a los otros números cuánticos. Simplificaremos la notación
omitiendo los ı́ndices k1 y k2 escribiendo entonces

E (j1 , j2 ) ≡ E (j1 , j2 ; k1 , k2 ) ; |j1 , j2 ; m1 , m2 i ≡ |j1 , j2 ; m1 , m2 ; k1 , k2 i

puesto que J es un momento angular y E (j 1 , j2 ) es invariante ante F (J) entonces E (j 1 , j2 ) es una suma directa de
subespacios ortogonales E (J, k) cada uno de los cuales es invariante ante la acción de J 2 , J3 , J±
X
E (j1 , j2 ) = E (J, k) (16.43)

de aquı́ surgen las siguientes preguntas, dado un par j 1 y j2 ¿Cuáles son los valores de J que contribuyen en la suma
directa (16.43)? y ¿Cuántos subespacios E (J, k) están asociados con un J dado?.
Dado que tenemos una base conocida (16.42) esta será nuestro punto de partida para llegar a la base asociada
a J2 y J3 . Surge entonces el problema de expandir los autovectores de la base buscada asociados a E (j 1 , j2 ) en
términos de los autovectores de la base conocida (16.42).
Es importante mencionar que si tenemos más momentos angulares podemos adicionar los dos primeros y al
resultado le adicionamos un tercero y ası́ sucesivamente. Esto solo es posible puesto que el algoritmo de suma es
conmutativo y asociativo como veremos más adelante.

16.5.4. Autovalores de J2 y J3 : Caso de dos espines j1 = j2 = 1/2.


En este caso cada espacio E1 y E2 contiene solo un subespacio invariante ya que están asociados cada uno a un
valor fijo de j. El producto tensorial E = E 1 ⊗ E2 está asociado a un solo subespacio E (j 1 , j2 ) con j1 = j2 = 1/2.
De acuerdo con la descomposición (16.43), el espacio E (1/2, 1/2) es la suma directa de subespacios del tipo
E (J, k) de dimensión 2J + 1. Cada uno de estos subespacios contiene uno y solo un autovector de J 3 asociado a
cada uno de los valores de M tal que |M | ≤ J. Hemos visto en la sección 16.4.1 que M solo toma los valores 1, 0, −1;
donde el primero y el tercero no son degenerados en tanto que M = 0 es doblemente degenerado. De esto se concluye
que:

1. Valores de J > 1 están excluı́dos. Por ejemplo para que J = 2 fuera posible tendrı́a que existir al menos
un autovector de J3 con M = 2. Esto se debe a que la teorı́a del momento angular nos dice que para un j
dado los valores permitidos de m consisten en todos los valores enteros o semienteros que cubren el intervalo
−j ≤ m ≤ j en saltos unidad.

2. E (J = 1, k) aparece solo una vez (es decir k es único), puesto que M = ±1 solo aparece una vez, es decir
M = ±1 es no degenerado.

3. E (J = 0, k) aparece una sola vez. Esto se debe a que M = 0 es dos veces degenerado pero uno de los
autovectores con M = 0 está en el subespacio con J = 1, de modo que solo un autovector con M = 0
está asociado a un subespacio con J = 0.

Por tanto el espacio 4-dimensional E (1/2, 1/2) se descompone en subespacios del tipo E (J, k) según la Ec.
(16.43) en la forma
 
1 1
E , = E (J = 1) ⊕ E (J = 0)
2 2

que son de dimensión 3 y 1 respectivamente. Veremos ahora como extender estas conclusiones al caso general.
16.5. MÉTODO GENERAL DE ADICIÓN DE DOS MOMENTOS ANGULARES ARBITRARIOS 357

Figura 16.1: (a) Ilustración de las reglas de adición para momentos angulares en el caso general. (b) Pares de posibles
valores de (m, m0 ) = (m1 , m2 ) para el caso especı́fico j = j1 = 2, j 0 = j2 = 1. En ambos casos, los puntos asociados
con un valor dado de M = m + m0 = m1 + m2 están localizados sobre una lı́nea recta de pendiente −1 pintada
como lı́nea punteada. Hemos supuesto que j = j 1 ≥ j 0 = j2 , con lo cual el ancho del rectángulo es mayor o igual a
su altura.

16.5.5. Autovalores de J3 y su degeneración: Caso general


Consideremos un subespacio de la forma E (j 1 , j2 ) de dimensión (2j1 + 1) (2j2 + 1). Asumiremos que j1 y j2
están rotulados de modo que
j1 ≥ j 2
los vectores base {|j1 , j2 ; m1 , m2 i} de este subespacio (que se construyen con el producto tensorial de las bases de
los espacios factor) ya son autovectores de J 3
 
(1) (2)
J3 |j1 , j2 ; m1 , m2 i = J3 + J 3 |j1 , j2 ; m1 , m2 i = (m1 + m2 ) ~ |j1 , j2 ; m1 , m2 i
≡ M ~ |j1 , j2 ; m1 , m2 i

de modo que el correspondiente autovalor de M ~ es tal que

M = m 1 + m2 (16.44)

de lo cual, M toma los valores

M = j1 + j2 , j1 + j2 − 1, j1 + j2 − 2, . . . , − (j1 + j2 ) (16.45)

Denotaremos el grado de degeneración de cada M en el subespacio E (j 1 , j2 ), en la forma gj1 ,j2 (M ). Para encontrar
esta degeneración usaremos el siguiente procedimiento geométrico: realizamos un diagrama en dos dimensiones
asociando a cada vector |j1 , j2 ; m1 , m2 i un par ordenado donde el eje de abcisas se asocia con m 1 y el eje de
ordenadas con m2
|j1 , j2 ; m1 , m2 i ≡ (m1 , m2 )
todos los puntos asociados a estos vectores están ubicados en el borde o interior de un rectángulo cuyos vértices
están en (j1 , j2 ) , (j1 , −j2 ) , (−j1 , −j2 ) y (−j1 , j2 ). La Fig. 16.1 representa los puntos asociados a una configuración
arbitraria (izquierda) y una configuración con j 1 = 2, j2 = 1 (derecha). Si partimos de un punto dado (vector)
del tipo P = (m1 , m2 ) es claro que estados “vecinos” del tipo P ± ≡ (m1 ± 1, m2 ∓ 1) poseen el mismo valor de
M = m1 + m2 siempre y cuando existan los valores incrementados y decrementados de m 1 y m2 . Cuando alguno de
los valores incrementados o decrementados no exista, es por que el estado (m 1 , m2 ) se encuentra en alguno de los
bordes del rectángulo (o en una esquina). Para estados P en el interior del rectángulo, existe tanto P + como P− .
Dos puntos vecinos definidos con esta relación están unidos por una recta de pendiente −1

(m2 ∓ 1) − m2
pendiente = = −1
(m1 ± 1) − m1
358 CAPÍTULO 16. ADICIÓN DE MOMENTOS ANGULARES

En conclusión, los puntos situados a lo largo de las lı́neas punteadas de las Figs. 16.1a, y 16.1b, de pendiente −1,
corresponden a los vectores con el mismo valor de M = m 1 + m2 . El número de puntos (vectores) unidos por una
lı́nea define el grado de degeneración g j1 ,j2 (M ) del valor de M asociado.
Consideremos ahora los diferentes valores de M en orden descendente Ec. (16.45). Observaremos el patrón de
las lı́neas punteadas a medida que disminuye M . Empezando por el máximo M = j 1 + j2 vemos que este valor es
no-degenerado, ya que la lı́nea que lo cruza pasa solo por la esquina superior derecha (es en realidad un punto),
cuyas coordenadas son (j1 , j2 ). Vemos entonces que

gj1 ,j2 (j1 + j2 ) = 1 (16.46)

para el siguiente M = j1 + j2 − 1 la degeneración es doble (a menos que j 1 y/o j2 sean nulos), ya que la lı́nea
correspondiente contiene los puntos (j 1 , j2 − 1) y (j1 − 1, j2 ). Entonces

gj1 ,j2 (j1 + j2 − 1) = 2 (16.47)

La degeneración aumenta una unidad por cada decremento de M en una unidad, hasta que se alcanza la esquina
inferior derecha (j1 , −j2 ) del rectángulo4 , que corresponde al valor M = j1 − j2 ≥ 0 ya que suponemos siempre que
j1 ≥ j2 . El número de puntos llega entonces a su máximo (que es el número de puntos que miden “la altura” del
rectángulo) y es igual a
gj1 ,j2 (j1 − j2 ) = 2j2 + 1 (16.48)
si continuamos decrementando M , el número de puntos permanece constante en 2j 2 +1 siempre que la lı́nea asociada
a M cruce al rectángulo tocando sus lados superior (m 2 = j2 ) e inferior (m2 = −j2 ). Esto ocurre hasta que la lı́nea
asociada alcanza la esquina superior izquierda (−j 1 , j2 ) del rectángulo, para el cual M = −j 1 + j2 ≤ 0. Por tanto,
el número máximo de puntos 2j2 + 1 se mantiene en un intervalo para M dado por

gj1 ,j2 (M ) = 2j2 + 1 para − (j1 − j2 ) ≤ M ≤ j1 − j2 (16.49)

finalmente, para valores de M menores que − (j 1 − j2 ), la lı́nea asociada a cada M ya no intersecta la lı́nea superior
del rectángulo (m2 = j2 ) y gj1 ,j2 (M ) decrece monótonamente en la unidad por cada decremento unidad de M ,
alcanzando el valor 1 nuevamente cuando M = − (j 1 + j2 ), correspondiente a la esquina inferior izquierda del
rectángulo. Por lo tanto
gj1 ,j2 (−M ) = gj1 ,j2 (M ) (16.50)
estos resultados se resumen en la figura 16.2 para el caso j 1 = 2 y j2 = 1, esta figura muestra g2,1 (M ) como función
de M .

16.5.6. Autovalores de J2 : caso general


De la Ec. (16.45) vemos que los valores de M son enteros si j 1 y j2 son ambos enteros o ambos semi-enteros.
Ası́ mismo, los valores M son semi-enteros si unos de los j i es entero y el otro semientero. Por otro lado, la teorı́a
general del momento angular nos dice que J es entero (semi-entero) si y solo si M es entero (semi-entero). Podemos
entonces distinguir dos situaciones (1) j 1 y j2 son ambos enteros o semi-enteros, (2) Uno de los j i es entero y el otro
semientero. El primer caso conduce a pares (J, M ) enteros y el segundo caso a pares (J, M ) semi-enteros.
Puesto que el máximo valor de M es j1 +j2 , tenemos que J > j1 +j2 no aparece en E (j1 , j2 ) y por tanto no aparece
en la suma directa (16.43). Esto se debe a que para este valor J > j 1 + j2 tendrı́a que existir el correspondiente valor
de M = J según la teorı́a general del momento angular. Para J = j 1 + j2 hay un subespacio invariante asociado
E (J = j1 + j2 ), puesto que M = j1 + j2 existe, pero este subespacio es único ya que M = j 1 + j2 es no-degenerado.
En este subespacio hay uno y solo un vector asociado a M = j 1 + j2 − 1, y dado que M = j1 + j2 − 1 es doblemente
degenerado en E (j1 , j2 ), tenemos que J = j1 + j2 − 1 también está presente y a él corresponde un único subespacio
invariante E (J = j1 + j2 − 1).
4
Como estamos asumiendo que j1 ≥ j2 , siempre se alcanza la esquina inferior derecha (j1 , −j2 ) antes que la esquina superior izquierda
(−j1 , j2 ) en esta secuencia. A lo más ocurre que las dos esquinas se alcanzan al mismo tiempo cuando j1 = j2 , en cuyo caso tenemos un
cuadrado.
16.5. MÉTODO GENERAL DE ADICIÓN DE DOS MOMENTOS ANGULARES ARBITRARIOS 359

Figura 16.2: Gráfica del grado de degeneración g j1 ,j2 (M ) versus M , para el caso j1 = 1, j2 = 2 ilustrado en la Fig.
16.1b. El grado de degeneración se obtiene por simple conteo del número de puntos que toca cada lı́nea punteada
en la Fig. 16.1b. Adicionalmente, esta figura muestra la simetrı́a expresada por la Ec. (16.50).

En un contexto general denotaremos como p j1 ,j2 (J) el número de subespacios E (J, k) de E (j 1 , j2 ) asociados a
un J dado. En otras palabras, este es el número de diferentes valores de k para el valor dado de J (siendo j 1 y j2
fijos desde el principio).
Veremos que pj1 ,j2 (J) y gj1 ,j2 (M ) están asociados de manera sencilla. Consideremos un valor particular de M ,
a este valor de M está asociado uno y solo un vector en cada subespacio E (J, k) siempre que J ≥ |M |. Su grado de
degeneración está dado entonces por

gj1 ,j2 (M ) = pj1 ,j2 (J = |M |) + pj1 ,j2 (J = |M | + 1) + pj1 ,j2 (J = |M | + 2) + . . .

Invirtiendo esta relación, se obtiene a p j1 ,j2 (J) en términos de gj1 ,j2 (M )

pj1 ,j2 (J) = gj1 ,j2 (M = J) − gj1 ,j2 (M = J + 1)


= gj1 ,j2 (M = −J) − gj1 ,j2 (M = −J − 1) (16.51)

es de resaltar que en la Ec. (16.51), J es fijo y los valores de M no están asociados al valor fijo de J, sino a todos
los valores permitidos de M en E (j1 , j2 ). Por esta razón, los valores de gj1 ,j2 (M = J + 1) y gj1 ,j2 (M = −J − 1)
pueden ser no nulos.
Teniendo en cuenta la degeneración de los valores de M estudiada en la sección 16.5.5, podemos determinar los
valores del número cuántico J que ocurren en E (j 1 , j2 ) y el número de subespacios invariantes E (J, k) asociados
con cada uno de ellos. En primer lugar tenemos que

pj1 ,j2 (J) = 0 para J > j1 + j2

ya que gj1 ,j2 (M ) = 0 para |M | > j1 + j2 . Si ahora aplicamos las Ecs. (16.46, 16.47) tenemos que

pj1 ,j2 (J = j1 + j2 ) = gj1 ,j2 (M = j1 + j2 ) − gj1 ,j2 (M = j1 + j2 + 1)


pj1 ,j2 (J = j1 + j2 ) = gj1 ,j2 (M = j1 + j2 ) = 1

pj1 ,j2 (J = j1 + j2 − 1) = gj1 ,j2 (M = j1 + j2 − 1) − gj1 ,j2 (M = j1 + j2 ) = 2 − 1


pj1 ,j2 (J = j1 + j2 − 1) = 1

por tanto todos los valores de pj1 ,j2 (J) se pueden encontrar por iteración

pj1 ,j2 (J = j1 + j2 − 2) = 1, . . . , pj1 ,j2 (J = j1 − j2 ) = 1


360 CAPÍTULO 16. ADICIÓN DE MOMENTOS ANGULARES

finalmente, aplicando la Ec. (16.49) tenemos

pj1 ,j2 (J) = 0 para J < j1 − j2 = |j1 − j2 |

la última igualdad se obtiene recordando que hemos mantenido la suposición j 1 ≥ j2 en todo el tratamiento. Para
el caso j2 ≥ j1 solo hay que invertir los ı́ndices 1 y 2.
En conclusión, para valores fijos de j 1 y j2 , es decir dentro de un subespacio E (j 1 , j2 ) de dimension (2j1 + 1) (2j2 + 1)
los autovalores de J2 son tales que

J = j1 + j2 , j1 + j2 − 1, j1 + j2 − 2, . . . , |j1 − j2 |

y cada valor de J está asociado a un único subespacio invariante E (J, k) en la suma directa dada por la Ec. (16.43),
la cual se reduce a
jX
1 +j2

E (j1 , j2 ) = E (J) (16.52)


⊕J=|j1 −j2 |

de modo que el ı́ndice k es realmente innecesario. Esto implica en particular que si tomamos un valor fijo de J y
un valor fijo de M compatible con J (|M | ≤ J), existe un único vector |J, M i en E (j 1 , j2 ) asociado a estos números
cuánticos. La especificación de J es suficiente para determinar el subespacio invariante, y la especificación de M me
lleva a un único vector en dicho subespacio. En consecuencia J 2 y J3 forman un C.S.C.O. en E (j1 , j2 ).
A manera de consistencia, podemos mostrar que el número N de pares (J, M ) encontrados para E (j 1 , j2 ) coincide
con la dimensión (2j1 + 1) (2j2 + 1) de E (j1 , j2 ), puesto que el conjunto {|J, M i} constituye una base para E (j 1 , j2 ).
Asumiremos por simplicidad que j1 ≥ j2 . Puesto que cada subespacio E (J) es de dimensión 2J + 1 (es decir tiene
2J + 1 valores diferentes de M ), la suma directa (16.52) nos dice que
jX
1 +j2

N= (2J + 1) (16.53)
J=j1 −j2

si reemplazamos
J = j 1 − j2 + i
podemos calcular (16.53)
jX
1 +j2 2j2
X 2j2
X 2j2
X
N = (2J + 1) = [2 (j1 − j2 + i) + 1] = [2 (j1 − j2 ) + 1] 1+2 i
J=j1 −j2 i=0 i=0 i=0
2j2 (2j2 + 1)
= [2 (j1 − j2 ) + 1] (2j2 + 1) + 2 = (2j1 − 2j2 + 1) (2j2 + 1) + 2j2 (2j2 + 1)
2
= [(2j1 − 2j2 + 1) + 2j2 ] (2j2 + 1) = (2j1 + 1) (2j2 + 1)

16.6. Autovectores comunes de J2 y J3


La base “natural” de E (j1 , j2 ) es la base de los productos tensoriales entre las bases de E (j 1 ) y E (j2 ) denotada
(1) (2)
por {|j1 , j2 , m1 , m2 i}. Esta es la base de vectores propios comunes a J 2(1) , J3 , J2(2) , J3 . Ahora bien, los vectores
propios comunes a J2 , J3 , J2(1) , J2(2) serán denotados por |JM i. Estrictamente la notación deberı́a incluir los valores
j1 y j2 de donde proviene el producto tensorial. Sin embargo, esta notación se omitirá ya que j 1 y j2 son fijos en
todo el proceso. Por la misma razón, se simplificará la notación de la base natural escribiéndola simplemente como
{|m1 , m2 i}. Cuando sea necesario se distinguirán ambas bases por un subı́ndice en la forma |JM i J y |m1 , m2 ij . La
transformación de la base {|m1 , m2 i} a la base {|JM i}, se debe realizar con una transformación unitaria, puesto
que ambas bases son ortonormales. Como los {|JM i} son autovectores comunes de J 2 , J3 , J2(1) , J2(2) tenemos que

J2 |JM i = J (J + 1) ~2 |JM i ; J3 |JM i = M ~ |JM i


J2(1) |JM i = j1 (j1 + 1) ~ |JM i ; J2(2) |JM i = j2 (j2 + 1) ~2 |JM i
2
16.6. AUTOVECTORES COMUNES DE J2 Y J3 361

16.6.1. Caso especial j1 = j2 = 1/2


En la sección 16.4, hemos encontrado los vectores propios |J, M i en E (1/2, 1/2) a través de la diagonalización
de las representaciones matriciales. En este caso recurriremos a la generación de los diferentes vectores por medio de
operadores escalera J± . La ventaja de este método es que es más fácil de generalizar y de manejar cuando tenemos
valores altos de los momentos angulares.
En primer lugar el ket |1/2, 1/2i ≡ |++i es el único vector propio de J 3 en E (1/2, 1/2) que corresponde a M = 1.
Puesto que J2 y J3 conmutan, y el valor M = 1 es no degenerado, el teorema 1.66 página 50 nos dice que |++i
también tiene que ser autovector de J 2 . Siguiendo los razonamientos de la sección 16.5.4 el valor propio para J 2
tiene que ser J = 1. Por tanto, podemos escoger la fase del vector |J = 1, M = 1i para que coincida con |++i
|1, 1i = |++i (16.54)
los otros estados del triplete J = 1 se obtienen por aplicación sucesiva del operador J − tal como se describió en la
sección 10.4.1. Usando la Ec. (10.46), tenemos entonces
p √
J− |1, 1i = ~ 1 (1 + 1) − 1 (1 − 1) |1, 0i = ~ 2 |1, 0i
con lo cual se tiene
1 1
|1, 0i = √ J− |1, 1i = √ J− |++i
~ 2 ~ 2
para calcular |1, 0i en términos de la base original {|m 1 , m2 i} basta recordar que
(1) (2)
J− = J − + J −
con lo cual
1  (1) (2)
 1
|1, 0i = √ J− + J− |++i = √ (~ |−+i + ~ |+−i)
~ 2 ~ 2
1
|1, 0i = √ (|−+i + |+−i) (16.55)
2
ahora aplicamos J− a |1, 0i para obtener el último elemento |1, −1i del triplete.

J− |1, 0i = ~ 2 |1, −1i (16.56)
combinando las Ecs. (16.55, 16.56) tenemos
1 1  (1)  1 
(2)
|1, −1i = √ J− |1, 0i = √ J− + J− √ (|−+i + |+−i)
~ 2 ~ 2 2
1 h    i 1 h (2) i
(1) (2) (1) (2) (1)
= J− + J− |−+i + J− + J− |+−i = J− |−+i + J− |+−i
2~ 2~
1
= [~ |−−i + ~ |−−i]
2~
|1, −1i = |−−i
nótese que el estado |−−i se pudo haber extraı́do con un argumento similar al usado para encontrar |++i, ya que
el estado con M = −1 al igual que el asociado a M = 1 es no degenerado. El procedimiento anterior tiene sin
embargo la ventaja de mostrar el algoritmo general y además nos permite ajustar las convenciones de fases que
podrı́an aparecer en |1, 0i y |1, −1i. Existen dos lugares en el procedimiento en donde se fijan las fases, en la Ec.
(16.54) se puede colocar una fase arbitraria, y en las Ecs. (10.46) para J ± se pueden colocar fases que dependan de
m.
Finalmente, encontraremos el estado singlete |J = 0, M = 0i , que es el único vector del subespacio unidimen-
sional E (J = 0). Este se puede encontrar dentro de fases constantes, con la condición de ser ortonormal al triplete.
Al ser ortonormal a |1, 1i = |++i y a |1, −1i = |−−i, se tiene que |0, 0i debe ser una combinación lineal de |+−i
y |−+i
|0, 0i = α |+−i + β |−+i (16.57)
2 2
h0, 0 |0, 0i = |α| + |β| = 1 (16.58)
362 CAPÍTULO 16. ADICIÓN DE MOMENTOS ANGULARES

en donde hemos agregado la condición de normalización. Teniendo en cuenta que |0, 0i también debe ser ortogonal
a |1, 0i, las Ecs. (16.55, 16.57) nos dan

1
h1, 0 |0, 0i = √ [h−+| + h+−|] [α |+−i + β |−+i] = 0
2
⇒ α h−+| + −i + β h−+| − +i + α h+−| + −i + β h+−| − +i = 0
β+α = 0 (16.59)

combinando las Ecs. (16.58, 16.59) tenemos

1
α = −β ⇒ |α|2 = |β|2 ⇒ 2 |α|2 = 1 ⇒ |α| = √
2
con lo cual
1
α = −β = √ eiχ
2
siendo χ cualquier número real. Eligiendo χ = 0, tenemos
1
|0, 0i = √ [|+−i − |−+i]
2
es importante observar que con este método no fué necesario recurrir a las representaciones matriciales de los
operadores, en particular de J2 (que fué la que se tuvo que diagonalizar).

16.7. Autovectores de J2 y J3 : Caso general


Hemos visto en la sección 16.5.6, Ec. (16.52) que la descomposición de E (j 1 , j2 ) como suma directa de subespacios
invariantes E (J) está dada por

E (j1 , j2 ) = E (j1 + j2 ) ⊕ E (j1 + j2 − 1) ⊕ . . . ⊕ E (|j1 − j2 |) (16.60)

determinaremos los vectores |J, M i para cada uno de estos subespacios

16.7.1. Determinación de los vectores |JM i del subespacio E (j1 + j2 )


El ket |m1 = j1 , m2 = j2 i es el único autovector de J3 en E (j1 , j2 ) con M = j1 +j2 . Puesto que J2 y J3 conmutan
y M = j1 + j2 es no-degenerado, el teorema 1.66 página 50 nos dice que |m 1 = j1 , m2 = j2 i también tiene que ser
autovector de J2 . De acuerdo con (16.60) el valor asociado de J solo puede ser J = j 1 + j2 . Podemos escoger el
factor de fase de manera que

|J = j1 + j2 , M = j1 + j2 i = |m1 = j1 , m2 = j2 i

que también denotaremos por


|j1 + j2 , j1 + j2 iJ = |j1 , j2 ij (16.61)
la aplicación reiterada de J− permitirá encontrar todos los vectores del tipo |J, M i asociados a J = j 1 +j2 . Aplicando
las Ecs. (10.46), tenemos
p
J− |j1 + j2 , j1 + j2 iJ = ~ 2 (j1 + j2 ) |j1 + j2 , j1 + j2 − 1iJ
1
|j1 + j2 , j1 + j2 − 1iJ = p J− |j1 + j2 , j1 + j2 iJ (16.62)
~ 2 (j1 + j2 )

para escribir el vector |j1 + j2 , j1 + j2 − 1iJ en términos de la base original |m1 , m2 ij , debemos escribir el término
(1) (2)
de la derecha en la Ec. (16.62) en la base original, para lo cual tenemos en cuenta que J − = J− + J− y que
|j1 + j2 , j1 + j2 iJ = |j1 , j2 ij ; con lo cual la Ec. (16.62) queda
16.7. AUTOVECTORES DE J2 Y J3 : CASO GENERAL 363

 
(1) (2) √ √
J− + J− |j1 , j2 ij ~ 2j1 |j1 − 1, j2 ij + ~ 2j2 |j1 , j2 − 1ij
|j1 + j2 , j1 + j2 − 1iJ = p = p
~ 2 (j1 + j2 ) ~ 2 (j1 + j2 )
obteniendo finalmente
s s
j1 j2
|j1 + j2 , j1 + j2 − 1iJ = |j1 − 1, j2 ij + |j1 , j2 − 1ij (16.63)
j1 + j 2 j1 + j 2

nótese además que la combinación lineal de vectores originales que me forma a |j 1 + j2 , j1 + j2 − 1iJ está au-
tomáticamente normalizada.
Para obtener |j1 + j2 , j1 + j2 − 2iJ , aplicamos J− a ambos lados de la Ec. (16.63) escribiendo tal operador como
(1) (2)
J− = J− + J− a la derecha de dicha ecuación. Podemos repetir este procedimiento sistemáticamente, hasta llegar
al estado |j1 + j2 , − (j1 + j2 )iJ , el cual se puede ver que es igual a |−j 1 , −j2 ij por un argumento similar al que nos
llevó a la Ec. (16.61), puesto que M = −j 1 − j2 también es no-degenerado.
Al finalizar este proceso hemos encontrado todos los 2 (j 1 + j2 ) + 1 vectores de la forma |J = j1 + j2 , M i, los
cuales expanden el subespacio E (J = j 1 + j2 ) de E (j1 , j2 ).

16.7.2. Determinación de los vectores |JM i en los otros subespacios


Definiremos ahora a G (j1 + j2 ) como el suplemento o complemento ortogonal de E (j 1 + j2 ) en E (j1 , j2 ). De
acuerdo con la Ec. (16.60), tal complemento ortogonal estará dado por

G (j1 + j2 ) = E (j1 + j2 − 1) ⊕ E (j1 + j2 − 2) ⊕ . . . ⊕ E (|j1 − j2 |)

y aplicamos a G (j1 + j2 ) un análisis análogo al realizado en la sección 16.7.1 para E (j 1 + j2 ).


En G (j1 + j2 ) el grado de degeneración gj0 1 ,j2 (M ) de un valor dado de M es menor en la unidad que la degen-
eración en el espacio completo E (j 1 , j2 )
gj0 1 ,j2 (M ) = gj1 ,j2 (M ) − 1 (16.64)

esto se debe a que E (j1 + j2 ) posee uno, y solo un vector asociado a cada valor accesible de M en E (j 1 , j2 ). Es
decir, para cada M en el intervalo − (j 1 + j2 ) ≤ M ≤ j1 + j2 hay uno y solo un vector en E (j1 + j2 ). En particular,
M = j1 + j2 ya no existe en G (j1 + j2 ), y por tanto el valor máximo de M en G (j 1 + j2 ) es M = j1 + j2 − 1,
como este era doblemente degenerado en E (j 1 , j2 ), será no-degenerado en G (j1 + j2 ). Por argumentos similares
a los de la sección 16.7.1, el vector asociado a M = j 1 + j2 − 1 en este subespacio, debe ser proporcional a
|J = j1 + j2 − 1, M = j1 + j2 − 1i. Queremos ahora encontrar su expansión en términos de la base {|m 1 , m2 i}. En
virtud del valor de M = j1 + j2 − 1, la expansión debe ser de la forma

|j1 + j2 − 1, j1 + j2 − 1iJ = α |j1 , j2 − 1ij + β |j1 − 1, j2 ij ; |α|2 + |β|2 = 1 (16.65)

donde además requerimos la normalización. Adicionalmente, este estado debe ser ortogonal a |j 1 + j2 , j1 + j2 − 1iJ ∈
E (j1 + j2 ), i.e. al estado del complemento ortogonal de G (j 1 + j2 ) con el mismo valor de M = j1 + j2 − 1. Usando
las expresiones (16.63, 16.65) para este vector, dicha ortogonalidad se escribe como

J hj1 + j2 , j1 + j2 − 1 |j1 + j2 − 1, j1 + j2 − 1iJ = 0


"s s #
j1 j2 h i
j hj1 − 1, j2 | + j hj1 , j2 − 1| α |j1 , j2 − 1ij + β |j1 − 1, j2 ij = 0
j1 + j 2 j1 + j 2
s s
j1 j2
β j hj1 − 1, j2 | j1 − 1, j2 ij + α j hj1 , j2 − 1| j1 , j2 − 1ij = 0
j1 + j 2 j1 + j 2
s s
j1 j2
β +α = 0 (16.66)
j1 + j 2 j1 + j 2
364 CAPÍTULO 16. ADICIÓN DE MOMENTOS ANGULARES

la condición de normalización (16.65) junto con la Ec. (16.66) nos permiten encontrar α y β dentro de un factor de
fase. Escogiendo α real y positivo, la Ec. (16.66) nos dice que β es real y toma el valor
s    
j2 2 2 2 j2 2 j1 + j 2
β = −α ⇒α +β =α 1+ =1⇒α =1
j1 j1 j1
s s s
j1 j2 j2
α = ; β = −α =−
j1 + j 2 j1 j1 + j 2

Con lo cual la Ec. (16.65) queda


s s
j1 j2
|j1 + j2 − 1, j1 + j2 − 1iJ = |j1 , j2 − 1ij − |j1 − 1, j2 ij (16.67)
j1 + j 2 j1 + j 2

este es el primer vector de una nueva familia caracterizada por J = j 1 + j2 − 1, de forma similar al vector asociado
a J = j1 + j2 en la sección 16.7.1. Los otros vectores de esta nueva familia se pueden generar por aplicación sucesiva
del operador J− . De esta forma, obtenemos [2 (j1 + j2 − 1) + 1] vectores del tipo |J = j1 + j2 − 1, M i donde J y M
toman los valores
J = j1 + j2 − 1 ; M = j1 + j2 − 1, j1 + j2 − 2, . . . , − (j1 + j2 − 1)

estos vectores nos permiten expandir al subespacio E (j 1 + j2 − 1).


Ahora bien, si j1 +j2 −2 ≥ |j1 − j2 | podemos formar el suplemento de la suma directa E (j 1 + j2 )⊕E (j1 + j2 − 1)
en el espacio E (j1 , j2 )

G (j1 + j2 , j1 + j2 − 1) = E (j1 + j2 − 2) ⊕ E (j1 + j2 − 3) ⊕ . . . ⊕ E (|j1 − j2 |)

en el suplemento G (j1 + j2 , j1 + j2 − 1), la degeneración de cada valor de M decrece en una unidad con respecto a
la degeneración en el suplemento anterior G (j 1 + j2 ). En particular, el máximo valor de M es ahora M = j 1 + j2 − 2
y es no-degenerado. El vector asociado en G (j 1 + j2 , j1 + j2 − 1) será |J = j1 + j2 − 2, M = j1 + j2 − 2i.
Para calcular al vector |j1 + j2 − 2, j1 + j2 − 2iJ en términos de la base |m1 , m2 i, basta notar que éste debe ser
una combinación lineal de tres vectores

|j1 + j2 − 2, j1 + j2 − 2iJ = α1 |j1 , j2 − 2ij + α2 |j1 − 1, j2 − 1ij + α3 |j1 − 2, j2 ij (16.68)

los tres coeficientes se fijan dentro de un factor de fase por la condición de normalización y de ortogonalidad con
los vectores (ya conocidos) dados por: |j 1 + j2 , j1 + j2 − 2i , |j1 + j2 − 1, j1 + j2 − 2i. Es decir, los vectores en el
complemento ortogonal de G (j1 + j2 , j1 + j2 − 1), con el mismo valor de M = j1 + j2 − 2. Una vez determinados
los coeficientes en (16.68), podemos encontrar los demás vectores de esta tercera familia, por aplicación sucesiva de
J− . Estos vectores nos permiten expandir a E (j 1 + j2 − 2).
El procedimiento se puede repetir hasta abarcar todos los valores de M mayores o iguales a |j 1 − j2 |, y en virtud
de la Ec. (16.50) también todos los valores correspondientes a M menores o iguales a − |j 1 − j2 |. De esta forma
determinamos todos los vectores {|J, M i} en términos de la base original {|m 1 , m2 i}.

16.8. Transformación de la base desacoplada a la base acoplada y coeficientes


de Clebsch-Gordan
(1) (2)
En el espacio E (j1 , j2 ), los autovectores comunes a J2(1) , J3 , J2(2) , J3 , y que denotamos (en notación completa)
por {|j1 , j2 ; m1 , m2 i} forman una base ortonormal conocida como la base “desacoplada” en el sentido de que esta base
nos da información directa de los números cuánticos individuales de cada partı́cula. Por otra parte, los autovectores
comunes a J2 , J3 , J2(1) , J2(2) , y que denotamos (en notación completa) por {|j 1 , j2 ; J, M i} forman una base ortonormal
conocida como la base “acoplada” ya que esta base nos da información directa de los números cuánticos asociados
al sistema como un todo.
16.8. TRANSFORMACIÓN DE LA BASE DESACOPLADA A LA BASE ACOPLADA Y COEFICIENTES DE CLEB

La transformación que nos lleva desde la base desacoplada hasta la base acoplada es unitaria puesto que es una
transformación de una base ortonormal a otra base también ortonormal. Esta transformación unitaria se escribe
fácilmente usando la completez de la base desacoplada
j1
X j2
X
|j1 , j2 ; J, M i = |j1 , j2 ; m1 , m2 i hj1 , j2 ; m1 , m2 | J, M i (16.69)
m1 =−j1 m=−j2

cambiaremos ligeramente la notación para los coeficientes de esta expansión en la forma

hj1 , j2 ; m1 , m2 | J, M i ≡ hm1 , m2 (j1 , j2 ) J, M i (16.70)

con lo cual la expansión (16.69) se escribe como


j1
X j2
X
|j1 , j2 ; J, M i = |j1 , j2 ; m1 , m2 i hm1 , m2 (j1 , j2 ) J, M i (16.71)
m1 =−j1 m=−j2

los coeficientes hm1 , m2 (j1 , j2 ) J, M i de la expansión, que son elementos de la matriz unitaria de transformación,
se conocen como coeficientes de Clebsch-Gordan. Los números cuánticos de la izquierda indican un ket de la base
desacoplada, los de la derecha indica un ket de la base acoplada y los números cuánticos (j 1 , j2 ) del centro, in-
dican los momentos angulares j1 y j2 que se están acoplando. Un aspecto importante es que la notación original
|j1 , j2 ; m1 , m2 ; k1 , k2 i , |j1 , j2 ; J, M ; k1 , k2 i para las bases no es necesaria dado que los productos internos son in-
dependientes de k1 y k2 , y dentro del espacio E (j1 , j2 ) los k 0 s toman un solo valor, de modo que dentro de este
subespacio este número cuántico no discrimina diferentes estados.
No es posible dar expresiones generales para los coeficientes de Clebsch-Gordan. Estos coeficientes se pueden
generar con el algoritmo explicado en las secciones anteriores. Adicionalmente, existen tablas numéricas de estos
coeficientes. Por ejemplo, las Ecs. (16.61, 16.63, 16.67) nos permiten encontrar algunos coeficientes de Clebsch-
Gordan

hj1 , j2 (j1 , j2 ) j1 + j2 , j1 + j2 i = 1
s
j1
hj1 − 1, j2 (j1 , j2 ) j1 + j2 , j1 + j2 − 1i =
j1 + j 2
s
j2
hj1 , j2 − 1 (j1 , j2 ) j1 + j2 , j1 + j2 − 1i =
j1 + j 2
s
j1
hj1 , j2 − 1 (j1 , j2 ) j1 + j2 − 1, j1 + j2 − 1i =
j1 + j 2
s
j2
hj1 − 1, j2 (j1 , j2 ) j1 + j2 − 1, j1 + j2 − 1i = −
j1 + j 2

Es importante mencionar que para determinar estos coeficientes en forma única, deben escogerse ciertas con-
venciones de fases. Lo usual es definir estos coeficientes como reales. Sin embargo, la escogencia de ciertas fases
dictamina el signo de algunos coeficientes. Por supuesto, los signos relativos de los coeficientes que aparecen en la
expansión del mismo vector |J, M i están fijos, solo se puede escoger en forma arbitraria el signo global.
Adicionalmente, la reglas de adición que hemos obtenido muestran que estos coeficientes tienen unas reglas de
selección: el coeficiente hj1 , j2 ; m1 , m2 | J, M i es diferente de cero solo si

M = m1 + m2 ; |j1 − j2 | ≤ J ≤ j1 + j2 (16.72)

donde J debe ser del mismo tipo (entero o semi-entero) que los valores j 1 + j2 y |j1 − j2 |. La segunda condición en
(16.72) se conoce usualmente como “regla del triángulo” ya que expresa el hecho de que si la condición se satisface,
debe poderse formar un triángulo con tres segmentos de longitud j 1 , j2 y J. En otras palabras, la segunda ecuación
(16.72) expresa el conocido teorema que nos dice que un lado J de un triángulo es menor que la suma de los otros
dos lados y mayor que su diferencia.
366 CAPÍTULO 16. ADICIÓN DE MOMENTOS ANGULARES

Naturalmente la relación inversa de la expresada en (16.71) se puede obtener usando la completez de la base
acoplada
jX
1 +j2 J
X
|j1 , j2 ; m1 , m2 i = |J, M i hJ, M |j1 , j2 ; m1 , m2 i (16.73)
J=j1 −j2 M =−J

dado que los coeficientes de C-G son elementos de una matriz unitaria y se eligen como reales, la matriz será ortogonal
real, por tanto se cumple la condición

hJ, M |j1 , j2 ; m1 , m2 i = hj1 , j2 ; m1 , m2 | J, M i (16.74)

En sı́ntesis, los coeficientes de Clebsch-Gordan determinan la transformación de la base desacoplada a la base


acoplada y viceversa.
Capı́tulo 17

Propiedades generales de los sistemas de dos


estados

Si por ejemplo consideramos los estados propios del operador de espı́n S para una partı́cula de espı́n s = 1/2,
tenemos que hay solo dos autoestados de S que usualmente denotamos |±i. Si estamos interesados en información
concerniente solo a variables de espı́n, por ejemplo la probabilidad de que el momento magnético de espı́n sea
+1/2 en una medida de espı́n (sin importar los valores que tomen las variables espaciales), entonces podemos por
simplicidad considerar un espacio vectorial (espinorial) de solo dos dimensiones para realizar los cálculos, tal que
los dos estados |±i formarán una base para dicho espacio.
Existen otros escenarios en los cuales los sistemas de dos estados resultan relevantes en mecánica cuántica.
Consideremos un sistema para el cual existen dos estados con energı́as muy cercanas entre sı́, y que son muy
diferentes a las energı́as de los otros autoestados de energı́a del sistema. Asumamos que queremos evaluar el efecto
de una perturbación externa o de una perturbación interna previamente ignorada. Si la intensidad de la perturbación
es suficientemente pequeña, se puede demostrar que su efecto sobre los dos estados “cercanos”, se puede calcular en
primera aproximación ignorando los otros niveles de energı́a. De modo que todos los cálculos involucran un espacio
de dos dimensiones.

17.1. Formulación del problema


Consideremos un sistema fı́sico cuyo espacio de estados es de dos dimensiones. Como ya se mencionó esto es
usualmente solo una aproximación, en la cual asumimos que hay un subespacio dos dimensional del espacio completo
de estados que está casi desacoplado de su complemento ortogonal. Es decir, la probabilidad de obtener valores de
energı́a diferentes a las de los dos estados en una medición es mucho menor que la probabilidad de obtener alguna de
las dos energı́as de los dos estados en cuestión. De acuerdo con el quinto postulado, esto implica que la probabilidad
de que el sistema esté en una combinación lineal que involucra solo a los dos estados es casi uno.
Definamos un Hamiltoniano H0 que denominaremos Hamiltoniano no perturbado, y usaremos la base de sus
vectores propios |ϕ1 i , |ϕ2 i para realizar los cálculos. Sus niveles de energı́a serán E 1 y E2 de modo que
H0 |ϕ1 i = E1 |ϕ1 i ; H0 |ϕ2 i = E2 |ϕ2 i , hϕi |ϕj i = δij , i, j = 1, 2 (17.1)
ahora queremos tener en cuenta una perturbación externa o interacción interna previamente ignorada. Tal pertur-
bación (también llamado acople) será simbolizada como W , y el Hamiltoniano perturbado H viene dado por
H = H0 + W (17.2)
denotaremos a los autoestados y autovalores de H como |ψ ± i y E± respectivamente
H |ψ+ i = E+ |ψ+ i ; H |ψ− i = E− |ψ− i (17.3)
asumiremos que W es independiente del tiempo. Expresaremos matricialmente a la perturbación W usando la base
no perturbada |ϕ1 i , |ϕ2 i (i.e. la base de vectores propios del Hamiltoniano no perturbado H 0 )
   
hϕ1 | W |ϕ1 i hϕ1 | W |ϕ2 i W11 W12
W = = , Wij = Wji∗ (17.4)
hϕ2 | W |ϕ1 i hϕ2 | W |ϕ2 i W21 W22
368 CAPÍTULO 17. PROPIEDADES GENERALES DE LOS SISTEMAS DE DOS ESTADOS

de modo que W11 y W22 son reales y W12 = W21 ∗ . En ausencia del acople o perturbación W , las energı́as accesibles

del sistema son E1 y E2 , siendo |ϕ1 i , |ϕ2 i los estados estacionarios del sistema, de modo que si en t = 0 el sistema
está en uno de estos dos estados, permanecerá en el indefinidamente. Veremos entonces como se modifican las
energı́as y estados estacionarios cuando se introduce el acople W .

17.2. Consecuencias de la introducción del acople sobre los niveles de energı́a


y los estados estacionarios
Al introducir el acople, el Hamiltoniano del sistema será el descrito en la Ec. (17.2). Por tanto, de acuerdo
con los postulados, los niveles de energı́a y estados estacionarios serán ahora los descritos en la Ec. (17.3). Una
medida de la energı́a solo podrá dar alguno de los valores E + ó E− y los estados estacionarios serán sus autoestados
asociados |ψ+ i y |ψ− i. Esto implica en particular que E1 y E2 ya no son energı́as permitidas en el sistema y los
estados |ϕ1 i y |ϕ2 i ya no serán estados estacionarios (pues estos no son en general autovalores ni autoestados del
Hamiltoniano perturbado H). Esto implica que si el sistema está inicialmente en el estado |ϕ 1 i la introducción de
la perturbación genera una evolución temporal y por tanto hay cierta probabilidad P 12 (t) de encontrar al sistema
en el estado |ϕ2 i en el tiempo t. Decimos entonces que W induce transiciones entre los estados no perturbados. Por
esta razón decimos que W actúa como un acople entre |ϕ 1 i y |ϕ2 i.

17.2.1. Efecto del acople sobre los estados estacionarios del sistema
La representación matricial del Hamiltoniano perturbado en la base |ϕ 1 i, |ϕ2 i será
 ∗

E1 + W11 W21
H=
W21 E2 + W22

los valores y vectores propios de esta matriz se realizaron en detalle en la sección 1.45.3. Las Ecs. (1.220, 1.221,
1.222) nos muestran tales autovalores y autovectores
q
1 1
E± = (E1 + W11 + E2 + W22 ) ± (E1 + W11 − E2 − W22 )2 + 4 |W12 |2 (17.5)
2 2
θ θ
|ψ+ i = cos e−iϕ/2 |ϕ1 i + sin eiϕ/2 |ϕ2 i (17.6)
2 2
θ θ
|ψ− i = − sin e−iϕ/2 |ϕ1 i + cos eiϕ/2 |ϕ2 i (17.7)
2 2
donde los ángulos θ y ϕ están dados por la Ecs. (1.223)

2 |W21 |
tan θ = , W21 = |W21 | eiϕ ; 0 ≤ θ < π , 0 ≤ ϕ < 2π (17.8)
E1 + W11 − E2 − W22
Es fácil ver que si W12 = 0, los autoestados de H son los autoestados de H 0 y los nuevos niveles de energı́a
son simplemente E1 + W11 y E2 + W22 . Por tanto, los efectos interesantes surgen cuando W posee elementos no-
diagonales W12 = W21 ∗ . Para simplificar la discusión asumimos que la matriz de W en la base {|ϕ i , |ϕ i} es
1 2
puramente no-diagonal1 . Haciendo W11 = W22 = 0 en las Ecs. (17.5, 17.8) obtenemos
q
1 1
E± = (E1 + E2 ) ± (E1 − E2 )2 + 4 |W12 |2 (17.9)
2 2
2 |W21 |
tan θ = , 0 ≤ θ < π ; W21 = |W21 | eiϕ (17.10)
E1 − E 2
es conveniente definir las siguientes variables
1 1
Em ≡ (E1 + E2 ) ; ∆≡ (E1 − E2 ) (17.11)
2 2
1
Si W11 y W22 son no nulos, podemos definir E e1 = E1 + W11 y Ee2 = E2 + W22 . Todos los resultados que se obtendrán en esta sección
serán válidos en este caso, haciendo los reemplazos E1 → Ee1 y E2 → Ee2 .
17.2. CONSECUENCIAS DE LA INTRODUCCI ÓN DEL ACOPLE SOBRE LOS NIVELES DE ENERG ÍA Y LOS ES

que corresponden al promedio y el desdoblamiento de los niveles no perturbados. Sustituyendo (17.11) en las Ecs.
(17.9, 17.10) tenemos que
q q
|W21 |
E+ = Em + ∆2 + |W21 |2 ; E− = Em − ∆2 + |W21 |2 ; tan θ = (17.12)

Las Ecs. (17.12) muestran que cuando E m cambia, la variación de E± es equivalente a correr el origen a lo largo del

Figura 17.1: Variación de las energı́as E ± con respecto al desdoblamiento ∆ ≡ (E 1 − E2 ) /2. Hemos definido el cero
del eje de energı́a en Em . En ausencia de acoplamiento los niveles se cruzan en el origen como lo muestran las lı́neas
rectas punteadas. Al introducir el acople W no-diagonal, los dos niveles perturbados se “repelen uno a otro” y se
obtienen curvas de E+ y E− que no se cruzan. Tales curvas son ramas hiperbólicas (lı́neas sólidas en la figura) cuyas
ası́ntotas son los niveles no perturbados.

eje de energı́a. Adicionalmente, las Ecs. (17.6, 17.7, 17.10, 17.12) muestran que los autovectores |ψ ± i no dependen
de Em sino solo del desdoblamiento ∆. Es interesante mostrar el comportamiento de las energı́as E 1,2 y E± en un
diagrama de ∆ versus energı́a. La Fig. 17.1 muestra que tal diagrama para las energı́as E ± corresponde a ramas
hiperbólicas simétricas con respecto a los ejes coordenados (en donde el zero del eje vertical se ubicó en E m ), y
cuyas ası́ntotas son las lı́neas rectas punteadas que describen el comportamiento de las energı́as E 1 y E2 . La Fig.
17.1 también muestra que la separación mı́nima entre las ramas hiperbólicas es 2 |W 21 |. Puede verse entonces que
en ausencia de acople, los niveles de energı́a E 1 y E2 se cruzan en ∆ = 0 (como se vé también en las Ecs. 17.11).
Con la introducción del acople, los niveles de energı́a “se repelen” es decir tienden a alejarse. Por esta razón se suele
hablar de diagramas anti-cruzantes, para curvas del tipo mostrado por E ± . Se observa además que cuando W → 0
tenemos que E± → E1,2 si E1 > E2 en tanto que E± → E2,1 si E2 > E1 . De las Ecs. (17.11, 17.12) vemos que
q
|E+ − E− | = 2 ∆2 + |W21 |2 > 2∆ ; |E1 − E2 | ≡ 2∆ ⇒ (17.13)
|E+ − E− | > |E1 − E2 | (17.14)
donde el aumento en el desdoblamiento es mayor a medida que crece el acople. Vemos entonces que el acople separa
la frecuencias normales, situación que aparece en muchos escenarios fı́sicos.
Es necesario poder discriminar cuando podemos hablar de un acople “fuerte” o “débil”. Para ello vemos que las
Ecs. (17.12) se pueden reescribir como
p
W21
E± = E m ± ∆ 1 + K 2 ; K≡ , ∆ 6= 0 (17.15)

370 CAPÍTULO 17. PROPIEDADES GENERALES DE LOS SISTEMAS DE DOS ESTADOS

de modo que la intensidad del acople se puede medir en términos de K



W21

K ≡ << 1 ⇒ acople débil


W21

K ≡ >> 1 ⇒ acople f uerte

17.2.2. Efecto de un acople débil sobre los niveles de energı́a y estados estacionarios
El acople débil está caracterizado por |∆| >> |W 21 |. La Fig. 17.1 nos muestra que en este lı́mite todas las energı́as
se comportan aproximadamente como las ası́ntotas. Puesto que K << 1, las Ecs. (17.15) se pueden expandir en
series de potencias de K
!
1 W21 2
E± = E m ± ∆ 1 + + ... (17.16)
2 ∆

adicionalmente, la Ec. (17.12) nos dice que θ ' 0 en este lı́mite. Por tanto tan θ ' θ ' sin θ, de modo que a primer
orden obtenemos
θ θ θ tan θ |W21 |
cos ' 1 ; sin ' ' =
2 2 2 2 2∆
reemplazando estas aproximaciones en las Ecs. (17.6, 17.7), los autoestados en el lı́mite de acople débil quedan

|W21 | iϕ/2 |W21 | −iϕ/2


|ψ+ i ' e−iϕ/2 |ϕ1 i + e |ϕ2 i ; |ψ− i ' − e |ϕ1 i + eiϕ/2 |ϕ2 i (17.17)
 2∆   2∆ 
−iϕ/2 |W21 | iϕ |W21 | −iϕ
|ψ+ i ' e |ϕ1 i + e |ϕ2 i ; |ψ− i ' − e |ϕ1 i + |ϕ2 i eiϕ/2 (17.18)
2∆ 2∆

puesto que las fase globales son irrelevantes, vemos que un acople débil genera estados perturbados muy similares
a los estados no perturbados como era de esperarse. Por ejemplo, el estado |ψ + i se puede ver como el estado |ϕ1 i
ligeramente “contaminado” por una pequeña contribución del estado |ϕ 2 i. Similarmente, |ψ− i es casi el estado |ϕ2 i
con una pequeña contribución de |ϕ 1 i.

17.2.3. Efecto de un acople fuerte sobre los niveles de energı́a y estados estacionarios
El acople fuerte se caracteriza por |∆| << |W 21 |. La Fig. 17.1 nos muestra que este lı́mite corresponde al
comportamiento de las energı́as alrededor de ∆ = 0. En particular, si tomamos ∆ = 0 el acople se considera fuerte
para cualquier valor no nulo de W21 . En el lı́mite E1 = E2 i.e. ∆ = 0, las Ecs. (17.12) quedan en la forma

E± = Em ± |W21 | (17.19)

y vemos entonces que el efecto del acople es más mucho más importante cuando los dos niveles no perturbados
tienen la misma energı́a (por ejemplo por degeneración). Las Ecs. (17.19) muestran que este efecto es de primer
orden, en tanto que en el lı́mite de acople débil el efecto es de segundo orden como se aprecia en la Ec. (17.16).
Cuando ∆ = 0 vemos de (17.12) que θ = π/2 y los autoestados (17.6, 17.7) quedan

π −iϕ/2 π π π
|ψ+ i = cos e |ϕ1 i + sin eiϕ/2 |ϕ2 i ; |ψ− i = − sin e−iϕ/2 |ϕ1 i + cos eiϕ/2 |ϕ2 i (17.20)
4 4 4 4
1 h −iϕ/2 i 1 h i
|ψ+ i = √ e |ϕ1 i + eiϕ/2 |ϕ2 i ; |ψ− i = √ −e−iϕ/2 |ϕ1 i + eiϕ/2 |ϕ2 i (17.21)
2 2

de modo que en el lı́mite de acople fuerte, los estados |ψ ± i difieren radicalmente de |ϕ1,2 i como se esperaba. Vemos
que |ψ± i son superposiciones de |ϕ1 i y |ϕ2 i con coeficientes del mismo módulo. Podemos decir que |ψ ± i son estados
de “máxima mezcla” de los estados |ϕ 1 i y |ϕ2 i.
17.3. EVOLUCIÓN TEMPORAL DEL VECTOR DE ESTADO: OSCILACI ÓN DEL SISTEMA ENTRE DOS ESTAD

17.3. Evolución temporal del vector de estado: oscilación del sistema entre
dos estados sin perturbar
La evolución del estado |ψ (t)i del sistema de dos estados está governada por la ecuación de Schrödinger

d
i~ |ψ (t)i = (H0 + W ) |ψ (t)i (17.22)
dt
y dado que |ψ (t)i es una superposición de los estados |ϕ 1 i y |ϕ2 i para todo tiempo tenemos que

|ψ (t)i = a1 (t) |ϕ1 i + a2 (t) |ϕ2 i (17.23)

insertando la expansión (17.23) en la ecuación de Schrödinger (17.22), aplicando el bra hϕ 1 | y usando la Ec. (17.4)
con W11 = W22 = 0, resulta

d
i~ hϕ1 | [a1 (t) |ϕ1 i + a2 (t) |ϕ2 i] = hϕ1 | (H0 + W ) [a1 (t) |ϕ1 i + a2 (t) |ϕ2 i]
dt
d
i~ [a1 (t) hϕ1 |ϕ1 i + a2 (t) hϕ1 |ϕ2 i] = a1 (t) hϕ1 | (H0 + W ) |ϕ1 i + a2 (t) hϕ1 | (H0 + W ) |ϕ2 i
dt
d
i~ a1 (t) = a1 (t) (E1 + W11 ) + a2 (t) [E2 hϕ1 |ϕ2 i + W12 ]
dt
d
i~ a1 (t) = E1 a1 (t) + W12 a2 (t)
dt
donde hemos asumido que H0 es conservativo y por tanto |ϕ1 i es independiente del tiempo. Un procedimiento
similar aplicando el bra hϕ2 | nos lleva a las ecuaciones

d
i~ a1 (t) = E1 a1 (t) + W12 a2 (t) (17.24)
dt
d
i~ a2 (t) = W21 a1 (t) + E2 a2 (t) (17.25)
dt
si W12 6= 0, tenemos una sistema de dos ecuaciones diferenciales homogéneas acopladas.
La evolución temporal de |ψ (t)i se puede obtener utilizando el método descrito en la sección 5.8. Esto es, se
escribe la expansión de |ψ (0)i en términos de los autoestados |ψ ± i del Hamiltoniano H

|ψ (0)i = λ |ψ+ i + µ |ψ− i (17.26)

de modo que la evolución temporal vendrá dada por

|ψ (t)i = λe−iE+ t/~ |ψ+ i + µe−iE− t/~ |ψ− i (17.27)

lo cual nos permite obtener a1 (t) y a2 (t) aplicando los bras hϕ1 | y hϕ2 | a ambos lados de la Ec. (17.27).
Dado que los estados |ϕ1 i y |ϕ2 i ya no son estacionarios, es de esperarse que incluso si el estado inicial es por
ejemplo |ϕ1 i el sistema evolucione temporalmente. Veremos de hecho que si el estado del sistema está descrito por
la Ec. (17.27), el sistema oscila entre los estados no perturbados |ϕ 1 i y |ϕ2 i. Para verlo asumiremos que en t = 0 el
sistema está en el estado |ϕ1 i
|ψ (0)i = |ϕ1 i
ahora debemos expandir este estado inicial en términos de |ψ ± i como en la Ec. (17.26). Para ello invertimos las Ecs.
(17.6, 17.7). Esto se realiza multiplicando la Ec. (17.6) por cos (θ/2) y la Ec. (17.7) por − sin (θ/2) y sumando

θ θ θ θ
cos |ψ+ i − sin |ψ− i = cos2 e−iϕ/2 |ϕ1 i + sin2 e−iϕ/2 |ϕ1 i = e−iϕ/2 |ϕ1 i
2 2 2  2 
iϕ/2 θ θ
|ϕ1 i = |ψ (0)i = e cos |ψ+ i − sin |ψ− i (17.28)
2 2
372 CAPÍTULO 17. PROPIEDADES GENERALES DE LOS SISTEMAS DE DOS ESTADOS

comparando la Ec. (17.28) con la Ec. (17.26) vemos que λ = e iϕ/2 cos (θ/2) y µ = −eiϕ/2 sin (θ/2), con lo cual la Ec.
(17.27) queda  
iϕ/2 θ −iE+ t/~ θ −iE− t/~
|ψ (t)i = e cos e |ψ+ i − sin e |ψ− i (17.29)
2 2
si el sistema evoluciona bajo el Hamiltoniano perturbado hasta el tiempo t, el sistema estará en este tiempo en el
estado |ψ (t)i descrito por la Ec. (17.29). Asumamos ahora que la perturbación W se “desconecta” en el tiempo t.
Si justo después de desconectar la perturbación medimos la energı́a, obtendremos E 1 ó E2 (ya que estos vuelven a
ser los valores de energı́a accesibles del sistema), y la probabilidad de obtener cada uno de estos valores viene dada
por
PEi = |hϕi |ψ (t)i|2 ; i = 1, 2
pero esto es equivalente a decir que esta es la probabilidad de que el sistema quede preparado en el estado |ϕ i i.
Por esta razón, suele decirse que |hϕ i |ψ (t)i|2 es la probabilidad de encontrar al sistema en el tiempo t en |ϕ i i.
No obstante, vale la pena mencionar que esta afirmación solo es válida si: (a) Se desconecta la perturbación en el
tiempo t y (b) Justo después de desconectar la perturbación, se hace la medida del observable H (si se mide otro
observable, el sistema queda preparado en un autoestado de ese otro observable). Nótese que si la perturbación no
se desconecta en t, una medición del observable H solo puede dar E + o E− lo cual a su vez implica que el sistema
quedará preparado en el estado |ψ+ i o en el estado |ψ− i y no hay posibilidad de que quede en el estado |ϕ i i. De
otra parte, si no se realiza ninguna medición, el sistema evoluciona de acuerdo con la ecuación de Schrödinger y no
podemos hablar de la probabilidad de obtener un estado (ya que la ecuación de Schrödinger es determinista).
La anterior discusión nos muestra que si no se realiza ninguna medida en el tiempo t, la cantidad hϕ i |ψ (t)i ≡ ai
es simplemente el coeficiente de Fourier de la expansión de |ψ (t)i en términos de |ϕ 1 i y |ϕ2 i. En otras palabras, el
coeficiente ai nos dice el “peso” con el cual contribuye cada estado |ϕ i i al estado |ψ (t)i con la restricción de que
|a1 |2 + |a2 |2 = 1.
Con estas aclaraciones interpretaremos de aquı́ en adelante a |hϕ 2 |ψ (t)i|2 como la probabilidad de encontrar al
sistema en el tiempo t en |ϕ2 i. La amplitud de probabilidad asociada está dada por
 
iϕ/2 θ −iE+ t/~ θ −iE− t/~
hϕ2 |ψ (t)i = e cos e hϕ2 |ψ+ i − sin e hϕ2 |ψ− i (17.30)
2 2

de las Ecs. (17.6, 17.7) tenemos que

θ θ θ θ
hϕ2 |ψ+ i = cos e−iϕ/2 hϕ2 |ϕ1 i + sin eiϕ/2 hϕ2 |ϕ2 i ; hϕ2 |ψ− i = − sin e−iϕ/2 hϕ2 |ϕ1 i + cos eiϕ/2 hϕ2 |ϕ2 i
2 2 2 2
θ θ
hϕ2 |ψ+ i = sin eiϕ/2 ; hϕ2 |ψ− i = cos eiϕ/2 (17.31)
2 2
reemplazando (17.31) en (17.30), la probabilidad de encontrar al sistema en el tiempo t en |ϕ 2 i queda
  2
2
θ θ θ θ
P12 (t) = |hϕ2 |ψ (t)i| = eiϕ/2 cos e−iE+ t/~ sin eiϕ/2 − sin e−iE− t/~ cos eiϕ/2
2 2 2 2
iϕ h
i 2 2
e 1 2 −iE+ t/~ −iE− t/~
= sin θ e −iE+ t/~
− sin θ e −iE− t/~
= sin θ e − e
2 4
1    1 h i
P12 (t) = sin2 θ e−iE+ t/~ − e−iE− t/~ eiE+ t/~ − eiE− t/~ = sin2 θ 1 − e−i(E+ −E− )t/~ − ei(E+ −E− )t/~ + 1
4 4   
1 n h io 1 (E+ − E− ) t
2 −i(E+ −E− )t/~ i(E+ −E− )t/~ 2
= sin θ 2 − e +e = sin θ 2 − 2 cos
4 4 ~

teniendo en cuenta que 1 − cos θ = 2 sin 2 (θ/2), tenemos finalmente


  
1 (E+ − E− ) t
P12 (t) = sin2 θ 1 − cos
2 ~
 
(E+ − E− ) t
P12 (t) = sin2 θ sin2 (17.32)
2~
17.3. EVOLUCIÓN TEMPORAL DEL VECTOR DE ESTADO: OSCILACI ÓN DEL SISTEMA ENTRE DOS ESTAD

usando la Ec. (1.214), Pág. 95, tenemos que

(H11 − H22 )2 (E1 − E2 )2


sin2 θ = 1 − cos2 θ = 1 − =1−
(H11 − H22 )2 + 4 |H21 |2 (E1 − E2 )2 + 4 |W21 |2
4 |W21 |2
sin2 θ = (17.33)
(E1 − E2 )2 + 4 |W21 |2

reemplazando las Ecs. (17.33, 17.9) en la Ec. (17.32) podemos escribir P 12 en términos de los elementos matriciales
Wij y de las energı́as no perturbadas E1 y E2
q 
2 2 2
4 |W21 | 4 |W 12 | + (E 1 − E 2 )
P12 (t) = sin2  t (17.34)
(E1 − E2 )2 + 4 |W21 |2 2~

la Ec. (17.34) es conocida como Fórmula de Rabi.


La Ec. (17.32) nos muestra que P12 (t) oscila en el tiempo con una frecuencia (E + − E− ) /h, que corresponde
a la única frecuencia de Bohr del sistema. P 12 (t) varı́a desde cero hasta sin2 θ, este valor máximo se alcanza para
tiempos
(2k + 1) π~
tk = , k = 0, 1, 2, . . .
E+ − E −
la frecuencia de oscilación y el máximo sin 2 θ de la probabilidad dependen de |W21 | y de ∆ ≡ E1 − E2 . Usando
(17.12), con ∆ = 0 tenemos que

E+ − E − 2 |W21 |
∆=0 ⇒ = , sin2 θ = 1
h h

de modo que en un tiempo tk = (2k+1)π~ 2|W21 | el sistema (cuyo estado inicial es |ϕ 1 i) estará en el estado |ϕ2 i . En
consecuencia, todo acople entre dos estados de igual energı́a hace que el sistema oscile completamente de un estado
a otro con una frecuencia proporcional al acople.
Nótese que este fenómeno es análogo al que ocurre con dos péndulos acoplados de la misma frecuencia natural.
Si el péndulo 1 se desplaza dejando fijo al péndulo 2, el primero comienza a oscilar pero su oscilación disminuye en
tanto que va aumentando la del péndulo 2 hasta que se llega a la condición opuesta para un cierto tiempo, en el cual
el péndulo 2 oscila y el péndulo 1 está instantáneamente en reposo. Luego comienza la transferencia de energı́a al
péndulo 1 de nuevo y ası́ sucesivamente. Similarmente, cuando aumenta el acople (constante del resorte que acopla
a los péndulos), disminuye el tiempo de transferencia.
Por otro lado, cuando ∆ ≡ E1 −E2 aumenta, la frecuencia (E+ − E− ) /h también aumenta (ver Ecs. 17.13, 17.14)
en tanto que sin2 θ disminuye como se aprecia en la Ec. (17.33). Para un acople débil |∆| = |E 1 − E2 | >> |W21 |, se
observa de las Ecs. (17.13, 17.14) que el desdoblamiento E + − E− de los niveles perturbados solo difiere ligeramente
del desdoblamiento ∆ de los estados no perturbados. Se puede ver también de la Ec. (17.33) que la cantidad sin 2 θ
es muy pequeña en tal lı́mite. Esto es de esperarse ya que en el lı́mite de acople débil |ψ + i es muy similar a |ϕ1 i,
con lo cual el sistema estarı́a en t = 0 en un estado cuasi-estacionario, de modo que su tiempo caracterı́stico de
evolución es muy grande.

You might also like