Notas de Mecánica Cuántica - Rodolfo A. Díaz S.

Mecánica Cuántica: Notas de Clase
Rodolfo Alexander Diaz S.

Universidad Nacional de Colombia
Departamento de Fı́sica
Bogotá, Colombia
4 de agosto de 2010
Índice general
1. Linear or vector spaces 10

1.1. Definition of a linear vector space . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2. Algebraic properties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3. Vector subspaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4. Dimension and bases in vector spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5. Mappings and transformations in vector spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.6. Linear transformations of a vector space into itself . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.6.1. Projection operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.7. Normed vector spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.7.1. Convergent sequences, cauchy sequences and completeness . . . . . . . . . . . . . . . . . . . . 18
1.7.2. The importance of completeness in quantum mechanics . . . . . . . . . . . . . . . . . . . . . 19
1.7.3. The concept of continuity and its importance in Physics . . . . . . . . . . . . . . . . . . . . . 19
1.8. Banach Spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.8.1. Continuous linear transformations of a Banach space into scalars . . . . . . . . . . . . . . . . 20
1.8.2. Continuous linear transformations of a Banach space into itself . . . . . . . . . . . . . . . . . 20
1.9. Hilbert spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.9.1. Orthonormal sets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.9.2. The conjugate space H ∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.9.3. The conjugate and the adjoint of an operator . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.10. Normal operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.11. Self-Adjoint operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.12. Unitary operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.13. Projections on Hilbert spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.14. Basic theory of representations in a general finite dimensional vector space . . . . . . . . . . . . . . . 31
1.14.1. Representation of operators in a given basis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.14.2. Change of coordinates of vectors under a change of basis . . . . . . . . . . . . . . . . . . . . . 34
1.14.3. Change of the matrix representative of linear transformations under a change of basis . . . . 34
1.15. Active and passive transformations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1.16. Theory of representations on finite dimensional Hilbert spaces . . . . . . . . . . . . . . . . . . . . . . 36
1.16.1. Linear operators in finite dimensional Hilbert spaces . . . . . . . . . . . . . . . . . . . . . . . 38
1.17. Determinants and traces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.18. Rectangular matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
1.19. The eigenvalue problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
1.19.1. Matrix representative of the eigenvalue problem . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.19.2. Eigenvectors and the canonical problem of matrices . . . . . . . . . . . . . . . . . . . . . . . 43
1.20. Normal operators and the spectral theorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
1.20.1. A qualitative discussion of the spectral theorem in infinite dimensional Hilbert spaces . . . . 47
1.21. The concept of “hyperbasis” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
1.22. Definition of an observable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.23. Complete sets of commuting observables (C.S.C.O.) . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
1.24. Some terminology concerning quantum mechanics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
1.25. The Hilbert Space L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
ÍNDICE GENERAL 3
1.25.1. The wave function space z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

1.26. Discrete orthonormal basis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.26.1. Función delta de Dirac . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.27. Closure relations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
1.28. Introduction of hyperbases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
1.29. Closure relation with hyperbases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
1.30. Inner product and norm in terms of the components of a vector in a hyperbases . . . . . . . . . . . . 59
1.31. Some specific continuous bases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
1.31.1. Plane waves . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
1.31.2. “Delta functions” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
1.32. Tensor products of vector spaces, definition and properties . . . . . . . . . . . . . . . . . . . . . . . . 61
1.32.1. Scalar products in tensor product spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
1.32.2. Tensor product of operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
1.32.3. The eigenvalue problem in tensor product spaces . . . . . . . . . . . . . . . . . . . . . . . . . 63
1.32.4. Complete sets of commuting observables in tensor product spaces . . . . . . . . . . . . . . . . 65
1.33. Restrictions to an operator to a subspace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
1.34. Functions of operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
1.34.1. Some commutators involving functions of operators . . . . . . . . . . . . . . . . . . . . . . . . 67
1.35. Differentiation of operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
1.35.1. Some useful formulas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
1.36. State space and Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
1.37. Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
1.37.1. Elements of the dual or conjugate space E r∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
1.37.2. The correspondence between bras and kets with hyperbases . . . . . . . . . . . . . . . . . . . 71
1.38. The action of linear operators in Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
1.38.1. Projectors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
1.39. Hermitian conjugation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
1.39.1. The adjoint operator A† in Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
1.39.2. Mathematical objects and hermitian conjugation in Dirac notation . . . . . . . . . . . . . . . 76
1.40. Theory of representations of E in Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
1.40.1. Orthonormalization and closure relation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
1.40.2. Representation of operators in Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
1.41. Change of representations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
1.41.1. Transformation of the coordinates of a ket . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
1.41.2. Transformation of the coordinates of a bra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
1.41.3. Transformation of the matrix elements of an operator . . . . . . . . . . . . . . . . . . . . . . 83
1.42. Representation of the eigenvalue problem in Dirac notation . . . . . . . . . . . . . . . . . . . . . . . 84
1.42.1. C.S.C.O. in Dirac notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
1.43. The continuous bases |ri and |pi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
1.43.1. Orthonormalization and closure relations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
1.43.2. Coordinates of kets and bras in {|ri} and {|pi} . . . . . . . . . . . . . . . . . . . . . . . . . . 85
1.43.3. Changing from the {|ri} representation to {|pi} representation and vice versa . . . . . . . . . 87
1.43.4. The R and P operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
1.43.5. The eigenvalue problem for R and P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
1.44. General properties of two conjugate observables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
1.44.1. The eigenvalue problem of Q . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
1.44.2. The action of Q, P and S (λ) in the {|qi} basis . . . . . . . . . . . . . . . . . . . . . . . . . . 92
1.44.3. Representation in the {|pi} basis and the symmetrical role of P and Q . . . . . . . . . . . . . 93
1.45. Diagonalization of a 2 × 2 hermitian matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
1.45.1. Formulation of the problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
1.45.2. Eigenvalues and eigenvectors of K . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
1.45.3. Eigenvalues and eigenvectors of H . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4 ÍNDICE GENERAL
2. Construcción fenomenológica de los postulados de la mecánica cuántica 98

2.1. La radiación del cuerpo negro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
2.2. El efecto fotoeléctrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
2.3. El efecto compton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
2.4. El problema espectroscópico y la teorı́a de Bohr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
2.4.1. La teorı́a de Wilson y Sommerfeld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
2.5. Los postulados de De Broglie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
2.6. Sı́ntesis de los resultados experimentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
2.7. El experimento de Young de la doble rendija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
2.7.1. Interpretación mecano-cuántica de la dualidad onda partı́cula . . . . . . . . . . . . . . . . . . 102
2.7.2. Proceso de medición, preparación de un sistema y el principio de la descomposición espectral 103
2.8. Dualidad onda partı́cula para la materia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
2.9. Aspectos ondulatorios de una partı́cula material . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
2.9.1. Estados cuánticos arbitrarios como superposición de ondas planas . . . . . . . . . . . . . . . 109
2.9.2. Perfil instantáneo del paquete de onda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
2.9.3. El principio de incertidumbre de Heisenberg . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
2.10. El principio de complementariedad para la dualidad onda partı́cula y su relación con el principio de
incertidumbre de Heisenberg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
2.11. Evolución temporal de paquetes de ondas libre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
2.12. Caracterización de paquetes de onda gaussianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
2.12.1. Integrales básicas para paquetes gaussianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
2.12.2. Perfiles de paquetes de onda gaussianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
2.12.3. Relaciones de incertidumbre para paquetes gaussianos . . . . . . . . . . . . . . . . . . . . . . 120
2.13. Evolución temporal de paquetes de onda gaussianos (opcional) . . . . . . . . . . . . . . . . . . . . . 121
2.13.1. Dispersión del paquete de onda gaussiano (opcional) . . . . . . . . . . . . . . . . . . . . . . . 121
3. Ecuación de Schrödinger y sus propiedades 124

3.1. Plausibilidad de la ecuación de Schrödinger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
3.2. Ecuación de Schrödinger para una partı́cula sometida a un potencial escalar independiente del tiempo:
estados estacionarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
3.3. Propiedades generales de la ecuación de Schrödinger . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
3.3.1. Determinismo en las soluciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
3.3.2. Principio de superposición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
3.3.3. Conservación de la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
3.3.4. La ecuación de continuidad para la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . 131
3.3.5. Expresión polar de la corriente de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . 132
3.4. Aplicación de la ecuación de Schrödinger a potenciales discontı́nuos . . . . . . . . . . . . . . . . . . . 133
3.5. Potenciales rectangulares, análogo óptico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
3.5.1. Estrategia de solución para potenciales acotados con discontinuidades de salto . . . . . . . . 134
3.5.2. Expresión para la corriente en regiones de potencial constante . . . . . . . . . . . . . . . . . . 136
3.6. El potencial escalón . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
3.6.1. E > V0 , reflexión parcial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
3.6.2. E < V0 ; reflexión total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
3.7. Barrera de potencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
3.7.1. E > V0 , resonancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
3.7.2. Caso E < V0 : Efecto túnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
3.8. Pozo de potencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
3.8.1. Partı́cula con energı́a −V0 < E < 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
3.8.2. Partı́cula con energı́a E > 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
ÍNDICE GENERAL 5
4. Enunciado matemático de los postulados de la mecánica cuántica 158

4.1. Los fenómenos clásicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
4.2. Los fenómenos cuánticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
4.3. Establecimiento de los postulados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
4.3.1. Descripción de los estados y las cantidades fı́sicas . . . . . . . . . . . . . . . . . . . . . . . . . 161
4.3.2. El proceso de medición y la distribución de probabilidad . . . . . . . . . . . . . . . . . . . . . 161
4.3.3. Relevancia fı́sica de las fases en mecánica cuántica . . . . . . . . . . . . . . . . . . . . . . . . 164
4.3.4. El proceso de medida y la reducción del paquete de onda . . . . . . . . . . . . . . . . . . . . 165
4.3.5. Evolución fı́sica de los sistemas cuánticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
4.3.6. Reglas de cuantización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
5. Consecuencias de los postulados sobre los observables y sus medidas 169

5.1. Consideraciones estadı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
5.1.1. Valor medio de un observable para un sistema en un estado dado . . . . . . . . . . . . . . . . 170
5.1.2. Valor esperado para los observables X, P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
5.1.3. Valor esperado para el commutador de dos observables . . . . . . . . . . . . . . . . . . . . . . 172
5.1.4. La desviación media cuadrática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
5.2. Observables compatibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
5.3. Observables no compatibles e incertidumbres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
5.4. La desviación media cuadrática y el principio de incertidumbre para observables arbitrarios (opcional)178
5.4.1. Paquetes de mı́nima incertidumbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
5.5. Preparación de un estado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
5.6. Propiedades adicionales de la ecuación de Schrödinger . . . . . . . . . . . . . . . . . . . . . . . . . . 182
5.6.1. Aspectos adicionales sobre la conservación de la probabilidad (opcional) . . . . . . . . . . . . 182
5.7. Evolución del valor esperado de un observable y su relación con la mecánica clásica . . . . . . . . . . 184
5.7.1. Evolución temporal de los valores esperados de R, P: Teorema de Ehrenfest . . . . . . . . . 185
5.8. Soluciones de la ecuación de Schrödinger para sistemas conservativos . . . . . . . . . . . . . . . . . 187
5.8.1. Estados estacionarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
5.8.2. Constantes de movimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
5.8.3. Frecuencias de Bohr de un sistema y reglas de selección . . . . . . . . . . . . . . . . . . . . . 190
5.8.4. Relación de incertidumbre entre tiempo y energı́a . . . . . . . . . . . . . . . . . . . . . . . . . 191
5.8.5. Cuarta relación de incertidumbre para un paquete de onda unidimensional . . . . . . . . . . 193
5.9. Consecuencias fı́sicas del principio de superposición . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
5.9.1. Diferencia entre superposición lineal y mezcla estadı́stica . . . . . . . . . . . . . . . . . . . . . 194
5.9.2. Efectos de interferencia en fotones polarizados . . . . . . . . . . . . . . . . . . . . . . . . . . 195
5.9.3. Suma sobre los estados intermedios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
5.10. El principio de superposición para casos en que varios estados están asociados a una medida . . . . . 198
5.10.1. El principio de superposición para valores propios degenerados . . . . . . . . . . . . . . . . . 198
5.10.2. Aparatos insuficientemente selectivos en la medida . . . . . . . . . . . . . . . . . . . . . . . . 199
5.11. Discusión general sobre el fenómeno de interferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
5.12. Medición insuficiente de espectros contı́nuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
5.13. Postulado de reducción del paquete de onda (quinto postulado) para un espectro contı́nuo . . . . . . 203
6. Aplicación de los postulados cuando se posee información parcial de un sistema 204

6.1. Aplicación de los postulados cuando se mide un observable de un subsistema . . . . . . . . . . . . . 204
6.1.1. Interpretación fı́sica de los estados que son productos tensoriales . . . . . . . . . . . . . . . . 205
6.1.2. Significado fı́sico de estados que no son productos tensoriales . . . . . . . . . . . . . . . . . . 206
6.2. Operador densidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
6.2.1. El concepto de mezcla estadı́stica de estados . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
6.2.2. Estados puros y operador densidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
6.2.3. Mezcla estadı́stica de estados: estados no puros . . . . . . . . . . . . . . . . . . . . . . . . . . 210
6.2.4. Propiedades generales del operador densidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
6.2.5. Populaciones y coherencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
6 ÍNDICE GENERAL
6.3. Aplicaciones del operador densidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214

6.3.1. Sistema en equilibrio termodinámico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
6.3.2. Descripción de subsistemas con base en observables globales de un sistema: el concepto de
traza parcial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
6.3.3. Traza parcial y operador densidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
7. Formulaciones alternativas de la mecánica cuántica 218

7.1. Operador evolución temporal: definición y propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . 218
7.1.1. Operador evolución temporal para sistemas conservativos . . . . . . . . . . . . . . . . . . . . 220
7.1.2. Observaciones adicionales sobre el operador evolución temporal (opcional) . . . . . . . . . . . 220
7.2. Bras, kets y observables equivalentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
7.2.1. La transformada de un operador y sus propiedades . . . . . . . . . . . . . . . . . . . . . . . . 222
7.3. La imagen de Schrödinger y la imagen de Heisenberg . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
7.3.1. Algunos sistemas simples en la imagen de Heisenberg . . . . . . . . . . . . . . . . . . . . . . . 224
7.4. La imagen de interacción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
8. El oscilador armónico cuántico 227

8.1. Propiedades generales del oscilador armónico cuántico unidimensional . . . . . . . . . . . . . . . . . 227
8.2. El problema de valores propios del Hamiltoniano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
8.3. Determinación del espectro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
8.3.1. Interpretación de los operadores a, a † y N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
8.3.2. Estudio de la degeneración del espectro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
8.4. Estados propios del Hamiltoniano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
8.4.1. Construcción de los kets propios con base en el ket del estado base . . . . . . . . . . . . . . . 233
8.4.2. Ortonormalidad de los kets propios (opcional) . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
8.4.3. Acción de los operadores creación y destrucción sobre los autoestados del Hamiltoniano . . . 236
8.5. Funciones propias asociadas a los estados estacionarios en la base {|xi} . . . . . . . . . . . . . . . . 237
8.6. Valores esperados y dispersión para los observables cuando el sistema está en un estado estacionario
del oscilador armónico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
8.7. Propiedades del estado base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
8.8. Evolución temporal de los observables del oscilador armónico . . . . . . . . . . . . . . . . . . . . . . 242
9. Estados coherentes cuasi-clásicos del oscilador armónico (opcional) 244

9.1. Parametrización del oscilador clásico con parámetros cuánticos . . . . . . . . . . . . . . . . . . . . . 244
9.2. Construcción de los estados coherentes o cuasi-clásicos . . . . . . . . . . . . . . . . . . . . . . . . . . 245
9.3. Propiedades de los estados |αi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
9.3.1. Valores permitidos de la energı́a para un estado coherente |αi . . . . . . . . . . . . . . . . . . 248
9.3.2. Cálculo de los observables X, P en el estado |αi . . . . . . . . . . . . . . . . . . . . . . . . . . 250
9.4. Generador y función de onda de los estados coherentes . . . . . . . . . . . . . . . . . . . . . . . . . . 251
9.5. Los estados coherentes son completos pero no ortogonales . . . . . . . . . . . . . . . . . . . . . . . . 253
9.6. Evolución temporal de los estados coherentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
9.7. Tratamiento mecano-cuántico de un oscilador armónico macroscópico . . . . . . . . . . . . . . . . . . 256
10.Teorı́a general del momento angular en mecánica cuántica 258

10.1. Definición de momento angular por sus propiedades de conmutación . . . . . . . . . . . . . . . . . . 258
10.1.1. Cuantización del momento angular orbital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258
10.1.2. Definición de momento angular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
10.2. Propiedades algebráicas del momento angular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
10.2.1. Álgebra de los operadores J2 , J3 , J+ , J− . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
10.3. Estructura de valores y vectores propios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
10.3.1. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
10.3.2. Caracterı́sticas generales de los valores propios de J 2 y J3 . . . . . . . . . . . . . . . . . . . . 262
10.3.3. Determinación de los valores propios de J 2 y J3 . . . . . . . . . . . . . . . . . . . . . . . . . . 264
ÍNDICE GENERAL 7
10.4. Propiedades de los vectores propios de J 2 y J3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265

10.4.1. Generación de autoestados por medio de los operadores J + y J− . . . . . . . . . . . . . . . . 266
10.5. Construcción de una base estándar con base en un C.S.C.O . . . . . . . . . . . . . . . . . . . . . . . 267
10.5.1. Descomposición de E en subespacios del tipo E (j, k) . . . . . . . . . . . . . . . . . . . . . . . 269
10.6. Representaciones matriciales de los operadores momento angular . . . . . . . . . . . . . . . . . . . . 270
10.6.1. Representaciones matriciales del tipo (J i )(j) en la base estándar para j arbitrario . . . . . . . 271
10.6.2. Representaciones matriciales en la base estándar para j = 0 . . . . . . . . . . . . . . . . . . . 272
10.6.3. Representaciones matriciales en la base estándar para j = 1/2 . . . . . . . . . . . . . . . . . . 272
10.6.4. Representaciones matriciales en la base estándar para j = 1 . . . . . . . . . . . . . . . . . . . 273
11.Propiedades de los momentos angulares orbitales 275

11.1. Momentos angulares orbitales como operadores diferenciales en coordenadas esféricas . . . . . . . . . 278
11.2. Valores permitidos de l y m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
11.3. Propiedades fundamentales de los armónicos esféricos . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
11.3.1. Ortonormalidad y completez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
11.3.2. Propiedades de paridad y conjugación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
11.4. Construcción de bases estándar de la función de onda espacial de una partı́cula sin espı́n . . . . . . . 281
11.5. Valores esperados y desviaciones medias cuadráticas de observables cuando el sistema está en un
estado |l, m, ki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
11.6. Probabilidades asociadas a la medida de L 2 y L3 en un estado arbitrario . . . . . . . . . . . . . . . . 284
11.7. Ejemplos de cálculos de probabilidad para L 2 y L3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
11.7.1. Función de onda parcialmente separable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
11.7.2. Función de onda totalmente separable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
11.7.3. Comportamiento de la probabilidad con θ y ϕ . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
12.Interacciones centrales en mecánica cuántica 290

12.1. El problema de dos cuerpos y su reducción al problema equivalente de una partı́cula en Mecánica
Clásica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290
12.2. Reducción del problema de dos cuerpos en mecánica cuántica . . . . . . . . . . . . . . . . . . . . . . 293
12.2.1. Autovalores y autofunciones del Hamiltoniano . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
12.3. El problema clásico de una partı́cula sometida a una fuerza central . . . . . . . . . . . . . . . . . . . 295
12.4. Hamiltoniano cuántico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296
12.5. Solución general del problema de valores propios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
12.5.1. La ecuación radial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
12.5.2. Comportamiento de la solución radial en el origen . . . . . . . . . . . . . . . . . . . . . . . . 298
12.6. Estados estacionarios de una partı́cula en un potencial central . . . . . . . . . . . . . . . . . . . . . . 299
12.6.1. Degeneración de los niveles de energı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
13. Átomos hidrogenoides 302

13.1. El átomo de Hidrógeno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302
13.2. Problema de valores propios del átomo de Hidrógeno . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
13.3. Solución de la ecuación radial por series de potencias . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
13.3.1. Serie de potencias radial y relaciones de recurrencia . . . . . . . . . . . . . . . . . . . . . . . 305
13.3.2. Condición asintótica ρ → ∞ y truncamiento de la serie . . . . . . . . . . . . . . . . . . . . . . 307
13.3.3. Coeficientes del polinomio radial en términos de c 0 . . . . . . . . . . . . . . . . . . . . . . . . 308
13.3.4. Cálculo de c0 y de la función radial para l = 0, k = 1 . . . . . . . . . . . . . . . . . . . . . . 309
13.3.5. Cálculo de c0 y de la función radial para l = 0, k = 2 . . . . . . . . . . . . . . . . . . . . . . 309
13.3.6. Cálculo de c0 y de la función radial para l = k = 1 . . . . . . . . . . . . . . . . . . . . . . . . 310
13.4. Parámetros atómicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311
13.5. Resumen de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312
13.6. Discusión de los resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
13.6.1. Dependencia angular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
8 ÍNDICE GENERAL
14.Corrientes de probabilidad en átomos hidrogenoides, acoples con campos magnéticos 316

14.1. Corrientes de probabilidad para las soluciones estacionarias del átomo de Hidrógeno . . . . . . . . . 316
14.1.1. Efecto sobre la corriente debido a la introducción de un campo magnético . . . . . . . . . . . 317
14.2. Átomo de hidrógeno en un campo magnético uniforme: paramagnetismo, diamagnetismo y efecto
Zeeman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
14.2.1. Hamiltoniano del sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
14.2.2. Estimación numérica de las contribuciones H 0 , H1 y H2 . . . . . . . . . . . . . . . . . . . . . 320
14.2.3. Término diamagnético . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
14.2.4. Término paramagnético . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322
14.3. Efecto Zeeman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322
14.3.1. Corrimiento de los niveles atómicos con la corrección paramagnética . . . . . . . . . . . . . . 323
14.3.2. Oscilaciones dipolares eléctricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323
14.3.3. Frecuencia y polarización de la radiación emitida . . . . . . . . . . . . . . . . . . . . . . . . . 325
15.Momento angular intrı́nseco 327

15.1. Comportamiento clásico de átomos paramagnéticos inmersos en un campo magnético . . . . . . . . . 327
15.2. Experimento de Stern-Gerlach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328
15.3. Resultados del experimento y el momento angular intrı́nseco . . . . . . . . . . . . . . . . . . . . . . . 329
15.4. Evidencia experimental del momento angular intrı́nseco del electrón . . . . . . . . . . . . . . . . . . 331
15.4.1. Estructura fina de las lı́neas espectrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331
15.4.2. Efecto Zeeman anómalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331
15.5. Introducción del momento angular intrı́nseco en el formalismo de la mecánica cuántica no relativista 332
15.6. Propiedades de un momento angular 1/2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
15.6.1. Resumen de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336
15.6.2. Representación matricial de los observables de espı́n . . . . . . . . . . . . . . . . . . . . . . . 336
15.7. Descripción no relativista completa de operadores y estados de partı́culas con espı́n 1/2 . . . . . . . 337
15.7.1. Construcción de los estados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337
15.7.2. Construcción de operadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
15.8. Representación en la base |p, εi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
15.9. Cálculos de probabilidad para estados de espı́n 1/2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
16.Adición de momentos angulares 345

16.1. El problema clásico de la adición del momento angular . . . . . . . . . . . . . . . . . . . . . . . . . . 345
16.2. Momento angular total en mecánica cuántica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345
16.3. La adición de dos momentos angulares es otro momento angular . . . . . . . . . . . . . . . . . . . . 348
16.4. Adición de dos momentos angulares con j (1) = j(2) = 1/2 . . . . . . . . . . . . . . . . . . . . . . . . . 350
16.4.1. Autovalores de J3 y su degeneración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
16.4.2. Diagonalización de J2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
16.4.3. Autoestados de J2 y J3 : singlete y triplete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352
16.5. Método general de adición de dos momentos angulares arbitrarios . . . . . . . . . . . . . . . . . . . . 353
16.5.1. Formación del sistema a partir de dos subsistemas . . . . . . . . . . . . . . . . . . . . . . . . 353
16.5.2. Momento angular total y sus relaciones de conmutación . . . . . . . . . . . . . . . . . . . . . 354
16.5.3. Cambio de base a realizar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
16.5.4. Autovalores de J2 y J3 : Caso de dos espines j1 = j2 = 1/2. . . . . . . . . . . . . . . . . . . . 356
16.5.5. Autovalores de J3 y su degeneración: Caso general . . . . . . . . . . . . . . . . . . . . . . . . 357
16.5.6. Autovalores de J2 : caso general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
16.6. Autovectores comunes de J2 y J3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
16.6.1. Caso especial j1 = j2 = 1/2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361
16.7. Autovectores de J2 y J3 : Caso general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
16.7.1. Determinación de los vectores |JM i del subespacio E (j 1 + j2 ) . . . . . . . . . . . . . . . . . . 362
16.7.2. Determinación de los vectores |JM i en los otros subespacios . . . . . . . . . . . . . . . . . . 363
16.8. Transformación de la base desacoplada a la base acoplada y coeficientes de Clebsch-Gordan . . . . . 364
ÍNDICE GENERAL 9
17.Propiedades generales de los sistemas de dos estados 367

17.1. Formulación del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
17.2. Consecuencias de la introducción del acople sobre los niveles de energı́a y los estados estacionarios . 368
17.2.1. Efecto del acople sobre los estados estacionarios del sistema . . . . . . . . . . . . . . . . . . . 368
17.2.2. Efecto de un acople débil sobre los niveles de energı́a y estados estacionarios . . . . . . . . . 370
17.2.3. Efecto de un acople fuerte sobre los niveles de energı́a y estados estacionarios . . . . . . . . . 370
17.3. Evolución temporal del vector de estado: oscilación del sistema entre dos estados sin perturbar . . . 371
Capı́tulo 1
Linear or vector spaces
We shall describe the most important properties of linear or vector spaces. This treatment is not rigorous at all,
and only some simple proofs are shown. Our aim limits to provide a framework for our subsequent developments.
1.1. Definition of a linear vector space

Any non-empty set of objects V = {xi } form a linear space (or a vector space) if there is a “sum” operation
defined between the elements, and a “multiplication” by scalars (i.e. the system of real or complex numbers) such
that
1. If xi ∈ V , and α is a scalar, then αxi ∈ V
2. If xi , xj ∈ V , then xi + xj ∈ V
3. xi + xj = xj + xi , ∀xi , xj ∈ V
4. xi + (xj + xk ) = (xi + xj ) + xk , ∀xi , xj , xk ∈ V
5. (α + β) xi = αxi + βxi ; ∀xi ∈ V
6. α (xi + xj ) = αxi + αxj , ∀xi , xj ∈ V
7. (αβ) xi = α (βxi ) ; ∀xi ∈ V
8. 1xi = xi ; ∀xi ∈ V
9. ∃ an element 0 ∈ V such that xi + 0 = xi , ∀xi ∈ V
10. ∀xi ∈ V , ∃ an element in V denoted by −xi such that xi + (−xi ) = 0
The element 0 is usually called the null vector or the origin. The element −x is called the additive inverse of
x. We should distinguish the symbols 0 (scalar) and 0 (vector). The two operations defined here (sum and product
by scalars) are called linear operations. A linear space is real (complex) if we consider the scalars as the set of real
(complex) numbers.
Let us see some simple examples
Example 1.1 The set of all real (complex) numbers with ordinary addition and multiplication taken as the linear
operations. This is a real (complex) linear space.
Example 1.2 The set Rn (C n ) of all n-tuples of real (complex) numbers is a real (complex) linear space under the
following linear operations
x ≡ (x1 , x2 , . . . , xn ) ; y ≡ (y1 , y2 , . . . , yn )
αx ≡ (αx1 , αx2 , , αxn ) ; x + y ≡ (x1 + y1 , x2 + y2 , . . . , xn + yn )
1.2. ALGEBRAIC PROPERTIES 11
Example 1.3 The set of all bounded continuous real functions defined on a given interval [a, b] of the real line,
with the linear operations defined pointwise as
(f + g) (x) = f (x) + g (x) ; (αf ) (x) = αf (x) ; x ∈ [a, b]
We can see that a linear or vector space forms an abelian group whose elements are the vectors, and with
addition as the law of combination. However, the vector space introduce an additional structure by considering
multiplication by scalars which is not a group property.
Some very important kinds of vector spaces are the ones containing certain sets of functions with some specific
properties. We can consider for example, the set of functions defined on certain interval with some condition of
continuity integrability etc. For instance, in quantum mechanics we use a vector space of functions.
1.2. Algebraic properties

Some algebraic properties arise from the axioms:
The origin or identity 0 must be unique. Assuming another identity 0 0 we have that x + 00 = 00 + x = x for all
x ∈ V. Then 00 = 00 + 0 = 0. Hence 00 = 0.
The additive inverse of any vector x is unique. Assume that x 0 is another inverse of x then

x0 = x0 + 0 = x0 + (x+ (−x)) = x0 + x + (−x) = 0 + (−x) = −x
⇒ x0 = −x
xi + xk = xj + xk ⇒ xi = xj to see it, we simply add −xk on both sides. This property is usually called the
rearrangement lemma.
α · 0 = 0 we see it from α · 0 + αx = α · (0 + x) = αx = 0 + αx and applying the rearrangement lemma.
0 · x = 0 it proceeds from 0 · x + αx = (0 + α) x = αx = 0 + αx and using the rearrangement lemma.
(−1) x = −x we see it from x+ (−1) x = 1·x+(−1) x = (1 + (−1)) x = 0x = 0 = x+ (−x) and the rearrangement
lemma.
αx = 0 thenα = 0 or x = 0; for if α 6= 0 we can multiply both sides of the equation by α −1 to give α−1 (αx) =
α 0 ⇒ α−1 α x = 0 ⇒ 1x = 0 ⇒ x = 0. If x 6= 0 we prove that α = 0 by assuming α 6= 0 and finding a
−1
contradiction. This is inmediate from the above procedure that shows that starting with α 6= 0 we arrive to x = 0.
It is customary to simplify the notation in x + (−y) and write it as x − y. The operation is called substraction.
1.3. Vector subspaces

Definition 1.1 A non-empty subset M of V is a vector subspace of V if M is a vector space on its own right with
respect to the linear operations defined in V .
This is equivalent to the condition that M contains all sums, negatives and scalar multiples. The other properties
are derived directly from the superset V . Further, since −x = (−1) x it reduces to say that M must be closed under
addition and scalar multiplication.
When M is a proper subset of V it is called a proper subspace of V . The zero space {0} and the full space V
itself are trivial subspaces of V .
The following concept is useful to study the structure of vector subspaces of a given vector space,
Definition 1.2 Let S = {x1 , .., xn } be a non-empty finite subset of V , then the vector
x = α 1 x1 + α 2 x2 + . . . + α n xn (1.1)
is called a linear combination of the vectors in S.
We can redefine a vector subspace by saying that a non-empty subset M of V is a linear subspace if it is closed
under the formation of linear combinations. If S is a subset of V we can see that the set of all linear combinations
of vectors in S is a vector subspace of V , we denote this subspace as [S] and call it the vector subspace spanned by
12 CAPÍTULO 1. LINEAR OR VECTOR SPACES
S. It is clear that [S] is the smallest subspace of V that contains S. Similarly, for a given subspace M a non-empty
subset S of M is said to span M if [S] = M . Note that the closure of a vector space under an arbitrary linear
combination can be proved by induction from the closure property of vector spaces under linear operations. Notice
additionally, that the proof of induction only guarantees the closure under any finite sum of terms, if we have an
infinite sum of terms (e.g. a series) we cannot ensure that the result is an element of the space, this is the reason
to define linear combinations as finite sums. If we want a property of closure under some infinite sums additional
structure should be added as we shall see later.
Suppose now that M and N are subspaces of V . Consider the set M + N of all sums of the form x + y with
x ∈ M and y ∈ N . Since M and N are subspaces, this sum is the subspace spanned by the union of both subspaces
M + N = [M ∪ N ]. It could happen that M + N = V in this case we say that V is the sum of M and N . In turn
it means that every vector in V is expressible as a sum of a vector in M plus a vector in N . Further, in some cases
any element z of V is expressible in a unique way as such a sum, in this case we say that V is the direct sum of
M and N and it is denoted by
V =M ⊕N
we shall establish the conditions for a sum to become a direct sum
Theorem 1.1 Let a vector space V be the sum of two of its subspaces V = M +N . Then V = M ⊕N ⇔ M ∩N = {0}
Proof: Assume first that V = M ⊕N , we shall suppose that ∃ z 6= 0 with z ∈ M ∩N , and deduce a contradiction
from it. We can express z in two different ways z = z + 0 with z ∈ M and 0 ∈ N or z = 0 + z with 0 ∈ M and
z ∈ N . This contradicts the definition of a direct sum.
Now assume M ∩ N = {0}, by hypothesis V = M + N so that any z ∈ V can be expressed by z = x 1 + y1 with
x1 ∈ M and y1 ∈ N . Suppose that there is another decomposition z = x 2 + y2 with x2 ∈ M and y2 ∈ N . Hence
x1 + y1 = x2 + y2 ⇒ x1 − x2 = y1 − y2 ; but x1 − x2 ∈ M and y1 − y2 ∈ N . Since they are equal, then both belong
to the intersection so x1 − x2 = y1 − y2 = 0 then x1 = x2 and y1 = y2 showing that the decomposition must be
unique. QED.
When two vector subspaces of a given space have only the zero vector in common, it is customary to call them
disjoint subspaces. It is understood that it does not correspond to disjointness in the set-theoretical sense, after all
two subspaces of a given space cannot be disjoint as sets, since any subspace must contain 0. Thus no confusion
arises from this practice.
The concept of direct sum can be generalized when more subspaces are involved. We say that V is the direct
sum of a collection of subspaces {M1 , .., Mn } and denote it as
V = M 1 ⊕ M2 ⊕ . . . ⊕ M n
when each z ∈ V can be expressed uniquely in the form
z = x 1 + x2 + . . . + x n ; xi ∈ Mi
In this case if V = M1 + .. + Mn , this sum becomes a direct sum if and only if each M i is disjoint from the subspace
spanned by the others. To see it, it is enough to realize that
V = M1 + M2 + .. + Mn = M1 + [M2 + .. + Mn ] = M1 + [∪ni=2 Mi ]
then V = M1 ⊕ [M2 + .. + Mn ] if and only if M1 ∩ [∪ni=2 Mi ] = {0}, proceeding similarly for the other M i0 s we arrive
at the condition above. Note that this condition is stronger than the condition that any given M i is disjoint from
each of the others.
The previous facts can be illustrated by a simple example. The most general non-zero proper subspaces of R 3
are lines or planes that passes through the origin. Thus let us define
M1 = {(x1 , 0, 0)} , M2 = {(0, x2 , 0)} , M3 = {(0, 0, x3 )}
M4 = {(0, x2 , x3 )} , M5 = {(x1 , 0, x3 )} , M6 = {(x1 , x2 , 0)}
M1 , M2 , M3 are the coordinate axes of R 3 and M4 , M5 , M6 are its coordinate planes. R 3 can be expressed by direct
sums of these spaces in several ways
R 3 = M1 ⊕ M2 ⊕ M3 = M1 ⊕ M4 = M2 ⊕ M5 = M3 ⊕ M6
1.4. DIMENSION AND BASES IN VECTOR SPACES 13
for the case of R3 = M1 ⊕M2 ⊕M3 we see that the subspace spanned by M 2 and M3 i.e. M2 +M3 = [M2 ∪ M3 ] = M4
is disjoint from M1 . Similarly M2 ∩ [M1 ∪ M3 ] = {0} = M3 ∩ [M1 ∪ M2 ]. It is because of this, that we have a direct
sum.
Now let us take M3 , M6 and M 0 defined as a line on the plane M4 that passes through the origin making an
angle θ with the axis x3 such that 0 < θ < π/2, since R 3 = M3 + M6 it is clear that
R3 = M3 + M6 + M 0 ; M3 ∩ M6 = M3 ∩ M 0 = M6 ∩ M 0 = {0} (1.2)
however this is not a direct sum because M 3 + M6 = R3 so that M 0 ∩ (M3 + M6 ) 6= {0}. Despite each subspace
is disjoint from each other, there is at least one subspace that is not disjoint from the subspace spanned by the
others. Let us show that there are many decompositions for a given vector z ∈ R 3 when we use the sum in (1.2).
Since R3 = M3 + M6 a possible decomposition is z = x + y + 0 with x ∈ M 3 , y ∈ M6 , 0 ∈ M 0 . Now let us take an
arbitrary non-zero element w of M 0 ; clearly M3 + M6 = R3 contains M 0 so that w = x0 + y0 with x0 ∈ M3 , y0 ∈ M6 .
Now we write z = x + y = (x − x0 ) + (y − y0 ) + x0 + y0 then z = (x − x0 ) + (y − y0 ) + w. We see that (x − x0 ) is in
M3 and (y − y0 ) is in M6 . Now, since w ∈ M 0 and w 6= 0 this is clearly a different decomposition with respect to
the original one. An infinite number of different decompositions are possible since w is arbitrary.
Finally, it can be proved that for any given subspace M in V it is always possible to find another subspace N in
V such that V = M ⊕ N . Nevertheless, for a given M the subspace N is not neccesarily unique. A simple example
is the following, in R2 any line crossing the origin is a subspace M and we can define N as any line crossing the
origin as long as it is not collinear with M ; for any N accomplishing this condition we have V = M ⊕ N .
1.4. Dimension and bases in vector spaces

Definition 1.3 Let V be a vector space and S = {x 1 , .., xn } a finite non-empty subset of V . S is defined as linearly
dependent if there is a set of scalars {α 1 , .., αn } not all of them zero such that
α1 x1 + α2 x2 + .. + αn xn = 0 (1.3)
if S is not linearly dependent we say that it is linearly independent, this means that in Eq. (1.3) all coefficients α i
must be zero. Thus linear independence of S means that the only solution for Eq. (1.3) is the trivial one. When
non-trivial solutions exists the set is linearly dependent.
¿What is the utility of the concept of linear independence of a given set S? to see it, let us examine a given
vector x in [S], each of these vectors arise from linear combinations of vectors in S
x = α1 x1 + α2 x2 + .. + αn xn ; xi ∈ S (1.4)
we shall see that for the ordered set S = {x 1 , .., xn } the corresponding ordered set {α1 , .., αn } associated with x by
Eq. (1.4) is unique. Suppose there is another decomposition of x as a linear combination of elements of S
x = β1 x1 + β2 x2 + .. + βn xn ; xi ∈ S (1.5)
substracting (1.4) and (1.5) we have
0 = (α1 − β1 ) x1 + (α2 − β2 ) x2 + .. + (αn − βn ) xn
but linear independence require that only the trivial solution exists, thus α i = βi and the ordered set of coefficients
is unique. This is very important for the theory of representations of vector spaces. The discussion above permits
to define linearly independence for an arbitrary (not necessarily finite) non-empty set S
Definition 1.4 An arbitrary non-empty subset S ⊆ V is linearly independent if every finite non-empty subset of S
is linearly independent in the sense previously established.
As before, an arbitrary non-empty set S is linearly independent if and only if any vector x ∈ [S] can be written
in a unique way as a linear combination of vectors in S.
The most important linearly independent sets are those that span the whole space i.e. [S] = V this linearly
independent sets are called bases. It can be checked that S is a basis if and only if it is a maximal linearly
independent set, in the sense that any proper superset of S must be linearly dependent. We shall establish without
proof a very important theorem concerning bases of vector spaces
Theorem 1.2 If S is a linearly independent set of vectors in a vector space V , there exists a basis B in V such
that S ⊆ B.
In words, given a linearly independent set, it is always possible to add some elements to S for it to become a
basis. A linearly independent set is non-empty by definition and cannot contain the null vector. Hence, we see that
if V = {0} it does not contain any basis, but if V 6= {0} and we can take a non-zero element x of V , the set {x} is
linearly independent and the previous theorem guarantees that V has a basis that contains {x}, it means that
Theorem 1.3 Every non-zero vector space has a basis
Now, since any set consisting of a single non-zero vector can be enlarged to become a basis it is clear that any
non-zero vector space contains an infinite number of bases. It worths looking for general features shared by all bases
of a given linear space. Tne first theorem in such a direction is the following
Theorem 1.4 Let S = {x1 , x2 , .., xn } be a finite, odered, non-empty subset of the linear space V . If n = 1 then S is
linearly dependent⇔ x1 = 0. If n > 1 and x1 6= 0 then S is linearly dependent if and only if some one of the vectors
x2 , ..., xn is a linear combination of the vectors in the ordered set S that precede it.
Proof: The first assertion is trivial. Then we settle n > 1 and x 1 6= 0. Assuming that one of the vectors x i in
the set x2 , ..., xn is a linear combination of the preceding ones we have
xi = α1 x1 + ... + αi−1 xi−1 ⇒ α1 x1 + ... + αi−1 xi−1 − 1 · xi = 0
since the coefficient of xi is 1, this is a non-trivial linear combination of elements of S that equals zero. Thus S is
linearly dependent. We now assume that S is linearly dependent hence the equation
α1 x1 + ... + αn xn = 0
has a solution with at least one non-zero coefficcient. Let us define α i as the last non zero coefficient, since x 1 6= 0
then i > 1 then we have

α1 αi−1
α1 x1 + ... + αi xi + 0 · xi+1 + ... + 0 · xn = 0 ⇒ xi = − x1 + ... + − xi−1
αi αi
and xi is written as a linear combination of the vectors that precede it in the ordered set S. QED
The next theorem provides an important structural feature of the set of bases in certain linear spaces
Theorem 1.5 If a given non-zero linear space V has a finite basis B 1 = {e1 , ..., en } with n elements, then any
other basis B2 = {fi } of V must be finite and also with n elements.
The following theorem (that we give without proof) gives a complete structure to this part of the theory of
vector spaces
Theorem 1.6 Let V be a non-zero vector space. If B 1 = {ei } and B2 = {uj } are two bases of the vector space,
then B1 and B2 are sets with the same cardinality.
These theorem is valid even for sets with infinite cardinality. This result says that the cardinality of a basis is
a universal attribute of the vector space since it does not depend on the particular basis used. Hence the following
are natural definitions
Definition 1.5 The dimension of a non-zero vector space is the cadinality of any of its basis. If V = {0} the
dimension is defined to be zero.
Definition 1.6 A vector space is finite-dimensional if its dimension is a non negative integer. Otherwise, it is
infinite-dimensional.
1.5. MAPPINGS AND TRANSFORMATIONS IN VECTOR SPACES 15
As any abstract algebraic system, vector spaces requires a theory of representations in which the most abstract
set is replaced by another set with more tangible objects. However, for the representation to preserve the abstract
properties of the vector space, set equivalence and linear operations must be preserved. This induces the following
definition
Definition 1.7 Let V and V 0 two vector spaces with the same system of scalars. An isomorphism of V onto V 0 is
a one-to-one mapping f of V onto V 0 such that f (x + y) = f (x) + f (y) and f (αx) = αf (x)
Definition 1.8 Two vector spaces with the same system of scalars are called isomorphic if there exists an isomor-
phism of one onto the other.
To say that two vector spaces are isomorphic means that they are abstractly identical with respect to their
structure as vector spaces.
Now let V be a non zero finite dimensional space. If n is its dimension, there exists a basis B = {e 1 , .., en } whose
elements are written in a definite order. Each vector x in V can be written uniquely in the form
x = α1 e1 + .. + αn en
so the n−tuple (α1 , .., αn ) is uniquely determined by x. If we define a mapping f by f (x) = (α 1 , .., αn ) we see that
this is an isomorphism of V onto R n or C n depending on the system of scalars defined for V .
Theorem 1.7 Any real (complex) non-zero finite dimensional vector space of dimension n is isomorphic to R n
(C n ).
Indeed, this theorem can be extended to vector spaces of arbitrary dimensions, we shall not discuss this topic
here. By now, it suffices to realize that the isomorphism establishes here is not unique for it depends on the basis
chosen and even on the order of vectors in a given basis. It can be shown also that two vector spaces V and V 0 are
isomorphic if and only if they have the same scalars and the same dimension.
From the results above, we could then be tempted to say that the abstract concept of vector space is no
useful anymore. However, this is not true because on one hand the isomorphism depends on the basis chosen and
most results are desirable to be written in a basis independent way. But even more important, almost all vector
spaces studied in Mathematics and Physics posses some additional structure (topological or algebraic) that are not
neccesarily preserve by the previous isomorphisms.
1.5. Mappings and transformations in vector spaces

For two vector spaces V and V 0 with the same system of scalars we can define a mapping T of V into V 0 that
preserves linear properties
T (x + y) = T (x) + T (y) ; T (αx) = αT (x)
T is called a linear transformation. We can say that linear transformations are isomorphisms of V into V 0 since
linear operations are preserved. T also preserves the origin and negatives
T (0) = T (0 · 0) = 0 · T (0) = 0 ; T (−x) = T ((−1) x) = (−1) T (x) = −T (x)
we shall see later that the states of our physical systems are vectors of a given vector space. Hence, the transforma-
tions of these vectors are also important in Physics because they will represent transformations in the states of our
system. We shall see later that the set of all linear transformations are in turn vector spaces with their own internal
organization.
Let us now define some basic operations with linear transformations, a natural definition of the sum of two linear
transformations is of the form
(T + U ) (x) ≡ T (x) + U (x) (1.6)
and a natural definition of multiplication by scalars is
(αT ) (x) ≡ αT (x) (1.7)

finally the zero and negative linear transformations are defined as
0 (x) ≡ 0 ; (−T ) (x) ≡ −T (x) (1.8)
with these definitions it is inmediate to establish the following
Theorem 1.8 Let V and V 0 be two vector spaces with the same system of scalars. The set of all linear transfor-
mations of V into V 0 with the linear operations defined by Eqs. (1.6, 1.7, 1.8) is itself a vector space.
The most interesting cases are the linear transformations of V into itself and the linear transformations of V
into the space of scalars (real or complex). We shall study now the first case.
1.6. Linear transformations of a vector space into itself

In this case we usually speak of linear transformations on V . The first inmediate consequence is the capability
of defining the composition of operators (or product of operators)
(T U ) (x) ≡ T (U (x)) (1.9)
associativity and distributivity properties can easily be derived
T (U V ) = (T U ) V ; T (U + V ) = T U + T V
(T + U ) V = T V + U V ; α (T U ) = (αT ) U = T (αU )
we prove for instance
[(T + U ) V ] (x) = (T + U ) (V (x)) = T (V (x)) + U (V (x))

= (T V ) (x) + (U V ) (x) = (T V + U V ) (x)
commutativity does not hold in general. It is also possible for the product of two non-zero linear transformation to
be zero. An example of non commutativity is the following: we define on the space P of polynomials p (x) the linear
operators M and D
dp dp
M (p) ≡ xp ; D (p) = ⇒ (M D) (p) = M (D (p)) = xD (p) = x
dx dx
dp
(DM ) (p) = D (M (p)) = D (xp) = x +p
dx
and M D 6= DM. Suppose now the linear transformations on R 2 given by
Ta ((x1 , x2 )) = (x1 , 0) ; Tb ((x1 , x2 )) = (0, x2 ) ⇒ Ta Tb = Tb Ta = 0
thus Ta 6= 0 and Tb 6= 0 but Ta Tb = Tb Ta = 0.

Another natural definition is the identity operator I
I (x) ≡ x
we see that I 6= 0 ⇔ V 6= {0}. Further

IT = T I = T
for every linear operator T on V . For any scalar α the operator αI is called scalar multiplication since
(αI) (x) = αI (x) = αx
it is well known that for a mapping from V to V 0 to admit an inverse from V 0 to V requires to be one-to-one and
onto. In this context this induces the definition
Definition 1.9 A linear transformation T on V is non-singular if it is one-to-one and onto, and singular otherwise.
1.6. LINEAR TRANSFORMATIONS OF A VECTOR SPACE INTO ITSELF 17
When T is non-singular its inverse can be defined so that
T T −1 = T −1 T = I
it can be shown that when T is non-singular T −1 is also a linear transformation.

For future purposes the following theorem is highly relevant
Theorem 1.9 If T is a linear transformation on V , then T is non-singular⇔ T (B) is a basis for V whenever B
is.
1.6.1. Projection operators

We shall discuss some very important types of linear transformations. Let V be the direct sum of two subspaces
V = M ⊕ N it means that any vector z in V can be written in a unique way as z = x + y with x ∈ M and y ∈ N .
Since x is uniquely determined by z this decomposition induces a natural mapping of V onto M in the form
P (z) = x
it is easy to show that this transformation is linear and is called the projection on M along N . The most important
property of these transformations is that they are idempotent i.e. P 2 = P we can see it taking into account that
the unique decomposition of x is x = x + 0 so that
P 2 (z) = P (P (z)) = P (x) = x = P (z)
The opposite is also true i.e. a given linear idempotent linear transformation induces a decomposition of the space
V in a direct sum of two subspaces
Theorem 1.10 If P is a linear transformation on a vector space V , P is idempotent⇔there exists subspaces M

and N in V such that V = M ⊕ N and P is the projection on M along N .
Proof : We already showed that decomposition in a direct sum induces a projection, to prove the opposite let
define M and N in the form
M ≡ {P (z) : z ∈ V } ; N = {z : P (z) = 0}
M and N are subspaces and correspond to the range and the null space of the transformation P respectively. We
show first that M + N = V , this follows from the identity
z = P (z) + (I − P ) (z) (1.10)
P (z) belongs to M by definition, now

P ((I − P ) (z)) = (P (I − P )) (z) = P − P 2 (z) = (P − P ) (z) = 0 (z) = 0
thus (I − P ) (z) belongs to the null space N so M + N = V . To prove that this is a direct sum we must show that
M and N are disjoint (theorem 1.1). For this, assume that we have a given element P (z) in M that is also in N
then
P (P (z)) = 0 ⇒ P 2 (z) = P (z) = 0
thus the common element P (z) must be the zero element. Hence, M and N are disjoint and V = M ⊕ N . Further,
from (1.10) P is the projection on M along N .
Of course in z = x + y with x ∈ M , y ∈ N we can define a projection P 0 (z) = y on N along M . In this case
V = M ⊕ N = N ⊕ M but now M is the null space and N is the range. It is easy to see that P 0 = I − P .
On the other hand, we have seen that for a given subspace M in V we can always find another subspace N such
that V = M ⊕ N so for a given M we can find a projector with range M and null space N . However, N is not
unique so that different projections can be defined on M .
Finally, it is easy to see that the range of a projector P corresponds to the set of points fixed under P i.e.
M = {P (z) : z ∈ V } = {z : P (z) = z}.
1.7. Normed vector spaces

Inspired in the vectors of R n in which we define their lengths in a natural way, we can define lengths of vectors
in abstract vector spaces by assuming an additional structure
Definition 1.10 A normed vector space N is a vector space in which to each vector x there corresponds a real
number denoted by kxk with the following properties: (1) kxk ≥ 0 and kxk = 0 ⇔ x = 0.(2) kx + yk ≤ kxk + kyk
(3) kαxk = |α| kxk
As well as allowing to define a length for vectors, the norm permits to define a distance between two vectors x
and y in the following way
d (x, y) ≡ kx − yk
it is easy to verify that this definition accomplishes the properties of a metric
d (x, y) ≥ 0 and d (x, y) = 0 ⇔ x = y

d (x, y) = d (y, x) ; d (x, z) ≤ d (x, y) + d (y, z)
in turn, the introduction of a metric permits to define two crucial concepts: (a) convergence of sequences, (b)
continuity of functions of N into itself (or into any metric space).
We shall examine both concepts briefly
1.7.1. Convergent sequences, cauchy sequences and completeness

If X is a metric space with metric d a given sequence in X
{xn } = {x1 , .., xn , ...}
is convergent if there exists a point x in X such that for each ε > 0, there exists a positive integer n 0 such that
d (xn , x) < ε for all n ≥ n0 . x is called the limit of the sequence. A very important fact in metric spaces is that any
convergent sequence has a unique limit.
Further, assume that x is the limit of a convergent sequence, it is clear that for each ε > 0 there exists n 0 such
that m, n ≥ n0 ⇒ d (x, xm ) < ε/2 and d (x, xn ) < ε/2 using the properties of the metric we have
ε ε
m, n ≥ n0 ⇒ d (xm , xn ) ≤ d (xm , x) + d (x, xn ) < + =ε
2 2
a sequence with this property is called a cauchy sequence. Thus, any convergent sequence is a cauchy sequence.
The opposite is not necessarily true. As an example let X be the interval (0, 1] the sequence x n = 1/n is a cauchy
sequence but is not convergent since the point 0 (which it wants to converge to) is not in X. Then, convergence
depends not only on the sequence itself, but also on the space in which it lies. Some authors call cauchy sequences
“intrinsically convergent” sequences.
A complete metric space is a metric space in which any cauchy sequence is convergent. The space (0, 1] is not
complete but it can be made complete by adding the point 0 to form [0, 1]. In fact, any non complete metric space
can be completed by adjoining some appropiate points. It is a fundamental fact that the real line, the complex plane
and Rn , C n are complete metric spaces.
We define an open sphere of radius r centered at x 0 as the set of points such that
Sr (x0 ) = {x ∈ X : d (x, x0 ) < r}
and an open set is a subset A of the metric space such that for any x ∈ A there exists an open sphere S r (x) such
that Sr (x) ⊆ A.
For a given subset A of X a point x in X is a limit point of A if each open sphere centered on x contains at
least one point of A different from x.
A subset A is a closed set if it contains all its limit points. There is an important theorem concerning closed
metric subspaces of a complete metric space
Theorem 1.11 Let X be a complete metric space and Y a metric subspace of X. Then Y is complete⇔it is closed.
1.7. NORMED VECTOR SPACES 19
1.7.2. The importance of completeness in quantum mechanics

In quantum mechanics we work in an infinite dimensional vector space of functions in which we shall frequently
encounter series of the form
X∞
cn ψn
n=1
with ψn being functions in our space that describe physical states and c n are some appropiate coefficients. For this
series to have any physical sense, it must be convergent. To analyze convergence we should construct the sequence
of partial sums
( 1 2 3
)
X X X
cn ψn , cn ψn , cn ψn , ...
n=1 n=1 n=1
if this series is “intrisically” convergent the corresponding sequence of partial sums should be a cauchy sequence.
Any series that defines a cauchy sequence has a bounded norm
∞
X

cn ψn < ∞

n=1
it would then be desirable that an intrinsically convergent series given by a superposition of physical states ψ n be
another physical state ψ. In other words, the limit of the partial sums should be within the vector space that describe
our physical states. To ensure this property we should demand completeness of the vector space that describe the
physical states of the system.
On the other hand, it would be usual to work with subspaces of the general physical space. If we want to
guarantee for a series in a given subspace to be also convergent, we should require for the subspace to be complete
by itself, and according to theorem 1.11 it is equivalent to require the subspace to be closed with respect to the
total space. Therefore, closed subspaces of the general space of states would be particularly important in quantum
mechanics.
1.7.3. The concept of continuity and its importance in Physics

The concept of continuity arises naturally for mappings of a metric space into another metric space. Let f be a
mapping of (X, d1 ) into (Y, d2 ) we say that f is continuous at x0 ∈ X if for each ε > 0 there exists δ > 0 such that
d1 (x, x0 ) < δ ⇒ d2 (f (x) , f (x0 )) < ε. This mapping is said to be continuous if it is continuous for each point in its
domain.
Continuity is also an essential property in Physics since for most of physical observables or states we require
some kind of “smoothness” or “well behavior”. Continuity is perhaps the weakest condition of well behavior usually
required in Physics.
We have previously defined isomorphisms as mappings that preserve all structure concerning a general vector
space. It is then natural to characterize mappings that preserve the structure of a set as a metric space
Definition 1.11 If X, Y are two metric spaces with metrics d 1 and d2 a mapping f of X into Y is an isometry if
d1 (x, x0 ) = d2 (f (x) , f (x0 )) ∀x, x0 ∈ X. If there exists an isometry of X onto Y , we say that X is isometric to Y .
It is clear that an isometry is necessarily one-to-one. If X is isometric to Y then the points of these spaces can
be put in a one to one correspondence in such a way that the distance between pairs of corresponding points are the
same. In that sense, isometric spaces are abstractly identical as metric spaces. For instance, if we endow a vector
space V with a metric then another metric vector space V 0 will be identical to V as metric and vector space if and
only if there is an isometric isomorphism between them. Isometry preserves metric (distances) while isomorphism
preserve vector structure (linear operations). Of course a norm-preserving mapping is an isometry for the metric
induced by such a norm. Thus for our purposes norm preserving mappings will be isometries.
1.8. Banach Spaces

From our experience in classical mechanics we have seen that the concept of a vector space is useful especially
when we associate a length to the vectors, this induces the concept of normed vector spaces, the norm in turn induces
a metric i.e. a natural concept of the distance between vectors. Metric structure in turn lead us to the concepts
of convergent sequences and continuity of functions. In particular, the previous discussion concerning completeness
incline us in favor of spaces that are complete. Then we are directly led to normed and complete linear spaces
Definition 1.12 A banach space is a normed and complete vector space
As in any vector space, linear transformations are crucial in the characterization of Banach spaces. Since a notion
of continuity is present in these spaces and continuity is associated with well behavior in Physics, it is natural to
concentrate our attention in continuous linear transformations of a banach space B into itself or into the set of
scalars. Transformations of B into itself will be useful when we want to study posible modifications of the vectors
(for instance the time evolution of the vectors describing the state of the system). On the other hand, transformations
of B into the scalars will be useful when we are interested in connecting the state of a system (represented by a
vector) with a measurement (which is a number).
Before considering each specific type of continuous linear transformation, we should clarify what the meaning
of continuity of a linear transformation is. Since continuity depends on the metric induced on the space, we should
define for a given space of linear transformations on a Banach space B, a given metric. We shall do it by first
defining a norm, specifically we shall define the following norm
kT k = sup {|T (x)| : kxk ≤ 1} (1.11)
We shall refer to the metric induce by this norm when we talk about the continuity of any linear transformation
of a Banach space into itself or into the scalars. It can be shown that for this norm continuity is equivalent to
boundedness.
1.8.1. Continuous linear transformations of a Banach space into scalars

Let us consider first the continuous linear transformations of B into the scalars. This induces the following
Definition 1.13 A real (or complex) functional is a continuous linear transformation of a real (or complex) normed
linear space into R (or C).
Definition 1.14 The set of all functionals on a normed linear space N is called the conjugate space of N and is
denoted by N ∗ .
For the case of general normed spaces (and even for Banach spaces), the structure of their conjugate spaces is in
general very intrincate. However we shall see that conjugate spaces are much simpler when an additional structure
(inner product) is added to Banach spaces.
1.8.2. Continuous linear transformations of a Banach space into itself

Let us discuss now the continuous linear transformations of Banach spaces into themselves.
Definition 1.15 An operator is a continuous linear transformation of a normed space into itself.
A particularly useful result in quantum mechanics is the following
Theorem 1.12 If a one-to-one linear transformation T of a Banach space onto itself is continuous, then its inverse
is automatically continuous
Though we do not provide a proof, it is important to note that this result requires the explicit use of completeness
(it is not valid for a general normed space). We see then that completeness gives us another desirable property in
Physics: if a given transformation is continuous and its inverse exist, this inverse transformation is also continuous.
Let us now turn to projectors on Banach spaces. For general vector spaces projectors are defined as idempotent
linear transformations. For Banach spaces we will required an additional structure which is continuity
1.8. BANACH SPACES 21
Definition 1.16 A projector in a Banach space B, is defined as an idempotent operator on B
The consequences of the additional structure of continuity for projectors in Banach spaces are of particular
interest in quantum mechanics
Theorem 1.13 If P is a projection on a Banach space B, and if M and N are its range and null space. Then M
and N are closed subspaces of B such that B = M ⊕ N
The reciprocal is also true
Theorem 1.14 Let B be a banach space and let M and N be closed subspaces of B such that B = M ⊕ N . If
z = x + y is the unique representation of a vector z in B with x in M and y in N . Then the mapping P defined by
P (z) = x is a projection on B whose range and null space are M and N respectively.
These properties are interesting in the sense that the subspaces generated by projectors are closed subspaces
of a complete space, and then they are complete by themselves. We have already said that dealing with complete
subspaces is particularly important in quantum mechanics.
There is an important limitation with Banach spaces. If a closed subspace M is given, though we can always
find many subspaces N such that B = M ⊕ N there is not guarantee that any of them be closed. So there is not
guarantee that M alone generates a projection in our present sense. The solution of this inconvenience is another
motivation to endow B with an additional structure (inner product).
Finally, the definition of the conjugate N ∗ of a normed linear space N , induces to associate to each operator in
the normed linear space N and operator on N ∗ in the following way. Let us form a complex number c 0 with three
objects, an operator T on N , a functional f on N and an element x ∈ N , we take this procedure: we map x in
T (x) and then map this new element of N into the scalar c 0 through the functional f
x → T (x) → f (T (x)) = c0
Now we get the same number with other set of three objects an operator T ∗ on N ∗ , a functional f on N (the same
functional of the previous procedure) and an element x ∈ N (the same element stated before), the steps are now
the following, we start with the functional f in N ∗ and map it into another functional through T ∗ , then we apply
this new functional to the element x and produce the number c 0 . Schematically it is
f → T ∗ (f ) → [T ∗ (f )] (x) = c0
with this we are defining an apropiate mapping f 0 such that f 0 (x) gives our number. In turn it induces an operator
on N ∗ that maps f in f 0 and this is the newly defined operator T ∗ on N ∗ . In summary this definition reads
[T ∗ (f )] (x) ≡ f (T (x)) (1.12)
where f is a functional on N i.e. an element in N ∗ , T an operator on N and x an element of N . If for a given T we

have that Eq. (1.12) holds for f and x arbitrary, we have induced a new operator T ∗ on N ∗ from T . It can be shown
that T ∗ is also linear and continuous i.e. an operator. When inner product is added to the structure, this operator
becomes much simpler.
By using the norm (1.11) applied to operators on B ∗ we have
kT ∗ k = sup {kT ∗ (f )k : kf k ≤ 1}
it can be proved that

kT ∗ k = kT k (1.13)
such that the mapping T → T ∗ is norm preserving and therefore an isometry, we can also see that
(αT1 + βT2 )∗ = αT1∗ + βT2∗ ; I ∗ = I ; (T1 T2 )∗ = T2∗ T1∗ (1.14)
since linear operations are preserved the mapping T → T ∗ is an isometric isomorphism. However, the product is
reversed under the mappping, this shows that the spaces ß(T ) and ß(T ∗ ) are equivalent as metric and vector spaces
but they are not equivalent as algebras (the spaces are not isomorphic as algebras).
1.9. Hilbert spaces

In R3 it is customary to define a set of three ortonormal vectors u i such that any vector in R 3 can be written
as x = αi ui sum over repeated indices. The dot product is defined such that
x · y ≡ kxk kyk cos θ (1.15)
the dot product is a good mathematical tool for many purposes in solid analytic geometry. If we accept the statement
that the zero vector is orthogonal to every vector we can say that the dot product is null if and only if both vectors
are orthogonal. Let {vi } be a given basis (non necessarily orthonormal) of R 3 ; any two vectors in R3 are expressed
in the form
x = α i vi ; y = β j vj (1.16)
the dot product and the norm of these two vectors can be written
x · y = (αi vi ) · (βj vj ) = αi βj vi · vj ≡ αi βj mij

x · x = kxk2 = (αi vi ) · (αj vj ) = αi αj vi · vj ≡ αi αj mij
These expressions can be in general complicated. Notice that these and other algebraic operations with dot products
become much easier when an orthonormal basis is used since in this case we have m ij = δij so that x · y = αi βi and
x · x = αi αi . These facts put orthonormal basis in a privileged position among other bases.
Further, an attempt of extension of these ideas to C 3 permits to define the inner product in this space in the
following way, given the vectors (1.16) where α and β are complex we define
(x, y) = (α∗i vi ) · (βj vj ) = α∗i βj mij
the conjugate on α appears to obtain the norm of a complex vectors with the inner product of such a vector with
itself, as can be seen by using an orthonormal basis in which m ij = δij
(x, x) = kxk2 = α∗i αi = |αi | |αi |
the simplification above comes from the extension of the concept of orthogonality two complex vectors, they are
orthogonal if and only if (x, y) = 0.
In both the real and complex cases, the concept of orthogonality was very important not only because of the
geometry but also because of the algebra. We observe for instance, that no angle like the one in (1.15) can be defined
in the complex case, but the algebra of inner products continues being simple and useful. On the same ground, we
were able to talk about orthogonality in the complex case via the inner product and exploit the advantages of
orthonormal sets, although two vectors of the complex plane are not “perpendicular”.
In the same way, in abstract vector spaces is not so clear how to use the concept of orthogonality in a geometrical
way, but from the discussion above it is clear that the extension of the concept would represent great simplifications
from the algebraic sense. Notwithstanding, we shall see that the extension of the concept of inner product will also
provide some geometrical interpretations.
As always in mathematics, a natural extension should come from the extrapolation of the essential properties
of the concept in the restricted way, the inner product in the complex and real spaces has the following properties
(x, αy + βz) = α (x, y) + β (x, z) ; (x, y) = (y, x) ∗ ; (x, x) = kxk2
we are led to the following
Definition 1.17 A Hilbert space is a real or complex Banach space whose norm arises from an inner product, which
in turn is defined as a complex function (x, y) of the vectors x and y with the following properties
(x, αy + βz) = α (x, y) + β (x, z)

(x, y) = (y, x) ∗
(x, x) = kxk2
1.9. HILBERT SPACES 23
Definition 1.18 Two vectors x, y in a Hilbert space are said to be orthogonal if (x, y) = 0, we denote it as x ⊥ y.
A vector is said to be normal or unitary if (x, x) = 1.
From the definition the following properties hold

|(x, y)| ≤ kxk kyk (1.17)
2 2 2 2
kx + yk + kx − yk = 2 kxk + 2 kyk (1.18)
2 2 2 2
4 (x, y) = kx + yk − kx − yk + i kx + iyk − i kx − iyk (1.19)
2 2 2 2
x ⊥ y ⇒ kx + yk = kx − yk = kxk + kyk (1.20)
Eq. (1.17) is known as the Schwarz inequality. Eq. (1.18) is known as the paralelogram law because in plane geometry
it reduces to the theorem which says that the sum of the squares of the sides of a paralelogram equals the sum of
the squares of its diagonals. As well as its geometrical interpretation, this law says that only certain Banach spaces
can be converted into Hilbert spaces, only those normed complete spaces in which the norm obeys the paralelogram
law can become a Hilbert space. Further, if for a given norm, the paralelogram law is satisfied, then Eq. (1.19),
gives us the recipe to define an inner product from such a norm. Finally, for reasons easy to visualize Eq. (1.20) is
called the pithagorean theorem.
As a matter of illustration let us prove the paralelogram law Eq. (1.18)
kx + yk2 + kx − yk2 = (x + y, x + y) + (x − y, x − y)
= (x, x + y) + (y, x + y) + (x, x − y) − (y, x − y)

= (x, x) + (x, y) + (y, x) + (y, y) + (x, x) − (x, y) − (y, x) + (y, y)
= (x, x) + (y, y) + (x, x) + (y, y)
= 2 kxk2 + 2 kyk2
A vector x is said to be orthogonal to a non empty set S, if x ⊥ y for all y ∈ S. The orthogonal complement
of S is the set of all vectors orthogonal to S, it is denoted as S ⊥ . Two non empty sets M and N are orthogonal if
x ⊥ y for all x ∈ M and for all y ∈ N ; this is denoted as M ⊥ N . If M is a closed vector subspace of H then M ⊥
is also closed. The following theorems are important for physical purposes
Theorem 1.15 If M and N are closed vector subspaces of a Hilbert space H such that M ⊥ N , then the linear
subspace M + N is also closed
Theorem 1.16 If M is a closed linear subspace of a Hilbert space H, then H = M ⊕ M ⊥
Thus we see that the expansion of the union of closed subspaces preserves the closure property and so the
completeness property too. In addition, theorem 1.16 says that given a closed subspace of H we can always find
a closed subspace to generate H by direct sum. Besides, the closed space that makes the work is the orthogonal
complement. It means that for any given closed subspace M we can define a projection with range M and null
space M ⊥ . Contrast this with the problem arising in Banach spaces in which we cannot guarantee the closure of
the complementary space.
1.9.1. Orthonormal sets

An orthonormal set {ei } in H is a non empty subset of H such that if i 6= j then e i ⊥ ej and kei k = 1 for all
i. this set could be of any cardinality (non necessarily countable). The zero Hilbert space has no orthonormal sets.
The following theorems are of great practical interest
Theorem 1.17 Let {e1 , .., en } be a finite orthonormal set in H. If x is a vector in H we have
n
X
|(ei , x)|2 ≤ kxk2 (1.21)
i=1
Xn
x− (ei , x) ei ⊥ ej ; j = 1, .., n (1.22)
i=1
We can give the following interpretation of this theorem: Eq. (1.21) says that the sum of the components of a
vector in the various orthogonal directions defined by the ortonormal set, cannot exceed the length of the vector.
Similarly, Eq. (1.22) says that if we substract from a vector its components in several perpendicular directions the
resultant has no components left in those directions.
The following theorem shows that the coefficients obtained for a given vector from an orthonormal set are not
arbitrary
Theorem
n 1.18 Ifo {ei } is an orthonormal set in a Hilbert space H, and if x is any vector in H, the set S =
ei : |(ei , x)|2 6= 0 is either empty or countable.
These results permit to extend theorem 1.17 for arbitrary orthonormal sets
Theorem 1.19 Let {ei } be an arbitrary orthonormal set in H. If x is a vector in H we have

X
|(ei , x)|2 ≤ kxk2 (1.23)
X
x− (ei , x) ei ⊥ ej ; j = 1, .., n (1.24)
n o
where the symbol of sum means the following, defining the set S = ei : |(ei , x)|2 6= 0 , we define the sum to be zero
(number or vector) when S is empty. If S is finite, the definitions
P in (1.24, 1.23) coincide with the ones in (1.21,
1.22), if S is countably infinite, the sums become series ∞ n=1 for a given order of the set S = {e1 , .., ei , ..}, in this
case the limit of the series is independent of the order chosen for S.
Definition 1.19 An orthonormal set in H is said to be complete if it is maximal, that is, if it is impossible to add
an element e to the set while preserving the orthonormality in the new set.
Theorem 1.20 Every orthonormal set in a Hilbert space is contained in a complete orthonormal set
Theorem 1.21 Every non-zero Hilbert space contains a complete orthonormal set
Theorem 1.22 Every orthonormal set is linearly independent
Theorem 1.23 Let H be a Hilbert space and {e i } an orthonormal set in H. The following conditions are equivalent
to one another
{ei } is complete (1.25)

x ⊥ {ei } ⇒ x = 0 (1.26)
X
∀x ∈ H⇒x= (ei , x) ei (1.27)
X
∀ x ∈ H ⇒ kxk2 = |(ei , x)|2 (1.28)
This is perhaps the most important theorem in terms of applications in Physics, and in particular quantum
mechanics. It is convenient to discuss some terminology related with it. The numbers (x, e i ) are called the Fourier
coeeficients of x and Eq. (1.27) is its Fourier expansion. Eq. (1.28) is called Parseval’s equation. All these equations
refer to a given complete orthonormal set.
This sequence of theorems are similar to the ones explained in the general theory of vector spaces in which
complete orthonormal sets replaced the concept of bases, and fourier expansions replaced linear combinations.
It is clear that for finite dimensional spaces Fourier expansions become linear combinations. On the other hand,
since orthonormal sets are linearly independent (Theorem 1.22), it is easy to see that in the case of finite dimensional
spaces complete orthonormal sets are linearly independent sets that generate any vector by linear combinations.
Hence, complete orthonormal sets are bases.
For infinite dimensional spaces there is a different story. If we remember that linear combinations are finite by
definition, we see that in this case Fourier expansions are not linear combinations. For a given linearly independent
set to be a basis, it is necessary for any vector of the space to be written as a linear combination of such a set, basis
1.9. HILBERT SPACES 25
certainly exists for Hilbert spaces according to theorem 1.3 but complete orthonormal sets are NOT basis in the
sense defined for the general theory of vector spaces.
Moreover theorem 1.18 shows that the Fourier expansion given in Eq. (1.27) is always countable, this is a
remarkable result because it means that the fourier expansion for a given complete orthonormal set is always a
series, even if the cardinality of the complete orthonormal set is higher than the aleph (cardinality of the integers).
The informal discussion above can be formally proved to produce the following statement
Theorem 1.24 A Hilbert space is finite dimensional if and only if every complete orthonormal set is a basis.
However, owing to the analogy between bases and complete orthonormal sets the following theorem is quite
expected
Theorem 1.25 Any two complete orthonormal sets of a given Hilbert space have the same cardinality.
And this fact induces a natural definition
Definition 1.20 The orthogonal dimension of a Hilbert space H is the cardinality of any complete orthonormal set
in H.
It is important to keep in mind the difference between the dimension and the orthogonal dimension of a Hilbert
space of infinite dimension.
1.9.2. The conjugate space H ∗

We have defined the conjugate space of a Banach space B as the set of all functionals in B i.e. of all linear
continuous mappings of B into the scalars. We said however that the structure of the conjugate spaces of an arbitrary
Banach space is very complex. Fortunately, this is not the case for Hilbert spaces in which the inner product provides
a natural association between H and H ∗ .
Let y be a fixed vector in H and consider the function f y defined by
fy (x) ≡ (y, x) (1.29)
it is easy to prove linearity
fy (αx1 + βx2 ) = (y, αx1 + βx2 ) = α (y, x1 ) + β (y, x2 )

fy (αx1 + βx2 ) = αfy (x1 ) + βfy (x2 )
continuity comes from the Schwarz inequality
|fy (x)| = |(x, y)| ≤ kxk kyk ⇒ |fy (x)| ≤ kyk
then fy is bounded and so continuous. Indeed it can be shown that |f y (x)| = kyk. We then have found an algorithm
to generate some functionals from the mapping
y → fy (1.30)
described above, this is a norm preserving mapping of H into H ∗ . However, it can be shown that indeed this is a
mapping of H onto H ∗ as stated in this
Theorem 1.26 Let H be a Hilbert space, and f an arbitrary functional in H ∗ . Then there exists a unique vector
y ∈ H such that
f (x) = (y, x) ∀x ∈ H
since the mapping (1.30) is norm preserving, we wonder if it is linear, this is not the case because
fy1 +y2 (x) = (y1 + y2 , x) = (y1 , x) + (y2 , x) = fy1 (x) + fy2 (x)
fαy (x) = (αy, x) = α∗ (y, x) = α∗ fy (x)
such that
fy1 +y2 = fy1 + fy2 ; fαy = α∗ fy (1.31)
however the mapping (1.30) is an isometry (it preserves metric) since
kfx − fy k = kfx−y k = kx − yk
we can characterize H ∗ in the following way
Theorem 1.27 H ∗ is a Hilbert space with respect to the inner product defined by (f x , fy ) = (y, x).
1.9.3. The conjugate and the adjoint of an operator

A really crucial aspect of the theory of Hilbert spaces in Physics is the theory of operators (continuous linear
transformations of H into itself), we shall see later that observables in quantum mechanics appear as eigenvalues
of some of these operators.
We have defined the conjugate of an operator for Banach spaces but they are still too general to get a rich
structural theory of operators. The natural correspondence between H and H ∗ will provide a natural relation
between a given operator on H and its corresponding conjugate operator on H ∗ .
Let T be an operator on a Banach space B. We defined an operator on B ∗ denoted T ∗ and called the conjugate
of T by Eq. (1.12)
[T ∗ (f )] (x) = f (T (x)) (1.32)
and Eqs. (1.13, 1.14) says that T → T ∗ is an isometric isomorphism between the spaces of linear operators on H
and H ∗ . We shall see that the natural correspondence between H and H ∗ permits to induce in turn an operator
T † in H from the operator T ∗ in H ∗ . The procedure is the following: starting from a vector y in H we map it into
its corresponding functional fy , then we map fy by the operator T ∗ to get another functional fz then we map this
functional into its (unique) corresponding vector z in H the scheme reads
y → f y → T ∗ fy = f z → z
the whole process is a mapping of y to z i.e. of H into itself. We shall write it as a single mapping of H into itself
in the form
y → z ≡ T †y
the operator T † induced in this way from T ∗ is called the adjoint operator. Its action can be understood in the
context of H only as we shall see. For every vector x ∈ H we use the definition of T ∗ Eq. (1.32) to write
[T ∗ (fy )] (x) = fy (T (x)) = (y, T x)

[T ∗ fy ] (x) = fz (x) = (z, x) = T † y, x
so that
(y, T x) = T † y, x ∀x, y ∈ H (1.33)
we can see that Eq. (1.33) defines T † uniquely and we can take it as an alternative definition of the adjoint operator
associated with T . It can also be verified that T † is indeed an operator, i.e. that it is continuous and linear. We can
also prove the following
1.10. NORMAL OPERATORS 27
Theorem 1.28 The adjoint operation T → T † is a one-to-one onto mapping with these properties
†
(T1 + T2 )† = T1† + T2† , (αT )† = α∗ T † , T † = T

(T1 T2 )† = T2† T1† ; T † = kT k ; T † T = T T † = kT k2
0∗ = 0 , I ∗ = I (1.34)
If T is non-singular then T † is also non-singular and

−1 †
T† = T −1
†
Notice for instance that T † = T implies that

(T y, x) = y, T † x ∀x, y ∈ H (1.35)
We define the commutator of a couple of operators T 1 , T2 as
[T1 , T2 ] ≡ T1 T2 − T2 T1
this operation has the following properties
[T1 , T2 ] = − [T2 , T1 ] (1.36)

[αT1 + βT2 , T3 ] = α [T1 , T3 ] + β [T2 , T3 ] (1.37)
[T1 , αT2 + βT3 ] = α [T1 , T2 ] + β [T1 , T3 ] (1.38)
[T1 T2 , T3 ] = T1 [T2 , T3 ] + [T1 , T3 ] T2 (1.39)
[T1 , T2 T3 ] = T2 [T1 , T3 ] + [T1 , T2 ] T3 (1.40)
[[T1 , T2 ] , T3 ] + [[T3 , T1 ] , T2 ] + [[T2 , T3 ] , T1 ] = 0 (1.41)

such properties can be proved directly from the definition, Eq. (1.36) shows antisymmetry and Eqs. (1.37, 1.38)
proves linearity. Finally, relation (1.41) is called the Jacobi identity.
It can be seen that the space of operators on a Hilbert space H (called ß(H)) is a Banach space and more
generally a Banach Algebra. This organization permits an elegant theory of the operators on Hilbert spaces.
The theory of quantum mechanics works on a Hilbert space. In addition, the most important operators on the
Hilbert space in quantum mechanics are self-adjoint and unitary operators, which are precisely operators that have
a specific relation with its adjoints.
1.10. Normal operators

Definition 1.21 An operator on a Hilbert space H that commutes with its adjoint N, N † = 0 is called a normal
operator
There are two reasons to study normal operators (a) From the mathematical point of view they are the most
general type of operators for which a simple structure theory is possible. (b) they contain as special cases the most
important operators in Physics: self-adjoint and unitary operators.
It is clear that if N is normal then αN is. Further, the limit N of any convergent sequence of normal operators
{Nk } is also normal

† † † †
N N † − N † N ≤ N N † − Nk Nk + Nk Nk − Nk Nk + Nk Nk − N † N

= N N † − Nk Nk† + Nk† Nk − N † N → 0
then N N † − N † N = 0 and N is normal then we have proved

Theorem 1.29 The set of all normal operators on H is a closed subset of ß(H) that is closed under scalar multi-
plication
It is natural to wonder whether the sum and product of normal operators is normal. They are not, but we can
establish some conditions for these closure relations to occur
Theorem 1.30 If N1 and N2 are normal operators on H with the property that either commutes with the adjoint
of the other, the N1 + N2 and N1 N2 are normal.
The following are useful properties for the sake of calculations in quantum mechanics

Theorem 1.31 An operator N on H is normal⇔ kN xk = N † x ∀x ∈ H

Theorem 1.32 If N is a normal operator on H then N 2 = kN k2
1.11. Self-Adjoint operators

We have said that the space of operators on a Hilbert space H (called ß(H)), is a special type of algebra (a
Banach Algebra) which has an algebraic structure similar to the one of the complex numbers, except for the fact
that the former is non-commutative. In particular, both are complex algebras with a natural mapping of the space
into itself of the form T → T † and z → z ∗ respectively. The most important subsystem of the complex plane is
the real line defined by the relation z = z ∗ , the corresponding subsystem in ß(H) is therefore defined as T = T † ,
an operator that accomplishes that condition is called a self-adjoint operator. This is the simplest relation that can
be established between an operator and its adjoint. It is clear that self-adjoint operators are normal. Further, we
already know that 0† = 0 and I † = I thus they are self-adjoint. A real linear combination of self-adjoint operators
is also self-adjoint
(αT1 + βT2 )† = α∗ T1† + β ∗ T2† = αT1† + βT2†
further, if {Tn } is a sequence of self adjoint operators that converges to a given operator T , then T is also self-adjoint

† † † † † †
T − T ≤ kT − T n k + Tn − T n + Tn − T = kT − T n k + kT n − T n k + Tn − T

= kT − Tn k + (Tn − T )† = kT − Tn k + k(Tn − T )k = 2 kT − Tn k → 0
shows that T − T † = 0 so that T = T † this shows the following
Theorem 1.33 The self-adjoint operators in ß(H) are a closed real linear subspace of ß(H) and therefore a real
Banach space which contains the identity transformation
Unfortunately, the product of self-adjoint operators is not necessarily self-adjoint hence they do not form an
algebra. The only statement in that sense is the following
Theorem 1.34 If T1 , T2 are self-adjoint operators on H, their product is self-adjoint if and only if [T 1 , T2 ] = 0
It can be easily proved that T = 0 ⇔ (x, T y) = 0 ∀x, y ∈ H. It can be seen also that
Theorem 1.35 If T is an operator on a complex Hilbert space H then T = 0 ⇔ (x, T x) = 0 ∀x ∈ H.
It should be emphasized that the proof makes explicit use of the fact that the scalars are complex numbers and
not merely the real system.
The following theorem shows that the analogy between self-adjoint operators and real numbers goes beyond the
simple analogy from which the former arise
Theorem 1.36 An operator T on H is self-adjoint⇔ (x, T x) is real ∀x ∈ H.
An special type of self-adjoint operators are the following ones

1.12. UNITARY OPERATORS 29
Theorem 1.37 A positive operator on H is a self-adjoint operator such that (x, T x) ≥ 0, ∀x ∈ H. Further, if
(x, T x) ≥ 0, and (x, T x) = 0 ⇔ x = 0 we say that the operator is positive-definite.
It is clear that the following operators are positive: 0, I, T T † , T † T note also that all the analoguous elements
in the complex plane are non-negative numbers 0, 1, zz ∗ = z ∗ z = |z|2 .
Theorem 1.38 If A is a positive operator then I + A is non-singular
Continuing the analogy between ß(H) and the algebra of complex numbers, we can see that a complex number
can be written as its real and imaginary parts in the form
z + z∗ z − z∗
z = a1 + ia2 ; a1 ≡ , a2 ≡
2 2i
in a similar way we can decompose an arbitrary operator T on H in the form
T + T† T − T†
T = A1 + iA2 ; A1 ≡ ; A2 ≡ (1.42)
2 2i
it is clear that A1 and A2 are self-adjoint so they can be called the “real” and “imaginary” components of the
T operator. If T is self-adjoint its imaginary part is zero as expected. We can see that it is precisely because of the
non commutativity of the self-adjoint operators that non-normal operators exist
Theorem 1.39 If T is an operator on H it is normal ⇔ its real and imaginary parts commute
1.12. Unitary operators

Perhaps the most important subsystem of the complex plane after the real line is the unit circle characterized
by the equation zz ∗ = z ∗ z = |z|2 = 1. This leads to a natural definition of an special subset of the normal operators
Definition 1.22 An operator U on H which satisfies the equation U U † = U † U = I is said to be unitary
Unitary operators are thus the analogues of complex numbers of unitary absolute value. In words, unitary
operators are those non-singular operators whose inverses equal their adjoints, they are thus mappings of H onto
itself. The geometric significance of these operators can be clarified with the following theorem
Theorem 1.40 If T is an operator on H, the following conditions are equivalent to one another
T †T = I (1.43)
(T x, T y) = (x, y) ∀x, y ∈ H (1.44)
kT (x)k = kxk ∀x ∈ H (1.45)
In general an operator T with any of the properties (1.43-1.45), is an isometric isomorphism of H into itself,
since T preserves linear operations, the inner product and the norm (and thus the metric). For finite-dimensional
spaces any of them are necessary and sufficient conditions for T to be unitary. Nevertheless, this is not the case
when we treat with infinite-dimensional spaces, let us see an example: consider the operator T in C ∞ given by
T {x1 , x2 , ...} = {0, x1 , x2 , ...}
which preserves norms but has no inverse. The point is that this is an isometric isomorphism into H but not onto
H (the image does not contain any element of C ∞ with a non-null first component). So in the case of infinite
dimension, the condition to be onto must be added to the conditions (1.43-1.44) for an operator to be unitary.
Theorem 1.41 An operator on H is unitary⇔is an isometric isomorphism of H onto itself.

In words, unitary operators are those one-to-one and onto operators that preserve all structure relevant for a
Hilbert space: linear operations, inner products, norm and metric.
In practice, unitary operators usually appear in Physics as operations that keep the norm of the vectors unaltered
(like rotations in ordinary space), even this is usually the definition utilized in Physics books.
There is another theorem useful in the theory of representations for Hilbert spaces which is also used sometimes
as the definition
Theorem 1.42 An operator T on H is unitary ⇔ T {e i } is a complete orthonormal set whenever {e i } is.
Another important characteristic for physical applications is the following
Theorem 1.43 The set of all unitary operators on H forms a group
1.13. Projections on Hilbert spaces

In Banach spaces we defined projections as idempotent continuous linear trasnformations or equivalently as
idempotent operators. We also saw that a couple of closed subspaces such that B = M ⊕ N induces a projection and
viceversa. We saw however that for a given closed subspace M of B there is not necessarily another closed subspace
such that B = M ⊕ N .
In contrast, theorem 1.16 guarantees that for a given closed subspace M of a Hilbert space H there always exists
a decomposition with another closed subspace in the form H = M ⊕ M ⊥ . Besides, in this decomposition the closed
complementary space is precisely the orthogonal complement of M . Since orthogonality is a very important new
concept that arises from Hilbert spaces, we shall concentrate on projections induced by this particular decomposition.
It is natural then to look for the new features required by a given projection in order to have M as its range and
M ⊥ as its null space
Theorem 1.44 If P is a projection (with the definition given in Banach spaces) on H with range M and null space
N then M ⊥ N ⇔ P = P † and in this case N = M ⊥ .
A projection in which its range and null space are perpendicular is called an orthogonal projection. Indeed,
orthogonal projections are the only ones that are relevant in the theory of operators on Hilbert spaces, then we shall
redefine the concept of projection once again
Definition 1.23 A projection on a Hilbert space will be defined as an idempotent, continuous, and self-adjoint
linear transformation. If idempotent, continuous, non-self adjoint linear transformations are of some use, we call
them non-orthogonal projections.
The following facts are easy to show, 0 and I are projections and they are distinct if and only if H 6= {0}. P is
the projection on M ⇔ I − P is the projection on M ⊥ .
We can also see that
x ∈ M ⇔ P x = x ⇔ kP xk = kxk
it can also be seen that P is a positive operator and kP k ≤ 1.
Sometimes occur in Physics that a given operator T on H maps a proper subspace M of H into itself. The
following chain of definitions permits to study this kind of operators
Definition 1.24 Let T be an operator on H, and M a closed vector subspace of H. M is said to be invariant under
T if T (M ) ⊆ M .
In this case the restriction of T to M can be regarded as an operator of M into itself. A more interesting situation
occurs when M and M ⊥ are invariant under T
Definition 1.25 If both M and M ⊥ are invariant under T , we say that M reduces T or that T is reduced by M .
This situation invites us to study T by restricting its domain to M and M ⊥ . The projections provide the most
relevant information for these scenarios
1.14. BASIC THEORY OF REPRESENTATIONS IN A GENERAL FINITE DIMENSIONAL VECTOR SPACE31
Theorem 1.45 A closed vector subspace M is invariant under an operator T ⇔ M ⊥ is invariant under T †
Theorem 1.46 A closed vector subspace M reduces an operator T ⇔ M is invariant under both T and T †
Theorem 1.47 If P is the projection on a closed vector subspace M of H, M is invariant under an operator
T ⇔ TP = PTP
Theorem 1.48 If P is the projection on a closed vector subspace M of H, M reduces an operator T ⇔ T P = P T
Theorem 1.49 If P and Q are projections on closed linear subspaces M and N then M ⊥ N ⇔ P Q = 0 ⇔ QP = 0
We wonder whether the sum of projections in our present sense is also a projection. This is the case only under
certain conditions
Theorem 1.50 If P1 , .., Pn are projections on closed subspaces M 1 , .., Mn of a Hilbert space H, then the sum
P = P1 + .. + Pn is a projection ⇔the Pi0 s are pairwise orthogonal i.e. Pi Pj = δij Pi , in that case P is the projection
on M = M1 + .. + Mn .
1.14. Basic theory of representations in a general finite dimensional vector

space
In this section we intend to establish an equivalence between abstract objects such as elements of vector spaces
and linear transformations, in a more tangible language suitable for explicit calculations. This is the gist of the
theory of representations for vector spaces
1.14.1. Representation of operators in a given basis

If n is the dimension of a finite-dimensional vector space V , a set of n linearly independent vectors in V , forms a
basis for the vector space. Given a certain ordered basis {u 1 , .., un } in a vector space V any vector can be written
as a linear combination of such a basis, we shall use the convention of sum over repeated indices
x = x i ui (1.46)
The coefficients xi are called the coordinates of the vector x, relative to the ordered basis {u i }. Linear independence
ensures that the set of coordinates (x 1 , .., xn ) is unique when the basis is ordered in a well-defined way.
A mapping T of V into itself, associates each vector x with another vector y in V
y = Tx
if the mapping is one-to-one and onto it admits an inverse 1
x = T −1 y
if the transformation is linear we have
T (αx+βy) = αT x + βT y ∀x, y ∈ V
where α and β are complex numbers. The definition of T is intrinsic and does not depend on the particular basis
chosen for the vector space. Notwithstanding, for many practical purposes we define a representation of both the
vectors and operators in a basis {ui }. In that case, we can describe the action of T by a transformation of coordinates
(in the same basis)
yi = Ti (x1 , x2 , . . . , xn ) i = 1, . . . , n
1
If the mapping is only one-to-one but not onto, the inverse still exist but restricted to the vector subspace in which all the vectors
x ∈ V are mapped.
if Ti admits an inverse we get

xi = Ti−1 (y1 , y2 , . . . , yn ) i = 1, . . . , n
the necessary and sufficient condition for the existence of the inverse is that the jacobian J ≡ ∂T i /∂xj be different
from zero.
On the other hand, if we assume that T is a linear transformation we can write
y = T x = T (xi ui ) = xi T ui (1.47)
Eq. (1.47) says that y is a linear combination of the vectors T u i , and the coefficients of the combination
(coordinates) coincide with the coordinates of x in the basis u i . The vectors T ui must be linear combinations
of {uj } and we denote the coefficients of these linear combinations as T ji
vi ≡ T ui = uj Tji (1.48)
the real or complex coefficients Tji can be organized in a square arrangement of the form
 
T11 T12 · · · T1n
 T21 T22 · · · T2n 
 
T≡ . .. .. 
 .. . ··· . 
Tn1 Tn2 · · · Tnn
this square arrangement symbolized as T is called the matrix representative of the linear transformation T relative
to the ordered basis {ui }. Substituting in Eq. (1.47)
yj uj = uj Tji xi
and since the uj are linearly independent

yj = Tji xi
this operation is represented by the following notation
    
y1 T11 T12 · · · T1n x1
 y2   T21 T22 · · · T2n   x2 
    
 ..  =  .. .. ..   .. 
 .   . . ··· .  . 
yn Tn1 Tn2 · · · Tnn xn
   
y1 T11 x1 + T12 x2 + .. + T1n xn
 y2   T21 x1 + T22 x2 + .. + T2n xn 
   
 ..  =  .. 
 .   . 
yn Tn1 x1 + Tn2 x2 + .. + Tnn xn
and is usually written in the form

y = Tx
the last equality appears in matrix notation where T is the matrix representative of the linear operator T in the
ordered basis ui . Similarly, x and y are the coordinate representatives of the intrinsic vectors in the same ordered
basis. Eq. (1.48) shows clearly how to construct the matrix T, i.e. applying the operator to each vector in the
basis, and writing the new vectors as linear combinations of the basis. The coefficient of the i − th new vector
associated to the j − th element of the basis gives the element T ji in the associated matrix. Observe that for a
matrix representative to be possible, the linearity was fundamental in the procedure.
On the other hand, since we are looking for an isomorphism among linear transformations on V and the set
of matrices (as an algebra), we should define linear operations and product of matrices in such a way that these
operations are preserved in the algebra of linear transformations. In other words, if we denote by [T ] the matrix
representative of T in a given ordered basis we should find operations with matrices such that
[T1 + T2 ] = [T1 ] + [T2 ] ; [αT ] = α [T ] ; [T1 T2 ] = [T1 ] [T2 ]

we examine first the product by a scalar, according to the definition (1.7) we have
(αT ) (ui ) = α (T ui ) = α (uj Tji ) = uj (αTji ) ⇒

(αT ) (ui ) = uj (αTji ) ⇒ (uj ) (αT )ji = uj (αTji )
using linear independence we obtain the algorithm for scalar multiplication
(αT )ji = αTji
Now for the sum we use the definition 1.6
(T + U ) uj = T uj + U uj = ui Tij + ui Uij = ui (Tij + Uij ) ⇒

(T + U ) uj = ui (Tij + Uij ) ⇒ ui (T + U )ij = ui (Tij + Uij )
and along with linear independence it leads to
(T + U )ij = (Tij + Uij )
Moreover, for multiplication (composition) we use definition 1.9
(T U ) ui = T (U ui ) = T (uj Uji ) = Uji T (uj ) = Uji (T uj ) = Uji (uk Tkj ) ⇒

(T U ) ui = (Tkj Uji ) uk ⇒ uk (T U )ki = uk (Tkj Uji )
linear independence gives

(T U )ki = Tkj Uji (1.49)
It can be easily shown that the matrix representations of the operators 0 and I are unique and equal in any
basis, they correspond to [0] ij = 0 and [I]ij = δij .
Finally, we can check from Eq. (1.48) that the mapping T → [T ] is one-to-one and onto. It completes the proof
of the isomorphism between the set of linear transformations and the set of matrices as algebras.
On the other hand, owing to the one-to-one correspondence T ↔ [T ] and the preservation of all operations, we
see that non-singular linear transformations (i.e. invertible linear transformations) should correspond to invertible
matrices. We denote T −1 the matrix representative of T −1 , and our goal is to establish the algorithm for this
inverse matrix, the definition of the inverse of the linear transformation is
T T −1 = T −1 T = I
since the representation of the identity is always [I] ij = δij , the corresponding matrix representation of this equation
is
[T ]ik T −1 kj = T −1 ik [T ]kj = δij (1.50)
this equation can be considered as the definition of the inverse of a matrix if it exists. A natural definition is then
Definition 1.26 A matrix which does not admit an inverse is called a singular matrix. Otherwise, we call it a
non-singular matrix.
Since T −1 is unique, the corresponding matrix is also unique, so the inverse of a matrix is unique when it exists.
A necessary and sufficient condition for a matrix to have an inverse is that its determinant must be non-zero.
The algebra of matrices of dimension n × n is called the total matrix algebra A n , the preceding discussion can
be summarized in the following
Theorem 1.51 if B = {u1 , .., un } is an ordered basis of a vector space V of dimension n, the mapping T → [T ]
which assigns to every linear transformation on V its matrix relative to B, is an isomorphism of the algebra of the
set of all linear transformations on V onto the total matrix algebra A n .
Theorem 1.52 if B = {u1 , .., un } is an ordered basis of a vector space V of dimension n, and T a linear trans-
matrix relative to B is [a ij ]. Then T is non-singular ⇔ [aij ] is non-singular and in this case
formation whose
[aij ]−1 = T −1 .
1.14.2. Change of coordinates of vectors under a change of basis

We have already seen that any vector space has an infinite number of bases. Notwithstanding, once a given basis
is obtained, any other one can be found by a linearn transformation
o of the original basis.
Let {uj } be our “original” ordered basis and uj any other ordered basis. Each u0i is a linear combination of
0
the original basis

u0i = aij uj i = 1, . . . , n (1.51)
linear independence of {ui } ensures the uniqueness of the coefficients a ij . The naturalnquestion
o is whether we require
any condition on the matrix representation a ij in Eq. (1.51) to ensure that the set u0j be linearly independent.
If we remember that there is a one-to-one correspondence between matrices and linear transformations we see that
aij must correspond to a (unique) linear transformation A. In this notation Eq. (1.51) becomes
u0i = Auj (1.52)

n o
now appealing to theorem 1.9 we see that u0j is a basis if and only if A is non-singular, but A is non-singular if
and only if [A]ij = aij is a non-singular matrix. Thus Eq. (1.52) can be written in matrix notation as
u0 = Au (1.53)
the new set {u0i } is a basis if and only if the matrix A is non-singular. Any vector x can be written in both bases
x = xi ui = x0i u0i = x0i aij uj = x0j aji ui (1.54)
and owing to the linear independence of u i
xi = x0j aji = ãij x0j ; ãij ≡ aji
where ãij ≡ aji indicates the transpose of the matrix A. In matrix form we have
0
u0 = Au , x = Ãx (1.55)
and using Eq. (1.55) we get
x0 = Ã−1 x (1.56)
observe that if the original basis transform to the new one by a non-singular matrix A (Eq. 1.53), the original
g
coordinates transform to the new ones by the matrix Ã−1 (Eq. 1.56). It is easy to show that Ã−1 = A e is
−1 then A
non-singular if and only if A is non-singular. Hence Eq. (1.56) makes sense whenever A is non-singular.
Defining the transpose of a column matrix as
x̃ = (x1 , x2 , . . . , xn )
the Eq. (1.54) can be written as

x = x̃u = x̃0 u0
which gives a convenient notation for the coordinate-form of vectors in different basis.
It is important to emphasize that the vector x has an intrinsic meaning while its coordinates depend on the
basis chosen.
1.14.3. Change of the matrix representative of linear transformations under a change of basis
Let us define an intrinsic equation for a linear transformation T of V into itself
y = Tx (1.57)
y and x denote here intrinsic vectors while y, x are their representation in coordinates under a given ordered basis.
Starting with the ordered basis {ui } we write equation (1.57) in matrix form
y = Tx (1.58)
for any other ordered basis {u0i } the matrix and coordinate representatives are different and we write them as
y 0 = T 0 x0 (1.59)
we remark that Eqs. (1.58) and (1.59) represents the same intrinsic Equation (1.57).
Since we know the relation between the coordinate representatives given by Eq. (1.56), our goal here is to know
the relation between the matrix representatives of T . Using Eq. (1.56) we find
−1 −1 −1

y0 = Ã−1 y = Ã Tx = Ã TÃÃ x = Ã−1 TÃ Ã−1 x
y 0 = T 0 x0 (1.60)
where we have defined

T0 ≡ Ã−1 TÃ (1.61)
from Eqs. (1.60, 1.61) we see that T0 is the representative matrix of the operator T in the new basis u 0i where
the matrix Ã−1 gives the transformation between coordinates from the old basis to the new one Eq. (1.56). We
remember that A must be non-singular to represent a change of basis.
Definition 1.27 The transform of a matrix A (also called a similarity transformation) by a non singular matrix
S, is defined as A0 = SAS−1 . The matrices A0 and A are said to be equivalent.
Eq. (1.61) shows that the new matrix representation of T (i.e. T 0 ), is equivalent2 to the old matrix representation
T, and the transform of T by Ã−1 is T0 .
We can also consider a transformation S from a vector space V into another V 0
x0 = Sx, x = S −1 x0
For S −1 to be linear, it is necessary that V and V 0 be of the same dimensionality. If a linear operator T is defined in
V , then T and S induce a linear operator in V 0 in the following way let map x0 of V 0 into y0 of V 0 in the following
way

x0 → x = S −1 x0 → y = T x = T S −1 x0 → y0 = Sy = S T S −1 x0
hence the mapping x0 → y0 has been performed as

x0 → y0 = ST S −1 x0
or course, we can define a mapping T 0 of V 0 into itself that makes the work in a single step, thus

T 0 ≡ ST S −1 ; y0 = ST S −1 x0 (1.62)
The transformation given by (1.62) is also a similarity transformation. Although the transformations shown in 1.61
and 1.62 resembles, they have fundamental differences. In 1.61 we are representing the same mathematical object by
taking different bases, and is a matrix equation. By contrast, Eq. (1.62) expresses a relation between two different
mathematical transformations acting on different spaces 3 , and the equation is intrinsic, independent of the basis.
2
Similarity transformations provides an equivalence relation between two matrices. Thus, the expression equivalent matrices becomes
logical. In addition, we see that T and T0 describe the same mathematical object (though in different bases), so that the term equivalence
acquires more sense in this context.
3
It could be argued that both spaces are identical since they have the same dimensionality. This is true only for their properties as
general vector spaces, but not necessarily for any additional algebraic or topological structure on them.
1.15. Active and passive transformations

In Physics, it is important to differentiate between two types of transformations, the passive ones and the active
ones. We can understand passive transformations by examining the transformations y → y 0 , x → x0 and T → T 0
to go from Eq. (1.58) to Eq. (1.59), if we remember that both are representatives of the same intrinsic equation
(1.57) we realize that the mappings described above do not change the vectors or the transformation but only their
representatives. These mappings (called passive mappings) thus correspond to a change in the basis and not to a
change on the mathematical objects by themselves.
In contrast, an active mapping or transformation transforms a mathematical object into another one. For in-
stance, in the first of Eqs. (1.62) we map a linear transformation on V into a different linear transformation on V 0 ,
the mathematical object itself has changed. Similarly the mapping x 0 → y0 through T 0 described by the second of
Eqs. (1.62) is an active transformation because x 0 and y0 are two different vectors.
The difference between a passive and active mappings or transformations should be clear from the context. For
instance Eqs. (1.61) and (1.62) are identical in form from the algebraic point of view, but (1.61) represents a passive
transformation (a change of basis or a change of representation), while (1.62) represents an active one.
1.16. Theory of representations on finite dimensional Hilbert spaces

We shall study n−dimensional Hilbert spaces. We remember that an inner product is a mapping that takes an
ordered pair of vectors x, y in a vector space V, and associates to it a scalar α denoted by α = (x, y) such that
(x, y) = (y, x)∗ ; (x, βy) = β (x, y) ; (x1 + x2 , y) = (x1 , y) + (x2 , y)

(x, x) ≥ 0, and (x, x) = 0 ⇔ x = 0
the definition of the inner product is intrinsic (basis independent). The norm of a vector is defined as kxk 2 ≡ (x, x).
This in turn allows us to normalized the vectors, i.e. construct vectors with norm or “length” equal to one by the
rule
xi xi
ui = p = (1.63)
(x, x) kxi k
such that (ui , ui ) = 1. Different inner products defined into the same vector space, lead to different Hilbert spaces.
Another important concept that arises from the inner product is that of orthogonality. An orthonormal set is a set
{xi } with xi ∈ H such that
(xi , xj ) = δij
The theory of representations of a finite dimensional Hilbert space is particularly simple if we realize that in finite
dimension, the Fourier expansion given by Eq. (1.27) becomes a linear combination, the series in (1.28) to calculate
the norm becomes a finite sum, and finally complete orthonormal sets become bases. These are the main ideas that
lead to the theory of representations in a Hilbert space
Our first goal is to find the way in which the coordinates of a given vector are obtained from the inner product.
We first see the form of the coordinates when the basis consists of a complete orthonormal basis. Rewriting the
Fourier expansion (1.27) in finite dimension and using sum over repeated indices we have
x = (ui , x) ui = xi ui
so the coordinate of a vector x associated with the normal vector u i is given by
xi = (ui , x)
Let us now see how an arbitrary inner product can be calculated using an orthonormal basis
(x, y) = (xi ui , yj uj ) = x∗i yj (ui , uj ) = x∗i yj δij = x∗i yi (1.64)
the norm of a vector is also easily seen as
kxk2 = (x, x) = x∗i xi = |xi | |xi | (1.65)

1.16. THEORY OF REPRESENTATIONS ON FINITE DIMENSIONAL HILBERT SPACES 37
if the basis {vi } is not an orthonormal set, we can express the scalar product by determining the numbers
mij ≡ (vi , vj ) (1.66)
the properties of the inner product lead to m ij = m∗ji . This numbers form a matrix that we shall call the metric
matrix. Defining (Aij )† ≡ A∗ji (the adjoint or hermitian conjugate of the matrix A) we find that m = m † , from
the definition of the adjoint matrix we see that (AB) † = B† A† . A matrix that coincides with its adjoint is called
self-adjoint or hermitian. The metric matrix is hermitian. We shall see now that knowing the metric matrix in a
certain basis, we can find any possible inner product
(x, y) = (xi vi , yj vj ) = x∗i yj (vi , vj ) = x∗i yj mij

(x, y) = x† my
and the norm becomes

(x, x) = x∗i mij xj = x† mx (1.67)
representing x as a one column matrix, x † is a one row matrix with the coordinates conjugated. The quantities of
the form x† Ay, with A hermitian, are called hermitian forms. If additionally we impose that x † Ax ≥ 0, we have a
positive definite hermitian form4 .
Gram-Schmidt process for orthonormalization of linearly independent sets

From the previous discussion, it is very clear that complete orthonormal sets posses many advantages with
respect to other sets of linearly independent vectors. It leads us to study the possibility of finding an orthonormal set
from a given set of linearly independent vectors in a Hilbert space. The so-called Gram-Schmidt orthonormalization
process starts from an arbitrary set of independent vectors {x 1 , x2 , .., xn , ...} on H and exhibits a recipe to construct
a corresponding orthonormal set {u1 , u2 , .., un , ...} with the property that for each n the vector subspace spanned
by {u1 , u2 , .., un } is the same as the one spanned by {x1 , x2 , .., xn }.
The gist of the procedure is based on Eqs. (1.24, 1.63). We start by normalizing the vector x 1
x1
u1 =
kx1 k
now we substract from x2 its component along u1 to obtain x2 − (u1 , x2 ) u1 and normalized it
x2 − (u1 , x2 ) u1
u2 =
kx2 − (u1 , x2 ) u1 k
it should be emphasized that x2 is not a scalar multiple of x1 so that the denominator above is non-zero. It is clear
that u2 is a linear combination of x1 , x2 and that x2 is a linear combination of u1 , u2 . Therefore, {u1 , u2 } spans the
same subspace as {x1 , x2 }. The next step is to substract from x 3 its components in the directions u1 and u2 to get
a vector orthogonal to u1 and u2 according with Eq. (1.24). Then we normalize the result and find
x3 − (u1 , x3 ) u1 − (u2 , x3 ) u2
u3 =
kx3 − (u1 , x3 ) u1 − (u2 , x3 ) u2 k
once again {u1 , u2 , u3 } spans the same subspace as {x1 , x2 , x3 }. Continuing this way we clearly obtain an orthonor-
mal set {u1 , u2 , .., un , ...} with the stated properties.
Many important orthonormal sets arise from sequences of simple functions over which we apply the Gram-
Schmidt process
In the space L2 of square integrable functions associated with the interval [−1, 1], the functions x n (n = 0, 1, 2, ..)
are linearly independent. Applying the Gram Schmidt procedure to this set we obtain the orthonormal set of the
Legendre Polynomials.
4
An inner product guarantees that the hermitian form constructed with the metric matrix are positive-definite. However, it is usual
in relativity to define a pseudo-metric that leads to non positive definite hermitian forms. Observe that the metric tensor in relativity
has some negative diagonal elements which would be forbidden if they arose from an authentic inner product.
2
In the space L2 of square integrable functions associated with the entire real line, the functions x n e−x /2 (n =
0, 1, 2, ..) are linearly independent. Applying the Gram Schmidt procedure to this set we obtain the normalized
Hermite functions.
In the space L2 associated with the interval [0, +∞), the functions x n e−x (n = 0, 1, 2, ..) are linearly independent.
Orthonormalizing it we obtain the normalized Laguerre functions.
Each of these orthonormal sets described above can be shown to be complete in their corresponding Hilbert
spaces.
1.16.1. Linear operators in finite dimensional Hilbert spaces

First of all let us see how to construct the matrix representation of a linear operator by making profit of the
inner product. Eq. (1.48) shows us how to construct the matrix representation of T in a given basis by applying the
operator to each element ui of such a basis
T ui = uj Tji ⇒ (uk , T ui ) = (uk , uj Tji )

⇒ (uk , T ui ) = Tji mkj
if the basis is orthonormal then mkj = δkj and
Tki = (uk , T ui ) (1.68)
Eq. (1.68) gives the way to construct an element of the matrix representative of an operator T on H through the
inner product and using an orthonormal basis.
Now we turn to the problem of finding a relation between the matrix representative of an operator and the
matrix representative of its adjoint. If we have a linear operator T on a Hilbert space, another operator called its
adjoint and denoted as T † exists such that

(T x, y) = x, T † y ∀x, y ∈ V
the matrix representative of T † has a rather simple relation with the matrix representative of T when an orthonormal
basis is used
(T (xi ui ) , yk uk ) = (xi T (ui ) , yk uk ) = x∗i yk (T ui , uk )
and using (1.48) we find
x∗i yk (uj Tji , uk ) = x∗i yk Tji∗ δjk = x∗i yk Tki
∗
= x∗i Teik
∗
yk
on the other hand we have
x, T † y = x∗i T † yk
ik
and taking into account that x and y are arbitrary, we have

T† = Teik
∗ e∗
⇒ T† = T (1.69)
ik
and so the matrix representative of T † is the conjugate transposed of the matrix representative of T . Once again, it is
important to emphasize that it is only valid in an orthonormal basis, it can easily be proved that for an arbitrary basis
described by the metric matrix m, the matrix representation of T † is m−1 T e ∗ m. Remembering that an operator
is hermitian or self-adjoint if it coincides with its adjoint operator (T = T † ) i.e. (T x, y) = (x, T y) , ∀x, y ∈ V,
we conclude that in an orthonormal basis, hermitian operators are represented by hermitian matrices.
In particular, the form to calculate the norm described in (1.65), is usually taken for granted and is easy to
forget that it only applies in orthonormal bases as we can see from (1.67). This is because the coordinates of a
vector with respect to {vi } are not given by Fourier coefficients of the form described in Eq. (1.27)
Now assume that we go from an orthonormal basis u i into another orthonormal basis u0i . We know from theorem
1.42 that a linear operator is unitary if and only if it transforms a complete orthonormal set into another complete
orthonormal set, then if A is a unitary operator we have

δij = (Aui , Auj ) = u0i , u0j = (uk aki , um amj ) = a∗ki amj (uk , um ) = a∗ki amj δkm
δij = a∗ki akj = e
a∗ik akj
1.17. DETERMINANTS AND TRACES 39
so the matrix of transformation from u i into u0i accomplishes
A† A = 1
now, if we demand for the matrix to be non-singular it must have a unique inverse such that
A† A = AA† = 1
therefore a matrix that transform an orthonormal basis into another orthonormal basis must satisfy
A† = A−1
by theorem 1.51 these matrices are associated with unitary operators as long as we use an orthonormal basis, thus
it is natural to call them unitary matrices.
1.17. Determinants and traces

A very important property of any matrix is its determinant denoted by |A| and is a real or complex number
associated with the matrix. Its construction was primarily motivated by the study of simultaneous linear equations.
We assume that the reader is familiarized with the concept and the calculation of this quantity. We have mentioned
that a matrix admits an inverse if and only if its determinant is non-null. This is because the inverse of a matrix
A depends on |A|−1 . The determinant of the transpose coincides with the determinant of the matrix

e
A = |A| (1.70)
a for the conjugate matrix (in which we conjugate each of its elements) we get
|A∗ | = |A|∗ (1.71)
Additionally it can be demostrated that the determinant of the product is the product of the determinants
|AB| = |A| · |B| (1.72)
and since the determinant of the identity is 1 we get

1 = |1| = AA−1 = |A| · A−1
so that −1
A = |A|−1 (1.73)
if any row or column is multiplied by a scalar α, the determinant is also multiplied by the scalar. For example in
three dimensions
     
α a11 α a12 α a13 a11 α a12 a13 a11 a12 a13

 a21 a22 a23     a22 a23 
= a21 α a22 a23 = α a21 (1.74)
a31 a32 a33 a31 α a32 a33 a31 a32 a33
so that if we multiply an n × n matrix by a scalar, the determinant is
|αA| = αn |A| (1.75)
in particular
|−A| = (−1)n |A| (1.76)
another important property is the trace of the matrix defined as the sum of its diagonal elements
T rA = aii (1.77)
we emphasize the sum over repeated indices. We prove that
T r [AB] = T r [BA] (1.78)
in this way
T r [AB] = (AB)ii = aik bki = bki aik = (BA)kk = T r [BA]
it is important to see that the trace is cyclic invariant, i.e.
h i h i
T r A(1) A(2) . . . A(n−2) A(n−1) A(n) = T r A(n) A(1) A(2) . . . A(n−2) A(n−1)
h i
= T r A(n−1) A(n) A(1) A(2) . . . A(n−2) (1.79)
and so on. To prove it, we define

B ≡ A(1) A(2) . . . A(n−1)
so that
h i h i h i h i
T r A(1) A(2) . . . A(n−2) A(n−1) A(n) = T r BA(n) = T r A(n) B = T r A(n) A(1) A(2) . . . A(n−2) A(n−1)
and taking into account that the indices (1) , (2) , ... are dumb, any cyclic change is posible. It worths saying that
property (1.78) does not mean that the matrices can be commuted to calculate the trace, for instance for three or
more matrices the trace is not the same for any order of the matrices, only cyclic changes are possible. In that sense,
we should interpret (1.78) as a cyclic change and not as a commutation.
But the most important properties of the traces and determinants is that they are invariant under a similarity
transformation
0
A = BAB−1 = |B| · |A| · B−1 = |B| · |A| · |B|−1

⇒ A0 = |A|
where we have used (1.72) and (1.73).

Now for the invariance of the trace
n
X X X
T r A0 = T r BAB−1 = BAB−1 ii = bik akl b̄li = b̄li bik akl
i=1 ikl ikl
X X
= δkl akl = akk = T rA
kl k
alternatively we can see it by using the cyclic invariance of the trace(see Eq. 1.79), such that

T r A0 = T r BAB−1 = T r B−1 BA = T rA
the invariance of determinants and traces under similarity transformations are facts of major importance because
all representations of a given linear transformation are related each other by similarity transformations. It means
that determinants and traces are intrinsic quantities that can be attributed to the linear trasnformations thus
Definition 1.28 We define the trace and the determinant of a given linear transformation of V into itself by
calculating the trace and determinant of the matrix representative of the linear transformation in any basis.
1.18. Rectangular matrices

A rectangular matrix is an arrangement of numbers consisting of m rows and n columns. In that case we say
that the matrix has dimensions m × n. The elements of such a matrix will be of the form
(A)ik = aik ; i = 1, . . . , m ; k = 1, . . . , n
1.19. THE EIGENVALUE PROBLEM 41
the transpose of this matrix would have dimensions n × m. A column vector arrangement (from now on, we shall
call it simply a “vector”, though it is not neccesarily a vector in all the sense of the word) is a rectangular matrix
of dimension m × 1, its transpose (a row “vector”) is a rectangular matrix of dimensions 1 × m.
Now, it would be desirable to extrapolate the algorithm of square matrices composition to calculate products of
rectangular matrices
cij ≡ aik bkj
It is observed that this extrapolation of the matrix product to the case of rectangular matrices C = AB, can be
defined consistently only if the number of columns of A coincides with the number of rows of B.
AB = C if A ≡ Am×n and B ≡ Bn×d ⇒ Cm×d
In particular, the product of a column vector (m × 1 matrix) with a m × m matrix in the form xA cannot be
defined. Nevertheless, the product of the transpose of the vector (row vector) and the matrix A in the form xeA
can be defined. In a similar fashion, the product Ae
x cannot be defined but Ax can. From these considerations the
quantities Ax and x eA correspond to a new column vector and a new row vector respectively.
From the dimensions of the rectangular matrices we see that
e n×m and Bn×d ⇒ B

Am×n ⇒ A e d×n
and the product AB is defined. However, their transposes can only be multiplied in the opposite order, i.e. in the
e A.
order B e Indeed, it is easy to prove that, as in the case of square matrices, the transpose of a product is the
product of the transpose of each matrix in the product, but with the product in the opposite order. Applying this
property it can be seen that
] =x
(Ax) e
eA ; ]
(e
xA) = Axe
where we have taken into account that the transpose of the transpose is the original matrix.
1.19. The eigenvalue problem

If T is a linear transformation on a vector space of finite dimension n, the simplest thing that the linear
transformation can do to a vector is to produce a “dilation” or “contraction” on it, eventually changing the “sense”
of the “arrow” but keeping its “direction”. In algebraic words, certain vectors can be transformed into a scalar
multiple of itself. If x is a vector in H this operation is given by
T x = λx (1.80)
a non-zero vector x such that Eq. (1.80) holds, is called an eigenvector of T , and the corresponding scalar λ is
called an eigenvalue of T . Each eigenvalue has one or more eigenvectors associated with it and to each eigenvector
corresponds a unique eigenvalue.
Let us assume for a moment that the set of eigenvalues for a given T is non-empty. For a given λ consider the
(λ)
set M of all its eigenvectors together with the vector 0 (which is not an eigenvector), we denote this vectors as x i .
M is a linear subspace of H, we see it by taking an arbitrary linear combination of vectors in M

(λ) (λ) (λ) (λ)
T αi xi = α i T xi = αi λxi = λ αi xi ⇒

(λ) (λ)
T αi xi = λ αi xi
such that a linear combination is also an eigenvector with the same eigenvalue. Indeed, for Hilbert spaces it can
be shown that M is a closed vector subspace of H. As any vector space, M has many basis and if H is finite
dimensional, complete orthonormal sets are basis. The dimension of M is thus the maximum number of linearly
independent eigenvectors associated with λ. M is called the vector eigenspace generated by the eigenvalue λ. This
discussion induces the following
Definition 1.29 A given eigenvalue λ in Eq. (1.80) is called n−fold degenerate if n is the dimension of the
eigenspace M of H generated by λ. In other words, n is the maximum number of linearly independent eigenvectors
of λ. If n = 1 we say that λ is non-degenerate.
Even for non-degenerate eigenvalues we always have an infinite number of eigenvectors, for if x (λ) is an eigen-
vector, then αx(λ) is also an eigenvector for any scalar α. Eq. (1.80) can be written equivalently as
(T − λI) x = 0 (1.81)
we return to the problem of the existence of eigenvalues, the operator T on C ∞ given by
T {x1 , x2 , ...} = {0, x1 , x2 , ...}
is an operator on a Hilbert space that has no eigenvalues. We confront then the problem of characterizing the type
of operators that admit eigenvalues. In the finite dimensional case, we shall see that the theory of representations
and the fundamental theorem of algebra ensures the existence of eigenvalues for an arbitrary operator.
1.19.1. Matrix representative of the eigenvalue problem

The one to one correspondence between matrices and operators in the finite dimensional case permits to make
a matrix representation of the eigenvalue equation (1.80). Let T be the n × n matrix associated with the operator
T and x the column vector representative of x (an n × 1 matrix). Eq. (1.80) is written as
Tx = λx (1.82)
which is the eigenvalue equation associated with the matrix. The idea is trying to solve for the eigenvalues and
eigenvectors in a given representation. The values λ are in general complex. According with our previous discussion
the eigenvalue is the “dilatation”or “contraction” factor, if it is a negative real number it “inverts the sense of the
arrow”. Let us rewrite the eigenvalue equation as
(T − λ1) x = 0 (1.83)
for simplicity we shall use n = 3 but the arguments are valid for arbitrary finite dimensions. In three dimensions
the explicit form of (1.83) becomes
(T11 − λ) X1 + T12 X2 + T13 X3 = 0
T21 X1 + (T22 − λ) X2 + T23 X3 = 0
T31 X1 + T32 X2 + (T33 − λ) X3 = 0 (1.84)
This set of homogeneous equations for X 1 , X2 , X3 has non trivial solution only if the determinant of the system is
null, therefore
T11 − λ T12 T13

|T − λ1| = T21 T22 − λ T23 = 0 (1.85)
T31 T32 T33 − λ
this condition is known as the secular or characteristic equation of the matrix. The variables to be found are
the eigenvalues λ associated with the matrix. It worths saying that even if non-trivial solutions exist, the set of
homogeneous equations (1.84) do not give us definite values for all the components of the eigenvectors but only for
the quotient among these components. This can be understood either from algebraic or geometric arguments. From
the algebraic point of view, it is related with the fact that the product of the eigenvector x with any scalar is also an
eigenvector, this can be seen inmediately from (1.83) 5 . Geometrically, this implies that only the “direction” of the
eigenvector is determined but not its “length” neither its “sense”. This is particularly apparent in three dimensions.
Since T represents a linear transformation, it is clear that if T preserves the direction of x i.e. Tx = λx it also
preserves the “direction” of the vector αx for α arbitrary.
When the determinant (1.85) is expanded, we observe that the solution of the secular equation reduces to finding
the roots of a polynomial of n degree. Appealing to the fundamental theorem of algebra we always have exactly n
complex roots, some of them could be repeated so that we could have fewer than n distinct roots. In general we can
construct no more than n linearly independent vectors x k each one associated with an eigenvalue λ k . By now, the
set of eigenvalues are associated to a matrix, but in order to associate it to its corresponding operator, we should
be sure that the set of eigenvalues is the same for any representation of the operator i.e. that all equivalent matrices
have the same set of eigenvalues
5
Alternatively, this can be seen form the fact that the secular equation only has non-trivial solution when one or more of the equations
is linearly dependent with the others. In such a case there are more variables than equations and hence an infinite number of solutions.
1.19. THE EIGENVALUE PROBLEM 43
Theorem 1.53 If two n × n matrices are equivalent i.e. T 0 = ST S −1 then both have the same set of eigenvalues.
In summary, the fundamental theorem of Algebra together with the intrinsic meaning of the set of eigenvalues,
solves the problem of the existence of eigenvalues for linear transformations on finite-dimensional vector spaces.
Definition 1.30 The set of eigenvalues of T is called its spectrum and is denoted by σ (T ).
Theorem 1.54 If T is an arbitrary linear transformation on a finite dimensional complex vector space, the spectrum
of T constitute a non-empty finite subset of the complex plane. The number of elements in this subset does not exceed
the dimension n of the space.
Some other important theorems related with the set of eigenvalues are the following
Theorem 1.55 T is singular ⇔ 0 ∈ σ (T ).

Theorem 1.56 If T is non-singular, then λ ∈ σ (T ) ⇔ λ −1 ∈ σ T −1
More information about the spectral resolution of some types of operators in a Hilbert space will be given by
means of the spectral theorem. By now, we turn to the problem of the sets of eigenvectors and its relation with the
canonical problem of matrices.
1.19.2. Eigenvectors and the canonical problem of matrices

Since we can have many representations of a given operator by changing basis, many matrix representatives
can be constructed. It is natural to wonder whether it is posible to choose the basis in such a way that the matrix
representative is as simple as possible. In practice, the simplest matrices are diagonal matrices i.e. matrices for
which Tij = 0 for i 6= j. Thus, we are looking for a basis under which the matrix representative of a given operator
T is diagonal. Starting with a given basis {u i } we obtain a matrix representative of T (denoted by T), we wonder
whether there exists another basis {u 0i } for which the matrix representative T 0 of T is diagonal. From Eqs. (1.53,
1.61) we see that T and T0 are related by a similarity transformation that also gives us the transformation among
the bases
u0 = Au ; T0 = A e −1 TAe (1.86)
We shall see that for finite dimensional matrices, the canonical problem of matrices is intimately related with
the structure of its eigenvectors. Let us consider the representation X k of the eigenvectors of T with respect to the
original basis {ui }. We denote the i−th coordinate of the k−th eigenvector in the form X ik (with respect to the
original basis). We are able to settle an square arrangement with this eigenvectors, putting them aside as column
vectors. In three dimensions, such an arrangement has the form
 
X11 X12 X13
X ≡ (X1 X2 X3 ) =  X21 X22 X23  (1.87)
X31 X32 X33
Eqs. (1.83) are written for each eigenvalue λ k and its corresponding eigenvector X k in the form
(T − λk 1) Xk = 0 ⇒ TXk = λk Xk no sum over k (1.88)
writing Eqs. (1.88) in components with respect to the basis {u i } we get (for n dimensions)
n
X
Tij Xjk = λk Xik ⇒
j=1
Xn n
X
Tij Xjk = Xij δjk λk (1.89)
j=1 j=1
in the two previous equations there is no sum over the repeated index k. The X jk element is the j−th component of
the Xk vector. Now, the quantity δjk λk can be associated with a diagonal matrix, in three dimensions this matrix
is written as  
λ1 0 0
λ ≡  0 λ2 0  (1.90)
0 0 λ3
in matrix form Eq. (1.89) reads
TX = Xλ
multiplying on left by X−1 we find
X−1 TX = λ (1.91)
it corresponds to a similarity transformation acting on T. Note that the matrix X built from the eigenvectors is the
transformation matrix (comparing with 1.86 we have X ≡ A). e We see then that matrix T is diagonalized by X by
means of a similarity transformation and the elements of the diagonal correspond to the eigenvalues (λ k associated
with the column vector Xk of the matrix X in Eq. 1.87). When there are some degenerate eigenvalues i.e. some
of them acquire the same value, it is not always possible to diagonalize the matrix T. It is because in that case,
the eigenvectors that form the matrix X are not necessarily linearly independent. If any given column vector of the
matrix is linearly dependent with the others, the determinant of X is zero and X −1 does not exist.
On the other hand, when diagonalization is possible, the determinant and the trace of T can be calculated taking
into account that such quantities are invariant under a similarity transformation, therefore

det T = det X−1 TX = det λ = λ1 λ2 . . . λn (1.92)

T rT = T r X−1 TX = T rλ = λ1 + λ2 + . . . + λn (1.93)
so that the determinant and the trace of a diagonalizable matrix are simply the product and sum of its eigenvalues
respectively.
In summary, a canonical form of a given matrix can be obtained as long as the eigenvectors of the matrix form
a basis, the question is now open for the conditions for the eigenvectors to form a basis, and this is part of the
program of the spectral theorem.
1.20. Normal operators and the spectral theorem

Let T be an operator on a finite-dimensional Hilbert space H. By theorem 1.54 the spectrum σ (T ) is a non-
empty finite set of complex numbers with cardinality less than or equal to the dimension n of H. Let λ 1 , .., λm be
the set of distinct eigenvalues; let M 1 , .., Ṁm be their corresponding eigenspaces; and let P 1 , .., Pm be the projections
on these eigenspaces. The spectral theorem is the assertion that the following three statements are equivalent to
one another
I) The Mi0 s are pairwise orthogonal and H = M1 ⊕ ...⊕.Mm
P Pm
II) The Pi0 s are pairwise orthogonal, I = m i=1 Pi , and T = i=1 λi Pi .
III) T is normal.
The assertion I) means that any vector x ∈ H can be expressed uniquely in the form
x = x1 + .. + xm ; xi ∈ Mi ; (xi , xj ) = 0 f or i 6= j (1.94)
applying T on both sides and using linearity
T x = T x1 + .. + T xm = λ1 x1 + .. + λm xm (1.95)
this shows the action of T on each element of H in an apparent pattern from the geometrical point of view. It is
convenient to write it in terms of projections on each M i . Taking into account that Mj ⊆ Mi⊥ for each i and for
every j 6= i we obtain from Eq. (1.94) that
Pi x = x i
1.20. NORMAL OPERATORS AND THE SPECTRAL THEOREM 45
from which it follows
Ix = x = x1 + .. + xm = P1 x + .. + Pm x
Ix = (P1 + .. + Pm ) x ; ∀x ∈ H
therefore
m
X
I= Pi (1.96)
i=1
and relation (1.95) gives
T x = λ1 x1 + .. + λm xm = λ1 P1 x + .. + λm Pm x
T x = (λ1 P1 + .. + λm Pm ) x ; ∀x ∈ H
hence
m
X
T = λi Pi (1.97)
i=1
Eq. (1.97) is called the spectral resolution of the operator T . In this resolution it is to be understood that all the λ 0i s
are distinct and that the Pi0 s are non-zero projections which are pairwise orthogonal and satisfy condition (1.96).
It can be shown that the spectral resolution is unique when it exists.
Now, we look for the conditions that the operator must satisfies to be decomposed as Eq. (1.97). From Eq. (1.97)
we see that
T † = λ∗1 P1 + . . . + λ∗m Pm (1.98)
and multiplying (1.97) with (1.98) and using the fact that the P i0 s are pairwise orthogonal we have
m
! m ! m Xm m Xm
X X X X
TT† = λi Pi λ∗k Pk = λi λ∗k Pi Pk = λi λ∗k Pi2 δik
i=1 k=1 i=1 k=1 i=1 k=1
m
X
TT† = |λk |2 Pk (1.99)
k=1
and multiplying in the opposite order we obtain the same result

m
X
T †T = |λk |2 Pk (1.100)
k=1
from which we see that h i

T, T † = 0
and the operator must be normal. We have proved that I)→II)→III). To complete the proof we should show that
III)→I) i.e. that every normal operator T on H satisfies conditions I).
This task is accomplished by the following chain of theorems
Theorem 1.57 If T is normal, x is an eigenvector of T with eigenvalue λ ⇔ x is an eigenvector of T † with

eigenvalue λ∗ .
Theorem 1.58 If T is normal the Mi0 s are pairwise orthogonal
Theorem 1.59 If T is normal, each Mi reduces T .
Theorem 1.60 If T is normal, the Mi0 s span H.
For most of applications theorem 1.58 is rewritten as

Theorem 1.61 If T is normal, two eigenvectors of T corresponding to different eigenvalues are orthogonal. In
particular this is valid for self-adjoint and unitary operators.
Assume that T = T † , since for a given eigenvector x there is a unique eigenvalue λ we see from theorem 1.57
that λ = λ∗ so the corresponding eigenvalues are real. Now assume for a normal operator T that σ (T ) is a subset
of the real line, using the spectral resolution of T † Eq. (1.98) we find
T † = λ∗1 P1 + . . . + λ∗m Pm = λ1 P1 + . . . + λm Pm = T
we have the following
Theorem 1.62 Let T be a normal operator on a Hilbert space of finite dimension H with distinct eigenvalues
{λ1 , .., λm }, then T is self-adjoint ⇔each λi is real.
It is important to emphasize that the hypothesis of real eigenvalues leads to the self-adjointness of the operator
only if normality is part of the hypothesis (because of the use of the spectral thoerem). It does not discard the
possibility of having non-normal operators with real spectrum, in that case such operators would not be self-adjoint.
In addition, it worths remembering that self-adjoint operators where constructed as the analogous of “the real line
subset” in the algebra of operators. So the fact that its eigenvalues are all real is a quite expected result.
An special type of self-adjoint operators are the positive operators for which
(x, T x) ≥ 0 ∀x ∈ H (1.101)
applying the spectral resolution of T on x i ∈ Mi , we have
m
X m
X
T xi = λk Pk xi = λk xi δik = λi xi
k=1 k=1
and using it in Eq. (1.101) we find

(xi , T xi ) = (xi , λi xi ) = λi (xi , xi ) ≥ 0 no sum over i
λi kxi k2 ≥ 0 ⇒ λi ≥ 0
on the other hand, by assuming that a normal operator T has a real non-negative spectrum we obtain
n
! n n
! n X n n X
n
X X X X X
(x, T x) = x, λi Pi x = xk , λi xi = λi (xk , xi ) = λi δki
i=1 k=1 i=1 k=1 i=1 k=1 i=1
n
X
(x, T x) = λk ≥ 0
k=1
we see then that
{λ1 , .., λm }, then T is positive ⇔ λi ≥ 0.
Now, for a normal operator T , a necessary and sufficient condition for T to be unitary is that T † T = I (in finite
dimension is not necessary to show that T T † = I) using Eq. (1.99) the condition for unitarity is
m
X m
X m
X
T †T = I ⇒ |λk |2 Pk = I ⇒ |λk |2 Pk = Pk
k=1 k=1 k=1
multiplying by Pi and using the pairwise orthogonality of projectors

m
X m
X
2
|λk | Pk Pi = Pk Pi ⇒ |λi |2 Pi2 = Pi2 ⇒ |λi |2 Pi = Pi
k=1 k=1
so that |λi | = 1. This procedure also shows that if T is a normal operator in which |λ i | = 1 for each i, then T T † = I
and T is unitary, then we have
1.20. NORMAL OPERATORS AND THE SPECTRAL THEOREM 47
{λ1 , .., λm }, then T is unitary ⇔ |λi | = 1 for each i.
Now, remembering that unitary operators where constructed as the analogous of “the unitary circle subset” in
the algebra of operators, the fact that its eigenvalues lie in the unitary circle of the complex plane is pretty natural.
Now we are prepared to discuss the canonical problem for normal matrices. We denote n i the dimension of each
eigenspace Mi it is clear that
n1 + n2 + ... + nm = n
i
Mi contains
i ni i linearly
independent vectors x1 , .., xini that can be orthonormalized by a Gram Schmidt process
to say u1 , .., uni . If we do this for each Mi the set form by the union of these orthonormal sets
i
{u} ≡ ∪m i
i=1 u1 , .., uni
is clearly an orthonormal set because all vectors corresponding with different M i0 s are orthogonal according to
theorem 1.58. In addition, since the M i0 s span H according to theorem 1.60 this orthonormal set is complete and
therefore a basis. Therefore, for any normal operator T of H we can always form an orthonormal complete set of
eigenvectors. If we use this orthonormal complete eigenvectors to form the matrix of diagonalization Eq. (1.87) we
see that the matrix obtained is a unitary matrix, it is clear that for this matrices the inverse always exists since
λi 6= 0 for each i and therefore the diagonalization can be carried out. Then we have the following
Theorem 1.65 The diagonalization of a normal matrix T can be performed by a similarity transformation of the
form T0 = U TU−1 where U is a unitary matrix.
This is of particular interest because it means that given a matrix representative of T in a basis consisting
of a complete orthonormal set, there exists another complete orthonormal set for which the matrix representative
acquires its canonical form. Further, it is easy to see that the canonical form of a normal matrix is given by
 
λ1
 .. 
 . 
 
 λ 1

 
 λ2 
 
 .. 
 . 
 
 λ2 
 
 .. 
 . 
 
 λm 
 
 . . 
 . 
λm
where the elements out of the diagonal are zero and each λ i is repeated ni times (λi is ni −fold degenerate). It is
easily seen that the matrix representation of P i in this orthonormal basis is
 
0n1 ×n1 0 0
1n1 ×n1 0   0 0
P1 = ; P2 = 0 1n2 ×n2 0 ; Pm =
0 0 0 1nm ×nm
0 0 0
and the matrix representation of the spectral decomposition becomes clear.
1.20.1. A qualitative discussion of the spectral theorem in infinite dimensional Hilbert spaces
The rigorous discussion of the infinite dimensional case for the spectral theorem is out of the scope of this survey.
We shall only speak qualitatively about the difficulties that arises when we go to infinite dimension. For simplicity
we assume that A is a self-adjoint operator, the spectral resolution is given by
m
X
A= λi Pi
i=1
since the eigenvalues are real we can order them in a natural way in the form λ 1 < λ2 < .. < λm and we use the
Pi0 s to define new projections
P λ0 = 0
P λ1 = P1
P λ2 = P1 + P2
....
P λm = P1 + ... + Pm = I
the spectral decomposition of the self-adjoint operator A can be written as
A = λ1 P1 + λ2 P2 + ... + λm Pm

= λ1 (Pλ1 − Pλ0 ) + λ2 (Pλ2 − Pλ1 ) + ... + λm Pλm − Pλm−1
Xm

A = λi Pλi − Pλi−1
i=1
if we define
∆Pλi ≡ Pλi − Pλi−1
we can rewrite the decomposition of A as
m
X
A= λi ∆Pλi
i=1
which suggest an integral representation Z
A= λ dPλ (1.102)
in this form, the spectral decomposition of a self-adjoint operator is valid for infinite dimensional Hilbert spaces.
For normal operators we have a similar pattern
Z
N = λ dPλ (1.103)
The first problem to carry out this generalization is that an operator on H need not have eigenvalues at all. In
this general case the spectrum of T is defined as
σ (T ) = {λ : T − λI is singular}
when H is finite dimensional, σ (T ) consists entirely of eigenvalues. In the infinite dimensional case we only can say
that σ (T ) is non-empty, closed and bounded. Once this difficulty is overcome we should give a precise meaning to
the integrals (1.102, 1.103) and prove the validity of those relations. We shall use this decomposition in a practical
form without any attempt of rigorous proof.
It worths emphasizing that the existence of eigenvalues in the finite dimensional case came from the fundamental
theorem of algebra, which in turn came from the fact that the characteristic equation of a finite dimensional matrix
is a polynomial equation. An extension to infinite dimension clearly does not lead to a polynomial equation.
1.21. The concept of “hyperbasis”

Suppose that the vector space that concerns us is V , which is a proper subspace of a bigger vector space W .
As any vector space, W has a basis {wi } that generates any vector in W by linear combinations. It is obvious that
any vector of V must be generated through linear combinations of {w i }. However, there are at least two reasons
for which {wi } is not a basis for V (a) at least one element of the set {w i } is not in V , and one of the conditions
for a given set S to be a basis of a given vector space V is that S ⊆ V . (b) given a basis {v i } of V we have that
{wi } and {vi } does not have in general the same cardinality, and we know that different bases must have the same
cardinality.
1.22. DEFINITION OF AN OBSERVABLE 49
Let us see a simple example: let us use an orthonormal basis of R 3 given by

1 1 1
u1 ≡ √ (1, 1, 1) ; u2 ≡ √ (4, −1, −3) ; u3 = √ (−2, 7, −5)
3 26 78
to generate all vector of the XY plane. The coordinates of u i are written with respect to the ordinary cartesian
coordinates. Since these vectors generate R 3 it is clear that they generate the XY plane which is a proper subset of
R3 . Notwithstanding, none of the vectors u i lies in the XY plane, all the elements of this “hyperbasis” are outside
of the vector space we pretend to expand. Further, any basis of XY has two elements while our hyperbasis has three
elements. Therefore, the cardinality of the hyperbasis is higher than the dimension of the space that we shall study.
For our purposes however, what really matters is that any vector in XY can be generated as a linear combination of
{u1 , u2 , u3 }. For instance, the vector x of the XY plane represented by (3, −2, 0) in ordinary cartesian coordinates,
is represented in this hyperbasis as
x = (u1 , x) u1 + (u2 , x) u2 + (u3 , x) u3

1 1
= √ (1, 1, 1) · (3, −2, 0) u1 + √ (4, −1, −3) · (3, −2, 0) u2 +
3 26

1
+ √ (−2, 7, −5) · (3, −2, 0) u3
78
1 14 20
x = √ u1 + √ u2 − √ u3
3 26 78
note that in this case an element of the plane is given by a triple with respect to the hyperbasis, in this case

1 14 20
x = √ ,√ , − √
3 26 78
in quantum mechanics we shall use a similar strategy but for orthogonal dimensions instead of dimensions. The
Hilbert space L2 that concerns us is of infinite countable orthogonal dimension, but we shall use frequently orthogonal
basis of a bigger space with infinite continuous orthogonal dimension. Therefore, we shall expand the vectors of L 2
in terms of orthogonal hyperbases {v x } with continuous cardinality. In general, the elements v x of the bigger space
will be outside of L2 . However, as before a fourier expansion (instead of a linear combination) will be possible with
this hyperbasis.
Notice that for any cardinality of the orthogonal dimension of a Hilbert space, we see that the Fourier expansion
Eq. (1.27) is always a series. This is by virtue of theorem 1.18 that says that the non-zero fourier coefficients of
any vector are always countable, even if the complete orthonormal set belongs to a higher cardinality. However,
such a theorem is valid for complete orthonormal sets in which all the elements of the set lies in the space under
consideration. If we use a hyper orthonormal complete set the elements of this hyper orthogonal basis do not lie
on the space that we are expanding, thus theorem 1.18 does not necessarily hold. Consequently, when continuous
hyper orthonormal basis are used, we shall obtain integrals instead of series in our Fourier expansions. Does it make
any sense to replace series by integrals? it suffices to observe that it is in general easier to solve integrals in a closed
form than series in a closed form.
1.22. Definition of an observable

Measurements in Physics are always real numbers. In quantum mechanics, such measurements are related with
eigenvalues of some operators on a Hilber space. It is then natural to associate measurements with eigenvalues of
self-adjoint operators since their spectra are always real.
For any finite-dimensional Hilbert space it is always possible to form a complete orthonormal set with the
eigenvectors of a normal operator, and in particular with the eigenvectors of a self-adjoint operator. However, in
infinite dimensional Hilbert spaces this is not necessarily the case. Therefore, we establish the following
Definition 1.31 A given self-adjoint operator A on H is called an observable, if there exists a complete orthonormal
set of eigenvectors of A.
The following sets of theorems are of central importance in quantum mechanics
Theorem 1.66 If two operators A and B commute and if x is an eigenvector of A, then Bx is also an eigenvector
of A with the same eigenvalue. If λ is non-degenerate x is also an eigenvector of B. If λ is n−fold degenerate, the
eigensubspace Mλ is invariant under B.
Since x is an eigenvector of A we have
Ax = λx ⇒ BAx = λBx ⇒ ABx = λBx
where we have used the fact that A and B commutes, hence
A (Bx) = λ (Bx)
which proves that Bx is an eigenvector of A with eigenvalue λ. Observe that if λ is non-degenerate all its eigenvectors
are “colinear” hence Bx must be colinear with x i.e. Bx = cx and x is also an eigenvector of B.
On the other hand, if λ is n−fold degenerate, we can only say that Bx lies in the n dimensional eigensubspace
Mλ of A. In other words, if x ∈ Mλ then Bx ∈ Mλ
Another way to express the previous theorem is
Theorem 1.67 If two operators A and B commute, every eigensubspace of A is invariant under B.
Of course, the roles of A and B can be interchanged.
Theorem 1.68 If two normal operators A and B commute, and if x 1 , x2 are two eigenvectors of A with different
eigenvalues, then (x1 , Bx2 ) = 0
By hypothesis we have
Ax1 = λ1 x1 ; Ax2 = λ2 x2
but from theorem 1.66 Bx2 is an eigenvector of A with eigenvalue λ 2 . Now from theorem 1.61 since λ1 6= λ2 then
Bx2 is orthogonal to x1 and the theorem is proved.
The previous theorems do not use the concept of observable, but the following one does
Theorem 1.69 Let A and B be two observables in a Hilbert space H. Then A and B commute⇔one can construct
a complete orthonormal set in H with eigenvectors common to A and B.
Assume that A and B commute, we shall define the normalized eigenvectors of A as u in
Auin = λn uin ; i = 1, .., gn
where gn is the degree of degeneration of λn . For n 6= n0 the eigenvectors are orthogonal and for n = n 0 and i 6= i0
we can always orthonormalized the vectors in each eigensubspace of A, so that

i j
un , uk = δnk δij
let us write H as a decomposition of the eigenspaces of A (taking into account that A is an observable)
H = M1 ⊕ M2 ⊕ M3 ⊕ ...
there are two cases. For each one dimensional M k (each non-degenerate λk ) all vectors in Mk are “colinear” and
they are also eigenvectors of B.
In the other case, gp > 1 then Mp is gp dimensional. We can only say that Mp is invariant under B. Consider
the restriction of A and B to the subspace M p . Since the vectors uip in Mp are eigenvectors of A, the restriction of
(p)
A to Mp has a matrix representative Aij of the form
(p)
Aij = vpi , Avpj = vpi , λp vpj = λp vpi , vpj = λp δij
1.23. COMPLETE SETS OF COMMUTING OBSERVABLES (C.S.C.O.) 51
thus the matrix representation of A(p) is λp I for any orthonormal set complete in M p (not neccesarily the original).
Now let us see the matrix representative of the restriction B (p) of B on Mp , writing this representation in our
original orthonormal set
(p)
Bij = uip , Bujp
since B is a self-adjoint operator this matrix is self-adjoint, and according to theorem 1.65 they can always be
diagonalized by a unitary transformation, which in turn means that there exists an orthonormal set vpi in Mp for
which the matrix representative of B (p) is diagonal, hence
(p) (p)
Bij = vpi , Bvpj = Bi δij
which means that the new orthonormal set complete in M p consists of eigenvectors of B
(p)
Bvpi = Bi vpi

and since Mp contains only eigenvectors of A, it is clear that vpi is an orthonormal set complete in Mp that
are common eigenvectors of A and B. Proceeding in this way with all eigensubspaces of A with more than one
dimension, we obtain a complete orthonormal set in H in which the elements of the set are common eigenvectors of
A and B.
It is important to emphasize that for a given M p the orthonormal set chosen a priori does not in general consist
of eigenvectors of B, but it is always possible to obtain another orthonormal set that are eigenvectors of B and by
definition they are also eigenvectors of A.
Now let us prove that if A and B are observables with a complete orthonormal set of common eigenvectors then
they commute. Let us denote the complete orthonormal set of common eigenvectors as u in,p then
ABuin,p = bp Auin,p = an bp uin,p

BAuin,p = an Buin,p = an bp uin,p
therefore
[A, B] uin,p = 0
since uin,p form a complete orthonormal set, then [A, B] = 0.
It is also very simple to show that if A and B are commuting observables with eigenvalues a n and bp and with
common eigenvectors uin,p then
C =A+B
is also an observable with eigenvectors u in,p and eigenvalues cn,p = an + bp .
1.23. Complete sets of commuting observables (C.S.C.O.)

Consider an observable A and a complete orthonormal set uin of the Hilbert space that consists of eigenvectors
of A. If none of the eigenvalues of A are degenerate then the eigenvalues determine the eigenvectors in a unique
way (within multiplicative constant factors). All the eigensubspaces M i are one-dimensional and the complete
orthonormal set is simply denoted by {u n }. This means that there is only one complete orthonormal set (except
for multiplicative phase factors) associated with the eigenvectors of the observable A. We say that A constitutes by
itself a C.S.C.O.
On the other hand, if some eigenvalues of A are degenerate, specifying a n is not enough to determine a complete
orthonormal set for H because any orthonormal set in the eigensubspace M n can be part of such a complete
orthonormal set. Thus the complete orthonormal set determined by the eigenvectors of A is not unique and it is
not a C.S.C.O.
Now we add a second observable B that commutes with A, and construct a complete orthonormal set common
to A and B. By definition, A and B constitutes a C.S.C.O. if the complete orthonormal set common to both is
unique (within constant phase factors for each of the vectors in the complete set). In other words, it means that any
pair of eigenvalues an , bp determines the associated common normalized eigenvector uniquely, except for a phase
factor.
In theorem 1.69 we constructed the complete orthonormal set common to A and B by solving the eigenvalue
equation of B within each eigensubspace defined by A. For A and B to constitute a C.S.C.O. it is necessary and
sufficient that within each Mn the gn eigenvalues of B be distinct6 . In this case, since all eigenvectors v ni in each
(n)
Mn have the same eigenvalue an of A, they will be distinguished by the g n distinct eigenvalues bi associated with
these eigenvectors of B. Note that it is not necessary that the eigenvalues of B be non-degenerate, we can have two
(or more) equal eigenvalues of B associated with two (or more) distinct eigensubspaces M n and Mk of A. We only
require not to have degeneration of the eigenvalues of B within a given eigensubspace M n of A. Indeed, if B were
non-degenerate it would be a C.S.C.O. by itself.
On the other hand, if for at least one pair {a n , bp } there exist two or more linearly independent eigenvectors
common to A and B they are not a C.S.C.O.. Let us add a third observable C that commutes with both A and B,
and proceeds as above. When to the pair {a n , bp } corresponds only one eigenvector common to A and B, then it is
automatically an eigenvector of C as well. On the contrary, if the eigensubspace M n,p is gn,p dimensional, we can
construct within it, an orthonormal set of eigenvectors of C. Proceeding in this way with each M n,p we can construct
a complete orthonormal set with eigenvectors common to A, B, C. These three observables are a C.S.C.O. if this
complete orthonormal set is unique (except for multiplicative phase factors). Once again, if M n,p has the eigenvectors
(n,p)
uin,p common to A and B this occurs if and only if all g n,p eigenvalues of C denoted as ck are distinct. As before,
C can be degenerate, but as long as degenerate eigenvalues are not repeated within a single eigenspace M n,p of A
and B. Therefore, a given triple of eigenvalues {a n , bp , ck } of A, B, C has a unique common eigenvector within a
multiplicative factor. If two or more linearly independent eigenvectors common to A, B, C can be constructed for a
given set {an , bp , ck }, we can add a fourth observable D that commute with those three operators and so on.
Definition 1.32 A set of observables {A, B, C, ..} is called a complete set of commuting observables (C.S.C.O.) if
(i) All observables commute pairwise, (ii) specifying the set of eigenvalues {a n , bp , ck , ..} of the observables determines
a unique (within phase factors) complete orthonormal set of eigenvectors common to all the observables.
An equivalent form is the following
Definition 1.33 A set of observables {A, B, C, ..} is called a complete set of commuting observables (C.S.C.O.) if
there is a unique complete orthonormal set (within phase factors) of common eigenvectors.
It is obvious that if a given set is a C.S.C.O. we can add any observable that commutes with the observables
of the set and the new set is also a C.S.C.O. However, for most of our purposes we shall be interested in “minimal
C.S.C.O.” in the sense that by removing any observable of the set, the new set is not complete.
If a given set {A1 , .., An } of observables is a C.S.C.O., an eigenvector associated with a set {a k1 , .., akn } determines
a unique common normal eigenvector (within a phase factor) so it is natural to denote the vector as u ak1 ,ak2 ,akn . We
shall see later that in quantum mechanics a global phase has no Physical information. Therefore, all normal vectors
associated with {ak1 , .., akn } have the same Physical information, this fact enhance the qualification of “unique”
for these vectors, although they are not unique from the mathematical point of view.
1.24. Some terminology concerning quantum mechanics

We have defined linear combinations as finite sums. A basis in a vector space is thus a set of linearly independent
vectors for which any vector of the space can be written as a finite sum of elements of the basis (multiplied by the
appropiate scalars). Notably, bases always exist even in an infinite-dimensional vector space. However, in practice it
is not easy to find a basis in an infinite dimensional Hilbert space. In this case, it is more usual to utilize complete
orthonormal sets, they make a work similar to basis in the sense that they generate any vector, but the difference
is that complete orthonormal sets expand a vector in a series (Fourier expansion) while bases do it in finite sums.
In quantum mechanics we call a basis to mean a complete orthonormal set, and the series expansion is
usually call a linear combination. Since we never use basis in the mathematical sense, there is no confusion with
this terminology. Self-adjoint operators are usually called hermitian operators. The conjugate space H ∗ of H is
6
If Mn is one dimensional then an eigenvector of A in Mn is automatically an eigenvector of B and it is clearly uniquely determined,
except for multiplicative factors. Only the case in which Mn has more than one dimension is non-trivial.
1.25. THE HILBERT SPACE L2 53
usually call the dual space of H. The vectors in our Hilbert space are called kets, while the correponding elements
in the dual space (the functionals) are called bras.
In addition the Hilbert space we work with, is a separable space so that its dimension is countable (countably
infinite). We shall resort however to some hyperbases which are of continuous cardinality, the elements of these
hyperbases do not belong to our Hilbert space. Consequently, the elements of the hyperbasis will not be physical
states, but we shall call them continuous basis. Nevertheless, they will be very useful for practical calculations.
In addition there will be a change of notation to facilitate the mathematical calculations, it is called Dirac
notation
1.25. The Hilbert Space L2

We shall see later that the information of a quantum particle is described by a function of the space and time
denoted as ψ (r, t) and called the wave function. The quantity, |ψ (r, t)| 2 dx dy dz will be interpreted as the
probability of finding at time t, the particle in a volume dx dy dz. Since the particle must be somewhere in the
space, we must demand that the integral over the whole volume must be equal to unity
Z
dV |ψ (r, t)|2 = 1
the integration extends over all space. However, in certain cases we could assume that the particle is in a given
confined volume and the integral will be restricted to such a volume.
The discussion above leads to the fact that the space of Physical states of one particle should be described by
a square-integrable wave function. The state space is then the Hilbert space L 2 of the square-integrable functions
in a given volume. For a system of several particles we will have a space with similar features, but by now we will
concentrate on the space that describes a single particle.
For several reasons we cannot specified in general the state space of a particle. First of all, several physical
considerations can lead us to the fact that the particl is confined to a certain bounded volume. For instance, in
one dimension it is not the same the space of functions that are square integrable in the whole real line, as (say)
the space of functions that are square integrable in a bounded interval. In other words, different regions of square
integrability leads us to different L 2 spaces. On the other hand, it is usual to demand as well as square integrability,
that the functions accomplish additional features of regularity. For example, to be defined all along the interval, or
to be continuous, derivable, etc. The specific conditions depend on the particular context, and they are required to
define the state space completely.
For example, it has no physical meaning to have a function that is discontinuous at a given point since no
experiment can measure a real phenomenon at scales below certain threshold. We could then be tempted to say
that we must demand the functions to be continuous. However, this is not necessarily the case since some non-
physical functions could help us to figure out what is happening. Let us take some familiar examples in classical
mechanics, it is usual in electrostatics to assume the presence of a surface charge, which leads to a discontinuity
in the electric field, in the real world a charge is distributed in a very thin but finite layer and the discontinuity is
replaced by a very slopy curve. Indeed, a surface charge is equivalent to an infinite volume density, but we have seen
that this assumption provides a simple picture of many electrostatic phenomena though it is not a real physical
state. Classical waves represented by a single plane wave in optics are other good examples, since it is not possible
to have a real wave being totally monochromatic (a physical state is always a superposition of several plane waves),
but many of the wave phenomena are easier to study with these non physical states, and indeed many real physical
phenomena such as the laws of geometric optics are predicted by using them.
In summary, depending on our purposes (and attitudes) we could demand to have only physical states or to
decide to study some non-physical ones that are obtain when some physical parameters are settle at extreme values.
Quantum mechanics is not the exception for this strategy, and our assumptions on the functions to work with,
affects the definition of the Hilbert space of states that we should use as a framework.
Hence, given the volume V in which the particle can stay, we say that our space of states is a subspace of the
Hilbert space L2 of the square integrable functions in the volume V . We denote by z the subspace of states in which
z ⊆ L2 . For this subspace to be a Hilbert space, it must be closed (for completeness to be maintained).
1.25.1. The wave function space z

According to the discussion above, we only can say that our wave function space that describe our physical
states is a closed subspace of L2 for a volume determined by our physical conditions. What really matters is to be
sure whether the additional conditions imposed to our functions keeps z as a closed vector space. For instance, if we
assume continuity and/or derivability, it is easy to show that a finite linear combination preserves these conditions.
Less evident is to ensure that a series preserves these conditions (for the subspace to be closed in L 2 ), but we are
not be concern with this problem here, neither we shall discuss the aspects concerning the completeness of L 2 . We
then limite ourselves to determine the vector space character of L 2 . Let ψ1 , ψ2 ∈ L2 , we show that
ψ (r) = λ1 ψ1 (r) + λ2 ψ2 (r)
is a square integrable function. For this, we expand |ψ (r)| 2
|ψ (r)|2 = |λ1 |2 |ψ1 (r)|2 + |λ2 |2 |ψ2 (r)|2 + λ∗1 λ2 ψ1∗ (r) ψ2 (r) + λ1 λ∗2 ψ1 (r) ψ2∗ (r)
now for the last two terms we have
h i
|λ∗1 λ2 ψ1∗ (r) ψ2 (r)| = |λ1 λ∗2 ψ1 (r) ψ2∗ (r)| ≤ |λ1 | |λ2 | |ψ1 (r)|2 + |ψ2 (r)|2
hence h i
|ψ (r)|2 ≤ |λ1 |2 |ψ1 (r)|2 + |λ2 |2 |ψ2 (r)|2 + 2 |λ1 | |λ2 | |ψ1 (r)|2 + |ψ2 (r)|2
and the integral of each of the functions on the right-hand side converges. Then the integral
Z
|ψ (r)|2 dV
converges. So ψ is a square integrable function.

The scalar product will be defined as
Z
(ϕ, ψ) = dV ϕ∗ (r) ψ (r)
it can be shown that this integral always converges if ϕ and ψ belong to L 2 . We should check that this definition
accomplishes the properties of an inner product, the properties arise directly from the definition
(ϕ, λ1 ψ1 + λ2 ψ2 ) = λ1 (ϕ, ψ1 ) + λ2 (ϕ, ψ2 ) ; (λ1 ϕ1 + λ2 ϕ2 , ψ) = λ∗1 (ϕ1 , ψ) + λ∗2 (ϕ2 , ψ)
(ϕ, ψ) = (ψ, ϕ) ∗ ; (ψ, ψ) ≡ kψk2 ≥ 0 and (ψ, ψ) = 0 ⇔ ψ = 0
let us mention some important linear oprators on functions ψ (r) ∈ z.
The parity opeartor defined as
Πψ (x, y, z) = ψ (−x, −y, −z)
the product operator X defined as
Xψ (x, y, z) = xψ (x, y, z)
and the differentiation operator with respect to x denoted as D x
∂ψ (x, y, z)
Dx ψ (x, y, z) =
∂x
it is important to notice that the operators X and D x acting on a function ψ (r) ∈ z, can transform it into a
function that is not square integrable. Thus it is not an operator of z into z nor onto z. However, the non-physical
states obtained are frequently useful for practical calculations.
The commutator of the product and differentiation operator is of central importance in quantum mechanics

∂ ∂ ∂ ∂
[X, Dx ] ψ (r) = x − x ψ (r) = x ψ (r) − [xψ (r)]
∂x ∂x ∂x ∂x
∂ ∂
= x ψ (r) − x ψ (r) − ψ (r)
∂x ∂x
[X, Dx ] ψ (r) = −ψ (r) ∀ψ (r) ∈ z
therefore
[X, Dx ] = −I (1.104)
1.26. DISCRETE ORTHONORMAL BASIS 55
1.26. Discrete orthonormal basis

The Hilbert space L2 (and thus z) has a countable infinite dimension, so that any authentic basis of z must be
infinite but discrete. A discrete orthonormal basis {u i (r)} with ui (r) ∈ z should follows the rules given in section
1.9.1. Thus orthonormality is characterized by
Z
(ui , uj ) = d3 r u∗i (r) uj (r) = δij
the expansion of any wave function (vector) of this space is given by the Fourier expansion described by Eq. (1.27)
X Z
ψ (r) = ci ui (r) ; ci = (ui , ψ) = d3 r u∗i (r) ψ (r) (1.105)
i
using the terminology for finite dimensional spaces we call the series a linear combination and c i are the components
or coordinates, which correspond to the Fourier coefficients. Such coordinates provide the representation of ψ (r) in
the basis {ui (r)}. It is very important to emphasize that the expansion of a given ψ (r) must be unique for {u i } to
be a basis, in this case this is guranteen by the form of the Fourier coefficients.
Now if the Fourier expansion of two wave functions are
X X
ϕ (r) = bj uj (r) ; ψ (r) = ci ui (r)
j i
The scalar product and the norm can be expressed in terms of the components or coordinates of the vectors according
with Eqs. (1.64, 1.65) X X 2
(ϕ, ψ) = b∗i ci ; (ψ, ψ) = |ci | (1.106)
i i
and the matrix representation of an operator T in a given orthonormal basis {u i } is obtained from Eq. (1.68)
Tij ≡ (ui , T uj )
1.26.1. Función delta de Dirac

Como veremos a continuación la función delta de Dirac es un excelente instrumento para expresar el hecho de
que un conjunto ortonormal dado sea completo. También es útil para convertir densidades puntuales, lineales y
superficiales, en densidades volumétricas equivalentes. Es importante enfatizar que la función delta de Dirac mas
que una función es una distribución. En el lenguaje del análisis funcional, es una uno-forma que actúa en espacios
vectoriales de funciones, asignándole a cada elemento del espacio, un número real de la siguiente forma: Sea V el
espacio vectorial de las funciones definidas en el dominio (b, c) con ciertas propiedades de continuidad, derivabilidad,
integrabilidad, etc. La distribución delta de Dirac es un mapeo que asigna a cada elemento f (x) de V un número
real con el siguiente algoritmo7
Z c
f (a) si a ∈ (b, c)
f (x) δ (x − a) dx =
b 0 si a ∈ / [b, c]
mencionaremos incidentalmente que con esta distribución es posible escribir una densidad de carga (o masa)
puntual (ubicada en r0 ) como una densidad volumétrica equivalente

ρ (r) = qδ r0 − r0 (1.107)
esta densidad reproduce adecuadamente tanto la carga total como el potencial y el campo que genera, una vez que
se hagan las integrales apropiadas.

7 ∞ si r = 0 R
Es usual definir la “función” delta de Dirac como δ (r) = y δ (x) dx = 1. Esta definición se basa en una
0 si r = 6 0
concepción errónea de la distribución delta de Dirac como una función. A pesar de ello, hablaremos de ahora en adelante de la función
delta de Dirac para estar acorde con la literatura.
Hay varias sucesiones de distribuciones que convergen a la función Delta de Dirac, una de las mas utilizadas es
la sucesión definida por
n 2 2
fn (x − a) = √ e−n (x−a) (1.108)
π
se puede demostrar que al tomar el lı́mite cuando n → ∞ se reproduce la definición y todas las propiedades básicas
de la distribución delta de Dirac. Nótese que todas las distribuciones gaussianas contenidas en esta sucesión tienen
área unidad y están centradas en a. De otra parte, a medida que aumenta n las campanas gaussianas se vuelven
más agudas y más altas a fin de conservar el área, para valores n suficientemente altos, el área se concentra en
una vecindad cada vez más pequeña alrededor de a. En el lı́mite cuando n → ∞, toda el área se concentra en un
intervalo arbitrariamente pequeño alrededor de a.
Algunas propiedades básicas son las siguientes:
R∞
1. −∞ δ (x − a) dx = 1
R∞
2. −∞ f (x) ∇δ (r − r0 ) dV = − ∇f |r=r0
1
3. δ (ax) = |a| δ (x)
4. δ (r − r0 ) = δ (r0 − r)
5. xδ (x) = 0
1
6. δ x2 − e 2 = 2|e| [δ (x + e) + δ (x − e)]
Vale enfatizar que debido a su naturaleza de distribución, la función delta de Dirac no tiene sentido por sı́ sola,
1
sino únicamente dentro de una integral. Por ejemplo cuando decimos que δ (ax) = |a| δ (x), no estamos hablando de
una coincidencia numérica entre ambos miembros, sino de una identidad que se debe aplicar al espacio vectorial de
funciones en que estemos trabajando, es decir
Z c Z c
1
f (x) δ (ax) dx = f (x) δ (x) dx ∀ f (x) ∈ V y ∀ a ∈ R
b b |a|
Estrictamente, el mapeo también se puede hacer sobre los números complejos con propiedades análogas. En este
mismo espı́ritu, es necesario aclarar que la densidad volumétrica equivalente de una carga puntual (y todas las
densidades equivalentes que se pueden formar con la delta) es realmente una distribución. Por ejemplo, la densidad
descrita por (1.107), solo tiene realmente sentido dentro de integrales que generan la carga total, el potencial o el
campo. Las densidades ordinarias son funciones, pero las densidades equivalentes son distribuciones. En sı́ntesis, lo
que se construye con la densidad volumétrica equivalente es una distribución que me produzca el mapeo adecuado
para reproducir la carga total, el potencial y el campo.
En más de una dimensión la delta se convierte simplemente en productos de deltas unidimensionales, la propiedad
R (n)
δ (x) dn x = 1, aplicada a n dimensiones, nos dice que la delta no es adimensional, sus dimensiones son de
x−n .
De momento, el uso que le daremos a la delta estará relacionado con la completez del sistema orthonormal
que usemos. Nótese que en dimension finita la completez se comprueba simplemente asegurándonos de tener igual
número de vectores linealmente independientes que la dimensión del espacio. En espacios de dimension infinita en
cambio podrı́amos tener un conjunto infinito contable que no fuera completo y que se vuelve completo al agregarle
otro conjunto finito o infinito contable, pues en tal caso la cardinalidad no cambia. En dimensión infinita un conjunto
ortonormal puede tener la cardinalidad de la dimensión ortogonal del espacio y sin embargo no ser completo. Es
por esto que la prueba de completez es particularmente importante.
1.27. Closure relations

Naturalmente, para que todo vector arbitrario ψ (r) de z sea expandible en los vectores unitarios linealmente
independientes {ui (r)}, es necesario que el conjunto que define la base sea completo, la condición de completez
1.28. INTRODUCTION OF HYPERBASES 57
puede obtenerse reemplazando los coeficientes de Fourier c n en la expansión de ψ (r)

X X XZ B
ψ (r) = cn un (r) = (un , ψ) un (r) = u∗n r0 ψ r0 un (r) d3 r0
n n n A
Z " #
B X
ψ (r) = ψ r0 u∗n r0 un (r) d3 r0
A n
donde la integral con lı́mites A y B significa una integral triple de volumen. Por otro lado
Z B

ψ (r) = ψ r0 δ r − r 0 d3 r0
A
Igualando las dos últimas expresiones, y teniendo en cuenta que ψ (r 0 ) es arbitraria se obtiene
X
u∗n r0 un (r) = δ r − r0 (1.109)
n
retrocediendo en nuestros pasos vemos que la relación anterior nos garantiza que cualquier función arbitraria dentro
del espacio se puede expandir en términos del conjunto {u n (r)}. A su vez vemos que la expansion para una base
ordenada dada {un (r)} es única, lo cual se obtiene gracias a la independencia lineal del conjunto. Por tanto a la
Ec. (1.109), se le conoce como relación de completez.
We shall study several complete sets that consequently accomplish property (1.109). The proof of completeness
of these sets is however out of the scope of this manuscript.
1.28. Introduction of hyperbases

In the case of discrete basis each element u i (r) is square integrable and thus belong to L 2 and in general to z
as well. As explained before, it is sometimes convenient to use some hyperbases in which the elements of the basis
do not belong to either L2 or z, but in terms of which a function in z can be expanded, the hyperbasis {u (k, r)}
will have in general a continuous cardinality with k denoting the continuous index that labels each vector in the
hyperbasis. According to our previous discussions the Fourier expansions made with this hyperbasis are not series
but integrals, these integrals will be called continuous linear combinations.
1.29. Closure relation with hyperbases

In the hyperbasis {u (k, r)}, k is a continuous index defined in a given interval [c, d]. Such an index makes the role
of the index n in discrete bases. We shall see that a consistent way of expressing orthonormality for this continuous
basis is8 Z B

(uk , uk0 ) = u∗ (k, r) u k 0 , r d3 r = δ k − k 0 (1.110)
A
we show it by reproducing the results obtained with discrete bases. Expanding an arbitrary function ψ (r) of our
Hilbert space as a continuous linear combination of the basis gives
Z d
ψ (r) = c (k) u (k, r) dk
c
then we have
Z d Z d
(uk0 , ψ) = uk 0 , c (k) u (k, r) dk = c (k) (uk0 , uk ) dk
c c
Z d
= c (k) δ k − k 0 dk = c k 0
c
8
From now on we shall say continuous bases, on the understanding that they are indeed hyperbases.
from which the fourier coefficients of the continuous expansion are evaluated as

c k 0 = (uk0 , ψ) (1.111)
when the Fourier coefficients are associated with continuous linear combinations (integrals) they are usually called
Fourier transforms. In this case, a vector is represented as a continuous set of coordinates or components, where
the components or coordinates are precisely the Fourier transforms.
Therefore, in terms of the inner product, the calculation of the Fourier coefficients in a continuous basis (Fourier
transforms) given by Eq. (1.111) coincides with the calculation of them with discrete bases Eq. (1.105). Eq. (1.111)
in turn guarantees that the expansion for a given ordered continuous bases is unique 9 . Those facts in turn depends
strongly on our definition of orthonormality in the continuous regime Eq. (1.110) showing the consistency of such a
definition. After all, we should remember that hyperbases are constructed as useful tools and not as physical states,
in that sense we should not expect a “truly orthonormality relation” between them 10 .
Let us see the closure relation
Z d Z d
ψ (r) = c (k) u (k, r) dk = (uk , ψ) u (k, r) dk
c c
Z d Z B
∗ 0
0
3 0
ψ (r) = u k, r ψ r d r u (k, r) dk
c A
Z B Z d

ψ (r) = u∗ k, r0 u (k, r) dk ψ r0 d3 r0
A c
on the other hand

Z B
ψ (r) = δ r − r0 ψ r0 d3 r0
A
from which we find

Z d
u∗ k, r0 u (k, r) dk = δ r − r0 (1.112)
c
which defines us the closure relation for a continuous basis {u (k, r)}.
From the discussion above, the closure relations for discrete or continuous basis can be interpreted as “rep-
resentations” of the Dirac delta function. Similar situation occurs with the orthonormality relation but only for
continuous bases.
It worths emphasizing at this point that a given representation of the delta in a given space cannot be applied to
another space. For example, it is Ppossible to have a r−dimensional vector space of functions V 1 with a basis {vn (r)},
that defines a closure relation rn=1 vn∗ (r0 ) vn (r) = δ1 (r − r0 ), let us think about another r + k dimensional vector
space denoted by V2 and such that V2 ⊃ V1 , such that Pr+ka basis {um } of V2 includes the previous basis plus other
linearly independent vectors; the closure relation is: n=1 u∗n (r0 ) un (r) = δ2 (r − r0 ). What is the difference between
δ1 (r − r0 ) and δ2 (r − r0 )?, the answer lies in the distribution nature of the badly called Dirac delta function; the
fundamental property of this distribution tells us that for all functions ψ (r 0 ) that belongs to V1 we have that
Z " # Z
B X B
0
ψ (r) = ψ r vn∗ 0
r vn (r) d r = 3 0
ψ r0 δ1 r − r 0 d3 r0
A n A
however, if the function ψ (r) does not belong to V 1 but it belongs to V2 then δ1 (r − r0 ) is not an adequate distribution
to represent this function. This is a general property of the distributions, since they are defined solely by means of
the way in which they map the functions of a specific vector space into the scalars. A representation of the Dirac
delta (and in general of any distribution) is linked to a very specific vector space of functions.
9
Remember that for a given set of vectors to constitute a basis, it is important not only to be able to expand any vector with the
elements of the set, it is also necessary for the expansion of each vector to be unique. In normal basis (not hyperbasis) this is guaranteed
by the linear independence, in our continuous set it is guranteed by our definition of orthonormality in such a set.
10
It is clear for example that with r = r0 the “orthonormality” relation diverge, so it is not a normalization in the mathematical sense.
1.30. INNER PRODUCT AND NORM IN TERMS OF THE COMPONENTS OF A VECTOR IN A HYPERBASES59
1.30. Inner product and norm in terms of the components of a vector in a

hyperbases
Let us take two vectors ϕ and ψ that belong to z. Both can be expressed as continuous linear combinations of
a continuous basis {uk }
Z d Z d
ψ (r) = dk u (k, r) c (k) ; ϕ (r) = dk 0 u k 0 , r b k 0
c c
now the idea is to write the scalar product of them in terms of the continuous set of components of each vector i.e.
in terms of their Fourier transforms c (k) and b (k 0 ). The scalar product is
Z B Z d Z d Z B
3 ∗ 0 ∗ 0

(ϕ, ψ) = d r ϕ (r) ψ (r) = dk dk b k c (k) d3 r u∗ k 0 , r u (k, r)
A c c A
now using the orthonormality relation Eq. (1.110) we have

Z B Z d Z d
3 ∗ 0

(ϕ, ψ) = d r ϕ (r) ψ (r) = dk dk b∗ k 0 c (k) δ k − k 0
A c c
Z d
(ϕ, ψ) = dk b∗ (k) c (k) (1.113)
c
the norm is obtained simply by taking ϕ = ψ then

Z d
(ψ, ψ) = kψk2 = dk |c (k)|2 (1.114)
c
Eqs. (1.113, 1.114) are clearly the continuous analogs of Eq. (1.106) for discrete basis.
In summary, the basic relations obtained in discrete bases (inner products, norms, fourier coefficients, orthonor-
mality, completeness etc.) possses the same structure in continuous bases but with the following replacements
X Z

i(discrete) ↔ k(continuous) , ↔ dk , δij ↔ δ k − k 0
i
1.31. Some specific continuous bases

1.31.1. Plane waves
We shall use a continuous basis represented by the set
n o 3/2
ip·r/~ 1
ze ; z≡
2π~
where p is the continuous index that labels the different vectors of the basis. Indeed, p represents three continuous
indices px , py , pz . By now ~ is simply a mathematical constant, but it will become highly relevant in Physics. We
consider the space of square integrable functions over the whole space, all integrals are undestood to be triple
integrals. The continuous linear combination of a given square integrable function is given by
3/2 Z ∞
1
ψ (r) = d3 p ψ̄ (p) eip·r/~
2π~ −∞

it is clear that ψ̄ (p) provides the continuous set of coordinates of the vector ψ (r) under our continuous basis.
They are thus the Fourier transforms of ψ (r) with respect to the basis of plane waves. It is useful to define
vp (r) ≡ zeip·r/~ (1.115)

from which the fourier transforms can be calculated by Eq. (1.111)

3/2 Z ∞
1
c (k) = (uk , ψ) ⇒ ψ̄ (p) = (vp , ψ) = d3 r e−ip·r/~ ψ (r)
2π~ −∞
the basic relation in Fourier analysis Z ∞

1
d3 k eik·u = δ 3 (u) (1.116)
(2π)3 −∞
can be used by assigning k → zp and u → (r − r 0 ) to show that

Z ∞ Z ∞
3 ∗ 0
1 3 ip (r−r0 ) 3 0

d p vp r vp (r) = d p e ~ = δ r − r (1.117)
−∞ (2π~)3 −∞
by comparing it with Eq. (1.112), we see that (1.117) expresses the completeness relation for the continuous basis
{vp } in the space of functions that are square-integrable in the whole physical space. The orthonormality relation
can also be obtained from the property (1.116) but with the assignments k → zr and u → p − p 0
Z ∞
1 0
d3 r e−i ~ (p−p ) = δ 3 p0 − p = δ 3 p − p0
r
v p , v p0 = 3 (1.118)
(2π~) −∞
by using p = p0 in Eq. (1.118) it is clear that kvp k2 = (vp , vp ) is divergent. Thus, the plane waves are not square-
integrable in the whole space. Therefore, the elements of this continuous basis do not belong to the Hilbert space
under study.
1.31.2. “Delta functions”

We shall use a continuous basis of “highly improper” functions defined by
ξr0 (r) ≡ δ (r − r0 ) (1.119)
{ξr0 (r)} represents the set of delta functions centered at each of the points r 0 of the whole space. These functions
are not square-integrable so {ξr0 (r)} ∈/ z. Nevertheless, the following relations are valid for functions that belong
to z
Z
ψ (r) = d3 r0 ψ (r0 ) δ (r − r0 )
Z
ψ (r0 ) = d3 r ψ (r) δ (r0 − r)
rewritten them appropiately we have

Z
ψ (r) = d3 r0 ψ (r0 ) ξr0 (r) (1.120)
Z
ψ (r0 ) = d3 r ξr∗0 (r) ψ (r) = (ξr0 , ψ) (1.121)
Eq. (1.120) gives ψ (r) ∈ z as a continuous linear combination of the set {ξ r0 }, where ψ (r0 ) are the fourier
transforms. On the other hand, (1.121) indicates that the fourier transforms are evaluated as usual.
By using the properties of the Dirac delta function, it is possible to prove that the set {ξ r0 } accomplishes
orthonormality and completeness relations
Z
ξr0 , ξr00 = d3 r δ (r − r0 ) δ r − r00 = δ r0 − r00
and Z Z

d3 r0 ξr∗0 r0 ξr0 (r) = d3 r0 δ r0 − r 0 δ (r − r0 ) = δ r − r0
1.32. TENSOR PRODUCTS OF VECTOR SPACES, DEFINITION AND PROPERTIES 61
note that the non-physical functions that constitute a continuous basis can usually be seen as limits in which one
or more parameters of a physically realizable state are taken at extreme (non-physical) values.
As an example the Dirac function can be taken as the limit of gaussians given by Eq. (1.108)
n 2 2
fn (x − a) = √ e−n (x−a)
π
for each value of n these functions are square integrable, continuous, and derivable, they could describe a physical
system. Notwithstanding, by taking n → ∞, the functions are no longer square-integrable and lose all properties of
well-behavior.
Concerning plane waves, physical states (in both classical and quantum mechanics) consists of a superposition of
plane waves with a finite width spectrum of frecuencies ∆ν, by taking the limit ∆ν → 0 we obtain a monochromatic
(non-physical) wave, corresponding to a single plane wave.
1.32. Tensor products of vector spaces, definition and properties

Let V1 and V2 be two vector spaces of dimension n1 and n2 . Vectors and operators on each of them will be
denoted by labels (1) and (2) respectively.
Definition 1.34 The vector space V is called the tensor product of V 1 and V2
V ≡ V 1 ⊗ V2
if there is associated with each pair of vectors x (1) ∈ V 1 and y (2) ∈ V2 a vector in V denoted by x (1) ⊗ y (2) and
called the tensor product of x (1) and y (2), and in which this correspondence satisfies the following conditions: (a)
It is linear with respect to multiplication by a scalar
[αx (1)] ⊗ y (2) = α [x (1) ⊗ y (2)] ; x (1) ⊗ [βy (2)] = β [x (1) ⊗ y (2)] (1.122)
(b) It is distributive with respect to addition

x (1) + x0 (1) ⊗ y (2) = x (1) ⊗ y (2) + x0 (1) ⊗ y (2)

x (1) ⊗ y (2) + y0 (2) = x (1) ⊗ y (2) + x (1) ⊗ y0 (2) (1.123)
(c) When a basis is chosen in each space, say {u i (1)} in V1 and {vj (2)} in V2 , the set of vectors ui (1) ⊗ vj (2)
constitutes a basis in V . If n1 and n2 are finite, the dimension of the tensor product space V is n 1 n2 .
An arbitrary couple of vectors x (1), y (2) can be written in terms of the bases {u i (1)} and {vj (2)} respectively,
in the form X X
x (1) = ai ui (1) ; y (2) = bj vj (2)
i j
Using Eqs. (1.122, 1.123) we see that the expansion of the tensor product is given by
XX
x (1) ⊗ y (2) = ai bj ui (1) ⊗ vj (2)
i j
so that the components of the tensor product of two vectors are the products of the components of the two vectors of
the product. It is clear that the tensor product is commutative i.e. V 1 ⊗ V2 = V2 ⊗ V1 and x (1) ⊗ y (2) = y (2) ⊗ x (1)
On the other hand, it is important to emphasize that there exist in V some vectors that cannot be written as
tensor products of a vector in V1 with a vector in V2 . Nevertheless, since {ui (1) ⊗ vj (2)} is a basis in V any vector
in V can be expanded in it XX
ψ= cij ui (1) ⊗ vj (2) (1.124)
i j
in other words, given a set of n1 n2 coefficients of the form cij it is not always possible to write them as products
of the form ai bj of n1 numbers ai and n2 numbers bj , we cannot find always a couple of vectors in V 1 and V2 such
that ψ = x (1) ⊗ y (2).
1.32.1. Scalar products in tensor product spaces

If there are inner products defined in the spaces V 1 and V2 we can define an inner product in the tensor product
space V . For a couple of vectors in V of the form x (1) ⊗ y (2) the inner product can be written as

x0 (1) ⊗ y0 (2) , x (1) ⊗ y (2) = x0 (1) , x (1) (1) y0 (2) , y (2) (2)
where the symbols (, )(1) and (, )(2) denote the inner product of each of the spaces of the product. From this, we can
see that if the bases {ui (1)} and {vj (2)} are orthonormal in V1 and V2 respectively, then the basis {ui (1) ⊗ vj (2)}
also is
(ui (1) ⊗ vj (2) , uk (1) ⊗ vm (2)) = (ui (1) , uk (1))(1) (vj (2) , vm (2))(2) = δik δjm
Now, for an arbitrary vector in V , we use the expansion (1.124) and the basic properties of the inner product
 
XX XX
(ψ, φ) =  cij ui (1) ⊗ vj (2) , bkm uk (1) ⊗ vm (2)
i j k m
X X X X
= c∗ij bkm (ui (1) ⊗ vj (2) , uk (1) ⊗ vm (2)) = c∗ij bkm δik δjm
i,j k,m i,j k,m
X
(ψ, φ) = c∗ij bij
i,j
it is easy to show that with these definitions the new product accomplishes the axioms of an inner product.
1.32.2. Tensor product of operators

e (1) acting on V as
Consider a linear transformation A (1) defined in V 1 , we associate with it a linear operator A
follows: when Ae (1) is applied to a tensor of the type x (1) ⊗ y (2) we define
e (1) [x (1) ⊗ y (2)] = [A (1) x (1)] ⊗ y (2)

A
when the operator is applied to an arbitrary vector in V , this definition is easily extended because of the linearity
of the transformation
XX XX
Ae (1) ψ = A e (1) cij ui (1) ⊗ vj (2) = e (1) [ui (1) ⊗ vj (2)]
cij A
i j i j
XX
e (1) ψ =
A cij [A (1) ui (1)] ⊗ vj (2) (1.125)
i j
e (2) of a linear transformation in V2 is obtained in a similar way

the extension B
XX
e (2) ψ =
B cij ui (1) ⊗ [B (2) vj (2)]
i j
finally, if we consider two operators A (1) , B (2) defined in V 1 and V2 respectively, we can define their tensor product
A (1) ⊗ B (2) as
XX
[A (1) ⊗ B (2)] ψ = cij [A (1) ui (1)] ⊗ [B (2) vj (2)] (1.126)
i j
it is easy to show that A (1) ⊗ B (2) is also a linear operator. From Eqs. (1.125, 1.126) we can realize that the
extension of the operator A (1) on V1 to an operator A e (1) on V can be seen as the tensor product of A (1) with the
e (2)
identity operator I (2) on V2 . A similar situation occurs with the extension B
e (1) = A (1) ⊗ I (2) ; B

A e (2) = I (1) ⊗ B (2) (1.127)
1.32. TENSOR PRODUCTS OF VECTOR SPACES, DEFINITION AND PROPERTIES 63
e (1) B
Now let us put the operators A (1) ⊗ B (2) and A e (2) to act on an arbitrary element of a basis {u i (1) ⊗ vj (2)}
of V
[A (1) ⊗ B (2)] ui (1) ⊗ vj (2) = [A (1) ui (1)] ⊗ [B (2) vj (2)]

h i
e (1) B
A e (2) ui (1) ⊗ vj (2) = Ae (1) {ui (1) ⊗ [B (2) vj (2)]} = [A (1) ui (1)] ⊗ [B (2) vj (2)]
e (1) and B
therefore, the tensor product A (1) ⊗ B (2) coincides with the ordinary product of two operators A e (2) on
V
A (1) ⊗ B (2) = Ae (1) B
e (2)
additionally, it can be shown that operators of the form A e (1) and B e (2) commute in V . To see it, we put their
products in both orders to act on an arbitrary vector of a basis {u i (1) ⊗ vj (2)} of V
h i
e (1) B
A e (2) ui (1) ⊗ vj (2) = Ae (1) {ui (1) ⊗ [B (2) vj (2)]} = [A (1) ui (1)] ⊗ [B (2) vj (2)]
h i
e (2) A
B e (1) ui (1) ⊗ vj (2) = Be (2) {[A (1) ui (1)] ⊗ vj (2)} = [A (1) ui (1)] ⊗ [B (2) vj (2)]
therefore we have h i
e (1) , B
A e (2) = 0 or A (1) ⊗ B (2) = B (2) ⊗ A (1)
an important special case of linear operators are the projectors, as any other linear operator, the projector in V is
the tensor product of the projectors in V 1 and V2 . Let M1 and N1 be the range and null space of a projector in V 1
and M2 , N2 the range and null space of a projector in V 2
V1 = M1 ⊕ N1 ; x (1) = xM (1) + xN (1) ; xM (1) ∈ M1 , xN (1) ∈ N1 ; P1 (x (1)) = xM (1)

V2 = M2 ⊕ N2 ; y (2) = yM (2) + yN (2) ; yM (2) ∈ M2 , yN (2) ∈ N2 ; P2 (y (2)) = yM (2)
(P1 ⊗ P2 ) (x (1) ⊗ y (2)) = [P1 x (1)] ⊗ [P2 y (2)] = xM (1) ⊗ yM (2)

for an arbitrary vector we have
XX XX
(P1 ⊗ P2 ) ψ = (P1 ⊗ P2 ) cij ui (1) ⊗ vj (2) = cij [P1 ui (1)] ⊗ [P2 vj (2)]
i j i j
XX
(P1 ⊗ P2 ) ψ = cij ui,M (1) ⊗ vj,M (2)
i j
finally, as in the case of vectors, there exists some operators on V that cannot be written as tensor products of the
form A (1) ⊗ B (2).
1.32.3. The eigenvalue problem in tensor product spaces

Let us assume that we have solved the eigenvalue problem for an operator A (1) of V 1 . We want to seek for
information concerning the eigenvalue problem for the extension of this operator to the tensor product space V . For
simplicity, we shall assume a discrete spectrum
A (1) xin (1) = an xin (1) ; i = 1, 2, . . . , gn ; xin (1) ∈ V1
where gn is the degeneration associated with a n . We want to solve the eigenvalue problem for the extension of this
operator in V = V1 ⊗ V2
e (1) ψ = λψ ; ψ ∈ V1 ⊗ V2
A
from the definition of such an extension, we see that a vector of the form x in (1) ⊗ y (2) for any y (2) ∈ V2 is an
e (1) with eigenvalue an
eigenvector of A

Ae (1) xin (1) ⊗ y (2) = A (1) xin (1) ⊗ y (2) = an xin (1) ⊗ y (2) ⇒

Ae (1) xi (1) ⊗ y (2) = an xi (1) ⊗ y (2)
n n
it is natural to ask whether any eigenvector of A e (1) can be generated in this way. We shall see that it is true if

A (1) is an observable in V1 . Assuming it, the set of orthonormal eigenvectors xin (1) forms a basis in V1 . If we
now take an orthonormal basis {ym (2)} in V2 , then the set of vectors
i,m i
ψn ≡ xn (1) ⊗ ym (2)
n o
forms an orthonormal basis in V . It is clear that the set ψni,m consists of eigenvectors of A e (1) with eigenvalues
an , and since they are a basis, a complete orthonormal set of eigenvectors of A e (1) have been generated with the
procedure explained above. This in turn means that if A (1) is an observable in V 1 , its extension A e (1) is also an
observable in V . Further, the spectrum of A e (1) coincides with the spectrum of A (1). Notwithstanding, it worths to
say that if N2 is the dimension of V2 , if an is gn −fold degenerate in V1 , it will be gn · N2 −degenerate in V . This is
because for a given eigenvector xin (1) in V1 , there are N2 eigenvectors ψni,m ≡ xin (1) ⊗ ym (2) since m = 1, . . . , N2 .
We know that each eigenvalue an of A (1) in V1 defines an eigensubspace V1,an in V1 with gn dimension. The
corresponding eigensubspace generated by a n in V is a N2 · gn subspace Van . The projector onto V1,an is written by
⊥
V1 = V1,an ⊕ V1,a n
; x (1) = xan (1) + x⊥ ⊥ ⊥
an (1) ; xan (1) ∈ V1,an , xan (1) ∈ V1,an
P1an (x (1)) = xan (1)
and its extension to V is defined as

Pe1an ≡ P1an ⊗ I2 ; Pe1an ψni,m ≡ Pe1an xin (1) ⊗ ym (2) = P1an xin (1) ⊗ ym (2)
Pe1an ψni,m = xan (1) ⊗ ym (2)
Now assume that we have a sum of operators of both spaces

e (1) + B
C=A e (2)
where A (1) and B (2) are observables in their corresponding spaces, with the following eigenvalues and eigenvectors
A (1) xin (1) = an xin (1) ; i = 1, 2, . . . , gn ; xin (1) ∈ V1

k k k
B (2) ym (2) = bm ym (2) ; k = 1, 2, . . . , hm ; ym (2) ∈ V2
we have seen that A e (1) and B

e (2) commute, so they should have a commom basis of eigenvectors in V . This basis
is precisely, the tensor product of their eigenvectors
h i h i
e (1) xi (1) ⊗ yk (2) = an xi (1) ⊗ yk (2)
A n m n m
h i h i
e i k i k
B (2) xn (1) ⊗ ym (2) = bm xn (1) ⊗ ym (2)
and they are also eigenvectors of C = Ae (1) + B

e (2)
h ih i h i
e (1) + B
A e (2) xin (1) ⊗ ym
k
(2) = (an + bm ) xin (1) ⊗ ymk
(2)
h i h i
C xin (1) ⊗ ym
k
(2) = cnm xin (1) ⊗ ymk
(2) ; cnm = an + bm
So that if C = A e (1) + B
e (2) the eigenvalues of C are the sums of the eigenvalues of A e (1) and B e (2). Besides, we
can form a basis of eigenvectors of C by taking the tensor product of the basis of A (1) and B (2).
It is important to emphasize that even if a n and bm are non-degenerate, it is posible that c nm be degenerate. As-
sume that an and bm are non-degenerate, and for a given c nm let us define all the sets of pairs {(n j , mj ) : j = 1, . . . , q}
such that anj +bmj = cnm . In that case, the eigenvalue cnm is q−fold degenerate, and every eigenvector corresponding
to this eigenvalue can be written as
Xq

cj xnj (1) ⊗ ymj (2)
j=1
in this case there are eigenvectors of C that are not tensor products.
1.33. RESTRICTIONS TO AN OPERATOR TO A SUBSPACE 65
1.32.4. Complete sets of commuting observables in tensor product spaces

For simplicity assume that A (1) forms a C.S.C.O. by itself in V 1 , while {B (2) , C (2)} constitute a C.S.C.O. in
V2 . We shall show that by gathering the operators of the C.S.C.O. in V 1 with the operators of C.S.C.O. in V2 , we
form a C.S.C.O. in V with their corresponding extensions.
Since A (1) is a C.S.C.O. in V1 , all its eigenvalues are non-degenerate in V 1
A (1) xn (1) = an x (1)
the ket x (1) is then unique within a constant factor. In V 2 the set of two operators {B (2) , C (2)} defines commom
eigenvectors {ymp (2)} that are unique in V2 within constant factors
B (2) ymp (2) = bm ymp (2) ; C (2) ymp (2) = cp ymp (2)
In V , the eigenvalues are N2 −fold degenerate. Similarly, there are N 1 linearly independent eigenvectors of B (2) and
C (2) associated with two given eigenvalues of the form (b m , cp ). However, the eigenvectors that are common to the
three commuting observables A e (1) , B
e (2) , C
e (2) are unique within constant factors
e (1) [xn (1) ⊗ ymp (2)] = an [x (1) ⊗ ymp (2)]
A
e (2) [xn (1) ⊗ ymp (2)] = bm [x (1) ⊗ ymp (2)]
B
e (2) [xn (1) ⊗ ymp (2)] = cp [x (1) ⊗ ymp (2)]
C
since {xn (1)} and {ymp (2)} were bases in V1 and V2 , we see
n that {xn (1) ⊗ ymp
o (2)} is a basis in V constituted by
e e e
commom eigenvectors of the three operators. Thus the set A (1) , B (2) , C (2) is a C.S.C.O. in V .
1.33. Restrictions to an operator to a subspace

It is useful in many applications to be able to restrict an operator to a certain subspace V q of a given vector
space V . Let us assume
V = V1 ⊕ . . . ⊕ V q ⊕ . . .
x = x 1 + . . . + x q + . . . x i ∈ Vi
Projectors, which are the natural operators to “restrict” a vector by extracting the components that are orthonormal
to a given subspace, will be also the natural operators to rectrict operators. Let P q the projector onto a subspace
Vq . A priori, we could think in defining a restriction by “restricting the vector” in which the operator will act on.
This is done by substracting all components orthogonal to the subspace V q by applying a projection, and then let
the operator A act on this projection so we have
A = APq ⇒ Ax = APq x = Axq
in this case we have restricted the domain of A appropiately, but once the operator A is applied, the image could
be outside of the subspace too. Hence, the projector must be applied again after the application of A in order to
b of the operator A to the subspace Vq as
restrict the image appropiately. We then define the restriction A
bq ≡ Pq A = Pq APq
A
so that both the domain and the range are restricted to V q . It can be easily checked that the matrix representation
of Abq is reduced to a submatrix in the Vq space. Let qk be the dimension of Vq . Let us use an ordered basis such
that the first qk terms expand Vq . Using such a basis we have

Abq = bq uj = (ui , Pq APq uj ) = (Pq ui , APq uj )
ui , A
ij

(ui , Auj ) if i, j ≤ qk
(Pq ui , APq uj ) =
0 if i > qk and/or j > qk
observe that the submatrix associated with i, j ≤ q k (i.e. assocaited with the Vq subspace), remains the same with
respect to the non-restricted matrix. But the elements outside of such a submatrix are zeros, showing that the new
operator only acts in Vq .
1.34. Functions of operators

Let A be an arbitrary operator. The operator A n with n being a non-negative integer is easily defined as
A0 ≡ I , An = AA · · · A (n times)
similarly for negative integers a consistent definition is
n
A−n ≡ A−1 with AA−1 = A−1 A = I
it is useful to define functions of operators. Assume that a function F can be expanded in certain domain in the
following way
∞
X
F (z) = fn z n (1.128)
n=0
by definition, the function F (A) of the operator A corresponds to an expansion of the form (1.128) with the same
coefficients fn
∞
X
F (A) = fn An (1.129)
n=0
for instance, the function eA of the operator A reads
X∞
An A2 A3
eA = = I +A+ + + ...
n=0
n! 2! 3!
the convergence of series of the type (1.129) depends on the eigenvalues of A and the radius of convergence of the
function (1.128). We shall not treat this topic in detail.
If F (z) is a real function the coefficients f n are real. On the other hand, if A is hermitian then F (A) also is,
as can be seen from (1.129). Owing to the analogy between real numbers and hermitian operators this relation is
quite expected. Now, assume that xi,k is an eigenvector of A with eigenvalue a i we then have
Axi,k = ai xi,k ⇒ An xi,k = ani xi,k
and applying the eigenvector in Eq. (1.129) we find
∞
X ∞
X
F (A) xi,k = fn ani xi,k = xi,k fn ani
n=0 n=0
F (A) xi,k = F (ai ) xi,k
so that if xi,k is an eigenvector of A with eigenvalue a i , then xi,k is also eigenvector of F (A) with eigenvalue F (a i ).
On the other hand, if the operator is diagonalizable (this is the case for observables), we can find a basis in which
the matrix representative of A is diagonal with the eigenvalues a i in the diagonal. In such a basis, the operator
F (A) has also a diagonal representation with elements F (a i ) in the diagonal. For example let σz be an operator
that in certain basis has the matrix representation

1 0
σz =
0 −1
in the same basis we have
σz e1 0 e 0
e = =
0 e−1 0 1/e
if A and B do not commute, we have that in general the operators F (A) and F (B) do not commute either. For
instance
X∞ ∞ ∞ ∞
An X B m X X An B m
eA eB = = (1.130)
n! m! n! m!
n=0 m=0 n=0 m=0
X∞ ∞ ∞ X ∞
B X
m An X B m An
eB eA = = (1.131)
m=0
m! n=0
n! m=0 n=0
m! n!
X∞
(A + B)n
eA+B = (1.132)
n!
n=0
1.35. DIFFERENTIATION OF OPERATORS 67
these three expressions are in general different from each other unless [A, B] = 0. We see by direct inspection of
Eqs. (1.130, 1.131, 1.132) that if A and B commute, then F (A) and F (B) also do. Notice that when A, B commute
they can be diagonalized simultaneously and so F (A) and F (B), which is another way to see that if [A, B] = 0
then [F (A) , F (B)] = 0.
1.34.1. Some commutators involving functions of operators

Theorem 1.70 Suppose we have two operators A and B such that B commutes with their commutator, that is
[B, C] = 0 ; C ≡ [A, B] (1.133)
if F (B) is a function of the operator B then we have
[A, F (B)] = [A, B] F 0 (B) (1.134)
where F 0 (B) is the derivative of F (B) “with respect to B” defined as

∞
X ∞
X
n 0
F (B) = fn B ⇒ F (B) ≡ nfn B n−1 (1.135)
n=0 n=0
Proof : The commutator [A, F (B)] is given by

" ∞
# ∞
X X
[A, F (B)] = A, fn B n = fn [A, B n ] (1.136)
n=0 n=0
we show by induction that

[A, B n ] = [A, B] nB n−1 (1.137)
for n = 0 we have B n = I and both sides clearly vanish. Now let us assume that it works for n and show that it is
satisfied by n + 1. Applying Eq. (1.40), and taking into account Eqs. (1.137, 1.133) we have

A, B n+1 = [A, BB n ] = [A, B] B n + B [A, B n ] = [A, B] BB n−1 + B [A, B] nB n−1
= CBB n−1 + BCnB n−1 = CB n + nCBB n−1 = C (n + 1) B n
n+1

A, B = [A, B] (n + 1) B n
which shows the validity of Eq. (1.137). Replacing Eq. (1.137) in Eq. (1.136), we find
∞
X
[A, F (B)] = [A, B] fn nB n−1 = [A, B] F 0 (B)
n=0
Corollary 1.71 It is straightforward to show that if both operators commute with their commutator we see that
equations
[A, F (B)] = [A, B] F 0 (B) ; [G (A) , B] = [A, B] G0 (B) (1.138)
are satisfied simultaneously. A very important case in Physics occurs when [A, B] = αI. In that case, we have
[A, B] = αI ⇒ [A, F (B)] = αF 0 (B) ; [G (A) , B] = αG0 (B) (1.139)
1.35. Differentiation of operators

Let A (z) an operator that depends on the arbitrary variable z. We define the derivative of A (z) with respect
to z as
dA A (z + ∆z) − A (z)
= lı́m (1.140)
dz ∆z→0 ∆z
provided that this limit exists. Operating A on an arbitrary vector x and using a basis {u i } independent of z, we
have
A (z) x = A (z) xi ui = xi A (z) ui = xi uj Aji (z) (1.141)
since dA/dz is another operator, it makes sense to talk about its matrix representation

dA (z) dA (z) dA (z) dA (z)
x= xi ui = x i ui = x i uj (1.142)
dz dz dz dz ji
Applying the derivative on both extremes of Eq. (1.141), and taking into account that the basis {u i } is independent
of z, we have
d dAji (z)
A (z) x = xi uj (1.143)
dz dz
comparing Eqs. (1.142, 1.143) we obtain
dA (z) dAji (z)
=
dz ji dz
so the matrix representative of the derivative of A is obtained by taking the derivative of each of its elements 11 .
The differentiation rules are similar to the ones in ordinary calculus
d dF dG d dF dG
(F + G) = + ; (F G) = G+F (1.144)
dz dz dz dz dt dt
except that care must be taken with the order of appearance for the operators involved. Let us examine the second
of this equations, applying F G to an arbitrary vector x and using a basis {u i } we have
(F G) x = xi uj (F G)ji
taking the derivative on both sides we have

d (F G) d d d d
= (F G)ji = [Fjk Gki ] = Fjk Gki + Fjk Gki
dz ji dz dz dz dz
" #
dF dG
= Gki + Fjk
dz jk dz ki
in matrix form we see that

d (FG) dF dG
= G+F
dz dz dz
since there is a one-to-one isomorphism from the operators onto the matrices, we see that this relation is also valid
for the operators.
1.35.1. Some useful formulas

Applying the derivation rules we can develop some identities for functions of operators. Let us calculate the
derivative of the operator eAt . By definition we have
∞
X
At (At)n
e =
n=0
n!
differentiating the series term by term we have
X∞ X∞ X∞
d At An An (At)n−1
e = ntn−1 =0+ ntn−1 =A
dt n=0
n! n=1
n! n=1
(n − 1)!
"∞ # "∞ #
d At X (At)k X (At)k
e = A = A
dt k! k!
k=0 k=0
11
Care must be taken to distinguish between the derivative in Eq. (1.135) and the derivative in Eq. (1.140). In Eq. (1.135) the derivative
is taken with respect to B as the “variable of derivation”. On the other hand, in Eq. (1.140) the variable to derive with, is a parameter
z from which our matrix depend on.
1.36. STATE SPACE AND DIRAC NOTATION 69
where we have used the assignment k = n − 1. The series in the brackets is e At once again, so we have
d At
e = AeAt = eAt A (1.145)
dt
in this case eAt and A commutes because only one operator is involved. Suppose that we want to differentiate e At eBt .
Applying Eqs. (1.144, 1.145) we have

d At Bt d eAt Bt At d e
Bt
e e = e +e = AeAt eBt + eAt BeBt
dt dt dt
the operator A can pass over eAt if desired but not over eBt unless that A and B commute. Similarly, B can pass
over eBt but not over eAt .
However, even if a single operator appears we should be careful with the order sometimes. For instance, if A (t)
is an arbitrary function of time then
d A(t) dA A(t)
e 6= e (1.146)
dt dt
it could be checked that A (t) and dA (t) /dt must commute with each other for the equality to be valid.
Consider again two operators that commute with their commutator, we shall show that
1
[A, [A, B]] = [B, [A, B]] = 0 ⇒ eA eB = eA+B e 2 [A,B] (Glauber 0 s f ormula) (1.147)
let define F (t) with t real as
dF (t)
F (t) ≡ eAt eBt ; = AeAt eBt + eAt BeBt = A eAt eBt + eAt Be−At eAt eBt
dt
dF (t) At −At

= A + e Be F (t) (1.148)
dt
since A, B commute with their commutator, we can apply Eq. (1.138), so that
At
e , B = t [A, B] eAt ⇒ eAt B = BeAt + t [A, B] eAt
⇒ eAt Be−At = B + t [A, B]
substituting this expression in Eq. (1.148) we get
dF (t)
= {A + B + t [A, B]} F (t) (1.149)
dt
by hypothesis, A + B commutes with [A, B], so that the differential equation (1.149) can be integrated as if A + B
and [A, B] were numbers
1 2
F (t) = F (0) e(A+B)t+ 2 [A,B]t
setting t = 0 we see that F (0) = I, thus we obtain
1 2
F (t) = e(A+B)t+ 2 [A,B]t
setting t = 1 and taking into account again that A + B commutes with [A, B], we obtain (1.147). It is necessary to
emphasize that this equation is valid only if A and B commutes with [A, B].
1.36. State space and Dirac notation

We have defined the space of Physical states as the one constituted by functions ψ (r) square-integrable in a given
volume. The space with these characteristics is denoted by L 2 , but since in general with add some requirements to
these functions, we actually work in a subspace z ⊆ L 2 . On the other hand, we have seen that several bases can be
constructed to represent those functions. Therefore, the Physical system will be described by either the functions
ψ (r) or by the sete of its coordinates in a given representation. When the representation is discrete we have a
numerable set of coordinates (Fourier coefficients) while in the case of continuous bases, the set of coordinates is
continuous as well (Fourier transforms). In particular, the continuous basis denoted as ξ r0 (r) shows that the function
ψ (r) can be considered as a coordiante system as well, because in this basis, each coordinate is defined as ψ (r 0 )
i.e. the value of ψ at each fixed point r 0 of the volume12 .
We have now a situation similar to the one obtained in R 3 , we can define a vector by a triple of coordinates in
any basis defined by a set of coordinate axes. However, vectors in R 3 can be defined geometrically (intrinsically),
and its algebra can be performed in a coordinate-free form.
In the same way, we wish to define our state vector in a coordinate free (or intrinsic) way. The abstract space of
state vectors of a particle is denoted as E r which should be isometrically isomorphic with z. We should also define
the notation and algebra on the Er space.
Though we initially start with Er as identical to z, we shall see that it permits a generalization of the formalism
when the states in zdo not contain all the Physical information of the system, as is the case when spin degrees of
freedom are introduced in the formalism. Hence, the algebra that we shall develop now will be valid when these
generalizations are carried out. In developing this algebra we are going to present the Dirac notation which is useful
in practical calculations
1.37. Dirac notation

We are going to establish a one-to-one correspondence between the states of z and the states of E r , though the
latter will be extended later. Thus to every square-integrable function ψ (r) in z we make to correspond an abstract
vector in Er in the form
ψ (r) ↔ |ψi
an abstract vector in the notation |ψi will be called a ket. Notice that no r−dependence appears in |ψi. Indeed,
ψ (r) is interpreted in this framework as a representation of |ψi in which each ψ (r) is a coordinate in the basis given
by ξr (r0 ). Therefore, r plays the role of index (three continuous indices) for the particular basis used.
The space of states of a particle in one dimension is denoted as E x , while in three dimensions is Er .
1.37.1. Elements of the dual or conjugate space Er∗

In section 1.9.2 we defined a one-to-one correspondence between vectors (kets) of a Hilbert space and functionals
(bras) in the conjugate (dual) space in the following way (see Eqs. 1.29, 1.30)
|ψi ↔ f|ψi ; f|ψi (|ϕi) ≡ (|ψi , |ϕi)
Dirac notation designates f|ψi as hψ| which is called a bra. The correspondence above and the inner product will
be written as
|ψi ∈ Er ↔ hψ| ∈ Er∗ ; hψ| (|ϕi) ≡ (|ψi , |ϕi)
it induces a natural notation for the inner product
((|ψi , |ϕi)) ≡ hψ| ϕi
this is also called a bracket (i.e. the union of a bra with a ket). Let us now write the properties developed in section
1.9.2 Eq. (1.31), with this new notation
fα|ψi+β|ϕi = α∗ f|ψi + β ∗ f|ϕi

α |ψi + β |ϕi ∈ Er ↔ α∗ hψ| + β ∗ hϕ| ∈ Er∗
which is consistent with the properties of the inner product
(α |ψi + β |ϕi , |χi) = (α∗ hψ| + β ∗ hϕ|) |χi ⇒

hαψ + βϕ| χi = α∗ hψ| χi + β ∗ hϕ| χi
12
Notice that this is a simple way of defining an scalar field. A scalar field is completely delimited by defining its value at each point
of the space in which the field is defined (at a given time). In this case the number of coordinates is cleraly the number of points in our
space.
1.37. DIRAC NOTATION 71
since the functionals (bras) are linear by definition, a linear combination of kets gives
f|ψi (α |ϕi + β |χi) ≡ αf|ψi (|ϕi) + βf|ψi (|χi)
in Dirac notation it reads

hψ| αϕ + βχi = α hψ| ϕi + β hψ| χi
from these facts it is clear that for any scalar α
|αψi = α |ψi ; hαψ| = α∗ hψ| (1.150)
now since
(|ψi , |ϕi) = (|ϕi , |ψi)∗ ⇒

hψ| ϕi = hϕ| ψi∗
1.37.2. The correspondence between bras and kets with hyperbases

We have seen that hyperbases are sets of elements from which any element of the space can be expanded despite
those elements do not belong to the space under study. On the other, hand we have seen that the correspondence
between vectors and functionals (kets and bras) is one-to-one and onto. However, when hyperbases are used we shall
see that some linear functionals (bras) can be well-defined while there is not a well-defined corresponding vector
(ket)
(ε)
Assume for example that we have a ket in z given by a sufficiently regular function ξ x0 (x) such that
Z ∞
dx ξx(ε)
0
(x) = 1
−∞
E D
(ε) (ε)
with the form of a peak of height ∼ 1/ε and width ∼ ε centered at x = x 0 . If ε 6= 0 then ξx0 ∈ Ex . Let ξx0 ∈ Ex∗
be its associated bra. The idea is to have a function that conveeges to the Dirac delta function when ε → 0. For
each |ψi ∈ Ex we have that
Z ∞
hξx(ε)
0
|ψi = ξ (ε)
x0 , ψ = dx ξx(ε)
0
(x) ψ (x) (1.151)
−∞
now we let ε to approach zero, and we find that
lı́m ξx(ε)
0
/ zx
∈
ε→0
since the square of itsD norm tend to 1/ε and diverges. Nevertheless, in the limit ε → 0 the expression (1.151) is still
(ε)
well-defined, so that ξx0 is still associated with a functional that can be applied to any element of the state space,
we shall denote this bra as hξx0 | and this functional associates with each vector |ψi ∈ E x the value ψ (x0 ) taken on
by the associated wave function in zx at the point x0
D

lı́m ξx(ε)
0
= hξx0 | ∈ Ex∗ if |ψi ∈ Ex ⇒ hξx0 | ψi = ψ (x0 )
ε→0
then the bra hξx0 | ∈ Ex∗ exists but there is not a ket associated with it in the hyperbasis.
This dissymetry is associated with the use of a hyperbasis. The elements of the hyperbasis do not belong to z x
and so has no elements associated in E x either. However, the inner product of it with any element of z x is well-
defined and it permits to associate a bra belonging to E x∗ . Indeed, by the theory of Hilbert spaces the corresponding
ket must exists, what really happens is that we cannot construct it as an element of our hyperbasis, this is perfectly
undestandable since such elements are out of our Hilbert space.
Notice that we have indeed extended the concept of inner product and we have applied it to elements out of our
Hilbert space. For practical reasons it is usual to associate the bras hξ x0 | ∈ Ex∗ to the “generalized ket” |ξx0 i that
are not physical states but are advantageous from the practical point of view.
Another example is the continuous basis consisting of plane waves truncated outside an interval of width L
1 L L
vp(L) (x) = √ eip0 x/~ ; − ≤x≤
0
2π~ 2 2
(L)
with the function vp0 (x) going rapidly
E to zero outside of that interval, but keeping continuity and differentiability.
(L)
The ket associated is denoted as vp0
E
(L)
vp(L)
0
(x) ∈ z x ↔ v p 0
∈ Ex
the square of the norm is ∼ L/2π~, diverges if L → ∞. Therefore

E

lı́m vp(L)
0
∈
/ Ex
L→∞
D E
(L) (L)
now we consider the limit of the bra vp0 associated with vp0 and applied to an arbitrary vector |ψi ∈ E x
D Z L/2
1
vp(L)
0
ψi = v (L)
p0 , ψ ' √ dx e−ip0 x/~
2π~ −L/2
in the limit L → ∞ we find ψ̄ (p0 ) i.e. the Fourier transform of ψ (x) evaluated at p = p 0 . From which we see that
the inner product converges and is well-defined
D

lı́m vp(L)
0
≡ hvp0 | ∈ Ex∗
L→∞
E
(L)
but it does not correspond to the ket associated with the limit of kets of the form vp0 .
E
(ε)
We could take the results above with the following point of view, the ket |ξ x0 i means the ket given by ξx0 with
ε much smaller than any other length involved in the problem, so we are really working in E x . The results obtained
at
the E end depends very little on ε as long as it is much smaller than any other length in the problem. Certainly,
(ε)
ξx0 does not form an orthonormal basis, and do not satisfy a closure realtion with ε 6= 0, but it aproaches the
orthonormality and closure conditions as ε becomes very small.
The introduction of generalized kets, will ensure that we balance bras and kets in the limits concerned above.
Generalized kets do not have finite norm, but they can acquire a finite inner product with kets of our space of states.
1.38. The action of linear operators in Dirac notation

Linear operators are characterized easily in Dirac notation
0
ψ = A |ψi ; |ψi , ψ 0 ∈ Ex
A (α |ψi + β |ϕi) = αA |ψi + βA |ϕi
the product of operators writes

AB |ψi = A (B |ψi)
it is also important to calculate the inner product between |ϕi and |ψ 0 i = A |ψi in the form

|ϕi , ψ 0 = (|ϕi , A |ψi) = hϕ| (A |ψi)
this is usually denoted simply as

hϕ| (A |ψi) ≡ hϕ| A |ψi
1.38. THE ACTION OF LINEAR OPERATORS IN DIRAC NOTATION 73
1.38.1. Projectors
The simplest of all projectors are the ones in which the range are one dimensional subspaces of the Hilbert
space. Let {|ψi} be the one dimensional space spanned by the single non-zero ket |ψi. The projector P |ψi takes an
arbitrary ket |ϕi ∈ Ex and maps it into {|ψi} i.e.
P|ψi |ϕi = α |ψi ; α ≡ hψ| ϕi
in Dirac notation it could be written as
P|ψi ≡ |ψi hψ| ; P|ψi |ϕi = (|ψi hψ|) |ϕi = |ψi hψ| ϕi = α |ψi (1.152)
the most important property of a projector is the idempotence so that

2
P|ψi ≡ (|ψi hψ|) (|ψi hψ|) = |ψi hψ| ψi hψ| = P |ψi
⇒ hψ| ψi = 1
so the definition of P|ψi Eq. (1.152) as a projector is consistent only if |ψi is normalized.
Now we can write the projector onto a subspace of more than one dimension. If n j is the dimension of the
(n )
subspace Mj j ⊆ Ex we can define the projector from a complete orthonormal set
i
uj ; i = 1, .., nj (1.153)
that spans such a subspace
(n1 ) (nj )
Ex = M 1 ⊕ . . . ⊕ Mj ⊕ ...
x = x1 + . . . + x j + . . .
n1 nj
X (1) i
X (j)
x = αi u1 + . . . + αi uij + . . .
i=1 i=1

(n)
αk ≡ ukn , x
nj
X (j)
P Mj x = x j = αi uij
i=1
nj
X
P Mj x = uij , x uij
i=1
in Dirac notation it is
nj n
X i Xj
i
i
PMj |xi = huij
|xi uj = u uj |xi
j
i=1 i=1
thus a direct notation for the projector is
nj
X i
i
P Mj ≡ uj uj (1.154)
i=1
(nj )
it is clear that this is a projector as long as Eq. (1.153) defines an orthonormal set that spans M j of dimension
nj .
nj ! nj ! nj nj
X i
i X E D X X ED
2 uj uj k k i i k
P Mj = u
j u j = u j hu j uj ukj
i=1 k=1 i=1 k=1
nj nj D X nj
X X i
i
2 i k uj uj = P M
PM j
= uj δik uj = j
i=1 k=1 i=1
If we have an observable A, its spectrum of eigenvectors forms a basis and we can construct a complete orthonormal
set. In that case, the spectral theorem (assuming it can be extended to infinite dimension for observables) says that
the identity and the observable A itself can be decomposed by means of the projectors built on each eigensubspace
of the observable, if Mi is the eigensubspace generated by the eigenvalue λ i of A we have that
Ex = M 1 ⊕ . . . ⊕ M i ⊕ . . .
x = x1 + . . . + x i + . . .
Pi x = x i
in Dirac notation we have

ni E D
X j
Pi = ui uji
j=1
the spectral theorem says that

∞
X ni E D
∞ X
X j
Pi = ui uji = I (1.155)
i=1 i=1 j=1
∞
X X∞ X ni ED

λi Pi = λi uji uji = A (1.156)
i=1 i=1 j=1
n o
these forms will be applied frequently in quantum mechanics. Notice that Eq. (1.155) is valid if and only if uji
is a complete orthonormal set. Thus the decomposition of the identity in projectors is usually taken as the closure
relation for the basis (or hyperbasis) in which we are working.
It is also usual to work with a more general type of projector of the form
P = |ψi hϕ| (1.157)
applying an arbitrary vector on it we find
|ψi hϕ| χi = α |ψi ; α ≡ hϕ| χi
this is a projector on the one dimensional subspace {|ψi}. This operator is idempotent only if hϕ| is normal, however
it defines a non-orthogonal projection, since we shall see later that this operator is not self-adjoint or hermitian.
1.39. Hermitian conjugation

We have defined the action of a linear operator on a ket. We see that it induces a natural action of the operator
on the bra
f|ϕi (A |ψi) = (|ϕi , A |ψi) ≡ gA|ϕi (|ψi) ∀ |ψi ∈ Ex (1.158)
the definition of the new functional g A|ϕi from a given f|ϕi and a given A is written in Dirac notation as 13
A
f|ϕi ≡ hϕ| → gA|ϕi ≡ hϕ| A (1.159)
and Eq. (1.158) is written as

hϕ| (A |ψi) = (hϕ| A) (|ψi) (1.160)
so it is written simply as
hϕ| A |ψi
13
Notice that gA|ψi is a new functional induced from f|ϕi and A. Of course gA|ψi must be associated to some vector i.e. gA|ψi = f|χi
for some |χi in our vector space, but it does not concern us. In particular, it is very important to observe that g A|ψi 6= fA|ψi .
1.39. HERMITIAN CONJUGATION 75
we should check that g is indeed a functional i.e. that it is a continuous linear mapping of the vectors into the
complex numbers, the basic properties of functionals are reproduced
gαA|ϕi+βA|χi (ψ) = α∗ gA|ϕi (|ψi) + β ∗ gA|χi (|ψi)
gA|ϕi (α |ψi + β |χi) = αgA|ϕi (|ψi) + βgA|ϕi (|χi)
Further, the association (1.159) is linear, to see it, we write a linear combination of bras
hϕ| = λ1 hϕ1 | + λ2 hϕ2 |
which means that
hϕ| ψi = λ1 hϕ1 | ψi + λ2 hϕ2 | ψi ; ∀ |ψi ∈ Ex
then
(hϕ| A) (|ψi) = hϕ| (A |ψi) = (λ1 hϕ1 | + λ2 hϕ2 |) (A |ψi)
= λ1 hϕ1 | (A |ψi) + λ2 hϕ2 | (A |ψi)
= λ1 (hϕ1 | A) |ψi + λ2 (hϕ2 | A) |ψi
since ψ is arbitrary we find
hϕ| A = λ1 hϕ1 | A + λ2 hϕ2 | A
notice that is different to start with a linear combination of kets from starting with a linear combination of bras,
because the linear combination of a ket corresponds to a linear combination with conjugate coefficients in the bras
(antilinearity). The order is important, the new bra induced from hϕ| by the operator A is written as hϕ| A and not
in the form A hϕ|. For instance if we apply this relations to a ket the first expression hϕ| A |ψi is a complex number,
while the second A hϕ| ψi = αA is another operator.
1.39.1. The adjoint operator A† in Dirac notation

In Dirac notation we write |ψ 0 i = A |ψi ≡ |Aψi. We now want to know what is the corresponding bra |ψ 0 i ↔
hψ 0 |≡ hAψ|. In mathematical notation the question is

|ψi → f|ψi ; ψ 0 = A |ψi ≡ |Aψi ⇒
0 ?
ψ → f|ψ0 i
to elucidate the answer we apply an arbitrary vector |ϕi to the functional we want to find
fA|ψi (|ϕi) = f|ψ0 i (|ϕi) = hψ 0 |ϕi = hAψ| ϕi = hψ| A† ϕi
where we have applied property (1.35). Now we apply property (1.160) to get
E

f|ψ0 i (|ϕi) = hψ| A† ϕ = hψ| A† (|ϕi)
since this is valid for |ϕi arbitrary we find

f|ψ0 i ≡ ψ 0 = hψ| A†
in Dirac notation we have then
0
ψ = A |ψi ≡ |Aψi

0
ψ = hψ| A† ≡ hAψ|
notice that as before, the mapping of the dual space into itself is denoted with the operator defined on the right-hand
side and not on the left14 . Further by assigning A = λI and taking into account that A † = λ∗ I we have that

0
ψ = hλψ| = hλIψ| = hψ| (λI)† = hψ| λ∗ I ⇒
hλψ| = λ∗ hψ|
14
Stricktly speaking, a mapping of the dual (or conjugate) space into itself is carried out by the conjugate operator instead of the
adjoint operator since the latter maps the Hilbert space into itself and not the dual. Notwithstanding, from the practical point of view
this subtlety is irrelevant.
in agreement with Eq. (1.150). On the other hand since

0
ψ ϕi = hϕ| ψ 0 i∗
we see that
hψ| A† |ϕi = hϕ| A |ψi∗ (1.161)
and we remember the most important properties of the adjoint operators (see Eqs. (1.34))
†
A† = A , (αA + βB)† = α∗ A† + β ∗ B † (1.162)
(AB)† = B † A† (1.163)
1.39.2. Mathematical objects and hermitian conjugation in Dirac notation

In general, the order of bras, kets and operators is of major importance, the only objects we can put in any
order are scalars, for instance the mathematical objects
λ hϕ| B |ψi ; λ hψ| B |ϕi ; λ hψ| ϕiB ; λ |ψi hϕ| B (1.164)
are all distinct each other, the first and second are complex numbers, while the last two are operators, as can be
verified by applying an arbitrary vector on the right-hand side of these objects. However, expressions like
λ |ψi hϕ| B ; |ψi λ hϕ| B ; |ψi hϕ| λB ; |ψi hϕ| Bλ
are all equal, indeed we could think about the multiplication by a scalar as equivalent to the operator λI which
commutes with everything.
We shall now define a useful operation that we call hermitian conjugation. Our basic objects are kets, bras,
operators and scalars. In general words, hermitian conjugations are mappings induced by the existence of the dual
E ∗ of our Hilbert space E.
A ket |ψi ∈ E is naturally mapped into a bra hψ| ∈ E ∗ .
A bra hψ| ∈ E ∗ is naturally mapped into an element of the conjugate space of E ∗ , i.e on E ∗∗ . However, for Hilbert
spaces it can be shown that E ∗∗ = E hence the bra is mapped into its corresponding ket 15 .
An operator A in ß(E) is mapped naturally into the conjugate vector A ∗ in ß(E ∗ ) but the inner product structure
permits in turn to define another operator A † in ß(E) from A∗ and from the practical point of view we regard A ∗
and A† as identical. Thus the hermitian conjugation in this case will be the mapping A → A † .
Now finally for scalars. Taking into account that for all practical uses scalars λ can be considered as operators
in ß(E) of the form λI we see that the natural hermitian conjugation gives λI → (λI) † = λ∗ . Therefore, the natural
conjugation operation is λ → λ∗ .
We notice now that the hermitian conjugation reverses the order of the objects to which it is applied. We have
seen that (A |ψi)† = hψ| A† , Eq. (1.163) shows that the order of a product of operators is reversed when we apply
the “adjointness” (or hermitian conjugation) on that product, when scalars are involved the place in which scalars
are located is irrelevant.
By the same token, let us see what is the conjugate of the non orthogonal projection defined in (1.157)
P = |ψi hϕ| ; P † = (|ψi hϕ|)†
applying Eq. (1.161) we find
hχ| (|ψi hϕ|)† |ηi = [hη| (|ψi hϕ|) |χi]∗ = hη| ψi∗ hϕ| χi∗ = hχ| ϕi hψ| ηi
hχ| (|ψi hϕ|)† |ηi = hχ| (|ϕi hψ|) |ηi ; ∀ |ηi , |χi ∈ E
then we have
(|ψi hϕ|)† = |ϕi hψ| (1.165)
15
In Banach spaces, the property B ∗∗ = B is called reflexibity and is not in general satisfied. For Hilbert spaces, reflexibity is automatic
from which we can assign the dual element of a dual element to the original vector. This is another satisfying property of Hilbert spaces,
not accomplished by general Banach spaces.
1.40. THEORY OF REPRESENTATIONS OF E IN DIRAC NOTATION 77
once again, the hermitian conjugation converts each object in its hermitian conjugate and reverse the order of such
objects.
These observations permit to give a rule to obtain the hermitian conjugate of a mathematical object composed
by a juxtaposition of bras, kets, operators and scalars. The rule is (a) replace each object by its hermitian conjugate
|ψi → hψ| , hϕ| → |ϕi , A → A † , λ → λ∗
and (b) reverse the order of the factors, taking into account that the position of the scalars are not relevant.
The hermitian conjugate of the objects defined in (1.164) are given by
[λ hϕ| B |ψi]† = hψ| B † |ϕi λ∗ = λ∗ hψ| B † |ϕi = [λ hϕ| B |ψi]∗

[λ hψ| B |ϕi]† = hϕ| B † |ψi λ∗ = λ∗ hϕ| B † |ψi = [λ hψ| B |ϕi]∗
[λ hψ| ϕiB]† = B † hϕ| ψiλ∗ = λ∗ hϕ| ψiB † = (λ hψ| ϕi)∗ B †
[λ |ψi hϕ| B]† = B † |ϕi hψ| λ∗ = λ∗ B † |ϕi hψ| = λ∗ B † [|ψi hϕ|]†
in the first two expressions the original mathematical objects are scalars and hence the hermitian conjugates are also
scalars (the complex conjugates of the original scalars). In the third expression the original object is an operator
and its hermitian conjugate is also an operator (the adjoint of the original operator). In the fourth expression, the
original object is a product of two operators and a scalar (a scalar times a projection times the operator B) and the
adjoint is the product of the scalar and adjoint of each of the operators in reverse order. In each case, the scalars
are located in the most convenient place since their positions are unimportant. Indeed, we can put the conjugate of
the scalars in any place, for instance in the case
[λ |χi hψ| B |ϕi]† = [λ hψ| B |ϕi |χi]† = λ∗ hψ| B |ϕi∗ hχ|
that coincides with the rules when we take into account Eq. (1.161).
It is important to see that according to (1.165) the projectors given by (1.152) are hermitian, thus according to
theorem 1.44, they are orthogonal projectors (i.e. projectors in the sense of a Hilbert space), this in turn says that
the sums in (1.154) are also orthogonal projectors (see theorem 1.50). On the other hand, the projectors described
by (1.157) with |ϕi 6= |ψi are non-hermitian and consequently they are non-orthogonal projections.
1.40. Theory of representations of E in Dirac notation

For most of our purposes we shall use a representation with respect to orthonormal bases. The particular problem
suggests the particular basis to work with. Most of the developments here are not new but gives us a very good
opportunity of using the Dirac notation and be aware of its great advantages as a tool for calculations. We are going
to describe the representation theory in both discrete and continuous bases.
1.40.1. Orthonormalization and closure relation

In Dirac notation, the orthonormality of a set of discrete {|u i i} or continuous {|wα i} orthonormal kets is
expressed by

hui |uj i = δij ; hwα |wα0 i = δ α − α0
we emphasize once again that hwα |wα i diverges so that |wα i does not have a bounded norm and thus it does not
belong to our state space. We call |w α i generalized kets because they can be used to expand any ket of our state
space.
A discrete set {ui } or a continuous one {wα } constitutes a basis if each ket |ψi of our state space can be expanded
in a unique way on each of these sets
X Z
|ψi = ci |ui i ; |ψi = dα c (α) |wα i (1.166)
i
the problem is considerably simplified if we asume that the bases are orthonormal, because in that case we can
extract the coefficients by applying a bra hu k | or hwα0 | on both sides of these equations
X Z
huk |ψi = huk | ci |ui i ; hwα0 |ψi = hwα0 | dα c (α) |wα i
i
X X
huk |ψi = ci huk | ui i = ci δki = ck
Zi i
Z

hw |ψi =
α0 dα c (α) hw | wα i =
α0 dα c (α) δ α − α0 = c α0
from which we obtain the familiar result

ck = huk |ψi ; c α0 = hwα0 |ψi (1.167)
replacing the Fourier coefficients (1.167) in the expansions (1.166) we find

!
X X X
|ψi = hui |ψi |ui i = |ui i hui |ψi = |ui i hui | |ψi
i i i
Z Z Z
|ψi = dα hwα |ψi |wα i = dα |wα i hwα |ψi = dα |wα i hwα | |ψi
since this is valid for any ket |ψi ∈ E the operators in parenthesis must be the identity operator on E
X Z
P{ui } ≡ |ui i hui | = I ; P{wα } ≡ dα |wα i hwα | = 1 (1.168)
i
we can reverse the steps and show that applying the identity in the form given by Eqs. (1.168) we obtain that any
|ψi ∈ E must be a unique linear combination of {|u i i} or {|wα i}
!
X X
|ψi = I |ψi = P{ui } |ψi = |ui i hui | |ψi = |ui i hui | ψi
i i
X
|ψi = ci |ui i ; ci ≡ hui | ψi (1.169)
i
Z Z
|ψi = I |ψi = P{wα } |ψi = dα |wα i hwα | |ψi = dα |wα i hwα | ψi
Z
|ψi = dα c (α) |wα i ; c (α) ≡ hwα | ψi
these facts show that Eqs. (1.168) manifest a closure relation in Dirac notation. This is consistent with our discussion
in Sec. 1.38.1 that led to Eq. (1.155), in which we saw that each element of the form |u i i hui | is a projector operator
and Eqs. (1.168) are decompositions of the identity in projectors 16 . In other words, the projector given by the sums
in (1.168) has the whole space as its range. In the case of the continuous basis, they are “hyperprojectors” but we
shall call them projectors from now on.
Hence the representation of a ket |ψi in a discrete basis is given by the set of its fourier coefficients {hu i | ψi} it
is usually written in matrix form as a column matrix
   
hu1 | ψi c1
 hu2 | ψi   c2 
   
 ..   .. 

|ψi =  .   
= . 
 hui | ψi   ci 
   
.. ..
. .
16
In Eq. (1.155) the lower index labels the eigenvalue and the upper index indicates the degree of degeneracy of the given eigenvalue.
In Eq. (1.168) the single index runs over all different eigenvectors.
the representation of a ket |ψi in a continuous basis is given by the set of its fourier transforms {hu i | ψi} it is usually
written in continuous matrix form as a column matrix
   
.. ..
 .   . 
|ψi = 
 hw α | ψi  =  c (α) 
  
.. ..
. .
the representation of a bra can be obtain by the same insertion of the identity as follows
X
hψ| = hψ| I = hψ| P{ui } = hψ| ui i hui |
i
X
hψ| = c∗i hui | ; ci = hui | ψi
i
which can also be obtained by taking the hermitian conjugation of Eq. (1.169) and applying (1.150). For continuous
basis the process is similar
Z
hψ| = hψ| I = hψ| P{wα } = dα hψ| wα i hwα |
Z
hψ| = dα c∗ (α) hwα | ; c (α) = hwα | ψi
in matrix notation the bra is represented as a one row matrix of the coefficients, in both the discrete and continuous
cases

hψ| = hψ| u1 i hψ| u2 i · · · hψ| ui i · · ·

hψ| = c∗1 c∗2 · · · c∗3 · · ·

hψ| = ··· c∗ (α) · · ·
by comparing the representation of the corresponding ket |ψi we see that the representation of the bra is obtained
by transposing the matrix representative of the ket (i.e. converting the column in a row) and taking the conjugate
of each element.
Let us reproduce the inner product expressions (1.106) and (1.113) by insertion of the identity with projectors
X
hϕ| ψi = hϕ| I |ψi = hϕ| P{ui } |ψi = hϕ| ui ihui |ψi
i
X
hϕ| ψi = b∗i ci ; bi = hui | ϕi ; ci = hui |ψi
i
Z
hϕ| ψi = hϕ| I |ψi = hϕ| P{wα } |ψi = dα hϕ| wα ihwα |ψi
Z
hϕ| ψi = dα b∗ (α) c (α) ; b (α) = hwα | ϕi ; c (α) = hwα |ψi
in matrix form we can see the inner product as the product of a row vector times a column vector
 
c1
  c2
  X
  ..
hϕ| ψi = b∗1 b∗2 · · · b∗3 ··· 

=
 b∗i ci
.
 ci  i
 
..
.
in continuum form we have

 
..
. Z
 
hϕ| ψi = ··· ∗  
b (α) · · ·  c (α)  = dα b∗ (α) c (α)
..
.
and the norms are obtained with ϕ = ψ i.e. b i = ci or b (α) = c (α)
2
X 2 Z
hψ| ψi = kψk = |ci | = dα |c (α)|2
i
1.40.2. Representation of operators in Dirac notation

Let us see the representation of an operator A under a basis {u i } or {wα }. We have seen that a matrix repre-
sentative of A under the basis {ui } is
Aij = hui | Auj i = hui | A |uj i
and in a continuous basis
A α, α0 = hwα | A |wα0 i
they are arranged in a square matrix with infinite countable or continuous numbers of columns and rows
 
A11 A12 · · · A1j · · ·
 A21 A22 · · · A2j · · · 
 
 .. .. .. 
A= .  . . 

 Ai1 Ai2 · · · Aij · · · 
 
.. .. ..
. . .
 
..
 . 
A=  · · · A (α, α 0) · · · 

..
.
it is interesting to see the matrix representative of a product of operators by insertion of the identity
X
(AB)ij = hui | AB |uj i = hui | AIB |uj i = hui | AP{ui } B |uj i = hui | A |uk i huk | B |uj i
k
X
(AB)ij = Aik Bkj
k
which coincides with the algorithm for matrix multiplication developed in Sec. 1.14.1, Eq. (1.49). We can develop
easily the matrix multiplication algorithm with continuum matrices
(AB) (α, β) = hwα | AB |wβ i = hwα | AIB |wβ i = hwα | AP{ui } B |wβ i
Z
(AB) (α, β) = dγ hwα | A |wγ i hwγ | B |wβ i
Z
(AB) (α, β) = dγ A (α, γ) B (γ, β) (1.170)
now let us see the matrix representative of the ket |ψ 0 i given by

A |ψi = ψ 0
from the knowledge of the components of |ψi and A, in a given representation {u i }. The coordinates of |ψ 0 i in this
basis is
X
c0i = hui ψ 0 = hui | A |ψi = hui | AI |ψi = hui | AP{ui } |ψi = hui | A |uk i huk | ψi
k
X
c0i = Aik ck
k
that explicitly can be illustrated as

    
c01 A11 A12 · · · A1j ··· c1
  
c02 A21 A22 · · · A2j ···   c2 
    
  
.. .. .. ..  .. 
 =
. . . .  . 
    
 c0   Ai1 Ai2 · · · Aij ···   ci 
 i    
.. .. .. .. ..
. . . . .
with a continuous basis {wα } we have

Z
c0 (α) = hwα | ψ 0 i = hwα | A |ψi = hwα | AI |ψi = hwα | AP{wα } |ψi = dβ hwα | A |wβ i hwβ |ψi
Z
c0 (α) = dβ A (α, β) c (β)
which is the continuous extension of multiplication of a matrix with a column vector.

Let us see the representation of the bra hψ| A
XX
hψ| A = hψ| IAI = hψ| ui i hui | A |uj i huj |
i j
XX
= c∗i Aij huj |
i j
Therefore, the bra hψ| A is represented by the product of the row matrix that represents hψ| times the square
matrix representing A respecting the order
 
A11 A12 · · · A1j ···
 A21 A22 · · · A2j ··· 
 
 .. .. .. 
hψ| A = c1 c2 · · · c3 · · · 
∗ ∗ ∗
 . . . 

 Ai1 Ai2 ··· Aij ··· 
 
.. .. ..
. . .
observe that the matrix product is not defined in the opposite order, thus we cannot give meaning to A hψ|.
In many cases, it is also interesting to calculate the element hϕ| A |ψi in terms of the coordinates of the bra and
the ket and in terms of the components of A. To do it, we insert an expansion of the identity twice
XX
hϕ| A |ψi = hϕ| IAI |ψi = hϕ| P{ui } AP{ui } |ψi = hϕ| ui i hui | A |uj i huj |ψi
i j
XX
hϕ| A |ψi = b∗i Aij cj ; bi = hui | ϕi, Aij = hui | A |uj i , cj = huj |ψi
i j
which in matrix form is written as a bilinear form

  
A11 A12 · · · A1j ··· c1
 A21 A22 · · · A2j ···   c2 
  
 .. .. ..  .. 
hϕ| A |ψi = b∗1 b∗2 · · · b∗3 ··· 
 . . . 
 . 
 (1.171)
 Ai1 Ai2 · · · Aij ···   ci 
  
.. .. .. ..
. . . .
this is the natural way of superposing the representations of hϕ|, A, and |ψi respecting the order. The result is of
course a number. The extension for continuous bases is
Z Z
hϕ| A |ψi = hϕ| P{wα } AP{wβ } |ψi = dα dβ hϕ| wα i hwα | A |wβ i hwβ |ψi
and we obtain
Z Z
hϕ| A |ψi = dα dβ b∗ (α) A (α, β) c (β)
b (α) = hwα | ϕi ; A (α, β) = hwα | A |wβ i ; c (β) = hwβ |ψi
notice that Eq. (1.160) expresses the associativity of the matrix expressions given by Eq. (1.171).
Finally, the projection operator P = |ψi hψ| has matrix representative given by
Pij = hui | P |uj i = hui | ψihψ |uj i = ci c∗j
in matrix language it is written as

   
c1 c1 c∗1 c1 c∗2 · · · c1 c∗j · · ·
 c2   c2 c∗1 c2 c∗2 · · · c2 c∗j · · · 
   
 ..   .. .. .. 
|ψi hψ| =  . 

 c∗1 c∗2 · · · c∗3 · · · =
 . . . 

 ci   ci c∗1 ci c∗2 · · · c i cj · · · 
∗
   
.. .. .. ..
. . . .
this representation is particularly simple when P = |u k i huk | i.e. when the ket that forms the projector is part of
the basis.
The matrix representation of the adjoint operator is obtained by using property (1.161)

A† = hui | A† |uj i = huj | A |ui i∗ = A∗ji
ij

A† (α, β) = hwα | A† |wβ i = hwβ | A |wα i∗ = A∗ (β, α)
these results coincide with the one obtained in Eq. (1.69). If A is hermitian then A = A † and
Aij = A∗ji ; A (α, β) = A∗ (β, α) (1.172)
in particular applying these conditions for i = j or α = β we see that the diagonal elements of an hermitian matrix
are real. These facts are valid only if the basis is orthonormal, otherwise the matrix representative of the adjoint of
the matrix takes another form.
1.41. Change of representations

In a representation characterized by a given orthonormal basis {|u i i} the kets, bras and operators have some
specific matrix representatives. We want to write the matrix representative of these objects in a new orthonormal
basis {|tk i} using the Dirac notation17 . For future purposes we define the matrix S in the form

Sik ≡ hui | tk i ; S† ∗
= Sik = htk | ui i
ki
(k)
To give a geometrical meaning to S, let define V i ≡ Sik and V(k) the k−th column vector with components S ik .
Then, it is clear that V (k) is the matrix representative (column matrix) of the element |t k i in the basis {|ui i}. We
then construct a square matrix by putting these column vectors side by side
     
S11 S12 S11 S12 · · ·
     
S = V(1) V(2) · · · =  S21   S22  · · ·  =  S21 S22 · · · 
.. .. .. ..
. . . .
17
This problem is a bit lees general that the one treated in Sec. (1.14), because in that section the bases involved are non necessarily
orthonormal. However, in this case we are treating the problem in infinite dimension.
1.41. CHANGE OF REPRESENTATIONS 83
We can also see that S is a unitary matrix

X † X
S†S = Ski Sim = htk | ui i hui | tm i = htk | P{ui } |tm i = htk | tm i = δkm
km
i i
X X
† †
SS = Sik Skj = hui | tk i htk | uj i = hui | P{tk } |uj i = hui | uj i = δij
ij
k k
consequently
S † S = SS † = I
On the other hand, we will also require the closure and orthonormalization relations with both bases
X
P{ui } = |ui i hui | = I ; hui | uj i = δij
i
X
P{tk } = |tk i htk | = I ; htk | tm i = δkm
k
1.41.1. Transformation of the coordinates of a ket

The coordinates of a ket |ψi in the basis {|u i i} are hui | ψi ≡ |ψi(ui ) . To know the coordinates in the new basis
htk | ψi, in terms of the old ones, we insert the closure relation for {|u k i} in the element htk | ψi
X X †
htk | ψi = htk | ui i hui | ψi = Ski hui | ψi
i i
(t)
X † (u) (t)
ck = Ski ci ; c = S † c(u)
i
The inverse relation can be obtained by taking into account that S † = S −1
c(t) = S −1 c(u) ⇒ c(u) = Sc(t)
or alternatively by inserting an identity in the element hu i | ψi

X X
hui | ψi = hui | tk i htk | ψi = Sik htk | ψi
k k
(u)
X (t) (u)
ci = Sik ck ; c = Sc(t)
k
1.41.2. Transformation of the coordinates of a bra

We insert the identity in the element hψ| t k i
X X
hψ| tk i = hψ| ui i hui | tk i = hψ| ui iSik
i i
∗(t)
X ∗(u) ∗(t)
ck = ci Sik ⇒e
c c∗(u) S
=e
i
similarly
c∗(u) = e
e c∗(t) S †
1.41.3. Transformation of the matrix elements of an operator

We start with htk | A |tm i and insert two identities
XX X † (u)
htk | A |tm i = htk | IAI |tm i = htk | ui i hui | A |uj i huj |tm i = Ski Aij Sjm
i j i,j
(t)
X † (u)
Akm = Ski Aij Sjm ; A(t) = S † A(u) S (1.173)
i,j
and the inverse relation is obtained from

X X (t) †
huk | A |um i = huk | ti i hti | A |tj i htj |um i = Ski Aij Sjm
i,j i,j
(u)
X (t)†
Akm = Ski Aij Sjm ; A(u) = SA(t) S † (1.174)
i,j
or taking into account that S † = S −1 .
1.42. Representation of the eigenvalue problem in Dirac notation

For a given observable A the eigenvalue problem reads
A |ψi = λ |ψi
we want to construct its matrix representation in a basis {u i }. We first multiply by a bra of the form hu i | on both
sides
hui | A |ψi = λhui |ψi
and insert an identity
X
hui | A |uj i huj |ψi = λhui |ψi
j
X
Aij cj = λci ; ci ≡ hui |ψi ; Aij ≡ hui | A |uj i
j
with ci and Aij the matrix elements of |ψi and A in the basis {u i }. This expression can be rewritten as
X
[Aij − λδij ] cj = 0
j
which is the well known expression for the eigenvalue problem in matrix form.
1.42.1. C.S.C.O. in Dirac notation

n o
(1) (m)
Assume that a given set of observables {A 1 , ..., Am } forms a C.S.C.O. Then a given set of eigenvalues an1 , ..., anm
defines a unique normalized eigenvector common to all the observables (within a phase factor). We shall see later
that any set of kets that differ in a global phase factor
|ψi , eiθ1 |ψi , ..., eiθk |ψi

n o
(1) (m)
have the same physical information. Thus, the normalized ket associated with the set an1 , ..., anm is unique from
the physical pointof view. Therefore, it is usual to denote the corresponding ket in the form |ψ n1 ,...,nm i or simply as
|n1 , n2 , ..., nm i and the set of eigenvalues are called quantum numbers.
Ai |n1 , . . . , ni , ..., nm i = a(i)

ni |n1 , . . . , ni , ..., nm i ; i = 1, .., m
1.43. The continuous bases |ri and |pi

From the wave functions space z we have constructed the abstract space E r such that there is an isometric
isomorphism of z onto Er , therefore they are abstractly identical as Hilbert spaces. Consequently, an element
ψ (r) ∈ z has a unique image |ψi ∈ Er and vice versa. In particular, the inner product must be preserved by this
correspondence
|ψi ↔ ψ (r) ; |ϕi ↔ ϕ (r) ; hψ| ↔ ψ ∗ (r) ; hϕ| ↔ ϕ∗ (r)

Z
(|ϕi , |ψi) = (ϕ, ψ) ≡ hϕ| ψi = d3 r ϕ∗ (r) ψ (r)
1.43. THE CONTINUOUS BASES |Ri AND |Pi 85
Er will describe the state space of a spinless particle. We have discussed before that ψ (r) can also be interpreted
as a representation of the abstract ket |ψi in the continuous basis {ξ r (r0 )} defined in Eq. (1.119). We also saw that
ξr (r0 ) are not elements of z, but they can be used to expand any element of z in a unique way. We call ξ r (r0 )
“generalized wave functions” and it is natural to associate with them some “generalized kets” denoted as |ri that
do not belong to Er but can expand any element of Er in such a way that if ψ (r) ↔ |ψi then the expansion of ψ (r)
under ξr (r0 ) has the same coefficients as the expansion of |ψi under |ri
Z Z

ψ (r) = dr c r ξr0 (r) ; |ψi = dr0 c r0 r0
0 0
We denote this association as ξr ↔ |ri. Similarly, for the continuous basis defined in Eq. (1.115) by {v p (r)} which
has plane waves as “generalized wave functions”, we shall have a continuous basis of E r denoted as |p0 i

ξr r0 ↔ |ri ; vp (r) ↔ |pi
therefore, using the bases {ξr (r0 )} and {vp (r)} of z we have defined two continuous basis in E r denoted as
{|ri} and {|pi}. Consequently, all bras, kets and operators in E r will have a continuous matrix representation
in these bases. The basis {|ri} is labeled by three continuous indices x, y, z which are the coordinates of a point
in three dimensional space. Similarly, the basis {|pi} is labeled by three continuous indices p x , py , pz which are
components of a cartesian vector.
1.43.1. Orthonormalization and closure relations

We shall calculate hr |r0 i using the definition of the scalar product in E r
Z Z
0

hr r = d r ξr r ξr0 r = d3 r00 δ r00 − r δ r00 − r0
3 00 ∗ 00 00

hr r0 = δ r − r0 (1.175)
similarly
Z Z Z
1 3 0 1 3 0
hp p0 = d3 r vp∗ (r) vp0 (r) = d3 r e−ip·r/~ eip ·r = d3 r e−i(p−p )·r/~
2π~ 2π~

hp p0 = δ p − p0
where we have used property (1.116). The closure relations for {|ri} and {|pi} are written according with the second
of Eqs. (1.168) integrating over three indices instead of one. The orthonormality and closure relations for these bases
are then

hr r0 = δ r − r0 ; hp p0 = δ p − p0 (1.176)
Z Z
d3 r |ri hr| = I ; d3 p |pi hp| = I (1.177)
1.43.2. Coordinates of kets and bras in {|ri} and {|pi}

Consider an arbitrary ket |ψi corresponding to a wave function ψ (r). The closure relations for {|ri} and {|pi}
permits to expand |ψi as
Z Z Z Z
|ψi = d r |ri hr| ψi = d r c (r) |ri ; |ψi = d p |pi hp| ψi = d3 p c̄ (p) |pi
3 3 3
(1.178)
the coefficients c (r) = hr| ψi and c̄ (p) = hp| ψi are calculated as follows
Z Z

hr| ψi = d r ξr r ψ r = d3 r0 δ r0 − r ψ r0 = ψ (r)
3 0 ∗ 0 0
Z 3/2 Z
3 1
hp| ψi = d r vp∗ (r) ψ (r) = d3 r e−ip·r/~ ψ (r) = ψ̄ (p)
2π~
hence
c (r) = hr| ψi = ψ (r) ; c̄ (p) = hp| ψi = ψ̄ (p) (1.179)
the coefficients c (r) of the expansion of |ψi under {|ri} are the wave functions evaluated at the point r, this fact
reinforces the interpretation of the wave function as the representation of |ψi under the basis |ri. The coefficients
c̄ (p) are the fourier transforms of the wave function, this coefficients ψ̄ (p) are usually called “wave functions in
momentum space”, since they represent the same abstract vector |ψi it is clear that ψ (r) and ψ̄ (p) contain the
same physical information, this can also be seen by taking into account that given ψ (r) then ψ̄ (p) is uniquely
determined and vice versa. On the other hand, by comparing Eqs. (1.178, 1.179) with Eqs. (1.120, 1.121) we see
that if ψ (r) ↔ |ψi then the expansion of ψ (r) under ξ r (r0 ) has the same coefficients as the expansion of |ψi under
|ri as we demanded. Similar situation occurs with the basis {v p } in z and the basis |pi in Er .
An important particular case arises when |ψi = |pi which is indeed a generalized ket. Assuming that all the
relations above are also valid for generalized kets, and taking into account that |pi ↔ v p (r), then Eq. (1.179) gives
3/2
1
hr| pi = vp (r) = eip·r/~ (1.180)
2π~
the same result is obtained by taking into account the equality of the inner product of vectors in z and vectors in
Er when this equality is extended to generalized vectors
Z Z

hr| pi = (|ri , |pi) = (ξr , vp ) = d r ξr r vp r = d3 r0 δ r0 − r vp r0 = vp (r)
3 0 ∗ 0 0
applying Eq. (1.179) for |ψi = |r0 i ↔ ψ (r) = ξr0 (r) we find

hr| r0 i = ξr0 (r) = δ r − r0
which is consistent with the orthonormalization relation. Similar arguments leads to

3/2
1
hp| ri = vp∗ (r) = e−ip·r/~ ; hp| p0 i = δ p − p0
2π~
Assume that we have an orthonormal basis {u i (r)} in z and an orthonormal basis {|u i i} in Er such that
ui (r) ↔ |ui i. Starting with the closure relation for {|u i i} in Er
X
|ui i hui | = I
i
and evaluating the matrix element of it between |ri and |r 0 i we have

X
hr |ui i hui | r0 i = hr| I r0 = hr| r0 i
i
and using Eqs. (1.179, 1.176) we find

X
ui (r) u∗i r0 = δ r − r0
i
which is the closure relation as it was expressed in Eq. (1.109) for {u i (r)} in z, reversing the steps we can obtain
the closure relation for {|ui i} in Er starting from the closure relation for {u i (r)} in z18 .
Notice that the inner product of two kets in terms of their coordinates under the basis {|ri} is a particular case
of Eq. (1.113). Equivalently, we obtain it by insertion of the identity
Z
hϕ |ψi = d3 r hϕ |ri hr |ψi
18
Notice that I (r, r0 ) = hr0 | I |ri = hr0 | ri = δ (r − r0 ) shows that the Dirac delta can be seen as the representation of the identity
under the continuous hyperbasis {|ri}.
and interpreting the components hϕ |ri and hr |ψi as in Eq. (1.179)

Z
hϕ |ψi = d3 r ϕ∗ (r) ψ (r)
a similar procedure can be done for the basis {|pi}

Z Z
hϕ |ψi = d p hϕ |pi hp |ψi = d3 p ϕ̄∗ (p) ψ̄ (p)
3
from which it is obtained Z Z

d3 r ϕ∗ (r) ψ (r) = d3 p ϕ̄∗ (p) ψ̄ (p)
this is a well-known property of the Fourier trasnforms.
1.43.3. Changing from the {|ri} representation to {|pi} representation and vice versa
The procedure is similar to the one in section 1.41 but for continuous basis. If we consider the change from
{|ri} to {|pi}, the unitary matrix S of changing the basis is

1 3/2 ip·r/~
S (r, p) = hr |pi = e (1.181)
2π~
a ket |ψi is represented as ψ (r) in {|ri} and we know well that in {|pi} it is given by ψ̄ (p). Here we see that it is
consistent with the formalism developed in Sec. 1.41
Z Z
3
hp |ψi = d r hp |ri hr |ψi = d3 r S† (r, p) hr |ψi
3/2 Z
1
ψ̄ (p) = d3 r e−ip·r/~ ψ (r) (1.182)
2π~
similarly
Z Z
3
hr |ψi = d p hr |pi hp |ψi = d3 p S (r, p) hp |ψi
3/2 Z
1
ψ (r) = d3 p eip·r/~ ψ̄ (p) (1.183)
2π~
the representation of bras can be obtained by hermitian conjugation of the relations with kets.
Now for a given operator, the matrix elements in {|pi} read A (p 0 , p) = hp0 | A |pi inserting two identities we get
Z Z

0

p A |pi = 3 0
d r d3 r p0 r0 i r0 A |ri hr |pi
Z Z

0

p A |pi = 3 0
d r d3 r S † r0 , p0 A r0 , r S (r, p)
which is the continuous generalization of (1.173). Using (1.181) we find

Z Z
0
1 3 0 0
A p ,p = d3 r0 d3 r e−ip ·r /~ A r0 , r eip·r/~
2π~
Z Z
0
1 3 0 0
A p ,p = d3 r0 d3 r e−i(p ·r −p·r)/~ A r0 , r
2π~
the inverse relation is obtained from
Z Z

0

r A |ri = 3
d p 0
d3 p r0 p0 i p0 A |pi hp |ri
Z Z

0
r A |ri = d3 p0 d3 p S r0 , p0 A p0 , p S † (r, p)
this is the continuous generalization of (1.174). From (1.181) we find

Z Z
1 3 0 0
A r0 , r = d3 p0 d3 p eip ·r /~ A p0 , p e−ip·r/~
2π~
Z Z
1 3 0 0
A r0 , r = d3 p0 d3 p ei(p ·r −p·r)/~ A p0 , p
2π~
1.43.4. The R and P operators

Let |ψi be an arbitrary ket of Er and ψ (r) = ψ (x, y, z) the corresponding wave function. We define an operator
X in the form19 0
ψ = X |ψi
such that in the {|ri} representation the associated wave function ψ 0 (r) = ψ (x, y, z) is given by
ψ 0 (x, y, z) = xψ (x, y, z) (1.184)
so in the {|ri} representation, it corresponds to the operator that multiplies the wave function by x. We should
emphasize however, that the operator X is defined on the E r state space. Eq. (1.184) can be expressed by
hr| X |ψi = hr| ψ 0 i = ψ 0 (r) = xψ (r) = xhr |ψi
Of course, we can introduce the operators Y and Z in a similar way
hr| X |ψi = xhr |ψi , hr| Y |ψi = yhr |ψi , hr| Z |ψi = zhr |ψi ; |ri = |x, y, zi (1.185)
we can consider X, Y, Z as the “components” of a “vector operator” R, by now it only means a condensed notation
inspired in the fact that x, y, z are the components of the ordinary vector r.
These operators can be easily manipulated in the {|ri} representation. For instance, the element hϕ| X |ψi can
be calculated as Z Z
hϕ| X |ψi = d3 r hϕ| ri hr| X |ψi = d3 r ϕ∗ (r) x ψ (r)
similarly, we define the operators Px , Py , Pz that forms the “vector operator” P, such that their action in the {|pi}
representation is given by
hp| Px |ψi = px hp |ψi , hp| Py |ψi = py hp |ψi , hp| Pz |ψi = pz hp |ψi ; |pi = |px , py , pz i (1.186)
however, when we require to work with both operators simultaneously, we should choose only one basis. Hence, it is
important to know how the operator P acts in the {|ri} representation, and how the operator R acts in the {|pi}
representation.
Let us first look for the way in which the operator P acts in the {|ri} representation. For this, we use Eqs.
(1.179, 1.180, 1.186) to evaluate
Z Z Z
3 3 1 3/2
hr| Px |ψi = d p hr| pi hp| Px |ψi = d p hr| pipx hp| ψi = d3 p eip·r/~ px ψ̄ (p) (1.187)
2π~
to evaluate this term we start with the expression of the Fourier transform Eq. (1.183)
Z
1 3/2 ∞ 3 ip·r/~
ψ (r) = d pe ψ̄ (p)
2π~ −∞
Z
∂ψ (r) 1 3/2 ∞ 3 ∂ ip·r/~
= d p e ψ̄ (p)
∂x 2π~ −∞ ∂x
Z
∂ψ (r) 1 3/2 ∞ 3 i ip·r/~
= d p px e ψ̄ (p)
∂x 2π~ −∞ ~
19
The operator X does not belong to ß(Er ), because for some square integrable functions ψ (r), the function ψ 0 (r) defined in Eq.
(1.184) is not square integrable.
we have that 3/2 Z ∞

~ ∂ψ (r) 1
= d3 p px eip·r/~ ψ̄ (p) (1.188)
i ∂x 2π~ −∞
if we continue derivating this expression we find

3/2 Z ∞ n
∂ n ψ (r) 1 3 i ip·r/~
= d p px e ψ̄ (p)
∂xn 2π~ −∞ ~
replacing (1.188) in (1.187) we obtain

~ ∂ψ (r)
hr| Px |ψi =
i ∂x
and similarly for Py , Pz . In vector form we summarize it as
~
hr| P |ψi = ∇hr |ψi (1.189)
i
in the {|ri} representation, the operator P coincides with the differential operator acting on the wave functions.
Let us calculate hϕ| Px |ψi in the {|ri} representation
Z Z
~ ∂
hϕ| Px |ψi = d3 r hϕ |ri hr| Px |ψi = d3 r ϕ∗ (r) ψ (r) (1.190)
i ∂x
of great importance are the commutators among the components P i , Ri . We shall calculate them in the {|ri}
representation, for instance
hr| [X, Px ] |ψi = hr| (XPx − Px X) |ψi = hr| (XPx ) |ψi − hr| (Px X) |ψi
~ ∂
= hr| X |Px ψi − hr| Px |Xψi = x hr| Px ψi − hr| Xψi
i ∂x
~ ∂ ~ ∂ ~ ∂
= x hr| Px |ψi − hr| X |ψi = x hr| ψi − [x hr| ψi]
i ∂x i ∂x i ∂x
~ ∂ ~ ∂ ~
= x hr| ψi − x [hr| ψi] − hr| ψi
i ∂x i ∂x i
so that
hr| [X, Px ] |ψi = i~ hr| ψi
since this is valid for any ket |ψi and any generalized ket |ri of the basis, we conclude that
[X, Px ] = i~I
it is usual to omit the identity operator since it is not important for practical calculations. In a similar way, we can
calculate the other commutators, to condense notation it is convenient to define
R1 ≡ X, R2 ≡ Y, R3 ≡ Z, P1 ≡ Px , P2 ≡ Py , P3 ≡ Pz
to write
[Ri , Rj ] = [Pi , Pj ] = 0 ; [Ri , Pj ] = i~δij (1.191)
they are called canonical commutation relations. These relations are intrinsic and should not depend on the basis
in which we derive them.
We can show that R and P are hermitian operators. For example let us show that X is hermitian
Z Z Z ∗
hϕ| X |ψi = d3 r hϕ |ri hr| X |ψi = d3 r ϕ∗ (r) x ψ (r) = d3 r ψ (r)∗ x ϕ (r)
hϕ| X |ψi = hψ| X |ϕi∗

since this is valid for arbitrary kets |ψi and |ϕi, and taking into account Eq. (1.161) we conclude that X = X † . For
Px we see that
Z Z Z ∗
3 3 ∗ 3 ∗
hϕ| Px |ψi = d p hϕ |pi hp| Px |ψi = d p ϕ̄ (p) px ψ̄ (p) = d p ψ̄ (p) px ϕ̄ (p)
hϕ| Px |ψi = hψ| Px |ϕi∗
and Px = Px† . The procedure is the same for the other components of R and P
R = R† , P = P †
There is an alternative proof of the hermiticity of P by using its action in the {|ri} representation given by Eq.
(1.189). Integrating Eq. (1.190) by parts we have
Z Z ∞
~ ∗ ∂
hϕ| Px |ψi = dy dz dx ϕ (r) ψ (r)
i −∞ ∂x
Z Z ∞
~ ∗ x=∞ ∂ ∗
= dy dz [ϕ (r) ψ (r)]x=−∞ − dx ψ (r) ϕ (r)
i −∞ ∂x
since the scalar product hϕ| ψi is convergent, ϕ ∗ (r) ψ (r) approaches zero when x → ±∞. Hence the first term on
the right-hand side vanishes and we find
Z Z ∗
~ ∂ ∗ ~ ∂
hϕ| Px |ψi = − d3 r ψ (r) ϕ (r) = d3 r ψ ∗ (r) ϕ (r)
i ∂x i ∂x
∗
hϕ| Px |ψi = hψ| Px |ϕi
two things deserve attention, first the presence of the i factor is essential because i∂/∂x is hermitian but ∂/∂x is
not. Second, we have used explicitly the fact that |ψi and |ϕi belong to E r by assuming that the scalar product
hϕ| ψi is convergent, so this proof is not valid for generalized kets.
1.43.5. The eigenvalue problem for R and P

Let us calculate the matrix element X (r 0 , r) of the operator X in the basis {|ri}

X r0 , r = r0 X |ri = x0 r0 ri = x0 δ r − r0 = xδ r − r0 = x r0 ri

0

r Xri = x r0 ri
so the components of the ket X |ri in the {|r 0 i} representation are equal to the ones of the ket |ri = |x, y, zi
multiplied by x
X |ri = x |ri
we proceed in the same way for Y and Z
X |ri = x |ri , Y |ri = y |ri , Z |ri = z |ri ; |ri = |x, y, zi
the kets |ri are eigenkets common to X, Y, Z. The set {|ri} of common eigenvectors of X, Y, Z forms a basis
showing that {X, Y, Z} is a complete set of commuting observables. On the other hand, the specification of the
three eigenvalues x0 , y0 , z0 determines uniquely the “normalized” eigenvector |r 0 i except for a phase eiθ . In the {|ri}
representation the coordinates of |r 0 i are δ (x − x0 ) δ (y − y0 ) δ (z − z0 ). Therefore, the set {X, Y, Z} constitutes a
C.S.C.O. in Er .
Analogous reasoning shows that for the commuting observables {P x , Py , Pz } the eigenvalues and eigenvectors
are
Px |pi = px |pi , Py |pi = py |pi , Pz |pi = pz |pi ; |pi = |px , py , pz i
since {|pi} is a basis the operators P x , Py , Pz are observables. Because the set of eigenvalues (p 0x , p0y , p0z ) determines
uniquely the vector |p0 i the set {Px , Py , Pz } constitutes as C.S.C.O. in Er .
1.44. GENERAL PROPERTIES OF TWO CONJUGATE OBSERVABLES 91
It worths pointing out that X is not a C.S.C.O. by itself in the E r state space because when x0 is specified y0
and z0 can take any real values. Therefore, x 0 is an infinitely degenerate eigenvalue. Notwithstanding in the state
space Ex of a particle in one dimension, X constitutes a C.S.C.O. since the eigenvalue x 0 determines uniquely the
eigenvector |x0 i, and its coordinates in the {|xi} representation are given by δ (x − x 0 ).
It can also be shown that the set {X, P y , Pz } constitutes a C.S.C.O. since they commute with each other, and
for a set of eigenvalues {x0 , p0y , p0z } there is a unique eigenvector whose associated wave function is
1 i(p0y y+p0z z)/~

ψx0 ,p0y ,p0z (x, y, z) = δ (x − x0 ) e
2π~
of course, similar C.S.C.O. are built from the sets
{Y, Px , Pz } , {Z, Px , Py }
1.44. General properties of two conjugate observables

Two arbitrary observables Q and P are called conjugate if they obey the conmutation rule
[Q, P ] = i~ (1.192)
such couples of observables are frequently encountered in quantum mechanics. The position and momentum ob-
servables are good examples. However, in what follows all properties are derived from the commutation rule (1.192)
regardless the specific form of the operators. Let us define the operator S (λ) that depends on a real parameter λ as
S (λ) = e−iλP/~ (1.193)
since P is observable and so hermitian this operator is unitary
S † (λ) = eiλP/~ = S −1 (λ) = S (−λ) (1.194)
since P obviously commute with itself, Eq. (1.147) leads to
S (λ) S (µ) = S (λ + µ) (1.195)
now we calculate the commutator [Q, S (λ)]. To do it, we take into account that [Q, P ] = i~ clearly commutes with
Q and P , therefore we can apply theorem 1.70, Eq. (1.134) to obtain

iλ −iλP/~
[Q, S (P )] = [Q, P ] S 0 (P ) = i~ − e = λS (P )
~
where we have written S (P ) instead of S (λ) to emphasize that when applying Eq. (1.134) we are considering S as
a function of the operator P (so the derivative is with respect to P ). Rewriting it in the old notation we have
[Q, S (λ)] = λS (λ) ⇒ QS (λ) − S (λ) Q = λS (λ)

QS (λ) = S (λ) [Q + λ] (1.196)
1.44.1. The eigenvalue problem of Q

Suppose that Q has a non-zero eigenvector |qi, with eigenvalue q
Q |qi = q |qi (1.197)
applying Eq. (1.196) on the vector |qi we have
QS (λ) |qi = S (λ) [Q + λ] |qi = S (λ) [q + λ] |qi

Q [S (λ) |qi] = [q + λ] [S (λ) |qi] (1.198)
therefore, S (λ) |qi is also an eigenvector of Q with eigenvalue q + λ. Note that S (λ) |qi is non-zero because S (λ)
is unitary so the norm of |qi is preserved. On the other hand, since λ can take any real value, we conclude that by
starting with an eigenvector of Q, we can construct another eigenvector of Q with any real eigenvalue by applying
the appropiate S (λ). Consequently, the spectrum of Q is continuous and consists of all real values.
Note that this result shows in particular that conjugate operators Q, P cannot exist in finite dimensional vector
spaces since for the latter the spectrum must be finite. Even they do not exist strictly in spaces of denumerable
dimension such as L2 , (for which the spectrum must be at most denumerable), so the eigenvectors |qi will form
hyperbasis in L2 .
Let us now show that if any given q is non-degenerate, then all the other eigenvalues of Q are also non-degenerate.
For this we assume that the eigenvalue q + λ is at least two-fold degenerate and arrive to a contradiction. From this
hypothesis, there are at least two orthogonal eigenvectors |q + λ, αi and |q + λ, βi associated with the eigenvalue
q+λ
hq + λ, β |q + λ, αi = 0 (1.199)
now consider the two vectors S (−λ) |q + λ, αi and S (−λ) |q + λ, βi from Eq. (1.198) we see that
QS (−λ) |q + λ, αi = [q + λ + (−λ)] S (−λ) |q + λ, αi = qS (−λ) |q + λ, αi

QS (−λ) |q + λ, βi = [q + λ + (−λ)] S (−λ) |q + λ, βi = qS (−λ) |q + λ, βi
so S (−λ) |q + λ, αi and S (−λ) |q + λ, βi are two eigenvectors associated with the eigenvalue q. Calculating the
inner product of them
hq + λ, β| S † (−λ) S (−λ) |q + λ, αi = hq + λ, β |q + λ, αi = 0
where we have used Eq. (1.199) and the fact that S (λ) is unitary. Thus, we arrive to the fact that S (−λ) |q + λ, αi
and S (−λ) |q + λ, βi are two orthogonal (and so linearly independent) eigenvectors associated with q, contradicting
the hypothesis that q is non-degenerate. This result can be extended to find that the eigenvalues of Q must all have
the same degree of degeneracy.
We now look for the eigenvectors. We fix the relative phses of the diffrent eigenvectors of Q with respect to the
eigenvector |0i associated with the eigenvalue 0, by setting
|qi ≡ S (q) |0i (1.200)
applying S (λ) on both sides of (1.200) and using (1.195), we get
S (λ) |qi = S (λ) S (q) |0i = S (λ + q) |0i = |q + λi
and the corresponding bra gives

hq| S † (λ) = hq + λ|
now using Eq. (1.194) we see that S † (λ) = S (−λ) from which
hq| S (−λ) = hq + λ| ⇒ hq| S (λ) = hq − λ|
where we have replaced λ → −λ in the last step. In summary the action of S (λ) on the eigenvectors |qi of Q are
given by
S (λ) |qi = |q + λi ; hq| S (λ) = hq − λ| (1.201)
now we can characterize the action of the operators P, Q and S (λ) in either the {|qi} basis or the {|pi} basis.
1.44.2. The action of Q, P and S (λ) in the {|qi} basis

Since Q is an observables the set of eigenvectors {|qi} of Q forms a basis. A given ket |ψi in our Hilbert space
can be written in the {|qi} basis as
ψ (q) ≡ hq |ψi
let us calculate the representation of Q |ψi in this basis
hq| Q |ψi = qhq |ψi = qψ (q)

1.44. GENERAL PROPERTIES OF TWO CONJUGATE OBSERVABLES 93
where we have used (1.197) and the hermiticity of Q. The action of Q on |ψi reduces to a simple multiplication
with its associated eigenvalue. The action of S (λ) on |ψi in this basis is also simple
hq| S (λ) |ψi = hq − λ| ψi = ψ (q − λ) ; S (λ) ≡ e −iλP/~ (1.202)
where we have used (1.201). Note that a function f (x − a) is the function that at the point x = x 0 + a, takes on the
value f (x0 ), so that it is the function obtained from f (x)by a translation of +a. Therefore, Eq. (1.202, shows that
the action of S (λ) on |ψi in the basis {|qi} , can be described as a translation of the wave function over a distance
+λ parallel to the q−axis. So S (λ) is usually called the translation operator.
The action of P on |ψi in the {|qi} basis is a bit longer to obtain. Let ε be an infinitesimal quantity such that
ε
S (−ε) = eiεP/~ = I + i P + O ε2
~
therefore
h ε i ε
hq| S (−ε) |ψi = hq| I + i P + O ε2 |ψi = hq |ψi + i hq| P |ψi + O ε2
~ ~
ε 2

hq| S (−ε) |ψi = ψ (q) + i hq| P |ψi + O ε (1.203)
~
on the other hand, from Eq. (1.202) we have
hq| S (−ε) |ψi = ψ (q + ε) (1.204)
and comparing (1.203) with (1.204) we have

ε
ψ (q + ε) = ψ (q) + i hq| P |ψi + O ε2 ⇒
~
ε
i hq| P |ψi = ψ (q + ε) − ψ (q) − O ε2
~
solving for hq| P |ψi and taking into account that ε is infinitesimal we have
~ ψ (q + ε) − ψ (q)
hq| P |ψi = lı́m
i ε→0 ε
~ d
hq| P |ψi = ψ (q) (1.205)
i dq
~ d
so the action of P on a ket in the {|qi} basis is that of i dq .
1.44.3. Representation in the {|pi} basis and the symmetrical role of P and Q
From Eq. (1.205), we can obtain the wave function v p (q) associated in the {|qi} basis, with the eigenvector |pi
of P with eigenvalue p
1
vp (q) = hq |pi = √ eipq/~
2π~
we can then write Z ∞
1
|pi = √ dqeipq/~ |qi
2π~ −∞
a wave function in the {|pi} representation is given by

Z Z
ψ̄ (p) = hp |ψi = hp| |qi hq| ψi = hp |qi hq| ψi
Z ∞
1
ψ̄ (p) = √ dqeipq/~ ψ (q)
2π~ −∞
which is the Fourier transform of ψ (q).

It can be shown that the action of the P operator in the {|pi} repesentation is associated with multiplication
by p, while the representation of X corresponds to the operations i~d/dp. Therefore, the results are symmetrical in
the {|qi} and {|pi} bases. It comes from the fact that we can interchange Q and P with no more cost than changing
the sign of the conmutator in (1.192). The analogous of the translation operation in the {|pi} basis is the operator
defined by
T (α) = eiαQ/~
which acts as a translation in the momentum space. The arguments developed for the basis {|qi} can be repeated in
the basis {|pi} by interchanging P by Q and i by −i everywhere. As a matter of curiosity, in Classical Mechanics,
the Hamilton equations are also symmetrical in the conjugate variables (Q, P ) and we can interchange them with
no more cost that a change in sign.
We emphasize again that the results obtained in this section only depend on the canonica rule of commutation
(1.192) and not on the explicit form of the Q and P operators.
1.45. Diagonalization of a 2 × 2 hermitian matrix

This example illustrates many concepts introduced in the eigenvalue problem in a quite simple way. Further,
it is useful in many practical calculations involving systems of two states in quantum mechanics. The eigenvalue
problem is very easy but the determination of eigenvectors could lead easily to complicated expressions. We shall
determine the eigenvalues and find the eigenvectors in a way easy to handle.
1.45.1. Formulation of the problem

Consider an hermitian operator R in a two dimensional Hilbert space. Its matrix representation in a given
orthonormal basis {|ϕ1 i , |ϕ2 i} reads

hϕ1 | R |ϕ1 i hϕ1 | R |ϕ2 i H11 H12
H≡ = (1.206)
hϕ2 | R |ϕ1 i hϕ2 | R |ϕ2 i H21 H22
an hermitian operator is described by an hermitian matrix when the basis used is orthonormal. Therefore,
∗ ∗ ∗
H11 = H11 ; H22 = H22 ; H12 = H21
so that diagonal elements are real. Let us express the matrix in Eq. (1.206) in the equivalent form
1 1
2 (H11 + H22 ) 0 2 (H11 − H22 ) H12
H = 1 +
0 2 (H11 + H22 ) H21 − 12 (H11 − H22 )
2H21∗ !
1 1 0 1 1 (H −H )
H = (H11 + H22 ) + (H11 − H22 ) 2H21
11 22
2 0 1 2 (H11 −H22 ) −1
2H21 ∗ !
1 1 1 (H11 −H22 )
H = (H11 + H22 ) I + (H11 − H22 ) K ; K ≡ 2H21 (1.207)
2 2 (H11 −H22 ) −1
and I is the identity matrix. Let |ψ± i be two linearly independent eigenvectors of K
K |ψ± i = κ± |ψ± i (1.208)
applying the ket |ψ± i on Eq. (1.207) we have

1 1
H |ψ± i = (H11 + H22 ) I |ψ± i + (H11 − H22 ) K |ψ± i
2 2
1
H |ψ± i = [(H11 + H22 ) + (H11 − H22 ) κ± ] |ψ± i
2
therefore |ψ± i are also eigenvectors of H with eigenvalues
1
H |ψ± i = E± |ψ± i ; E± ≡ [(H11 + H22 ) + (H11 − H22 ) κ± ] (1.209)
2
1.45. DIAGONALIZATION OF A 2 × 2 HERMITIAN MATRIX 95
note that the problem reduces to find the eigenvectors of K (which coincide with the ones of H) and also its
eigenvalues (which are related with the eigenvalues of H through Eq. 1.209). Solving the problem for K is equivalent
to choose the origin of the eigenvalues in (H 11 + H22 ) /2 = (T rH)/2. Note that this shift is independent of the basis
chosen to write H.
1.45.2. Eigenvalues and eigenvectors of K

For simplicity we define the angles θ, ϕ in terms of the matrix elements H ij as follows
2 |H21 |
tan θ = , 0≤θ<π (1.210)
H11 − H22
H21 = |H21 | eiϕ , 0 ≤ ϕ < 2π (1.211)
so ϕ is the argument of the term H21 . Matrix K in Eq. (1.207) can be written as
2|H21 |e−iϕ
!
1 (H11 −H22 ) 1 tan θ e−iϕ
K= 2|H21 |eiϕ
= (1.212)
−1 tan θ eiϕ −1
(H11 −H22 )
the characteristic equation of matrix (1.212) yields
det [K − λI] = 0 = (1 − κ) (−1 − κ) − tan2 θ ⇒

1
κ2 − 1 − tan2 θ = 0 ⇒ κ2 = 1 + tan2 θ =
cos2 θ
the eigenvalues of K read
1 1
κ+ = , κ− = − (1.213)
cos θ cos θ
and they are real as expected. We can express 1/ cos θ in terms of the matrix elements H ij by using Eqs. (1.210)
and the fact that cos θ and tan θ are both of the same sign since 0 ≤ θ < π.
s s
1 p 4 |H 21 | 2
(H11 − H22 )2 + 4 |H21 |2
= 1 + tan2 θ = 1 + =
cos θ (H11 − H22 )2 (H11 − H22 )2
s
1 (H11 − H22 )2 + 4 |H21 |2
κ± = ± =± (1.214)
cos θ (H11 − H22 )2
let us find the eigenvectors of K. We denote as a and b the components of |ψ + i in the basis {|ϕ1 i , |ϕ2 i}. From
Eqs. (1.212, 1.213) this eigenvector must satisfy

1 tan θ e−iϕ a 1 a
iϕ =
tan θ e −1 b cos θ b
of course only one of the two equations is linearly independent since only quotients between the coefficients can be
determined, therefore
−iϕ a −iϕ 1
a + b tan θ e = ⇒ b tan θ e =a −1
cos θ cos θ
multiplying by eiϕ/2 and defining 2α ≡ θ this equation yields

sin 2α −iϕ/2 1 − cos 2α iϕ/2
b e = a e
cos 2α cos 2α
b sin 2α e−iϕ/2 = a (1 − cos 2α) eiϕ/2

b (2 sin α cos α) e−iϕ/2 = a 1 − 1 − 2 sin2 α eiϕ/2
2b sinα cos α e−iϕ/2 2
= 2a sin α e
iϕ/2
b cos α e−iϕ/2 = a sin α eiϕ/2

in terms of θ we get
θ −iϕ/2 θ
e = a sin eiϕ/2
b cos (1.215)
2 2
we demand normalization with the additional requirement of positivity for the coefficient a, so we have

a sin θ eiϕ/2 2
2 2 2 2
|a| + |b| = 1 ⇒ |a| + =1
cos θ2 e−iϕ/2
2
θ θ
|a| + a tan e = 1 ⇒ |a|2 + |a|2 tan2 = 1
2 iϕ
2 2

θ θ
|a|2 1 + tan2 = 1 ⇒ |a|2 = cos2
2 2
so that
θ
a = cos ≥0 since 0 ≤ θ < π (1.216)
2
replacing (1.216) in (1.215) we get
θ −iϕ/2 θ θ θ
b cos e = cos sin eiϕ/2 ⇒ b = sin eiϕ
2 2 2 2
so that the eigenvector |ψ+ i0 associated with the eigenvalue κ+ reads
θ θ
|ψ+ i0 = a |ϕ1 i + b |ϕ2 i = cos |ϕ1 i + sin eiϕ |ϕ2 i
2 2
it is clear that |ψ+ i ≡ e−iϕ/2 |ψ+ i0 is also an eigenvector of K with the same eigenvalue κ + and this vector looks
more symmetrical. Thus, we define the eigenvector |ψ + i as20
θ −iϕ/2 θ
|ψ+ i = cos e |ϕ1 i + sin eiϕ/2 |ϕ2 i (1.217)
2 2
an analogous calculation gives the eigenvector of K corresponding to κ − = −1/ cos θ
θ −iϕ/2 θ
|ψ− i = − sin e |ϕ1 i + cos eiϕ/2 |ϕ2 i (1.218)
2 2
the eigenvalues of H are obtained by combining Eqs. (1.209, 1.214)
1
E± ≡ [(H11 + H22 ) + (H11 − H22 ) κ± ]
2 s
" #
1 (H11 − H22 )2 + 4 |H21 |2
= (H11 + H22 ) ± (H11 − H22 )
2 (H11 − H22 )2
q
1 2 2
E± ≡ (H11 + H22 ) ± (H11 − H22 ) + 4 |H21 |
2
it worths saying that the eigenvalue problem can be solved directly without resorting to the angles θ and ϕ defined
in Eq. (1.210, 1.211). This procedure is advantageous only if we have to calculate the eigenvectors as well.
1.45.3. Eigenvalues and eigenvectors of H

Let us summarize our results. We consider an hermitian operator R in a two dimensional Hilbert space, and its
matrix representation in the orthonormal basis {|ϕ 1 i , |ϕ2 i}

hϕ1 | R |ϕ1 i hϕ1 | R |ϕ2 i H11 H12
H≡ = (1.219)
hϕ2 | R |ϕ1 i hϕ2 | R |ϕ2 i H21 H22
20
This is equivalent to define the phase of the coefficient a as −ϕ/2 instead of zero, in the process of normalization.
1.45. DIAGONALIZATION OF A 2 × 2 HERMITIAN MATRIX 97
its eigenvalues and eigenvectors are given by

q
1 2 2
E± ≡ (H11 + H22 ) ± (H11 − H22 ) + 4 |H21 | (1.220)
2
θ θ
|ψ+ i = cos e−iϕ/2 |ϕ1 i + sin eiϕ/2 |ϕ2 i (1.221)
2 2
θ θ
|ψ− i = − sin e−iϕ/2 |ϕ1 i + cos eiϕ/2 |ϕ2 i (1.222)
2 2
2 |H21 |
tan θ = , H21 = |H21 | eiϕ ; 0 ≤ θ < π , 0 ≤ ϕ < 2π (1.223)
H11 − H22
as a matter of consistence we can see that
E+ + E− = H11 + H22 = T rH , E+ E− = H11 H22 − |H12 |2 = det H
in agreement with Eq. (1.92, 1.93). From Eq. (1.220), the spectrum becomes degenerate i.e. E + = E− when
(H11 − H22 )2 + 4 |H21 |2 = 0. That is when H11 = H22 and H12 = H21 = 0. So a 2 × 2 hermitian matrix has a
degenerate spectrum if and only if it is proportional to the identity.
It worths remarking that although functions of θ are expressed simply in terms of the H ij elements by means of
Eqs. (1.223), it is not the case when functions of θ/2 appears. Thus, when we do calculations with the eigenvectors
(1.221, 1.222), it is convenient to keep the results in terms of θ/2 up to the end of the calculation instead of replacing
it in terms of the Hij quantities.
Capı́tulo 2
Construcción fenomenológica de los

postulados de la mecánica cuántica
Nuestro presente entendimiento de la naturaleza requiere reevaluar las leyes de la mecánica clásica, especialmente
en lo referente a los fenómenos atómicos y subatómicos. No obstante, existen manifestaciones macroscópicas de los
procesos cuánticos. A manera de ejemplo, la existencia misma de los sólidos solo se puede explicar en un contexto
cuántico, y los modelos sobre calor especı́fico de los sólidos no se pueden explicar con un modelo clásico.
A finales del siglo diecinueve, se identificaban en la fı́sica dos tipos de entidades bien diferenciadas: la materia y
la radiación. Las leyes de Newton permitı́an explicar los fenómenos relativos a la materia en la escala macroscópica
y las ecuaciones de Maxwell proporcionaban una excelente descripción de la dinámica de la radiación 1 . Finalmente,
la interacción de la materia con la radiación la proporcionaba la ley de fuerza de Lorentz. Es notable el hecho de que
la teorı́a de Maxwell habia logrado la unificación de fenómenos que antes se consideraban separados: la electricidad,
el magnetismo y la óptica.
No obstante, a finales del siglo diecinueve y principios del veinte una serie de experimentos condujeron a reevaluar
la estructura fundamental de la materia y además a replantear las leyes que rigen a estas estructuras fundamentales.
La mecánica cuántica es entonces el resultado de estos replanteamientos. Vale decir por supuesto que al menos en
principio, el mundo macroscópico también se rige por la leyes de la cuántica, si bien para la mayorı́a de fenómenos a
escala humana, la Fı́sica clásica representa una descripción mucho más simple y al mismo tiempo bastante adecuada.
A continuación se realizará una breve descripción de los experimentos que dieron lugar a las nuevas ideas sobre
el mundo microscópico, con el fin de dejar claros los puntos que es necesario reevaluar en la mecánica clásica. La
descripción de estos experimentos no pretende ser completa ni exhaustiva, solo pretende mostrar las ideas que estos
experimentos nos arrojan sobre el comportamiento de la naturaleza a nivel microscópico (atómico y subatómico)
2.1. La radiación del cuerpo negro

???????????
2.2. El efecto fotoeléctrico

????????????????
2.3. El efecto compton

???????????????????
1
Las ondas mecánicas podı́an explicarse en último término con las leyes de Newton.
2.4. EL PROBLEMA ESPECTROSCÓPICO Y LA TEORÍA DE BOHR 99
2.4. El problema espectroscópico y la teorı́a de Bohr

2.4.1. La teorı́a de Wilson y Sommerfeld
2.5. Los postulados de De Broglie
2.6. Sı́ntesis de los resultados experimentales

Newton consideró que la luz era un haz de corpúsculos que podı́an reflejarse en un espejo cuando “rebotan”.
Sin embargo, los experimentos que mostraron fenómenos como la interferencia y la difracción, establecieron la
naturaleza ondulatoria de la luz a mediados del siglo XIX, lo cual permitió la fusión de la óptica con la electricidad
y el magnetismo. Los fenómenos de polarización de la luz pueden interpretarse como una manifestación del carácter
vectorial del campo eléctrico.
No obstante, el estudio de la radiación del cuerpo negro sugirió la hipótesis de la cuantización de la energı́a de
las ondas electromagnéticas estacionarias (osciladores armónicos) que se generaban al interior del cuerpo negro. La
energı́a de estos osciladores es de la forma E = nhν con n = 0, 1, 2, ...; siendo ν la frecuencia de cada oscilador.
Esta cuantización permite predecir adecuadamente el espectro de emisión del cuerpo negro empleando la estadı́stica
de Boltzmann. Por otra parte, el estudio del efecto fotoeléctrico sugirió que las ondas electromagnéticas libres que
se propagaban también estaban constituı́das por paquetes de energı́a que indican valores discretos de ésta. Cada
paquete denominado fotón tendrá una energı́a dada por E = hν. Esto permitió a Einstein comprender porqué la
energı́a máxima adquirida por los electrones era independiente de la intensidad de la onda electromagnética incidente
y porqué este energı́a se adquirı́a en tiempos tan cortos. Para ello era necesario además que el paquete estuviera
localizado en una pequeña región del espacio y que permaneciera localizado a medida que se aleja de la fuente, a
diferencia de las ondas clásicas que se extienden cuando se alejan de la fuente. Más adelante, mediante la irradiación
de una placa metálica con rayos X, compton muestra que estos cuantos pueden dispersarse mediante la colisión con
un electrón libre estacionario, emulando una colisión tipo “bolas de billar”. De esta forma pudo predecir el pico en
el espectro asociado a una longitud de onda mayor que la incidente.
En sı́ntesis, estos experimentos están mostrando la naturaleza discreta de la energı́a que se propaga en una onda
electromagnética y el hecho de que el cuanto asociado se puede comportar como partı́cula. Adicionalmente, tanto
la cuantización como la colisión de fotones con electrones libres pudo explicarse satisfactoriamente relacionando los
parámetros de partı́cula (energı́a E y momento p del fotón) con los parámetros de onda (frecuencia ν y número de
onda k del fotón) de la radiación, en la forma
h
E = hν ; p = ~k ; ~ ≡ ; h ' 6,62 × 10−34 Joul × seg (2.1)
2π
De otra parte, los experimentos espectroscópicos nos muestran que la radiación emitida o absorbida debida a
transiciones electrónicas en los átomos solo nos arroja ciertos valores dicretos de la energı́a fundamental del cuanto.
Esto implica que los niveles de energı́a permitidos para un electrón ligado a un átomo también están cuantizados.
Lo anterior llevó a Bohr a postular la cuantización del momento angular asociado al electrón junto con la hipótesis
de ausencia de radiación en contraste con las predicciones de la mecánica clásica. La cuantización de los estados de
energı́a atómicos fué corroborada por los experimentos de Franck y Hertz, en tanto que las reglas de cuantización
fueron perfeccionadas por Wilson y Sommerfeld.
Una vez caracterizada la dualidad onda partı́cula de la radiación, es natural preguntarse si esta dualidad está tam-
bién presente en los objetos fı́sicos que tradicionalmente llamamos materia, por ejemplo en los electrones. Esta
pregunta condujo a De Broglie a postular que el movimiento de una partı́cula está gobernado por la propagación
ondulatoria de ciertas ondas piloto asociadas con la partı́cula. Asumiendo que la energı́a E y el momento p de la
partı́cula también cumplen las relaciones (2.1) dadas para el fotón, De Broglie estimó la frecuencia y la longitud de
onda de las ondas piloto
λ = h/p ; ν = E/h (2.2)
Este postulado fué confirmado por los experimentos de Davidson y Germer sobre difracción de electrones.
Naturalmente, el momento y la energı́a totales se deben conservar en cada proceso, en donde los momentos y
energı́as de la radiación y la materia están dados por los postulados anteriores.
100CAPÍTULO 2. CONSTRUCCIÓN FENOMENOLÓGICA DE LOS POSTULADOS DE LA MECÁNICA CUÁNTI
Vamos ahora a examinar en más detalle el experimento de Young de la doble rendija. Veremos que este análisis
aportará ideas adicionales con respecto al comportamiento de la naturaleza a nivel subatómico
2.7. El experimento de Young de la doble rendija
Figura 2.1: (a) Montaje del experimento de Young con doble rendija. (b) Patrón de intensidades asociado a la
exposición por una sola rendija. La lı́nea punteada indica la suma de los dos patrones de intensidad. (c) Patrón
de intensidades obtenido con la apertura simultánea de las dos rendijas. El contraste con la gráfica punteada nos
muestra que la intensidad resultante no es la suma de las intensidades obtenidas con la apertura de una sola rendija,
revelando la existencia de un patrón de interferencia.
Hemos visto que es necesario incorporar aspectos corpusculares al comportamiento de la radiación electro-
magnética, la pregunta es si debemos abandonar la teorı́a ondulatoria de la radiación electromagnética. Veremos
que no es posible con una teorı́a puramente corpuscular explicar todos los fenómenos relacionados con los fotones,
de manera que tendremos que incorporar tanto los aspectos ondulatorios como corpusculares de la radiación.
El dispositivo utilizado se muestra en la Fig. 2.1, y consiste en una fuente aproximadamente monocromática
frente a la cual se coloca una placa opaca P con dos rendijas pequeñas F 1 y F2 (pequeñas con respecto a la longitud
de onda emitida), detrás de esta placa opaca se ubica una pantalla de observación O que es usualmente una placa
fotográfica. Es importante que las dimensiones de las rendijas sean menores que la longitud de onda, ya que de lo
contrario las intensidades recogidas en la pantalla O serán compatibles con la óptica geométrica que puede explicarse
2.7. EL EXPERIMENTO DE YOUNG DE LA DOBLE RENDIJA 101
con una teorı́a corpuscular. En contraste, el fenómeno de difracción que se presenta cuando las rendijas son pequeñas
nos muestra la naturaleza ondulatoria del fenómeno.
Cuando obstruı́mos la rendija F2 obtenemos sobre la pantalla O una distribución de intensidades I 1 (x) que es
el patrón de difracción generado por la rendija F 1 . Análogamente, al cerrar F1 obtenemos el patrón de intensidades
I2 (x). Si ahora abrimos las dos rendijas simultáneamente obtendremos un nuevo patrón de intensidades I (x). La
primera observación es que la intensidad resultante NO es la suma de las intensidades obtenidas con una sola rendija
I (x) 6= I1 (x) + I2 (x)
¿como podrı́an explicarse estos resultados a la luz de una teorı́a corpuscular?. Es bien conocido que el patrón de
Difracción generado por una sola rendija no puede ser explicado con una teorı́a corpuscular cuando la rendija tiene
una dimensión menor que la longitud de onda incidente. Sin embargo, veremos que aún cuando pudiésemos explicar
el fenómeno de una rendija con una teorı́a corpuscular, el patrón de interferencia que se forma cuando se abren
las dos rendijas entra en conflicto con una teorı́a puramente corpuscular. Asumamos que el patrón de interferencia
que se observa, es generado por la interacción de tipo corpuscular entre los fotones que pasan por la rendija F 1 con
aquellos que pasan por la rendija F2 . De ser ası́, tendrı́amos que si regulamos la potencia de la fuente de tal manera
que los fotones salgan prácticamente uno por uno, se eliminarı́an estas interacciones y por tanto deberı́a desaparecer
este patrón de interferencia, incluso si se espera mucho tiempo para que se depositen mucho fotones sobre O.
Veamos ahora cual serı́a la predicción de una teorı́a puramente ondulatoria. La teorı́a ondulatoria predice que
la intensidad en un punto dado I (x) es proporcional a la amplitud al cuadrado del campo eléctrico evaluado en tal
punto. Cuando las dos rendijas están abiertas es claro que el campo total resultante en tal punto es la superposición
de los dos campos generados por la onda que pasa por cada rendija
E (x) = E1 (x) + E2 (x)
la intensidad es entonces proporcional a la amplitud del campo eléctrico total al cuadrado
I (x) ∝ |E (x)|2 = |E1 (x) + E2 (x)|2

I1 (x) ∝ |E1 (x)|2 ; I2 (x) ∝ |E2 (x)|2 ⇒ I (x) 6= I1 (x) + I2 (x)
si E1 (x) y E2 (x) se escriben en notación compleja, el término de interferencia resultante dependerá de la diferencia
en las fases complejas asociadas a E1 (x) y E2 (x). Esta interferencia explica el patrón de franjas que ocurre en
el fenómeno de difracción por dos rendijas. Si disminuı́mos la potencia de la fuente, las franjas de interferencia
disminuirán en intensidad pero no desaparecerán. De por sı́ este fue uno de los experimentos determinantes en favor
de la teorı́a ondulatoria en el siglo XIX.
Sin embargo, los resultados obtenidos cuando la potencia de la fuente es tal que los fotones se liberan uno a uno,
son realmente sorprendentes y entran en conflicto con la teorı́a puramente corpuscular pero también con la teorı́a
puramente ondulatoria.
Por una parte, si hacemos que el tiempo de exposición sea muy largo de manera que una gran cantidad de fotones
impactan la placa fotográfica, vemos que las franjas de interferencia no desaparecen a pesar de haber eliminado la
interacción entre los fotones. Por tanto, la teorı́a corpuscular no puede predecir este fenómeno. La teorı́a ondulatoria
en cambio ofrece una explicación satisfactoria al respecto.
De otra parte, si el tiempo de exposición lo hacemos muy corto de modo que solo unos pocos fotones impacten
la pantalla, vemos que los impactos sobre la placa son muy localizados como se esperarı́a de un comportamiento
corpuscular, y no se observa el patrón de interferencia con baja intensidad que predecirı́a la teorı́a ondulatoria.
Mas aún si el experimento para tiempos cortos de exposición se repite muchas veces para las mismas condiciones
iniciales (el mismo dispositivo con fotones de la misma energı́a y momento, ası́ como igual tiempo de exposición),
vemos que los pocos impactos localizados en cada experimento pueden tener una distribución muy diferente. Esto
indica que el proceso tiene un carácter altamente aleatorio que no es atribuı́ble al desconocimiento o falta de control
en las condiciones iniciales.
Si en cambio repetimos el experimento muchas veces bajo las mismas condiciones iniciales pero para tiempos
de exposición muy grandes, en los cuales muchos fotones han impactado la placa, vemos que el patrón contı́nuo de
intensidades se forma según lo indicado en la teorı́a ondulatoria, es decir con los patrones adecuados de interferencia.
Para este caso el fenómeno es altamente reproducible, es decir la distribución de intensidades es esencialmente la
misma en cada experimento.
Si se hacen experimentos para tiempos de exposición especı́ficos y estos tiempos de exposición se van incre-
mentando gradualmente, vemos que a medida que el tiempo de exposición aumenta el experimento se vuelve más
reproducible, pasando desde resultados muy aleatorios para tiempos de exposición cortos (pocos fotones incidentes)
hasta resultados altamente reproducibles para tiempos muy largos de exposición (muchos fotones incidentes). Esto
revela que la ley fundamental que rige al fenómeno debe ser de naturaleza probabilı́stica, ya que un modelo prob-
abilı́stico en general falla en sus predicciones cuando una muestra posee muy pocos elementos o eventos, pero es
altamente predictivo cuando la muestra consta de un enorme número de elementos o de eventos. En nuestro caso
los eventos son los impactos de los fotones sobre la placa y lo que vemos es que el patrón de interferencia se va
construyendo a medida que los fotones van impactando la placa.
Un aspecto que no hemos tocado hasta aquı́, es el referente a la determinación de la rendija por la cual pasa
cada fotón. Si queremos determinar por cual rendija pasa cada uno de los fotones que se emiten uno por uno,
podemos colocar dos detectores (digamos dos fotomultiplicadores) sobre cada rendija F 1 y F2 , en tal caso podemos
determinar completamente la rendija a través de la cual pasa cada fotón, ya que cuando se emite un fotón una
señal es registrada en uno de los detectores pero no en ambos al tiempo. Sin embargo, en este caso todos los fotones
detectados son absorbidos por los detectores y no alcanzan la pantalla. En otras palabras, la completa determinación
de la rendija por la cual pasa cada fotón destruyó completamente la información sobre el patrón de difracción. Por
otro lado, si dejamos un detector solo en F 1 y dejamos abierto F2 veremos que cuando han pasado muchos fotones
cerca del 50 % han sido detectados (con respecto al experimento anterior). Concluı́mos que los demás han pasado
por F2 pero entonces el patrón de difracción que se construirá gradualmente sobre la pantalla será el correspondiente
a la difracción por una rendija, no se observará entonces el fenómeno de interferencia inherente al experimento con
dos rendijas. Una vez más el proceso de medición (determinación de la rendija de paso) ha alterado la evolución
posterior del sistema.
En lo referente al carácter probabilı́stico cuántico, es necesario distinguirlo de los aspectos probabilı́sticos que se
emplean usualmente en mecánica clásica. En la termodinámica y especialmente en la mecánica estadı́stica clásica, se
utilizan conceptos de probabilidad y estadı́stica debido a que en la práctica (experimental) no es posible determinar
o controlar las condiciones iniciales de muchas partı́culas, aunado con la dificultad práctica (teórica) de resolver un
gran número de ecuaciones diferenciales acopladas. Se asume sin embargo en las teorı́as clásicas que si conozco todas
las condiciones iniciales puedo al menos en principio predecir las trayectorias exactas de las partı́culas y por tanto
de mi sistema como un todo. En cuántica nos vemos avocados a usar la probabilidad incluso con el conocimiento
y/o control de las condiciones iniciales del sistema, estamos hablando entonces de un comportamiento probabilı́stico
esencial e inherente a las leyes de la naturaleza, al menos en nuestra presente interpretación de los fenómenos.
2.7.1. Interpretación mecano-cuántica de la dualidad onda partı́cula

Hemos visto que tanto los aspectos corpusculares como los ondulatorios son indispensables para un correcto
entendimiento de los experimentos de Young con doble rendija. Dado que en mecánica clásica estos aspectos son
mutuamente excluyentes, será necesario replantearse las ideas de la mecánica clásica, las cuales después de todo
tuvieron su semilla en los fenómenos macroscópicos. Veamos a la luz de los resultados anteriores que aspectos deben
ser revaluados
De la discusión anterior hemos visto que cuando colocamos un fotomultiplicador (o dos) para detectar por cual
rendija van a pasar los electrones, afectamos de manera fundamental al sistema produciendo un cambio drástico en
el resultado final debido a que los fotones detectados se absorben y no alcanzan la pantalla. Vemos entonces que el
proceso de medición afecta de forma fundamental al sistema que se mide. En mecánica clásica, si bien es necesario
perturbar al sistema para poder medirlo, está implı́cito que esta perturbación se puede hacer arbitrariamente
pequeña al menos en principio. En mecánica cuántica éste y otros experimentos nos indicarán que cuando se realiza
un proceso de medición existe una cierta “perturbación fundamental” que no puede ser minimizada y que altera de
manera considerable al sistema que se mide.
Por otro lado, hemos visto que aunque los fotones se envı́en uno por uno, eliminando de esta forma la interacción
entre fotones, un fotón parece comportarse diferente si están abiertas las dos rendijas con respecto al caso en que
una sola de ellas está abierta, de no ser ası́ la intensidad resultante cuando las dos están abiertas serı́a la suma de
las intensidades obtenidas cuando se abre cada una. Adicionalmente, ya hemos visto que si intentamos determinar
por cual rendija pasan los fotones, evitamos que estos alcancen la pantalla. Esto se puede replantear diciendo que
es imposible observar el patrón de interferencia y al mismo tiempo conocer por cual rendija pasó cada fotón. Esta
afirmación será reforzada más adelante cuando discutamos el principio de incertidumbre de Heisenberg. Para resolver
esta paradoja es necesario abandonar la idea de que cada fotón pasará inevitablemente por una rendija especı́fica,
lo cual nos lleva a su vez a cuestionar el concepto de trayectoria, tan firmemente establecido en la mecánica clásica.
Ahora bien, hemos visto que cuando unos pocos fotones han impactado la pantalla, la distribución de estos
fotones no es reproducible a pesar de que los experimentos se repitan bajo las mismas condiciones iniciales. Esto
implica que para un fotón dado no podemos predecir con total certeza en qué punto golpeará a la pantalla incluso
si conocemos sus condiciones iniciales. En consecuencia, el conocimiento de las condiciones iniciales de un sistema
no determina completamente el movimiento subsecuente de éste. No obstante, el hecho de que el mismo patrón de
interferencia se construya cuando el número de fotones es muy alto, nos indica que las condiciones iniciales nos
pueden determinar una distribución de probabilidad que sı́ puede ser especificada por alguna ecuación dinámica. En
este caso especı́fico, la probabilidad de que un fotón golpee la pantalla dentro de un intervalo entre el punto x y el
punto x + dx, es proporcional a I (x) dx calculado con la teorı́a ondulatoria, es decir será proporcional a |E (x)| 2 dx.
Nótese que el principio de superposición que rige el comportamiento de los fenómenos ópticos clásicos está basado
en el hecho de que las ecuaciones de Maxwell sin fuentes son ecuaciones lineales y homogéneas, para las cuales vale
el principio de superposición, si E 1 y E2 son soluciones de las Ecs. de Maxwell sin fuentes, una combinación lineal
de ellas también lo es.
Los anteriores hechos se pueden entonces postular en la siguiente forma:
Los aspectos corpusculares y ondulatorios de la luz son inseparables. De modo que la luz se comporta simultánea-
mente como onda y como flujo de partı́culas. Las predicciones sobre el comportamiento del fotón son solo de carácter
probabilı́stico. El comportamiento ondulatorio nos dictamina la distribución de probabilidad de su manifestación co-
mo partı́cula (fotón). La información fı́sica sobre el fotón en un momento dado está determinada por la componente
E (r, t) de la onda electromagnética que es solución de las ecuaciones de Maxwell. El campo E (r, t) caracteriza al
estado de los fotones en el tiempo t. Dicho campo se interpreta como la amplitud de probabilidad de que un fotón
aparezca en el punto r en el tiempo t. Esto implica que la correspondiente probabilidad de que un fotón esté en el
volumen d3 r centrado r está dada por |E (r, t)| 2 d3 r.
Más adelante veremos que la amplitud de probabilidad E (r, t) tendrá su análogo para la materia en la denom-
inada función de onda ψ (r, t). Si bien existen muchas analogı́as entre E (r, t) y ψ (r, t) también existen algunas
diferencias importantes, por ejemplo E (r, t) no caracteriza completamente al estado de un fotón, en tanto que la
función de onda caracteriza completamente el estado de una partı́cula sin espı́n. La función de onda es esencial-
mente compleja en tanto que E se hace complejo solo por conveniencia. La teorı́a cuántica completa para los fotones
(electrodinámica cuántica) debe tener en cuenta el carácter eminentemente relativista de las ecuaciones de Maxwell
y además corresponde a la cuantización de un medio que es clásicamente contı́nuo (campos electromagnéticos).
En contraste, la mecánica cuántica para partı́culas corresponde a la cuantización de un medio que clásicamente
se considera discreto (partı́culas puntuales) y que en muchos casos se puede tratar como no-relativista. Aquı́ solo
trabajaremos la mecánica cuántica no relativista de medios clásicamente discretos y por tanto no trabajaremos el
problema concerniente al proceso matemático de cuantización del fotón.
2.7.2. Proceso de medición, preparación de un sistema y el principio de la descomposición

espectral
Vamos a examinar otro experimento de óptica que arrojará muchas luces sobre las ideas relativas al proceso de
medición en cuántica.
La Fig. 2.2, muestra el montaje que queremos estudiar. Asumamos que hacemos incidir una onda plana monocromáti
de una fuente sobre un polarizador P , elegiremos el eje z como el eje de propagación de la onda electromagnética
y asumiremos que el polarizador P se ubica en el plano xy. Paralelo al plano xy colocaremos un analizador A que
transmitirá luz polarizada a lo largo de u x y absorberá luz polarizada a lo largo de u y .
Asumiremos que el experimento se realizará en condiciones en donde sea válida la óptica clásica, es decir cuando
el haz de luz es muy intenso. En este caso, cuando la onda pasa por P queda polarizada en una dirección especı́fica
up caracterizada por
up = cos θ ux + sin θ uy
la onda plana monocromática que sale del polarizador P está caracterizada por el campo eléctrico
E (r, t) = E0 up ei(kz−ωt) = E0 cos θei(kz−ωt) ux + E0 sin θ ei(kz−ωt) uy (2.3)

Figura 2.2: (a) Montaje experimental para medidas de polarización. En z < 0 tenemos luz no polarizada que en
z = 0 se polariza en la dirección up . El analizador A suprimirá la componente u y del campo eléctrico polarizado.
E0 es la amplitud (constante) de la onda polarizada. La intensidad es proporcional a |E 0 |2 . Cuando la onda polarizada

pasa por el analizador su campo eléctrico vendrá dado por
E0 (r, t) = E00 ux ei(kz−ωt) = E0 cos θ ux ei(kz−ωt)
que surge básicamente de la eliminación de la componente a lo largo de u y en la Ec. (2.3). La intensidad de la onda
que pasó el analizador está dada por |E 00 |2 es decir
I 0 = I cos2 θ
resultado conocido como la ley de Malus.

Nos preguntamos ahora por lo que ocurre a nivel cuántico. Es decir, cuando la intensidad de la fuente es tan
baja que los fotones se emiten uno a uno, de manera que la cuantización de la radiación se hace manifiesta. Podemos
colocar un detector de fotones detrás del analizador para mirar los resultados. Retomaremos para ello los resultados
de las discusiones anteriores.
En primera instancia, debido a la existencia de un cuanto indivisible (el fotón) el detector no registra una fracción
de fotón. O bien el fotón cruza el analizador o bien es absorbido completamente por él.
Adicionalmente, no podemos predecir con total certeza si un cierto fotón incidente sobre el analizador cruzará o
será absorbido por éste. Solo podremos conocer la probabilidad de que un evento especı́fico de estos ocurra. Veremos
sin embargo que en ciertos casos especı́ficos, podremos hacer predicciones con total certeza.
Cuando el número total de fotones es muy grande, es decir cuando ha pasado suficiente tiempo, se construirá un
patrón reproducible de probabilidad equivalente al que se obtiene para tiempos cortos con un haz de alta intensidad.
En sı́ntesis debe generarse un patrón reproducible (y por tanto predecible) que corresponda además al lı́mite clásico.
Es decir, si N es el número (grande) de fotones entonces un número dado por N cos 2 θ de fotones cruzará el
analizador.
Nótese que el aparato de medida (analizador) solo puede dar algunos resultados especı́ficos que llamaremos
resultados propios o autoresultados. En este experimento solo hay dos resultados posibles: el fotón pasa el
analizador o es absorbido por él. Hay entonces una cuantización del resultado, lo cual es muy diferente al escenario
clásico en el cual la intensidad puede variar de manera contı́nua desde 0 hasta I cuando el ángulo θ se varı́a de
forma contı́nua.
El experimento muestra además el siguiente resultado, si el fotón está polarizado a lo largo de u x dicho fotón
pasará con toda certeza el analizador (con probabilidad 1). Análogamente, si el fotón está polarizado a lo largo de u y
hay una certeza total de que este fotón será absorbido (probabilidad cero para pasar). Estas aseveraciones requieren
naturalmente de una repetición de una gran cantidad de experimentos que muestren la naturaleza probabilı́stica
para fotones con estas polarizaciones. Adicionalmente, se observa que estos son los únicos estados de polarización
que conducen a una total certeza en la medida. Por esta razón llamaremos a estos estados de polarización estados
propios o autoestados. Vemos además que a cada resultado propio le corresponde un estado propio, el resultado
propio “fotón que cruza” está asociado con el estado propio de polarización a lo largo de u x . El resultado propio
“fotón que se absorbe” está asociado a fotones con polarización u y . En otras palabras, para un estado propio tenemos
total certeza de obtener su correspondiente resultado propio. Matemáticamente podemos describir nuestros dos
estados propios como
u(1) (2)
p = ux ; up = uy
La siguiente pregunta obvia es ¿cuál es la probabilidad de obtener un resultado propio dado, cuando el estado
es una superposición de los estados propios? es decir cuando el estado de polarización del fotón es arbitrario i.e.
up = cos θ ux + sin θ uy = cos θ u(1) (2)

p + sin θ up (2.4)
para obtener la distribución de probabilidad es necesario tener una gran cantidad de eventos para cada estado de
polarización. Esto se logra midiendo muchos fotones que poseen las mismas condiciones iniciales 2 y se encuentra
experimentalmente que para un número N (grande) de fotones con polarización dada por un ángulo θ en (2.4) un
número N cos2 θ de ellos pasará, y N sin2 θ de ellos será absorbido. Por tanto, un fotón especı́fico con polarización
definida por θ tiene una probabilidad cos 2 θ de ser transmitido y una posibilidad sin 2 θ de ser absorbido. Esto
coincide con la ley clásica de Malus como esperábamos cuando el número de fotones es grande.
Lo anterior nos indica que la probabilidad de obtener un cierto resultado propio es proporcional al cuadrado del
valor absoluto del coeficiente del estado propio asociado, al coeficiente lo llamamos la amplitud de probabilidad, las
amplitudes de probabilidad A (i) y las probabilidades P (i) para cada resultado propio son en este caso
D D 2
(1)
A (1) = cos θ = u(1)
p u p i ; P (1) = cos 2
θ = u p u p i
D D 2
(2)
A (2) = sin θ = u(2) 2
p up i ; P (2) = sin θ = up up i
P (1) + P (2) = cos2 θ + sin2 θ = 1
en algunos casos será necesario colocar una constante de proporcionalidad para garantizar que la suma de las
probabilidades de todos los resultados propios sea uno.
Esto nos induce a postular que si tenemos un conjunto de autoresultados {R i } asociados a autoestados {ψi } un
estado arbitrario se escribirá como superposición de los autoestados
X
ψ= ci ψi (2.5)
i
y la probabilidad de obtener un autoresultado R k será
|ck |2
P (Rk ) = P 2 (2.6)
i |ci |
o equivalentemente
|hψk | ψi|2
P (Rk ) = (2.7)
hψ| ψi
donde el denominador me asegura la conservación de la probabilidad
X
P (Ri ) = 1
i
2
Nótese que el polarizador tiene el papel de reproducir las mismas condiciones iniciales en cada conjunto de experimentos.
puesto que el conjunto de todos los autoresultados es por definición el conjunto de todos los resultados experimentales
que podemos obtener al medir el sistema. Esta afirmación se denomina el principio de descomposición espectral.
El ejemplo de los fotones polarizados nos indica además que la descomposición espectral especı́fica depende del
tipo de instrumento de medición dado que hay que utilizar los autoestados que corresponden a este aparato. Por
ejemplo, si el analizador (aparato de medición) tiene una orientación diferente, los autoestados estarán definidos
según esta nueva dirección. Si en vez de un analizador tenemos un medidor de otra variable fı́sica (por ejemplo el
espı́n) los autoresultados deben definirse correspondientemente y por lo tanto los autoestados.
Supongamos que dos fotones poseen la misma polarización pero se diferencian en otros observables fı́sicos (mo-
mento, espı́n, etc.), un aparato que mide polarización solo puede dicernir los diferentes valores de este observable,
por tanto si existen otros observables que caracterizan a mi partı́cula, al autovalor de polarización {a}, le corre-
sponde mas de un autoestado ya que todos los autoestados con polarización {a} están asociados a este autovalor
sin importar cuales sean los valores de los otros observables. Decimos que los autoestados están degenerados con
respecto al observable o autovalor {a} lo cual según la presente discusión indica que solo tenemos una información
parcial sobre el sistema. Volveremos sobre el tema de la degeneración más adelante.
La consistencia de estos resultados se puede analizar poniendo un segundo analizador A 0 después de A y que
permita el paso de fotones con polarización en u x . Dado que todos los fotones que pasaron por A quedaron “prepara-
dos” en el estado de polarización u x , todos estos fotones están en un solo autoestado del nuevo analizador A 0 con
autoresultado “el fotón pasa”. Por tanto, todos los fotones que pasaron por A deben pasar por A 0 . Similarmente, si
A0 está orientado según uy , todos los fotones que vienen de A deben ser absorbidos en A 0 . Estas predicciones están
confirmadas por los experimentos.
Analicemos ahora un aspecto de la medición directamente asociado con la naturaleza cuántica de la radiación.
Al ser el fotón un cuanto indivisible solo existe la posibilidad de transmisión o absorción, esto desembocó en el
hecho de que a partir de un estado arbitrario de polarización, hay un cambio abrupto luego de la medición para
los fotones que pasan, pues estos pasan de la polarización u p a la polarización ux que corresponde a un autoestado
de mi aparato. Existe entonces una perturbación fundamental que altera el estado del sistema y que no puede ser
disminuı́da. Nótese que después de la medición (preparación del fotón en un autoestado) tenemos una información
adicional “el fotón ha pasado el analizador”.
Lo anterior es entonces una confirmación de que el proceso de medición perturba de manera fundamental el estado
del sistema. Podrı́amos en este punto postular que luego del proceso de medición, el sistema queda preparado en
un estado propio definido por el sistema mismo y por el aparato de medición.
2.8. Dualidad onda partı́cula para la materia

Hemos visto que de acuerdo con los postulados de De Broglie, la materia al igual que los fotones exhibe un
comportamiento dual onda partı́cula. La corroboración experimental de estos postulados se realizó a través de los
experimentos de Davidsson y Germer, ası́ como los experimentos de G. P. Thomson (ambos sobre difracción de
electrones), y los experimentos de Estermann, Frisch y Stern concernientes a la difracción de átomos de Helio.
Adicionalmente, De Broglie postuló que si bien la onda asociada a una partı́cula libre era una onda viajera
(nodos en movimiento), para un electrón en un átomo que esté ligado al núcleo atómico y que recorre su órbita
periódicamente, su onda piloto debe estar asociada a una onda estacionaria (nodos fijos). Esta interpretación per-
mitió dar una explicación a las reglas de cuantización de Bohr, demostrando que las órbitas permitidas en un átomo
son aquellas que corresponden a un perı́metro circular con un número entero de longitudes de ondas estacionarias.
Además para órbitas no circulares la exigencia de ondas estacionarias resultó equivalente a las reglas de cuanti-
zación de Wilson y Sommerfeld, en donde los niveles permitidos de energı́a aparecen como los análogos de los modos
normales de una cuerda vibrante.
Recordemos además que dentro de sus postulados De Broglie asume que la energı́a E y el momento p de una
partı́cula material posee la siguiente relación con sus parámetros de onda
E = hν = ~ω ; p = ~k (2.8)
siendo ν, ω, k la frecuencia, frecuencia angular y número de onda respectivamente. La correspondiente longitud de

onda es
2π h
λ= = (2.9)
|k| |p|
2.8. DUALIDAD ONDA PARTÍCULA PARA LA MATERIA 107
una estimación de la longitud de onda de la materia ordinaria nos permite comprender porqué no observamos la
naturaleza ondulatoria de la materia ordinaria en el mundo macroscópico.
En virtud de la gran simetrı́a que parece existir entre la radiación y la materia, vamos a incorporar las ideas
ya recogidas de los experimentos ópticos para incorporarlas a la naturaleza de las partı́culas materiales. Estas
extrapolaciones están soportadas en el hecho de que experimentos similares a los ópticos se pueden realizar con
los electrones y otras partı́culas materiales, y observar que el comportamiento es muy similar al mostrado por los
fotones.
Comenzaremos entonces por mencionar que el concepto clásico de trayectoria será sustituı́do por el concepto de
una distribución dinámica (dependiente del tiempo) de probabilidad de que la partı́cula esté en cierta región del
espacio. Para ello será necesario encontrar una amplitud de probabilidad ψ (r, t) que estará asociada a un campo
escalar. A esta amplitud de probabilidad se le conoce como función de onda y me define el estado de una partı́cula
en un instante dado, es decir contiene toda la información posible sobre la partı́cula. La probabilidad de encontrar
a la partı́cula en un volumen d3 r está dada por
dP (r, t) = C |ψ (r, t)|2 d3 r
donde C es una constante de normalización. Puesto que los experimentos muestran que esta distribución de proba-
bilidad presenta las propiedades ondulatorias, es necesario que la ecuación de movimiento que la genera sea lineal y
homogénea para que se cumpla el principio de superposición que se requiere para los fenómenos de interferencia. Es
claro que estos fenómenos de interferencia se verán reflejados en la probabilidad (al igual que en la intensidad en los
fenómenos ópticos), al elevar al cuadrado la cantidad ψ (r) (el análogo a E (r, t) en óptica). Dado que la partı́cula
debe estar siempre en algún lugar, es claro que la probabilidad total debe ser igual a la unidad
Z
C |ψ (r, t)|2 d3 r = 1 (2.10)
esto nos indica entonces que los estados fı́sicos ψ (r, t) deben ser funciones de cuadrado integrable en todas las
regiones accesibles a la partı́cula (es posible que ciertas condiciones fı́sicas hagan que algunas regiones no sean
accesibles). En otras palabras, la integral sobre el volumen accesible de la partı́cula debe ser convergente.
Asumiremos además que se cumple el principio de descomposición espectral aplicado a la medida de una cantidad
fı́sica arbitraria. Esto significa que (a) El resultado de la medida debe pertenecer a un conjunto de autoresultados
{a}. (b) Con cada autovalor a se asocia un autoestado, es decir una autofunción ψ a (r). Esta autofunción cumple la
condición de que si ψ (r, t0 ) = ψa (r) siendo t0 el instante en el cual se realiza la medida, el resultado de tal medida
nos dará con toda certeza el autovalor a. (c) Para todo estado ψ (r, t) la probabilidad P a de obtener el autovalor
a cuando se realiza una medida en el tiempo t 0 , se encuentra descomponiendo ψ (r, t) en los autoestados ψ a (r, t)
X |ca |2 X
ψ (r, t0 ) = ca ψa (r) ; Pa = P 2 ; Pa = 1
a b |cb | a
en virtud de la arbitrariedad del estado inicial ψ (r, t 0 ), lo anterior implica que los autoestados ψ a (r) deben ser
completos, es decir deben formar una base para el conjunto de todos los estados fı́sicos posibles, esto nos llevará de
manera natural al concepto de observable. (d) Si la medida nos arroja un autovalor a, la partı́cula quedará en su
autoestado asociado ψa (r). (e) La ecuación que describe la evolución del sistema (evolución temporal de la amplitud
de probabilidad) debe ser lineal y homogénea en ψ. Debe tener soluciones de naturaleza ondulatoria compatibles
con las relaciones de De Broglie, en la siguiente sección estudiaremos con más detalle estas propiedades.
Es importante observar que cuando realizamos el paso de suplantar la trayectoria de una partı́cula (clásicamente
puntual), por una distribución dinámica de probabilidad (un campo) estamos reemplazando un estado clásico de
partı́cula puntual de seis parámetros en cada tiempo (tres coordenadas de posición y tres de velocidad), por un
estado cuántico determinado por un número infinito de parámetros: el valor de la función de onda en cada punto
del espacio (y en el tiempo dado). El hecho de que la distribución de probabilidad dependa del tiempo nos llevará al
concepto de propagación de la onda asociada con la partı́cula. A manera de ejemplo, en el experimento de la doble
rendija de Young cuando se observa el patrón de interferencia no poseemos información sobre la rendija por la cual
pasó cada fotón (también vale para electrones u otras partı́culas materiales), en realidad la onda asociada para por
ambas rendijas y solo podemos calcular la probabilidad de que pase por una de ellas.
Es importante mencionar sin embargo, que la simetrı́a materia radiación exhibida hasta el momento posee
una excepción importante: los fotones son en general emitidos (creados) o absorbidos (destruı́dos) durante un
experimento. En contraste, las partı́culas materiales no se crean ni se destruyen en los experimentos tı́picos. Por
ejemplo, un electrón emitido por un filamento caliente ya existı́a previamente en el filamento. De la misma forma
un electrón absorbido en un detector no desaparece, simplemente se vuelve parte de un átomo del detector o de una
corriente en éste. En realidad la teorı́a de la relatividad predice que es posible la creación y aniquilación de partı́culas
materiales: por ejemplo un fotón de alta energı́a que pasa cerca a un átomo puede crear un par electrón positrón
(partı́cula antipartı́cula). Recı́procamente, una colisión electrón positrón aniquila a ambas partı́culas emitiendo un
fotón, esta conversión radiación materia o viceversa es posible gracias a la equivalencia energética de la masa. Sin
embargo, en el lı́mite no relativista la materia no se puede crear ni destruı́r, lo cual nos lleva a una ley importante de
conservación del número de partı́culas. En particular, para sistemas de una partı́cula podemos hacer la afirmación
de que la partı́cula está en alguna parte para todo tiempo, lo cual nos indica una conservación de la probabilidad
(la integral de volumen 2.10 debe ser la unidad para todo tiempo).
Resumamos entonces las diferencias importantes entre materia y radiación que nos conducen a que la teorı́a
cuántica para la materia es más sencilla. (a) Los fotones son irremediablemente relativistas, la materia en cambio
puede estar en un régimen no relativista y de hecho para sólidos a temperaturas normales los electrones y núcleos
tienen velocidades mucho menores que la de la luz. Por tanto, para la materia tiene sentido una teorı́a cuántica no
relativista pero no para la radiación. (b) La naturaleza relativista de los fotones (y de la materia a altas energı́as)
conduce a que el número de fotones no se conserva en el tiempo, por tanto la distribución de probabilidad debe
colapsar para tiempos anteriores a la emisión y posteriores a la absorción, la Ec. (2.10) no es válida para todo
tiempo y debe incorporarse una ecuación o ecuaciones que me den cuenta de la dinámica en el número de partı́culas
(dinámica de creación y destrucción). (c) Desde el punto de vista clásico las partı́culas suelen modelarse como medios
discretos (partı́culas puntuales), en tanto que el escenario clásico del fotón corresponde a medios contı́nuos (campos
electromagnéticos). La cuantización de la materia se asocia entonces a menudo con la cuantización de un medio
clásicamente discreto (teorı́a cuántica “ordinaria”), en tanto que la cuantización de la radiación está necesariamente
asociada a la cuantización de un medio clásicamente contı́nuo (teorı́a cuántica de campos).
2.9. Aspectos ondulatorios de una partı́cula material

Hemos visto que la distribución de probabilidad está asociada con las propiedades ondulatorias de la materia (o
la radiación). Por tanto, la generación de la ecuación dinámica para esta distribución de la probabilidad requerirá de
estudiar las propiedades ondulatorias que dicha ecuación debe generar. En general, la mayor parte de la discusión que
se desarrollará en esta sección es también válida para ondas clásicas, los desarrollos matemáticos son básicamente
idénticos pero la interpretación difiere en ambos casos. Si seguimos los postulados de De Broglie, el punto de partida
natural será el estudio de las ondas viajeras libres. Dentro de la ecuación de onda clásica libre (i.e. homogénea) la
solución más simple (monocromática) es la solución tipo onda plana
ψ (r, t) = Aei(k·r−ωt) (2.11)
es inmediato ver que la onda plana es tal que
|ψ (r, t)|2 = |A|2
de modo que si efectivamente representa a la onda asociada a una partı́cula libre, nos predice que la distribución de
probabilidad de una partı́cula libre es uniforme en el espacio, lo cual es compatible con la homogeneidad e isotropı́a
del espacio. Podrı́a argumentarse que las ondas planas no son de cuadrado integrable de modo que no representan
estrictamente un estado fı́sico. Sin embargo, nuestra experiencia con la óptica en la cual las ondas planas tampoco
son estados fı́sicos nos muestra que el estudio de sus propiedades es muy provechoso, por un lado porque se puede
considerar como el lı́mite de un estado fı́sico y por otro lado porque los estados fı́sicos se podrán escribir como
superposición de tales funciones en virtud de su completez (ver sección 1.31.1).
Tomaremos entonces la solución (2.11) como el prototipo de una onda piloto. Nuestro objetivo será realizar una
teorı́a no relativista que sea compatible con los postulados de De Broglie. Partiremos entonces de la relación no
relativista entre E y p para una partı́cula
p2
E= (2.12)
2m
2.9. ASPECTOS ONDULATORIOS DE UNA PART ÍCULA MATERIAL 109
y utilizando las relaciones de De Broglie (2.8) llegamos a

~k2
ω= (2.13)
2m
la relación de dispersión (2.13) nos dice que la ecuación de onda NO es la ecuación dinámica que gobierna a la
teorı́a cuántica no relativista de una partı́cula, ya que es fácil demostrar que insertando (2.11) en la ecuación de
onda clásica se obtiene la relación de dispersión
ω 2 = k2 v 2 (2.14)
siendo v la velocidad de la onda. Volveremos sobre este problema más adelante, de momento asumiremos que la
onda viajera libre (2.11) es solución de la ecuación de movimiento para el estado cuántico ψ de una partı́cula libre
con relación de dispersión dada por (2.13). Puesto que las ondas piloto deben generar los fenómenos ondulatorios,
es necesario que la combinación lineal de soluciones sea solución de la ecuación dinámica para generar los fenómenos
de interferencia.
2.9.1. Estados cuánticos arbitrarios como superposición de ondas planas

De acuerdo con lo anterior, y dado que las ondas planas pueden generar cualquier función de cuadrado inte-
grable (completez) cualquier estado cuántico de una partı́cula (no necesariamente libre) se puede escribir como una
superposición de la forma Z
1
ψ (r, t) = 3/2
ψ̄ (k) ei[k·r−ωt] d3 k (2.15)
(2π)
donde d3 k = dkx dky dkz representa un diferencial de volumen en el espacio de las k 0 s (usualmente denominado
espacio recı́proco). La transformada de Fourier ψ̄ (k) puede ser compleja pero debe ser bien comportada para
permitir derivar la solución dentro de la integral. Por supuesto, las transformadas de Fourier especı́ficas dependerán
del problema especı́fico.
Una función de onda que es superposición de ondas planas como la descrita en (2.15) se denomina un paquete
de ondas tridimensional. Por simplicidad, tomaremos el caso unidimensional
Z
1
ψ (x, t) = √ ψ̄ (k) ei[kx−ωt] dk (2.16)
2π
y estudiaremos más adelante el caso tridimensional. En primer lugar estudiaremos el perfil del paquete de onda en
un instante dado
2.9.2. Perfil instantáneo del paquete de onda

Por simplicidad elegimos el instante como t = 0. La Ec. (2.16) se simplifica a
Z
1
ψ (x, 0) = √ ψ̄ (k, 0) eikx dk (2.17)
2π
y su inversa es Z
1
ψ̄ (k, 0) = √ ψ (x, 0) e−ikx dx (2.18)
2π
la forma instantánea del paquete estará dada por la dependencia x de ψ (x, 0) definida en (2.17). Imaginemos que
ψ̄ (k, 0) está dada por una curva cuyo perfil es similar a una campana de Gauss simétrica centrada en k = k 0 con
un pico bien pronunciado en k0 y un ancho ∆k. En realidad, no hay una sola forma de parametrizar este ancho,
pero tomaremos por convención que el ancho lo definimos a la mitad de la altura del pico.
Ahora trataremos de definir el comportamiento cualitativo de ψ (x, 0) por medio de ejemplos sencillos. Supong-
amos que ψ (x, t) está dado por una superposición de tres ondas planas e ikx (en t = 0), caracterizadas por los
números de onda k0 , k0 − ∆k ∆k
2 , k0 + 2 con amplitudes g (k0 ), g (k0 ) /2 y g (k0 ) /2

g (k0 ) ik0 x 1 i(k0 − ∆k )x 1 i(k0 + ∆k )x
ψ (x) = √ e + e 2 + e 2 (2.19)
2π 2 2

g (k0 ) ik0 x ∆k
ψ (x) = √ e 1 + cos x (2.20)
2π 2
Figura 2.3: (a) Partes reales de cada una de

las tres ∆x
ondas
dadas por (2.19). (b) Superposición de las tres ondas. La
lı́nea punteada es la envolvente dada por 1 + cos 2 x , que le da forma al paquete de ondas. La lı́nea contı́nua
describe las oscilaciones.
La Fig. 2.3 muestra la forma de cada una de estas tres ondas (sus partes reales) y de la superposición. La Ec.
(2.20) muestra que |ψ (x)| es máximo cuando x = 0, lo cual se aprecia en la Fig. 2.3 en virtud de que en x = 0
las tres ondas están en fase y por lo tanto interfieren constructivamente. A medida que nos movemos desde x = 0
(hacia la izquierda o la derecha) las ondas están cada vez más en desfase de modo que |ψ (x)| va disminuyendo,
hasta que la interferencia se vuelve totalmente destructiva en ciertos puntos x n (posiciones de los nodos), cuando la
diferencia de fase entre eik0 x y ei(k0 ±∆k/2)x es igual a (2n + 1) π, siendo n un entero no negativo. Los nodos x n más
cercanos a x = 0 están asociados a una diferencia de fase π

∆k ∆k
k0 xn − k0 xn ± xn = π⇒∓ xn = π
2 2
∆k 2π
xn = ∓π ⇒ xn = ∓
2 ∆k
Dado que el paquete es simétrico y está centrado en x = 0, el ancho del paquete es ∆x = 2 |x n |
4π
∆x = ⇒ (∆x) (∆k) = 4π (2.21)
∆k

esto nos muestra que a medida que el ancho ∆k de la función ψ̄ (k) decrece, el ancho ∆x de la función |ψ (x)|
aumenta, siendo ∆x la distancia entre dos ceros de |ψ (x)|. Similarmente, si el ancho del paquete ∆x disminuye
(paquete más localizado), el ancho ∆k de ψ̄ (k) debe aumentar a fin de mantener la relación (2.21).
Si asumimos ik0 x es mucho mayor a la frecuencia del término
∆k
que k0 >> ∆k entonces la frecuencia del término e
1 + cos 2 x . Por lo tanto, la parte oscilante en x para la Ec. (2.20) está dada por la función e ik0 x y la envolvente
(modulación de la amplitud de oscilación) está dada por

g (k0 ) ∆k
|ψ (x)| = √ 1 + cos x
2π 2
esta amplitud de la envolvente o función moduladora de la amplitud se ilustra como lı́nea punteada en la Fig. 2.3.
En este caso, vemos que la envolvente dada por |ψ (x)| es periódica en x de modo que tenemos un tren infinito de
paquetes de onda con una serie de nodos y máximos. Este hecho se debe a que la superposición es de un número
finito de ondas planas. Para una superposición contı́nua de un número infinito de ondas como el dado en (2.17), este
fenómeno no ocurre y tendremos en general un solo máximo para el perfil |ψ (x, 0)|. En realidad, lo que esperamos
de una onda piloto asociada a una partı́cula es un solo paquete relativamente “localizado” alrededor del máximo
del paquete (región de mayor probabilidad de localizar a la partı́cula).
Retornemos ahora al caso general de una superposición contı́nua de la forma (2.17), aquı́ el fenómeno de in-
terferencia es más complejo pero de nuevo tendremos un máximo en |ψ (x, 0)| cuando las diferentes ondas viajeras
interfieran constructivamente.
Escribamos, ψ̄ (k, 0) en notación polar con α (k) el argumento y ψ̄ (k, 0) la longitud del fasor

ψ̄ (k, 0) = ψ̄ (k, 0) eiα(k) (2.22)
ahora
asumamos
que α (k) varı́a lentamente en el intervalo [k 0 − ∆k/2, k0 + ∆k/2] donde la longitud del fasor
ψ̄ (k, 0) es apreciable. Cuando ∆k es suficientemente pequeño, podemos expandir a α (k) en las vecindades de
k = k0
dα
α (k) ' α (k0 ) + (k − k0 )
dk k=k0
reemplazando esta expansión en (2.17) se obtiene
Z ∞ Z ∞
1 1
ψ (x, 0) = √ ψ̄ (k) eikx dk = √ ψ̄ (k) eiα(k) eikx dk (2.23)
2π −∞ 2π −∞
Z k0 + ∆k h i
1 2 i α(k0 )+(k−k0 )[ dα
dk ]k=k0
+kx
' √
ψ̄ (k) e dk
2π k0 − ∆k 2
Z k0 + ∆k h i
1 2 i α(k0 )+(k−k0 )[ dα
dk ]k=k0
+kx−k0 x+k0 x
= √
ψ̄ (k) e dk
2π k0 − ∆k 2
Z k0 + ∆k h i
1 2 i α(k0 )+(k−k0 )[ dα
dk ]k=k0
+(k−k0 )x+k0 x
= √
ψ̄ (k) e dk
2π k0 − ∆k 2
Z ∆k n o
ei[α(k0 )+k0 x] k0 + 2 i (k−k0 ) [ dα ]
+x
= √ ψ̄ (k) e dk k=k0
dk (2.24)
2π k0 − ∆k
2
quedando finalmente
Z k0 + ∆k
ei[k0 x+α(k0 )] 2
ψ (x, 0) ' √ ψ̄ (k) ei(k−k0 )(x−x0 ) dk (2.25)
2π k0 − ∆k
2

dα
x0 ≡ − (2.26)
dk k=k0
La expresión (2.25) es útil para un análisis cualitativo de las variaciones de |ψ (x, 0)| con x. Partiendo de k = k 0 el
siguiente valor kb para el cual se ha ejecutado una oscilación es
2π
(kb − k0 ) (x − x0 ) = 2π ⇒ (kb − k0 ) =
(x − x0 )
De modo que el valor de |x − x0 | nos dice si |kb − k0 | es mayor o menor que ∆k/2 o en otras palabras, si en el
intervalo de integración definido en (2.25) el integrando ha logrado o no completar una oscilación. Cuando |x − x 0 |
es grande i.e. cuando |x − x0 | >> 2π/∆k, se tiene que
2π
(kb − k0 ) = << ∆k
(x − x0 )
Figura 2.4: Variaciones con respecto a k, de la parte real del integrando en la Ec. (2.25) (a) cuando x es fijo en un
valor tal que |x − x0 | > 1/∆k, en tal caso la función oscila varias veces en el intervalo ∆k. (b) Cuando x es fijo en
un valor tal que |x − x0 | < 1/∆k, en tal caso la función oscila muy poco en tal intervalo y la función ψ (x, 0) toma
valores grandes. Por tanto, el centro del paquete
de ondas (punto donde |ψ (x, 0)| es máximo) se ubica en x=x 0 .
En todo el análisis se ha supuesto que ψ (k) es una función simétrica centrada en k 0 , con un perfil similar a una
campana de Gauss.
de modo que una oscilación en el integrando de (2.25) se realiza en un intervalo mucho menor que el ancho de
integración. En consecuencia, la función de k que se integra en (2.25) oscila muchas veces dentro del intervalo ∆k
y las contribuciones de las sucesivas oscilaciones se cancelan entre sı́ (Fig. 2.4a); por tanto, la integral sobre k se
vuelve muy pequeña. Es decir que cuando x está fijo en un valor lejano a x 0 las fases de las diversas ondas que
constituyen a ψ (x, 0) varı́an muy rápidamente en el dominio ∆k, y forman entre ellas una interferencia destructiva.
Por otra parte, cuando x ' x0 , o en otras palabras cuando
|x − x0 | << 1/∆k
se tiene que
|kb − k0 | >> 2π∆k > ∆k
la función que se integra sobre k solo realiza una pequeña fracción de la oscilación a partir de k 0 y dado que
|k − k0 | < ∆k para un k que esté en el intervalo de integración, se tiene que

1 ∆k ∆k
|k − k0 | |x − x0 | < < ∆k = 1 , k ∈ k0 − , k0 +
∆k 2 2

ψ̄ (k) ei(k−k0 )(x−x0 ) ' ψ̄ (k) (2.27)

de modo que la exponencial apenas modifica un poco el perfil de ψ̄ (k) (Fig. 2.4b), y en el proceso de integración
la fase se mantiene casi constante, por tanto la interferencia es constructiva y |ψ (x, 0)| es máximo.
De otra parte, la Ec. (2.27) se convierte en una igualdad para la posición x M tal que xM = x0 , en cuyo caso no
hay oscilación y la interferencia es completamente constructiva. Por tanto, la posición x M (0) = x0 corresponde al
centro del paquete de onda (máximo del módulo del paquete) que de acuerdo con la Ec. (2.26) viene dada por:

dα
xM (0) = x0 = − (2.28)
dk k=k0
alternativamente, se puede ver que (2.28) nos da la posición del centro del paquete teniendo en cuenta que la Ec.
(2.17) adquiere su máximo en valor absoluto cuando las ondas de mayor amplitud (aquellas con k cercano a k 0 )
interfieren constructivamente. Esto ocurre cuando las fases que dependen de k de estas ondas varı́an lentamente
alrededor de k0 . Para obtener el centro del paquete se impone que la derivada con respecto a k de la fase sea cero
para k = k0 , esta fase se puede ver en la segunda igualdad de la Ec. (2.23) y se obtiene

d dα
[kx + α (k)]k=k0 = 0 ⇒ x + =0 (2.29)
dk dk k=k0
vemos entonces que la condición de fase estacionaria (2.29) se reduce a (2.28).

Cuando x se aleja de x0 , el valor de |ψ (x, 0)| decrece. El propósito ahora es definir un ancho ∆x dependiendo
del decrecimiento de |ψ (x, 0)| alrededor de x 0 . Nótese que este decrecimiento es apreciable si e i(k−k0 )(x−x0 ) oscila
una vez o más cuando k recorre el dominio desde k 0 − ∆k ∆k
2 hasta k0 + 2 es decir cuando
∆k · |x − x0 | & 2π
donde hemos definido el “umbral” para |x − x 0 | como el valor para el cual se ejecuta una oscilación. Si definimos
∆x ≡ |x − x0 | /2π como el ancho tı́pico del paquete, tenemos
∆k ∆x & 1 (2.30)
lo cual nos da una relación entre los anchos de dos funciones que son transformadas de Fourier una de otra.
Observemos de nuevo que no hay una única manera de definir el ancho ∆x, por ejemplo podemos definir este ancho
con dos oscilaciones, con tres etc, entre mayor sea el número de oscilaciones mayor es el efecto de cancelación, el
ancho será mayor y estaremos tomando una mayor porción del área bajo la curva. De la misma forma, puedo tomar
el ancho ∆k cuando la altura ψ̄ (k) es 1/2, 1/e, 1/3 etc, es decir puedo ensanchar ∆k para tomar una porción más

grande del área bajo la curva y tener mejores aproximaciones. En vista de lo anterior, el hecho importante es que
este producto tiene una cota inferior, ya que el valor preciso de esta cota depende de la definición de los anchos ∆k
y ∆x. Esta es la razón para utilizar el sı́mbolo & en la Ec. (2.30) en lugar de ≥.
La relación (2.30) nos dice además que no es posible construı́r paquetes cuyo producto de anchos sea mucho
menor que uno, pero en cambio sı́ es posible construı́r paquetes cuyo producto de anchos sea mucho mayor que uno.
Nótese que este análisis ha sido completamente matemático, k y x pueden ser variables arbitrarias siempre
que ψ (x, 0) y ψ̄ (k) sean transformadas de Fourier la una de la otra. No existe ninguna suposición fı́sica en estos
argumentos.
El presente análisis se utiliza en ondas clásicas asignando a k el número de onda y a x la variable espacial en
una dimensión. La Ec. (2.30) demuestra que a medida que un paquete de ondas se hace más monocromático (a
medida que se reduce ∆k) el ancho ∆x del paquete de onda espacial se hace mayor. En un paquete estrictamente
monocromático ∆k → 0 y por tanto ∆x → ∞, por lo cual las ondas monocromáticas no corresponden a estados
fı́sicos. Este mismo principio nos muestra que no existe un tren de ondas electromagnéticas para el cual se pueda
definir la posición y la longitud de onda con infinita precisión al mismo tiempo.
2.9.3. El principio de incertidumbre de Heisenberg

En nuestro contexto de la mecánica cuántica, el paquete de onda ψ (x, t) dado por (2.16) representa el estado de
una partı́cula cuya probabilidad en t = 0 de estar fuera del paquete centrado en x 0 y de ancho ∆x es prácticamente
cero.
El resultado (2.30) posee una interesante interpretación a la luz de la mecánica cuántica. Por ejemplo, hemos
visto que cuando nuestro estado se describe por una sola onda plana del tipo dado en la Ec. (2.11) (que no es
estrictamente un estado fı́sico), la probabilidad de estar en cualquier punto del eje x es la misma para todos los
valores de t, no hay propagación de la probabilidad. Por otro lado, el ancho ∆x del paquete de onda se puede
considerar infinito (la amplitud no se modula), lo cual se traduce en la máxima incertidumbre posible en la posición
de la partı́cula (igual probabilidad en todas partes). Por otra parte, esta onda tiene solo una frecuencia angular ω 0
y un solo número de onda k0 (onda monocromática) y de acuerdo con las relaciones de De Broglie su energı́a y su
momento están perfectamente definidos E = ~ω 0 , p = ~k0 . Esta onda plana pura se puede considerar como un caso
particular del paquete de ondas (2.16) con
ψ̄ (k) = δ (k − k0 ) ; ∆k → 0
donde el hecho de que ∆k → 0 se vé claramente si vemos a la delta de Dirac como el lı́mite de Gaussianas cada vez
más altas y agudas. La relación ∆k → 0 junto con la Ec. (2.30) nos lleva a que ∆x → ∞ como ya se dijo.
A la luz del principio de descomposición espectral este resultado se puede ver de la siguiente forma: A la
partı́cula en t = 0 le hemos asignado una función de onda ψ (x, 0) = Ae ikx y hemos visto que posee un momento
bien determinado. Es decir que una medida del momento en t = 0 dará definitivamente el valor p = ~k 3 . De esto se
deduce que Aeikx caracteriza al autoestado correspondiente al autovalor p = ~k. Puesto que existen ondas planas
para todos los valores de k, los autovalores de p que se pueden obtener en una medición del momento sobre un estado
arbitrario son todos los valores reales. En este caso no hay cuantización de los autoresultados, todos los valores del
momento son permitidos como en la mecánica clásica. Ahora bien, la total determinación de p viene acompañada
por una completa incertidumbre en x.
Volvamos ahora al caso de un paquete como el dado por (2.17). Como ψ (x, 0) es una superposición lineal de
autofunciones del momento eikx con coeficientes ψ̄ (k, 0), el principio de descomposición espectral nos conduce a
2
interpretar a ψ̄ (k, 0) dk (con un posible factor de normalización) como la probabilidad de encontrar un valor de
momento entre p = ~k y p + dp = ~ (k + dk), cuando hacemos una medida en t = 0 del momento de una partı́cula
cuyo estado es descrito por ψ (x, 0) en (2.17). Esta interpretación es necesaria cuando el autovalor tiene un espectro
contı́nuo ya que en este caso la probabilidad de estar en un
punto2 matemático especı́fico serı́a cero y solo es finita la
probabilidad de estar en un intervalo dado. En este caso ψ̄ (k, 0) serı́a una densidad de probabilidad (probabilidad
por unidad de volumen unidimensional), y no una probabilidad como ocurre en el caso discreto.
Ahora bien, dado que para una partı́cula es más usual hacer medidas de momento y energı́a que de frecuencia
angular y número de onda, es más adecuado escribir las expresiones en términos de E y p usando las relaciones de
De Broglie Ecs. (2.8)4 . En particular, la Ec. (2.17) se reescribe como
Z
1
ψ (x, 0) = √ ψ̄ (p, 0) eipx/~ dp
2π~
dado que las transformadas de Fourier satisfacen la relación de Bessel parseval (invarianza de la norma)
Z ∞ Z ∞

hψ| ψi (0) = 2
|ψ (x, 0)| dx = ψ̄ (p, 0)2 dp ≡ C
−∞ −∞
tendremos entonces que

1 1 2
dP (x, 0) = |ψ (x, 0)|2 dx ; dP̄ (p, 0) = ψ̄ (p, 0) dp
C C
dP (x, 0) representa la probabilidad de encontrar a la partı́cula en t = 0 en el intervalo [x, x + dx]. Similarmente,
dP̄ (p, 0) es la probabilidad de obtener una medida del momento de la partı́cula en t = 0 que esté dentro del intervalo
[p, p + dp].
Ahora escribamos la desigualdad (2.30) en términos de E y p usando la relaciones de De Broglie (2.8)
∆x ∆p & ~ (2.31)
para dar una interpretación fı́sica a (2.31), supongamos que el estado de una partı́cula está definido por el paquete
de onda (2.16). En tal caso, la probabilidad de encontrar la partı́cula en t = 0 dentro del intervalo [x 0 − ∆x/2,
x0 + ∆x/2] es prácticamente uno. Decimos entonces que ∆x es la incertidumbre en la medida de la posición de la
partı́cula. Similarmente, si medimos el momento de la partı́cula en el mismo tiempo (t = 0) tal probabilidad es casi
uno dentro del intervalo [p0 − ∆p/2, p0 + ∆p/2]. Es decir que ∆p mide la incertidumbre en la determinación del
momento de la partı́cula.
A la luz de lo anterior la Ec. (2.31) expresa que es imposible medir al mismo tiempo la posición y el momento
de la partı́cula con grado arbitrario de exactitud. Cuando alcanzamos el lı́mite inferior en (2.31) una disminución en
∆x (es decir un aumento en la exactitud de la medición de la posición) conduce a un aumento en ∆p (es decir un
aumento en la incertidumbre de la medida del momento, o equivalentemente una disminución en la exactitud de tal
3
Este punto es quizás el más adecuado para decir que siempre hemos tratado con medidas ideales. Decir que la medida del momento
está completamente definida no es experimentalmente cierto. Lo que en realidad se quiere decir es que en este caso no hay una perturbación
fundamental que cambie drásticamente el sistema y por tanto las demás perturbaciones se puede hacer cada vez más pequeñas.
4
En otras palabras, es más usual medir parámetros de materia que parámetros de onda.
2.10. EL PRINCIPIO DE COMPLEMENTARIEDAD PARA LA DUALIDAD ONDA PART ÍCULA Y SU RELACIÓN
medida) y viceversa. Este enunciado se conoce como el principio de incertidumbre de Heisenberg. Notemos
que el valor del término de la derecha en (2.31) nos expresa más bien un orden de magnitud que un lı́mite inferior
preciso.
Es de anotar que si bien hay un análogo clásico del principio de incertidumbre para las ondas, no hay un análogo
clásico para las partı́culas. En realidad hemos visto que el principio de incertidumbre está asociado inicialmente a
los parámetros de onda, que se conectan a los parámetros de partı́cula por medio de las relaciones de De Broglie,
estas a su vez están asociadas a la dualidad onda partı́cula que es una caracterı́stica cuántica. La pequeñez de ~
hace que este principio de incertidumbre no se manifieste en los sistemas macroscópicos.
2.10. El principio de complementariedad para la dualidad onda partı́cula y

su relación con el principio de incertidumbre de Heisenberg
Figura 2.5: Variante del experimento de Young de la doble rendija, para el cual la placa opaca P, puede desplazarse
verticalmente.
La discusión sobre el experimento de la doble rendija nos ha mostrado que si bien la dualidad onda partı́cula
es necesaria para explicar los resultados, ambas manifestaciones parecen ser mutuamente excluyentes. La perfecta
determinación de las propiedades ondulatorias (patrón de interferencia con doble rendija) nos conduce a una total
ignorancia sobre la rendija por la cual pasa cada fotón (propiedad de “trayectoria” asociada a una partı́cula). Por
otro lado, la perfecta determinación de la rendija por la cual pasa cada fotón (determinación de sus propiedades de
partı́cula) conduce a la completa destrucción del patrón de interferencia (i.e. de sus propiedades ondulatorias). Se
dice entonces que los aspectos ondulatorio y material de la partı́cula son complementarios.
Vamos ahora a reconsiderar el experimento de la doble rendija para demostrar la profunda relación entre el
principio de complementariedad y el principio de incertidumbre de Heisenberg. Para ello analizaremos una variante
del experimento de la doble rendija ilustrada en la Fig. 2.5.
Asumamos que la placa opaca P sobre la cual se perforan las rendijas está montada sobre cojinetes que permiten
su desplazamiento vertical. Asumiremos que el foco de los fotones está muy lejos, de modo que podemos suponer
que todos los fotones inciden perpendicularmente sobre la placa P. Un fotón que golpea la placa de observación O
en el punto M (de coordenada x respecto al origen O), tuvo que sufrir un cambio de momento que fué absorbido
por P a fin de mantener el momento conservado. Nótese que si el fotón de momento p = hν/c pasa por la rendija
F1 , el momento transferido a P es
hν
p1 = − sin θ1 (2.32)
c
y si pasa por la rendija F2 , tal momento transferido es
hν
p2 = − sin θ2 (2.33)
c
Siendo θ1 el ángulo de deflexión del fotón cuando cruza la rendija F 1 e impacta en el punto M . El ángulo θ2 se
define similarmente con la rendija F 2 . Por tanto, el momento transferido a P depende de la trayectoria del fotón,
puesto que depende de la rendija por la que pase.
Enviando los fotones uno por uno podemos construir el patrón de interferencia gradualmente sobre la pantalla
de observación. Aparentemente, este dispositivo nos permite construir tal patrón de interferencia asociado a la doble
rendija al tiempo que permite determinar la rendija por la cual pasa cada fotón. A priori pareciera que podemos
determinar completamente las caracterı́sticas corpusculares y ondulatorias de los fotones en forma simultánea.
Sin embargo, las franjas de interferencia no son visibles con este montaje. El error consiste en asumir que solo
los fotones poseen un carácter cuántico. Sin embargo, la placa P aunque es un objeto macroscópico también posee
un carácter cuántico. Si queremos discriminar por cual rendija pasó el fotón, la incertidumbre ∆p en la medida del
momento vertical de P debe ser suficientemente pequeña para determinar la diferencia entre p 1 y p2
∆p << |p2 − p1 |
aplicando las relaciones de incertidumbre, la posición de la placa P se puede conocer a lo más dentro de un intervalo
de incertidumbre dado por
~ h
∆x & >> (2.34)
∆p |p2 − p1 |
si denotamos a la distancia entre las rendijas y d la distancia entre la placa P y la pantalla O, y si asumimos que
θ1 y θ2 son pequeños (i.e. a/d << 1 y x/d << 1) obtenemos
x − a/2 x + a/2
θ1 ' tan θ1 = ; θ2 ' tan θ2 =
d d
a
|θ2 − θ1 | '
d
los momentos p1 y p2 dados en las Ecs. (2.32, 2.33) nos dan
hν hν hν a ha
|p2 − p1 | = |sin θ2 − sin θ1 | ' |θ2 − θ1 | ' =
c c c d λd
siendo λ la longitud de onda asociada al fotón. Sustituyendo esta relación en (2.34) se obtiene
λd
∆x >> (2.35)
a
pero (λd) /a es precisamente la separación entre franjas que se espera encontrar en el patrón de difracción sobre
la pantalla O. Ahora bien, si la posición vertical de las rendijas solo se puede determinar en un intervalo de
incertidumbre mayor a la separación de las franjas, es imposible observar el patrón de interferencia.
La discusión anterior nos muestra que la construcción de una teorı́a cuántica de la radiación requiere de la
construcción de una teorı́a cuántica de la materia para evitar contradicciones. En el ejemplo anterior, si trabajamos
la placa P como un sistema clásico material, invalidamos el principio de complementariedad de los dos aspectos
corpuscular y ondulatorio de la luz y por tanto, la teorı́a cuántica de la radiación. Se puede demostrar que dificultades
análogas surgen cuando se considera que solo la materia posee carácter cuántico. Por tanto, la consistencia del
principio de complementariedad requiere que tanto la materia como la radiación tengan caracterı́sticas cuánticas.
Otro aspecto que vale la pena discutir, es que en este ejemplo la naturaleza cuántica de P es esencial para un
adecuado entendimiento del fenómeno, a pesar de ser un sistema macroscópico. La razón estriba es que si bien el
sistema es macroscópico, las incertidumbres combinadas para el momento y la posición que se requieren en dicho
sistema para soslayar el principio de complementariedad, están en un umbral no permitido por las relaciones de
incertidumbre.
2.11. EVOLUCIÓN TEMPORAL DE PAQUETES DE ONDAS LIBRE 117
2.11. Evolución temporal de paquetes de ondas libre

Asumamos un paquete de ondas como el descrito por (2.15), la forma especı́fica del paquete en t = 0 está dada
por las condiciones iniciales. La evolución del paquete estará entonces dictaminada por las relaciones de dispersión
que dependen de la interacción de la partı́cula con el resto del universo. Puesto que no hemos generado una ecuación
dinámica para la partı́cula no podemos en general resolver la evolución temporal de una partı́cula interactuante,
sin embargo la relación de dispersión (2.13) nos permitirá resolver el problema de la evolución temporal para una
partı́cula libre.
En el caso más simple, un paquete unidimensional está constituı́do por una sola onda plana
ω
ω
ψ (x, t) = Aei(kx−ωt) = Aeik(x− k t) = f x − t
k
su parte real es h ω i
ψ (x, t) = A cos k x − t
k
su velocidad de propagación (velocidad de propagación del frente de onda i.e. de un punto con fase constante)
está dada por la velocidad con que se propaga el máximo correspondiente a x M = 0 en t = 0 (que corresponde a
fase total cero). Para cualquier tiempo la posición de este máximo corresponde a fase total cero
ω ω
xM (t) − t = 0 ⇒ xM (t) = t
k k
la velocidad de este máximo es entonces
dxM (t) ω
= Vf (k) = (2.36)
dt k
como esta es la velocidad de un punto que define una fase total constante para todo tiempo (fase cero), llamaremos

a este término velocidad de fase de la onda plana, la cual solo depende de x y t por medio de x − ωk t .
Es bien sabido que para ondas electromagnéticas en el vacio V f es independiente de k e igual a c. Todas las ondas
que constituyen el paquete viajan a la misma velocidad de modo que el paquete mantiene su forma. Sin embargo,
en un medio dispersivo la velocidad de fase está dada por
c
Vf (k) =
n (k)
siendo n (k) el ı́ndice de refracción relativo entre el vacı́o y el medio. En este caso cada onda componente viaja a
distinta velocidad, lo cual produce un cambio de forma del paquete con el tiempo. A medida que se propaga el
paquete se ensancha, fenómeno conocido como dispersión. Fı́sicamente, esto se debe a que el material responde de
forma distinta para cada longitud de onda componente.
Volviendo a nuestro caso de onda monocromática cuántica, si usamos las Ecs. (2.36, 2.13) vemos que la velocidad
de fase está dada por
ω ~k 2 ~k
Vf (k) = = = (2.37)
k 2mk 2m
de modo que Vf es función explı́cita de k. Nótese que si usáramos la relación de dispersión dada por la ecuación
de onda, Ec. (2.14) entonces Vf no presentarı́a dispersión (Vf no depende de k) como ocurre efectivamente con las
ondas clásicas libres (como las ondas electromagnéticas libres).
Ahora analizaremos el caso de ondas que son superposición de ondas planas. Veremos a continuación que cuando
las diferentes ondas tienen diferentes velocidades de fase, la velocidad del máximo x M del paquete de onda no es la
velocidad de fase promedio dada por
ω0 ~k0
=
k0 2m
como antes, comencemos con el ejemplo simple de la superposición de tres ondas planas similares a las descritas en
(2.19) pero ahora con variación temporal

g (k0 ) i(k0 x−ω0 t) 1 i[(k0 − ∆k )x−(ω0 − ∆ω )t] 1 i[(k0 + ∆k )x−(ω0 + ∆ω )t]
ψ (x, t) = √ e + e 2 2 + e 2 2 (2.38)
2π 2 2

g (k0 ) ∆k ∆ω
= √ ei(k0 x−ω0 t) 1 + cos x− t
2π 2 2

g (k0 ) ik0 x− k t
ω0
∆k ∆ω
ψ (x, t) = √ e 0 1 + cos x− t (2.39)
2π 2 ∆k
puesto que las tres ondas tiene números de onda k 0 y k0 ± ∆k, es claro que k0 es el número de onda promedio.
Similarmente, ω0 es la frecuencia angular promedio.
De la Ec. (2.39) se vé claramente que el máximo de |ψ (x, t)| que estaba en x = 0 cuando t = 0 está ahora en el
punto
∆ω
xM (t) = t (2.40)
∆k
y no en el punto x = ω0 t/k0 . El origen de este resultado se puede apreciar en la Fig. 2.6, en (a) se representa la
Figura 2.6: Posición de tres máximos consecutivos (1) (2) (3) para cada una de las tres ondas planas de la super-
posición en la Ec. (2.39). (a) Configuración de los máximos en t = 0, para el cual hay interferencia constructiva
en x = 0, que se da con los máximos rotulados por (2). (b) Configuración en un instante posterior en el cual la
interferencia totalmente constructiva se da a la derecha de x con los máximos (3).
posición en t = 0 de tres máximos consecutivos de cada una de las partes reales de las tres ondas. Puesto que los
máximos denotados con (2) coinciden en x = 0, hay una interferencia constructiva en este punto lo cual nos da el
máximo de |ψ (x, t = 0)|. Puesto que la velocidad de fase aumenta con k según (2.37), tenemos que el máximo (3) de
la onda k0 + ∆k2 termina alcanzando al máximo de la onda k 0 también denotado por tres. Similarmente el máximo
(3) de k0 alcanzará al máximo de k0 − ∆k 2 denotado por (3). Un análisis detallado muestra que todos coinciden
en cierto tiempo t, determinando entonces el máximo x M (t) de |ψ (x, t)| por interferencia constructiva. El cálculo
detallado del punto donde esto ocurre reproduce la Ec. (2.40).
Analicemos finalmente el caso en el cual el paquete de ondas es arbitrario y consta de una superposición contı́nua
de ondas planas como en la Ec. (2.16). El corrimiento del centro del paquete se encuentra aplicando de nuevo el
método de fase estacionaria. Comparando la forma de ψ (x, t) con la de ψ (x, 0) Ecs. (2.16, 2.17) vemos que ψ (x, t)
se obtiene a partir de ψ (x, 0) con la asignación ψ̄ (k) → ψ̄ (k) e−iω(k)t . Por tanto, el razonamiento dado en la pág.
112 se mantiene válido reemplazando el argumento α (k) de ψ̄ (k) en la Ec. (2.22), por el argumento
α (k) → α (k) − ω (k) t
la condición de fase estacionaria (2.29) se escribe ahora de la forma

d dα dω (k)
[kxM + α (k) − ω (k) t]k=k0 = 0 ⇒ xM + − t =0
dk dk dk k=k0
Y la dinámica del centro del paquete estará dada por

dω dα
xM (t) = t−
dk k=k0 dk k=k0
que nos reproduce una vez más el resultado (2.40) solo que en este caso ∆ω y ∆k tienden a cero ya que hay un
barrido contı́nuo en estas variables. La velocidad del máximo del paquete de ondas es

dxM (t) dω
Vg (k0 ) = =
dt dk k=k0
2.12. CARACTERIZACIÓN DE PAQUETES DE ONDA GAUSSIANOS 119
conocida como velocidad de grupo del paquete. Con la relación de dispersión (2.13) para partı́cula libre tenemos
que
~k0
Vg (k0 ) = = 2Vf (k0 ) (2.41)
m
Notamos entonces dos diferencias importantes entre la onda asociada a la partı́cula libre cuántica y la solución
ondulatoria proveniente de la ecuación de onda. Las ondas clásicas libres no presentan dispersión y su velocidad de
grupo es menor que su velocidad de fase 5 .
Nótese que el resultado (2.41) reproduce adecuadamente el lı́mite clásico ya que si ∆x y ∆p son ambos despre-
ciables, podemos hablar de la posición x M (t) y del momento p0 de la partı́cula. Pero entonces su velocidad debe ser
p0 /m según la mecánica clásica, esto es compatible con la Ec. (2.41) obtenida en el marco cuántico con p 0 = ~k0 ,
siempre que ∆x y ∆p sean ambos despreciables V g se puede asociar a la velocidad de la partı́cula, que es la velocidad
del máximo del paquete.
Es posible también estudiar la forma en que evoluciona la forma del paquete. Si por ejemplo ∆p es una constante
de movimiento entonces ∆x se incrementa con el tiempo, (dipersión del paquete).
2.12. Caracterización de paquetes de onda gaussianos

Estudiaremos perfiles de paquetes de onda ψ (x, 0) para los cuales la transformada de Fourier ψ̄ (k, 0) es gaussiana.
Este ejemplo especı́fico es de amplio uso en fı́sica y tiene la ventaja de permitir ilustrar los conceptos asociados a
paquetes de onda con cálculos exactos. Estudiaremos además la evolución temporal de estos paquetes.
2.12.1. Integrales básicas para paquetes gaussianos

El cálculo del paquete de onda (y muchos otros cálculos relativos a paquetes de onda gaussianos) requiere evaluar
una integral del tipo Z ∞
2 (ξ+β)2
I (α, β) = e−α dξ
−∞

donde α y β son números complejos. Es necesario que Re α2 > 0 para que la integral converja. El teorema del
residuo nos permite encontrar que
I (α, β) = I (α, 0)
que la integral no depende de β. Si se satisface la condición |Arg (α)| < π/4 (lo cual siempre es posible si
de modo
Re α2 > 0), esta integral se puede escribir como
1
I (α, 0) = I (1, 0)
α
y solo resta calcular I (1, 0), lo cual se puede hacer como una integral doble en el plano XY usando coordenadas
polares Z ∞
2 √
I (1, 0) = e−ξ dξ = π
−∞
de lo cual se obtiene Z √
∞
2 (ξ+β)2 π
I (α, β) = e−α dξ = (2.42)
−∞ α
2.12.2. Perfiles de paquetes de onda gaussianos

Consideremos el modelo unidimensional de una partı́cula libre cuya función de onda en t = 0 tiene el perfil
√ Z ∞
a a2 2
ψ (x, 0) = 3/4
e− 4 (k−k0 ) eikx dk (2.43)
(2π) −∞
5
Nótese que el hecho de que la velocidad de grupo sea mayor a la de fase no entra en contradicción con la relatividad, puesto que
nuestros resultados solo son válidos en un régimen no relativista, ya que la relación de dispersión (2.13) proviene de la ecuación (2.12),
la cual es no relativista.
el cual resulta de superponer ondas planas e ikx con coeficientes de Fourier de la forma
√
1 a − a2 (k−k0 )2
√ ψ̄ (k, 0) = e 4 (2.44)
2π (2π)3/4
para calcular ψ (x, 0) es conveniente reescribir la exponencial en (2.43) de modo que los términos en k queden como
un cuadrado perfecto a fin de compararlos con (2.42)

a2 2 a2 2ix 2 x2
− (k − k0 ) + ikx = − k − k0 − 2 + ik0 x − 2
4 4 a a
con lo cual la Ec. (2.43) queda

√ Z ∞ 2
h i2
a x2 − a4 k−k0 − 2ix
ψ (x, 0) = 3/4
eik0 x e− a2 e a2
dk
(2π) −∞
comparando con (2.42) vemos que α = a/2 de modo que

√ √
a ik0 x − x22 2 π
ψ (x, 0) = e e a
(2π)3/4 a
1/4 2
2 ik0 x − x
ψ (x, 0) = e e a2 (2.45)
πa2
vemos entonces que la transformada de Fourier de un paquete gaussiano es también gaussiana. El módulo al cuadrado
del paquete en t = 0 (que estará relacionado con la densidad de probabilidad asociada a la posición para una partı́cula
en t = 0) es r
2 2 − 2x22
|ψ (x, 0)| = e a
πa2
y la curva asociada a este módulo es una tı́pica campana de Gauss. El centro del paquete de onda corresponde al
máximo de |ψ (x, 0)|2 y se sitúa en x = 0. Esto resultado también se puede obtener por aplicación de la Ec. (2.28).
2.12.3. Relaciones de incertidumbre para paquetes gaussianos

2 2
Al igual que para todo paquete que no posee nodos, el ancho de una función gaussiana f (x) = e −x /b no puede
ser definido en forma unı́voca. Sin embargo, es costumbre definir tal ancho de modo que cuando x varı́a entre ±∆x
√
la función f (x) se haya reducido en un factor de 1/ e (de modo que el módulo al cuadrado se reduzca a 1/e), esto
conduce a un ancho
2 2 b
f (x) = e−x /b → ∆x = √ (2.46)
2
esta definición tiene la ventaja de coincidir con la definición de la raı́z de la desviación media cuadrática, como
veremos más adelante. Con esta convención podemos definir el ancho asociado al paquete de onda ψ (x, 0) de la Ec.
(2.45) y de su transformada de Fourier ψ̄ (k, 0) en la Ec. (2.44)
a 1 ~
∆x = ; ∆k = ⇒ ∆p =
2 a a
con lo cual se obtiene
~
(∆x) · (∆p) =
2
relación que es compatible con el principio de incertidumbre. Nótese además que el principio de incertidumbre se
escribe en general en la forma (∆x) · (∆p) & ~/2. Esto implica que el principio de incertidumbre permite en general,
que el producto del ancho de la función con el ancho de su transformada de Fourier adquiera un valor mayor al
lı́mite inferior. Si aceptamos a ~/2 como el lı́mite inferior, vemos que los paquetes de onda gaussianos predicen una
igualdad, es decir que los productos de las incertidumbres siempre tienen el menor valor posible. En tal sentido
decimos que los paquetes de onda gaussianos son paquetes de “mı́nima incertidumbre”.
2.13. EVOLUCIÓN TEMPORAL DE PAQUETES DE ONDA GAUSSIANOS (OPCIONAL) 121
2.13. Evolución temporal de paquetes de onda gaussianos (opcional)

La Ec. (2.15) junto con la relación de dispersión (2.13) nos dan la forma del perfil de un paquete de onda asociado
a partı́cula libre, donde el paquete inicial tiene forma arbitraria. Aplicando estas ecuaciones al paquete gaussiano
se tiene que √ Z ∞
a 2
− a4 (k−k0 )2 i[kx−ω(k)t] ~k 2
ψ (x, t) = e e dk ; ω (k) = (2.47)
(2π)3/4 −∞ 2m
veremos que el paquete permanece gaussiano para todo tiempo t. Se puede agrupar la parte dependiente de k de
los exponentes para formar un cuadrado perfecto, con el fin de comparar (2.47) con (2.42) y obtener
 h i2 
2 1/4 iϕ x − ~k0
t
2a e  m 
ψ (x, t) = 1/4
eik0 x exp − 2 2i~t 
π 2 2 a + m
a4 + 4~m2t
~k02 2~
ϕ ≡ −θ − t ; tan 2θ = t
2m ma2
el módulo al cuadrado del paquete (densidad de probabilidad) en el tiempo t está dado por
 2 
r 
2 1  2a x − m t 
2 ~k0 
2
|ψ (x, t)| = q exp − 2 2 (2.48)
πa2 1 + 4~2 t2 
 a4 + 4~m2t 

2
m a 4
debemos ahora calcular Z ∞

|ψ (x, t)|2 dx (2.49)
−∞
una forma serı́a empleando (2.42) para integrar (2.48). No obstante, es más simple observar de la expresión (2.47)
que la transformada de Fourier de ψ (x, t) viene dada por
ψ̄ (k, t) = e−iω(k)t ψ̄ (k, 0) (2.50)

se vé entonces que ψ̄ (k, t) = ψ̄ (k, 0). Por otro lado, es bien conocido del análisis de Fourier, que ψ̄ (k, t) =
|ψ (x, t)| (ecuación de Parseval-Plancherel) para todo tiempo, con lo cual se obtiene

|ψ (x, t)| = ψ̄ (k, t) = ψ̄ (k, 0) = |ψ (x, 0)|
por tanto, la norma del paquete es independiente del tiempo y por tanto también la integral (2.49). Este resultado es
importante para la conservación de la probabilidad y de hecho para la consistencia de la interpretación de |ψ (x, t)| 2
como una densidad de probabilidad. Veremos más adelante que esto resulta del hecho de que el Hamiltoniano de la
partı́cula libre es hermı́tico.
Ahora bien, la Ec. (2.48) nos dice que la densidad de probabilidad es gaussiana centrada en
~k0
xM = V 0 t ; V 0 ≡
m
donde V0 es la velocidad del paquete. Esta expresión es consistente con la velocidad de grupo dada por la Ec. (2.41).
2.13.1. Dispersión del paquete de onda gaussiano (opcional)

Tomando la expresión (2.46) para el ancho ∆x (t) del paquete de onda, y teniendo en cuenta el perfil del paquete
Ec. (2.48), tenemos que r
a 4~2 t2
∆x (t) = 1+ 2 4 (2.51)
2 m a
esta ecuación nos muestra que la evolución del paquete no consiste simplemente en una propagación con velocidad
V0 . El paquete también sufre deformación. Cuando t se incrementa desde −∞ hasta cero, el ancho del paquete
Figura 2.7: Dispersión de un paquete de onda Gaussiano libre. El ancho del paquete se reduce a medida que se
propaga desde t = −∞ hasta t=0. Posteriormente, el paquete comienza a ensancharce indefinidamente a medida
que se propaga.
decrece y alcanza su valor mı́nimo en t = 0, a partir de entonces el paquete se ensancha indefinidamente (dispersión
del paquete de onda). Esta situación se ilustra en la Fig. 2.7.
Adicionalmente, la Ec. (2.48) para el perfil del paquete nos muestra que la altura también varı́a, pero de forma
opuesta al ancho, de tal manera que la norma de ψ (x, t) permanece constante.
Es natural ahora preguntarse por el comportamiento de la forma del “paquete de ondas en el espacio de los
momentos (o espacio recı́proco)” con el tiempo. Las propiedades de la transformada de Fourier ψ̄ (k, t) son totalmente
distintas, vemos por ejemplo que de acuerdo a la Ec. (2.50) se tiene que

ψ̄ (k, t) = ψ̄ (k, 0)
de modo que el momento promedio del paquete ~k 0 y la dispersión del momento ~∆k son constantes en el tiempo.
Veremos más adelante que esto es una consecuencia de que el momento lineal es una constante de movimiento para
la partı́cula libre. En virtud de la ausencia de interacción, la distribución de momentos de una partı́cula libre no
cambia.
Figura 2.8: Comparación entre el comportamiento con el tiempo de un ∆x cuántico (hipérbola) y su análogo clásico
∆xcl (rectas).
Cuánticamente, la existencia de una dispersión del momento ∆p = ~∆k significa que la velocidad de la partı́cula
solo se conoce en un intervalo ∆v = ∆p/m = ~/ma. Este hecho posee un interesante análogo clásico: imaginemos
un conjunto de partı́culas clásicas que en t = 0 están localizadas en x = 0 y que tienen una dispersión ∆v de sus
velocidades. Es claro que en el tiempo t la dispersión de sus posiciones será
~ |t|
∆xcl = |t| ∆v = (2.52)
ma
2.13. EVOLUCIÓN TEMPORAL DE PAQUETES DE ONDA GAUSSIANOS (OPCIONAL) 123
donde estamos asumiendo que se calcula su dispersión también para tiempos negativos anteriores a t = 0. La
dispersión decrece linealmente para la evolución temporal desde un t < 0 y crece linealmente con t a partir de
t = 0. La Fig. 2.8, muestra una comparación entre el comportamiento temporal de los anchos clásico ∆x cl y
cuántico ∆x dados por las Ecs. (2.51, 2.52). Vemos que cuando |t| → ∞ las dos gráficas coinciden, dado que las
rectas correspondientes al ancho clásico son las ası́ntotas de la hipérbola cuántica. Por tanto, para |t| muy grande
podemos decir que hay un comportamiento cuasi-clásico del ancho cuántico ∆x. Sin embargo, cuando |t| → 0, el
comportamiento cuántico difiere cada vez más del clásico. Esto se debe a que la partı́cula cuántica debe siempre
satisfacer el principio de incertidumbre de Heisenberg ∆x ∆p ≥ ~/2 y dado que ∆p es fijo, éste impone un lı́mite
inferior para ∆x que el sistema clásico no tiene que obedecer (efectivamente nuestro sistema clásico no poseı́a
dispersión en t = 0 ya que todas las partı́culas estaban en x = 0). No obstante, este análogo clásico debe tomarse
con cuidado. Por ejemplo, en nuestro sistema clásico la dispersión se generó con un conjunto de partı́culas, en tanto
que la dispersión cuántica esta asociada a un conjunto de ondas asociadas a UNA SOLA partı́cula.
Vale la pena anotar que aunque hemos analizado la dispersión de un paquete de ondas libres cuya condición
inicial consta de componentes gaussianas, la dispersión se presenta para un paquete libre bajo cualquier forma inicial
del paquete, y la variación del ancho del paquete con el tiempo tiene la forma mostrada en la Fig. 2.8.
????????????????
????????????????
Capı́tulo 3
Ecuación de Schrödinger y sus propiedades
Hemos estudiado la dualidad onda partı́cula partiendo de los postulados de De Broglie y hemos analizado el
comportamiento de la onda asociada a una partı́cula libre. Sin embargo, si consideramos un sistema de una o más
partı́culas interactuantes será necesario generar una ecuación de movimiento que gobierne la dinámica de la onda
asociada. Si bien esta ecuación de movimiento se postulará, existen ciertos argumentos de plausibilidad para su
construcción.
3.1. Plausibilidad de la ecuación de Schrödinger

Si aceptamos la validez de los postulados de De Broglie, debemos encontrar una ecuación de movimiento que
nos describa la propagación de las ondas piloto y su relación con la dinámica de la partı́cula, para el caso en que la
partı́cula interactúe con su entorno. Por simplicidad asumiremos un caso unidimensional en esta sección.
El punto de partida serán entonces las ecuaciones de De Broglie
λ = h/p ; ν = E/h (3.1)
ahora bien, a pesar de que las relaciones de De Broglie son consistentes con la teorı́a de la relatividad (de hecho,
fueron empleadas primero en los fotones), vamos a plantear una formulación no relativista, esto con el fin de evitar
el problema del manejo de la probabilidad que surge de la posibilidad de creación y aniquilación de partı́culas
materiales. Tomaremos entonces la relación no relativista (corpuscular) entre energı́a y momento
p2
E= +V (3.2)
2m
siendo m = m0 la masa en reposo de la partı́cula. La Ec. (3.1) nos muestra que un cambio en la definición de energı́a
(por ejemplo si tomáramos la relación relativista) nos cambiarı́a el valor de ν. Los experimentos descritos hasta
ahora no han explorado la validez de la relación (3.2), de modo que las predicciones que la ecuación dinámica haga
sobre una partı́cula interactuante deben ser corroboradas por los experimentos.
Es claro que para una partı́cula libre, los resultados deben poder obtenerse con cualquier potencial constante (no
necesariamente cero) aplicado a la Ec. (3.2). Es fácil verificar que un potencial constante predice que la velocidad
de grupo de la onda piloto corresponde a p/m y por tanto a la velocidad de la partı́cula, combinando (3.1) con (3.2)
se tiene que
E p2 V 1 p
ν= = + ; K≡ =
h 2mh h λ h
teniendo en cuenta que V es constante, tenemos
2p dp dp
dν = , dK =
2mh h
Ahora bien, teniendo en cuenta que
k ≡ 2πK ; ω ≡ 2πν
3.1. PLAUSIBILIDAD DE LA ECUACIÓN DE SCHRÖDINGER 125
la velocidad de grupo queda

dω dν p dp h p
Vg == = = = vpartı́cula
dk dK mh dp m
y podemos reescribir las relaciones de De Broglie en la forma
p = ~k ; E = ~ω (3.3)
si insertamos estas relaciones en (3.2) obtenenemos la siguiente relación de Dispersión
~2 k 2
+ V (x, t) = ~ω (3.4)
2m
tomaremos como prototipo la ecuación para la partı́cula libre con potencial constante. Las consideraciones anteriores
nos dicen que la ecuación de movimiento que genere la función de onda ψ (x, t) (i.e. la dinámica de las ondas piloto),
debe cumplir las siguientes propiedades
1. Debe ser consistente con las Ecs. (3.1, 3.2). Es decir debe cumplir los postulados de De Broglie y la relación
no relativista entre E y p.
2. Debe ser lineal y homogénea en ψ (x, t) con el fin de que sea válido el principio de superposición que a su vez
nos genera los fenómenos ondulatorios de interferencia. Esto implica que si ψ 1 (x, t) y ψ2 (x, t) son soluciones
de la ecuación una combinación lineal de ellas también es solución.
3. En general, consideraremos potenciales que solo dependen de la posición y el tiempo V = V (x, t). Cuando el
potencial es constante la partı́cula es libre y por tanto se deben conservar E y p, lo cual a su vez implica que
se conservan λ = 2π/k y ν de acuerdo con las relaciones (3.1).
4. Las soluciones para partı́cula libre son funcionalmente idénticas a las soluciones homogéneas de la ecuación de
onda, pero deben cumplir con una relación de dispersión que sea consistente con la Ec. (3.4) con V constante,
en vez de la relación de dispersión para ondas libres dada por (2.14), lo cual nos dice que la ecuación de onda
no es la ecuación dinámica para la función de onda ψ (r, t). Entonces la ecuación de movimiento para partı́cula
libre debe tener soluciones en forma de ondas viajeras con número de onda y frecuencia constantes.
La linealidad y homogeneidad prohibe términos del tipo [ψ (x, t)] 2 (no lineales) o términos independientes de
ψ (x, t) (términos inhomogéneos o fuentes). Puesto que la mayorı́a de ecuaciones dinámicas de la Fı́sica son a lo más
de segundo orden, postularemos que los términos lineales son a lo más de segundo orden en el espacio y el tiempo,
y posiblemente un término lineal en ψ (x, t). Parametrizaremos a la ecuación en la forma siguiente
∂ψ (x, t) ∂ 2 ψ (x, t) ∂ψ (x, t) ∂ 2 ψ (x, t)

a1 + a2 − b 1 − b 2 + c ψ (x, t) = 0
∂x ∂x2 ∂t ∂t2
asumamos que la solución de partı́cula libre es ψ (x, t) = Ae i(kx−ωt) , además se debe cumplir la relación de dispersión
(3.4) con V constante. Esta relación de dispersión contiene un término proporcional a k 2 que se obtendrı́a de una
segunda derivada espacial de la onda plana, y un término lineal en ω que se puede extraer de una primera derivada
temporal de la onda plana. La ausencia de un término lineal en k y de un término cuadrático en ω sugiere la ausencia
de primeras derivadas espaciales y de segundas derivadas temporales. Finalmente, la presencia del potencial en (3.4)
sugiere la presencia de un término lineal en ψ de la forma V ψ. El ansatz para la solución se reduce a
∂ 2 ψ (x, t) ∂ψ (x, t)
a2 + V ψ (x, t) = b1 (3.5)
∂x2 ∂t
ahora debemos ajustar los parámetros a 2 y b1 de manera que exista una solución tipo onda plana que reproduzca
la relación de dispersión (3.4). Recordemos que en mecánica clásica, el carácter complejo de las soluciones de la
ecuación de onda se introduce solo por conveniencia y la solución Fı́sica es la parte real de la solución compleja.
Por este motivo si bien podemos insertar una solución tipo onda plana en (3.5), es razonable intentar primero usar
la solución real para la ecuación de onda clásica como prototipo de solución, insertaremos entonces una función de
onda de la forma
ψ (x, t) = cos (kx − ωt) (3.6)
126 CAPÍTULO 3. ECUACIÓN DE SCHRÖDINGER Y SUS PROPIEDADES
teniendo en cuenta que k, ω y V son constantes, se tiene que

∂ 2 ψ (x, t) ∂ψ
2
= −k 2 cos (kx − ωt) ; = ω sin (kx − ωt)
∂x ∂t
y al insertar estos resultados en (3.5) obtenemos
−a2 k 2 cos (kx − ωt) + V cos (kx − ωt) = b1 ω sin (kx − ωt)

V − a2 k 2 cos (kx − ωt) = b1 ω sin (kx − ωt)
pero no es posible ajustar los parámetros para que esta relación sea válida para todo x, t, de modo que la solución
clásica dada por (3.6) no es compatible con la relación de dispersión de la teorı́a. Aún podemos tratar de encontrar
una solución real si agregamos una fase adicional en la forma cos (kx − ωt + δ) que es equivalente a escribir una
solución de la forma
ψ (x, t) = cos (kx − ωt) + γ sin (kx − ωt) (3.7)
lo cual también se puede postular observando que en tal caso ambas derivadas tendrán senos y cosenos que permitirán
igualar coeficientes adecuadamente
∂ 2 ψ (x, t)
= −k 2 cos (kx − ωt) − γk 2 sin (kx − ωt)
∂x2
∂ψ
= ω sin (kx − ωt) − γω cos (kx − ωt)
∂t
que al insertarlos en (3.5) nos da
−a2 k 2 [cos (kx − ωt) + γ sin (kx − ωt)] + V [cos (kx − ωt) + γ sin (kx − ωt)]
= b1 ω [sin (kx − ωt) − γ cos (kx − ωt)]
quedando

−a2 k 2 + V + b1 ωγ cos (kx − ωt) + −a2 k 2 γ + V γ − b1 ω sin (kx − ωt) = 0
Los coeficientes de seno y coseno deben anularse para que esta relación sea válida para todo x, t. Tenemos
entonces dos ecuaciones con tres incógnitas (a 2 , b1 , γ) que junto con la relación de dispersión (3.4), nos da
~2 k 2
−a2 k 2 + V + b1 ωγ = 0 ; −a2 k 2 γ + V γ − b1 ω = 0 ; + V = ~ω (3.8)
2m
las dos primeras ecuaciones se pueden reescribir como
b1 b1
−a2 k 2 + V = −b1 ωγ ; −a2 k 2 + V = ω ⇒ −b1 ωγ = ω
γ γ
1
⇒ −γ = ⇒ γ 2 = −1
γ
tenemos entonces √
γ = ± −1 = ±i
sustituyendo en la primera de las Ecs. (3.8)
−a2 k 2 + V ± iωb1 = 0 ⇒ −a2 k 2 + V = ∓iωb1
al comparar esta expresión con la tercera de las Ecs. (3.8)
~2
−a2 = ; ∓ib1 = ~
2m
tenemos entonces dos soluciones que dependen de la elección del signo de γ, la elección más usual es
~2
γ = i ; a2 = − ; b1 = i~
2m
3.2. ECUACIÓN DE SCHRÖDINGER PARA UNA PARTÍCULA SOMETIDA A UN POTENCIAL ESCALAR INDE
que al reemplazarlo en (3.5) nos da

~2 ∂ 2 ψ ∂ψ
− 2
+ V ψ = i~
2m ∂x ∂t
que se ha derivado para un potencial constante V . Ahora postularemos que la relación se mantiene válida para un
potencial arbitrario de la forma V (x, t). Se obtiene entonces
~2 ∂ 2 ψ ∂ψ
− 2
+ V (x, t) ψ = i~ (3.9)
2m ∂x ∂t
expresión conocida como la ecuación de Schrödinger. Por supuesto podemos postular su extensión a tres dimensiones
como
~2 2 ∂ψ (r, t)
− ∇ ψ (r, t) + V (r, t) ψ (r, t) = i~ (3.10)
2m ∂t
Nótese que γ = ±i, lo cual indica que la pretendida solución real (3.7) nos proporciona inevitablemente una
solución compleja tipo onda plana. Vemos que hay una diferencia con las soluciones de onda clásica que se toman
complejas solo por conveniencia, para la ecuación de Schrödinger en cambio, no pudimos encontrar una solución
real consistente para partı́cula libre, el carácter de la solución es en esencia complejo. Esto se refleja en el factor
imaginario que aparece a la derecha de la ecuación (3.9) de Schrödinger.
3.2. Ecuación de Schrödinger para una partı́cula sometida a un potencial

escalar independiente del tiempo: estados estacionarios
Supongamos que una partı́cula de masa m está sometida a un potencial V (r). La ecuación de Schrödinger (3.10)
se escribe entonces
~2 2 ∂ψ (r, t)
− ∇ ψ (r, t) + V (r) ψ (r, t) = i~ (3.11)
2m ∂t
plantearemos una separación de variables para la solución
ψ (r, t) = χ (t) ϕ (r)
al introducirlo en la Ec. (3.11) se obtiene
~2 ∂χ (t)
− χ (t) ∇2 ϕ (r) + V (r) χ (t) ϕ (r) = i~ϕ (r)
2m ∂t
dividiendo a ambos lados por χ (t) ϕ (r) se escribe
~2 ∇2 ϕ (r) 1 ∂χ (t)
− + V (r) = i~
2m ϕ (r) χ (t) ∂t
el miembro izquierdo solo depende de la posición en tanto el derecho depende solo del tiempo. Por tanto ambos
miembros deben ser iguales a una constante que por comodidad la tomaremos como ~ω, de momento ω es solo una
constante a ajustar, aunque es claro que debe tener dimensiones de frecuencia angular. Tenemos entonces que
1 ∂χ (t) ∂χ (t)
i~ = ~ω ⇒ = −iωχ (t)
χ (t) ∂t ∂t
χ (t) = Ae−iωt
y la ecuación para la parte espacial es
~2 ∇2 ϕ (r)
− + V (r) = ~ω ⇒
2m ϕ (r)
~2 2
− ∇ ϕ (r) + V (r) ϕ (r) = ~ωϕ (r) (3.12)
2m
De modo que la solución para la ecuación de Schrödinger es
ψ (r, t) = ϕ (r) e−iωt (3.13)
donde hemos absorbido el factor A en la solución ϕ (r) de la ecuación (3.12).

Nótese que la solución (3.13) nos conduce a una densidad de probabilidad independiente del tiempo, aunque
inhomogénea
|ψ (r, t)|2 = |ϕ (r)|2
razón por la cual se conoce como solución estacionaria de la ecuación de Schrödinger. Ahora bien, la Ec. (3.13) nos
muestra que la constante de integración ω corresponde efectivamente a la frecuencia angular asociada a la función
de onda estacionaria. Nótese que en la solución estacionaria, solo aparece un valor de frecuencia angular ω que a su
vez nos conduce a un valor bien definido de la energı́a de acuerdo con la relación de Planck Einstein E = ~ω. En
mecánica clásica un potencial independiente del tiempo nos lleva a la conservación de la energı́a total. En mecánica
cuántica, lo que podemos decir es que para potenciales independientes del tiempo existen estados de energı́a bien
determinada. La Ec. (3.12) se puede escribir entonces como

~2 2
− ∇ + V (r) ϕ (r) = Eϕ (r) (3.14)
2m
que se puede reescribir como

~2 2
Hϕ (r) = Eϕ (r) ; H≡− ∇ + V (r) (3.15)
2m
siendo H un operador diferencial que es claramente lineal
H [λ1 ϕ1 (r) + λ2 ϕ2 (r)] = λ1 Hϕ1 (r) + λ2 Hϕ2 (r)
y vemos que (3.15) es una ecuación de valores propios para el operador H en la cual ϕ (r) son las funciones propias
(vectores propios) y las energı́as E son los valores propios. Las energı́as permitidas para la partı́cula son entonces
los valores propios del operador H. Nótese que no cualquier solución ϕ (r) de la ecuación de Schrödinger es una
solución fı́sica, debemos imponer que sea de cuadrado integrable, esta imposición restringirá los valores permitidos
de energı́a y nos llevará a una cuantización de esta cantidad.
A la Ec. (3.15) se le llama usualmente ecuación de Schrödinger independiente del tiempo, en tanto que a (3.11)
se le denomina ecuación de Schrödinger dependiente del tiempo. La Ec. (3.11) nos da la evolución de la función de
onda para un estado arbitrario de la partı́cula, en tanto que la Ec. (3.15) solo nos da los estados estacionarios de
ésta.
Dado que tenemos un conjunto de valores permitidos de la energı́a (autoresultados o autovalores), vamos a
rotular las energı́as y las autofunciones de la forma
Hϕn,m (r) = En ϕn,m (r)
donde tanto n como m pueden simbolizar un ı́ndice contı́nuo o discreto o incluso varios ı́ndices. El ı́ndice m me
indica la posibilidad de degeneración, es decir de varias autofunciones linealmente independientes que pertenecen al
mismo valor propio En . Los estados estacionarios de la partı́cula son de la forma
ψn,m (r, t) = ϕn,m (r) e−iEn t/~
ψn,m (r, t) es una solución de la ecuación de Schrödinger Ec. (3.11), y en virtud de la linealidad de esta ecuación,
una superposición de las soluciones estacionarias es también solución
XX
ψ (r, t) = cnm ϕn,m (r) e−iEn t/~ (3.16)
n m
en realidad es usual que se requiera la superposición puesto que soluciones arbitrarias no satisfacen en general
las condiciones iniciales y de frontera que pide un problema especı́fico. La superposición garantiza que podemos
obtener cualquier estado siempre que las funciones ϕ nm (r) sean completas como funciones espaciales (las funciones
3.3. PROPIEDADES GENERALES DE LA ECUACI ÓN DE SCHRÖDINGER 129
temporales son ondas planas y por tanto completas), esto requiere a su vez que el operador H tenga el carácter de
observable.
Para t = 0 la Ec. (3.16) nos da XX
ψ (r, 0) = cnm ϕn,m (r) (3.17)
n m
de modo que si conocemos el estado inicial del sistema (el cual es en principio arbitrario) podemos descomponerlo
en la base de las autofunciones ϕn,m de H (siempre que H sea un observable). Para obtener la evolución temporal
basta con multiplicar cada término en (3.17) por e −iEn t/~ , debe aclararse que cada término corresponde a una fase
diferente y por tanto la superposición ya no corresponde en general a un estado estacionario.
3.3. Propiedades generales de la ecuación de Schrödinger

Retornaremos ahora a la forma general de la ecuación de Schrödinger Ec. (3.10)

~2 2 ∂ψ (r, t)
− ∇ + V (r, t) ψ (r, t) = i~
2m ∂t
∂ψ (r, t)
H (r, t) ψ (r, t) = i~ (3.18)
∂t
en la cual el potencial puede depender del espacio y del tiempo. La primera observación relevante es que el operador
H es hermı́tico. Para ver esto, basta con tener en cuenta que desde el punto de vista de los kets, las funciones de
onda son kets escritos en la representación de coordenadas, y en tal representación el operador H se puede escribir
como
(−i~∇) (−i~∇) P2
H= + V (r, t) = + V (r, t) (3.19)
2m 2m
siendo P el operador definido por las Ecs. (1.186), que en representación de la base {|ri} está dado por la Ec.
(1.189). Ya vimos en la sección 1.43.4 que este operador es Hermı́tico, y como V (r, t) es una función real, también
es hermı́tica1 . En consecuencia H también es hermı́tico. Nótese que esto es indispensable para que el espectro de
este operador (la energı́a) sea real (ver teorema 1.62).
Ahora bien, recordemos que a cada función de onda en el espacio z le asociamos un ket en el espacio E en la
forma ψ (r, t) ↔ |ψ (t)i es conveniente escribir la ecuación de Schrödinger como una ecuación dinámica de los kets
(en lugar de la función de onda), debido a que una ecuación planteada para el vector abstracto se puede tomar de
manera muy sencilla en cualquier representación. Es fácil ver que la Ec. de Schrödinger para kets de la forma
d
i~ |ψ (t)i = H (t) |ψ (t)i (3.20)
dt
conduce a la Ec. de Schrödinger (3.18) cuando usamos la representación de la base {|ri}, siempre que H (t) sea el
operador (abstracto) que en representación de la base {|ri} esté dado por (3.19). Para verlo aplicamos el bra hr| a
ambos lados de (3.20)
d
i~ hr| |ψ (t)i = hr| H (t) |ψ (t)i
dt
dado que |ψ (t)i no depende de r, la derivada total o parcial en el tiempo coinciden para el ket. Adicionalmente,
cuando el ket se transforma en función de onda la cual es un campo, debe tenerse en cuenta que las coordenadas r
en ψ (r, t) son lugares geométricos y no variables dinámicas, por tanto las variables r y t son todas independientes,
de modo que2
d ∂ ∂
i~ hr| |ψ (t)i = i~ hr| |ψ (t)i = hr |ψ (t)i
dt ∂t ∂t
d ∂ψ (r, t)
i~ hr| |ψ (t)i =
dt ∂t
1
Visto de otro modo el potencial es un operador del tipo V (r, t) I, siendo I la identidad. Si V (r, t) es real, este operador es hermı́tico.
2
En una teorı́a clásica de campos, las coordenadas generalizadas se convierten en parámetros y la nuevas coordenadas generalizadas
son los campos. Tenemos entonces cuatro parámetros: 3 posiciones y el tiempo, siendo la posiciones lugares geométricos en la “grilla”
del espacio euclidiano. Los cuatro parámetros son totalmente independientes unos de otros.
y de la condición establecida para H (t) se tiene que

hr| H (t) |ψ (t)i = H (r, t) hr |ψ (t)i = H (r, t) ψ (r, t)
con lo cual se reproduce la Ec. de Schrödinger (3.18) en representación de coordenadas. Veamos las principales
propiedades de la ecuación de Schrödinger.
3.3.1. Determinismo en las soluciones

Puesto que la ecuación es de primer orden en el tiempo, dado un estado inicial |ψ (t 0 )i el estado |ψ (t)i en un
tiempo t subsequente está determinado, esto se debe a que la ecuación no es invariante ante t → −t (como si ocurre
con la ecuación de onda). No hay indeterminación en la evolución del estado del sistema. La indeterminación se
produce es con el proceso de medida de una cantidad Fı́sica, en cuyo caso el vector de estado sufre un cambio
abrupto y parcialmente impredecible (ya que se puede evaluar una probabilidad para cada cambio abrupto posible).
Sin embargo, en el tiempo comprendido entre dos medidas, el vector de estado evoluciona en forma perfectamente
determinista según la Ec. (3.20).
3.3.2. Principio de superposición

Puesto que la Ec. (3.20) es lineal y homogénea (por construcción), si |ψ 1 (t)i y |ψ2 (t)i son soluciones, también
lo será |ψ (t)i = λ1 |ψ1 (t)i + λ2 |ψ2 (t)i. Esto implica que si el estado inicial es de la forma |ψ (t 0 )i = λ1 |ψ1 (t0 )i +
λ2 |ψ2 (t0 )i entonces el estado en un tiempo t posterior será |ψ (t)i = λ 1 |ψ1 (t)i + λ2 |ψ2 (t)i con lo cual tenemos una
correspondencia lineal entre |ψ (t 0 )i y |ψ (t)i. Por tanto, hay un operador lineal conocido como operador evolución
temporal que conecta a estas dos funciones
|ψ (t)i = U (t, t0 ) |ψ (t0 )i (3.21)
analizaremos este operador más en detalle en la Sec. 7.1.
3.3.3. Conservación de la probabilidad

En virtud de la interpretación de |ψ (r, t)| 2 como una densidad de probabilidad es necesario que
Z
hψ (t)| ψ (t)i = kψk = |ψ (r, t)|2 d3 r = 1
2
para todo tiempo, i.e. en cualquier instante la partı́cula debe encontrarse en algún lugar del espacio (excepto cuando
hay procesos de creación y destrucción de partı́culas que no incluı́mos en el presente formalismo). Esto significa que
la norma de un ket |ψ (t)i debe ser constante en el tiempo. Es necesario por tanto que la ecuación de Schrödinger
mantenga invariante en el tiempo la norma de los vectores, con el fin de dar una interpretación probabilı́stica
coherente.
Para mirar la conservación de la probabilidad debemos evaluar la derivada total de la norma en el tiempo

d d d
hψ (t)| ψ (t)i = hψ (t)| |ψ (t)i + hψ (t)| |ψ (t)i (3.22)
dt dt dt
la derivada temporal del ket se obtiene directamente de la ecuación de Schrödinger Ec. (3.20)
d 1
|ψ (t)i = H (t) |ψ (t)i (3.23)
dt i~
para obtener la derivada temporal del bra, sacamos el hermı́tico conjugado de dicha ecuación
d 1 1
hψ (t)| = − hψ (t)| H † (t) = − hψ (t)| H (t) (3.24)
dt i~ i~
donde hemos usado la hermiticidad de H. Reemplazando (3.23) y (3.24) en (3.22) se obtiene

d 1 1
hψ (t)| ψ (t)i = − hψ (t)| H (t) |ψ (t)i + hψ (t)| H (t) |ψ (t)i = 0
dt i~ i~
esto implica entonces que si normalizamos el estado inicial, el estado en cualquier tiempo continuará normalizado.
Nótese la importancia de la hermiticidad de H para lograr la conservación de la norma y por tanto, de la probabilidad.
3.3. PROPIEDADES GENERALES DE LA ECUACI ÓN DE SCHRÖDINGER 131
3.3.4. La ecuación de continuidad para la probabilidad

Por simplicidad trabajaremos el caso de una sola partı́cula (sin espı́n). Asumiremos que la función de onda
ψ (r, t) está normalizada, en tal caso |ψ (r, t)| 2 representa la densidad de probabilidad de que la partı́cula esté en la
posición r en el tiempo t
dp (r, t) = ρ (r, t) dV = |ψ (r, t)|2 dV (3.25)
tenemos que Z
PT ≡ ρ (r, t) dV = 1
para todo tiempo, de modo que PT representa una “carga generalizada” que se conserva. Por supuesto esto no
significa que la distribución de esta “carga” (distribución de probabilidad), permanezca igual en el tiempo para cada
punto r, las variaciones de ρ (r, t) con el tiempo generan una propagación de la distribución de carga generalizada
(corriente de probabilidad). Recordemos que el volumen no es necesariamente todo el espacio si existen regiones con
probabilidad cero. Lo importante es que no cruce corriente de probabilidad en la superficie que delimita al volumen
de integración, ya que si esto ocurre, habrá probabilidad diferente de cero en regiones que en tiempos anteriores
eran inaccesibles. Esta situación es análoga al caso en que ρ (r, t) simbolizaba una densidad de carga eléctrica a la
cual le podemos asociar una densidad de corriente J (r, t).
Es bien conocido que la conservación global de la carga generalizada proviene de una ley de conservación local
que prohibe la creación espontánea de carga generalizada neta. Esto implica que si tomamos un volumen por cuya
superficie limitadora cruza corriente de carga generalizada, el flujo neto de carga por la superficie hacia afuera
(adentro) debe estar compensado por una disminución (aumento) en la carga interior al volumen, el enunciado
preciso de esta ley local de conservación es
∂
ρ (r, t) + ∇ · J (r, t) = 0 (3.26)
∂t
siendo ρ la densidad de carga generalizada y J la densidad de corriente generalizada, esta expresión es conocida
como ecuación de continuidad. Puesto que hemos encontrado la carga conservada (probabilidad total) y definido ya
la densidad de probabilidad, debemos encontrar una densidad de corriente de probabilidad que nos dé una ecuación
de la forma (3.26), en este caso estamos tratando a la probabilidad como un fluı́do o medio contı́nuo.
Volveremos a la ecuación de Schrödinger en representación de coordenadas dado por (3.10)
~2 2 ∂ψ (r, t)
− ∇ ψ (r, t) + V (r, t) ψ (r, t) = i~ (3.27)
2m ∂t
el potencial V (r, t) debe ser real para que H sea hermı́tico (lo cual es esencial para la conservación de la probabilidad
como ya vimos). La ecuación compleja conjugada de la Ec. de Schrödinger es
~2 2 ∗ ∂ψ ∗ (r, t)
− ∇ ψ (r, t) + V (r, t) ψ ∗ (r, t) = −i~ (3.28)
2m ∂t
multiplicamos (3.27) por ψ ∗ (r, t) y (3.28) por −ψ (r, t) y sumamos
~2 ∗ ∂ψ (r, t)
− ψ (r, t) ∇2 ψ (r, t) + V (r, t) ψ ∗ (r, t) ψ (r, t) = i~ψ ∗ (r, t)
2m ∂t
~2 ∂ψ ∗ (r, t)
ψ (r, t) ∇2 ψ ∗ (r, t) − V (r, t) ψ (r, t) ψ ∗ (r, t) = i~ψ (r, t)
2m ∂t
quedando

~2 ∗ 2 ∂ψ ∂ψ ∗
− ψ ∇ ψ − ψ∇2 ψ ∗ = i~ ψ ∗ +ψ
2m ∂t ∂t
~ ∗ 2 ∂ ∗
− ψ ∇ ψ − ψ∇2 ψ ∗ = [ψ ψ]
2mi ∂t
sumando y restando un término a la izquierda

~ ∗ 2 ∂ ∗
− ψ ∇ ψ + (∇ψ ∗ ) · (∇ψ) − (∇ψ ∗ ) · (∇ψ) − ψ∇2 ψ ∗ = [ψ ψ]
2mi ∂t
~ ∂ρ
− ∇ · [ψ ∗ ∇ψ − ψ∇ψ ∗ ] =
2mi ∂t
quedando finalmente
∂ρ ~
+∇· [ψ ∗ ∇ψ − ψ∇ψ ∗ ] =0 (3.29)
∂t 2mi
y comparando (3.29) con la ecuación (3.26) de continuidad se tiene que
~
J= [ψ ∗ ∇ψ − ψ∇ψ ∗ ]
2mi
esta ecuación se puede reescribir definiendo

~ 1
J = [Z − Z ∗ ] ; Z ≡ ψ ∗ ∇ψ
m 2i

1 1 ~Z ~Z ∗ 1 ~Z
J = + = Re
m 2 i i m i
de modo que
~ ∗ ∗ 1 ∗ ~
J (r, t) = [ψ ∇ψ − ψ∇ψ ] = Re ψ ∇ψ (3.30)
2mi m i
hemos probado entonces la conservación local de la probabilidad y encontramos la forma explı́cita de la densidad
de corriente, la cual es real como era de esperarse.
Vale la pena calcular la corriente de probabilidad para el caso especial de estados estacionarios de la forma
(3.13), en tal caso al reemplazar (3.13) en (3.30) resulta
~ ~ n ∗ ∗ o
J = [ψ ∗ ∇ψ − ψ∇ψ ∗ ] = ϕ (r) e−iωt ∇ ϕ (r) e−iωt − ϕ (r) e−iωt ∇ ϕ (r) e−iωt
2mi 2mi
~ ∗
J = ϕ (r) eiωt e−iωt ∇ϕ (r) − ϕ (r) e−iωt eiωt ∇ϕ∗ (r)
2mi
quedando finalmente
~
J (r) = {ϕ∗ (r) ∇ϕ (r) − ϕ (r) ∇ϕ∗ (r)} estados estacionarios (3.31)
2mi
comparando, (3.30) con (3.31), vemos que para estados estacionarios, la corriente se puede calcular reemplazando
ψ (r, t) por ϕ (r), es decir omitiendo la componente temporal de ψ. Efectivamente, (3.31) corresponde a una corriente
estacionaria tal como se usa en mecánica clásica, i.e. una corriente que depende de la posición pero que no depende
explı́citamente del tiempo.
3.3.5. Expresión polar de la corriente de probabilidad

Consideremos una función de onda arbitraria ψ (r), utilizando su descomposición compleja polar tenemos
ψ (r) = α (r) eiξ(r) ; α (r) ≥ 0 , 0 ≤ ξ (r) < 2π
si sustituı́mos esta expresión polar en la Ec. (3.30) para la densidad de corriente de probabilidad encontramos que 3
~ n h i h io
J (r) = α (r) e−iξ(r) ∇ α (r) eiξ(r) − α (r) eiξ(r) ∇ α (r) e−iξ(r)
2mi
~ n o
= α (r) e−iξ(r) eiξ(r) [∇α (r) + i∇ξ (r)] − α (r) eiξ(r) e−iξ(r) [∇α (r) − i∇ξ (r)]
2mi
~
J (r) = α (r) ∇ξ (r) (3.32)
m
3
Por simplicidad hemos omitido la posible dependencia explı́cita del tiempo pero esto no altera los resultados.
3.4. APLICACIÓN DE LA ECUACIÓN DE SCHRÖDINGER A POTENCIALES DISCONTÍNUOS 133
y la densidad de probabilidad está dada por
ρ (r) = |ψ (r)|2 = α2 (r) (3.33)
vemos que ρ (r) solo depende del módulo del complejo ψ (r), en tanto que J (r) depende del módulo y del gradiente
de la fase. Por ejemplo, si la fase es constante en el espacio, J (r) es cero, aunque la densidad no lo sea. Las Ecs.
(3.32, 3.33) nos dan a J (r) y ρ (r) cuando conocemos ψ (r), vale preguntarse si inversamente podemos determinar
unı́vocamente a ψ (r) con base en el conocimiento de J (r) y ρ (r). La Ec. (3.33) nos da a ρ (r) en función del módulo
de ψ (r). Por otro lado, dividiendo las Ecs. (3.32, 3.33) resulta
m J (r)
∇ξ (r) =
~ ρ (r)
esta ecuación solo tiene solución si

J (r)
∇× =0 (3.34)
ρ (r)
que tiene un conjunto infinito de soluciones que solo diferen en una constante (o en una función solo del tiempo),
que corresponderı́a a una fase global irrelevante en ψ (r). Por tanto, si conocemos a ρ (r) y J (r) entonces ψ (r)
está bien especificada siempre y cuando se satisfaga la condición (3.34). Si dicha condición no se satisface, no existe
una función de onda asociada a ρ (r) y J (r).
3.4. Aplicación de la ecuación de Schrödinger a potenciales discontı́nuos

Hemos visto que los efectos cuánticos no son evidentes cuando se considera a h como muy pequeña. En particular,
si la longitud de onda λ = h/p asociada a la partı́cula es mucho menor que todas las demás longitudes involucradas
en el problema, la naturaleza ondulatoria de la materia quedará apantallada y el comportamiento de la partı́cula
será esencialmente clásico. Esto es análogo a lo que ocurre entre la óptica geométrica y la óptica ondulatoria. Cuando
la longitud de la onda es mucho menor que las demás longitudes involucradas en el problema, la óptica geométrica
nos predice muy bien los fenómenos ópticos, el comportamiento de los rayos es esencialmente corpuscular. Cuando
esto no se cumple, los aspectos ondulatorios de la luz se vuelven importantes para una adecuada descripción de los
fenómenos.
De la misma forma, cuando un potencial actúa sobre una partı́cula, los efectos cuánticos debidos a esta interacción
solo serán significativos si el potencial varı́a significativamente sobre una distancia menor a la longitud de onda de
DeBroglie asociada a la partı́cula. Es por esta razón que estudiaremos potenciales discontı́nuos en donde la variación
será finita para una distancia básicamente cero (es decir menor que cualquier longitud de onda). Es claro que esto
constituye una idealización ya que los potenciales fı́sicos deben ser contı́nuos si bien pueden exhibir una enorme
pendiente. Este lı́mite solo corresponderá aproximadamente a la realidad si la distancia δx en que ocurre esta
fuerte variación, es mucho menor que la longitud de onda de De Broglie asociada a la partı́cula y mucho menor
que cualquier otra longitud tı́pica del problema. Estos potenciales se podrán definir adecuadamente a través de la
función paso definida por
0 si x < x0
θ (x − x0 ) =
1 si x > x0
3.5. Potenciales rectangulares, análogo óptico

Definamos un potencial de la forma

 V0 si −∞ < x < x0
V (x) = V si x0 < x < x1 ; V1 < V2 < V0 (3.35)
 1
V2 si x1 < x < ∞
la fuerza F (x) = −dV (x) /dx serı́a del tipo
F (x) = F0 δ (x − x0 ) − F1 δ (x − x1 )
En primer lugar las predicciones de la mecánica clásica son inmediatas, por ejemplo si V (x) es una energı́a
potencial gravitacional, el perfil del potencial representa el perfil de la superficie sobre la cual se mueve la partı́cula,
los valores de x para los cuales E < V estarán prohibidos. En las regiones de potencial constante la velocidad de la
partı́cula es constante ya que es libre, solo en las discontinuidades experimenta una fuerza y si pasa a la otra región
(si E > V ) su energı́a cinética se verá aumentada (disminuı́da) si pasa a una zona de menor (mayor) potencial.
Como el potencial no depende del tiempo podemos encontrar soluciones estacionarias para la ecuación de
Schrödinger. En la región de potencial constante V , la ecuación de Schrödinger independiente del tiempo nos
da

~2 d2
− + V ϕ (x) = Eϕ (x)
2m dx2
2
d 2m
+ 2 (E − V ) ϕ (x) = 0 (3.36)
dx2 ~
escrita en esta forma la ecuación tiene un interesante análogo óptico. Consideremos un medio transparente de ı́ndice
de refracción n independiente de la posición y el tiempo. En tal medio puede haber ondas electromagnéticas con
campo eléctrico independiente de y y z
E (r, t) = uE (x) e−iΩt (3.37)
siendo u un vector unitario perpendicular al eje x, teniendo en cuenta que E satisface la ecuación de onda y las
ecuaciones de Maxwell, resulta 2
d n2 Ω2
+ 2 E (x) = 0 (3.38)
dx2 c
las Ecs. (3.36) y (3.38) son idénticas si hacemos la asignación
2m n2 Ω2
(E − V ) = (3.39)
~2 c2
adicionalmente, en los lugares en donde V (y por tanto n) son discontı́nuos las condiciones de frontera para ϕ (x) y
E (x) son las mismas: las soluciones y sus primeras derivadas deben permanecer contı́nuas (lo veremos más adelante
para las ϕ (x)). Esta analogı́a permite asociar al problema de una partı́cula en un potencial del tipo (3.35) un
problema óptico asociado a la propagación de una onda electromagnética de frecuencia angular Ω en un medio cuyo
ı́ndice de refracción n tiene discontinuidades del mismo tipo. En la Ec. (3.39) podemos despejar para n (Ω) y obtener
1 p
n (Ω) = 2mc2 (E − V ) (3.40)
~Ω
nótese que para la onda electromagnética, la región con E > V corresponde a un medio transparente con ı́ndice de
refracción real y la onda es de la forma e ikx . Por otro lado, cuando E < V corresponde a un medio con un ı́ndice de
refracción imaginario de modo que n 2 < 0 y al reemplazar esto en (3.38) se obtiene una solución de la forma e −ρx
que es del tipo de onda evanescente.
Debe tenerse en cuenta que si bien obtendremos un comportamiento funcional análogo al óptico, la interpretación
probabilı́stica es muy diferente a la interpretación clásica para onda electromagnética.
3.5.1. Estrategia de solución para potenciales acotados con discontinuidades de salto

Veamos ahora la estrategia especı́fica de solución para los estados estacionarios de la partı́cula sometidas a
potenciales discontı́nuos. En las regiones de energı́a potencial constante usamos la Ec. (3.36)
2
d 2m
+ (E − V ) ϕ (x) = 0 (3.41)
dx2 ~2
es útil distinguir tres casos

(a) E > V , introduzcamos por conveniencia una constante positiva k definida por
~2 k 2
E−V ≡ (3.42)
2m
3.5. POTENCIALES RECTANGULARES, AN ÁLOGO ÓPTICO 135
al reemplazar en (3.41) queda

d2 2
+ k ϕ (x) = 0 (3.43)
dx2
que es la ecuación de un oscilador armónico y la solución de la Ec. (3.43) se puede escribir como
ϕ (x) = Aeikx + A0 e−ikx (3.44)
donde A y A0 son complejos constantes.

(b) E < V , esta condición corresponde a regiones del espacio que están clásicamente prohibidas. En este caso
introducimos la constante positiva ρ dada por
~2 ρ2
V −E ≡ (3.45)
2m
y la Ec. (3.41) queda

d2 2
− ρ ϕ (x) = 0 (3.46)
dx2
con solución
ϕ (x) = Beρx + B 0 e−ρx (3.47)
siendo B y B 0 constantes complejas.
(c) E = V , en este caso
d2 ϕ (x)
= 0 ⇒ ϕ (x) = Cx + C 0
dx2
Ahora veamos el comportamiento de las soluciones en la discontinuidad. La primera tentación es pensar que la
función de onda debe ser discontı́nua en un punto donde el potencial lo sea, veremos sin embargo que tanto ϕ (x)
como dϕ (x) /dx deben ser contı́nuas y solo es la segunda derivada d 2 ϕ (x) /dx2 la que es discontı́nua en el punto.
Para ver esto, recordemos que un potencial con una discontinuidad de salto en x 1 representa en fı́sica el lı́mite
cuando ε → 0 de un potencial Vε (x) que es igual a V (x) fuera del intervalo [x 1 − ε, x1 + ε], pero que varı́a de forma
contı́nua en dicho intervalo. Consideremos la ecuación
d2 2m
2
ϕε (x) + 2 [E − Vε (x)] ϕε (x) = 0 (3.48)
dx ~
asumimos que Vε (x) está acotado en el intervalo [x 1 − ε, x1 + ε], y que esta cota no depende del parámetro ε. Esto
se cumple en la mayorı́a de los casos, ya que usualmente V ε estará definido dentro de los valores [V 0 , V1 ] que se tienen
en la discontinuidad de salto a la izquierda y la derecha de x 1 . Escogemos una solución ϕε (x) que para x < x1 − ε
y para x > x1 + ε coincida con una solución dada de la Ec. (3.41). La idea es demostrar que cuando ε → 0 entonces
ϕε (x) tiende a una función ϕ (x) contı́nua y diferenciable a primer orden en x 1 . Es posible probar a través de las
propiedades de la ecuación diferencial (3.41) que ϕ ε (x) permanece acotada para cualquier valor de ε con una cota
independiente de ε, en la vecindad de x = x 1 . Esto fı́sicamente implica que la densidad de probabilidad permanece
finita. Integrando la Ec. (3.48) en el intervalo [x 1 − η, x1 + η] resulta
Z x1 +η Z
d d 2m x1 +η
ϕε (x) dx + 2 [E − Vε (x)] ϕε (x) dx = 0
x1 −η dx dx ~ x1 −η
Z x1 +η
dϕε (x1 + η) dϕε (x1 − η) 2m
− = 2 [Vε (x) − E] ϕε (x) dx (3.49)
dx dx ~ x1 −η
y dado que Vε (x) y ϕε (x) permanecen acotados con cotas independientes de ε, la integral a la derecha de la Ec.
(3.49) tiende a cero cuando η tiende a cero. Por lo tanto

dϕε (x1 + η) dϕε (x1 − η)
lı́m − =0
η→0 dx dx
por tanto, en este lı́mite, dϕ/dx es contı́nua en x = x 1 y por tanto también ϕ (x) ya que es la integral de una función
contı́nua. Por otro lado, d2 ϕ/dx2 es discontı́nua en x = x1 puesto que en la Ec. (3.41) vemos que

d2 ϕ (x1 + η) 2m
lı́m + 2 [E − V (x1 + η)] ϕ (x1 + η) =0
η→0+ dx2 ~

d2 ϕ (x1 + η) 2m
lı́m = lı́m {[V (x1 + η) − E] ϕ (x1 + η)}
η→0+ dx2 η→0+ ~2
2
d ϕ (x1 + η) 2m
lı́m = {[V1 − E] ϕ (x1 )}
η→0+ dx2 ~2
siendo V1 el valor del potencial a la derecha de x 1 , similarmente

d2 ϕ (x1 + η) 2m
lı́m = 2 {[V0 − E] ϕ (x1 )}
η→0− dx2 ~
siendo V0 el valor del potencial a la izquierda de x 1 . Tenemos entonces que en x1 la segunda derivada presenta un
salto dado por
2 2
d ϕ (x1 + η) d ϕ (x1 + η) 2m
lı́m 2
− lı́m 2
= 2 (V1 − V0 ) ϕ (x1 )
η→0+ dx η→0− dx ~
esto es una discontinuidad de salto para la segunda derivada ya que V 1 6= V0 . Nótese sin embargo, que la segunda
derivada permanece acotada. Es importante resaltar la importancia de que V ε (x) permanezca acotado. Por ejemplo,
si V (x) = aδ (x) tenemos una función cuya integral permanece finita pero que no es acotada. En tal caso, ϕ (x)
permanece contı́nua pero no la primera derivada.
Por tanto, para encontrar la solución de los estados estacionarios cuando el potencial es contı́nuo a trozos con
discontinuidades de salto finito, calculamos primero las soluciones para las regiones en donde el potencial es constante
(con E > V ó E < V según el caso), y hacemos el “empalme” en los puntos donde hay discontinuidades exigiendo
la continuidad de la solución y de su primera derivada.
3.5.2. Expresión para la corriente en regiones de potencial constante
Por simplicidad consideraremos un problema unidimensional de una partı́cula colocada en un potencial constante
V0 . Aunque este caso corresponde a partı́cula libre, resulta interesante obtener la corriente en términos de V 0 ya que
después consideraremos la posibilidad de regiones con potencial constante pero diferente en cada región. Como la
corriente (3.31) depende de la solución para la función de onda estacionaria debemos considerar varios casos según
la sección 3.5.1
(a) E > V0 , en tal caso la solución estacionaria viene dada por la Ec. (3.44)
ϕ (x) = Aeikx + A0 e−ikx (3.50)
donde hemos usado la definición (3.42)

~2 k 2
E − V0 ≡
2m
y sustituyendo (3.50) en la expresión (3.31) para la corriente

3.6. EL POTENCIAL ESCALÓN 137
~
Jx = [ϕ∗ ∂x ϕ − ϕ∂x ϕ∗ ]
2mi
~ h ∗ −ikx i
Jx = A e + A0∗ eikx ∂x Aeikx + A0 e−ikx − Aeikx + A0 e−ikx ∂x A∗ e−ikx + A0∗ eikx
2mi
~ h ∗ −ikx i
Jx = A e + A0∗ eikx ikAeikx − ikA0 e−ikx − Aeikx + A0 e−ikx −ikA∗ e−ikx + ikA0∗ eikx
2mi
~k h ∗ −ikx
Jx = A e + A0∗ eikx Aeikx − A∗ e−ikx + A0∗ eikx A0 e−ikx
2m i
+ Aeikx + A0 e−ikx A∗ e−ikx − Aeikx + A0 e−ikx A0∗ eikx
~k h ∗ i
Jx = A A + A0∗ Ae2ikx − A∗ A0 e−2ikx − A0∗ A0 + AA∗ + A0 A∗ e−2ikx − AA0∗ e2ikx − A0 A0∗
2m
~k h 2 i
Jx = 2 |A|2 + A0∗ Ae2ikx − AA0∗ e2ikx − A∗ A0 e−2ikx + A0 A∗ e−2ikx − 2 A0
2m
~k h 2 0 2 i
Jx = |A| − A (3.51)
m
el signo relativo se puede entender teniendo en cuenta que la función de onda (3.50) representa dos ondas con
momentos opuestos p = ±~k con densidades de probabilidad |A| 2 y |A0 |2 , además ~k p
m = m = vg nos dice que Jx es
de la forma ρvg como era de esperarse.
(b) Cuando E < V0 la solución está dada por las Ecs. (3.45, 3.47)
ϕ (x) = Beρx + B 0 e−ρx (3.52)

~2 ρ2
V0 − E ≡ (3.53)
2m
sustituyendo (3.52) en (3.31) nos da
~
Jx = [ϕ∗ ∂x ϕ − ϕ∂x ϕ∗ ]
2mi
~ ∗ ρx
Jx = B e + B 0∗ e−ρx ∂x Beρx + B 0 e−ρx − Beρx + B 0 e−ρx ∂x B ∗ eρx + B 0∗ e−ρx
2mi
~ ∗ ρx
Jx = B e + B 0∗ e−ρx ρBeρx − ρB 0 e−ρx − Beρx + B 0 e−ρx ρB ∗ eρx − ρB 0∗ e−ρx
2mi
~ρ ∗ ρx
Jx = B e + B 0∗ e−ρx Beρx − B ∗ eρx + B 0∗ e−ρx B 0 e−ρx
2mi
− Beρx + B 0 e−ρx B ∗ eρx + Beρx + B 0 e−ρx B 0∗ e−ρx
~ρ ∗ 2ρx
Jx = B Be + B 0∗ B − B ∗ B 0 − B 0∗ B 0 e−2ρx − BB ∗ e2ρx − B 0 B ∗ + BB 0∗ + B 0 B 0∗ e−2ρx
2mi
~ρ ∗ 2ρx
Jx = B Be − BB ∗ e2ρx + 2B 0∗ B − 2B ∗ B 0 − B 0∗ B 0 e−2ρx + B 0 B 0∗ e−2ρx
2mi
~ρ 0∗
Jx = 2B B − 2B ∗ B 0
2mi
~ρ ~ρ
Jx = BB 0∗ − B ∗ B 0 = Im BB 0∗ (3.54)
2mi m
vemos que es necesario que en la función de onda (3.52) ambos coeficientes sean no nulos para que la corriente de
probabilidad sea diferente de cero.
3.6. El potencial escalón

Definamos un potencial en la forma

0 si x < 0 (Región I)
V (x) = V0 θ (x) =
V0 si x > 0 (Región II)
Figura 3.1: Perfil de un potencial escalón con discontinuidad en x = 0 y altura V 0 .
cuyo perfil se ilustra en la Fig. 3.1. Asumiremos que la partı́cula viene desde x = −∞ en t = −∞ de modo que
inicialmente solo hay una onda viajera que se propaga hacia la derecha. Distinguiremos dos casos
3.6.1. E > V0 , reflexión parcial

Como la energı́a es mayor que el potencial en ambas regiones, la Ec. (3.43) y la definición (3.42) son válidas
para las dos regiones I y II
2 r
d 2 2mE
+ k1 ϕ (x) = 0 ; k1 ≡ (región I) (3.55)
dx2 ~2
2 r
d 2 2m (E − V0 )
2
+ k2 ϕ (x) = 0 ; k2 ≡ (región II) (3.56)
dx ~2
ası́ mismo las soluciones en las dos regiones son de la forma (3.44)
ϕI (x) = A1 eik1 x + A01 e−ik1 x ; ϕII (x) = A2 eik2 x + A02 e−ik2 x (3.57)
dϕI (x) dϕII (x)
= ik1 A1 eik1 x − A01 e−ik1 x ; = ik2 A2 eik2 x − A02 e−ik2 x (3.58)
dx dx
y puesto que la ecuación (3.41) es homogénea, si ϕ es solución también lo será ϕ/A, siendo A una constante. Esto
implica que solo podemos determinar los cocientes entre las amplitudes pero no todas las amplitudes. Ahora bien,
puesto que la amplitud de entrada es la de la onda incidente, es decir la de la onda que viaja hacia la derecha
en la región I, tenemos que A1 es el parámetro de entrada y todos los demás deben compararse con él. Por tanto
determinaremos los cocientes
A01 A2 A02
, , .
A1 A1 A1
Veamos la información que nos dan las condiciones de empalme, la continuidad de la función en x = 0 nos da
lı́m ϕ (x) = lı́m ϕ (x) ⇒ ϕI (x = 0) = ϕII (x = 0)

x→0− x→0+
A1 + A01 = A2 + A02 (3.59)
y la continuidad de la primera derivada en x = 0 nos da
dϕ (x) dϕ (x) dϕI (x = 0) dϕII (x = 0)

lı́m = lı́m ⇒ =
x→0− dx x→0 + dx dx dx

k1 A1 − A01 = k2 A2 − A02 (3.60)
como solo tenemos dos ecuaciones (3.59) y (3.60) para los tres cocientes, debemos fijar una amplitud para poder
determinar los cocientes. Para ello tengamos en cuenta que cuando la función de onda penetra la región II vuelve
a ser una función de onda libre (potencial constante) y ya hemos visto que la función de onda libre es una onda
viajera en una sola dirección, de modo que no es de esperarse que surja una onda reflejada en el interior de la región
II (solo en el lı́mite entre I y II donde sı́ hay interacción). En consecuencia, no habrá onda reflejada en la región II,
por lo cual según la Ec. (3.57) vemos que
A02 = 0 (3.61)
nótese que esto está relacionado con el hecho de que hayamos tomado el caso de una partı́cula incidente que proviene
de x = −∞ (condiciones iniciales)4 . Las Ecs. (3.59, 3.60) se simplifican a

A1 + A01 = A2 ; k1 A1 − A01 = k2 A2 (3.62)
A1 + A01 A2 k1 (A1 − A01 ) A2
= ; = k2
A1 A1 A1 A1
0
0

A A2 k1 A A2
1+ 1 = ; 1− 1 = (3.63)
A1 A1 k2 A1 A1
igualando las dos Ecs. (3.63)

A01 k1 A0 k1 k1 A01 k2 − k 1 k2 + k1 A01
1+ = 1− 1 ⇒1− =− 1+ ⇒ =−
A1 k2 A1 k2 k2 A1 k2 k2 A1
A01 k1 − k 2
=
A1 k1 + k 2
y reemplazando en la primera de las Ecs. (3.63)
k1 − k 2 A2 2k1 A2
1+ = ⇒ =
k1 + k 2 A1 k1 + k 2 A1
tenemos entonces que las condiciones iniciales y de empalme nos llevan a
A01 k1 − k 2 A2 2k1
A02 = 0 ; = >0 ; = >0 (3.64)
A1 k1 + k 2 A1 k1 + k 2
donde el hecho de que el primer cociente es positivo proviene de las expresiones para k 1 y k2 Ecs. (3.55, 3.56).
Ahora bien, para E > V0 , la función ϕI (x) en la Ec. (3.57) representa dos ondas con momentos opuestos, es decir
propagándose en direcciones opuestas. La onda proporcional a A 1 se propaga de izquierda a derecha de modo que
representa una partı́cula incidente (p = ~k 1 ), la onda proporcional a A01 tiene momento p = −~k1 por lo cual
representa una partı́cula reflejada. Puesto que A 02 = 0 tenemos que ϕII (x) en la Ec. (3.57) representa solo una
onda que corresponde a una partı́cula transmitida. Es natural entonces preguntarse por la probabilidad de que una
partı́cula que incide desde x = −∞ pase el escalón de potencial o rebote en él. A tales cantidades las llamaremos
coeficientes de transmisión T y de reflexión R respectivamente. Para calcular estas cantidades debemos calcular
primero la corriente asociada a cada región de potencial constante. Para el caso E > V 0 esta corriente viene dada
por las Ecs. (3.50, 3.51), que aplicadas a las soluciones (3.57) y con la condición A 02 = 0 Ec. (3.61) nos da
~k1 h 2 i
JI (x) = |A1 |2 − A01 (3.65)
m
~k2
JII (x) = |A2 |2 (3.66)
m
JI es la superposición entre la corriente incidente y la corriente reflejada, en tanto que J II es la corriente transmitida,
por lo tanto
~k1 ~k1 0 2
JI (x) = Jinc + Jref l ; Jinc = |A1 |2 ; Jref l = − A1
m m
~k2
JII (x) = Jtr = |A2 |2
m
4
Si la partı́cula proviniera de x = +∞ y viajara hacia la izquierda, esperarı́amos onda incidente y reflejada en la región II y solo onda
transmitida en la región I.
Ahora bien, la corriente incidente J inc se divide en dos términos cuando incide sobre la discontinuidad: la corriente
reflejada y la transmitida
Jinc = Jtr + Jref l
El coeficiente de reflexión del escalón es entonces el cociente entre la corriente reflejada sobre la corriente incidente

Jref l A01 2
R = = (3.67)
Jinc A1
y el coeficiente de transmisión es el cociente entre la corriente transmitida sobre la corriente incidente

Jtr k2 A2 2
T = = (3.68)
Jinc k1 A1
podemos escribir R y T en términos de k 1 y k2 . Para hacerlo con R reemplazamos (3.64) en (3.67)

0 2
A1 k1 − k2 2 (k1 − k2 )2 (k1 + k2 )2 − 4k1 k2
R = = = =
A1 k1 + k 2 (k1 + k2 )2 (k1 + k2 )2
4k1 k2
R = 1−
(k1 + k2 )2
para el caso de T , reemplazamos (3.64) en (3.68)

2
k2 A2 2k1 2 k2 4k12
T = = k2 = =
4k1 k2
k1 A1 k1 k1 + k 2 k1 (k1 + k2 ) 2
(k1 + k2 )2
los coeficientes R y T quedan finalmente

4k1 k2 4k1 k2
R=1− 2 , T = (3.69)
(k1 + k2 ) (k1 + k2 )2
ahora bien, en un experimento concreto es claro que la partı́cula debe reflejarse o transmitirse, y esto se traduce en
que necesariamente
R+T =1
lo cual es consistente con las Ecs. (3.69). Es de enfatizar que contrario a las predicciones de la mecánica clásica,
tenemos una probabilidad diferente de cero de que la partı́cula se devuelva.
Ahora estamos preparados para la analogı́a óptica: De las Ecs. (3.40) vemos que un escalón de potencial con
V = 0 para x < x1 (región I) y V = V0 < E para x > x1 (región II), corresponde a una onda electromagnética que
se propaga de izquierda a derecha desde una región I de ı́ndice real n 1 dado por
c √
n1 = 2mE
~Ω
hacia una región II (separada de la región I por el punto x = x 1 ) de ı́ndice de refracción real n2
c p
n2 = 2m (E − V0 )
~Ω
de modo que tenemos una interfase plana en x = x 1 con n1 > n2 (la región I podrı́a ser vidrio y la región II podria
ser aire o el vacı́o). Ambos medios son transparentes. En este caso la onda incidente (con dirección de propagación
normal a la interfase) se parte en una onda transmitida (o refractada) y una onda reflejada. Ahora bien, las Ecs.
(3.64) muestran que los cocientes A01 /A1 y A2 /A1 son reales positivos, i.e. A01 y A2 tienen la misma fase que A1 5 .
Fı́sicamente, esto significa que no hay corrimiento de fase en la onda reflejada ni en la transmitida, con respecto a
la onda incidente. Por tanto, la partı́cula cuántica no es retardada por su reflexión o transmisión.
5

Para el cociente de dos amplitudes complejas podemos escribir tales cocientes en forma polar i.e A1 /A2 = |A1 | eiδ1 / |A2 | eiδ2 . De
modo que si el cociente es positivo entonces δ1 = δ2 , si el cociente es negativo hay una diferencia de fase π y si el cociente es complejo
hay una diferencia de fase arbitraria diferente a cero y π.
Es interesante ver lo que ocurre en el lı́mite cuando E >> V 0 . De las definiciones de k1 y k2 en las Ecs. (3.55,
3.56), junto con las Ecs. (3.69) es fácil ver que
q q
√ p
2mE 2m(E−V0 )
4 ~ 2 ~ 2 8m E (E − V 0 )
4k1 k2
T = = q q 2 = √ p 2
(k1 + k2 )2 2mE 2m(E−V0 ) 2mE + 2m (E − V )
~2 +
0
~2
hp i hp i h√ i
4 E(E−V0 )
8m E (E − V0 ) 4 E (E − V0 )
E
T = h√ √ √ i 2 = h √ √ i2 = √ √ 2
2m E + E − V0 E + E − V0 [( E+ E−V0 )]
E
q q
4 1 − VE0 4 1 − VE0
4
T = √ √ 2 = q 2 ≈ =1
( E+√ E−V0 ) V0 [1 + 1]2
E
1+ 1− E
por tanto si E >> V0 entonces R ∼ =0yT ∼ = 1, de modo que para energı́as suficientemente grandes comparadas con
la altura del potencial, la partı́cula saltará el escalón prácticamente con toda certeza.
La diferencia en la interpretación en óptica y en cuántica se puede apreciar con el proceso de medición. Si justo
después de que la onda incidente se parte en dos, colocamos dos detectores en la regiones I y II, en un experimento
óptico los dos aparatos detectarán una onda cada una con intensidad menor a la incidente (siendo la suma de las
dos intensidades la intensidad incidente). En un experimento cuántico solo uno de los detectores detectará una
partı́cula, pero si repetimos el experimento muchas veces, la partı́cula será detectada en uno u otro detector en cada
experimento, en una proporción dada por el patrón de probabilidad.
3.6.2. E < V0 ; reflexión total

Asumiendo E ≥ 0 se tiene que en la región I son válidas la Ec. (3.43) y la definición (3.42), en tanto que en la
región II son válidas la Ec. (3.46) y la definición (3.45)
2 r
d 2 2mE
2
+ k1 ϕ (x) = 0 ; k1 ≡ (región I) (3.70)
dx ~2
2 r
d 2 2m (V0 − E)
2
− ρ2 ϕ (x) = 0 ; ρ2 ≡ (región II) (3.71)
dx ~2
De modo que la solución en la región I es del tipo armónico Ec. (3.44) y en la región II es del tipo exponencial
Ec. (3.47)
ϕI = A1 eik1 x + A01 e−ik1 x ; ϕII (x) = B2 eρ2 x + B20 e−ρ2 x (3.72)

dϕI dϕII
= ik1 A1 eik1 x − A01 e−ik1 x ; = ρ2 B2 eρ2 x − B20 e−ρ2 x (3.73)
dx dx
para que la solución se mantenga acotada cuando x → +∞ es necesario que 6
B2 = 0 (3.74)
y las condiciones de empalme nos dan
dϕ (x) dϕ (x)
lı́m ϕ (x) = lı́m ϕ (x) ; lı́m
= lı́m ⇒
x→0− x→0+ dx x→0−x→0 + dx
dϕI dϕII
ϕI (x = 0) = ϕII (x = 0) ; (x = 0) = (x = 0) (3.75)
dx dx
6
En x → −∞ la solución es oscilante ya que estamos en la región I. Por lo tanto, no hay problemas de divergencia.
y reemplazando (3.74, 3.75) en (3.72, 3.73) resulta

A1 + A01 = B20 ; ik1 A1 − A01 = −ρ2 B20 (3.76)
Debido a la nulidad de B2 , podremos encontrar todos los cocientes de la forma A 01 /A1 y B20 /A1 sin ninguna suposición
adicional. Dividiendo las Ecs. (3.76) por A 1 queda

A01 B20 A01 B0
1+ = ; ik1 1 − = −ρ2 2
A1 A1 A1 A1

A01 B20 ik1 A01 B20
1+ = ; − 1− = (3.77)
A1 A1 ρ2 A1 A1
igualando estas ecuaciones

A0 ik1 A01 A0 ik1 A01 ik1
1+ 1 = − 1− ⇒ 1− =− −1
A1 ρ2 A1 A1 ρ2 A1 ρ2
0
ik1 A1 ik1 A0
1− = − + 1 ⇒ (ρ2 − ik1 ) 1 = −ik1 − ρ2
ρ2 A1 ρ2 A1
A0 A10 k1 − iρ2
(iρ2 + k1 ) 1 = k1 − iρ2 ; =
A1 A1 k1 + iρ2
y reemplazando este cociente en la primera de las Ecs. (3.77)
k1 − iρ2 B0 B0 2k1
1+ = 2 ⇒ 2 =
k1 + iρ2 A1 A1 k1 + iρ2
tenemos que los cocientes están dados por
A01 k1 − iρ2 B20 2k1

= ; = (3.78)
A1 k1 + iρ2 A1 k1 + iρ2
Las expresiones finales para ϕI (x) y ϕII (x) están dadas por las Ecs. (3.72, 3.73, 3.74)
ϕI = A1 eik1 x + A01 e−ik1 x ; ϕII (x) = B20 e−ρ2 x (3.79)

dϕI dϕII (x)
= ik1 A1 eik1 x − A01 e−ik1 x ; = −ρ2 B20 e−ρ2 x (3.80)
dx dx
reemplazando la primera de las Ecs. (3.79) en (3.51)
~k h 2 i
JI = |A1 |2 − A01
m
Por otro lado, usando la segunda de las Ecs. (3.79) en la Ec. (3.54) y teniendo en cuenta que en la Ec. (3.54)
los dos coeficientes deben ser no nulos para que exista corriente, se tiene que
JII = 0
de modo que el flujo transmitido es cero.
En el análogo óptico, cuando E < V0 el ı́ndice n2 correspondiente a la región II (x > x 1 ) se vuelve puramente
imaginario y la onda se refleja completamente. Sin embargo, la onda evanescente para la región II muestra que una
fracción de la intensidad de la onda cruza la frontera (onda sobreamortiguada i.e. sin oscilación). Similarmente en
el caso cuántico la partı́cula es siempre reflejada (reflexión total) pero hay una probabilidad diferente de cero de
que la partı́cula pase a la región II 7 , esto difiere sin embargo del comportamiento clásico de una partı́cula para la
cual esta región estarı́a estrictamente prohibida. No obstante, en el caso cuántico, esta probabilidad disminuye con
x exponencialmente de modo que se vuelve despreciable cuando x es mayor a la “longitud de penetración” 1/ρ 2 de
7
Hablamos de reflexión total en el sentido de que solo las funciones de onda incidente y reflejada oscilan. La onda transmitida está en
cambio sobreamortiguada.
3.7. BARRERA DE POTENCIAL 143
la onda evanescente. Adicionalmente, las Ecs. (3.78) nos dicen que el coeficiente A 01 /A1 es complejo de modo que
hay cierto corrimiento de fase en la reflexión que fı́sicamente se debe a que la partı́cula es retardada cuando penetra
la región II. Este fenómeno es parcialmente análogo al efecto piel de penetración de una onda en un metal, aunque
en el efecto piel hay una parte oscilante y una de amortiguamiento (subamortiguamiento), en tanto que en el caso
presente solo hay término amortiguado (sobreamortiguamiento).
Surge una aparente paradoja teniendo en cuenta que en la región II, la corriente de probabilidad es cero en tanto
que la probabilidad de que la partı́cula esté en esta región es no nula. Un análisis mas detallado del paquete de
onda incidente muestra que parte del paquete de onda incidente entra en la región II clásicamente prohibida para la
partı́cula y se refleja después de haber penetrado, esta onda reflejada desde la región II interfiere destructivamente
con la onda incidente que está penetrando de modo que se anula la corriente en la región II.
Vale decir que esta interferencia perfectamente destructiva solo aparece en el caso unidimensional. Un análisis
del caso bidimensional muestra que efectivamente aparece una corriente no nula en la región II cuando la incidencia
es oblı́cua.
Es interesante analizar el caso en el cual V 0 → ∞, de la definición para ρ2 en (3.71) vemos que ρ2 → ∞ de
modo que la segunda de las Ecs. (3.78) nos da B 20 → 0, y usando esto en la primera de las Ecs. (3.78) se obtiene
A01 /A1 → −1 es decir
A01 → −A1 ; B20 → 0 (3.81)
y la segunda de las Ecs. (3.79) muestra que en la región II la función de onda tiende a cero, ası́ como el rango de
penetración 1/ρ2 de ésta8 . Aplicando los lı́mites (3.81) a las Ecs. (3.79)
lı́m ϕ (x) = ϕI (0) = A1 + A01 → 0 , lı́m ϕ (x) = ϕII (0) = B20 → 0 (3.82)
x→0− x→0+
la función de onda ϕ (x) se va para cero en x = x 1 de manera que se mantiene contı́nua en el punto de discontinuidad
del potencial. Veamos ahora los lı́mites laterales en la derivadas, Ecs. (3.80)
dϕ (x) dϕI (0)

lı́m = = ik1 A1 − A01 → 2ik1 A1
x→0− dx dx
dϕ (x) dϕII (x)
lı́m = lı́m = − lı́m ρ2 B20 e−ρ2 x
x→0+ dx x→0+ dx x→0+
usando la segunda de las Ecs. (3.77) se obtiene

dϕ (x) ik1 0
−ρ2 x
lı́m = − lı́m ρ2 − A1 − A 1 e = 2ik1 A1 lı́m e−ρ2 x (3.83)
x→0+ dx x→0+ ρ2 x→0+
el valor de este lı́mite dependerá del crecimiento comparativo entre ρ 2 y x. Por ejemplo si suponemos que el potencial
V0 crece como x−3 tenemos que r r
2m 2m −3/2
ρ2 → 2
V0 → x ≡ kx−3/2
~ ~2
dϕ (x) −1/2
lı́m = 2ik1 A1 lı́m e−ρ2 x = 2ik1 A1 lı́m e−kx =0
x→0+ dx x→0+ x→0+
Vemos entonces que la derivada puede cambiar abruptamente del valor 2ikA 1 a cero, en cuyo caso no serı́a
contı́nua. Esto se debe a que el potencial no es acotado (requisito para la validez del desarrollo en la sección 3.5.1)
de modo que la integral en la Ec. (3.49) no necesariamente tiende a cero cuando η → 0.
3.7. Barrera de potencial

La barrera de potencial se describe a través de la siguiente expresión
8
En otras palabras, el escalón se vuelve un obstáculo totalmente rı́gido, como era de esperarse.
Figura 3.2: Perfil de una barrera de potencial de altura V 0 , con discontinuidades en x = 0 y x = L.

 0 si x < 0 (región I)
V (x) = V >0 si 0 < x < L (región II)
 0
0 si L < x (región III)
Para E > V0 veremos que la transmisión es total para ciertos valores del ancho de la barrera, fenómeno conocido
como resonancia en la transmisión. También hay ciertos anchos especı́ficos de la barrera para los cuales la reflexión
es maxima, aunque la transmisión nunca se anula completamente.
Para E < V0 , una partı́cula clásica debe rebotar. Si el ancho de la barrera no es mucho mayor que la longitud
de penetración 1/ρ de la onda evanescente, veremos que parte de la onda incidente se transmite a la región III. En
consecuencia, incluso para E < V0 la probabilidad de que la partı́cula cruce la barrera es diferente de cero. Este
hecho se conoce como efecto túnel.
3.7.1. E > V0 , resonancias

En el análogo óptico tenemos una capa transparente de ancho L (en 0 < x < L) con ı́ndice de refracción real
n2 rodeado de un medio transparente (en x < 0 y x > L) de ı́ndice de refracción real n 1 > n2 . Como la energı́a es
mayor que el potencial, la Ec. (3.43) y la definición (3.42) son válidas para las tres regiones
2 r
d 2 2mE
+ k1 ϕ (x) = 0 ; k1 ≡ (región I) (3.84)
dx2 ~2
2 r
d 2 2m (E − V0 )
+ k2 ϕ (x) = 0 ; k2 ≡ (región II) (3.85)
dx2 ~2
2 r
d 2 2mE
2
+ k3 ϕ (x) = 0 ; k3 = k1 ≡ (región III) (3.86)
dx ~2
ası́ mismo las soluciones en las tres regiones son de la forma (3.44)
ϕI (x) = A1 eik1 x + A01 e−ik1 x ; ϕII (x) = A2 eik2 x + A02 e−ik2 x ; ϕIII (x) = A3 eik1 x + A03 e−ik1 x (3.87)
dϕI (x) dϕII (x)
= ik1 A1 eik1 x − A01 e−ik1 x ; = ik2 A2 eik2 x − A02 e−ik2 x
dx dx
dϕIII (x)
ik1 x 0 −ik1 x
= ik1 A3 e − A3 e (3.88)
dx
donde hemos usado la segunda de las Ecs. (3.86). Como antes se tiene que
A03 = 0 (3.89)
ya que asumimos una onda incidente desde x → −∞ y no es de esperarse una onda reflejada desde el interior de la
región III. Usando (3.89), las condiciones de empalme aplicadas a las Ecs. (3.87) en x = 0 y en x = L quedan
lı́m ϕ (x) = lı́m ϕ (x) ⇒ ϕI (0) = ϕII (0) ⇒ A1 + A01 = A2 + A02

x→0+ x→0−
lı́m ϕ (x) = lı́m ϕ (x) ⇒ ϕII (L) = ϕIII (L) ⇒ A2 eik2 L + A02 e−ik2 L = A3 eik1 L
x→L+ x→L−
dϕ (x) dϕ (x) dϕI (0) dϕII (0)
lı́m = lı́m ⇒ = ⇒ k1 A1 − A01 = k2 A2 − A02
x→0+ dx x→0− dx dx dx
dϕ (x) dϕ (x) dϕII (L) dϕIII (L)
lı́m = lı́m ⇒ = ⇒ k2 A2 eik2 L − A02 e−ik2 L = k1 A3 eik1 L
x→L+ dx x→L− dx dx dx
una vez más podemos determinar los cocientes A 01 /A1 , A2 /A1 , A02 /A1 , A3 /A1 . Es decir, normalizados con respecto
a la amplitud de la onda incidente. Con respecto a estos cocientes las ecuaciones quedan
A01 A2 A02 A2 ik2 L A02 −ik2 L A3 ik1 L

1+ = + ; e + e = e (3.90)
A1 A1 A1 A1 A1 A1

A0 k2 A2 A02 k2 A2 ik2 L A02 −ik2 L A3 ik1 L
1− 1 = − ; e − e = e (3.91)
A1 k1 A1 A1 k1 A1 A1 A1
despejando A01 /A1 en la primera de las Ecs. (3.90) y en la primera de las Ecs. (3.91) e igualando resulta

A2 A02 k2 A2 A02 A2 k2 A02 k2
+ −1 = 1− − ⇒ 1+ + 1− =2
A1 A1 k1 A1 A1 A1 k1 A1 k1
A2 A0 A02 2k1 A2 (k1 + k2 )
(k1 + k2 ) + 2 (k1 − k2 ) = 2k1 ⇒ = − (3.92)
A1 A1 A1 (k1 − k2 ) A1 (k1 − k2 )
igualando la segunda de las Ecs. (3.90) con la segunda de las Ecs. (3.91), resulta

A2 ik2 L A02 −ik2 L k2 A2 ik2 L A02 −ik2 L A02 −ik2 L k2 A2 ik2 L k2
e + e = e − e ⇒ e 1+ = e −1 (3.93)
A1 A1 k1 A1 A1 A1 k1 A1 k1
reemplazando (3.92) en (3.93) queda

2k1 A2 (k1 + k2 ) −ik2 L k1 + k2 A2 ik2 L k2 − k1
− e = e
(k1 − k2 ) A1 (k1 − k2 ) k1 A1 k1

A2 A2
2k1 (k1 + k2 ) − (k1 + k2 )2 e−ik2 L = − eik2 L (k1 − k2 )2
A1 A1
A2 h i
(k1 + k2 )2 e−ik2 L − (k1 − k2 )2 eik2 L = 2k1 (k1 + k2 ) e−ik2 L (3.94)
A1
reescribamos el término en paréntesis cuadrados en la Ec. (3.94)

(k1 + k2 )2 e−ik2 L − (k1 − k2 )2 eik2 L = k12 + 2k1 k2 + k22 e−ik2 L − k12 − 2k1 k2 + k22 eik2 L

= −k12 eik2 L − e−ik2 L + 2k1 k2 eik2 L + e−ik2 L − k22 eik2 L − e−ik2 L
= −2ik12 sin k2 L + 4k1 k2 cos k2 L − 2ik22 sin k2 L

(k1 + k2 )2 e−ik2 L − (k1 − k2 )2 eik2 L = −2i k12 + k22 sin k2 L + 4k1 k2 cos k2 L
A2
−i k12 + k22 sin k2 L + 2k1 k2 cos k2 L = k1 (k1 + k2 ) e−ik2 L
A1
A2 k1 (k1 + k2 ) e−ik2 L
= (3.95)
A1 −i k12 + k22 sin k2 L + 2k1 k2 cos k2 L
reemplazando (3.95) en la Ec. (3.92) resulta
A02 2k1 A2 (k1 + k2 ) 2k1 k1 (k1 + k2 ) e−ik2 L (k + k2 )

= − = − 2 2
1
A1 (k1 − k2 ) A1 (k1 − k2 ) (k1 − k2 ) −i k1 + k2 sin k2 L + 2k1 k2 cos k2 L (k1 − k2 )

2k1 −i k12 + k22 sin k2 L + 2k1 k2 cos k2 L − k1 (k1 + k2 )2 e−ik2 L
=
−i k12 + k22 sin k2 L + 2k1 k2 cos k2 L (k1 − k2 )

A02 −2i k12 + k22 sin k2 L + 4k1 k2 cos k2 L − k12 + k22 + 2k1 k2 e−ik2 L
= k1
A1 −i k12 + k22 sin k2 L + 2k1 k2 cos k2 L (k1 − k2 )
Z k1
≡ 2 2

−i k1 + k2 sin k2 L + 2k1 k2 cos k2 L (k1 − k2 )
la cantidad Z se evalúa como

Z ≡ −2i k12 + k22 sin k2 L + 4k1 k2 cos k2 L − k12 + k22 + 2k1 k2 e−ik2 L
h i h i h i
= −k12 2i sin k2 L + e−ik2 L − k22 2i sin k2 L + e−ik2 L + 2k1 k2 2 cos k2 L − e−ik2 L
h i h i
= − k12 + k22 2i sin k2 L + e−ik2 L + 2k1 k2 eik2 L + e−ik2 L − e−ik2 L
h ik2 L i
= − k12 + k22 e − e−ik2 L + e−ik2 L + 2k1 k2 eik2 L

= − k12 + k22 eik2 L + 2k1 k2 eik2 L = − k12 + k22 − 2k1 k2 eik2 L
Z = − (k1 − k2 )2 eik2 L
con lo cual el cociente A02 /A1 queda finalmente
A02 k1 (k1 − k2 ) eik2 L

= − (3.96)
despejando A01 /A1 en la primera de las Ecs. (3.90) y reemplazando las Ecs. (3.95,3.96) en la ecuación resultante se
obtiene
A01 A2 A02 k1 (k1 + k2 ) e−ik2 L k1 (k1 − k2 ) eik2 L
= + −1= − −1
A1 A1 A1 −i k12 + k22 sin k2 L + 2k1 k2 cos k2 L −i k12 + k22 sin k2 L + 2k1 k2 cos k2 L

−k12 eik2 L − e−ik2 L + k1 k2 eik2 L + e−ik2 L −2ik12 sin k2 L + 2k1 k2 cos k2 L
= − 1 = −1
−i k12 + k22 sin k2 L + 2k1 k2 cos k2 L −i k12 + k22 sin k2 L + 2k1 k2 cos k2 L

−2ik12 sin k2 L + 2k1 k2 cos k2 L − −i k12 + k22 sin k2 L + 2k1 k2 cos k2 L
=
−i k12 + k22 sin k2 L + 2k1 k2 cos k2 L

A01 −2ik12 sin k2 L + 2k1 k2 cos k2 L + i k12 + k22 sin k2 L − 2k1 k2 cos k2 L
=

A01 i k22 − k12 sin k2 L M
= 2 2
≡ (3.97)
A1 −i k1 + k2 sin k2 L + 2k1 k2 cos k2 L N
reemplazando las Ecs. (3.95,3.96) en la ecuación segunda de las Ecs. (3.90) resulta
A3 ik1 L A2 ik2 L A02 −ik2 L

e = e + e
A1 A1 A1
A3 ik1 L k1 (k1 + k2 ) e−ik2 L ik2 L k1 (k1 − k2 ) eik2 L
e = e − e−ik2 L
A1 −i k12 + k22 sin k2 L + 2k1 k2 cos k2 L −i k12 + k22 sin k2 L + 2k1 k2 cos k2 L
A3 ik1 L k1 (k1 + k2 ) − k1 (k1 − k2 ) 2k1 k2
e = 2 2
= 2 2

A1 −i k1 + k2 sin k2 L + 2k1 k2 cos k2 L −i k1 + k2 sin k2 L + 2k1 k2 cos k2 L
A3 2k1 k2 e−ik1 L P
= 2 2
≡ (3.98)
A1 −i k1 + k2 sin k2 L + 2k1 k2 cos k2 L N
ahora calculamos los coeficientes de reflexión y transmisión por medio de las Ecs. 3.97
2
Jref l A01 2 M M ∗ |M |2 k22 − k12 sin2 k2 L
R = = = = = (3.99)
Jinc A1 N N∗ |N |2 |N |2
2 2
Jtrans A3 2 2
T = = = |P | = 4k1 k2 (3.100)
Jinc A1 |N | 2
|N |2
calculamos ahora la magnitud al cuadrado del denominador N

|N |2 = N N ∗ = 2k1 k2 cos k2 L − i k12 + k22 sin k2 L 2k1 k2 cos k2 L + i k12 + k22 sin k2 L
2
= 4k12 k22 cos2 k2 L + k12 + k22 sin2 k2 L = 4k12 k22 1 − sin2 k2 L + k14 + k24 + 2k12 k22 sin2 k2 L

= 4k12 k22 + k14 + k24 − 2k12 k22 sin2 k2 L
2
|N |2 = 4k12 k22 + k22 − k12 sin2 k2 L (3.101)
reemplazando (3.101) en las Ecs.(3.99, 3.100), los coeficientes de reflexión y transmisión quedan
0 2
2 − k 2 2 sin2 k L
A1 k 2 1 2
R = = 2 2 (3.102)
A1 2 2 2 2
4k1 k2 + k2 − k1 sin k2 L
2
A3 4k12 k22
T = = 2 (3.103)
A1 4k12 k22 + k22 − k12 sin2 k2 L
se vé inmediatamente que R + T = 1. Es más útil escribir a R y T en términos de cantidades Fı́sicas más directas
como E y V0 . Para ello reemplazamos las expresiones (3.84, 3.85) en la Ec. (3.103)
2mE
h 2m(E−V0 ) i
2 2
4k1 k2 4 ~2 ~2
T = = h i h i √
2
4k12 k22 + k22 − k12 sin2 k2 L 2mE
2m(E−V0 ) 2mE 2m(E−V0 ) 2 2 2m(E−V0 )
4 ~2 ~2
+ ~2 − ~2
sin ~ L
4E (E − V0 )
= √
2 2 2m(E−V0 )
4E (E − V0 ) + [E − (E − V0 )] sin ~ L
4E (E − V0 )
T = √ (3.104)
2 2 2m(E−V0 )
4E (E − V0 ) + V0 sin ~ L
si hacemos una gráfica de T contra L con valores fijos de E, V 0 y m (ver Fig 3.3), y tenemos en cuenta que sin2 x
es periódica en x con periodo π, entonces T es periódica en L con periodo
π π~
∆L = =p (3.105)
k2 2m (E − V0 )
El mı́nimo de T se obtiene cuando el seno al cuadrado adquiere el valor 1 y el máximo se obtiene cuando el seno al
cuadrado adquiere el valor cero. Es claro entonces que
4E (E − V0 )
Tmı́n = > 0 ; Tmáx = 1 (3.106)
4E (E − V0 ) + V02
vemos que se obtienen valores de L para los cuales la transmisión es total (T = 1), lo cual ocurre cuando L n =
n∆L = nπ/k2 o equivalentemente
nπ nπ~
Ln = =p (3.107)
k2 2m (E − V0 )
Figura 3.3: Gráfica de T vs L, con E, V 0 y m fijos, para una barrera de potencial como la indicada en la Fig. 3.2
con la condición E > V0 .
decimos entonces que se obtienen resonancias en la transmisión para estos valores de L n , los cuales corresponden
a múltiplos enteros de la semilongitud de onda de la partı́cula en la región II 9 . Estos hechos se ilustran en la Fig.
3.3. Este es el análogo cuántico de la transmisión en un interferómetro de Fabry-Perot en óptica, en el cual también
se observan estas resonancias en la transmisión. Cuando E > V 0 , se tiene que la reflexión de la partı́cula en cada
discontinuidad del potencial (i.e. en x = 0, L) ocurre sin corrimiento de fase de la función de onda. Por esta razón,
la condición de resonancia k2 L = nπ coincide con los valores de L para los cuales pueden existir ondas estacionarias
en la región II. Por otro lado, cuando L 6= L n surge un corrimiento de fase en las reflexiones que genera interferencia
destructiva, la cual se maximiza lejos de la resonancia, es decir cuando L = (n + 1/2) π, como se aprecia en la Fig.
3.3 esto genera el valor mı́nimo de T . Nótese que en L = (n + 1/2) π tendrı́amos una resonancia en la reflexión,
pero la reflexión no es total ya que la transmisión nunca es nula 10 .
Un estudio del comportamiento del paquete de onda en una barrera de potencial con E > V 0 muestra que cuando
se cumple la condición de resonancia, el paquete de onda pasa un tiempo relativamente grande en la región II. En
mecánica cuántica esto se denomina resonancia en el scattering, ya que en un problema de dispersión por este
tipo de potencial el paquete de onda estarı́a pasando un tiempo relativamente largo en la región de colisión (que
serı́a la región II).
3.7.2. Caso E < V0 : Efecto túnel
En el análogo óptico, tenemos una capa de ancho L con ı́ndice de refracción imaginario (región II) rodeado de
un medio transparente (regiones I y III). En este caso las regiones I y III poseen ondas oscilantes en tanto que la
9
El hecho de que sean múltiplos enteros de semilongitudes de onda (y no de las longitudes de onda) proviene del hecho de que la Ec.
(3.104), depende de sin2 x cuyo periodo π es la mitad del periodo de la función sin x.
10
Naturalmente, la condición de resonancia en la transmisión Ec. (3.107) puede interpretarse para L fijo como los valores k 2n de número
de onda que producen dicha resonancia. Si asumimos por ejemplo que L, V0 y m son fijos, lo que estamos obteniendo son las energı́as de
resonancia En , que implicarán unas frecuencias de resonancia En = hνn .
región II corresponde a ondas evanescentes lo cual se escribe como

r
d2 2 2mE
+ k1 ϕ (x) = 0 ; k1 ≡ (región I) (3.108)
dx2 ~2
2 r
d 2m (V0 − E)
2
− ρ22 ϕ (x) = 0 ; ρ2 ≡ (región II) (3.109)
dx ~2
2 r
d 2 2mE
2
+ k3 ϕ (x) = 0 ; k3 = k1 ≡ (región III) (3.110)
dx ~2
comparando las Ecs. (3.108, 3.109, 3.110) con las Ecs. (3.84, 3.85, 3.86), vemos que podemos utilizar las soluciones
anteriores reemplazando k2 por −iρ2 con lo cual se obtiene
2
A3 4E (V0 − E)
T = = √ ; R =1−T (3.111)
A1 2 2 2m(V0 −E)
4E (V0 − E) + V0 sinh ~ L
para una partı́cula clásica que en t → −∞ está en x → −∞, es decir en la región I, las regiones II y III están
prohibidas. Contrario a las predicciones para una partı́cula clásica, vemos que en el caso cuántico las probabilidades
en las regiones II y III son distintas de cero. En particular esto implica una probabilidad diferente de cero de que la
partı́cula cruce la barrera de potencial, fenómeno conocido como efecto túnel. En la región II el comportamiento es
de onda evanescente de rango 1/ρ2 . Cuando L . 1/ρ2 la partı́cula tiene una probabilidad considerable de cruzar la
barrera por efecto túnel. Este efecto tiene muchas aplicaciones en Fı́sica tales como el efecto Josephson, la inversión
de la molécula de amonio, el diodo túnel etc.
Es natural entonces comparar la longitud o rango de penetración 1/ρ 2 de la onda evanescente, con el ancho L de
la barrera. Si el ancho de la barrera es mucho mayor que el rango de la onda evanescente tenemos que L >> 1/ρ 2
de modo que ρ2 L >> 1, usando la Ec. (3.109) esta condición queda
r
2m (V0 − E) ex
ρ2 L = L >> 1 ; sinh x ' ; x >> 1
~2 2
con estas aproximaciones, la Ec. (3.111) queda

2
A3 4E (V0 − E) 4E (V0 − E) 16E (V0 − E) −2ρ2 L
T = ' ρ L 2 ' = e
A1 2
V0 4e 2ρ2 L
V02
4E (V0 − E) + V02 e 22

E E
T ' 16 1− e−2ρ2 L << 1 (3.112)
V0 V0
en tal caso la atenuación es muy fuerte y la probabilidad de transmisión muy baja.

Para tener una idea de los órdenes de magnitud del efecto, pensemos en un electrón con energı́a E = 1eV (electrón-
o
voltio) que cruzará una barrera de potencial V 0 = 2eV, de ancho L = 1A. Usando V0 = 2E = 2eV ası́ como los
o
valores de la masa del electrón y de la constante de Planck en la Ec. (3.109), vemos que el rango 1/ρ 2 ' 1,96A, es
decir del orden de magnitud de la ancho de la barrera, por lo cual se espera una probabilidad considerable de que
el electrón cruce la barrera, evaluando esta probabilidad con la Ec. (3.111) se obtiene T ' 0,78 un resultado muy
diferente al clásico ya que en este caso es de hecho más probable la transmisión que la reflexión.
Si reemplazamos al electrón por un protón solo hay que cambiar la masa asociada (unas 1840 veces la del
o
electrón), permaneciendo iguales los demás datos. En tal caso el rango es 1/ρ 2 ' 4,6 × 10−2 A de modo que la
barrera es mucho más ancha que el rango de la onda evanescente. Usando la Ec. (3.111) o la Ec. (3.112) tenemos
que T ' 4 × 10−19 . Esta tremenda diferencia con respecto al electrón se debe a la gran sensibilidad de la exponencial
decreciente en la Ec. (3.112) con la masa, o del seno hiperbólico en (3.111) con la masa. Esto también explica
porqué el efecto túnel no es observable en sistemas macroscópicos.
3.8. Pozo de potencial

El pozo de potencial se describe con el perfil

 0 si x < x1 (región I)
V (x) = −V0 < 0 si x1 < x < x2 (región II)

0 si x2 < x (región III)
3.8.1. Partı́cula con energı́a −V0 < E < 0
Figura 3.4: Perfil de un pozo de potencial de profundidad V 0 , con discontinuidades en x = −a/2 y x = a/2.
Para esta situación, definiremos el pozo de potencial en la forma (ver Fig. 3.4)

 0 si x < − a2 (región I)
V (x) = −V0 < 0 si − a2 < x < a2 (región II)

0 si a2 < x (región III)
donde hemos elegido colocar el origen de tal modo que V (x) = V (−x).
Una partı́cula clásica en un pozo de potencial como éste, y con energı́a E negativa (pero mayor que −V 0 ) solo
puede oscilar entre −a/2 y a/2 con energı́a cinética E k = E +V0 . En el análogo óptico, para la situación −V 0 < E < 0
los ı́ndices de refracción n1 y n3 en las regiones I y III son imaginarios, en tanto que n 2 es real. Esto es equivalente
a una capa de aire de ancho “a” entre dos medios reflectivos. Las diferentes ondas que se reflejan sucesivamente en
x = −a/2 y x = a/2 se destruyen unas a otras excepto para ciertas frecuencias muy especı́ficas (modos normales)
3.8. POZO DE POTENCIAL 151
que permiten la formación de ondas estacionarias. Desde el punto de vista cuántico, esto significa que las energı́as
negativas de la partı́cula están cuantizadas. En contraste, para la partı́cula clásica todos los valores de energı́a entre
−V0 y cero son posibles. Vale la pena mencionar que los valores permitidos de la energı́a no están dados por la bien
conocida condición a = kλ2 /2, ya que existen ondas evanescentes que generan un corrimiento de fase en los puntos
de reflexión x = −a/2 y x = a/2.
En las regiones I, II y III las soluciones de la ecuación de Schrödinger independiente del tiempo son
r
ρx 0 −ρx 2mE
ϕI (x) = B1 e + B1 e ; ρ= − 2 >0 (3.113)
~
r
2m (E + V0 )
ϕII (x) = A2 eikx + A02 e−ikx ; k = >0 (3.114)
r ~2
2mE
ϕIII (x) = B3 eρx + B30 e−ρx ; ρ = − 2 > 0 (3.115)
~
asumiremos de nuevo la condición inicial de que la onda viaja inicialmente desde la región I. A fin de que estas
funciones sean acotadas en la región I (x → −∞) y en la región III (x → ∞) se requiere que
B10 = B3 = 0 (3.116)
con lo cual las ecuaciones se simplifican a
ϕI (x) = B1 eρx ; ϕII (x) = A2 eikx + A02 e−ikx ; ϕIII (x) = B30 e−ρx (3.117)
las condiciones de empalme resultan

a a
dϕI − a2 dϕII − a2
ϕI − = ϕII − ; =
2 2 dx dx
a a dϕII a2 dϕIII a2
ϕII = ϕIII ; =
2 2 dx dx
estas condiciones aplicadas sobre las Ecs. (3.117) nos dan
a a a a
a a

B1 e−ρ 2 = A2 e−ik 2 + A02 eik 2 ; ρB1 e−ρ 2 = ik A2 e−ik 2 − A02 eik 2
a a a a
a a

B30 e−ρ 2 = A2 eik 2 + A02 e−ik 2 ; −ρB30 e−ρ 2 = ik A2 eik 2 − A02 e−ik 2 (3.118)
en este caso la amplitud incidente es B 1 (aunque de una onda evanescente) y por tanto los cocientes se normalizan
con esta cantidad. Las Ecs. (3.118) quedan

A2 (ρ−ik) a A02 (ρ+ik) a ik A2 (ρ−ik) a A02 (ρ+ik) a
1 = e 2 + e 2 ; 1= e 2 − e 2 (3.119)
B1 B1 ρ B1 B1

B30 A2 (ρ+ik) a A02 (ρ−ik) a B30 ik A02 (ρ−ik) a A2 (ρ+ik) a
= e 2 + e 2 ; = e 2 − e 2 (3.120)
B1 B1 B1 B1 ρ B1 B1
de la primera de las ecuaciones (3.119) tenemos
A02 (ρ+ik) a A2 (ρ−ik) a

− e 2 = e 2 − 1 (3.121)
B1 B1
y reemplazando esta cantidad en la segunda de las ecuaciones (3.119) se obtiene

ik A2 (ρ−ik) a A2 (ρ−ik) a ρ A2 a 1ρ a A2
1 = e 2 + e 2 − 1 ⇒ = 2 e(ρ−ik) 2 − 1 ⇒ + 1 e(−ρ+ik) 2 =
ρ B1 B1 ik B1 2 ik B1

A2 ρ + ik a
= e(−ρ+ik) 2 (3.122)
B1 2ik
reemplazando (3.122) en (3.121) tenemos

A02 (ρ+ik) a ρ + ik (−ρ+ik) a a A02 ρ + ik a
− e 2 = e 2 e(ρ−ik) 2 − 1 ⇒ =− − 1 e−(ρ+ik) 2
B1 2ik B1 2ik
0

A2 ρ − ik a
= − e−(ρ+ik) 2 (3.123)
B1 2ik
reemplazando (3.122, 3.123) en la primera Ec. (3.120) tenemos

B30 ρ + ik (−ρ+ik) a2 (ρ+ik) a2 ρ − ik −(ρ+ik) a2 (ρ−ik) a2 ρ + ik ika ρ − ik
= e e − e e = e − e−ika
B1 2ik 2ik 2ik 2ik
ρ ika 1h i
= e − e−ika + eika + e−ika
2ik 2
B30 ρ
= sin ka + cos ka (3.124)
B1 k
igualando las Ecs. (3.120) y usando las expresiones (3.122, 3.123), obtenemos

A2 (ρ+ik) a A02 (ρ−ik) a ik A02 (ρ−ik) a A2 (ρ+ik) a
e 2 + e 2 = e 2 − e 2 ⇒
B1 B1 ρ B1 B1

ρ + ik (−ρ+ik) a2 (ρ+ik) a2 ρ − ik −(ρ+ik) a2 a ik ρ − ik −(ρ+ik) a2 a
e e + − e e(ρ−ik) 2 = − e e(ρ−ik) 2
2ik 2ik ρ 2ik

ρ + ik (−ρ+ik) a2 (ρ+ik) a2
− e e
2ik

ρ + ik ika ρ − ik −ik n o
e − e−ika = (ρ − ik) e−ika + (ρ + ik) eika
2ik 2ik 2ikρ
−ik n o
(ρ + ik) eika − (ρ − ik) e−ika = (ρ − ik) e−ika + (ρ + ik) eika
ρ

ρ + ik ρ − ik −ik n o
eika − e−ika = (ρ − ik) e−ika + (ρ + ik) eika
2ik 2ik 2ikρ
−ik n o
(ρ + ik) eika − (ρ − ik) e−ika = (ρ − ik) e−ika + (ρ + ik) eika
ρ
dividiendo ambos miembros por ρ + ik resulta

(ρ − ik) −ika −ik (ρ − ik) −ika ik (ρ − ik) −ika ik
eika − e = e + eika ⇒ eika 1 + = e 1−
(ρ + ik) ρ (ρ + ik) ρ (ρ + ik) ρ

2ika ρ + ik (ρ − ik) ρ − ik
e =
ρ (ρ + ik) ρ
(ρ − ik)2
e2ika = (3.125)
(ρ + ik)2
vale la pena discutir la estrategia de solución antes de seguir adelante. A priori podrı́a pensarse que las Ecs. (3.118)
nos pueden dar solución para todas las amplitudes B 1 , A2 , A02 y B3 , puesto que tenemos cuatro ecuaciones. Sin
embargo, no es lógico fı́sicamente que la amplitud de entrada B 1 pueda ser determinada por las condiciones de
empalme ya que esta amplitud tiene relación con las condiciones iniciales, las cuales puedo acomodar en principio
arbitrariamente. Por esta razón la estrategia de solución se interpreta diciendo que las cuatro ecuaciones (3.118) nos
brindan soluciones para los tres cocientes A 2 /B1 , A02 /B1 , B30 /B1 mas una ligadura entre las cantidades ρ y k dada
por la Ec. (3.125).
Por otro lado, las Ecs. (3.113, 3.114) nos muestran que ρ y k están relacionadas con la energı́a E de la partı́cula.
Esto implica que la ligadura (3.125) solo se satisface para ciertos valores de la energı́a. Por tanto, al imponer el
acotamiento de ϕ (x) hemos llegado a una cuantización de la energı́a. Esto se puede ver teniendo en cuenta que
la ligadura (3.125) provino del hecho de que el sistema de cuatro ecuaciones (3.119, 3.120) está sobredeterminado
para el conjunto de tres cocientes A 2 /B1 , A02 /B1 , B30 /B1 ; pero esto a su vez ocurre debido a la eliminación de las
amplitudes Ec. (3.116) que se realizó para mantener acotada la solución.
En resumen, para un pozo de potencial como el de la Fig. 3.4 de profundidad V 0 y de ancho a, la función de
onda (acotada) en las tres regiones en que el potencial divide al espacio vienen dadas por
ϕI (x) = B1 eρx ; ϕII (x) = A2 eikx + A02 e−ikx ; ϕIII (x) = B30 e−ρx (3.126)
r r
2mE 2m (E + V0 )
ρ = − 2 >0 ; k= >0 (3.127)
~ ~2
A2 ρ + ik (−ρ+ik) a2 A02 ρ − ik a B30 ρ
= e ; =− e−(ρ+ik) 2 ; = sin ka + cos ka (3.128)
B1 2ik B1 2ik B1 k
(ρ − ik)2
e2ika = (3.129)
(ρ + ik)2
donde hemos supuesto que la partı́cula incide desde la región I.
Caso 1 para energı́a negativa

La ligadura (3.129) nos conduce a dos situaciones posibles
I)
ρ − ik
= −eika (3.130)
ρ + ik
reescribimos esta relación en la forma
(ρ/k) − i ρ ρ ρh i h i
= −eika ⇒ −i=− + i eika ⇒ 1 + eika = i 1 − eika
(ρ/k) + i k k k
(e −1) e−ika/2
ika
ρ eika − 1 i 2 eika/2 − e−ika/2 /2i sin ka
2
= = = −ika/2 =
k i (1 + eika ) −ika/2
(1 + eika ) e 2 e + eika/2 /2 cos ka
2
quedando finalmente
ρ ka
= tan (3.131)
k 2
definimos la magnitud del complejo ρ + ik en la forma
r
p 2mV0
k0 ≡ k 2 + ρ 2 = (3.132)
~2
donde hemos tenido en cuenta las Ecs. (3.127). Usando identidades trigonométricas y las Ecs. (3.131, 3.132), tenemos
que
1 ka ρ2 k 2 + ρ2
ka
= 1 + tan2 =1+ 2 =
cos2 2
2 k k2
2
1 k0
ka
= (3.133)
cos2 2
k
de modo que la Ec. (3.130) es equivalente a las Ecs. (3.131, 3.133) que se pueden sintentizar en las ecuaciones

cos ka = k ; tan
ka
>0 (3.134)
2 k0 2
Donde hemos tenido en cuenta que la Ec. (3.133) proviene de la Ec. (3.131), pero sustituyendo una tangente al
Figura 3.5: Solución gráfica de las Ecs. (3.134, 3.138). La intersección de la lı́nea recta con las lı́neas punteadas
cosenoidales nos dan los puntos denotados por P , correspondientes a soluciones de las Ecs. (3.134) y asociados a
funciones de onda pares. La intersección de la recta con las lı́neas punteadas del arco senoidal nos dan los puntos
denotados por I, correspondientes a soluciones de las Ecs. (3.138) y asociados a funciones de onda impares.
cuadrado con lo cual se pierde la información del signo de esta tangente al llegar a la Ec.
(3.133).

La primera de las Ecs. (3.134) se puede solucionar graficando la parte izquierda y = cos ka 2
y la parte derecha
y = k/k0 y encontrando la intersección entre las dos gráficas. Es decir graficamos los arcos cosenoidales (arcos del
coseno con nodos en (2q + 1) π/a de la Fig. 3.5 con q entero no negativo) y la lı́nea recta de pendiente 1/k 0 para
obtener tal intersección. Ahora bien, las franjas ascendentes del coseno (lı́neas contı́nuas del arco cosenoidal en la
Fig. 3.5) violan la condición dada por la segunda ecuación (3.134), en tanto que las franjas descendentes (lı́neas
punteadas del arco cosenoidal en la Fig. 3.5) satisfacen tal condición 11 . Los puntos de intersección de la recta con
las lı́neas punteadas del coseno se denotan en la Fig. 3.5 con la letra P , y sus componentes x nos dan los valores k n
que cuantizan al número de onda y por tanto a la energı́a, la cual viene dada por la ecuación (3.127)
r
2m (En + V0 )
kn = (3.135)
~2
Por otro lado, dividiendo las dos primeras Ecs. (3.128) se obtiene
a
ρ−ik
0
A2 − 2ik e−(ρ+ik) 2 (ρ − ik) e−ik 2
a
(ρ − ik) −ika
= =− ik a2
=− e
A2 ρ+ik (−ρ+ik) a2 (ρ + ik) e (ρ + ik)
2ik e
y utilizando la Ec. (3.130) resulta

A02
=1
A2
si reemplazamos la Ec. (3.131) (la cual es equivalente a la Ec. 3.130) en la tercera de las Ecs. (3.128) y definiendo
x ≡ ka/2 obtenemos

B30 ρ ka
= sin ka + cos ka = tan sin ka + cos ka = tan x sin 2x + cos 2x
B1 k 2
sin x
= tan x (2 sin x cos x) + 1 − 2 sin2 x = 2 sin x cos x + 1 − 2 sin2 x
cos x
B30
= 1
B1
11
Por ejemplo en la franja 0 ≤ k ≤ π/a es claro que tan (ka/2) > 0, en tanto que en la franja π/a < k < 2π/a se tiene que
tan (ka/2) ≤ 0, y ası́ sucesivamente.
En conclusión la Ec. (3.130) que define el caso 1 de nuestro análisis, conduce a las relaciones
A02 = A2 ; B30 = B1 (3.136)
y al reemplazar estas relaciones en la Ecs. (3.126) esto nos da
ϕI (x) = B1 eρx ; ϕII (x) = 2A2 cos kx ; ϕIII (x) = B1 e−ρx (3.137)
para −a/2 ≤ x ≤ a/2 (región II), es claro que −x también pertenece a la región II. Si x pertenece a la región I (x ≤
−a/2) entonces −x pertenece a la región III (−x ≥ a/2). Similarmente, si x está en la región III entonces −x está en
la región I. Vemos además que la Ec. (3.137) nos dice que
ϕI (x) = B1 eρx = ϕIII (−x) ; ϕII (x) = ϕII (−x)
lo cual nos lleva a la conclusión de que en el caso 1 caracterizado por la Ec. (3.130), la función de onda es par en
todas las regiones i.e.
ϕ (−x) = ϕ (x) ; x ∈ (−∞, ∞)
Caso 2 para energı́a negativa

La Ec. (3.129), tiene dos soluciones, la primera corresponde a la Ec. (3.130) y la segunda vendrá dada por
ρ − ik
= eika
ρ + ik
un cálculo análogo nos lleva a que los números de onda permitidos están dados por

sin ka = k ; tan ka < 0 (3.138)
2 k0 2
la Fig. 3.5 muestra la intersección entre la recta de pendiente 1/k 0 y los arcos senoidales (arcos del seno con nodos
en k = 2qπ/a siendo q entero no negativo). La intersección entre la recta y la parte punteada (descendente) de los
arcos senoidales, nos da los puntos denotados por I en la Fig. 3.5, cuya abcisa nos da el valor cuantizado de k n , con
el cual se encuentra la energı́a cuantizada usando la Ec. (3.135). Nótese que los niveles encontrados se encuentran
entre los niveles hallados para el primer caso. Puede similarmente demostrarse que la función de onda asociada es
impar.
Relación entre k0 y los estados acotados

Obsérvese que si
π
0 ≤ k0 ≤
a
La Fig. 3.5 nos muestra que solo existe un estado acotado para la partı́cula y dicho estado se asocia con una función
de onda par. En otras palabras, la recta tiene una pendiente muy alta de modo que cruza la recta horizontal (máximo
de los sinusoides) antes de llegar al primer nodo de la función cosenoidal (de modo que solo cruza una vez la lı́nea
punteada del coseno) y antes de llegar al primer máximo de la función senoidal (de modo que no cruza la lı́nea
punteada del seno). Un análisis similar nos muestra que cuando tenemos
π 2π
≤ k0 ≤
a a
aparecen solo dos estados uno par y otro impar. Generalizando, si se cumple la condición
2pπ (2p + 1) π 1 3 5
≤ k0 ≤ ; p = 0, , 1, , 2, , . . . (3.139)
a a 2 2 2

aparecen [p + 1] estados pares y p + 12 estados impares, siendo [p] la función parte entera de p que se define como
[p] ≡ k tal que : k es entero con k ≤ p < k + 1

Para el ejemplo de la figura 3.5 tenemos que 4π/a < k 0 < 5π/a, de modo que p = 2. El número de estados pares es
[2 + 1] = 3, el número de estados impares es 2 + 12 = 2.
Es útil escribir la condición (3.139), en términos de parámetros más fı́sicos. De la definición (3.132) podemos
escribir la condición (3.139) en la forma
r 2 2
2pπ 2mV0 (2p + 1) π 2pπ 2mV0 (2p + 1) π
≤ ≤ ⇒ ≤ ≤
a ~2 a a ~2 a
π ~2
2 π 2 ~2
(2p)2 ≤ V0 ≤ (2p + 1)2
2ma2 2ma2
π 2 ~2 1 3 5
(2p)2 V1 ≤ V0 ≤ (2p + 1)2 V1 ; V1 ≡ ; p = 0, , 1, , 2, , . . . (3.140)
2ma2 2 2 2
La Ec. (3.140), nos sugiere definir a V 1 como un potencial umbral. Por ejemplo si p = 0 tenemos que 0 ≤ V 0 ≤ V1
conduce a un estado par y ningún estado impar. Si p = 1/2, la condición queda V 1 ≤ V0 ≤ 4V1 que conduce a una
función par y otra impar y ası́ sucesivamente.
Si V0 >> V1 (de modo que p >> 1) entonces la pendiente de la recta 1/k 0 es muy pequeña y los primeros números
de onda prácticamente coinciden con los nodos de los arcos senoidal y cosenoidal. Es decir, para los números de
onda más bajos tenemos que
nπ
k' ; para n entero y n << p
a
y aplicando la Ec. (3.135), la energı́a queda
n2 π 2 ~2
E' − V0 ; para n entero y n << p (3.141)
2ma2
Pozo de potencial con profundidad infinita

Asumiremos que V (x) es cero fuera del intervalo 0 < x < a, e infinito negativo −V 0 → −∞ en dicho intervalo.
Supondremos sin embargo que E + V0 ≡ ∆E > 0 en 0 < x < a y que ∆E es finito, a fin de que la partı́cula posea
energı́a cinética finita. La discusión es totalmente análoga a la realizada en la sección 3.6.2, Pág. 143 para escalón de
potencial infinito. Según esta discusión, al penetrar en la barrera la onda es evanescente con longitud de penetración
que tiende a cero, en el lı́mite podemos entonces considerar que la función decae a cero inmediatamente, es decir
la función de onda se anula en las discontinuidades de salto infinito. Esto es consistente con las ecuaciones que se
obtienen en este lı́mite para el empalme, como se aprecia en las Ecs. (3.81, 3.82). Adicionalmente, la Ec. (3.82)
también nos muestra que la función de onda debe seguir siendo continua en los empalmes, con lo cual la función de
onda en nuestro caso debe ser nula fuera del intervalo [0, a]. No obstante, vimos que en general la primera derivada
ya no es contı́nua, debido a que tenemos un potencial no acotado.
Como E + V0 ≡ ∆E es positivo y finito, la solución de la ecuación de onda está dada por
r
ikx 0 −ikx 2m ∆E
ϕ (x) = Ae + A e para 0 ≤ x ≤ a; k ≡ (3.142)
~2
poniendo la condición de nulidad de la función de onda en el extremo x = 0 tenemos que
ϕ (0) = 0 = A + A0 ⇒ A = −A0 ⇒

ϕ (x) = A eikx − e−ikx = 2iA sin kx (3.143)
usando nulidad de la función de onda (3.143) en el extremo x = a tenemos
ϕ (a) = 2iA sin ka = 0
con lo cual ka = nπ o equivalentemente

nπ
kn = ; n entero positivo (3.144)
a
n es positivo ya que se asume k positivo en la Ec. (3.142) 12 . La función queda

nπ
ϕ (x) = 2iA sin x
a
la constante 2iA la elegimos como positiva (fase cero) de modo que normalice a la función de onda. Con esto se
tiene finalmente r
2 nπx
ϕn (x) = sin
a a
con energı́as
n2 π 2 ~2
∆En = (3.145)
2ma2
en este caso la cuantización de la energı́a es mucho más simple de demostrar. Nótese que la Ec. (3.144), nos dice
que la condición para el estado estacionario es tal que el ancho a del potencial debe contener un número entero de
semilongitudes de onda π/k. Este es el análogo a la formación de ondas estacionarias con extremo fijo en óptica.
Vemos que la condición de extremo fijo (nulidad de la función de onda en los extremos) solo se da para pozos
infinitamente profundos. Si el pozo tiene profundidad finita, el extremo no es totalmente fijo, lo cual se traduce en
la penetración de una onda evanescente (pero no nula) en las regiones fuera del pozo.
Si bien no hay pozos infinitos, en la práctica pozos muy profundos poseen el comportamiento aquı́ descrito.
Pero ¿que es un pozo muy profundo?. La respuesta está en el potencial umbral V 1 definido en la Ec. (3.140).
Efectivamente, vimos que cuando V0 >> V1 los estados más bajos se comportan como los de un pozo infinito como
se vé al comparar las Ecs. (3.141, 3.145). Debe tenerse en cuenta sin embargo, que aún cuando V 0 sea mucho mayor
que V1 siempre habrá estados excitados que se desvı́en significativamente del comportamiento aquı́ descrito, vale
decir cuando la aproximación n << p ya no sea válida, como se vé en la Ec. (3.141).
3.8.2. Partı́cula con energı́a E > 0

En esta situación, definiremos el origen de modo que

 0 si x < 0 (región I)
V (x) = −V0 < 0 si 0 < x < L (región II)

0 si L < x (región III)
con el fin de poder comparar con los resultados de la sección 3.7.1. Cuando la partı́cula clásica tiene energı́a positiva
y viene desde −∞, viaja con energı́a cinética constante E k = E hasta x = 0, donde experimenta un aumento
abrupto en su energı́a cinética a E k = E + V0 , y luego una desaceleración similar en x = L, continuando hacia la
derecha con energı́a cinética constante E k = E.
Para E > 0, en el análogo óptico todos los ı́ndices de refracción son reales
c 1√ c 1p
n1 = n 3 = 2mE ; n2 = 2m (E + V0 )
Ω~ Ω~
y los resultados se pueden extraer de la Sec. 3.7.1, con la asignación V 0 → −V0 . Puesto que n2 es mayor que n1
y n3 la situación óptica es análoga a tener una capa de vidrio en medio del aire 13 . Para obtener la onda reflejada
para x < 0, o la onda transmitida para x > L, es necesario superponer un número infinito de ondas que surgen
de la reflexión sucesiva entre x = 0 y x = L (interferómetro múltiple análogo a un Fabry-Pérot). Se encuentra que
para ciertas frecuencias incidentes la onda es completamente transmitida (asumiendo que L, V 0 y m son fijos). En el
caso cuántico, la partı́cula tiene cierta probabilidad de ser reflejada, pero existen ciertos valores llamados energı́as
resonantes para los cuales la probabilidad de transmisión es 1 y por tanto la probabilidad de reflexión es cero.
12
Si tomáramos la raı́z negativa en la Ec. (3.142) tendrı́amos la misma solución de la función de onda.
13
En la Sec. 3.7.1, la situación óptica era la de una capa de aire rodeada de vidrio.
Capı́tulo 4
Enunciado matemático de los postulados de

la mecánica cuántica
4.1. Los fenómenos clásicos

En mecánica clásica, un sistema discreto de partı́culas se describe a través de un conjunto de coordenadas
generalizadas qi (t) y de velocidades generalizadas q̇ i (t), y podemos utilizar por ejemplo el Lagragiano L = L (q i , q̇i , t)
como el generador de las ecuaciones de movimiento del conjunto {q i (t) , q̇i (t)}. Las qi0 s deben ser independientes en
el sentido de que debe ser posible mover una sola de estas coordenadas sin violar las ligaduras impuestas sobre el
sistema. De esta forma, para un péndulo simple con el origen ubicado en el pivote, la única coordenada generalizada
es θ puesto que la distancia r de la lenteja es fija, de modo que no es posible mover el valor de r sin violar la ligadura
de distancia constante al origen. Por esta razón el número de coordenadas generalizadas n del sistema no es en
general igual a 3N , siendo N el número de partı́culas. No obstante, las ligaduras son usualmente manifestaciones
macroscópicas de fuerzas microscópicas, por ejemplo la tensión de la cuerda del péndulo es el resultado de las
fuerzas que generan los enlaces moleculares de la cuerda. Por esta razón, en el mundo microscópico el concepto de
ligadura básicamente desaparece y los sistemas de partı́culas se tratan en general como sistemas no ligados por las
interacciones. Por tanto, el número de grados de libertad de posición será usualmente n = 3N .
A menudo resulta más ventajoso utilizar en lugar del conjunto {q i , q̇i } un nuevo conjunto {qi , pi } donde las
variables pi están dadas por
∂L (q, q̇, t)
pi ≡
∂ q̇i
y pi se denomina el momento canónicamente conjugado a la variable q i . Si definimos la transformada de Legendre
del Lagrangiano en la forma X
H≡ pi q̇i − L (qi , q̇i , t)
i
a esta cantidad cuando se escribe enteramente en términos del conjunto {q i , pi }, la llamamos el Hamiltoniano del
sistema y actúa como generador de ecuaciones de movimiento para el sistema {q i , pi }, a través de las llamadas
ecuaciones de Hamilton
∂H ∂H
q̇i = ; ṗi = −
∂pi ∂qi
La resolución de estas ecuaciones nos genera el comportamiento de q i y pi como función del tiempo y por tanto
toda la información fı́sica del sistema. El Hamiltoniano es una función que puede variar tanto funcional como
numéricamente cuando se hace un cambio en el sistema coordenado. El uso directo de las ecuaciones de Hamilton
permite demostrar que
dH ∂H
=
dt ∂t
En consecuencia, si para un sistema coordenado dado el Hamiltoniano no es función explı́cita del tiempo, esta
cantidad será una constante de movimiento y si una cierta coordenada generalizada q i no aparece en el Hamiltoniano,
pero sı́ aparece su momento conjugado p i , se tiene que este momento conjugado será una constante de movimiento.
Adicionalmente, para muchos casos de interés el Hamiltoniano corresponde a la energı́a total del sistema, para que el
4.1. LOS FENÓMENOS CLÁSICOS 159
Hamiltoniano sea la energı́a del sistema se deben cumplir los siguientes requisitos (como condiciones de suficiencia):
(a) El lagrangiano asociado debe poder descomponerse en la forma
L (q, q̇, t) = L0 (q, t) + L1 (q, q̇, t) + L2 (q, q̇, t)
siendo Li con i = 0, 1, 2 una función homogénea de grados 0, 1 y 2 en las variables q̇ i . (b) La transformación que
lleva de las coordenadas cartesianas a las coordenadas generalizadas
ri = ri (q1 , ..., qn )
no debe depender explı́citamente del tiempo, y (c) el potencial asociado solo debe ser función de las coordenadas y
el tiempo. Para los sistemas microscópicos estas condiciones se cumplen en casi todos los casos de interés. Vale decir
que la condición (c) es violada por los potenciales asociados a las interacciones electromagnéticas para las cuales el
potencial depende también de las q̇ i . No obstante, se puede demostrar que aún con la violación de esta condición,
el Hamiltoniano sigue siendo la energı́a del sistema para el caso especial de interacciones electromagnéticas. Nótese
que esto tiene que ver con el hecho de que estas son condiciones de suficiencia pero no de necesidad.
En virtud de la discusión anterior, asumiremos para nuestros propósitos que el Hamiltoniano corresponde numéri-
camente a la energı́a total del sistema. De particular importancia será el Hamiltoniano asociado a una partı́cula no
relativista, no ligada y sometida a un potencial que no depende de las velocidades generalizadas. En este caso el
Hamiltoniano corresponde a la energı́a total de la partı́cula y se podrá escribir en la forma
p2
H= + V (r, t)
2m
si usamos como coordenadas generalizadas las coordenadas cartesianas de la partı́cula, se tendrá que el momento
lineal pi será el momento canónicamente conjugado a la variable x i con i = 1, 2, 3. Si aplicamos las ecuaciones de
Hamilton a este Hamiltoniano, las ecuaciones de movimiento quedan
pi ∂V
ẋi = ; ṗi = −
m ∂xi
que coinciden con las leyes Newtonianas básicas.
Por otro lado, existen en la mecánica clásica los fenómenos ondulatorios, estos aparecen de manera natural
como excitaciones o perturbaciones colectivas de un sistema de partı́culas, como es el caso de las cuerdas vibrantes
o las olas en el agua, estos fenómenos colectivos se pueden entender a la luz de las leyes de Newton pero no
se presentan fenómenos ondulatorios clásicos para una sola partı́cula. Más bien se trata de una perturbación
que se transmite de una partı́cula a otra generando propiedades de propagación. Por otro lado, existen fenómenos
ondulatorios (electromagnéticos) que no están asociados clásicamente a partı́culas y que no están regidos por las
leyes de Newton sino por las denominadas ecuaciones de Maxwell. Podemos entonces por un lado hablar de materia
(regida por la mecánica Newtoniana) que genera los fenómenos corpusculares y las ondas mecánicas, y la radiación
(regida por las ecuaciones de Maxwell, que genera fenómenos ondulatorios que clásicamente no están asociados a
la materia). De otra parte, podemos hablar de fenómenos corpusculares generados por las partı́culas individuales y
fenómenos ondulatorios generados por los campos electromagnéticos o por perturbaciones colectivas en la materia.
En todo caso, salvo por la ley de Lorentz que nos da la interacción de la radiación con la materia, estos dos tipos de
entes fı́sicos radiación y materia son completamente distintos en mecánica clásica y se rigen por leyes muy distintas.
Por otro lado, una partı́cula individual no puede generar fenómenos ondulatorios de modo que el comportamiento
corpuscular está bien diferenciado del comportamiento ondulatorio.
De la anterior discusión podemos inferir las principales caracterı́sticas de los sistemas clásicos
(1) El estado de un sistema en un tiempo t queda totalmente especificado por el valor de sus coordenadas y
momentos conjugados en tal tiempo. Esto equivale a conocer sus posiciones, masas y velocidades en dicho instante.
(2) Al especificar el estado del sistema en cierto tiempo, cualquier cantidad fı́sica tiene un valor único que se
reflejará en el proceso de medida (con ciertas incertidumbres de ı́ndole experimental).
(3) Las ecuaciones de Hamilton son un posible conjunto de ecuaciones de movimiento. De ellas se observa que
dados los valores de qi (t0 ) , pi (t0 ) para un tiempo inicial t0 , la evolución de qi , pi es única de modo que los valores
qi (t) , pi (t), están completamtne determinados para todo tiempo. En consecuencia el estado del sistema se conoce
160 CAPÍTULO 4. ENUNCIADO MATEMÁTICO DE LOS POSTULADOS DE LA MECÁNICA CUÁNTICA
completamente para cualquier tiempo t ≥ t 0 si lo conocemos para t0 . Esto a su vez implica que cualquier cantidad
fı́sica evoluciona de manera única y su valor al ser medido será único en cualquier instante.
(4) En principio todos valores reales de q i , pi son posibles de obtener en un sistema mecánico (al menos dentro de
ciertos intervalos). Por tanto un observable F (q i , pi ) también posee valores en un espectro contı́nuo al menos dentro
de cierto intervalo. Además en el proceso de medición estos serán también los valores accesibles de las cantidades
fı́sicas.
(5) Las ecuaciones de Maxwell nos dan cuenta de la radiación a través de grados de libertad contı́nuos caracter-
izados por los campos eléctricos y magnéticos. La evolución de estas ecuaciones es única para condiciones iniciales
y de frontera adecuadas, junto con el conocimiento de la distribución de cargas y corrientes.
4.2. Los fenómenos cuánticos

La exposición sistemática de los sistemas microscópicos descritos anteriormente nos ha llevado a encontrar
fenómenos que difieren radicalmente de los fenómenos clásicos, veamos los más importantes
(1) Existen ciertas cantidades fı́sicas tales como la energı́a, el momento angular etc. que bajo ciertas condiciones
solo nos arrojan medidas discretas. Este fenómeno de cuantización de las medidas accesibles aparece en escenarios
tan diversos como la radiación del cuerpo negro, el efecto fotoeléctrico y la medición de los espectros atómicos.
(2) Tanto la materia como la radiación presentan fenómenos de dualidad onda partı́cula. Pueden dispersarse
como partı́culas pero también interferir y difractarse como las ondas.
(3) La repetición sistemática de ciertos experimentos bajo las mismas condiciones iniciales, nos lleva a que la
medida de los observables no es reproducible. Sin embargo, cuando muchos experimentos idénticos son realizados,
aparece un patrón reproducible relativo a la distribución con que se obtienen las diferentes medidas. Estos nos lleva
a la idea de que existe un patrón de probabilidad para obtener cada uno de los resultados accesibles (que en general
pueden o no estar cuantizados).
(4) La distribución de probabilidad está asociada con el carácter ondulatorio de los sistemas.
(5) En un proceso de medida se evidencia solo uno de los aspectos (ondulatorio o corpuscular) de la naturaleza
cuántica, como una moneda que posee dos caras pero solo nos muestra una a la vez (principio de complementareidad).
(6) La cuantización de los observables nos conduce a pensar que los estados asociados a estos observables también
están cuantizados (autoestados del sistema). El principio de superposición que poseen las ondas sugiere pensar que el
estado del sistema en un tiempo t es la superposición de todos los autoestados, en donde cada autoestado contribuye
con cierto peso.
(7) El proceso de medida nos cambia el estado del sistema de manera drástica: justo antes de la medida el estado
del sistema es la superposición de todos los autoestados, justo después de la medida el sistema queda preparado en
una superposición que solo incluye a los autoestados asociados con el autovalor obtenido.
(8) Lo anterior nos induce a pensar que existe una perturbación fundamental que no puede ser minimizada, y
que es inherente al proceso de medición e independiente de la resolución del aparato de medida.
(9) La probabilidad de obtener un autovalor está relacionada con los coeficientes asociados a sus autoestados.
Lo anterior es confirmado por la repetición sucesiva de los experimentos. Nótese que esto además implica que la
forma en que actuará la perturbación fundamental no se puede predecir con certeza.
(10) Como corolario se obtiene que si vuelvo a hacer una medida del mismo observable justo después de la primera
medición, el autovalor se reproduce con total certeza. Lo anterior es confirmado por los hechos experimentales.
(11) La distribución de probabilidad para la materia evoluciona de manera determinista, siendo la ecuación de
Schrödinger un buen prospecto como generador de esta evolución, al menos en el régimen no relativista.
(12) La función de onda (solución de la ecuación de Schrödinger) que describe la distribución de probabilidad
debe ser de cuadrado integrable para poder mantener la conservación de la probabilidad.
(13) Para una partı́cula el estado clásico en un tiempo t se caracteriza por seis cantidades (3 posiciones y tres
momentos) en tanto que para una partı́cula cuántica está caracterizada por un número infinito de cantidades: los
valores de ψ (r, t) para cada posición r.
En sı́ntesis, los postulados deben dar cuenta de las caracterı́sticas arriba citadas.
4.3. ESTABLECIMIENTO DE LOS POSTULADOS 161
4.3. Establecimiento de los postulados

4.3.1. Descripción de los estados y las cantidades fı́sicas
Hemos visto que el estado de una partı́cula se caracteriza por la función de onda ψ (r, t) que es una función de
cuadrado integrable. Adicionalmente, vimos que a cada función de onda en el espacio z le corresponde un ket |ψi en
el espacio de estados Er . Donde la relación entre ambos viene dada por |ψ (t)i → hr |ψ (t)i = ψ (r, t). Esta relación
nos muestra a la función de onda como una representación del ket |ψ (t)i en la base {|ri}. Además, la representación
por kets posee la flexibilidad de ser expresada en cualquier base. Generalizaremos este enunciado de una partı́cula
al caso de un sistema fı́sico arbitrario
Primer postulado: El estado de un sistema fı́sico en un tiempo t 0 está especificado por un ket |ψ (t0 )i ∈ E.
Siendo E un subespacio de un espacio de Hilbert H, donde H es isomorfo e isométrico al espacio L 2 de las funciones
cuadráticamente integrables.
Al ser E un espacio vectorial, una combinación lineal de estados es también un estado, lo cual implica un principio
de superposición. Más adelante veremos las implicaciones fı́sicas de este principio de superposición.
De otra parte, observamos que la ecuación de Schrödinger independiente del tiempo nos lleva a una ecuación de
valores propios
H |ψi = E |ψi
donde el operador H está definido por

P2
H= + V (r)
2m
siendo P el operador cuyos valores propios corresponden al momento de la partı́cula. Este operador H tiene como
valores propios los valores accesibles de energı́a del sistema. En forma similar vimos que al menos para partı́cula
libre los operadores R y P tiene como valores propios los valores accesibles (contı́nuos) de posición y momento. Vale
además decir que H, R y P son todos observables. La generalización de estos hechos nos lleva al segundo y tercer
postulado
Segundo postulado: Toda cantidad fı́sica medible A, está descrita por un operador A que actúa sobre el espacio
vectorial E. Dicho operador es un observable, i.e. un operador hermı́tico cuyo espectro de autoestados es completo.
Más adelante veremos que la caracterı́stica de observable es esencial. Nótese que en la mecánica cuántica los
estados están representados por vectores y las cantidades Fı́sicas por operadores.
Tercer postulado: El único resultado posible en una medición de una cantidad fı́sica A es uno de los autovalores
del correspondiente observable A.
Por supuesto, toda medida experimental debe ser un número real. El carácter hermı́tico de A nos garantiza
que una medida de A nos dará un valor real, ya que todo valor propio de A es real. Adicionalmente, dado que el
problema de valores propios conduce en muchas circunstancias a valores propios discretos, es de esperarse que este
postulado nos de cuenta de la naturaleza cuántica de algunas cantidades fı́sicas.
4.3.2. El proceso de medición y la distribución de probabilidad

Cuando analizamos el experimento de fotones polarizados (sección 2.7.2), nos topamos con el principio de
descomposición espectral, al cual le daremos un carácter más general en la presente sección. Consideremos que un
sistema está caracterizado en el tiempo t, por el ket |ψ (t)i (de acuerdo con el primer postulado) el cual asumiremos
como normalizado a 1
hψ |ψi = 1
sabemos que si queremos medir una cantidad fı́sica A asociada a un observable A no podemos hacer una predicción
del resultado con toda certeza sino solo una predicción de la probabilidad de obtener un valor dado accesible, es
decir un autovalor dado de A.
Asumamos por ahora que el espectro de A es totalmente discreto y no degenerado, en tal caso a cada valor
propio an le corresponde un único vector propio normalizado |u n i (excepto por una fase constante). La ecuación de
valores propios de A es
A |un i = an |un i
y dado que A es un observable, los vectores propios {|u n i} forman una base ortonormal en E. El vector de estado
|ψi se puede entonces expandir en esta base X
|ψi = cn |un i
n
y postularemos siguiendo el principio de descomposición espectral (sección 2.7.2 Ecs. 2.5, 2.6, 2.7), que la probabil-
idad de obtener el valor propio ak está dada por
P (ak ) = |ck |2 = |huk |ψi|2
¿Que ocurre si el autovalor es degenerado?, en este caso varios vectores ortonormales corresponden a este valor
propio
A uin = an uin ; i = 1, ..., gn

dado que A es observable, el conjunto uin forma una base de modo que podemos expandir el estado |ψi en dicha
base
XX gn

|ψi = cin uin (4.1)
n i=1
en este caso la probabilidad P (ak ) debe involucrar a todos los coeficientes asociados a los estados propios con valor
propio ak
gk
X gk
i 2 X i
P (ak ) =
ck = hu |ψi2
k
i=1 i=1
con lo cual estableceremos el cuarto postulado para espectros discretos
Cuarto postulado (caso de espectro discreto): Cuando se mide una cantidad fı́sica A sobre un sistema que
está en el estado normalizado |ψi, la probabilidad P (a k ) de obtener el autovalor ak correspondiente al observable
A es
gk
X i
P (ak ) = hu |ψi2 (4.2)
k
i=1

siendo gk el grado de degeneración de ak y uik i = 1, ..., gk un conjunto ortonormal de vectores que forman una
base en el autosubespacio Ek generado por el valor propio ak del observable A.
Naturalmente, cuando ak no es degenerado, entonces gk = 1 y la suma solo contiene un término, siendo el
autoespacio Ek de una dimensión.
Nótese que para
que este postulado tenga sentido, es necesario que el cálculo de la probabilidad no dependa de
i
la base especı́fica uk que se use. Esto se puede ver fácilmente considerando la descomposición de E como suma
directa de los autoespacios Ek
E = E 1 ⊕ E2 ⊕ . . . ⊕ E k ⊕ . . . (4.3)
nótese que para poder hacer esta descomposición, es necesario que el operador sea un observable (extensión del
teorema espectral a dimensión infinita). Si retomamos la Ec. (4.1) y la reescribimos adecuadamente resulta
g1
X g2 gk
i X X
|ψi = ci1 u + i i
c2 u2 + . . . + cik uik + . . .
1
i=1 i=1 i=1
y es claro que
gm
X
|ψm i ≡ cim uim ∈ Em (4.4)
i=1
de modo que
|ψi = |ψ1 i + |ψ2 i + . . . + |ψk i + . . . ; |ψm i ∈ Em (4.5)
Por otro lado, en virtud de la descomposición (4.3), existe una única expansión de |ψi en vectores de cada autoespacio.
En otras palabras, cada |ψm i en la expansión es único. En términos de proyectores tenemos que
|ψi = (P1 + P2 + . . . + Pk + . . .) |ψi = P1 |ψi + P2 |ψi + . . . + Pk |ψi + . . .

Pm |ψi = |ψm i ∈ Em
en notación de Dirac el proyector Pm se escribe

gm
X i
i
Pm = u um
m
i=1
como se puede verificar al operar sobre |ψi

gm
X gm
X
i
i
Pm |ψi = um um ψi = cim uim = |ψm i ∈ Em
i=1 i=1
la probabilidad es
gk
X gk gk
i 2 X i X
P (ak ) = ck = huk |ψi2 = hψ uik huik |ψi
i=1 i=1 i=1
P (ak ) = hψ| Pk |ψi (4.6)
y usando la idempotencia y hermiticidad de P k se tiene que

P (ak ) = hψ| Pk Pk |ψi = hψ| Pk† (Pk |ψi)
P (ak ) = hψk | ψk i = kψk k2
pero dado que |ψk i es único y su norma es independiente de la base en que se calcule, vemos que esta probabilidad
es independiente de la base como se esperaba. La Ec. (4.6) es una forma alternativa de calcular esta probabilidad.
Veamos el caso de un espectro contı́nuo no degenerado. La ecuación de valores propios de A es
A |vα i = α |vα i
siendo α un ı́ndice contı́nuo y siendo |v α i ortonormal en el sentido extendido. Siendo A un observable (también en
el sentido extendido), podemos expandir el ket |ψi en términos de los autoestados de A
Z
|ψi = dα c (α) |vα i
puesto que el conjunto de medidas accesibles de A es contı́nuo, debemos definir una densidad de probabilidad, tal
como lo hicimos con la función de onda ψ (r, t) y su transformada de Fourier ψ̄ (p, t). En el caso de estas funciones
la probabilidad de encontrar a la partı́cula en un volumen d 3 r o dentro de un intervalo tridimensional de momento
d3 p están dados por
dP (r) = |ψ (r, t)|2 d3 r = |hr |ψi|2 d3 r ; R |ri = r |ri

2
dP̄ (p) = ψ̄ (p, t) d3 p = |hp |ψi|2 d3 p ; P |pi = p |pi
la extrapolación natural para un espectro contı́nuo arbitrario es
dP (α) = ρ (α) dα ; ρ (α) = |hvα |ψi|2
siendo dP (α) la probabilidad de obtener un valor dentro del intervalo entre α y α + dα. Naturalmente, α puede
estar indicando varios ı́ndices contı́nuos.
Cuarto postulado (caso contı́nuo no degenerado): Cuando se mide la cantidad fı́sica A sobre un sistema
que está en el estado normalizado |ψi, la probabilidad de obtener un valor dentro del intervalo entre α y α + dα
está dada por
dP (α) = |hvα |ψi|2 dα ≡ ρ (α) dα (4.7)
siendo |vα i el autovector correspondiente al autovalor α del observable A asociado a la cantidad Fı́sica A. A la
cantidad ρ (α) la llamamos la densidad de probabilidad asociada al autovalor α.
Nótese que tanto en el contı́nuo como en el discreto, la probabilidad de obtener cualquier valor accesible es igual
a la unidad como debe ser
X X X
P (ak ) = hψ| Pk |ψi = hψ| Pk |ψi = hψ| I |ψi = hψ |ψi = 1
k k k
o alternativamente
X gk
XX i 2
P (ak ) = c = hψ |ψi = 1
k
k k i=1
en el caso contı́nuo
Z b Z b Z b Z b
2
dP (α) = |hvα |ψi| dα = hψ |vα i hvα |ψi dα = hψ| |vα i hvα | dα |ψi = hψ| I |ψi = 1
a a a a
siendo [a, b] el intervalo en donde se define la variable contı́nua α. Por supuesto, si la función es de cuadrado
integrable pero no está normalizada, estas probabilidades se pueden calcular normalizando a |ψi
0
ψ = p 1 |ψi
hψ |ψi
y para el discreto y el contı́nuo se obtiene

gk
X g
i 0 2
huk ψ = 1 X k
i
huk |ψi2
P (ak ) =
hψ |ψi
i=1 i=1
1
dP (α) = ρ (α) dα = |c (α)|2
hψ |ψi
es importante enfatizar que el carácter de observable de A es vital para la construcción del cuarto postulado, ya
que éste depende de que un estado (arbitrario) pueda expandirse en términos de los autovectores de A.
Si el espectro contı́nuo es degenerado podemos escribir
E E

A vαβ = α vαβ β ∈ [c, d]
y la densidad de probabilidad asociada a α se obtiene sumando sobre todos los vectores propios con valor propio α
Z d 2 Z d 2
β β
ρ (α) = hvα |ψi dβ ; dP (α) = hvα |ψi dβ dα
c c
la extensión a casos en donde parte del espectro es contı́nuo y parte discreto es relativamente simple y será ilustrada
posteriormente con ejemplos.
4.3.3. Relevancia fı́sica de las fases en mecánica cuántica

Consideremos dos kets |ψi y |ψ 0 i relacionados en la forma
0
ψ = eiθ |ψi
siendo θ un número real. Es fácil ver que los dos vectores poseen la misma norma y que la probabilidad predicha
para una medición arbitraria es la misma para ambos kets.

hψ 0 ψ 0 = hψ| e−iθ eiθ |ψi = hψ |ψi
i 0 2 iθ i i
hu |ψ i e hu |ψi2 hu |ψi2
k k k
= =
hψ 0 |ψ 0 i hψ |ψi hψ |ψi
aún más, los kets relacionados en la forma 00

ψ = αeiθ |ψi
también contienen la misma información fı́sica, ya que estrictamente los observables solo se calculan con kets
normalizados. En consecuencia, dos kets linealmente dependientes representan el mismo estado del sistema fı́sico.
Este resultado debe interpretarse con cuidado. Por ejemplo, sea el estado
|ψi = λ1 |ψ1 i + λ2 |ψ2 i
donde λ1 y λ2 son complejos. De lo anterior, sabemos que e iθ1 |ψ1 i representa al mismo estado que |ψ1 i y que
eiθ2 |ψ2 i representa al mismo estado que |ψ2 i, no obstante el estado
|ϕi = λ1 eiθ1 |ψ1 i + λ2 eiθ2 |ψ2 i
no representa el mismo estado fı́sico que |ψi, ya que la diferencia de fase θ 2 − θ1 dará lugar a fenómenos de
interferencia, volveremos sobre esto más adelante. Por el momento mencionaremos que los dos estados describirán
la misma fı́sica solo si θ1 = θ2 + 2nπ, siendo n un entero. Pues en tal caso e iθ1 = eiθ2 y resulta
|ϕi = eiθ1 [λ1 |ψ1 i + λ2 |ψ2 i] = eiθ1 |ψi
de modo que un factor de fase global no afecta las predicciones fı́sicas, pero las fases relativas de los coeficientes de
una expansión son significativas.
4.3.4. El proceso de medida y la reducción del paquete de onda

Hasta el momento hemos hablado del valor experimental obtenido en la medición pero no del estado del sistema
una vez que la medición se ha efectuado. En el experimento de polarización de fotones vimos que justo después de
que la medida es realizada, el sistema queda preparado en el autoestado asociado al autovalor que se obtuvo en la
medición. Vamos ahora a generalizar este proceso conocido como reducción del paquete de onda.
Supongamos que queremos medir una cantidad fı́sica A asociada a un observable A en un tiempo dado t. Si |ψi
representa el estado del sistema justo antes de la medición, el cuarto postulado nos permite obtener la probabilidad
para cada autovalor posible en la medición. Sin embargo, una vez que la medida es efectuada solo uno de los posibles
autovalores es obtenido. Por tanto, justo después de la medición, ya no podemos hablar de la probabilidad de obtener
un autovalor, pues ya sabemos cual de ellos se obtuvo, de manera que poseemos una información adicional y es
comprensible que el estado del sistema ya no sea |ψi ya que justo después de la medición el estado debe incorporar
la información del autovalor especı́fico que se obtuvo. Por tanto, es de esperarse que el estado |ψ k i justo después
de la medida sea la componente de |ψi asociada con el autoestado a k . Tendremos entonces que cuando se ejecuta
una medida con resultado ak , el estado tendrá un cambio abrupto desde |ψi (justo antes de la medición) hasta |ψ k i
pero normalizado (justo después de la medición).
(ak ) 1 Pk |ψi
|ψi −→ p |ψk i = p
hψk |ψk i hψ| Pk |ψi
Es importante decir que la normalización es necesaria ya después de la medición |ψ k i describe todo el estado del
sistema y no solo una componente de tal estado como antes de la medición. Recordando las expansiones (4.1, 4.5)
y la expresión (4.4) para la componente |ψ k i de |ψi sobre el autoespacio Ek , se tiene
gn
XX
|ψi = cin uin
n i=1
gk
X
(a ) 1
cik uik
k
|ψi −→ qP 2
gk cm
m=1 k i=1
Quinto postulado: Si la medida de la cantidad fı́sica A sobre el sistema en el estado |ψi, nos da el valor propio
ak , el estado del sistema inmediatamente después de la medida está dado por la proyección normalizada de |ψi sobre
el autoespacio Ek asociado con ak
gk
X
(ak ) Pk |ψi 1 1
|ψi −→ p =p |ψk i = qP 2 cik uik (4.8)
hψ| Pk |ψi hψk |ψk i gk cm i=1
m=1 k
el estado del sistema inmediatamente después de la medición es entonces un autovector de A con autovalor a k . Pero
no un autovector cualquiera de Ek , sino la componente sobre este autoespacio del estado |ψi que se tenı́a antes de
la medición. Cuando hay ausencia de degeneración g k = 1 y se tiene que el estado después de la medición es
(ak ) 1 1
|ψi −→ q ck |uk i = |ck | eiα |uk i
2 |ck |
|ck |
(ak )
|ψi −→ eiα |uk i
el cual es fı́sicamente idéntico a |u k i. Efectivamente en este caso salvo por una constante de proporcionalidad, el au-
tovector asociado a ak es único. Este postulado nos da cuenta de los cambios abruptos en el estado, o perturbaciones
fundamentales que se aprecian en diversos experimentos.
4.3.5. Evolución fı́sica de los sistemas cuánticos

Ya hemos usado argumentos de plausibilidad para suponer que la ecuación de Schrödinger es la ecuación que
gobierna la evolución temporal de los estados correspondientes a un sistema de una partı́cula cuántica no relativista.
Postularemos que esta misma ecuación gobierna la evolución temporal de todos los sistemas cuánticos no relativistas
Sexto postulado: La evolución temporal de un vector de estado |ψ (t)i está regida por la ecuación de Schrödinger
d
i~ |ψ (t)i = H (t) |ψ (t)i
dt
donde H (t) es el observable asociado con la energı́a total del sistema. H (t) se conoce como el operador Hamiltoniano
del sistema y se obtiene del Hamiltoniano clásico por medio de ciertas reglas de cuantización.
Antes de explicar las reglas de cuantización, discutiremos un aspecto importante de la evolución temporal que
resulta de la combinación del quinto y sexto postulados. La ecuación de Schrödinger me dará la evolución del estado
del sistema desde un tiempo inicial t 0 hasta un tiempo final t2 , siempre que en este intervalo no se realice ninguna
medida. Asumamos por el contrario, que se realiza la medida de una cantidad A asociada a un observable A, en
el tiempo t1 con t0 < t1 < t2 , y que el resultado es el valor propio a k . En tal caso, la ecuación de Schrödinger
me permitirá calcular la evolución del estado desde su valor en t 0 dado por |ψ (t0 )i hasta el valor que adquiere en
t1 (justo antes de la medida) dado por |ψ (t 1 )i, como en ese instante se realiza una medida el sistema tendrá un
cambio discontı́nuo de estado de modo que en t 1 (pero justo después de la medida) el sistema queda en el estado
|ψk |−1 |ψk i, por tanto la evolución temporal del sistema para tiempos posteriores a t 1 deberá tomar este valor como
condición inicial |ψ 0 (t1 )i = |ψk |−1 |ψk i para obtener su evolución hasta cualquier valor posterior del tiempo digamos
t2 , siempre que no se haga otra medida entre t 1 y t2 . En general, cada medida obligará a una “recalibración” de
las condiciones iniciales (tomando como tiempo inicial el tiempo en que se realiza cada medida), para calcular la
evolución temporal del estado.
Volvamos ahora a las condiciones de cuantización
4.3.6. Reglas de cuantización

Hemos visto que el Hamiltoniano clásico tiene asociado un operador cuyos valores propios son las energı́as
accesibles del sistema. Conocemos la forma de este operador para la representación en la base {|ri}, y vemos que a
partir del Hamiltoniano clásico H (r, p, t) el operador Hamiltoniano queda en la forma
p2 P2 ~2 2
+ V (r) → + V (R) = − ∇ + V (r)
2m 2m 2m
H (r, p, t) → H (R, P, t)
siendo P y R los operadores de momento y posición definidos en la sección 1.43.4. En lo anterior hemos usado el
hecho de que en la representación de la base {|ri}, el operador P está representado por el operador diferencial −i~∇,
y el operador R está representado por la multiplicación por el valor de posición R → r (ver Ecs. 1.184, 1.189).
Nuevamente, extenderemos este algoritmo a la construcción de un operador A asociado a una cantidad fı́sica
A que está definida en la mecánica clásica. Consideremos una partı́cula sin espı́n sujeta a un potencial escalar,
estableceremos la siguiente regla de cuantización
A la posición r (x, y, z) de la partı́cula se le asocia el observable R (x, y, z). Al momento p (p x , py , pz ) de la

partı́cula se le asocia el observable P (p x , py , pz ).
Recordemos que las componentes de los operadores R y P satisfacen las relaciones canónicas de commutación
[Ri , Rj ] = [Pi , Pj ] = 0 ; [Ri , Pj ] = − [Pj , Ri ] = i~δij (4.9)
por tanto, dado que una cantidad fı́sica clásica A se puede escribir en términos de r, p, t i.e. A (r, p, t), el corre-
spondiente observable A se obtendrá reemplazando las variables dinámicas r, p en la expresión A (r, p, t) por los
observables R y P
A (t) = A (R, P, t)
sin embargo, este algoritmo puede generar algunas ambigüedades e inconsistencias. Asumamos por ejemplo que en
la cantidad fı́sica A (r, p, t) aparece un término de la forma
r · p = xpx + ypy + zpz
en mecánica clásica, el producto r · p es conmutativo, de modo que también podemos escribirlo como
p · r = p x x + py y + pz z
pero en el proceso de cuantización, ambos términos conducen a operadores diferentes ya que R y P no conmutan
R · P 6= P · R
adicionalmente, ninguno de estos operadores es Hermı́tico 1
(R · P)† = (XPx + Y Py + ZPz )† = Px† X † + Py† Y † + Pz† Z † = Px X + Py Y + Pz Z = P · R
la segunda de las Ecs. (1.42) nos sugiere la forma de generar un operador hermı́tico con este producto
R · P + (R · P)† R·P+P·R P · R + (P · R)†

Z ≡ = = ⇒
2 2 2
R·P+P·R
Z ≡
2
esta forma además de ser hermı́tica, es simétrica con respecto a R · P y P · R es decir con respecto a la cuantización
de cualquiera de los dos operadores. De modo que debemos añadir una regla de simetrización de los operadores que
incluya operadores más complejos que R · P
Regla de cuantización y simetrización: El observable A que describe a una cantidad fı́sica definida clásica-
mente por A (r, p, t), se obtiene reemplazando para A a las variables dinámicas r, p (canónicamente conjugadas)
por los observables R, P, en una forma adecuadamente simetrizada.
Más adelante veremos sin embargo, que ciertos observables A en mecánica cuántica no provienen de una cantidad
fı́sica A definida clásicamente, sino que surgen directamente como observables cuánticos, este es el caso del espı́n de
la partı́cula.
Es importante enfatizar que las reglas de cuantización y las propiedades de commutación establecidas en esta
sección solo son válidas para las coordenadas cartesianas. Si bien es posible extenderlas a otros tipos de coordenadas,
no adquirirán formas tan simples. Veamos algunos ejemplos del uso de las reglas de cuantización.
(a) El caso más simple es el de una partı́cula de masa m, bajo una interacción que se puede describir por
un potencial que solo depende de la posición y el tiempo, el Hamiltoniano clásico en coordenadas cartesianas
vendrá dado por
p2 dr
H (r, p) = + V (r) ; p = m = mv
2m dt
la regla de cuantización no presenta dificultades ya que no es necesaria ninguna simetrización puesto que R y P
nunca se acoplan, de modo que no aparecen productos de operadores que no conmutan. El Hamiltoniano como
observable queda
P2
H (R, P) = + V (R)
2m
1
Recordemos que el producto de operadores hermı́ticos no es en general hermı́tico (ver teorema 1.34).
en este caso particular en virtud del sexto postulado la cuación de Schrödinger queda
2
d P
i~ |ψ (t)i = + V (R) |ψ (t)i
dt 2m
(b) Veamos ahora el Hamiltoniano de una partı́cula sometida a una interacción electromagnética, en tal caso el
Hamiltoniano clásico se escribe en la forma
1
H (r, p) = [p − qA (r, t)]2 + qφ (r, t) (4.10)
2m
siendo A (r, t) , φ (r, t) los potenciales vectorial y escalar, p es el momento canónicamente conjugado a r y está dado
por
dr
p = m + qA (R, t) = mv + qA (R, t)
dt
nótese que el momento p canónicamente conjugado a r, no es el momento lineal de la partı́cula, esto se debe a
que para una partı́cula en un campo electromagnético, el potencial generalizado asociado depende de la velocidad
generalizada y no solo de la posición. De nuevo la cuantización es sencilla puesto que no hay operadores para
simetrizar, el Hamiltoniano como observable queda
1
H (R, P) = [P − qA (R, t)]2 + V (R, t) ; V (R, t) ≡ qφ (R, t)
2m
y la ecuación de Schrödinger resulta

d 1 2
i~ |ψ (t)i = [P − qA (R, t)] + V (R, t) |ψ (t)i
dt 2m
habiamos mencionado antes que a pesar de que el potencial generalizado depende de la velocidad, el Hamiltoniano
continúa siendo la energı́a del sistema, esto se puede ver teniendo en cuenta que el momento lineal de la partı́cula
que denotaremos por p~ está relacionado con el momento conjugado a la variable r en la forma
~ = p − qA
p
de modo que el Hamiltoniano clásico queda

p~2
H= + V (r, t)
2m
el primer término es la energı́a cinética y el segundo es la componente del potencial que genera trabajo. La clave
está en el hecho de que el campo magnético (que es el que introduce el potencial dependiente de la velocidad) no
realiza trabajo.
Este ejemplo también nos sirve para realizar una aclaración importante, en la regla de cuantización es el momento
p canónicamente conjugado a r, y no el momento lineal p~ el que debe reemplazarse por el operador P. Si recordamos
que dos variables xi , pi canónicamente conjugadas clásicamente son tales que sus corchetes de Poisson cumplen la
relación
[xi , xj ]pois = [pi , pj ]pois = 0 ; [xi , pj ]pois = − [pj , xi ]pois = δij (4.11)
diremos que las cantidades que clásicamente cumplen las relaciones canónicas (4.11) con corchetes de Poisson,
pasarán en el proceso de cuantización a cumplir las relaciones canónicas (4.9) con conmutadores. Nótese además
que las propiedades fundamentales de los conmutadores (1.36-1.41) también las cumplen los corchetes de Poisson y
con ambas se podrá generar un álgebra de Lie.
Capı́tulo 5
Consecuencias de los postulados sobre los

observables y sus medidas
Ya hemos estudiado los kets de posición |ri y los kets de momento |pi ası́ como los operadores de posición y
momento R y P. Por simplicidad usaremos el caso unidimensional, las ecuaciones de valores propios para X, P x son
X |xi = x |xi ; Px |px i = px |px i
estos operadores tienen un espectro contı́nuo lo cual coincide con el hecho experimental de que todos los valores
reales son posibles para las posiciones y momentos de la partı́cula. Si utilizamos el cuarto postulado podemos
calcular la probabilidad de obtener una posición dentro del intervalo entre x y x + dx o la probabilidad de obtener
un momento en el intervalo entre px y px + dpx .
2
dP (x) = |hx |ψi|2 dx = |ψ (x)|2 dx ; dP̄ (p) = |hp |ψi|2 dp = ψ̄ (p) dp
de hecho estas expresiones fueron usadas para establecer el cuarto postulado. No obstante, es de particular interés
la interpretación a la luz de este postulado del caso en el que el estado del sistema está descrito justamente por |x 0 i
o |p0 i, en tal caso estas probabilidades quedan
2 2 2 2
dP (x) = hx x0 dx = δ x − x0 dx ; dP̄ (p) = hp p0 dp = δ p − p0 dp
si integramos estas probabilidades entre x 0 − ε y x0 + ε o entre p0 − ε y p0 + ε respectivamente, tenemos que la

probabilidad da la unidad sin importar el tamaño de ε, si por el contrario calculamos la integral en cualquier
volumen que excluya al punto x0 o p0 esta integral da cero. Por tanto |x0 i describe un estado en donde la partı́cula
está en un punto bien definido del espacio y |p 0 i describe una partı́cula con momento especı́fico p 0 . Para el estado
|x0 i la medida de posición es totalmente predecible y para el estado |p 0 i es totalmente predecible la medida del
momento. Nótese que para el estado |x 0 i la densidad de probabilidad asociada a la posición diverge en el punto x 0 y
se anula en los demás, esto está relacionado con el hecho de que este no es un estado fı́sicamente realizable, ya que
no es de cuadrado integrable. Similar discusión ocurre para el estado |p 0 i para el cual la densidad de probabilidad
asociada al momento diverge en el punto p 0 y se anula en los demás.
El estado |x0 i se puede calcular en las bases {|xi} y {|pi}
e−ipx0 /~
x0 (x) = hx x0 = δ x − x0 ; x̄0 (p) = hp x0 = √
2π~
si calculamos la probabilidad de que al medir el momento lineal de la partı́cula en el estado |x 0 i se encuentre un

valor entre p y p + dp, obtenemos
2 dp
dP (p) = x̄0 (p) dp =
2π~
encontramos una probabilidad uniforme. Nuevamente, esto viola la conservación de la probabilidad por ser un estado
impropio. Sin embargo, es interesante ver que el colapso de la función de onda en un punto del espacio (es decir la
certeza total de tener una posición descrita por el estado |x 0 i) lleva a la incertidumbre total en el momento, como
170CAPÍTULO 5. CONSECUENCIAS DE LOS POSTULADOS SOBRE LOS OBSERVABLES Y SUS MEDIDAS
ya se discutió para el principio de incertidumbre de Heisenberg. Un análisis similar se puede hacer para el estado
impropio |p0 i. Como X, P tiene como valores propios las posiciones y momentos de estos estados colapsados, tiene
sentido que la regla de cuantización reemplace x por X y p por P .
Vale la pena mencionar que para interpretar adecuadamente una función de onda, es esencial conocer la base
en la que está escrita. A manera de ejemplo, obsérvese que el ket |xi corresponde a una partı́cula perfectamente
localizada en x y con incertidumbre total del momento, en tanto que el ket |−pi corresponde a una partı́cula con
momento perfectamente definido −p y con total incertidumbre en la posición. Ahora veamos como se escribe |xi en
la base {|pi} y como se escribe |−pi en la base {|xi}
e−ipx/~ e−ipx/~
x̄ (p) = hp |xi = √ ; −p (x) = hx |−pi = √
2π~ 2π~
nótese que dos estados totalmente distintos pueden ser descritos con la misma forma funcional si ambos están
escritos en bases diferentes. Una onda plana en la base {|pi} corresponde a una partı́cula bien localizada, en tanto
que la misma onda plana en la base {|xi} está asociada a una partı́cula con momento bien definido.
Como ya se mencionó, en algunos casos la ecuación de valores propios (establecida en el tercer postulado)
conduce a un espectro discreto y en otros casos a un espectro contı́nuo, lo cual nos generará la discretización de
ciertas cantidades fı́sicas. Lo interesante es que tanto para los casos discretos como para los contı́nuos hay una
excelente concordancia con los experimentos.
Los postulados cuatro y cinco plantean ciertos problemas fundamentales inherentes al proceso de medida. Por
ejemplo, la existencia de una perturbación fundamental implica que el sistema no se puede considerar independien-
temente al aparato de medida, en realidad el conjunto sistema fı́sico-aparato de medida deben considerarse como un
todo. El punto es que el proceso de observación requiere de una interacción entre el sistema y el aparato. Además el
aparato de medida (para un sistema fı́sico dado) define tanto los autoresultados como los autoestados que se pueden
obtener en el proceso de medición, como se discutió en la sección 2.7.2, página 106 sobre la medición de fotones
polarizados. Esto conlleva a preguntas delicadas sobre el proceso de medida que no discutiremos aquı́.
Nótese que de acuerdo con los postulados cuarto y quinto, la indeterminación en el proceso de medida indica
por un lado la existencia de la perturbación fundamental pero también la no determinación de su comportamiento
especı́fico, ya que a partir del estado antes de la medida (que se puede obtener en forma totalmente determinista), la
medida nos lleva a un cambio abrupto que no se puede determinar con certeza. Puesto que la ecuación de Schrödinger
es totalmente determinista, la generación de la perturbación fundamental y de la indeterminación son inherentes al
proceso de medida.
En lo que sigue consideraremos solo medidas ideales. Esto significa que se asume que el aparato de medida es
perfecto, de modo que solo se generan las perturbaciones e incertidumbres inherentes a las leyes cuánticas. En la
realidad, los aparatos son imperfectos y por tanto presentan una incertidumbre experimental que afecta de manera
adicional a la medida. Por ejemplo, un analizador deja pasar ondas polarizadas no solo en una dirección fija sino
en cierto intervalo alrededor de esta dirección. Sin embargo, a diferencia de las incertidumbres y perturbaciones
cuánticas, estas incertidumbres y perturbaciones experimentales pueden disminuı́rse indefinidamente (al menos en
principio) para acercarse cada vez más al lı́mite ideal.
5.1. Consideraciones estadı́sticas

5.1.1. Valor medio de un observable para un sistema en un estado dado
Para verificar el cuarto postulado, es necesario preparar un sistema en un estado bien definido y repetir el
experimento muchas veces, donde para cada experimento tenemos un sistema idéntico con el mismo estado inicial.
Estrictamente, las predicciones solo se reproducirán en el lı́mite cuando N (número de reproducciones del experi-
mento o número de eventos) tiende a infinito. En la práctica N es finito y por tanto deben usarse técnicas estadı́sticas
para interpretar los resultados.
De aquı́ en adelante denominaremos observable tanto a la cantidad fı́sica como al operador cuántico asociado.
Definiremos el valor esperado (o valor medio) de un observable, como el promedio de los resultados obtenidos cuando
se realiza un gran número de mediciones N de dicho observable, para sistemas idénticos que se preparan en un estado
especı́fico |ψi. Denotaremos al valor esperado del observable A para el sistema en el estado |ψi en la forma hAi |ψi
o cuando se sobreentienda cual es el estado, la notación se simplificará en la forma hAi.
5.1. CONSIDERACIONES ESTADÍSTICAS 171
La idea es poder predecir el valor esperado con base en los postulados. Comencemos primero con el caso de
espectro discreto. Si se realizan N experimentos para idénticos sistemas cada uno en el estado |ψi y se obtiene el
autovalor an para el observable A un número N (an ) de veces, la probabilidad de obtener dicho autovalor se define
como
N (an )
P (an ) ≡ lı́m (5.1)
N →∞ N
y es claro que X
N (an ) = N
n
el valor medio es simplemente la suma de todas las medidas obtenidas dividida por el número N de medidas. Por
supuesto, cuando un número N (an ) de medidas han dado el mismo resultado a n , la suma con que contribuyen estos
eventos se escribe simplemente como a n N (an ) y se suma sobre los resultados diferentes obtenidos
1 X
hAi|ψi = an N (an )
N n
a N (an ) se le conoce como la frecuencia del evento. Si tomamos el lı́mite cuando N → ∞ y usamos la definición
(5.1) de probabilidad se tiene que X
hAi|ψi = an P (an )
n
y usando la Ec. (4.2) que proviene del cuarto postulado, se obtiene
X gn
X gn
i 2 X X
hAi|ψi = an hψ u = a n hψ uin huin |ψi
n
n i=1 n i=1

donde uin son los vectores propios (ortonormalizados) de A asociados al valor propio a n

A uin = an uin
de modo que
gn
XX gn
XX

hAi|ψi = hψ| an uin huin |ψi = hψ| A uin huin |ψi
n i=1 n i=1
" gn
# " #
XX i
i X
hAi|ψi = hψ| A un un |ψi = hψ| A Pn |ψi = hψ| AI |ψi
n i=1 n
donde hemos usado la relación de completez para el discreto Ec. (1.168), nótese que el uso de la completez requiere
una vez más que A sea un observable. Finalmente, la expresión para el valor esperado queda
hAi|ψi = hψ| A |ψi (5.2)
para el caso del espectro contı́nuo no degenerado, el argumento es similar. Consideremos N experimentos idénticos
y denominemos dN (α) el número de experimentos cuyo resultado esté incluı́do entre α y α + dα, la probabilidad
la definimos similarmente como
dN (α)
dP (α) = lı́m
N →∞ N
el valor medio o esperado se escribe como
Z Z
1
hAi|ψi = lı́m α dN (α) = α dP (α)
N →∞ N
usando de nuevo el cuarto postulado (para espectro contı́nuo), sustituı́mos dP (α) por su valor en la Ec. (4.7)
Z Z
hAi|ψi = α |hψ |vα i|2 dα = α hψ |vα i hvα |ψi dα
y dado que
A |vα i = α |vα i
se obtiene
Z Z Z
hAi|ψi = α |hψ |vα i|2 dα = hψ| α |vα i hvα |ψi dα = hψ| A |vα i hvα |ψi dα
Z
hAi|ψi = hψ| A |vα i hvα | dα |ψi = hψ| AI |ψi = hψ| A |ψi
donde hemos usado la relación de completez para el contı́nuo Ec. (1.168). Por tanto, se obtiene de nuevo la Ec.
(5.2). Es importante aclarar que hAi |ψi es un promedio realizado sobre un conjunto de mediciones idénticas, y no
debe confundirse con los promedios temporales que se utilizan con frecuencia en fı́sica para estados que dependen
del tiempo.
Si el ket no está normalizado, la Ec. (5.2) se debe convertir en
hψ| A |ψi
hAi|ψi =
hψ |ψi
5.1.2. Valor esperado para los observables X, P

Para realizar el cálculo del valor esperado de un observable debemos recurrir a una representación especı́fica.
Calculemos hXi|ψi usando la representación {|ri}
Z Z
3
hXi|ψi = hψ| X |ψi = d r hψ |ri hr| X |ψi = d3 r ψ ∗ (r) xhr |ψi
Z
hXi|ψi = d3 r ψ ∗ (r) x ψ (r) (5.3)
calculando hP i|ψi usando la representación {|pi} se obtiene

Z
hPx i|ψi = d3 p ψ̄ ∗ (p) px ψ̄ (p) (5.4)
si por ejemplo se calcula hP i |ψi usando la representación {|ri} se tiene

Z Z
~
hPx i|ψi = hψ| Px |ψi = d3 r hψ |ri hr| Px |ψi = d3 r ψ ∗ (r) ∂x hr |ψi
i
Z
~
hPx i|ψi = d3 r ψ ∗ (r) ∂x ψ (r) (5.5)
i
5.1.3. Valor esperado para el commutador de dos observables

El fácil ver que el commutador de dos operadores hermı́ticos es antihermı́tico
[A, B]† = (AB − BA)† = BA − AB = − [A, B]
esto significa que podemos escribir el commutador entre dos operadores hermı́ticos como
[A, B] = iC ; C = C †
siendo C un operador hermı́tico, los valores propios de iC son puramente imaginarios al igual que su valor esperado
con respecto a cualquier estado |ψi. Podemos escribir entonces
h[A, B]i = iM
siendo M un número real. Vemos que si A y B son observables, su commutador no es un observable ya que no es
hermı́tico.
5.1. CONSIDERACIONES ESTADÍSTICAS 173
5.1.4. La desviación media cuadrática

Si bien el valor medio o esperado hAi nos da el orden de magnitud de los resultados esperados al medir la
cantidad fı́sica A, es también estadı́sticamente importante conocer la dispersión que presentan los datos cuando se
realizan una gran cantidad de medidas. Asumamos que el espectro de A es contı́nuo. Si hacemos una gráfica de
ρ (α) vs α, el valor esperado hAi será la abscisa del “centro de gravedad” del área bajo la curva, nótese además que
si esta curva no es simétrica alrededor de hAi entonces el valor α m para el cual ρ (αm ) adquiere su valor máximo,
no necesariamente coincide con hAi. De hecho, puede existir más de un máximo local.
La gráfica de ρ (α) vs α suele ser asintótica, es decir tiende a cero para α → ±∞, pero usualmente no es igual a
cero para ningún α real. Esto implica que estrictamente hay en la mayorı́a de los casos una probabilidad diferente
de cero de encontrar cualquier valor real de α. Sin embargo, es usual definir un ancho δA centrado en hAi en el cual
esté la mayor parte del área bajo la curva, es decir existe una probabilidad cercana a la unidad de que la medida
de α arroje un valor entre hAi − δA/2 y hAi + δA/2. La cantidad δA caracteriza el ancho de la curva de modo
que a menor δA, tenemos que los resultados estarán más concentrados alrededor de hAi, lo cual indica una menor
dispersión de las medidas.
Veremos ahora como encontrar una cantidad que caracterice la dispersión de las medidas. A priori uno podrı́a
pensar en tomar la diferencia entre cada valor α i obtenido y hAi, (a esta diferencia la llamamos la desviación del
dato αi ), para luego promediar estas desviaciones. Este método sin embargo, no es adecuado ya que el promedio de
las desviaciones es siempre cero tanto en el contı́nuo como en el discreto
N N
1 X 1 X
D (αi ) ≡ hAi − αi ; hD (A)i = D (αi ) = [hAi − αi ] ⇒
N N
i=1 i=1
N
X n
X
1 1 1
hD (A)i = N hAi − αi = hAi − nk αk = hAi − hAi = 0
N N N
i=1 k=1
donde el promedio de A se reescribió multiplicando α k por su frecuencia nk (número de datos con el mismo resultado)
y sumando sobre los datos diferentes (k = 1, .., n). Similarmente en el contı́nuo
Z α1
1
hD (A)i = hhAi − αi = hAi − ρ (α) α dα
α 1 − α 0 α0
hD (A)i = hAi − hAi = 0
donde el ρ (α) dα es la frecuencia diferencial en el contı́nuo (densidad por diferencial de volumen). La anulación de la
desviación promedio tiene que ver con la definición misma de valor promedio o esperado, en el cual las desviaciones
negativas se compensan con las positivas. Para evitar este fenómeno de cancelación, podemos definir las desviaciones
cuadráticas en la forma D E
(∆A)2 ≡ (A − hAi)2
y definimos entonces la raı́z de la desviación media cuadrática como
rD E
∆A = (A − hAi)2 (5.6)
y usando la expresión para el valor medio o esperado dada por la Ec. (5.2) obtenemos
q
∆A = hψ| (A − hAi)2 |ψi
la desviación media cuadrática se puede reescribir en la forma

D E Dh iE

(A − hAi)2 = A2 − 2A hAi + hAi2 = A2 − 2 hAi hAi + hAi2
D E

(A − hAi)2 = A2 − hAi2
y la raı́z de la desviación media cuadrática queda

q
∆A = hA2 i − hAi2 (5.7)
por ejemplo para el espectro contı́nuo de un observable A, ∆A queda en la forma

Z α1
2
(∆A) = [α − hAi]2 ρ (α) dα
α0
Z α1 Z α1 2
2 2
(∆A) = α ρ (α) dα − α ρ (α) dα
α0 α0
5.2. Observables compatibles

Consideremos dos observables A y B que conmutan
[A, B] = 0
asumiremos por simplicidad que ambos espectros son discretos. El teorema 1.69 nos dice que existe un conjunto
completo de vectores propios comunes a ambos observables, es usual denotar esta base como {|a n , bp , ii}, o aún más
simple como {|n, p, ii}
A |n, p, ii = an |n, p, ii ; B |n, p, ii = bp |n, p, ii
donde el ı́ndice i indica que a cada par de autovalores (a n , bp ) le pueden corresponder varios autovectores linealmente
independientes. Por tanto, para cada posible valor del par (a n , bp ) existe por lo menos un vector |n, p, ii para el
cual la medida de A siempre será an y la medida de B siempre será bp . Veamos las implicaciones fı́sicas sobre los
observables asociados a operadores que conmutan.
Partamos de un estado inicial normalizado dado |ψi (que en principio es arbitrario). Este estado se puede escribir
como
X
|ψi = cn0 ,u,v n0 , u, v (5.8)
n0 ,u,v
asumamos que primero hacemos una medida del observable A y se obtiene a n y que inmediatamente después (de
modo que en el tiempo transcurrido se pueda despreciar la evolución temporal del estado) realizamos una medida
de B de la cual obtenemos el valor bp . Calculemos la probabilidad P (an , bp ) de obtener an en la primera medida y
bp en la segunda. Usando el cuarto postulado Ec. (4.2) y la Ec. (5.8), la probabilidad P (a n ) de obtener la primera
medida es
 2
X
X X
2

P (an ) = n, p , i ψi =
0 0 n, p , i 
0 0
cn0 ,u,v n , u, v 
0

p0 ,i0 p0 ,i0 n0 ,u,v
2 2
X X

X X

= c 0 0 0
0 ,u,v n, p , i n , u, vi = c 0 ,u,v δn,n0 δp0 u δi0 v
n n
p0 ,i0 n0 ,u,v p0 ,i0 n0 ,u,v
X
P (an ) = cn,p0 ,i0 2 (5.9)
p0 ,i0
pero según el quinto postulado Ec. (4.8), el sistema luego de esta primera medición queda preparado en el estado
normalizado |ψn i definido por
1 X
|ψn i = qP cn,p0 ,i0 n, p0 , i0 (5.10)
2 0 0
|c
k,m n,k,m | p ,i
este será entonces el estado en el que estará el sistema justo antes de la medición de B. Recurriendo de nuevo al
cuarto postulado Ec. (4.2) la probabilidad de que habiendo obtenido en la primera medición el valor a n se obtenga
5.2. OBSERVABLES COMPATIBLES 175
en la segunda medición el valor bp estará dada por

 2

X
2
X
1 X
0 0  cn,p0 ,i0 n, p , i 
0 0
Pan (bp ) = n , p, i ψn i = n , p, i qP 2 0 0
n0 ,i n0 ,i k,m |cn,k,m | p ,i

P P 2 P P
0 0 0 2
n0 ,i p0 ,i0 cn,p0 ,i0 hn , p, i |n, p , i i n0 ,i p0 ,i0 cn,p0 ,i0 δn0 n δpp0 δii0
= P 2 = P 2
k,m |cn,k,m | k,m |cn,k,m |
P 2
n0 ,i |cn,p,i δn0 n |
Pan (bp ) = P 2
k,m |cn,k,m |
P 2
i |cn,p,i |
Pan (bp ) = P 2 (5.11)
k,m |cn,k,m |
ahora bien, la probabilidad P (an , bp ) que buscamos corresponde a una composición de eventos: para que estos
dos eventos de hecho ocurran, debemos primero encontrar a n para lo cual hay una probabilidad P (a n ) y entonces
habiendo cumplido la primera condición, debemos encontrar b p para lo cual hay una probabilidad Pan (bp ) por lo
tanto
P (an , bp ) = P (an ) × Pan (bp ) (5.12)
sustituyendo (5.9) y (5.11) en (5.12) se obtiene
 " #
X P 2
2 |c n,p,i |
P (an , bp ) =  cn,p0 ,i0  P i
2
0
p ,i 0 k,m |cn,k,m |
X
P (an , bp ) = |cn,p,i |2 (5.13)
i
y el estado del sistema después de la segunda medición de acuerdo con el quinto postulado Ec. (4.8), será
Pp |ψn i
|ψn,p i = p (5.14)
hψn | Pp |ψn i
evaluemos el numerador y el denominador de esta expresión, usando la Ec. (5.10).

  
X 1 X
Pp |ψn i =  |l, p, vi hl, p, v|  qP cn,p0 ,i0 n, p0 , i0 
2 0 0
l,v k,m |cn,k,m | p ,i
hP P i hP P i
c 0 0 |l, p, vi hl, p, v| n, p 0 , i0 i c 0 0 |l, p, vi δ δ 0 δ 0
l,v p ,i n,p ,i
0 0 l,v p ,i n,p ,i
0 0 ln pp vi
= qP = qP
2 2
k,m |cn,k,m | k,m |cn,k,m |
P 0
0 cn,p,i0 |n, p, i i
Pp |ψn i = qiP (5.15)
2
k,m |cn,k,m |
  P P ∗
P 0 0
X
0
i0 cn,p0 ,r cn,p,i0 hn, p , r| n, p, i i
 ∗ 0  i0 cn,p,i0 |n, p, i i p0 ,r
hψn | Pp |ψn i = cn,p0 ,r n, p , r P 2 = P
2
p0 ,r k 0 ,m0 cn,k 0 ,m0 k 0 ,m0 cn,k 0 ,m0
P P ∗ P ∗ P 2
i0 cn,p0 ,r cn,p,i0 δnn δp0 p δri0 i0 cn,p,i0 cn,p,i0

p0 ,r i0 cn,p,i0
hψn | Pp |ψn i = P = P = P 2 ⇒
2 2
k 0 ,m0 cn,k 0 ,m0 k 0 ,m0 cn,k 0 ,m0 k 0 ,m0 cn,k 0 ,m0
qP 2
q
i0 cn,p,i0
hψn | Pp |ψn i = qP 2 (5.16)

k 0 ,m0 cn,k 0 ,m0
Reemplazando (5.15, 5.16) en (5.14), el estado justo después de la segunda medida queda finalmente
1 X
|ψn,p i = qP cn,p,i |n, p, ii (5.17)
2
k |cn,p,k | i
es fácil verificar que |ψn,p i es un estado propio de A y B con valores propios a n y bp

P P P
iqcn,p,i [A |n, p, ii] cn,p,i [an |n, p, ii]
iq i cn,p,i [|n, p, ii]
A |ψn,p i = P = P = an q P
2 2 2
k |cn,p,k | k |cn,p,k | k |cn,p,k |
A |ψn,p i = an |ψn,p i
y similarmente para B
B |ψn,p i = bp |ψn,p i
Por tanto, si midiéramos de nuevo A (nuevamente los tiempos deben ser cortos para que el estado no haya evolu-
cionado significativamente a partir del estado descrito por la Ec. 5.17) la probabilidad de obtener el resultado a n es
1 y no se altera el estado del sistema. Igualmente si medimos B con el sistema en el estado |ψ n,p i la probabilidad
de obtener bp es 1 y el estado permanece inalterado después de la medición.
Volvamos ahora al estado inicial |ψi del sistema y hagamos las mediciones en el orden contrario (primero B y
luego A). Evaluaremos la probabilidad de obtener el valor b p en la primera medida y el valor an en la segunda medida
que denotamos como P (bp , an ), siguiendo los mismos razonamientos del caso anterior vemos que la probabilidad de
obtener bp en la primera medida es
X
P (bp ) = cn0 ,p,i0 2
n0 ,i0
y si el valor bp es obtenido, el estado después de la medición será
1 X
|ϕp i = qP cn0 ,p,i0 n0 , p, i0
uv |cu,p,v |2 n0 ,i0
y la probabilidad de que partiendo del estado |ϕ p i se obtenga el valor an del observable A en la segunda medida es
1 X
Pbp (an ) = P 2 |cn,p,i |2
|c
uv u,p,v | i
adicionalmente la probabilidad de que ocurran ambos eventos en este orden será
P (bp , an ) = P (bp ) × Pbp (an )

X
P (bp , an ) = |cn,p,i |2 (5.18)
i
si de hecho encontramos bp en la primera medida y an en la segunda, el estado del sistema después de la segunda
medida será
1 X
|ϕp,n i = qP cn,p,i |n, p, ii (5.19)
2
k |c n,p,k | i
comparando la Ec. (5.13) con la Ec. (5.18) vemos que la probabilidad de obtener un par especı́fico de valores (a n , bp )
de los observables A y B respectivamente, es igual sin importar el orden en que se midan (siempre teniendo en cuenta
que la distancia temporal entre dos medidas debe ser pequeña para evitar la evolución del sistema). Adicionalmente,
al comparar (5.17) con (5.19) vemos que el estado después de la segunda medida también es el mismo en ambos
casos. Finalmente, una medida posterior de A ó B nos dará con certeza los valores a n ó bp .
Nótese que estos hechos dependen de que podamos encontrar un conjunto completo común de vectores propios
para ambos observables, para lo cual es necesario y suficiente que ambos observables conmuten (teorema 1.69). Por
esta razón a los observables conmutantes también se les denomina observables compatibles.
5.3. OBSERVABLES NO COMPATIBLES E INCERTIDUMBRES 177
Podemos resumir las propiedades de los observables compatibles de la siguiente manera: Cuando dos observables
A y B son compatibles, si medimos primero A entonces la medida posterior de B no causa ninguna pérdida de
información previamente obtenida en la medida de A y viceversa. Por el contrario, la medida de B se “adiciona”
como información a lo que se obtiene en la primera medida. Además la realización de las dos medidas ejecutadas
en cualquier orden arroja la misma distribución de probabilidad para cada par accesible de valores propios. Ahora
supongamos que se realizan dos experimentos ambos con el mismo estado inicial, midiendo en el primero la secuencia
A ⇒ B y en el segundo la secuencia B ⇒ A, si en ambos experimentos se obtienen los mismos valores propios,
entonces obtendremos el mismo estado final.
Vale decir que si en un experimento particular en el orden A ⇒ B se obtuvo (a n , bp ), no quiere decir que en otro
experimento especı́fico con las mismas condiciones iniciales y en el orden B ⇒ A se obtenga (b p , an ), ya que lo que
se igualan son las probabilidades1 . Adicionalmente, tampoco tenemos que llegar al mismo estado final en ambos
experimentos, solo tenemos garantizado que si en ambos experimentos obtenemos los mismos valores propios, el
estado final será el mismo.
Ahora bien, puesto que no es relevante el orden en que se ejecutan las medidas de A y B podemos considerar
la medición simultánea de ambos observables. Nótese que para observables compatibles se puede hacer una especie
de “extensión” de los postulados cuarto y quinto como se puede apreciar de las Ecs. (5.13, 5.18) y de las Ecs. (5.17,
5.19). De estas ecuaciones se observa que podemos considerar a la dupla (a n , bp ) como un solo resultado que
corresponde a la superposición de vectores ortonormales |n, p, ii donde i indica la degeneración asociada al “único
valor propio” cnp ≡ (an , bp ).
5.3. Observables no compatibles e incertidumbres

Según el teorema 1.69 si A y B no conmutan, no existe un conjunto completo de vectores propios comunes a
ambos observables2 . Por tanto, los argumentos anteriores no serán válidos. Esto se puede ilustrar de manera sencilla
si reemplazamos el espacio de Hilbert E por el espacio vectorial real de dos dimensiones. Supongamos que |u 1 i , |u2 i
son autovectores ortonormales del observable A (que definen a los ejes X,Y ) con autovalores a 1 y a2 . Sean |v1 i , |v2 i
autovectores ortonormales de B (que definen ejes X 0 Y 0 en general rotados con respecto a XY ), con valores propios
b1 y b2 . Si definimos θ el ángulo de rotación (en dirección antihoraria) de los ejes X 0 Y 0 con respecto a los ejes XY
tenemos que las bases correspondientes a los autovectores de A y B están relacionadas por
|v1 i = cos θ |u1 i + sin θ |u2 i
π π
|v2 i = cos θ + |u1 i + sin θ + |u2 i = − sin θ |u1 i + cos θ |u2 i
2 2
en resumen estas relaciones y sus inversas quedan
|v1 i = cos θ |u1 i + sin θ |u2 i ; |v2 i = − sin θ |u1 i + cos θ |u2 i
|u1 i = cos θ |v1 i − sin θ |v2 i ; |u2 i = sin θ |v1 i + cos θ |v2 i
ahora pensemos que la condición inicial está dada por un vector unitario |ψi en dirección arbitraria que hace un
ángulo ϕ con |u1 i. En ambas bases este vector se escribe
|ψi = cos ϕ |u1 i + sin ϕ |u2 i ; |ψi = cos (ϕ − θ) |v1 i + sin (ϕ − θ) |v2 i
Primero mediremos A y asumamos que encontramos el valor a 1 , el sistema quedará preparado en el estado |u 1 i. Si
luego medimos B y encontramos por ejemplo b 2 el estado final del sistema será |v2 i.
(a1 ) (b2 )
|ψi =⇒ |u1 i =⇒ |v2 i (5.20)
si por otro lado, realizamos las medidas en el orden opuesto y encontramos los mismos valores propios anteriores
pero en la secuencia b2 ⇒ a1 el esquema será
(b2 ) (a1 )
|ψi =⇒ |v2 i =⇒ |u1 i (5.21)
1
Es decir el patrón de distribución de valores propios en ambos casos debe ser el mismo cuando se hace una gran cantidad de
experimentos de cada tipo.
2
Esto no significa que no puedan existir vectores propios comunes a ambos. Pero si estos existen, no serán suficientes para conformar
una base.
el estado final del sistema no es el mismo en ambos casos. Ahora, las probabilidades en ambos casos serı́an
P (a1 , b2 ) = P (a1 ) × Pa1 (b2 ) = |hψ| u1 i|2 × |hu1 | v2 i|2

P (b2 , a1 ) = P (b2 ) × Pb2 (a1 ) = |hψ| v2 i|2 × |hv2 | u1 i|2
cada uno de estos productos internos da
hψ| u1 i = cos ϕ ; hψ| v2 i = sin (ϕ − θ) ; hu1 | v2 i = hv2 | u1 i = − sin θ
por lo tanto
P (a1 , b2 ) = cos2 ϕ sin2 θ ; P (b2 , a1 ) = sin2 (ϕ − θ) sin2 θ
con lo cual se observa que
P (b2 , a1 ) 6= P (a1 , b2 )
esto significa entonces que dos observables no compatibles no se pueden medir simultáneamente 3 . Se puede ver de
las Ecs. (5.20, 5.21) que la segunda medida genera la pérdida de la información suministrada por la primera. Si por
ejemplo después de la secuencia A ⇒ B representada por (5.20) medimos de nuevo A, no podemos tener certeza
del resultado ya que |v2 i no es autovector de A. Toda la información que se ganó en la primera medida de A se ha
perdido.
5.4. La desviación media cuadrática y el principio de incertidumbre para

observables arbitrarios (opcional)
Supongamos que tenemos dos observables A y B arbitrarios, siguiendo los argumentos de la sección 5.1.3,
definiremos el valor esperado de su conmutador en la forma
iM ≡ h[A, B]i (5.22)
donde M es un número real. Asumamos que el sistema fı́sico está en el estado |ψi. Con base en dicho estado,
construiremos un ket |ϕi y su bra asociado hϕ| en la forma
|ϕi = (A + iλB) |ψi ; hϕ| = hψ| (A − iλB) (5.23)
siendo λ una variable real arbitraria. Estudiaremos las predicciones para el producto de las incertidumbres ∆A, ∆B
donde las incertidumbres se definirán a través de la raı́z de la desviación media cuadrática de cada observable.
La norma al cuadrado de |ϕi se escribe como
hϕ| ϕi = hψ| (A − iλB) (A + iλB) |ψi = hψ| A 2 + iλAB − iλBA + λ2 B 2 |ψi

hϕ| ϕi = A2 + iλ hAB − BAi + λ2 B 2 = A2 + iλ h[A, B]i + λ2 B 2

hϕ| ϕi = λ2 B 2 − λM + A2 ≥ 0 (5.24)
donde hemos usado la Ec. (5.22). Ahora bien, por definición la norma al cuadrado de |ϕi es no negativa para todo
valor de λ. Por tanto, el polinomio cuadrático en λ definido por la ecuación (5.24) debe ser no negativo para todo
λ, esto solo es posible si tal polinomio no posee raı́ces reales en λ o a lo más las raı́ces reales deben ser degeneradas
y corresponder a un mı́nimo local (en cuyo caso la norma de |ϕi es cero para un valor dado de λ, y positiva para
los otros valores). Esto implica que como ecuación cuadrática para λ, el discriminante deber ser negativo o cero

M 2 − 4 A2 B 2 ≤ 0 ⇒ (5.25)

2
2 M 2
A B ≥ (5.26)
4
3
Supongamos que medimos un observable A en el tiempo t y otro observable B en el tiempo t + ∆t. La medición simultánea se puede
definir consistentemente solo si los “lı́mites laterales” ∆t → 0+ (donde se mide en el orden A ⇒ B) y ∆t → 0− (donde se mide en el
orden B ⇒ A) conducen a las mismas predicciones en términos de distribución de probabilidad, y estados. Por esta razón solo se puede
definir adecuadamente la medición simultánea de observables compatibles.
5.4. LA DESVIACIÓN MEDIA CUADRÁTICA Y EL PRINCIPIO DE INCERTIDUMBRE PARA OBSERVABLES A
recordando que |ψi describe el estado del sistema, introducimos dos nuevos observables A 0 , B 0 definidos por
A0 = A − hAi I = A − hψ| A |ψi (5.27)

0
B = B − hBi I = B − hψ| B |ψi (5.28)
donde hAi y hBi son números reales e I es el operador identidad. Es claro que las relaciones de conmutación de
A0 , B 0 coinciden con las de A y B
0 0
A , B = [A, B] = iM (5.29)
con lo cual el resultado (5.26) también es válido para A 0 y B 0

M2
A02
B 02 ≥ ⇒
4
D ED E M2
(A − hAi)2 (B − hBi)2 ≥
4
y teniendo en cuenta la definición de la raı́z de la deviación media cuadrática Ec. (5.6), tenemos que
M2
(∆A)2 (∆B)2 ≥ ⇒
4
|M |
(∆A) · (∆B) ≥
2
y recordando la definición (5.22) resulta
|h[A, B]i|
(∆A) · (∆B) ≥ (5.30)
2
Si definimos la incertidumbre en los observables como la raı́z de la desviación media cuadrática de su distribución,
esto se puede considerar como una extensión del principio de incertidumbre. Nótese que en este caso el lı́mite inferior
está muy bien definido, precisamente porque hemos definido de manera muy clara el ancho de la distribución por
medio de la raı́z de la desviación media cuadrática.
Vale decir además que solo tendremos un lı́mite inferior no nulo, cuando los observables NO son compatibles (no
conmutantes). Para los observables compatibles no hay un principio de incertidumbre, lo que permite sin ambigüedad
su medición simultánea y la no destrucción de la información por efecto de mediciones adicionales.
Un caso especial muy importante es el de dos variable conjugadas. Se dice que dos observables Q, P son
conjugados si
[Q, P ] = i~
esta es una extrapolación natural del concepto de variables canónicamente conjugadas en mecánica clásica, que
cumplen propiedades similares pero con los corchetes de Poisson en lugar de los conmutadores. Para observables
conjugados, la expresión (5.30) queda en la forma
∆Q · ∆P ≥ ~/2
A su vez, un caso especial de variables conjugadas son los pares de posición y momento (X, P x ), (Y, Py ) y (Z, Pz ).
Se obtiene entonces
∆X · ∆Px ≥ ~/2 ; ∆Y · ∆Py ≥ ~/2 ; ∆Z · ∆Pz ≥ ~/2
que son las relaciones de incertidumbre de Heisenberg (2.31), pero con lı́mites inferiores precisos, lo cual surge de
haber definido de manera precisa las incertidumbres.
5.4.1. Paquetes de mı́nima incertidumbre

Es natural preguntarse por las condiciones que se requieren para obtener un paquete de mı́nima incertidumbre.
Es decir, bajo que condiciones obtenemos la igualdad en la Ec. (5.30). Esto implica imponer la igualdad en las
desigualdades (5.24-5.30). En particular, esto implica que el polinomio cuadrático en λ definido por la ecuación
(5.24) sea nulo y corresponda a un mı́nimo local para algún valor λ 0 (raı́z real degenerada), esto conlleva a la
nulidad de la norma de |ϕi. Lo anterior se obtiene con la anulación del discriminante Ec. (5.25)

M2
M2
A2 B2 = ⇒ A2 = (5.31)
4 4 hB 2 i
que a su vez nos lleva a la solución λ ≡ λ 0 para la cuadrática (5.24)

M 2 A2
λ0 = = (5.32)
2 hB 2 i M
donde hemos usado la Ec. (5.35). Redefiniendo los observables a través de las Ecs. (5.27, 5.28) y teniendo en cuenta
la invarianza del conmutador Ec. (5.29) vemos que los resultados obtenidos para A y B son también válidos para
A0 y B 0 (ya que todos ellos dependen solo de la relación de conmutación Ec. 5.22). Por tanto para el ket
0
0
ϕ = A0 + iλB 0 |ψi ; ϕ = hψ| A0 − iλB 0
podemos hacer el mismo procedimiento que se realizó para el ket |ϕi de la Ec. (5.23), y llegar a que la norma de
|ϕ0 i es nula cuando λ = λ0 . Pero la norma es cero si y solo si el ket es nulo, por lo tanto

A0 + iλB 0 |ψi = 0 ⇒
[A − hAi + iλ0 (B − hBi)] |ψi = 0 (5.33)
ası́ mismo las Ecs. (5.31) son aplicables también para A 0 , B 0 con lo cual

02
M2 M 2 A02
A = ; λ0 = = (5.34)
4 hB 02 i 2 hB 02 i M
y teniendo en cuenta que

02 D E
D E
A ≡ (A − hAi)2 ≡ (∆A)2 ; B 02 ≡ (B − hBi)2 ≡ (∆B)2
las Ecs. (5.34) quedan finalmente
M2 M 2 (∆A)2
(∆A)2 = ; λ 0 = = (5.35)
4 (∆B)2 2 (∆B)2 M
la Ec. (5.33) junto con las ligaduras (5.35) nos dictaminan la condición para obtener paquetes de mı́nima incer-
tidumbre. Su solución explı́cita debe realizarse en una base especı́fica y depende de la naturaleza de los operadores
A y B.
Un caso particular de interés surge para variables conjugadas para lo cual definimos A ≡ Q, B ≡ P y M ≡ ~.
La Ec. (5.33) y las ligaduras (5.35) quedan en la forma
~2 ~ 2 (∆Q)2
[Q − hQi + iλ0 (P − hP i)] |ψi = 0 ; (∆Q)2 = ; λ0 = = (5.36)
4 (∆P )2 2 (∆P )2 ~
usando la representación {|qi} y el hecho de que en esta representación P actúa como (~/i)d/dq (ver Ec. 1.205, Pág.
93) se obtiene4

~ d
hq| [Q − hQi + iλ0 (P − hP i)] |ψi = 0 ⇒ q − hQi + iλ0 − hP i hq |ψi = 0 ⇒
i dq

d
q + ~λ0 − hQi − iλ0 hP i ψ (q) = 0 (5.37)
dq
4
Debe tenerse en cuenta que la Ec. (1.205) fué demostrada para cualquier par de observables conjugados y no solo para posiciones y
momentos.
5.5. PREPARACIÓN DE UN ESTADO 181
para resolver la ecuación diferencial (5.37) es conveniente introducir la función h (q) definida por
ψ (q) = eihP iq/~ h (q − hQi) (5.38)
insertando la Ec. (5.38) en la Ec. (5.37) resulta

h i
d
q + ~λ0 − hQi − iλ0 hP i eihP iq/~ h (q − hQi) = 0
dq
d h ihP iq/~ i
[q − hQi − iλ0 hP i] eihP iq/~ h (q − hQi) + ~λ0 e h (q − hQi) = 0
dq
i hP i d
[q − hQi − iλ0 hP i] eihP iq/~ h (q − hQi) + ~λ0 h (q − hQi) eihP iq/~ + ~λ0 eihP iq/~ h (q − hQi) = 0
~ dq
d
[q − hQi] h (q − hQi) + ~λ0 h (q − hQi) = 0
dq
sustituyendo
q 0 = q − hQi (5.39)
queda
d
q + ~λ0 0 h q 0 = 0
0
(5.40)
dq
cuya solución es
− q
02
h q 0 = Ce 2λ0 ~ (5.41)
siendo C una constante de normalización que elegiremos como positiva. Reemplazando las Ecs. (5.36, 5.39) en la
solución (5.41), tenemos
h i
(q−hQi)2 (q−hQi) 2
− −
h (q − hQi) = Ce 4(∆Q)2 = Ce 2(∆Q)
(5.42)
finalmente reemplazando (5.42) en (5.38) y normalizando (con constante positiva) resulta
h i
(q−hQi) 2
1 ihP iq/~ −
ψ (q) = q e e 2(∆Q)
(5.43)
4 2
2π (∆Q)
para encontrar el paquete de onda recı́proco, es decir en la base {|pi}, podemos proceder de manera análoga al
desarrollo anterior, o haciendo la transformada de Fourier de la Ec. (5.43). En tal caso se encuentra la función de
onda recı́proca ψ̄ (p) definida por
h i
(q−hP i) 2
1 − ~i hQip − 2(∆P )
ψ̄ (p) = q e e (5.44)
4
2π (∆P )2
En la Sec. 2.12.3, pág. 120, habı́amos demostrado que los paquetes gaussianos son de mı́nima incertidumbre. En
la presente sección hemos demostrado el recı́proco: para dos observables conjugados Q y P , hemos demostrado que
si ∆Q · ∆P es exactamente ~/2, la función de onda asociada con este estado en la representación |qi es un paquete
gaussiano ası́ como la representación de la función de onda en la base |pi.
5.5. Preparación de un estado

Consideremos un sistema fı́sico en el estado |ψi y midamos el observable A, asumiremos que todos los observables
tienen espectro discreto. Si el valor obtenido a n es no degenerado el autovector normalizado |u n i en que se prepara
el sistema es fı́sicamente único, por tanto conocemos perfectamente el estado después de la medida, y además dicho
estado es independiente de |ψi (el estado justo antes de la medida).
Sin embargo, si el autovalor an es degenerado, el estado inmediatamente después de la medida será
gn
X
0 Pn |ψi 1
ψn = = qP cin uin
hψ| Pn |ψi gn k 2
k=1 |cn | i=1
tanto los valores absolutos de los coeficientes c in como sus fases son relevantes. Y puesto que este estado es la
proyección |ψn0 i (normalizada) del vector |ψi sobre el autosubespacio E n tendremos que el autoestado final depende
de |ψi y por lo tanto también los coeficientes c in siempre que En sea de más de una dimensión (si En es de una sola
dimensión, solo hay un vector normalizado fı́sicamente relevante).
Ahora bien, dado que vimos que la medición de otro observable B compatible con A adiciona información sobre
el estado, y se puede medir simultáneamente con A, vemos que si el resultado (a n , bp ) de las dos medidas corresponde
a un único autovector |an , bp i ≡ |n, pi común a A y B no tendremos suma sobre i en (5.17) y resulta
cnp
|ψnp i = |n, pi = eiθ |n, pi
|cnp |
que es fı́sicamente equivalente a |n, pi. En otras palabras, el autoespacio E np de autovectores comunes a A y B con
valores propios an y bp es de una dimensión y por tanto define fı́sicamente un único vector normalizado. Por tanto,
la especificación de estos dos valores determina el estado final de manera única e independiente de |ψi.
Podrı́a ocurrir sin embargo que existan varios vectores |n, p, ii linealmente independientes que conduzcan al
mismo par (an , bp ) de valores propios de A y B, es decir el espacio E np no es unidimensional y para determinar la
proyección de |ψi sobre Enp se requiere conocer a |ψi. En este caso podemos ganar más información introduciendo
un tercer observable C compatible con los otros dos y medir su valor propio c q . El proceso debe continuar hasta que
se remueva completamente la degeneración es decir cuando el autoespacio E npq... sea unidimensional, en cuyo caso
el estado |npq . . .i es fı́sicamente único.
Por otro lado, es posible que la medición de cierto conjunto de autovalores especı́ficos sea suficiente para de-
terminar el estado de manera única, pero cuando el mismo sistema me arroja otros valores propios las medidas
podrı́an resultar insuficientes. Por ejemplo, si medimos el observable A y se obtiene el valor no degenerado a 1 , el
estado estará totalmente determinado. Pero si la medida nos arroja el valor a 2 (degenerado), necesitaremos medir
otro observable compatible para determinar el estado.
La idea por supuesto es determinar un conjunto de observables A 1 , A2 , . . . , Am ; que determine de manera única
el estado después de la medida (independiente de |ψi) sin importar los valores experimentales obtenidos. Para ello
es necesario que todos los autoespacios de la forma E n1 ,n2 ,...,nm sean unidimensionales. En otras palabras, el conjunto
completo de autovectores {|n1 , n2 , . . . , nm i} común a los observables A1 , A2 , . . . , Am no debe presentar degeneración
para ningún conjunto posible de medidas (a n1 , . . . , anm ). Esto indica entonces que el conjunto {A 1 , A2 , . . . , Am }
forma un C.S.C.O. (ver sección 1.23). Adicionalmente, es natural pensar que el conjunto {A 1 , A2 , . . . , Am } sea
minimal en el sentido de que al remover un observable del conjunto el sistema ya no sea un C.S.C.O. Usualmente
se asume que un C.S.C.O. dado es minimal a menos que se indique lo contrario.
Los métodos para preparar un sistema cuántico en un estado bien definido son similares en principio a los
que se usan para polarizar luz. Cuando se coloca un polarizador en el camino de un haz de luz, la luz que sale
está polarizada en una dirección especı́fica caracterı́stica del polarizador, e independiente del estado de polarización
de la luz incidente. Similarmente se pueden construı́r dispositivos para preparar un sistema cuántico de manera que
solo permitan el paso de un estado correspondiente a un autovalor especı́fico. Si queremos preparar completamente
el estado, será necesario usar m dispositivos que midan a los observables A 1 , .., Am que solo permitan el paso de un
conjunto especı́fico de autovalores (a n1 , ..., anm ).
Es claro que puede haber infinidad de C.S.C.O, si cambiamos el conjunto completo de observables compatibles,
obtendremos otros estados del sistema. Para entender mejor esto, recordemos que los autoestados están definidos
no solo por el sistema a estudiar sino también por los aparatos de medición (ver sección 2.7.2, pág 106).
5.6. Propiedades adicionales de la ecuación de Schrödinger

Hemos establecido formalmente en el sexto postulado, que la ecuación de Schrödinger es la ecuación de evolución
de los estados de sistemas cuánticos no relativistas. Veremos algunas propiedades adicionales de esta ecuación (ver
sección 3.3)
5.6.1. Aspectos adicionales sobre la conservación de la probabilidad (opcional)

Hemos visto que la norma de los estados permanece invariante en el tiempo cuando la ecuación de Schrödinger
es la ecuación de evolución, lo cual es esencial para la conservación de la probabilidad. Adicionalmente para una
5.6. PROPIEDADES ADICIONALES DE LA ECUACI ÓN DE SCHRÖDINGER 183
partı́cula sometida a un potencial que solo depende de la posición V (r, t) cuyo Hamiltoniano es
P2
H= + V (R, t)
2m
podemos encontrar una ecuación de continuidad que nos expresa la conservación local de la probabilidad en la forma
∂ρ
+ ∇ · J = 0 ; ρ ≡ ψψ ∗ = |ψ (r, t)|2 (5.45)
∂t
~ ∗ ∗ 1 ∗ ~
J ≡ [ψ ∇ψ − ψ∇ψ ] = Re ψ ∇ψ (5.46)
2mi m i
siendo ρ, J la densidad y corriente de probabilidad respectivamente. Escribamos J en la forma
∗
1 ∗ ~ ~ ∗ 1 ∗ ~ ~
J ≡ ψ ∇ ψ−ψ ∇ ψ = ψ ∇ ψ − ψ − ∇ψ
2m i i 2m i i
∗
1 ~ ~
= hψ| ri ∇ hr| ψi + hr| ψi ∇ hr| ψi
2m i i
1 1
J = [hψ| ri hr| P |ψi + hr| ψi hr| P |ψi∗ ] = [hψ| ri hr| P |ψi + hψ| P |ri hr| ψi]
2m 2m
1
J = {hψ| [|ri hr| P + P |ri hr|] |ψi}
2m
donde hemos usado la Ec. (1.189). Finalmente

1 P P
J = [hψ| K (r) |ψi] ; K (r) ≡ |ri hr| + |ri hr| (5.47)
2 m m
para la densidad de corriente es más fácil ver que
ρ = [hψ| [|ri hr|] |ψi] = hψ| % (r) |ψi ; % (r) ≡ |ri hr| (5.48)
si comparamos las Ecs. (5.47, 5.48) con la Ec. (5.2), vemos que la densidad y la corriente de probabilidad se pueden
ver como el valor esperado de los operadores K (r) y % (r) respectivamente. Ahora bien, en coordenadas cartesianas
los momentos canónicos son los momentos lineales (cuando el potencial no depende de la velocidad). Por tanto,
P/m se puede considerar el “operador velocidad” V. En consecuencia, el “operador densidad de corriente” K (r)
está relacionado con el operador densidad % (r) en la forma
1
K (r) ≡ {%V + V%}
2
que corresponde a la cuantización de la relación J =ρv, pero adecuadamente simetrizada.
Si la partı́cula se coloca en un campo electromagnético descrito por los potenciales φ (r, t) y A (r, t) , el Hamil-
toniano asociado es (ver Ec. 4.10)
[P − qA (R, t)]2
H= + V̄ (R, t) ; V̄ (R, t) ≡ qφ (R, t) + V (R) (5.49)
2m
donde V (R) es un potencial escalar que describe una interacción adicional a la del campo electromagnético sobre
la partı́cula. Con un procedimiento similar al de la sección 3.3.4, la densidad de corriente resultante es

1 ∗ ~
JEM = Re ψ ∇ − qA ψ (5.50)
m i
que también se puede obtener de la corriente (5.46) simplemente reemplazando P → P − qA, o equivalentemente
~ ~
i ∇ → i ∇ − qA (R, t).
Un ejemplo sencillo para el cálculo de ρ y J es la onda plana. Sea un estado (no estrictamente fı́sico) descrito
por una onda plana
ψ (r, t) = Aei(k·r−ωt)
la densidad de probabilidad es claramente

ρ = ψψ ∗ = |A|2
que es uniforme y constante. El cálculo de J (r, t) es inmediato

1 ~ 1 ~A i(k·r−ωt)
J = Re ψ ∗ ∇ψ = Re A∗ e−i(k·r−ωt) ∇e
m i m i
n o
1 ~A 1
J = Re A∗ e−i(k·r−ωt) ikei(k·r−ωt) = Re ~ |A|2 k
m i m
~k
J = |A|2 (5.51)
m
y recordando que vg = ~k/m es la velocidad de grupo asociada al momento ~k (sección 2.11 Ec. 2.41). Vemos
que esta corriente también es análoga a la relación clásica J = ρv. La corriente generada por una onda plana es
estacionaria (independiente del tiempo) y además es uniforme y homogénea.
5.7. Evolución del valor esperado de un observable y su relación con la

mecánica clásica
Si A es un observable, su valor esperado cuando el sistema está en el estado |ψ (t)i se escribe como
hAi (t) = hψ (t)| A |ψ (t)i
Vale decir que el valor medio o esperado solo depende de t ya que por ejemplo si usamos la representación de
{|ri} este valor esperado corresponde a una integral sobre todo el espacio para un tiempo fijo. En contraste, el
observable clásico A (r, p, t) asume un valor para ciertas posiciones y momentos especı́ficos en un tiempo dado (ya
que las partı́culas están localizadas y sus momentos se pueden medir simultáneamente junto con las posiciones).
Para estos observables clásicos, la dependencia con el tiempo puede ser tanto explı́cita como implı́cita, es decir a
través de r (t) y p (t).
Cuando cuantizamos el observable asignamos a la cantidad clásica A (r, p, t) el operador hermı́tico A ≡ A (R, P, t).
Obsérvese que ni los autoestados ni los autovalores de los operadores R y P dependen del tiempo, por tanto los
observables cuánticos R y P no pueden dar cuenta de una dependencia implı́cita con el tiempo. En conclusión, los
observables cuánticos solo dependen del tiempo de manera explı́cita. En cuanto al valor esperado del observable, la
variación temporal de hAi se debe tanto a la variación temporal del estado |ψ (t)i (dictaminada por la ecuación de
Schrödinger), como a la variación temporal del observable mismo A (t). Si usamos por ejemplo la representación de
coordenadas, el valor esperado de A queda
Z
3 ∗ ~
hAi = d r ψ (r, t) A r, ∇, t ψ (r, t)
i
de lo cual es claro que esta cantidad solo depende del tiempo, ya que está integrada sobre las variables espaciales.
Vamos a estudiar la variación temporal del valor esperado de un observable arbitrario y a relacionarla con la
variación temporal clásica. Derivando el valor esperado con respecto al tiempo resulta

d d ∂A d
hψ (t)| A |ψ (t)i = hψ (t)| A |ψ (t)i + hψ (t)| |ψ (t)i + hψ (t)| A |ψ (t)i
dt dt ∂t dt
donde hemos usado que dA/dt = ∂A/∂t ya que un observable cuántico solo puede depender del tiempo de manera
explı́cita. Usando las Ecs. (3.23, 3.24) tenemos

d 1 ∂A 1
hψ (t)| A |ψ (t)i = hψ (t)| − H (t) A |ψ (t)i + hψ (t)| |ψ (t)i + hψ (t)| A H (t) |ψ (t)i
dt i~ ∂t i~

d 1 ∂A
hψ (t)| A |ψ (t)i = hψ (t)| [AH − HA] |ψ (t)i + hψ (t)| |ψ (t)i
dt i~ ∂t
5.7. EVOLUCIÓN DEL VALOR ESPERADO DE UN OBSERVABLE Y SU RELACI ÓN CON LA MECÁNICA CLÁS
quedando finalmente
d 1 ∂A
hAi = h[A, H]i + (5.52)
dt i~ ∂t
vale recordar que en el formalismo clásico Hamiltoniano, un observable A cl que es función de las variables del espacio
de fase y del tiempo es decir Acl = Acl (q, p, t), posee una evolución temporal dada por
dAcl ∂Acl
= [Acl , H]pois + (5.53)
dt ∂t
donde en lugar del conmutador, está el corchete de Poisson entre el observable y el Hamiltoniano. Volviendo al
problema cuántico, veremos que el valor esperado (y no el operador A r, ~i ∇, t ) es el que debe ser comparado con
el correspondiente observable clásico.
5.7.1. Evolución temporal de los valores esperados de R, P: Teorema de Ehrenfest

Dado que R, P son todos los observables fundamentales para la cuantización de una partı́cula sin espı́n, es
necesario explorar la evolución temporal de sus valores esperados. Si bien estos observables no dependen del tiempo,
sus valores esperados sı́ poseen una dependencia temporal proveniente de la evolución del estado |ψ (t)i.
Asumiendo un Hamiltoniano de la forma
P2
H= + V (R) (5.54)
2m
asignando A → R en la Ec. (5.52) y usando el Hamiltoniano (5.54) tenemos

d 1 P2 ∂R 1 P2 1
hRi = R, + V (R) + = R, + h[R, V (R)]i
dt i~ 2m ∂t i~ 2m i~
y usando las propiedades de los conmutadores (1.36-1.41) ası́ como las relaciones canónicas de conmutación (4.9)
obtenemos
d 1 1 i~I i~I
hRi = h[R, P] Pi + hP [R, P]i = P + P
dt 2mi~ 2mi~ 2mi~ 2mi~
quedando finalmente
d 1
hRi = hPi
dt m
similarmente el valor esperado para P es

d 1 P2 ∂P 1 P2 1
hPi = P, + V (R) + = P, + h[P, V (R)]i
dt i~ 2m ∂t i~ 2m i~
d 1
hPi = h[P, V (R)]i
dt i~
y usando la Ec. (1.139) pág. 67, se obtiene
[P, V (R)] = −i~∇V (R)
se obtienen entonces la relaciones fundamentales

d 1 d
hRi = hPi ; hPi = − h∇V (R)i (5.55)
dt m dt
estas dos ecuaciones se conocen como teorema de Ehrenfest. Muy semejantes a las relaciones asociadas a sus
correspondientes observables clásicos.
En virtud de la similitud con las relaciones clásicas, es natural buscar el lı́mite clásico a través del teorema de
Ehrenfest Ecs. (5.55). La función de onda ψ (r, t) que describe el estado de una partı́cula, es en general un paquete
de ondas. hRi representa tres coordenadas hX i i que en general dependen del tiempo. Al punto definido por hRi (t)
en el instante t, lo llamaremos el centro del paquete de onda en tal instante. Nótese que si el paquete es asimétrico
el centro del paquete será en general diferente del punto en donde la amplitud es máxima. Cuando movemos el
parámetro tiempo el punto hRi (t) se mueve en el espacio generando la trayectoria del centro del paquete. Por
supuesto, esta trayectoria no se puede asociar a la partı́cula cuyo estado está descrito por el paquete completo que
tiene una extensión dada5 . Sin embargo, si la extensión del paquete de ondas es mucho menor que todas las demás
longitudes involucradas en el problema, podemos aproximar el paquete de ondas por su centro y la descripción
clásica resultará una buena aproximación.
La pregunta natural es entonces si el movimiento del centro del paquete de onda obedece las leyes de la mecánica
clásica. La respuesta yace en el teorema de Ehrenfest, la primera de las Ecs. (5.55) nos dice que la velocidad del
centro del paquete es igual al momento promedio del paquete dividido por m. Por tanto la segunda de las Ecs.
(5.55) se puede escribir como
d2 hRi
m = − h∇V (R)i
dt2
por tanto, el centro del paquete seguirá una trayectoria clásica solo si la cantidad − h∇V (R)i coincide con la fuerza
clásica en el punto donde se ubica el centro del paquete
Fcl = [−∇V (r)]r=hRi
debemos observar sin embargo que − h∇V (R)i es en realidad el valor promedio de la fuerza sobre el paquete
completo, que no necesariamente debe coincidir con su valor en el centro del paquete
h∇V (R)i 6= [∇V (r)]r=hRi (5.56)
lo cual se puede expresar diciendo que el valor medio de una función no es en general igual al valor que toma cuando
se evalúa en el valor medio de la variable. Esto se puede ver con facilidad tomando un ejemplo especı́fico, sea un
potencial de la forma
V (x) = λxn (5.57)
siendo λ una constante real y n un entero positivo. La cuantización de este potencial nos lleva a
V (X) = λX n (5.58)
el lado izquierdo de (5.56) nos da

d d

V (X) = (λX n ) = λn X n−1
dx dx
en tanto que el lado derecho de (5.56) es

d d
V (x) = n
(λx ) = nλxn−1 x=hXi = λn hXin−1
dx x=hXi dx x=hXi

y en general X n−1 6= hXin−1 . Por ejemplo, para n = 3 se tiene que X 2 6= hXi2 y la diferencia entre ambas es
proporcional a la raı́z de la desviación media cuadrática definida en la Ec. (5.7).
Sin embargo, para n = 0 (partı́cula libre), n = 1 (partı́cula en un campo de fuerzas uniforme) y n = 2 (partı́cula
en un potencial parabólico i.e. un oscilador armónico), la igualdad sı́ se cumple y vemos que el centro del paquete
de onda en estos casos obedece las leyes de la mecánica clásica.
Por otro lado, aunque los dos lados de (5.56) no son en general iguales, ocurre que en algunas circunstancias
(escenarios semiclásicos) la diferencia entre ambos es despreciable, esto ocurre cuando el paquete de onda es lo
suficientemente localizado. Para verlo, escribamos el lado izquierdo de (5.56) en la base {|ri}.
Z Z
h∇V (R)i = d3 r ψ ∗ (r, t) [∇V (r)] ψ (r, t) = d3 r |ψ (r, t)|2 ∇V (r) (5.59)
asumir el paquete muy localizado equivale a decir que |ψ (r, t)| 2 es una distribución que toma valores no despreciables
solo en cierto dominio cuyas dimensiones son mucho mas pequeñas que las distancias sobre las cuales ∇V (r)
5
Nótese incluso que cada punto en esta trayectoria no necesariamente coincide con el punto de máxima densidad de probabilidad en
cada instante.
5.8. SOLUCIONES DE LA ECUACIÓN DE SCHRÖDINGER PARA SISTEMAS CONSERVATIVOS 187
varı́a apreciablemente. Por tanto, en este dominio centrado alrededor de hRi, la cantidad ∇V (r) es prácticamente
constante. En tal caso se puede reemplazar ∇V (r) en (5.59) por su valor en r = hRi y se puede sacar de la integral en
(5.59), y teniendo en cuenta que ψ (r, t) está normalizada, se obtiene que para paquetes suficientemente localizados
tenemos que
h∇V (R)i ∼= [∇V (r)]r=hRi (5.60)
es claro en particular que en el lı́mite macroscópico en el cual las longitudes de onda de De Broglie son mucho
menores que las distancias sobre las cuales los potenciales y sus gradientes varı́an, los paquetes de onda pueden ser
lo suficientemente localizados para satisfacer la Ec. (5.60) y al mismo tiempo mantener un momento bien definido.
Este último punto es muy importante, ya que no basta con que hRi se comporte de manera semejante al valor
clásico de posición para llegar a un escenario clásico, pues un paquete muy localizado en hRi implica que el paquete
de onda en el espacio de los momentos puede ser muy disperso, y tendrı́amos que aunque hPi pueda tener un
comportamiento similar al valor clásico, la dispersión de hPi significará una incertidumbre enorme en su medida lo
cual nos aleja del escenario clásico. Por tanto, es necesario que los valores de ∆r y ∆p compatibles con el principio
de incertidumbre sean mucho menores que todas las distancias y momentos involucradas en el problema, situación
que en general se cumple en los sistemas macroscópicos.
Bajo las condiciones anteriores, el movimiento del paquete de onda es prácticamente el de una partı́cula clásica
de masa m sometida al potencial V (r). Vemos como era de esperarse que la ecuación de Schrödinger genera las
soluciones clásicas con ciertas condiciones lı́mite apropiadas que en particular son satisfechas por los sistemas
macroscópicos.
5.8. Soluciones de la ecuación de Schrödinger para sistemas conservativos

En mecánica clásica, si el Hamiltoniano no depende explı́citamente del tiempo, es una constante de movimiento
en virtud de que su derivada total coincide con su derivada parcial. Si además el Hamiltoniano coincide con la energı́a
del sistema entonces la energı́a total del sistema es constante en el tiempo y hablamos de un sistema conservativo.
Es natural entonces averiguar por las propiedades de un sistema conservativo cuando cuantizamos un Hamiltoniano
que es clásicamente constante de movimiento y que corresponde a la energı́a del sistema.
Consideremos en primer lugar la ecuación de valores propios del Hamiltoniano
H |ϕn,τ i = En |ϕn,τ i (5.61)
asumiremos por simplicidad un espectro discreto. El ı́ndice τ denota la degeneración de los valores propios que puede
corresponder a varios ı́ndices. Tales ı́ndices nos fijarán los autovalores de observables que constituyen un C.S.C.O.
junto con H. Puesto que H no depende explı́citamente del tiempo, los autovalores E n y autovectores |ϕn,τ i tampoco
dependerán del tiempo.
Hemos visto para un caso especı́fico de sistema conservativo (ver sección 3.2) que la Ec. de Schrödinger se puede
solucionar a partir de este problema de valores propios. En este caso veremos que la Ec. (5.61) también se puede
utilizar para resolver la ecuación de Schrödinger. Teniendo en cuenta que H es observable, podemos expandir la
solución de la Ec. de Schrödinger en términos de la base {|ϕ n,τ i}
X
|ψ (t)i = cn,τ (t) |ϕn,τ i ; cn,τ (t) ≡ hϕn,τ |ψ (t)i (5.62)
n,τ
nótese que toda la dependencia temporal de |ψ (t)i está contenida en los c n,τ (t). Aplicando el bra hϕn,τ | sobre la
ecuación de Schrödinger y teniendo en cuenta que este bra no depende del tiempo
d
i~ hϕn,τ |ψ (t)i = hϕn,τ | H |ψ (t)i (5.63)
dt
y dada la hermiticidad de H el hermı́tico conjugado de (5.61) es
hϕn,τ | H = En hϕn,τ | (5.64)
aplicando (5.64) y la segunda Ec. (5.62) en (5.63) se obtiene
d
i~ cn,τ (t) = En cn,τ (t)
dt
la cual se puede integrar directamente para obtener
cn,τ (t) = cn,τ (t0 ) e−iEn (t−t0 )/~ (5.65)
por tanto, si H no depende del tiempo podemos encontrar a |ψ (t)i a partir de su valor inicial |ψ (t 0 )i en la siguiente
forma
(a) Expandimos el valor inicial del estado en la base de autoestados de H
XX
|ψ (t0 )i = cn,τ (t0 ) |ϕn,τ i ; cn,τ (t0 ) ≡ hϕn,τ |ψ (t0 )i (5.66)
n τ
(b) En virtud de las Ecs. (5.62) y (5.65), multiplicamos cada sumando en la expansión (5.66) por la fase e −iEn (t−t0 )/~ ,
siendo En el autovalor asociado a los autoestados |ϕ n,τ i
XX
|ψ (t)i = cn,τ (t0 ) e−iEn (t−t0 )/~ |ϕn,τ i (5.67)
n τ
para el caso de espectro contı́nuo se realiza un procedimiento análogo para obtener

XZ
|ψ (t)i = dE cτ (E, t0 ) e−iE(t−t0 )/~ |ϕE,τ i (5.68)
τ
o si la degeneración τ también es contı́nua tenemos

Z Z
|ψ (t)i = dτ dE c (τ, E, t0 ) e−iE(t−t0 )/~ |ϕE,τ i
nótese finalmente que los sumandos en (5.67) poseen fases diferentes para diferentes valores de n. Por tanto, dichas
fases son fı́sicamente relevantes y producen fenómenos de interferencia.
5.8.1. Estados estacionarios

Un caso especial importante surge cuando el estado inicial del sistema |ψ (t 0 )i coincide con un ket propio de H.
En tal caso la expansión (5.66) viene dada por autoestados de H asociados a un solo valor propio
X
|ψ (t0 )i = cn,τ (t0 ) |ϕn,τ i (5.69)
τ
y dado que no hay suma sobre n, la Ec. (5.67) para el estado |ψ (t)i queda
X
|ψ (t)i = e−iEn (t−t0 )/~ cn,τ (t0 ) |ϕn,τ i = e−iEn (t−t0 )/~ |ψ (t0 )i
τ
de modo que el estado inicial y el estado en cualquier tiempo solo difieren en una fase global fı́sicamente irrelevante.
Por tanto, todas las propiedades fı́sicas de sistemas que están inicialmente preparados en un autoestado de H,
permanecen inalteradas en el tiempo. Por esta razón a los estados propios del Hamiltoniano se les denomina estados
estacionarios.
De aquı́ surge además la manifestación cuántica de la conservación de la energı́a para sistemas conservativos. Si
en el tiempo t0 medimos la energı́a de un sistema conservativo y encontramos el valor E n , el sistema queda preparado
luego de la medición en un autoestado de H dado por (5.69) con valor propio E n . A partir de este momento se puede
aplicar la ecuación de Schrödinger tomando este autoestado de H como estado inicial, pero dado que dicho estado es
estacionario, no se genera fı́sicamente evolución temporal y para todo tiempo el estado continúa siendo autoestado
de H con energı́a En . En consecuencia, una segunda medida de la energı́a del sistema en cualquier tiempo posterior
nos dará el mismo valor de energı́a E n obtenido en la primera medición.
Finalmente, vale la pena señalar que lo anterior nos conduce a que solo hay evolución cuando la energı́a en el
estado inicial no está bien definida (de manera que hay varias fases de la forma e −iEk (t−t0 )/~ ). Esto nos llevará más
adelante a una relación de incertidumbre entre el tiempo de evolución y la energı́a.
5.8.2. Constantes de movimiento
La Ec. (5.52) nos dice que la cantidad hAi será constante de movimiento si se cumplen las condiciones
∂A
= 0 ; [A, H] = 0 (5.70)
∂t
aplicando estas condiciones en (5.52) se obtiene que
d hAi d
= hψ (t)| A |ψ (t)i = 0 (5.71)
dt dt
para cualquier estado |ψ (t)i del sistema. Es claro que si se cumplen las condiciones (5.70) el valor medio de A
será constante de movimiento6 . En consecuencia, definiremos por extensión que un observable A es constante de
movimiento si cumplen las condiciones (5.70). En palabras, un observable es constante de movimiento si no depende
explı́citamente del tiempo y conmuta con el Hamiltoniano. En particular si H no depende del tiempo (sistemas
conservativos), H como tal es constante de movimiento.
Veremos que si A es constante de movimiento hay algunas consecuencias fı́sicas adicionales. En primer lugar,
puesto que A y H son observables que conmutan, poseen un conjunto común completo de kets propios
H |ϕn,p,τ i = En |ϕn,p,τ i ; A |ϕn,p,τ i = ap |ϕn,p,τ i
de nuevo asumimos espectros discretos por simplicidad 7 . El ı́ndice τ fija los valores propios de observables que
forman un C.S.C.O. con H y A. Ahora bien, los kets |ϕ n,p,τ i son autoestados de H y por tanto son estados
estacionarios (siempre que H no dependa del tiempo). En consecuencia, si |ϕ n,p,τ i define el estado inicial del sistema,
permanecerá en este estado indefinidamente (excepto por una fase global irrelevante). No obstante, |ϕ n,p,τ i también
es ket propio de A. En consecuencia, cuando A es una constante de movimiento, existen estados estacionarios
|ϕn,p,τ i del sistema fı́sico que permanecen para todo tiempo como autoestados de A con el mismo autovalor a p . Por
esta razón a los autovalores de A se les denomina números cuánticos buenos. Es claro que si |ϕ n,p,τ i es el estado
inicial, el valor de la energı́a y de a p serán siempre el mismo sin importar el tiempo en que se midan, el orden en
que se midan (son observables compatibles), o cuantas veces se midan, además hay una certeza total en sus valores
(ambas cantidades están bien definidas y se conservan).
Ahora supongamos que el estado inicial no es del tipo |ϕ n,p,τ i, sino un ket arbitrario |ψ (t0 )i. Veremos que si el
sistema es conservativo, la probabilidad de encontrar un cierto valor a p es independiente del tiempo cuando se mide
la constante de movimiento A. Expandiendo |ψ (t 0 )i en la base {|ϕn,p,τ i} se tiene
XXX
|ψ (t0 )i = cn,p,τ (t0 ) |ϕn,p,τ i
n p τ
y aplicando el procedimiento descrito por las Ecs. (5.66) y (5.67) se obtiene
XXX
|ψ (t)i = cn,p,τ (t) |ϕn,p,τ i ; cn,p,τ (t) = cn,p,τ (t0 ) e−iEn (t−t0 )/~
n p τ
y usando el postulado de descomposición espectral, la probabilidad P (a p , t) de obtener ap cuando A se mide sobre
6

Si se pide ∂A
∂t
= h[A, H]i = 0, entonces la Ec. (5.71) solo será válida para un estado o estados especı́ficos |ψ (t)i. La idea aquı́ es
estudiar constantes de movimiento inherentes al sistema y no a condiciones iniciales especı́ficas.
7
Si en lugar de la Ec. (5.70) asumimos la condición más débil ∂A
∂t
+ [A, H] = 0, tenemos que A no conmuta en general con H. Por
tanto, aunque tal condición conduce a la conservación de hAi Ec. (5.71), no conduce a la existencia de una base común para A y H de
modo que las consecuencias fı́sicas adicionales que discutiremos aquı́, no son válidas para esta condición más débil.
el sistema en el tiempo t (y por tanto en el estado |ψ (t)i) está dado por

2
X X X
2

P (ap , t) = |hϕn,p,τ |ψ (t)i| = hϕn,p,τ | cn0 ,p0 ,τ 0 (t) ϕn0 ,p0 ,τ 0

n,τ n,τ n 0 p0 τ 0
2 2
X X
X X

= c 0 0 0 (t) hϕ ϕ 0 0 0 = c 0 0 0 (t) δ 0 δ 0 δ 0
n ,p ,τ n,p,τ n ,p ,τ n ,p ,τ n,n p,p τ,τ

n,τ n p τ
0 0 0
n,τ n p τ 0 0 0
XX X X
= |cn,p,τ (t)|2 = cn,p,τ (t) c∗n,p,τ (t)
n τ n τ
XX
−iEn (t−t0 )/~
P (ap , t) = cn,p,τ (t0 ) e c∗n,p,τ (t0 ) eiEn (t−t0 )/~
n τ
cada fase se anula y se obtiene XX

P (ap , t) = |cn,p,τ (t0 )|2 = P (ap , t0 )
n τ
lo cual prueba la independencia con el tiempo de esta distribución de probabilidad. En particular, si en t 0 el sistema
está en un autoestado de A con autovalor a m , de modo que P (ak , t0 ) = δkm , esta probabilidad no evoluciona en el
tiempo; por lo tanto, para cualquier instante se obtiene la misma medida a m , y el estado del sistema en cualquier
tiempo continúa siendo autoestado de A con valor propio a m .
5.8.3. Frecuencias de Bohr de un sistema y reglas de selección

Sea B un observable del sistema que estamos estudiando y que no necesariamente conmuta con H. La evolución
temporal de hBi está dada por la Ec. (5.52)

d 1 ∂B
hBi = h[B, H]i +
dt i~ ∂t
para un sistema conservativo el estado en cualquier instante vendrá dado por (5.67), con lo cual podemos calcular
el valor esperado de B cuando el sistema está en el estado |ψ (t)i. Para ello necesitamos el bra asociado a (5.67) el
cual viene dado por XX

hψ (t)| = c∗n0 ,τ 0 (t0 ) eiEn0 (t−t0 )/~ ϕn0 ,τ 0 (5.72)

n0 τ0
usando (5.67, 5.72) el valor esperado de B resulta

" # " #
XX
XX
hψ (t)| B |ψ (t)i = c∗n0 ,τ 0 (t0 ) eiEn0 (t−t0 )/~ ϕn0 ,τ 0 B cn,τ (t0 ) e−iEn (t−t0 )/~ |ϕn,τ i
n0 τ0 n τ
XXXX

hBi|ψ(t)i = c∗n0 ,τ 0 (t0 ) cn,τ (t0 ) ϕn0 ,τ 0 B |ϕn,τ i ei(En0 −En )(t−t0 )/~ (5.73)
n0 τ0 n τ
asumiremos de aquı́ en adelante que B no depende explı́citamente del tiempo, en tal caso los elementos matriciales
ϕn0 ,τ 0 B |ϕn,τ i son constantes. De esto y de la Ec. (5.73) se vé que la evolución temporal de hBi (t) se debe
exclusivamente a las fases, es decir a términos oscilantes con frecuencias dadas por
1 |En0 − En | |En0 − En |
νn0 ,n ≡ =
2π ~ h
tales frecuencias son caracterı́sticas del sistema bajo estudio pero son independientes del observable B considerado
y de las condiciones iniciales del sistema (descritas por los coeficientes c ∗n0 ,τ 0 (t0 ) cn,τ (t0 ) ), ya que solo dependen de
los valores propios de H.
Las frecuencias νn0 ,n se denominan las frecuencias de Bohr del sistema. Por ejemplo, para un átomo los valores
esperados de todos los parámetros atómicos (tales como momentos dipolares eléctricos y magnéticos), oscilan a las
varias frecuencias de Bohr del átomo. Es razonable imaginar que estas frecuencias pueden ser absorbidas o emitidas
por el átomo, lo cual nos permite entender intuitivamente la relación de Bohr entre las diferentes frecuencias
absorbidas o emitidas y las diferencias en las energı́as atómicas.
Puede verse de (5.73) que aunque las frecuencias involucradas en la evolución temporal de
hBi no dependen
de B, los pesos de cada frecuencia
sı́ dependen de B a través de los elementos matriciales ϕn0 ,τ 0 B |ϕn,τ i. En
particular si hay elementos ϕn0 ,τ 0 B |ϕn,τ i que sean nulos, las correspondientes frecuencias v n0 ,n estarán ausentes
de la expansión de hBi (t) sin importar cual sea el estado inicial del sistema. Este es el origen de las reglas de
selección que nos indican
las frecuencias que pueden ser emitidas o absorbidas bajo las condiciones dadas. Los
elementos de matriz ϕn ,τ B |ϕn,τ i nos dicen la importancia de cada frecuencia de Bohr.
0 0
Delo anterior vemos que el estudio de las reglas de selección proviene del cálculo de los elementos no diagonales
ϕn0 ,τ 0 B |ϕn,τ i de los diversos observables atómicos (o de cualquier otro sistema cuántico) tales como los dipolos
eléctricos y magnéticos.
Por otro lado, la Ec. (5.73) muestra que el peso completo de cada frecuencia está dado por el producto
XX ∗

W n, n0 = cn0 ,τ 0 (t0 ) cn,τ (t0 ) ϕn0 ,τ 0 B |ϕn,τ i
τ τ0
y por tanto también depende de las condiciones iniciales por medio de c ∗n0 ,τ 0 (t0 ) cn,τ (t0 ). Vale la pena anotar

que si bien la nulidad de los elementos ϕn0 ,τ 0 B |ϕn,τ i conduce a la ausencia de una frecuencia de Bohr para
cualquier estado inicial del sistema, también se puede dar la ausencia de una frecuencia por la nulidad del producto
c∗n0 ,τ 0 (t0 ) cn,τ (t0 ), es decir por ciertas condiciones iniciales especı́ficas. En particular, si el estado inicial es un estado
estacionario de energı́a Ek la expansión de |ψ (t0 )i solo contiene un valor de n (n = k) y el producto c ∗n0 ,τ 0 (t0 ) cn,τ (t0 )
solo es no nulo para n = n0 = k, en este caso hBi no depende del tiempo y no hay frecuencias de Bohr no triviales,
nótese que esta regla de selección se da por condiciones iniciales y se da para cualquier observable B.
Es interesante ver que de la Ec. (5.73) también podemos verificar que el valor esperado de una constante de
movimiento no depende del tiempo. Al ser B constante de movimiento, no depende explı́citamente del tiempo con
lo cual la dependencia temporal de hBi recae exclusivamente en las fases que contienen la energı́a en la Ec. (5.73).
Ahora bien el teorema 1.68 (pág. 50) nos dice que dado que B conmuta con H (por ser constante
de movimiento),
si |ϕn,τ i y ϕn ,τ corresponden a autovalores diferentes (E n 6= En ) entonces el producto ϕn ,τ B |ϕn,τ i es cero.
0 0 0 0 0
Por tanto para una constante de movimiento solo sobreviven los términos con n = n 0 para los cuales las fases
ei(En0 −En )(t−t0 )/~ serán iguales a la unidad y no habrá dependencia temporal.
5.8.4. Relación de incertidumbre entre tiempo y energı́a

A continuación veremos que los sistemas conservativos presentan la propiedad de que entre mayor sea la incer-
tidumbre en la energı́a, más rápida es la evolución temporal. Para ver esto, definimos ∆t como un intervalo de tiempo
caracterı́stico al final del cual el sistema ha evolucionado de forma apreciable, y ∆E denotará la incertidumbre en
la energı́a.
Veamos primero el caso en el cual la energı́a está completamente definida, esto ocurre cuando el sistema está en
un autoestado de H, de modo que ∆E = 0. Hemos visto que este estado es estacionario y que por tanto no
evoluciona, podemos considerar entonces que el tiempo para que el sistema evolucione apreciablemente es infinito,
vemos entonces que cuando ∆E = 0 se tiene que ∆t → ∞.
Ahora asumamos que el sistema en el estado inicial se encuentra en el estado |ψ (t 0 )i que es una superposición
de solo dos autoestados de H que denotamos por |ϕ 1 i , |ϕ2 i
|ψ (t0 )i = c1 |ϕ1 i + c2 |ϕ2 i (5.74)
el estado en cualquier tiempo será entonces
|ψ (t)i = c1 e−E1 (t−t0 )/~ |ϕ1 i + c2 e−E2 (t−t0 )/~ |ϕ2 i
si medimos la energı́a encontramos E 1 ó E2 . En consecuencia, la incertidumbre en la energı́a es del orden de
∆E ∼
= |E2 − E1 |
ahora consideremos un observable arbitrario B que no conmuta con H. La probabilidad de encontrar en una medida
de B en el tiempo t el valor propio bm (que asumimos no degenerado por simplicidad) asociado con el autovector
|um i nos da
P (bm , t) = |hum |ψ (t)i|2 = hum |ψ (t)i hψ (t) |um i

n h io
= hum | c1 e−E1 (t−t0 )/~ |ϕ1 i + c2 e−E2 (t−t0 )/~ |ϕ2 i
nh i o
× c∗1 eE1 (t−t0 )/~ hϕ1 | + c∗2 eE2 (t−t0 )/~ hϕ2 | |um i
n o
P (bm , t) = c1 e−E1 (t−t0 )/~ hum | ϕ1 i + c2 e−E2 (t−t0 )/~ hum | ϕ2 i
n o
× c∗1 eE1 (t−t0 )/~ hϕ1 | um i + c∗2 eE2 (t−t0 )/~ hϕ2 | um i
= c1 c∗1 hum | ϕ1 i hϕ1 | um i + c2 c∗2 hum | ϕ2 i hϕ2 | um i
+c1 c∗2 e−E1 (t−t0 )/~ eE2 (t−t0 )/~ hum | ϕ1 i hϕ2 | um i + c2 c∗1 e−E2 (t−t0 )/~ eE1 (t−t0 )/~ hum | ϕ2 i hϕ1 | um i
P (bm , t) = |c1 |2 |hum | ϕ1 i|2 + |c2 |2 |hum | ϕ2 i|2 + c1 c∗2 e(E2 −E1 )(t−t0 )/~ hum | ϕ1 i hϕ2 | um i
h i∗
+ c1 c∗2 e(E2 −E1 )(t−t0 )/~ hum | ϕ1 i hϕ2 | um i
n o
P (bm , t) = |c1 |2 |hum | ϕ1 i|2 + |c2 |2 |hum | ϕ2 i|2 + 2Re c1 c∗2 e(E2 −E1 )(t−t0 )/~ hum | ϕ1 i hϕ2 | um i (5.75)
nótese que la interferencia está dada por la diferencia entre las dos fases. Esta ecuación muestra que la probabilidad
oscila entre dos valores extremos, con una frecuencia de Bohr dada por
|E2 − E1 |
v21 =
h
vale la pena mencionar que esta frecuencia de Bohr no dependió del observable, sino de las condiciones iniciales
descritas por la Ec. (5.74), y por supuesto de los valores propios del Hamiltoniano. El tiempo caracterı́stico de
evolución será entonces un periodo de oscilación de la probabilidad
1 h h
∆t ∼
= = ∼
=
ν21 |E2 − E1 | ∆E
con lo cual se obtiene la relación
∆t · ∆E ∼
=h
Asumamos ahora que el espectro de H es contı́nuo y no degenerado. El estado inicial |ψ (t 0 )i se puede escribir
como Z
|ψ (t0 )i = dE c (E) |ϕE i
siendo |ϕE i el ket propio de H con autovalor E. Asumamos que en una gráfica de |c (E)| 2 (densidad de probabilidad
para E) vs. E, la densidad de probabilidad solo es apreciable en un intervalo [E 0 − ∆E/2, E0 + ∆E/2]. La cantidad
∆E representa entonces la incertidumbre en la energı́a del sistema (que depende del algoritmo para elegir el ancho).
El estado en un tiempo t se obtiene de (5.68)
Z
|ψ (t)i = dE c (E) e−iE(t−t0 )/~ |ϕE i
la probabilidad de obtener bm cuando se mide el observable B (de espectro discreto) en el estado |ψ (t)i es
Z 2
2

P (bm , t) = |hum |ψ (t)i| = dE c (E) e −iE(t−t 0 )/~
hum |ϕE i
Z 2
E0 +∆E/2

P (bm , t) ∼
= dE c (E) e−iE(t−t0 )/~ hum |ϕE i (5.76)
E0 −∆E/2
5.9. CONSECUENCIAS FÍSICAS DEL PRINCIPIO DE SUPERPOSICI ÓN 193
en general hum |ϕE i no varı́a en forma rápida con E cuando E varı́a alrededor de E 0 . Si ∆E es lo suficientemente
pequeño, la variación de hum |ϕE i en la integral (5.76) se puede despreciar con respecto a la variación de c (E). Con
lo cual la integral (5.76) se puede aproximar a
Z 2
E0 +∆E/2

P (bm , t) ∼ 2
= |hum |ϕE0 i| dE c (E) e−iE(t−t0 )/~
E0 −∆E/2
cuando esta aproximación es válida vemos que P (b m , t) es proporcional al cuadrado del módulo de la transformada
de Fourier de c (E). Aplicando la propiedad de incertidumbre para la transformada de Fourier, vemos que el ancho
en t de P (bm , t), es decir ∆t está relacionado con el ancho ∆E de |c (E)| 2 por medio de la relación
∆E · ∆t & h
usualmente conocida como la cuarta relación de incertidumbre de Heisenberg. Sin embargo, esta relación es diferente
a la mostrada por las componentes de R y P ya que el tiempo es un parámetro para el cual no existe un operador
cuántico asociado, y las variables H y t no son canónicamente conjugadas.
A priori podrı́a pensarse que la presencia de incertidumbre en la energı́a para un sistema conservativo, entra
en conflicto con la conservación de la energı́a. Debemos observar sin embargo, que el concepto de conservación (o
no conservación) de una cantidad fı́sica involucra la comparación entre dos o más medidas de dicha cantidad. Si el
estado inicial no es estacionario, entonces hay una incertidumbre en la energı́a, tal incertidumbre persiste y puede
evolucionar en el tiempo mientras no se realice una medida. No obstante, cuando se realiza una medida de la energı́a,
el sistema queda preparado en un estado estacionario con energı́a bien definida E n , y ya se discutió que toda medida
posterior de la energı́a dará el mismo valor E n con toda certeza. Lo mismo ocurrirá con cualquier cantidad posterior
de medidas de este observable. Tenemos entonces un principio de conservación puesto que el experimento revela que
para un sistema conservativo, las medidas de esta cantidad fı́sica en diferentes tiempos coinciden siempre. Similar
discusión se puede dar para la conservación del momento u otra cantidad fı́sica.
5.8.5. Cuarta relación de incertidumbre para un paquete de onda unidimensional

Veamos el caso de un paquete de ondas unidimensional. A la incertidumbre ∆p en el momento del paquete le
podemos asociar una incertidumbre en la energı́a de la forma
dE
∆E = ∆p ; E = ~ω ; p = ~k ⇒
dp
dω
∆E = ∆p = vg ∆p (5.77)
dk
por otra parte, el tiempo caracterı́stico de evolución ∆t es el tiempo que le toma a este paquete de onda viajando
a la velocidad vg para “pasar” un punto fijo en el espacio, es decir para que haya recorrido una longitud igual a su
extensión espacial ∆x. Por tanto
∆x
∆t ∼
= (5.78)
vg
y combinando las Ecs. (5.77, 5.78) resulta
∆E · ∆t ∼
= ∆x · ∆p & ~
5.9. Consecuencias fı́sicas del principio de superposición

El primer postulado nos dice que los estados accesibles de un sistema cuántico forman un espacio vectorial
completo, lo cual implica que la superposición lineal (incluso infinita) de estados fı́sicamente realizables también nos
da un estado fı́sicamente realizable. Veremos las consecuencias fı́sicas de este primer postulado.
Hemos mencionado ya los efectos de interferencia que surgen de este primer postulado cuando se combina con
los demás, estos fueron especialmente importantes en la explicación de la dualidad onda partı́cula. Vimos además
que la interferencia se da entre las amplitudes de probabilidad por lo cual debemos examinar tales amplitudes en
forma detallada
5.9.1. Diferencia entre superposición lineal y mezcla estadı́stica

Sean |ψ1 i y |ψ2 i dos estados normalizados ortogonales
hψ1 |ψ1 i = hψ2 |ψ2 i = 1 ; hψ1 |ψ2 i = 0
estos estados podrı́an ser por ejemplo estados propios de un observable B asociados a valores propios diferentes
b1 y b2 . Si el sistema está en el estado |ψ1 i podemos calcular todas las probabilidades concernientes a resultados
de medidas de un cierto observable A. Si asumimos por ejemplo que el autovalor a n de A es no degenerado y
denotamos |un i a su autovector asociado normalizado, la probabilidad de encontrar el valor a n cuando se mide A
sobre el sistema estando éste en el estado |ψ 1 i está dado por
P1 (an ) = |hun |ψ1 i|2
análogamente podemos medir esta probabilidad cuando el sistema está en el estado |ψ 2 i
P2 (an ) = |hun |ψ2 i|2
ahora consideremos un estado normalizado |ψi que se construye como superposición de los estados |ψ 1 i y |ψ2 i
|ψi = c1 |ψ1 i + c2 |ψ2 i ; |c1 |2 + |c2 |2 = 1 (5.79)
este vector estará normalizado si |ψ 1 i y |ψ2 i lo están. Puesto que |ψ1 i y |ψ2 i son autovectores del observable B
correspondientes a valores propios diferentes b 1 y b2 , la probabilidad de medir b1 es |c1 |2 y la de medir b2 es |c2 |2 . Con
frecuencia se dice que cuando el sistema está en el estado |ψi descrito por (5.79), entonces |c 1 |2 es la probabilidad
de encontrar al sistema en el estado |ψ 1 i y |c2 |2 es la probabilidad de encontrarlo en el estado |ψ 2 i, debe decirse sin
embargo que esto solo es cierto si se ejecuta una medida del observable B, ya que si se mide cualquier otro observable
C en general |ψ1 i y |ψ2 i no serán autoestados de C y por tanto luego de la medida el sistema no quedará en ninguno
de estos estados. En este caso se tendrá que expandir a |ψi en autoestados de C (esto es posible dado que es un
observable), y obtener los respectivos coeficientes. Esto nos muestra una vez más que el aparato de medida y la
medida misma juegan un papel muy importante en los postulados.
Volviendo a la distribución de probabilidades para b 1 y b2 , lo anterior podrı́a sugerir erróneamente que N sistemas
idénticos cada uno en el estado |ψi descrito por (5.79), equivalen a otro conjunto compuesto por N |c 1 |2 sistemas
idénticos cada uno en el estado |ψ1 i, junto con N |c2 |2 sistemas idénticos cada uno en el estado |ψ 2 i. A esto se le
denomina una mezcla estadı́stica de los estados |ψ 1 i y |ψ2 i con pesos |c1 |2 y |c2 |2 .
Para chequear esta hipótesis calcularemos la probabilidad de encontrar el autovalor a n cuando medimos A, sobre
el sistema en el estado |ψi. Si interpretamos este estado como una mezcla estadı́stica de los estados |ψ 1 i y |ψ2 i con
pesos |c1 |2 y |c2 |2 , esta probabilidad se puede calcular como la suma ponderada de probabilidades P 1 (an ) y P2 (an ) 8
?
P (an ) = |c1 |2 P1 (an ) + |c2 |2 P2 (an ) (5.80)
por otro lado, aplicando los postulados de la mecánica cuántica, esta probabilidad se calcula como
P (an ) = |hun | ψi|2
la probabilidad es el módulo al cuadrado de la amplitud de probabilidad hu n | ψi. Tal amplitud es la suma de

dos términos
hun | ψi = hun | {c1 |ψ1 i + c2 |ψ2 i} = c1 hun | ψ1 i + c2 hun | ψ2 i
el módulo al cuadrado se calcula con un procedimiento idéntico al que nos llevó a la Ec. (5.75) (excepto por la
ausencia de las exponenciales de la energı́a)
P (an , t) = |c1 |2 |hun | ψ1 i|2 + |c2 |2 |hun | ψ2 i|2 + 2Re {c1 c∗2 hun | ψ1 i hψ2 | un i}
8
Puesto que P1 (an ) es la probabilidad de obtener el valor an cuando el sistema está en el estado |ψ1 i, es claro 2 que en una mezcla
estadı́stica con N muy grande, el número de estados |ψ 1 i que arrojará a n cuando se mide A sobre los N c1 estados |ψ1 i, viene

dada por N c21 P1 (an ). Similarmente, N c22 P2 (an ) es el número de estados |ψ2 i de la mezcla estadı́stica que arrojarán el valor an
en la medición de A. Es claro entonces que la probabilidad de obtener an cuando se mide sobre la mezcla estadı́stica completa es
N |c 2
1 |P1 (an )+N |c2 |P2 (an )
2
lı́mN →∞ N
que coincide con la Ec. (5.80).
puesto que las cantidades c1 , c2 , hun | ψ1 i y hψ2 | un i son complejas podemos escribirlas en notación polar
c1 = |c1 | eiθ1 , c2 = |c2 | eiθ2 , hun | ψ1 i = |hun | ψ1 i| eiδ1

hψ2 | un i = hun | ψ2 i∗ = |hun | ψ2 i| e−iδ2
con lo cual la probabilidad queda

n o
P (an , t) = |c1 |2 |hun | ψ1 i|2 + |c2 |2 |hun | ψ2 i|2 + 2Re |c1 | |c2 | |hun | ψ1 i| |hun | ψ2 i| ei(θ1 +δ1 −θ2 −δ2 )
n o
P (an , t) = |c1 |2 |hun | ψ1 i|2 + |c2 |2 |hun | ψ2 i|2 + 2 |c1 | |c2 | |hun | ψ1 i| |hun | ψ2 i| Re ei(θ1 +δ1 −θ2 −δ2 )
quedando finalmente
P (an , t) = |c1 |2 |hun | ψ1 i|2 + |c2 |2 |hun | ψ2 i|2 + 2 |c1 | |c2 | |hun | ψ1 i| |hun | ψ2 i| cos (θ1 + δ1 − θ2 − δ2 )
que se puede reescribir como
P (an , t) = |c1 |2 P1 (an ) + |c2 |2 P2 (an ) + 2 |c1 | |c2 | |hun | ψ1 i| |hun | ψ2 i| cos (θ1 + δ1 − θ2 − δ2 )
este resultado difiere del mostrado en (5.80) en donde se consideró a |ψi como una mezcla estadı́stica. El punto es
que la mezcla estadı́stica no considera los efectos de interferencia contenidos en el producto cruzado que se obtiene
cuando se eleva al cuadrado una suma de amplitudes. El resultado muestra que la probabilidad no depende solo
de los módulos de los pesos |c1 | y |c2 | y de las amplitudes |hun | ψ1 i| y |hun | ψ2 i| sino también de sus fases relativas
θ1 , θ2 , δ1 y δ2 . Nótese sin embargo, que una fase global e iθ multiplicando al estado |ψi no afecta esta probabilidad
puesto que se elimina con su conjugado en el término de interferencia.
5.9.2. Efectos de interferencia en fotones polarizados

Consideremos fotones polarizados que se propagan en la dirección u z en los cuales el estado de polarización
está representado por el operador unitario
1
u = √ (ux + uy ) (5.81)
2
este estado es una superposición de dos estados de polarización ortogonales u x y uy . Esto representa luz polarizada
linealmente a un ángulo de π/4 con respecto a los ejes X e Y .
Si consideráramos u como una mezcla estadı́stica de los estados u x y uy con idénticos pesos, tendrı́amos que
2
N fotones en el estado u son equivalentes a N × √12 = N2 fotones en el estado ux y N2 fotones en el estado
uy . Si colocáramos en la trayectoria del haz de luz un analizador cuyo eje u 0 sea perpendicular a u (y de modo
que u, u0 generen un plano paralelo a XY), para la mezcla estadı́stica la mitad de los fotones pasarı́a el analizador.
En contraste, tanto la teorı́a cuántica como los experimentos muestran que ninguno de los N fotones en el estado
u pasa el analizador (ver sección 2.7.2).
Este ejemplo muestra que una superposición lineal de la forma (5.81) es diferente a una mezcla estadı́stica de
iguales proporciones entre los estados u x y uy . Nótese por ejemplo que la superposición en (5.81) describe un haz de
luz polarizada a π/4 de los ejes X e Y . En contraste, una mezcla estadı́stica está asociada con un haz no polarizado
puesto que el sistema contiene fotones de diferente polarización la mitad en dirección u x y la otra mitad en la
dirección uy .
La importancia de las fases relativas de los coeficientes de la expansión se puede ilustrar con los siguientes estados
de polarización
1 1 1 1
u1 = √ (ux + uy ) ; u1 = √ (ux − uy ) ; u1 = √ (ux + iuy ) ; u1 = √ (ux − iuy )
2 2 2 2
los cuales difieren solo en las fases relativas de sus coeficientes siendo estas fases 0, π, π/2 y −π/2 respectivamente.
Estos cuatro estados son fı́sicamente distintos: los dos primeros representan luz polarizada linealmente pero en direc-
ciones distintas (el primer estado es ortogonal al segundo). Los dos últimos representan luz polarizada circularmente
(dextrógira y levógira respectivamente).
5.9.3. Suma sobre los estados intermedios
Para ilustrar el uso adecuado del principio de superposición, vamos a examinar dos experimentos ilustrativos.
En esta sección asumiremos que los observables A, B, C tienen un espectro discreto y no degenerado. Asumiremos
también que todas las medidas sucesivas se hacen en intervalos de tiempo cortos, de manera que el sistema no ha
tenido tiempo de evolucionar.
Primer experimento: Asumamos que en cierto tiempo, se midió el observable A y se obtuvo el valor propio
a. El estado después de la medida será el ket propio |u a i asociado con a. Inmediatamente después medimos al
observable C que no conmuta con A y obtenemos el valor c, de modo que el sistema quedará en el estado |v c i. La
probabilidad de que habiendo obtenido el valor a en la primera medida, obtengamos en la segunda medida un valor
c está dada por
Pa (c) = |hvc |ua i|2 (5.82)
Segundo experimento: En este experimento medimos de forma sucesiva los observables A, B, y C que no
conmutan entre sı́. Si Pa (b, c) es la probabilidad de que habiendo obtenido el resultado a en la primera medida se
obtengan los valores b y c en las otras dos, tenemos que esta probabilidad es el producto
Pa (b, c) = Pa (b) × Pb (c)
es decir Pa (b, c) es la probabilidad Pa (b) de que habiendo obtenido el valor a del observable A en la primera medida,
obtengamos b en la segunda, multiplicada por la probabilidad de que habiendo obtenido un valor b del observable
B en la segunda medida obtengamos un valor c de C en la tercera. Si denotamos |w b i al ket propio de B asociado
con el valor propio b, la cantidad Pa (b, c) estará dada por
Pa (b, c) = |hvc | wb i|2 |hwb | ua i|2 (5.83)
Veamos ahora las semejanzas y diferencias entre ambos experimentos. Asumiremos que en ambos experimentos
se han obtenido los mismos valores especı́ficos de A y C. En ambos experimentos el estado después de la medición
de A es |ua i, de hecho el papel de esta medición es el de fijar a |u a i como el estado inicial. Después de la medición de
C en ambos experimentos el estado será |v c i que lo tomaremos como el estado final. Los dos experimentos coinciden
entonces en el estado inicial y en el final.
Para ambos experimentos es posible descomponer el estado justo antes de la medida de C en términos de
autovectores |wb i de B, y decir que entre los estados |u a i y |vc i el sistema puede “pasar” a través de diferentes
“estados intermedios” |wbi i. Cada uno de estos estados intermedios define un posible “camino” entre el estado inicial
|ua i y el estado final |vc i.
De aquı́ surge la diferencia fundamental entre los dos experimentos. En el primero el camino que el sistema
ha tomado para ir desde |ua i hasta |vc i no ha sido determinado experimentalmente, ya que solo hemos medido la
probabilidad Pc (a) de que comenzando en el estado |u a i terminemos en el estado |vc i. En el segundo experimento
el camino para ir desde |ua i hasta |vc i ha sido determinado experimentalmente midiendo el observable B, ya que
esta medida nos permite obtener la probabilidad P a (b, c) de que el sistema comenzando en |u a i, pase a través de
un estado intermedio dado |wb i y termine en el estado |vc i.
La idea ahora es relacionar a Pa (c) con Pa (b, c). Resulta tentador pensar que en el primer experimento el sistema
es “libre de pasar” a través de todos los estados intermedios |w b i, pareciera entonces que la probabilidad global P a (c)
es la suma de todas las probabilidades P a (b, c) asociadas con cada uno de los posibles “caminos”, esto conducirı́a a
?
X
Pa (c) = Pa (b, c) (5.84)
b
veremos que este resultado es incorrecto a la luz de los postulados de la mecánica cuántica. La manera más simple
para relacionar Pa (c) con Pa (b, c) consiste en tomar la fórmula de probabilidad P a (c) Ec. (5.82) y aplicarle la
relación de completez para la base {|w b i}
2
X

Pa (c) = |hvc |ua i|2 = hvc |wb i hwb |ua i (5.85)

b
" #" #∗
X X
Pa (c) = hvc |wb i hwb |ua i hvc |wb0 i hwb0 |ua i
b b0
XX
Pa (c) = hvc |wb i hwb |ua i hvc |wb0 i∗ hwb0 |ua i∗
b b0
es conveniente separar los términos en las componentes diagonales b = b 0 y los no diagonales

X XX
Pa (c) = hvc |wb i hwb |ua i hvc |wb i∗ hwb |ua i∗ + hvc |wb i hwb |ua i hvc |wb0 i∗ hwb0 |ua i∗
b b b0 6=b
X XX
Pa (c) = |hvc |wb i|2 |hwb |ua i|2 + hvc |wb i hwb |ua i hvc |wb0 i∗ hwb0 |ua i∗
b b b0 6=b
y teniendo en cuenta la Ec. (5.83) tenemos que

X XX
Pa (c) = Pa (b, c) + hvc |wb i hwb |ua i hvc |wb0 i∗ hwb0 |ua i∗ (5.86)
b b b0 6=b
comparando (5.86) con (5.84) vemos nuevamente que los términos cruzados que aparecen en el cuadrado del módulo
de la suma en (5.85) están ausentes en (5.84), y por tanto todos los efectos de interferencia entre los diferentes
posibles caminos.
Los argumentos anteriores nos muestran que es necesario razonar en términos de amplitudes de probabilidad
para aplicar adecuadamente el principio de superposición. Cuando los estados intermedios del sistema no están
determinados experimentalmente son las amplitudes de probabilidad y no las probabilidades las que se deben
sumar.
Para comprender mejor el error en el razonamiento que nos llevó a la Ec. (5.84), recurrimos al quinto postulado de
reducción del paquete de onda. En el segundo experimento, la medida del observable B involucra una perturbación
del sistema bajo estudio y durante la medida su ket de estado experimenta un cambio abrupto que se manifiesta
como la proyección sobre uno de los estados |w b i, esta perturbación inevitable y fundamental es la responsable de la
desaparición de los efectos de interferencia. En el primer experimento no podemos decir que el sistema fı́sico “pasa”
a través de uno u otro de los estados |w b i, es más acertado decir que el sistema pasa a través de todos los estados
|wb i en forma ponderada. Esto se puede ver teniendo en cuenta que el estado antes de la medida de B del segundo
experimento es |ua i y este también es el estado del sistema en el primer experimento antes de la medida de C, en
el primer experimento el estado antes de la medida de C es
X
|ua i = cb |wb i
b
vemos entonces que cuando no se realiza la medida de B el sistema “está en todos los estados posibles |w b i” aunque
en forma ponderada por los coeficientes c b .
De otra parte si las medidas sucesivas no se hacen en tiempos cortos, es posible realizar razonamientos similares
teniendo en cuenta la evolución del sistema con la ecuación de Schrödinger, y en todo caso la diferencia fundamental
entre superposiciones lineales de estados y mezcla estadı́stica de estados continúa existiendo (ver sección 7.1.2 Pág.
220).
Nótese que estos razonamientos son muy similares a los que se describieron en la sección 2.7 sobre el experimento
de Young de la doble rendija. En él, la densidad de probabilidad de que un fotón emitido por la fuente llegue a
un punto dado M en la pantalla se obtiene primero superponiendo linealmente los campos eléctricos radiados por
cada rendija para luego elevar al cuadrado y obtener la intensidad en M (y por tanto la densidad de probabilidad
deseada). El campo eléctrico hace las veces de la amplitud de probabilidad y la intensidad hace las veces de la
densidad de probabilidad como tal. Cuando no intentamos determinar por cual rendija pasa el fotón (es decir no
determinamos experimentalmente el “estado intermedio”), son los campos eléctricos radiados por cada rendija los que
se deben superponer linealmente y no sus intensidades, con el fin de obtener la intensidad (densidad de probabilidad)
resultante. Podemos decir entonces que el campo radiado por una rendija sobre el punto M representa la amplitud
para un fotón emitido desde la fuente (estado inicial) de pasar a través de tal rendija (estado intermedio) antes de
arrivar al punto M sobre la pantalla (estado final), pero sin la medición del estado intermedio se considera que el
fotón pasa por ambas rendijas (todos los estados intermedios accesibles).
De lo anterior podemos obtener las siguientes conclusiones
(a) Las predicciones probabilı́sticas de la teorı́a cuántica se obtienen siempre elevando al cuadrado el módulo de
una amplitud de probabilidad
(b) Cuando en un experimento particular no se mide un estado intermedio, no se debe razonar en términos de
las probabilidades de los diversos resultados accesibles que se hubieran obtenido en tales medidas. Se debe razonar
en términos de las amplitudes de probabilidad. Esto tiene que ver con que las medidas destruyen la interferencia,
dado que se obtienen valores bien definidos de un observable y un estado intermedio dado. En contraste cuando
una medida no se efectúa, el sistema está simultáneamente en todos los estados intermedios posibles y es esta
simultaneidad la que permite la interferencia.
(c) El hecho de que los estados de un sistema fı́sico se pueden superponer linealmente significa que las amplitudes
de probabilidad con frecuencia tiene la forma de una suma de amplitudes parciales. La correspondiente probabilidad
es entonces igual al módulo al cuadrado de esta suma de términos con lo cual las amplitudes parciales interfieren
entre sı́.
5.10. El principio de superposición para casos en que varios estados están

asociados a una medida
En la anterior sección hemos trabajado el caso de mediciones asociadas a valores propios no degenerados en los
cuales hay un solo estado asociado a cada medida. En este caso la probabilidad de ocurrencia de un evento se ha
escrito como el cuadrado del módulo de una suma de términos (amplitudes). No obstante, cuando hay presencia
de degeneración el cuarto postulado Ec. (4.2) nos dice que la probabilidad de obtener un valor propio degenerado
involucra una suma de cuadrados de módulos. Debe tenerse en cuenta sin embargo que cada sumando en (4.2) puede
a su vez ser el módulo al cuadrado de una suma de amplitudes. Esto implicará discutir con cuidado el uso adecuado
del principio de superposición para obtener la probabilidad asociada a valores propios degenerados.
Por otra parte, existe otro escenario importante en el cual varios estados están asociados con una medición:
cuando la resolución del aparato de medida es insuficiente (como ocurre en la realidad). Hasta el momento hemos
considerado medidas ideales pero es necesario discutir cómo las limitaciones experimentales deben ser manejadas
para obtener predicciones teóricas sobre los resultados. Esta discusión permitirá además extender el quinto postulado
de reducción del paquete de onda a los espectros contı́nuos.
5.10.1. El principio de superposición para valores propios degenerados

Cuando un valor propio an es gn −degenerado, sus kets propios linealmente independientes uin generan un
autosubespacio En de dimensión gn . En este caso, el estado en el cual queda el sistema después de obtener a n en
la medición no está unı́vocamente determinado, ya que depende del estado inicial |ψi (estado justo antes de la
medición). Si el estado inicial |ψi es dado, el estado justo después de la medición vendrá dado por la proyección
normalizada de |ψi sobre En que denotamos por |ψn i. Sin embargo, incluso cuando se obtiene la misma medida a n
esta proyección es diferente cuando cambia el vector inicial, por lo cual podemos decir que hay varios estados finales
asociados a la medida an .
La Ec. (4.2) nos dice como calcular la probabilidad P (a n ) de obtener el valor an cuando conocemos el estado
|ψi del sistema justo antes de la medición.
gn
X
i 2
P (an ) = un ψi (5.87)
i=1

para calcular esta probabilidad escogemos una base ortonormal uin del autosubespacio En y calculamos la proba-

2
bilidad uin ψi de encontrar al sistema en cada uno de los estados de esta base, la probabilidad P (a n ) será entonces
5.10. EL PRINCIPIO DE SUPERPOSICIÓN PARA CASOS EN QUE VARIOS ESTADOS EST ÁN ASOCIADOS A U

2
la suma de estas gn probabilidades. Debemos tener en cuenta que cada probabilidad uin ψi puede ser el cuadrado
del módulo de una suma de amplitudes que nos generará interferencias. Por ejemplo si el estado inicial normalizado
es de la forma
|ψi = c1 |ψ1 i + c2 |ψ2 i
cada sumando en (5.87) será de la forma

i 2
i

u ψi = c1 u ψ1 i + c2 ui ψ2 i2
n n n
con lo cual se obtienen interferencias al expandir el módulo al cuadrado.
5.10.2. Aparatos insuficientemente selectivos en la medida

Supongamos que tenemos un dispositivo para medir el observable A de un sistema fı́sico dado, y que el estado
justo antes de la medición viene dado por X
|ψi = ck,i uik (5.88)
k,i

siendo uik los estados propios de A con valor propio a k . Asumamos que el dispositivo posee las siguientes
caracterı́sticas.
(a) El dispositivo solo puede dar dos respuestas (autoresultados), que por convención denotaremos como “si” y
“no”.
(b) Si el estado inicial del sistema |ψi está en una combinación lineal cuyos valores propios yacen todos en un
intervalo dado ∆ del eje real, la respuesta será definitivamente “sı́”. En otras palabras, la respuesta es “sı́” con toda
certeza, cuando todos los ck,i no nulos de (5.88) sean tales que ak ∈ ∆.
(c) La respuesta es definitivamente “no” si el estado inicial del sistema |ψi está en una combinación lineal de
estados donde todos los valores propios asociados a los estados de la combinación lineal yacen fuera del intervalo ∆.
Vemos que ∆ define el poder de resolución del instrumento. Ası́ mismo ∆ define los autoestados asociados a los
autoresultados “si” y “no”. Si existe un solo valor propio a n de A en el intervalo ∆ el dispositivo tendrá una resolución
infinita, ya que para el sistema en un estado inicial arbitrario, la probabilidad P (si) será igual a la probabilidad de
obtener an en la medida de A. La probabilidad de obtener “no” es naturalmente P (no) = 1 − P (si).
Por otro lado, si existen varios valores propios a n de A en ∆, el dispositivo no tiene suficiente resolución para
discriminar entre estos diferentes autovalores. En este caso hablamos de un aparato o dispositivo insuficientemente
selectivo.
Para estudiar la distribución de probabilidad de P (no) , P (si) con estos dispositivos insuficientemente selectivos,
debemos primero estudiar la perturbación que estos aparatos crean sobre el sistema cuando realizan una medida.
Para caracterizar esta perturbación añadiremos la siguiente hipótesis: El dispositivo transmite sin perturbar todos
los estados propios de A asociados con autovalores incluı́dos en el intervalo ∆, ası́ como cualquier combinación lineal
de estos estados, en cambio el dispositivo bloquea los autoestados de A asociados con valores propios fuera del
intervalo ∆ ası́ como todas sus combinaciones lineales. El dispositivo actúa entonces como un filtro perfecto para
todos los estados asociados con ∆.
Ilustraremos la plausibilidad de esta hipótesis con un ejemplo. Cuando el espectro de un observable es contı́nuo,
todo dispositivo experimental para medir este espectro es siempre insuficientemente selectivo. Tomaremos en conse-
cuencia un ejemplo con espectro contı́nuo. Supongamos que queremos medir la coordenada x de un electrón que se
propaga en la dirección uz . Para ello colocamos sobre el plano XY (en z = 0) una superficie bloqueadora con una
ranura con bordes entre x1 y x2 y de ancho infinito paralelo al eje Y . Un paquete de onda que esté completamente
incluı́do entre los planos x = x1 y x = x2 , entrará a la región derecha (viniendo desde la izquierda) sin ninguna mod-
ificación (esto equivale a un “sı́”). Que el paquete de onda esté entre los planos x = x 1 y x = x2 significa que es una
superposición de autoestados de R con autovalores x, y, z donde los x están todos incluı́dos en el intervalo [x 1 , x2 ].
Por otro lado, cualquier paquete de onda situado por debajo de x = x 1 o por encima de x = x2 será bloqueado por
la superficie y no pasará a la derecha (esto equivale a un “no”).
Vemos que para un dispositivo insuficientemente selectivo, hay varios estados finales posibles luego de una
medición que ha dado la respuesta “si” incluso cuando el espectro de A es no degenerado, ya que los estados propios
de A asociados a los diferentes autovalores a k en ∆ son estados posibles finales.
Queremos estudiar cuales son las predicciones que podemos hacer con estos dispositivos cuando un sistema
fı́sico en un estado arbitrario es medido con uno de ellos. Para el ejemplo anterior cuando el paquete de onda
está completamente adentro (o afuera) del intervalo [x 1 , x2 ], la respuesta es definitivamente si (no). Debemos estudiar
las probabilidades P (si) y P (no) cuando el paquete no está completamente adentro ni completamente afuera.
Veremos que esto es equivalente a medir un observable cuyo espectro sea degenerado.
al caso de un espectro discreto. Consideremos el autosubespacio E ∆ generado
Por el momento retornaremos
por todos los autoestados uin de A cuyos valores propios yacen en el intervalo ∆. El proyector P ∆ sobre este
subespacio es
X X gn
i
i
P∆ = un un (5.89)
an ∈∆ i=1
donde hemos tenido en cuenta que las autovalores a n pueden ser degenerados. Nótese que E ∆ esta compuesto
por todos los estados accesibles del sistema después de que la medida de A ha dado el valor “si”. En términos
más matemáticos, podemos decir que la respuesta del dispositivo es definitivamente “si” cuando el estado inicial
pertenece a E∆ , es decir para cualquier estado propio de P ∆ con valor propio +1. Adicionalmente, la respuesta es
definitivamente “no” cuando el estado inicial pertenece al complemento ortogonal de E ∆ es decir cuando el estado
es autoestado de P∆ con valor propio 0. Si denotamos Ee∆ al complemento ortogonal de E∆ podemos escribir
E ]
= E∆ ⊕ Ee∆ ; |ψi = |ψ∆ i ⊕ |ψ ∆i
]
; |ψi ∈ E ; |ψ∆ i ∈ E∆ ; |ψ e
∆ i ∈ E∆ (5.90)
]
P∆ |ψi = |ψ∆ i ; P∆ |ψ∆ i = (+1) |ψ∆ i ; P∆ |ψ ]
∆ i = (0) |ψ∆ i (5.91)
donde |ψi es un estado arbitrario. Vemos entonces que las respuestas “si” y “no” que nos da nuestro dispositivo
equivalen a los autovalores +1 y 0 respectivamente del observable P ∆ . Podemos decir entonces que el dispositivo
está realmente midiendo los valores propios de P ∆ en lugar de los de A.
Con tal interpretación podemos calcular las distribuciones de probabilidad P (si) y P (no) aplicando los postula-
dos al observable P∆ que es el que realmente se está midiendo. La probabilidad P (si) es la probabilidad de obtener
el valor propio +1 para el observable P ∆ . Si el estado inicial normalizado es |ψi tal probabilidad se puede escribir
aplicando el cuarto postulado (pag. 162) y la Ec. (4.2)
X
P (si) = P (+1) = |hvm | ψi|2 ; P (no) = 1 − P (si)
m
donde {|vm i} es una base ortonormal asociada al subespacio E (+1) generado por el valor propio +1 de P∆ . De(5.91)

es claro que E(+1) es justamente E∆ ; por tanto una base ortonormal {|vm i} posible es precisamente la base uin
con an ∈ ∆, que se construyó para E∆ . Por tanto, las probabilidades quedan en la forma
gn
X X
i 2
P (si) = P (+1) = un ψi ; P (no) = 1 − P (si) (5.92)
an ∈∆ i=1
otra forma es usar las Ecs. (4.6, 5.90) donde en este caso el proyector sobre el autoespacio E (+1) = E∆ del observable
P∆ es justamente P∆
P (si) = hψ| P∆ |ψi = hψ∆ |ψ∆ i (5.93)
aplicando (5.89) en (5.93) vemos que se reproduce (5.92)
gn
" gn
#
X X i
i X X i
i
|ψ∆ i = P∆ |ψi = un un ψi ; hψ| P∆ |ψi = hψ| un un ψi (5.94)
an ∈∆ i=1 an ∈∆ i=1
gn
X X gn
X X
i
i
i 2
hψ| P∆ |ψi =
hψ un un ψi = un ψi (5.95)
an ∈∆ i=1 an ∈∆ i=1
Similarmente, puesto que el dispositivo no perturba los estados que pertenecen a E ∆ y bloquea aquellos que
pertenecen a Ee∆ , vemos que el estado del sistema después de la medición cuando ha dado un resultado “si”, es decir
5.11. DISCUSIÓN GENERAL SOBRE EL FENÓMENO DE INTERFERENCIA 201
cuando el autovalor obtenido para P ∆ es +1 está dado por |ψ∆ i pero normalizado, de las Ecs. (5.94, 5.95) se tiene
0 |ψ∆ i P∆ |ψi
ψ = = (5.96)
hψ∆ |ψ∆ i hψ| P∆ |ψi
P Pgn i
i
0 an ∈∆ i=1 un un ψi
ψ = qP (5.97)
P gm k 2
am ∈∆ k=1 |hum | ψi|
cuando ∆ contiene solo un autovalor a n de A, E∆ y P∆ se reducen a En y Pn y la resolución del aparato es infinita, en

el sentido de que las incertidumbres y perturbaciones son solo las inherentes a las leyes de la mecánica cuántica, es
decir estamos hablando de medidas ideales en el sentido cuántico. Vemos entonces que las Ecs. (4.6, 4.8) se pueden
ver como casos particulares de las Ecs. (5.93, 5.96). Nótese que la suma sobre a n en las Ecs. (5.92, 5.97) se puede ver
como una “degeneración adicional”. Se puede observar que cuando ∆ contiene varios valores propios, el problema
se asemeja a un problema con degeneración incluso si cada a n en ∆ es no degenerado, ya que en lo que concierne al
cálculo de la probabilidad Ec. (5.92), la suma sobre a n es también una suma de módulos al cuadrado al igual que
la suma sobre i.
5.11. Discusión general sobre el fenómeno de interferencia

Hemos visto que en algunos casos la probabilidad se calcula como el cuadrado del módulo de una suma de
amplitudes y en otros casos como suma de módulos cuadrados (sumas de probabilidades). Es importante dejar claro
cuando se emplea cada algoritmo.
Nuevamente el experimento de Young de la doble rendija resulta ilustrativo. Supongamos que queremos calcular
la probabilidad de que un determinado fotón golpee la pantalla en un cierto intervalo [x 1 , x2 ]. Esta probabilidad es
proporcional a la intensidad total incidente sobre todo este intervalo
Z x2 Z x2
IT = I (x) dx = |E (x)|2 dx
x1 x1
es decir es una suma de cuadrados (suma de densidades de probabilidad). No obstante, la intensidad en un punto
de la pantalla x ∈ [x1 , x2 ] es el cuadrado del campo eléctrico E (x) el cual es la superposición lineal de los campos
eléctricos EA (x) y EB (x) radiados por las dos rendijas A y B sobre el punto x en la pantalla. I (x) es entonces
|EA (x) + EB (x)|2 es decir el cuadrado de una suma. EA (x) y EB (x) son las amplitudes asociadas a los dos caminos
posibles (paso por cada rendija) que terminan en el mismo punto x. Estas amplitudes se adicionan para obtener la
amplitud en x ya que no estamos tratando de determinar por cual rendija pasa el fotón. Luego, para calcular la
intensidad total se suman estos módulos al cuadrado (suma de intensidades), es decir se suman las intensidades sobre
los diferentes puntos x, para obtener la intensidad total en el intervalo [x 1 , x2 ] (equivalente a suma de probabilidades
para obtener probabilidad total).
La anterior discusión nos muestra que la suma de amplitudes se realiza cuando partiendo desde un estado
inicial dado llegamos por diferentes caminos al mismo estado final (en este caso un punto fijo x en la pantalla).
Tendremos tantas amplitudes como caminos intermedios considerados. Una vez calculado el módulo al cuadrado
de la suma de estas amplitudes se suman estos cuadrados sobre estados finales diferentes (en este ejemplo
corresponde a sumar las intensidades sobre los diferentes puntos x del intervalo).
Resumimos el algoritmo en la siguiente forma: Se suman las amplitudes correspondientes al mismo estado final,
luego se suman las probabilidades correspondientes a estados finales ortogonales.
El hecho de que se sume sobre estados ortogonales tiene que ver con que usualmente los diferentes estados que
se usan para construı́r una base son todos ortogonales entre sı́. En general, debemos decir que se suma sobre estados
linealmente independientes.
5.12. Medición insuficiente de espectros contı́nuos

Ya mencionamos que todo dispositivo que mida un observable con espectro contı́nuo necesariamente debe ser
insuficiente, ya que ningún instrumento de medición está exento de la incertidumbre experimental. Por tanto, la
discusión sobre la aplicación de los postulados para medidas insuficientes resulta apropiado para el estudio de la
medición de espectros contı́nuos.
El ejemplo más simple y directo es la medición de la posición de una partı́cula. Nos preguntamos por la proba-
bilidad de encontrar a la partı́cula en una posición dentro de un intervalo ∆ = [x 1 , x2 ] con un dispositivo similar al
descrito anteriormente.
Asumamos que la partı́cula (sin espı́n) está en un estado |ψi. El subespacio E ∆ asociado con esta medida
es el expandido por los kets {|ri = |x, y, zi / x 1 ≤ x ≤ x2 }. Puesto que estos kets son ortonormales en el sentido
extendido, la aplicación de la regla descrita en la sección 5.11 nos dice que
Z x2 Z ∞ Z ∞ Z x2 Z ∞ Z ∞
P (x1 ≤ x ≤ x2 ) = dx dy dz |hx, y, z |ψi|2 = dx dy dz |ψ (r)|2 (5.98)
x1 −∞ −∞ x1 −∞ −∞
vemos que la Ec. (5.93) conduce al mismo resultado ya que P ∆ viene dado en este caso por
Z x2 Z ∞ Z ∞
P∆ = dx dy dz |x, y, zi hx, y, z|
x1 −∞ −∞
de modo que
Z x2 Z ∞ Z ∞
P (x1 ≤ x ≤ x2 ) = hψ| P∆ |ψi = hψ| dx dy dz |x, y, zi hx, y, z| |ψi
Z x2 Z ∞ Z ∞x1 −∞ −∞
P (x1 ≤ x ≤ x2 ) = dx dy dz hψ |x, y, zi hx, y, z| ψi (5.99)

x1 −∞ −∞
Z x2 Z ∞ Z ∞
P (x1 ≤ x ≤ x2 ) = dx dy dz |ψ (r)|2 (5.100)
x1 −∞ −∞
ahora debemos encontrar el estado |ψ 0 i después de que la medición arroje un valor “si”, es decir cuando la posición
de la partı́cula esté dentro de ∆ después de la medición. Para ello aplicamos la Ec. (5.96)
Z x2 Z ∞ Z ∞
0 P∆ |ψi 1

ψ = = dx 0
dy 0
dz 0 x0 , y 0 , z 0 x0 , y 0 , z 0 ψi
hψ| P∆ |ψi hψ| P∆ |ψi x1 −∞ −∞
Z x2 Z ∞ Z ∞
0 1
ψ = dx0 dy 0 dz 0 r0 ψ r0 ; N ≡ hψ| P∆ |ψi
N x1 −∞ −∞
donde el factor de normalización N ≡ hψ| P ∆ |ψi = P (x1 ≤ x ≤ x2 ), está dado por la Ec. (5.100). Es inmediato
encontrar la función de onda asociada a |ψ 0 i
Z Z Z
1 x2 0 ∞ 0 ∞
hr ψ 0 = dx dy dz hr r0 ψ r0
N x1
Z x2 Z−∞∞ Z−∞∞
1
ψ 0 (x, y, z) = dx0 dy 0 dz δ x − x0 δ y − y 0 δ z − z 0 ψ x0 , y 0 , z 0
N x1 −∞ −∞
Z x2
1
ψ 0 (x, y, z) = dx0 δ x − x0 ψ x0 , y, z
N x1
y como x puede estar dentro o fuera del intervalo [x 1 , x2 ] la función de onda será

ψ (x, y, z) si x1 ≤ x ≤ x2
ψ 0 (x, y, z) = (5.101)
0 si x ∈ / [x1 , x2 ]
vemos entonces que la parte de ψ (r) que corresponde al intervalo asociado al aparato de medición persiste sin
modificación, ya que el factor 1/N simplemente asegura que el estado se mantenga normalizado. El resto es suprimido
por la medición. Podemos decir entonces que el paquete de onda inicial ψ (r) de la partı́cula está siendo “truncado”
por los lı́mites de la “ranura”. Podemos entonces entender a partir de estos procesos porqué hablamos de una
reducción del paquete de onda.
Ahora bien, si tenemos un gran número de partı́culas todas en el estado |ψi, entrando sucesivamente en el
aparato, el resultado será algunas veces “si” y otras veces “no” según la distribución de probabilidad prescrita
5.13. POSTULADO DE REDUCCIÓN DEL PAQUETE DE ONDA (QUINTO POSTULADO) PARA UN ESPECTRO
anteriormente. Si la respuesta es “si”, la partı́cula sigue su camino a partir de un estado inicial “truncado” o
“reducido” dado por |ψ 0 i; si el resultado es “no” la partı́cula es absorbida por la placa colocada en el plano XY .
Es claro que cuando el espectro es contı́nuo, el dispositivo será siempre insuficientemente selectivo puesto que el
intervalo [x1 , x2 ] siempre contiene infinitos puntos por pequeño que este sea. Vale la pena sin embargo, analizar el
lı́mite cuando el ancho de este intervalo tiende a cero. Tomemos un intervalo de ancho ∆x centrado en x 0 , si ∆x lo
tomamos lo suficientemente pequeño podemos despreciar la variación de ψ (r) en x y reemplazarla por su valor en
x0 , en cuyo caso se puede integrar en x la probabilidad dada por (5.98)
Z ∞ Z ∞
∆x ∆x
P x0 − , x0 + ' ∆x dy dz |ψ (x0 , y, z)|2
2 2 −∞ −∞
dP (x0 ) = ρ (x0 ) dx
donde de acuerdo con el cuarto postulado hemos interpretado a la densidad de probabilidad asociada a x 0 como la
integral en y y z de la expresión anterior. La diferencia con la Ec. (4.7) es que en (4.7) el espectro se consideraba no
degenerado en tanto que aquı́ el espectro de X es infinitamente degenerado en E r , ya que todo vector de la forma
|x, y, zi es vector propio de X. Por esta razón, en esta densidad de probabilidad interviene una integral doble sobre
y y z.
5.13. Postulado de reducción del paquete de onda (quinto postulado) para

un espectro contı́nuo
En la discusión del quinto postulado dada en la sección 4.3.4, nos hemos restringido al caso discreto. Sin embargo,
la discusión realizada en la sección 5.12 sobre dispositivos insuficientemente selectivos nos permite extender el
postulado al caso de espectro contı́nuo. El cual estableceremos de la siguiente forma
Quinto postulado o postulado de reducción del paquete de onda (caso contı́nuo): Si estando el sistema
en un estado |ψi realizamos una medida sobre el observable A de espectro contı́nuo no degenerado, obteniendo como
resultado un valor dentro del intervalo [α 0 − ∆α, α0 + ∆α], el estado del sistema inmediatamente después de la
medida está descrito por
Z α0 + ∆α
0
ψ = P∆α (α0 ) |ψi
2
; P∆α (α0 ) ≡ dα |να i hνα |
hψ| P∆α (α0 ) |ψi α0 − ∆α
2
el proceso de reducción aparece con claridad en la Ec. (5.101), si la generalizamos a cualquier observable A de
espectro contı́nuo {α} con función de onda hν α |ψi que representa a |ψi en la base {|ν α i}. Según la Ec. (5.101)
adecuadamente generalizada, el sistema queda preparado en un estado cuya función de onda es cero fuera del
intervalo de selección y dentro de dicho intervalo conserva la forma de la función de onda original (excepto por un
factor de normalización). Sin importar que tan pequeño sea ∆α nunca obtenemos el autoestado |ν α0 i después de la
medida, el cual en la base {|να i} estarı́a representado por hνα |να0 i = δ (α − α0 ). Pues la función de onda truncada
siempre tiene un ancho finito ∆α. Finalmente, es claro que el factor de normalización debe ser mayor que la unidad.
Capı́tulo 6
Aplicación de los postulados cuando se posee

información parcial de un sistema
Hemos estudiado hasta el momento la aplicación de los postulados cuando el estado del sistema se conoce
perfectamente. Veremos dos casos en los cuales manejamos información parcial del sistema (a) cuando el sistema
está compuesto de dos o más subsistemas, y solo realizamos medidas de un subsistema especı́fico. (b) cuando
desconocemos las condiciones iniciales detalladas y solo poseemos información en forma de probabilidad, como
ocurre en la mecánica estadı́stica. Estudiaremos primero el caso (a).
6.1. Aplicación de los postulados cuando se mide un observable de un sub-

sistema
Hemos visto que cuando dos subsistemas cuánticos se condensan, podemos formar un único sistema global a
través del producto tensorial de los espacios de Hilbert asociados a cada subsistema. Nuestro propósito es estudiar el
comportamiento del sistema global cuando se realiza la medida de un observable asociado a uno de los subsistemas.
Consideremos el sistema fı́sico como compuesto de dos subsistemas (1) y (2) descritos por los espacios de Hilbert
E (1) y E (2). El espacio de estados asociado al sistema global es
E ≡ E (1) ⊗ E (2)
por ejemplo un sistema de dos electrones (sin espı́n), está descrito por una función de onda de la forma ψ (x 1 , y1 , z1 ; x2 , y2
con un ket del espacio Er (1) ⊗ Er (2). Consideremos el caso en el cual se mide un observable asociado a solo uno
de los subsistemas. Asumiremos de aquı́ en adelante que las medidas se realizarán sobre el subsistema (1) ya que
el análisis del caso en que se hace una medida sobre el subsistema (2) es totalmente análogo. El observable A e (1)
asociado a una medida sobre el subsistema (1) es la extensión tensorial del observable A (1) (ver Ec. 1.127)
e (1) ≡ A (1) ⊗ I (2)

A (6.1)
ya vimos en la sección 1.32.3 que el espectro de Ae (1) en E (1) ⊗ E (2) es idéntico al espectro de A (1) en E (1). Vimos
adicionalmente que la degeneración de cada valor propio en E (1) ⊗ E (2) es el producto de su degeneración en E (1)
por la dimensión de E (2). Esto implica que (si E (2) es de dos o más dimensiones) todo valor propio de A e (1) es
degenerado. En consecuencia, cuando se realiza una medida sobre el subsistema (1), el estado del sistema global
después de la medida dependerá tanto del resultado de la medida como del estado justo antes de ésta. Fı́sicamente,
esto se debe a que el resultado no da ninguna información sobre el subsistema (2), y por tanto el ket asociado no
constituye un C.S.C.O.
Vamos a calcular la probabilidad de obtener un valor propio dado a n en una medida del observable A e (1). Para
ello apelamos a la Ec. (4.6) pág 163
P (1) (an ) = hψ| Pen (1) |ψi (6.2)
siendo |ψi el estado (normalizado) en el que se encuentra el sistema global antes de la medición. El proyector
6.1. APLICACIÓN DE LOS POSTULADOS CUANDO SE MIDE UN OBSERVABLE DE UN SUBSISTEMA205
extendido Pen (1) se escribe en términos del proyector P n (1) en E (1) en la forma
gn
X i

Pen (1) ≡ Pn (1) ⊗ I (2) ; Pn (1) = un (1) uin (1) (6.3)
i=1

siendo uin (1) una base ortonormal en E (1) y gn la degeneración de an en E (1). Pen (1) es entonces el proyector
en E (1) ⊗ E (2) sobre el autosubespacio generado por a n en E (1) ⊗ E (2). Adicionalmente podemos expresar la
identidad de (2) usando una base ortonormal {|v k (2)i} de E (2) con lo cual Pen (1) queda
" gn # " #
X
X
Pen (1) ≡ Pn (1) ⊗ I (2) = uin (1) uin (1) ⊗ |vk (2)i hvk (2)|
i=1 k
gn X
X i

= un (1) ⊗ |vk (2)i uin (1) hvk (2)|
i=1 k
gn X
X i

e
Pn (1) = un (1) vk (2) uin (1) vk (2) (6.4)
i=1 k
aplicando este proyector en la Ec. (6.2) resulta

gn X
X

P (1) (an ) = hψ| Pen (1) |ψi = hψ| uin (1) vk (2) uin (1) vk (2) |ψi
i=1 k
gn X
X

= hψ| uin (1) vk (2)i uin (1) vk (2) ψi
i=1 k
gn X
X
i
P (1)
(an ) = hψ| Pen (1) |ψi = un (1) vk (2) ψi2 (6.5)
i=1 k
adicionalmente, el estado |ψ 0 i justo después de la medición se puede calcular empleando la Ec. (4.8) pág. 165, y
teniendo en cuenta las Ecs. (6.5, 6.4)
Pgn P i
i
0 e
ψ = q Pn (1) |ψi i=1 k un (1) vk (2) un (1) vk (2) ψi
= qP P (6.6)
gn i (1) v (2)| ψi|2
hψ| Pen (1) |ψi i=1 k |hu n k
Nótese que las Ecs. (6.2, 6.3, 6.6), nos dicen que la base ortonormal {|v k (2)i} en E (2) se puede elegir arbitrariamente
sin alterar las predicciones fı́sicas sobre los observables del subsistema (1). Esto es de esperarse, ya que al no realizarse
ninguna medida en el sistema (2), ningún conjunto de estados en E (2) es preferencial.
6.1.1. Interpretación fı́sica de los estados que son productos tensoriales

En la sección 1.32, vimos que no todos los estados en E (1) ⊗ E (2) se pueden expresar como producto tensorial
de estados en E (1) y en E (2). Estudiaremos aquı́ el significado fı́sico de los estados que sı́ son producto tensorial de
los subespacios anteriores, sea |ψi ∈ E (1) ⊗ E (2) tal que
|ψi = |ϕ (1)i ⊗ |χ (2)i = |ϕ (1) χ (2)i ; |ϕ (1)i ∈ E (1) , |χ (2)i ∈ E (2) ; k|ϕ (1)ik = k|χ (2)ik (6.7)
e (1), el estado |ψ 0 i después de la medición se
supongamos que |ψi es el estado del sistema antes de la medición de A
obtiene aplicando las Ecs. (6.6, 6.7, 6.3)
0 Pe (1) |ψi [Pn (1) ⊗ I (2)] [|ϕ (1)i ⊗ |χ (2)i]

ψ = q n =p
hψ| Pen (1) |ψi [hϕ (1)| ⊗ hχ (2)|] [Pn (1) ⊗ I (2)] [|ϕ (1)i ⊗ |χ (2)i]
0 Pn (1) |ϕ (1)i ⊗ I (2) |χ (2)i Pn (1) |ϕ (1)i ⊗ |χ (2)i
ψ = p =p
[hϕ (1)| ⊗ hχ (2)|] [Pn (1) |ϕ (1)i ⊗ I (2) |χ (2)i] hϕ (1)| Pn (1) |ϕ (1)i hχ (2)| χ (2)i
206CAPÍTULO 6. APLICACIÓN DE LOS POSTULADOS CUANDO SE POSEE INFORMACI ÓN PARCIAL DE UN
que se puede escribir como

0 0
ψ = ϕ (1) ⊗ |χ (2)i ; ϕ0 (1) ≡ p Pn (1) |ϕ (1)i
hϕ (1)| Pn (1) |ϕ (1)i
vemos que el estado posterior a la medición también es un producto tensorial tal que el estado del subsistema (1)
ha cambiado pero no el estado asociado al subsistema (2). La probabilidad P (a n ) queda en la forma
P (1) (an ) = hψ| Pen (1) |ψi = hϕ (1) χ (2)| [Pn (1) ⊗ I (2)] |ϕ (1) χ (2)i
= hϕ (1)| Pn (1) |ϕ (1)i hχ (2)| I (2) |χ (2)i
(1)
P (an ) = hϕ (1)| Pn (1) |ϕ (1)i
de lo cual se vé que P (1) (an ) no depende de |χ (2)i solo del estado |ϕ (1)i del subsistema (1). Por tanto, cuando el
estado del sistema está descrito por un producto tensorial como en la Ec. (6.7), las predicciones fı́sicas asociadas a
solo uno de los dos subsistemas, no dependen del estado del otro subsistema y se obtienen únicamente a partir del
estado del subsistema sobre el que se mide.
En consecuencia, un estado producto |ϕ (1)i ⊗ |χ (2)i describe una simple yuxtaposición de los subsistemas (1) y
(2) cada uno de ellos en los estados |ϕ (1)i y |χ (2)i respectivamente. En tal estado, se dice que los dos subsistemas
NO están correlacionados, esto implica que la medición de observables que pertenecen a uno u otro subsistema
corresponden a variable aleatorias independientes. Esto ocurre cuando los subsistemas han sido preparados en los
estados |ϕ (1)i y |χ (2)i para luego unirlos sin interacción.
6.1.2. Significado fı́sico de estados que no son productos tensoriales

Sean {|un (1)i} y {|vk (2)i} bases de E (1) y E (2) respectivamente. Si el estado |ψi no está asociado a un producto
temsorial entonces este se escribe como
X
|ψi = cn,k |un (1)i ⊗ |vk (2)i
n,k
donde hay por lo menos dos sumandos diferentes de cero. Veamos las predicciones sobre la medición de un observable
Ae (1) asociado solo al subsistema (1). En tal caso, es fácil probar que las predicciones fı́sicas no se pueden escribir solo
en términos de un estado del subsistema (1). Esto se puede ver aplicando las fórmulas (6.5, 6.6) en el contexto más
general. Esta situación corresponde entonces a la existencia de correlaciones entre los dos subsistemas, los resultados
de medidas sobre cada subsistema corresponden a variables aleatorias dependientes y que pueden ser correlacionadas.
Puede demostrarse por ejemplo que si dos subsistemas descritos por un producto tensorial se “concetan” entre sı́ por
medio de una interacción, el nuevo estado ya no será un producto tensorial.
Estudiemos primero el caso más sencillo, asumiendo que el valor propio a n obtenido en la medida es no degener-
ado, en tal caso desaparece la sumatoria sobre i en la Ec. (6.3) y en todas las demás ecuaciones. El estado después
de la medida se obtiene de (6.6) suprimiendo la suma sobre i
P P
0 k |u n (1) vk (2)i hun (1) vk (2)| ψi |un (1)i ⊗ k |vk (2)i hun (1) vk (2)| ψi
ψ = q = q
P 2 P 2
k |hu n (1) v k (2)| ψi| k |hun (1) vk (2)| ψi|
P
0 k |vk (2)i hun (1) vk (2)| ψi
ψ = |un (1)i ⊗ χ0 (2) ; χ0 (2) = q (6.8)
P 2
k |hu n (1) v k (2)| ψi|
en este caso, sin importar el estado |ψi previo a la medición del subsistema (1), el estado global posterior a la
medición de un observable no degenerado es siempre un producto tensorial. Esto es resultado se puede extender al
caso en que se realiza un conjunto de mediciones asociadas a un C.S.C.O. es decir cuando la medición es completa
con respecto a un subsistema (estas mediciones son naturalmente parciales con respecto al sistema global).
Cuando el estado del sistema global no es un producto tensorial del tipo |ϕ (1)i⊗|χ (2)i, no podemos asociar cada
ket |ϕ (1)i , |χ (2)i a los subsistemas (1) y (2) 1 . Surge entonces la pregunta de como caracterizar cada sistema parcial
1
Por ejemplo, la energı́a de un sistema compuesto no es en general la suma de las energı́as individuales ya que la interacción aporta a
dicha energı́a, además no hay una manera no ambigüa de “repartir” la energı́a total del sistema asignándole una porción a cada sistema.
6.2. OPERADOR DENSIDAD 207
en un sistema correlacionado. Esta pregunta es de gran interés si tenemos en cuenta que en general todo sistema
fı́sico ha interactuado en el pasado con otros sistemas incluso si está aislado en el momento en que estudiamos tal
sistema. Esto implica que el sistema total (sistema bajo estudio más el sistema con el que interactuó en el pasado)
no es en general un estado producto y no es posible asociar un vector de estado |ϕ (1)i con el sistema bajo estudio.
Este problema se resuelve asociando al subsistema (1) (sistema bajo estudio) un operador (operador densidad) en
lugar de un vector, volveremos sobre este punto en la sección 6.2.
Por el momento, tomaremos un caso en el cual se puede asociar un vector de estado para el sistema (1), esto
es cuando se realiza un conjunto completo de medidas del subsistema (1). Hemos visto que en tal situación, para
cualquier estado del sistema global (1) + (2) antes de la medida, un conjunto completo de medidas en E (1) coloca
al sistema global en un estado que es producto tensorial como se vé en la Ec. (6.8). El vector asociado con (1) es el
que se obtiene de manera única (salvo por un factor multiplicativo), por medio de los valores del conjunto completo
de medidas sobre (1). En consecuencia, el conjunto completo de medidas sobre (1) borra todas las correlaciones que
surgen de interacciones previas entre los dos sistemas. En particular, si en el momento de la medida el sistema (2)
está muy lejos y ya no interactúa con el sistema (1), el sistema (2) puede ser totalmente omitido para efectos de
estudiar al sistema (1).
Hemos visto que cuando el estado |ψi es un producto tensorial, el vector de estado asociado al subsistema (2),
no depende de medidas hechas sobre el sistema (1). Ahora bien, cuando el estado del sistema global es |ψi antes de
las medidas, y realizamos un conjunto completo de medidas sobre (1), la Ec. (6.8) nos muestra el estado |ψ 0 i en el
cual queda preparado el sistema global. Dicha ecuación nos muestra que cuando |ψi no es un producto tensorial, el
vector de estado |χ0 (2)i asociado al sistema (2) posterior a las medidas, depende del resultado del conjunto completo
de medidas en (1). Esto es a priori sorprendente ya que el estado del sistema (2) después de ejecutar un conjunto
completo de medidas en (1), dependerá del resultado de dichas medidas incluso si el sistema (2) está muy lejos del
sistema (1) en el momento de realizar las medidas. En otras palabras un conjunto completo de medidas sobre (1)
influirı́a sobre el sistema (2) incluso cuando éstos no interactúan. Esta paradoja ha sido ampliamente estudiada por
cinetı́ficos como Einstein, Podolsky, Rosen y Bell.
6.2. Operador densidad

Cuando conocemos completamente el estado del sistema en un cierto tiempo, podemos predecir determinı́sti-
camente el estado en cualquier tiempo posterior en tanto no se realice una medida. También podemos predecir
perfectamente probabilidades de obtener determinados resultados cuando se realizan medidas. Para determinar
completamente el estado en cierto tiempo es suficiente realizar un conjunto de medidas que formen un C.S.C.O.
Este es el caso en el experimento de polarización de fotones descrito en la sección 2.7.2 en el cual el estado de
polarización de esto es conocido perfectamente cuando el haz atravieza el polarizador.
Sin embargo, ocurre con frecuencia que el estado del sistema no está completamente determinado. Por ejemplo,
los estados de polarización de los fotones que emanan de una fuente de luz natural (no polarizada) no están bien
definidos. Otro ejemplo lo constituyen los átomos de un gas a cierta temperatura, para los cuales el valor de la energı́a
cinética de los átomos solo se conoce estadı́sticamente. La pregunta natural es cómo incorporar esta información
incompleta en el formalismo de modo que se pueda aprovechar de la mejor manera posible. Esto nos llevará a la
introducción del operador densidad que nos permitirá incorporar los resultados parciales en los postulados de la
mecánica cuántica.
6.2.1. El concepto de mezcla estadı́stica de estados

Ya hemos mencionado el concepto de mezcla estadı́stica de estados (ver sección 5.9.1, pág 194). Cuando tenemos
información incompleta de un sistema es usual utilizar el concepto de probabilidad para incorporar la información
parcial. Como ejemplo, cada estado de polarización posible para un fotón posee la misma probabilidad en un haz de
luz no polarizada. Un sistema termodinámico en equilibrio a temperatura T posee una probabilidad proporcional a
e−En /kT de estar en el estado de energı́a En .
En mecánica cuántica es usual que la información parcial se presente de la siguiente forma: Un sistema cuántico
dado posee un conjunto de estados accesibles {|ψ n i} siendo pk la probabilidad de obtener un estado especı́fico |ψ k i
donde obviamente X
pk = 1 ; 0 ≤ pk ≤ 1
k
decimos entonces que el sistema está en una mezcla estadı́stica de estados accesibles {|ψ n i} con probabilidades
{pn }. Queremos ahora hacer predicciones sobre los resultados cuando se realiza un conjunto de medidas sobre el
sistema. Si el sistema estuviera en un estado |ψ k i podrı́amos aplicar los postulados para realizar las correspondientes
predicciones. Sin embargo, dado que no tenemos certeza sobre el estado inicial sino solo una probabilidad p k de que
se encuentre en ese estado, los resultados obtenidos deben ser ponderados por el factor p k y luego sumados sobre
todos los estados accesibles en la mezcla estadı́stica.
Los estados accesibles {|ψk i} se pueden normalizar y de hecho asumiremos de aquı́ en adelante que están
normalizados. Sin embargo, estos estados no son necesariamente ortogonales.
Por otra parte será necesario distinguir en nuestro estudio dos tipos diferentes de probabilidad: (a) Probabilidad
de obtener un estado |ψk i en el tiempo inicial. En otras palabras, probabilidad de encontrar al sistema en t 0 en
unas condiciones iniciales dadas. Este tipo de probabilidad se utiliza también en mecánica estadı́stica clásica y es
inherente a la información incompleta sobre las condiciones iniciales. (b) Probabilidad de obtener ciertos resultados
cuando se realizan medidas en el sistema, esta probabilidad es eminentemente cuántica y proviene de los postulados
de la mecánica cuántica, además no desaparece incluso si determinamos perfectamente las condiciones iniciales
(estado {|ψk i}) del sistema.
Adicionalmente, es necesario diferenciar entre una mezcla estadı́stica y una superposición lineal de estados (ver
secciones 5.9.1, 5.9.3). Cuando tenemos una superposición lineal de estados
X
|ψi = ck |ψk i (6.9)
k
es frecuente decir que cuando el vector de estado es |ψi, el sistema tiene probabilidad |c k |2 de estar en el estado
|ψk i. Esto en realidad significa que cuando se realiza un conjunto de medidas que corresponden a un C.S.C.O. y que
tienen a |ψk i como autovector, la probabilidad de encontrar el conjunto de autovalores asociados con |ψ k i es |ck |2 .
Vimos en la sección 5.9.3 que un estado |ψi dado por la Ec. (6.9) no equivale simplemente a un sistema que tiene la
probabilidad |ck |2 de estar en el estado |ψk i para cada estado accesible. Esto se debe a que una combinación lineal
del conjunto {|ψk i} genera interferencias entre los estados accesibles debidas a términos cruzados de la forma c k c∗p
que surgen cuando los módulos de la amplitud de probabilidad se suman y luego se elevan al cuadrado.
Lo anterior implica que no podemos en general describir una mezcla estadı́stica a través de un “vector de estado
promedio” que sea una superposición de los estados {|ψ k i}. Como ya mencionamos, cuando tomamos una suma
ponderada de probabilidades no se obtienen términos de interferencia entre los estados accesibles de la mezcla
estadı́stica.
Ya hemos sugerido una estrategia para estudiar los estados que son una mezcla estadı́stica que es calcular las
predicciones fı́sica asociadas a cada estado |ψ k i ponderando cada estado con su probabilidad para entonces sumar
sobre los estados accesibles. Aunque este método es correcto resulta engorroso en muchos casos. Por otro lado ante
la imposibilidad de describir los estados mezclados por medio de un “vector promedio”, recurriremos a utilizar un
“operador promedio” que denominaremos operador densidad. Comenzaremso el tratamiento con el caso más sencillo
en el cual el estado del sistema es completamente conocido
6.2.2. Estados puros y operador densidad

Cuando el estado inicial es perfectamente conocido solo hay un estado accesible |ψ m i de modo que las proba-
bilidades asociadas a los estados están dadas por p k = δkm . En tal caso existe un vector de estado que describe al
sistema en cualquier instante de tiempo X
|ψ (t)i = cn (t) |un i
n
siendo {|un i} una base ortonormal en el espacio de estados, que por simplicidad asumiremos discreta. Si el estado
está normalizado los coeficientes satisfacen la relación
X
|cn (t)|2 = 1 (6.10)
n
si A es un observable, sus elementos de matriz en la base {|u n i} y su valor esperado cuando el sistema está en el
estado |ψ (t)i están dados por
hun | A |up i = Anp (6.11)

X
hAi (t) = hψ (t)| A |ψ (t)i = hψ (t)| un i hun | A |up i hup |ψ (t)i (6.12)
n,p
X
hAi (t) = c∗n (t) cp (t) Anp ; ck (t) ≡ huk |ψ (t)i (6.13)
n,p
y la evolución de |ψ (t)i se describe con la ecuación de Schrödinger

d
i~ |ψ (t)i = H (t) |ψ (t)i (6.14)
dt
siendo H (t) el Hamiltoniano del sistema. Nótese que el valor esperado de A depende cuadráticamente de los
coeficientes de Fourier como se aprecia en la Ec. (6.13). El producto de coeficientes c ∗n (t) cp (t) que aparece en dicha
ecuación se puede escribir en la forma
c∗n (t) cp (t) = hup |ψ (t)i hψ (t)| un i = hup | [|ψ (t)i hψ (t)|] |un i
de modo que este producto es claramente un elemento de la representación matricial del proyector |ψ (t)i hψ (t)| en
la base {|uk i}. Es natural entonces definir un operador ρ (t) en la forma
ρ (t) ≡ |ψ (t)i hψ (t)| (6.15)
que denominaremos operador densidad. Su representación matricial en la base {|u k i} es claramente
ρpn = hup | ρ (t) |un i = c∗n (t) cp (t) (6.16)
mostraremos a continuación que el operador densidad ρ (t), posee la misma información fı́sica que el vector de estado
|ψ (t)i. Para verlo reescribiremos las fórmulas (6.10, 6.13, 6.14) en términos de ρ (t). Sustituyendo (6.16) en (6.10)
tenemos X X X
|cn |2 = c∗n cn = 1 ⇒ ρnn = 1
n n n
de modo que la traza del operador densidad es igual a la unidad
T rρ (t) = 1 (6.17)
teniendo en cuenta las relaciones (6.11, 6.16), la Ec. (6.13) queda

X X X
hAi (t) = c∗n (t) cp (t) Anp = hup | ρ (t) |un i hun | A |up i = hup | ρ (t) A |up i
n,p n,p p
hAi (t) = T r {ρ (t) A} (6.18)
ahora calcularemos la evolución temporal de ρ (t), partiendo de la Ecuación de Schrödinger y su conjugada

d d d d
ρ (t) = [|ψ (t)i hψ (t)|] = |ψ (t)i hψ (t)| + |ψ (t)i hψ (t)|
dt dt dt dt
1 1 1 1
= H (t) |ψ (t)i hψ (t)| + |ψ (t)i hψ (t)| H (t) = H (t) ρ (t) − ρ (t) H (t)
i~ (−i~) i~ i~
d 1
ρ (t) = [H (t) , ρ (t)]
dt i~
veamos ahora como se escribe la probabilidad P (a n ) de obtener el valor an cuando se mide el observable A, en
términos del operador densidad. La Ec. (4.6) nos muestra que P (a n ) es el valor esperado del proyector P n sobre el
autoespacio generado por an
P (an ) = hψ (t)| Pn |ψ (t)i = hPn i (6.19)
y usando (6.18) en (6.19) se obtiene

P (an ) = hPn i = T r {Pn ρ (t)} (6.20)
otras propiedades del operador densidad se siguen directamente de su definición Ec. (6.15)
ρ† (t) = ρ (t) ; ρ2 (t) = ρ (t) ; T rρ2 (t) = 1
En resumen, hemos encontrado las siguientes expresiones para el operador densidad y su relación con los ob-
servables fı́sicos
hAi (t) = T r {ρ (t) A} ; P (an ) = T r {Pn ρ (t)} (6.21)
d
i~ ρ (t) = [H (t) , ρ (t)] (6.22)
dt
T rρ = 1, ρ† (t) = ρ (t) (6.23)
2 2
ρ (t) = ρ (t) ; T rρ (t) = 1 (6.24)
la primera de las Ecs. (6.21) nos expresa la conservación de la probabilidad en el lenguaje del operador densidad.
Veremos que estas ecuaciones serán también válidas en el caso de estados mezclados, excepto las Ecs. (6.24), las
cuales provienen del hecho de que para estados puros, el operador densidad es un proyector.
Para el caso de estados puros, el formalismo de operador densidad es totalmente equivalente al de vectores de
estado. No obstante, el formalismo de operador densidad posee algunas ventajas incluso para estudiar estados puros.
Por ejemplo, los estados fı́sicamente equivalentes |ψ (t)i y e iθ |ψ (t)i están asociados a un solo operador densidad
ρ (t) = |ψ (t)i hψ (t)| de modo que el operador densidad remueve la arbitrariedad introducida por la fase en el vector
de estado. Por otra parte, las Ecs. (6.21, 6.22, 6.23) muestran que las fórmulas básicas para los observables son
lineales con respecto al operador densidad ρ (t). En contraste, las Ecs. (6.12, 6.19) son cuadráticas en el vector de
estado |ψ (t)i. Veremos que la linealidad simplificará el tratamiento considerablemente.
6.2.3. Mezcla estadı́stica de estados: estados no puros

Estudiaremos ahora la incorporación del operador densidad para la caracterización de estados mezclados, en los
cuales no es posible una caracterización por vectores de estado. Sean {p k } las probabilidades de encontrar al sistema
en los cada estado accesible {|ψk i}. Estas probabilidades pk son números reales que satisfacen las condiciones
X
0 ≤ pk ≤ 1 ; pk = 1 (6.25)
k
veamos como calcular la probabilidad P (a n ) de que al medir el observable A se obtenga el valor a n . Comenzaremos
por evaluar la probabilidad Pk (an ) de obtener el valor an del observable A, cuando el sistema se encuentra en el
estado |ψk i, puesto que tal probabilidad sale directamente de los postulados
Pk (an ) = hψk | Pn |ψk i
para obtener P (an ) debemos entonces ponderar esta probabilidad con la probabilidad p k de que el sistema esté en
el estado |ψk i 2 , para luego sumar sobre todos los estados accesibles
X
P (an ) = pk Pk (an ) (6.26)
k
Pk (an ) es una probabilidad asociada a un estado puro (con vector de estado |ψ k i) de modo que podemos evaluarla
aplicando la Ec. (6.20)
Pk (an ) = T r {ρk Pn } (6.27)
siendo ρk = |ψk i hψk | el operador densidad asociado al vector de estado |ψ k i. Para obtener P (an ) en términos de
los operadores densidad ρk sustituı́mos (6.27) en (6.26)
( )
X X
P (an ) = pk T r {ρk Pn } = T r pk ρk Pn (6.28)
k k
2
Esto nos da la probabilidad de que ocurran simultáneamnte dos hechos: (a) que el estado del sistema sea |ψ k i y (b) que el valor
obtenido en la medida del observable A sea an .
obsérvese que si definimos X

ρ (t) = pk ρk (t) (6.29)
k
y sustituı́mos esta definición en (6.28), obtendremos una expresión para estados mezclados análoga a la Ec. (6.20)
para estados puros
P (an ) = T r {ρPn } (6.30)
es natural entonces definir a ρ en la Ec. (6.29), como el operador densidad asociado al sistema en un estado mezclado.
Nótese que ρ es el promedio ponderado de los operadores ρ k asociados a estados puros.
6.2.4. Propiedades generales del operador densidad

Derivaremos las propiedades del operador densidad para estados mezclados. Obviamente, tales propiedades
deben contener como caso particular las propiedades del operador densidad para estados puros, para lo cual debe
hacerse pk = δkm . Calculemos primero la traza de ρ
" #
X X X
T rρ = T r pk ρk = pk T rρk = pk = 1
k k k
donde hemos usado las Ecs. (6.29, 6.17, 6.25). La expresión para la probabilidad Ec. (6.30) coincide con la expresión
para estados puros, con la extensión apropiada del operador densidad Ec. (6.29). Veamos lo que ocurre con el valor
esperado de un observable
(" # ) (" # )
X X X X
hAi = pk hAk i = pk T r {ρk A} = T r pk ρk A = T r pk ρk A
k k k k
hAi = T r {ρA}
esto también se puede ver usando la Ec. (6.30) en la forma

( )
X X X
hAi = an P (an ) = an T r {ρPn } = T r ρ an Pn = T r {ρA}
n n n
calculemos ahora la evolución temporal del operador densidad para estados mezclados. Para ello asumiremos que
a diferencia del estado del sistema, su Hamiltoniano está bien definido. En otras palabras, el sistema como tal
está perfectamente definido aunque no lo esté su estado. Puede verse fácilmente que si en el tiempo t 0 el sistema
tiene una probabilidad pk de estar en el estado |ψk i entonces en un tiempo posterior t, tiene la misma probabilidad
de estar en el estado |ψk (t)i. Si el sistema está en el estado |ψ k i (puro) en t0 , la evolución temporal está dada por
al ecuación de Schrödinger
d
i~ |ψk (t)i = H (t) |ψk (t)i ; |ψk (t0 )i = |ψk i
dt
el operador densidad en el tiempo t está dado por
X
ρ (t) = pk ρk (t) (6.31)
k
donde hemos usado el hecho ya mencionado de que p k no evoluciona en el tiempo. Usando (6.22, 6.31) encontramos
que
" #
dρ (t) X dρk (t) X 1 1 X 1
= pk = pk [H (t) , ρk (t)] = H (t) , pk ρk (t) = [H (t) , ρ]
dt dt i~ i~ i~
k k k
dρ (t)
i~ = [H (t) , ρ]
dt
nótese que hemos usado la linealidad de las Ecs. (6.22, 6.31) con respecto a ρ k (t) para obtener la evolución temporal
de ρ. Vemos entonces que ecuación de evolución temporal es totalmente análoga a la obtenida para estados puros
Ec. (6.22).
Nótese sin embargo, que ρ definido por (6.31) no es un proyector (a menos que p k = δkm , en cuyo caso tenemos
un estado puro). Se puede verificar que cuando el estado es mezclado i.e. p k 6= δkm tenemos que
ρ2 6= ρ ; T rρ2 < 1 (6.32)
y que verificando una sola de las ecuaciones (6.24) nos dice que el sistema está en un estado puro. En conclusión,
utilizando la definición (6.31) del operador densidad ρ para estados mezclados, se obtienen las Ecs. (6.21-6.23), pero
las Ecs. (6.24) para estados puros son reemplazadas por las Ecs. (6.32) para estados mezclados.
Demostraremos adicionalmente que ρ es un operador positivo, en primer lugar es claro que ρ es hermı́tico puesto
que pk son números reales no negativos. Adicionalmente, si tomamos un ket arbitrario |ui podemos escribir
X X X
hu| ρ |ui = pk hu| ρk |ui = pk hu| ψk ihψk |ui = pk |hu| ψk i|2
k k k
hu| ρ |ui ≥ 0 (6.33)
donde hemos usado el hecho de que las probabilidades p k son no negativas. Esto demuestra que ρ es un operador
positivo.
Resumimos estos resultados en la siguiente forma: sea un sistema que está en una mezcla estadı́stica de estados
con estados accesibles {|ψk i}, cada uno de ellos asociado a una probabilidad {p k }, definimos el operador densidad
ρ con las siguientes propiedades
X
ρ (t) ≡ pk ρk (t) ; ρk (t) ≡ |ψk i hψk | (6.34)
k
†
ρ = ρ ; T rρ = 1 ; ρ es un operador positivo (6.35)
2 2
ρ (t) = ρ (t) ; T rρ (t) = 1 para estados puros (i.e. pk = δkm ) (6.36)
2 2
ρ (t) 6= ρ (t) ; T rρ (t) < 1 para estados mezclados (i.e. p k 6= δkm ) (6.37)
hAi (t) = T r {ρ (t) A} ; P (an ) = T r {Pn ρ (t)} (6.38)
d
i~ ρ (t) = [H (t) , ρ (t)] (6.39)
dt
6.2.5. Populaciones y coherencias

Veremos ahora el significado Fı́sico de los elementos matriciales ρ np de ρ en una cierta base {|un i}. Consideremos
primero los elementos diagonales ρnn . De acuerdo con (6.34) estos elementos están dados por
X X X X
ρnn = pk [ρk ]nn = pk [|ψk i hψk |]nn = pk hun |ψk i hψk | un i = pk |hun |ψk i|2
k k k k
X 2

ρnn = pk c(k)
n ; c(k)
n ≡ hun |ψk i (6.40)
k

(k) 2
los factores cn son cantidades positivas que fı́sicamente se interpretan de la siguiente manera: Si el estado del

(k) 2
sistema es |ψk i y si se mide un observable A cuyos vectores propios están dados por la base {|u n i}, entonces cn
es la probabilidad de que el sistema quede preparado en el estado |u n i después de la medida de A.
Ahora bien, la Ec. (6.40), nos dice que ρ nn es la suma ponderada (a través de las probabilidades asociadas a
los estados) de las probabilidades arriba mencionadas. En otras palabras, ρ nn representa la probabilidad promedio
de encontrar al sistema en el estado |u n i. Este promedio surge de la indeterminación que tenemos sobre el estado
inicial del sistema. Por las razones anteriores, ρ nn se conoce como la populación del estado |u n i; puesto que si
realizáramos la misma medida un número N de veces para sistemas idénticos bajo las mismas condiciones iniciales 3 ,
3
En este caso, las mismas condiciones iniciales no significan que el sistema parta siempre del mismo estado |ψ k i. Lo que significa es
que en el momento inicial para cada experimento, el sistema posee los mismo estados accesibles {|ψk i} con las mismas ponderaciones
{pk } para éstos. Podemos decir que el sistema está en la misma condición mezclada inicial, ya que para cada experimento, el operador
densidad es el mismo en el tiempo inicial.
siendo N un número muy grande, un número N ρ nn de sistemas estarán en el estado |u n i. Es claro además de la Ec.

(k) 2
(6.40), que ρnn es un número real positivo, igual a cero solo si todos los cn son cero.
Con un cálculo muy similar se encuentran los elementos no diagonales de ρ en la base {|u n i}
X
ρnp = pk c(k)
n cp
(k)∗
; c(k)
n ≡ hun |ψk i (6.41)
k
(k) (k)∗
los términos cruzados cn cp son del mismo tipo que los estudiados en la sección 5.9.1. Por tanto, ellos expresan
los efectos de interferencia entre los estados |u n i y |up i que pueden surgir cuando el estado |ψ k i es una superposición
lineal coherente de éstos estados. La Ec. (6.41) nos dice que ρ np es el promedio de éstos términos cruzados tomados
sobre todos los estados accesibles de la mezcla estadı́stica. A diferencia de las populaciones, ρ np se puede anular
incluso si los términos cruzados no son nulos, esto se debe a que estos términos cruzados son números complejos
(y no números reales no negativos como ocurre con los ρ nn ). Si un ρnp es cero, significa que hay una cancelación
estadı́stica de los efectos de interferencia entre los estados |u n i y |up i. Por otro lado, si ρnp no es cero, decimos
que existe cierta coherencia entre éstos estados. Por esta razón, a los elementos no diagonales ρ np suele llamárseles
coherencias.
Es importante mencionar que la distinción entre populaciones y coherencias depende de la base {|u n i} escogida
en el espacio de estados, o en otras paralabras del observables A para el cual construı́mos la base {|u n i} de vectores
propios. Puesto que ρ es hermı́tico, es posible encontrar una base ortonormal {|χ l i} donde ρ sea diagonal, ρ se puede
escribir entonces en la forma X
ρ= πl |χl i hχl |
l
πl los valores propios de ρ. Dado que ρ es positivo, sus valores propios son reales no-negativos y puesto que
siendo P
T rρ = l πl = 1 tenemos que X
0 ≤ πl ≤ 1 ; πl = 1
l
por tanto se puede considerar que ρ describe una mezcla estadı́stica de los estados |χ l i con probabilidades πl .
Claramente, no hay coherencias entre los estados {|χ l i}.
Usando la Ec. (6.33) se puede demostrar que
ρnn ρpp ≥ |ρnp |2
de esto se obtiene en particular, que ρ solo puede tener coherencias entre estados cuya populación es no nula.
Un caso interesante ocurre cuando la base elegida {|u n i} son autovectores del Hamiltoniano, y éste último no
depende explı́citamente del tiempo. Tenemos entonces que
H |un i = En |un i
usando la Ec. (6.39) y teniendo en cuenta que |u n i y En no dependen del tiempo (ya que el Hamiltoniano no deenden
del tiempo) se encuentra que

d d
hun | i~ ρ |up i = hun | [H, ρ] |up i ⇒ i~ hun | ρ |up i = hun | [Hρ − ρH] |up i
dt dt
dρnp dρnp
⇒ i~ = hun | [En ρ − ρEp ] |up i ⇒ i~ = (En − Ep ) hun | ρ |up i
dt dt
dρnp
i~ = (En − Ep ) ρnp
dt
conviene colocar los términos diagonales y no diagonales por aparte
dρnn dρnp
i~ = 0 ; i~ = (En − Ep ) ρnp
dt dt
de lo cual se deduce
i
ρnn (t) = constante ; ρnp = e ~ (Ep −En )t ρnp (0)
de modo que las populaciones son constantes y las coherencias oscilan a las frecuencias de Bohr del sistema.
6.3. Aplicaciones del operador densidad

6.3.1. Sistema en equilibrio termodinámico
Este ejemplo es tomado de la mecánica estadı́stica cuántica. Consideremos un sistema termodinámico en equi-
librio con un baño térmico a temperatura absoluta T . Se puede mostrar que su operador densidad es
n o
ρ = Z −1 e−H/kT ; Z ≡ T r e−H/kT
donde H es el Hamiltoniano del sistema, k la constante de Boltzmann y Z es una función de normalización (conocida
como función de partición) para mantener la traza de ρ igual a la unidad.
Vamos a calcular las populaciones y coherencias para la base ortonormal {|u n i} asociada a los autoestados del
Hamiltoniano. Los elementos matriciales de ρ estarán dados por
ρnp = Z −1 hun | e−H/kT |up i = Z −1 hun | e−Ep /kT |up i = Z −1 e−Ep /kT hun | up i
ρnp = Z −1 e−Ep /kT δnp
vemos entonces que en el equilibrio termodinámico, las populaciones de los estados estacionarios |u n i son funciones
exponencialmente decrecientes de la energı́a, además el decrecimiento es más rápido a medida que disminuye la
temperatura. Por otro lado, las coherencias entre los estados estacionarios son nulas.
6.3.2. Descripción de subsistemas con base en observables globales de un sistema: el concepto

de traza parcial
Volveremos a estudiar sistemas consistentes en dos subsistemas (1) y (2) como se describió en la sección 6.1.
Sea E (1) [E (2)] el espacio de estados del subsistema (1) [(2)], y sea {|u n (1)i} [{|vp (2)i}] una base ortonormal en
el espacio E (1) [E (2)]. El espacio de estados para el sistema global E y una base ortonormal para dicho espacio se
obtienen como
E = E (1) ⊗ E (2) ; {|un (1) vp (2)i} ≡ {|un (1)i ⊗ |vp (2)i} ≡ {|un (1)i |vp (2)i}
Sea un observable A que actúa en el espacio E. Ya hemos estudiado como extender un operador que proviene de uno
de los espacios factores. Ahora estudiaremos un proceso inverso: con base en el operador A que actúa en el espacio
producto, encontraremos un operador A (1) que actúa en el espacio E (1), y que nos permitirá hacer predicciones
fı́sicas sobre el sistema (1). Esta operación se denominará la traza parcial con respecto al sistema (2). Naturalmente,
se puede inducir análogamente el operador A (2) sobre el sistema (2) usando la traza parcial con respecto al sistema
(1).
Introduciremos el operador A (1) por medio del operador A, definiendo los elementos matriciales de A (1) en la
base {|un (1)i} de E (1)
( )
X X
hun (1)| A (1) |un0 (1)i ≡ hun (1) vp (2)| A |un0 (1) vp (2)i = hun (1)| [hvp (2)| A |vp (2)i] |un0 (1)i (6.42)
p p
como esta definición es válida para cualquier base {|u n (1)i} de E (1) tenemos
X
A (1) ≡ [hvp (2)| A |vp (2)i] (6.43)
p
si definimos la traza parcial con respecto al sistema (2) de un operador A sobre E en la forma
X
T r2 A ≡ hvp (2)| A |vp (2)i (6.44)
p
podemos escribir la definición de A (1), Ec. (6.43) en la forma
A (1) ≡ T r2 A (6.45)
6.3. APLICACIONES DEL OPERADOR DENSIDAD 215
para comprender el concepto de traza parcial, escribamos la traza “normal” de un operador A en términos de la
base {|un (1)i |vp (2)i} de E
XX
T rA = hun (1) vp (2)| A |un (1) vp (2)i (6.46)
n p
comparando (6.46) con (6.44) vemos que la apariencia de las dos ecuaciones es similar, excepto que en (6.44) solo
se suma sobre la base del sistema (2). Por esta razón, hablamos de la traza parcial de A con respecto al sistema (2).
Nótese además que la traza parcial con respecto al sistema (2) de un operador A sobre E es un operador en E (1),
en contraste con la traza normal, la cual es un número complejo.
Veamos ahora como se escribe la traza normal de A en términos de las trazas parciales sobre los sistemas (1) y
(2).
( )
XX X X
T rA = hun (1)| {hvp (2)| A |vp (2)i} |un (1)i = hun (1)| hvp (2)| A |vp (2)i |un (1)i
n p n p
X
= hun (1)| {T r2 A} |un (1)i = T r1 (T r2 A)
n
asumiendo que las sumatorias pueden intercambiarse encontramos que
T rA = T r1 (T r2 A) = T r2 (T r1 A) (6.47)
Es fácil ver que la traza parcial con respecto al sistema (1) de un operador sobre E (1) es un número complejo, e
igualmente cuando tomamos el sistema (2). Por esta razón, si tomamos la traza parcial con respecto a (1) y luego
la traza parcial con respecto a (2) (o viceversa) de un observable A sobre E, el resultado es un número complejo
como se vé en la Ec. (6.47).
Obtendremos ahora la traza (normal) de A (1) (calculada sobre E (1)). Para ello usamos la Ec. (6.43), con lo
cual se obtiene
" #
X X X XX
T rA (1) = hun | A (1) |un i = hun | hvp (2)| A |vp (2)i |un i = hun vp (2)| A |un vp (2)i
n n p n p
T rA (1) = T rA (6.48)
En conclusión la traza de A (calculada sobre E) coincide con la traza de A (1) (calculada sobre E (1)) y obviamente
también coincide con la traza de A (2) (calculada sobre E (2)).
Adicionalmente, es fácil ver a partir de la Ec. (6.43), que si A es hermı́tico entonces A (1) y A (2) también lo
son.
6.3.3. Traza parcial y operador densidad
Una de las aplicaciones de mayor interés del concepto de traza parcial se obtiene cuando lo aplicamos al operador
densidad ρ sobre E = E (1) ⊗ E (2). Puesto que la traza de ρ es igual a la unidad, la traza de ρ (1) y ρ (2) también
lo será, de acuerdo con la Ec. (6.48). Ası́ mismo, los operadores ρ (1) y ρ (2) también serán hermı́ticos y en general,
puede demostrarse que ρ (1) y ρ (2) satisfacen todas las propiedades de un operador densidad establecidas en la
sección 6.2.44 .
Sea además A (1) un observable definido sobre E (1). La Ec. (6.38) nos dice que el valor esperado del observable
4
Sin embargo, la evolución temporal de ρ (1) ó ρ (2) no viene en general dada por la Ec. (6.39).
e (1) ≡ A (1) ⊗ I2 sobre E está dado por

A
D E n o X h i
e (1)
A = T r ρA e (1) = e (1) |un (1) vp (2)i
hun (1) vp (2)| ρA
n,p
 
X X

= hun (1) vp (2)| ρ u 0 (1) vp0 (2) un0 (1) vp0 (2) (A (1) ⊗ I2 ) |un (1) vp (2)i
 0 0 n 
n,p n ,p
XX

= hun (1) vp (2)| ρ un0 (1) vp0 (2) hun0 (1)| A (1) |un (1)i vp0 (2) I2 |vp (2)i
n,p n0 ,p0
XX
= hun (1) vp (2)| ρ un0 (1) vp0 (2) hun0 (1)| A (1) |un (1)i δpp0
n,p n0 ,p0
e (1) queda
con lo cual es valor esperado de A
" #
D E X X
e (1) =
A hun (1) vp (2)| ρ |un0 (1) vp (2)i hun0 (1)| A (1) |un (1)i
n,n0 p
pero el factor dentro de paréntesis cuadrados es el elemento matricial de ρ (1), como se observa en la definición
(6.42). Con lo cual tenemos
D E X XX X
Ae (1) = [hun (1)| ρ (1) |un0 (1)i] hun0 (1)| A (1) |un (1)i = [ρ (1)]nn0 [A (1)]n0 n = [ρ (1) A (1)]nn
n,n0 n n0 n
D E
Ae (1) = T r [ρ (1) A (1)] (6.49)
comparando con la expresión

D E (6.38) vemos que la traza parcial ρ (1) nos permite calcular los valores esperados de
e
observables del tipo A (1) como si el sistema (1) estuviera aislado y tuviera a ρ (1) como su operador densidad.
Similarmente, obtenemos una expresión análoga a la segunda de las Ecs. (6.38) para calcular probabilidades asociadas
a observables del tipo A e (1), es decir para resultados de medidas realizadas solo sobre el sistema (1).
En la sección 6.1.2, vimos que no es posible asignar un vector de estado al sistema (1), si el estado del sistema
global (1) + (2) no está descrito por un producto tensorial de estados de E (1) y E (2). Esto nos muestra otra ventaja
del operador densidad: independientemente de que el sistema global esté o no esté en un producto de estados, o de
que el sistema esté en un estado puro o mezclado, siempre es posible construı́r un operador densidad ρ (1) asociado
al subsistema (1), utilizando las trazas parciales. Esto permite el cálculo de todas las cantidades asociadas solo con
el sistema (1). En contraste, para que podamos asignar un vector de estado a cada subsistema del sistema global, se
requiere que dicho sistema global esté en un estado puro y que el vector de estado que lo describe sea un producto
tensorial de vectores de cada subsistema.
Por otro lado, Se puede demostrar a partir de la Ec. (6.42) que T r ρ2 (1) no es en general igual a la unidad,
incluso si T rρ = T rρ2 = 1. Fı́sicamente, esto significa que incluso si ρ describe un estado puro, los operadores
densidad ρ (1) y ρ (2) obtenidos por trazas parciales no necesariamente describen estado puros. En otras palabras,
no es en general posible asignar un vector de estado al subsistema (1) [o al (2)], excepto en el caso en el cual el
sistema global es un estado producto.
Lo anterior nos induce a estudiar el caso en el cual el sistema global está en un estado producto
|ψi = |ϕ (1)i |χ (2)i = |ϕ (1) χ (2)i (6.50)
puesto que esto implica un estado puro, el operador densidad viene dado por la Ec. (6.15)
ρ = |ϕ (1) χ (2)i hϕ (1) χ (2)| = [|ϕ (1)i hϕ (1)|] ⊗ [|χ (2)i hχ (2)|]
esto se puede escribir en la forma
ρ = σ (1) ⊗ τ (2) (6.51)

σ (1) ≡ |ϕ (1)i hϕ (1)| , τ (2) ≡ |χ (2)i hχ (2)| (6.52)
6.3. APLICACIONES DEL OPERADOR DENSIDAD 217
Calculando las trazas parciales a partir de (6.44) se tiene que

X X
T r2 {σ (1) ⊗ τ (2)} ≡ hvp (2)| [σ (1) ⊗ τ (2)] |vp (2)i = σ (1) hvp (2)| τ (2) |vp (2)i
p p
T r2 {σ (1) ⊗ τ (2)} = σ (1) T r [τ (2)] = σ (1)
y similarmente para T r1 {σ (1) ⊗ τ (2)}, con lo cual se obtiene
T r2 {σ (1) ⊗ τ (2)} = σ (1) ; T r1 {σ (1) ⊗ τ (2)} = τ (2) (6.53)
por tanto si el operador densidad está descrito por (6.51), tal operador representa una simple yuxtaposición de un
sistema (1) descrito por el operador densidad σ(1), y un sistema (2) descrito por τ (2). No hay correlación entre
estos dos subsistemas.
Nótese que los resultados arriba mencionados dependen de la Ec. (6.51), pero no de las Ecs. (6.50, 6.52). Esto
implica que la validez de (6.53) se extiende a un contexto más general, ya que es posible encontrar estados del
sistema en los cuales ρ se puede factorizar en la forma (6.51), pero en donde los operadores factor no necesariamente
son de la forma descrita por (6.52), es decir σ (1) y τ (2) pueden corresponder a estados puros y/o mezclados. Si al
menos uno de los operadores σ (1) , τ (2) corresponde a un estado mezclado, el estado del sistema no estará descrito
por un vector de la forma (6.50). Lo anterior implica la simple yuxtaposición de dos sistemas cada uno en un estado
mezclado, pero que no están correlacionados entre sı́, y el sistema global será en general mezclado.
Capı́tulo 7
Formulaciones alternativas de la mecánica

cuántica
7.1. Operador evolución temporal: definición y propiedades

En la sección 3.3.2 vimos que la transformación que nos lleva de un estado inicial |ψ (t 0 )i al estado |ψ (t)i del
mismo sistema en un instante posterior t, es una transformación lineal descrita por la Ec. (3.21)
|ψ (t)i = U (t, t0 ) |ψ (t0 )i (7.1)
por otro lado, vimos en la sección 3.3.3, que los kets |ψ (t)i poseen la misma norma para todo tiempo, propiedad
fundamental para obtener conservación de la probabilidad. Esto implica entonces que el operador U (t, t 0 ) debe ser
unitario (debe conservar la norma). Caracterizar este operador conocido como operador evolución temporal, es en
todo sentido equivalente fı́sicamente a resolver la ecuación de Schrödinger. Una primera propiedad que se desprende
directamente de la definición Eq. (7.1) es que
U (t0 , t0 ) = I (7.2)
escribiendo la Ec. de Schrödinger en el lenguaje de los kets y usando la Eq. (7.1) se tiene
d
i~ |ψ (t)i = H (t) |ψ (t)i (7.3)
dt

∂
i~ U (t, t0 ) |ψ (t0 )i = H (t) U (t, t0 ) |ψ (t0 )i
∂t
y teniendo en cuenta que el estado inicial es en principio arbitrario, podemos escribir
∂
i~ U (t, t0 ) = H (t) U (t, t0 ) (7.4)
∂t
vemos que (7.4) es una ecuación diferencial de primer orden para U (t, t 0 ) que debe cumplir la condición inicial (7.2).
Las Ecs. (7.2, 7.4) se pueden sintetizar en una sola ecuación integral
Z
i t
U (t, t0 ) = I − H t0 U t0 , t0 dt0
~ t0
La Ec. (7.1) es válida para todos los valores de t y t 0 (de momento no hemos introducido causalidad), por tanto
podemos escribir
|ψ (t1 )i = U (t1 , t0 ) |ψ (t0 )i (7.5)

|ψ (t2 )i = U (t2 , t1 ) |ψ (t1 )i (7.6)
y sustituyendo (7.5) en (7.6) se tiene
|ψ (t2 )i = U (t2 , t1 ) [U (t1 , t0 ) |ψ (t0 )i]

|ψ (t2 )i = [U (t2 , t1 ) U (t1 , t0 )] |ψ (t0 )i (7.7)
7.1. OPERADOR EVOLUCIÓN TEMPORAL: DEFINICIÓN Y PROPIEDADES 219
de la misma forma, la acción de U (t2 , t0 ) se puede escribir usando (7.1)
|ψ (t2 )i = U (t2 , t0 ) |ψ (t0 )i (7.8)
y puesto que |ψ (t2 )i y |ψ (t0 )i son arbitrarios, la comparación de las Ecs. (7.7, 7.8) nos da
U (t2 , t0 ) = U (t2 , t1 ) U (t1 , t0 ) (7.9)
este procedimiento se puede generalizar para escribir
U (tn , t0 ) = U (tn , tn−1 ) U (tn−1 , tn−2 ) . . . U (t2 , t1 ) U (t1 , t0 ) (7.10)
donde t0 , t1 , . . . , tn son arbitrarios. Si asumimos causalidad i.e. t 0 < t1 < . . . < tn , la Ec. (7.10) se puede interpretar
diciendo que el sistema evoluciona desde t 0 pasando progresivamente por los estados intermedios t 1 , t2 , . . .,tn−1 hasta
llegar a tn . Si usamos t0 = t2 en (7.9) y tenemos en cuenta (7.2) llegamos a
U (t2 , t2 ) = I = U (t2 , t1 ) U (t1 , t2 )

U (t1 , t2 ) = U −1 (t2 , t1 ) (7.11)
es importante insistir en que t1 y t2 son arbitrarios y no se ha asumido causalidad. La relación (7.11) es sin embargo
muy lógica desde el punto de vista causal.
Veremos como es el operador evolución temporal infinitesimal, es decir el que conecta a un tiempo t con un
tiempo t + dt, para ello escribimos la ecuación de Schrödinger (7.3) en forma diferencial
i
i~ d |ψ (t)i = H (t) |ψ (t)i dt ⇒ [|ψ (t + dt)i − |ψ (t)i] = − H (t) |ψ (t)i dt ⇒
~
i
|ψ (t + dt)i = I − H (t) dt |ψ (t)i (7.12)
~
de la definición de operador evolución temporal se tiene
|ψ (t + dt)i = U (t + dt, t) |ψ (t)i (7.13)
comparando (7.12) con (7.13) se tiene que

i
U (t + dt, t) = I − H (t) dt
~
vemos que el operador infinitesimal de evolución temporal es unitario a primer orden ya que H es hermı́tico

† i
U (t + dt, t) = I + H (t) dt ⇒
~

i i
U (t + dt, t) U † (t + dt, t) = I − H (t) dt I + H (t) dt
~ ~

U (t + dt, t) U † (t + dt, t) = I + O (dt)2
una transformación unitaria finita se obtiene con sucesivas transformaciones infinitesimales, este proceso de inte-
gración solo requiere términos de primer orden ya que los de segundo orden continúan yendo a cero cuando se toma
el lı́mite. Por tanto, el operador finito de evolución temporal será también unitario como tenı́a que ser
U † (t1 , t2 ) = U −1 (t1 , t2 ) = U (t2 , t1 )

220 CAPÍTULO 7. FORMULACIONES ALTERNATIVAS DE LA MEC ÁNICA CUÁNTICA
7.1.1. Operador evolución temporal para sistemas conservativos

Cuando H no es función del tiempo, la Ec. (7.4) junto con la condición inicial (7.2) se pueden integrar para
obtener
U (t, t0 ) = e−iH(t−t0 )/~ (7.14)
es fácil verificar que este operador es unitario y que U (t 0 , t) = U −1 (t, t0 ). La unitariedad de U (t, t0 ) (y por tanto
la conservación de la probabilidad) está directamente relacionada con la hermiticidad de H. Una vez más, vemos el
papel clave de la hermiticidad del Hamiltoniano en la conservación de la probabilidad. A manera de consistencia,
vamos a encontrar la Ec. (5.67) a partir de la Ec. (5.66) aplicando el operador evolución temporal para sistemas
conservativos. La Ec. (5.66) es una expansión del estado inicial del sistema en la base |ϕ n,τ i de estados propios del
Hamiltoniano XX
|ψ (t0 )i = cn,τ (t0 ) |ϕn,τ i ; cn,τ (t0 ) ≡ hϕn,τ |ψ (t0 )i (7.15)
n τ
al aplicar el operador evolución temporal a un |ϕ n,τ i queda
X∞ k X∞ k
−iH(t−t0 )/~ 1 i 1 i
U (t, t0 ) |ϕn,τ i = e |ϕn,τ i = − H (t − t0 ) |ϕn,τ i = − (t − t0 ) H k |ϕn,τ i
k! ~ k! ~
k=0 k=0
∞
X 1 k ∞
X 1 k
i i
= − (t − t0 ) Enk |ϕn,τ i = − En (t − t0 ) |ϕn,τ i
k! ~ k! ~
k=0 k=0
−iEn (t−t0 )/~
U (t, t0 ) |ϕn,τ i = e |ϕn,τ i (7.16)
aplicando U (t, t0 ) a ambos lados de la Ec. (7.15) y teniendo en cuenta que este operador es lineal tenemos
XX
U (t, t0 ) |ψ (t0 )i = cn,τ (t0 ) U (t, t0 ) |ϕn,τ i
n τ
XX
|ψ (t)i = cn,τ (t0 ) e−iEn (t−t0 )/~ |ϕn,τ i (7.17)
n τ
donde hemos usado (7.16). Esta ecuación coincide con (5.67).
7.1.2. Observaciones adicionales sobre el operador evolución temporal (opcional)

Cuando H depende explı́citamente del tiempo podrı́amos pensar en analogı́a con la ecuación (7.14), que el
operador evolución temporal es igual al operador V (t, t 0 ) dado por
Rt
− ~i H(t0 ) dt0
V (t, t0 ) = e t0
sin embargo, esto no es correcto en general, dado que la derivada de un operador de la forma e F (t) no es en general
igual a F 0 (t) eF (t) (ver Eq. 1.146, pag. 69) de modo que en este caso
∂V (t, t0 )
i~ 6= H (t) V (t, t0 )
∂t
Consideremos ahora los experimentos descritos en la sección 5.9.3 en los cuales se llegaba desde el mismo estado
inicial |ua i hasta el mismo estado final |vc i de dos maneras: (1) Efectuando medidas de los observables A y C
obteniendo dichos estados y (2) Efectuando sucesivamente medidas de los observables A, B y C donde para el
estado intermedio se obtiene |wb i. En la discusión de la sección 5.9.3 se asumió que las medidas se hacı́an en
intervalos muy cortos de modo que el sistema no tenı́a tiempo de evolucionar. Ahora asumiremos que las medidas se
hacen en intervalos en los cuales la evolución temporal es apreciable. Para el primer caso asumimos que el sistema
está en el estado |ua i en t0 , y |vc i en t2 . Para el segundo caso asumimos que el sistema está en el estado |u a i en t0 ,
en el estado |wc i en t1 y finalmente en el estado |vc i en t2 . Es decir t0 , t1 y t2 definen los tiempos en que se realizan
las medidas.
En tal situación, la Ec. (5.82) se convierte en
2 2
Pa (c) = hvc | ψ t−
2 i = |hvc | U (t2 , t0 ) |ua i| (7.18)
7.2. BRAS, KETS Y OBSERVABLES EQUIVALENTES 221

donde ψ t− 2 es el estado del sistema que evoluciona
desde |u a i en t0 hasta el instante justo antes de la medida
de C, por eso la notación t− , es claro que ψ t+ = |vc i (estado justo después de la medida de C). La Ec. (5.83)
2 2
queda 2
Pa (b, c) = hvc | φ t− hwb | ψ t− i2 = |hvc | U (t2 , t1 ) |wb i|2 |hwb | U (t1 , t0 ) |ua i|2
2 i 1 (7.19)

siendo φ t2 el estado
−
delsistema justo antes de la medida de C, cuando el sistema evoluciona a partir del estado
|wb i en t1 . El estado ψ t− 1 describe al sistema justo antes de la medida de B cuando evoluciona desde |u a i en t0 .
Ahora usando la Ec. (7.9) se tiene
hvc | U (t2 , t0 ) |ua i = hvc | U (t2 , t1 ) U (t1 , t0 ) |ua i

X
hvc | U (t2 , t0 ) |ua i = hvc | U (t2 , t1 ) |wb i hwb | U (t1 , t0 ) |ua i (7.20)
b
sustituyendo (7.20) en la Ec. (7.18), y comparando el resultado con la Ec. (7.19), se puede verificar que al igual que
en la ecuación (5.86) se tiene que X
Pa (c) 6= Pa (b, c)
b
7.2. Bras, kets y observables equivalentes

A través de la discusión de los postulados de la mecánica cuántica y sus consecuencias, hemos observado que
las predicciones de la mecánica cuántica tales como valores accesibles de un observable, probabilidades, valores
esperados del observable etc. están expresados en términos de ecuaciones de valores propios y productos escalares,
es decir expresiones de la forma
A |ηi = a |ηi ; m = hφ| A |ψi (7.21)
donde |ηi , |φi , |ψi se refiere a estados arbitrarios del sistema y A es un observable (operador hermı́tico comple-
to). Desde este punto de vista los bras, kets y observables (entendidos estos últimos como operadores hermı́ticos
completos) no son cantidades medibles sino solo herramientas para calcular los verdaderos observables fı́sicos (val-
ores propios y productos escalares). Esto es análogo a lo que ocurre con los potenciales escalar y vectorial en
electrodinámica los cuales son excelentes herramientas pero no corresponden a observables fı́sicos.
Esto indica que si los kets, bras y observables se redefinen de manera que no se alteran los valores propios ni los
productos escalares, tendremos una imagen diferente pero totalmente equivalente fı́sicamente desde el punto de vista
de los postulados. La alternativa más evidente para hacer este cambio de imagen es el uso de operadores unitarios
ya que estos no alteran el valor del producto interno. Vamos a reexpresar el producto interno en (7.21) insertando
operadores identidad a través de un operador unitario I = O † O = OO †
h i
hφ| A |ψi = hφ| O † O A O † O |ψi = hφ| O † OAO † [O |ψi]

hφ| A |ψi = hOφ| OAO † |Oψi (7.22)
ahora redefinimos los operadores, kets y bras en la forma

A0 ≡ OAO † ; ψ 0 ≡ |Oψi = O |ψi ; ψ 0 ≡ hOψ| = hψ| O † (7.23)
y combinando las Ecs. (7.22, 7.23) es claro que

hφ| A |ψi = φ0 A0 ψ 0 (7.24)
adicionalmente puede verificarse que el espectro de valores propios de A 0 coincide con el de A, y los vectores propios
de A0 están dados por |η 0 i ≡ O |ηi , siendo |ηi los kets propios de A

A |ηi = a |ηi ⇒ OA |ηi = aO |ηi ⇒ OA O † O |ηi = aO |ηi ⇒ OAO † [O |ηi] = a [O |ηi]

A |ηi = a |ηi ⇒ A0 η 0 = a η 0 ; A0 ≡ OAO † ; η 0 ≡ O |ηi
En conclusion, los nuevos bras, kets y operadores mantienen intactos los valores propios y productos internos
asociados con los observables fı́sicos y por tanto describen la misma Fı́sica que los bras, kets y operadores originales.
7.2.1. La transformada de un operador y sus propiedades

Si tomamos la igualdad expresada en (7.24) para los elementos de una base del espacio

hui | A |uj i = u0i A0 u0j
E

tal igualdad se puede interpretar diciendo que el elemento matricial A 0ij de A0 en la base u0j coincide con el
elemento matricial Aij de A en la base |uj i; siendo ambas bases ortonormales (conectadas por una transformación
unitaria). En este contexto se dice que A 0 es la transformada del operador A. La transformada A 0 posee propiedades
muy útiles, ya vimos que el espectro de ambos operadores es idéntico y sus vectores propios están conectados por
una transformación unitaria. Las siguientes propiedades se obtienen de la definición
† † 0
A0 = OAO †
= OA† O † = A†
†
A = A † ⇔ A 0 = A0
de modo que la hermiticidad se preserva con esta relación. Vemos además que la transformada de A está conectada
con A por una transformación de similaridad, con el requerimiento de que el operador que realiza la transformación
sea unitario. Como las transformaciones de similaridad preservan el producto, es claro que
n
A0 = (An )0
y usando la definición para una función F (A) del operador A, Ec. (1.129) se obtiene

F 0 (A) = F A0 (7.25)
donde en este caso F 0 (A) significa la transformada de la función F (A) con respecto al operador O, y no la derivada
de F (A) “con respecto a A” (ver notación en la sección 1.34.1 Eq. 1.135). Para los conmutadores de las transformadas
de dos operadores A y B tenemos
0 0 h i
A ,B = OAO † , OBO † = OAO † OBO † − OBO † OAO †

= OA O † O BO † − OB O † O AO † = OABO † − OBAO † = O (AB − BA) O †
0 0
A ,B = O [A, B] O † = [A, B]0 (7.26)
de modo que el conmutador de las transformadas es la transformada del conmutador. Si el conmutador es propor-
cional a la identidad (observables conjugados) tenemos

[Q, P ] = αI ⇒ Q0 , P 0 = O [Q, P ] O † = αOIO † = αI

[Q, P ] = αI ⇒ Q0 , P 0 = [Q, P ] (7.27)
el caso más importante son los observables X, P para los cuales vemos que el conmutador de sus transformadas
X 0 , P 0 , es idéntico al de los operadores originales.
7.3. La imagen de Schrödinger y la imagen de Heisenberg

Denotaremos a los kets, bras y observables originalmente utilizados en la mecánica cuántica como |ψ S i , hψS | ,
AS ; indicando que están en la “imagen de Schrödinger”. En esta imagen, los observables básicos X, P no dependen
del tiempo y los observables que se construyen con ellos solo pueden tener dependencia explı́cita con el tiempo
(excluiremos el espı́n por ahora) de modo que A S = AS (X, P, t), simplificaremos la notación a A S = AS (t). La
evolución temporal del estado en la imagen de Schrödinger se obtiene a través de la ecuación de Schrödinger (de
allı́ el nombre de la imagen) o equivalentemente, a través del operador evolución temporal Ec. (7.1)
|ψS (t)i = U (t, t0 ) |ψS (t0 )i ⇒ |ψS (t0 )i = U † (t, t0 ) |ψS (t)i (7.28)
7.3. LA IMAGEN DE SCHRÖDINGER Y LA IMAGEN DE HEISENBERG 223
donde hemos tenido en cuenta que U (t, t 0 ) es unitario, y por tanto también lo es U † (t, t0 ). Nótese que definiendo a
O ≡ U † (t, t0 ) como el operador unitario para transformar bras, kets y observables, según la Ec. (7.23), vemos que
la Ec. (7.28) nos conduce a que los nuevos bras y kets serán independientes del tiempo. Denotaremos a los nuevos
bras, kets y operadores con el subı́ndice H para indicar “la imagen de Heisenberg”. Usando O ≡ U † (t, t0 ) en las
Ecs. (7.23) y aplicando la Ec. (7.28) se obtiene
|ψH i ≡ U † (t, t0 ) |ψS (t)i = |ψS (t0 )i ; hψH | ≡ hψS (t)| U (t, t0 ) = hψS (t0 )| (7.29)
†
AH ≡ U (t, t0 ) AS (t) U (t, t0 ) (7.30)
la Ec. (7.29) nos muestra que en la imagen de Heisenberg, los kets y bras no poseen evolución temporal y su
valor coincide con el del estado en la imagen de Schrödinger en t 0 . Por otro lado, incluso los observables A que en
la imagen de Schrödinger no dependen del tiempo, adquieren dependencia temporal en la imagen de Heisenberg
como se aprecia en la Ec. (7.30). Se tiene entonces que la evolución temporal en la imagen de Heisenberg recae
completamente en los operadores.
Calculemos la evolución temporal del operador A H (t) para un operador arbitrario AS (t). Derivando la Ec.
(7.30) y usando la Ec. (7.4) ası́ como su adjunta, se tiene que
dAH (t) dU † (t, t0 ) dAS (t) dU (t, t0 )
= AS (t) U (t, t0 ) + U † (t, t0 ) U (t, t0 ) + U † (t, t0 ) AS (t)
dt dt dt dt
dAH (t) 1 † † dA S (t)
= − U (t, t0 ) HS (t) AS (t) U (t, t0 ) + U † (t, t0 ) U (t, t0 )
dt i~ dt
1
+ U † (t, t0 ) AS (t) HS (t) U (t, t0 )
i~
insertando un operador identidad apropiadamente tenemos
dAH (t) 1 h i dAS (t)
= − U † (t, t0 ) HS (t) U (t, t0 ) U † (t, t0 ) AS (t) U (t, t0 ) + U † (t, t0 ) U (t, t0 )
dt i~ dt
1 h i
+ U † (t, t0 ) AS (t) U (t, t0 ) U † (t, t0 ) HS (t) U (t, t0 )
i~
dAH (t) 1 h † ih i dAS (t)
= − U (t, t0 ) HS (t) U (t, t0 ) U † (t, t0 ) AS (t) U (t, t0 ) + U † (t, t0 ) U (t, t0 )
dt i~ dt
1 h † ih i
+ U (t, t0 ) AS (t) U (t, t0 ) U † (t, t0 ) HS (t) U (t, t0 )
i~
dAH (t) 1 † dAS (t) 1
= − HH (t) AH (t) + U (t, t0 ) U (t, t0 ) + AH (t) HH (t)
dt i~ dt i~

dAH (t) dAS (t)
i~ = [AH (t) , HH (t)] + i~ (7.31)
dt dt H
una ecuación muy similar a la ecuación para un observable clásico u (q, p) que es función del espacio de fase q, p, en
donde tenemos corchete de Poisson en lugar de conmutador (ver Ec. 5.53). A manera de consistencia, veremos que
es fácil reproducir la Ec. (5.52) teniendo en cuenta que por construcción
hAi (t) = hψS (t)| AS (t) |ψS (t)i = hψH | AH (t) |ψH i
teniendo en cuenta la Ec. (7.31) y el hecho de que en la imagen de Heisenberg los estados no dependen del tiempo
se tiene

d hAi (t) dAH (t) 1 dAS (t)
= hψH | |ψH i = hψH | [AH (t) , HH (t)] + |ψH i
dt dt i~ dt H

d hAi (t) 1 dAS (t)
= h[AH (t) , HH (t)]iH + (7.32)
dt i~ dt H H
una vez más, por construcción estas cantidades son iguales al caso en que todo lo evaluamos en la imagen de
Schrödinger, de modo que sustituyendo el subı́ndice H por S en la Ec. (7.32), se reproduce la Ec. (5.52). Nótese
sin embargo, que la expresión (7.31) es más general que la Ec. (5.52) ya que la última es válida solo para valores
esperados en tanto que (7.31) es válida para los operadores como tal.
7.3.1. Algunos sistemas simples en la imagen de Heisenberg

Tomemos el caso de una partı́cula no-relativista unidimensional de masa m sometida a un potencial del tipo
V (XS , t). Usando la Ec. (7.25), tenemos que
PS2 P2
HS (t) = + V (XS , t) ; HH (t) = H + V (XH , t) (7.33)
2m 2m
la Ec. (7.27) nos dice que
[XH , PH ] = [XS , PS ] = i~ (7.34)
sustituyendo (7.33, 7.34) en (7.31) se obtiene la evolución temporal de los operadores X H , PH

dXH (t) dXS PH2
i~ = [XH (t) , HH (t)] + i~ = XH (t) , + V (XH , t)
dt dt H 2m

PH2 PH PH PH
= XH (t) , = [XH (t) , PH ] + [XH (t) , PH ] = i~
2m 2m 2m m
dXH (t) PH
=
dt m

dPH (t) dPS PH2
i~ = [PH (t) , HH (t)] + i~ = PH (t) , + V (XH , t)
dt dt H 2m
= [PH (t) , V (XH , t)] = −i~∂XH V (XH , t)
dPH (t) ∂V (XH , t)
= −
dt ∂XH
donde se ha usado la Ec. (1.139) pág. 67. Hemos obtenido entonces la evolución temporal de los observables básicos
en la imagen de Heisenberg
dXH (t) PH dPH (t) ∂V (XH , t)
= ; =− (7.35)
dt m dt ∂XH
estas ecuaciones son una generalización del teorema de Ehrenfest Ec. (5.55), ya que estas ecuaciones son válidas
para los operadores como tal y no solo para sus valores esperados.
Vemos que la analogı́a con las ecuaciones clásicas es más fuerte en la imagen de Heisenberg. En la imagen de
Schrödinger, la analogı́a aparece solo cuando se toman los valores esperados de los observables. En contraste, en la
imagen de Heisenberg la analogı́a aparece directamente en la ecuaciones de movimiento para los observables.
Un sistema simple de amplio interés ocurre cuando el sistema es conservativo (H S es independiente del tiempo),
y el observable AS conmuta con el Hamiltoniano HS . Para sistemas conservativos, el operador evolución temporal
está dado por (7.14)
i
U (t, t0 ) = e− ~ HS (t−t0 )
si AS conmuta con HS también conmuta con eαHS de modo que conmuta con U (t, t0 ). El observable asociado en la
imagen de Heisenberg queda entonces
AH (t) = U † (t, t0 ) AS (t) U (t, t0 ) = U † (t, t0 ) U (t, t0 ) AS (t) = AS (t)
En conclusión, si el sistema es conservativo y A S conmuta con HS , los observables en las imágenes de Schrödinger y
de Heisenberg coinciden. Como caso particular, H S = HH para sistemas conservativos. Nótese que no es necesario
que AS sea constante de movimiento, ya que en general hemos permitido que A S (t) sea función explı́cita del tiempo.
7.4. La imagen de interacción

Consideremos un sistema fı́sico descrito por un Hamiltoniano H 0S en la imagen de Schrödinger. Denotaremos el
operador evolución temporal asociado a H 0S como U0 (t, t0 ) de modo que se cumplen las Ecs. (7.4)
∂U0 (t, t0 )
i~ = H0S (t) U0 (t, t0 ) ; U0 (t0 , t0 ) = I (7.36)
∂t
7.4. LA IMAGEN DE INTERACCIÓN 225
asumimos ahora que el sistema es “perturbado” por cierta interacción adicional, de modo que el Hamiltoniano se
modifica en la forma
HS (t) = H0S (t) + WS (t) (7.37)
definiremos una transformación unitaria para kets, bras y observables a través del operador evolución temporal del
“Hamiltoniano no perturbado” H0S . Por tanto, los nuevos kets, bras y observables se definirán como
|ψI (t)i ≡ U0† (t, t0 ) |ψS (t)i ; hψI (t)| ≡ hψS (t)| U0 (t, t0 ) ; AI ≡ U0† (t, t0 ) AS U0 (t, t0 ) (7.38)
nótese que en ausencia de perturbación i.e. cuando W S (t) = 0, el ket |ψI (t)i es independiente del tiempo (y todo
coincide con la imagen de Heisenberg). No obstante, la presencia de W S (t) hace que |ψI (t)i tenga aún dependencia
temporal. Coloquialmente, podemos decir que el operador unitario elegido, “absorbe” la dependencia temporal del
ket debida a H0S dejándonos solo con la dependencia temporal causada por W S (t). Ya veremos que las ecuaciones de
movimiento apoyan esta visión cualitativa de la situación. Las Ecs. (7.36, 7.37, 7.38), describen lo que se denomina
la “imagen de interacción”.
Primero describiremos la dinámica de los kets |ψ I (t)i en la imagen de interacción. Derivando la primera de las
Ecs. (7.38) resulta
d |ψI (t)i dU † (t, t0 ) d |ψS (t)i
i~ ≡ i~ 0 |ψS (t)i + i~U0† (t, t0 )
dt dt dt
y usando las Ecs. (7.36, 7.3) tenemos
d |ψI (t)i
i~ ≡ −U0† (t, t0 ) H0S (t) |ψS (t)i + U0† (t, t0 ) HS (t) |ψS (t)i
dt h i
= −U0† (t, t0 ) H0S (t) U0 (t, t0 ) U0† (t, t0 ) |ψS (t)i
h i
+U0† (t, t0 ) HS (t) U0 (t, t0 ) U0† (t, t0 ) |ψS (t)i
d |ψI (t)i h ih i
i~ = − U0† (t, t0 ) H0S (t) U0 (t, t0 ) U0† (t, t0 ) |ψS (t)i
dt h ih i
+ U0† (t, t0 ) HS (t) U0 (t, t0 ) U0† (t, t0 ) |ψS (t)i
d |ψI (t)i n oh i
i~ = U0† (t, t0 ) [HS (t) − H0S (t)] U0 (t, t0 ) U0† (t, t0 ) |ψS (t)i
dt h ih i
= U0† (t, t0 ) WS (t) U0 (t, t0 ) U0† (t, t0 ) |ψS (t)i
quedando finalmente
d |ψI (t)i
i~ = WI (t) |ψI (t)i (7.39)
dt
de modo que la evolución temporal del ket |ψ I (t)i en la imagen de interacción está regida solo por el término de
perturbación como se habı́a anticipado. Es fácil demostrar que la ecuación diferencial (7.39) es equivalente a la
ecuación integral dada por
Z
1 t 0
|ψI (t)i = |ψI (t0 )i + dt WI t0 ψI t0 (7.40)
i~ t0
teniendo en cuenta la Ec. (7.38) y el hecho de que U 0 (t0 , t0 ) = I, obtenemos la condición
|ψI (t0 )i = |ψS (t0 )i
la ecuación integral (7.40) se puede resolver por iteración de manera que |ψ I (t)i queda escrita como una expansión
en series de potencias integrales de W I (t)
( Z 2 Z t Z t1 )
1 t 1
|ψI (t)i = I + dt1 WI (t1 ) + dt1 WI (t1 ) dt2 WI (t2 ) + . . . |ψI (t0 )i (7.41)
i~ t0 i~ t0 t0
Estudiemos ahora la evolución temporal de los observables en esta imagen. Para esto se deriva en el tiempo la
segunda de las ecuaciones (7.38), el procedimiento es muy similar al realizado para obtener la Ec. (7.31), el único
detalle a tener en cuenta es que aquı́ se usa U 0 (t, t0 ) que está asociado a H0S , de modo que el análogo a la Ec.
(7.31) queda
dAI (t) dAS (t)
i~ = [AI (t) , H0I (t)] + i~ (7.42)
dt dt I
las ecuaciones de evolución (7.39) y (7.42) muestran que los kets de estado tienen solo a W I (t) como fuente de cambio,
en tanto que los operadores tiene solo a H 0I como fuente de cambio. Cada parte del Hamiltoniano contribuye a
uno u otro cambio, a diferencia de la imágen de Schrödinger en donde la dinámica de los kets está regida por el
Hamiltoniano completo, o la de Heisenberg en la cual la dinámica de los operadores se rige por el Hamiltoniano
completo.
Es notable que la Ec. (7.39) para los kets, se asemeja a la ecuación de Schrödinger en la imagen del mismo
nombre, aunque en la Ec. (7.39) solo aparece la perturbación. Análogamente, la Ec. (7.42) para los operadores se
asemeja a la Ec. (7.31) en la imagen de Heisenberg, aunque en (7.42) solo aparece el Hamiltoniano no perturbado.
Si por ejemplo, WS (t) es mucho menor1 que H0S (t), la dinámica del vector |ψI (t)i es mucho mas “suave” que
la dinámica de |ψS (t)i. Este hecho facilita el uso de diversos métodos de aproximación. En la práctica, esta imagen
resulta útil cuando H0S es un Hamiltoniano suficientemente simple para conocer su solución analı́tica, de modo que
WS (t) se considera una perturbación que se puede evaluar por diferentes métodos. Dado que los operadores toman
sus valores no perturbados (que en principio se asumen conocidos), podemos concentrarnos solo en la evolución de
los kets |ψI i que en general tienen una evolución suave. Por ejemplo H 0S puede ser la energı́a cinética (solución de
partı́cula libre como caso no perturbado) y W S (t) puede ser la energı́a potencial, o H 0S puede ser la energı́a cinética
más una parte de la energı́a potencial que sea suficientemente simple, y W S (t) contiene interacciones externas
adicionales más complejas.
1
Naturalmente, la comparación entre dos observables se refiere en realidad a la comparación entre su valores propios.
Capı́tulo 8
El oscilador armónico cuántico
El oscilador armónico es un sistema de gran importancia en la fı́sica clásica. Tal importancia radica en el hecho
de que todo movimiento acotado alrededor de un punto de equilibrio estable puede ser aproximado a un movimiento
armónico simple, siempre que las oscilaciones sean suficientemente pequeñas. La cuantización del oscilador armónico
aparece en el nacimiento mismo de la mecánica cuántica, ya que la hipótesis de Planck consistió en cuantizar los
modos normales que están asociados a osciladores armónicos en el interior de un cuerpo negro. Adicionalmente, las
pequeñas oscilaciones alrededor del equilibrio también están presentes en el mundo microscópico, como es el caso
de las vibraciones de moléculas diatómicas o de los átomos alrededor del punto de equilibrio en un red cristalina,
etc. Puesto que en estos casos las “elongaciones” alrededor del equilibrio son comparables a la longitud de onda de
De Broglie de los objetos que vibran, es claro que las correcciones cuánticas serán importantes para estos sistemas
que se comportan como osciladores armónicos.
8.1. Propiedades generales del oscilador armónico cuántico unidimensional

El Hamiltoniano cuantizado del oscilador armónico será de la forma
P2 1
H= + mω 2 X 2
2m 2
puesto que H no es función del tiempo, el oscilador armónico cuántico define un sistema conservativo. En conse-
cuencia, el estudio mecánico cuántico de dicho sistema se reduce al estudio de su ecuación de valores propios
H |ϕi = E |ϕi
que en la base {|xi} se escribe como

~2 d2 1 2 2
− + mω x ϕ (x) = E ϕ (x)
2m dx2 2
antes de resolver en detalle la ecuación de valores propios vale la pena mencionar que la forma del potencial
1 2 1
V (x) = kx = mω 2 x2
2 2
nos permite obtener algunas propiedades generales de las soluciones. En primer lugar, los autovalores del Hamil-
toniano son positivos, ya que se puede mostrar que en general si la función potencial tiene una cota inferior, los
autovalores E de un Hamiltoniano de la forma
P2
H= + V (X)
2m
son mayores que el mı́nimo de V (x) de modo que si V (x) ≥ V m ⇒ E > Vm . Para nuestro caso Vm = 0 y por tanto
E > 0.
Las autofunciones de H en la base {|xi} tienen paridad definida. Esto es debido a que el potencial es una función
par
V (−x) = V (x)
228 CAPÍTULO 8. EL OSCILADOR ARMÓNICO CUÁNTICO
podemos buscar autofunciones de H en la base {|xi} con paridad definida. Veremos que esto combinado con el hecho
de que el espectro no es degenerado nos conduce a que las funciones de onda asociadas con los estados estacionarios
son necesariamente pares o impares.
El espectro de energı́a es discreto, cualquiera que sea el valor total de la energı́a, el movimiento clásico está lim-
itado a un intervalo acotado, y se puede demostrar que en este caso los autovalores son discretos.
Veremos ahora el problema de valores propios en detalle.
8.2. El problema de valores propios del Hamiltoniano

Veremos que el espectro de energı́as de la ecuación de valores propios
H |ϕi = E |ϕi
se puede resolver con base en las relaciones canónicas de conmutación
[X, P ] = i~
por conveniencia utilizaremos los siguientes operadores adimensionales

r
b≡ mω P
X X ; Pb ≡ √ (8.1)
~ m~ω
con los cuales, las relaciones canónicas de conmutación quedan

h i
b Pb = i
X, (8.2)
y el Hamiltoniano se puede escribir en la forma

b
H = ~ω H ; b≡1 X
H b 2 + Pb2 (8.3)
2
podemos entonces simplificar la ecuación de valores propios en la forma

b ϕi = ε ν ϕi
H ν ν
donde tanto el operador H b como los valores propios εν son adimensionales. Los ı́ndices ν, i pueden ser (por el
momento) contı́nuos o discretos y el ı́ndice i nos indica el grado de degeneración.
b y Pb fueran números, podrı́amos escribir H b en (8.3) de la forma H b Pb
b = X+i b Pb
X−i
Nótese que si X √ √
2
, es decir
2
como el producto de dos funciones lineales. Sin embargo, dado que X b y Pb son operadores no conmutantes, esta
factorización no es correcta. Sin embargo, veremos que la redefinición de estos operadores lineales nos simplifica
considerablemente el problema de valores propios, definiremos entonces
1 b 1 b
a ≡ √ X + iPb ; a† ≡ √ X − iPb (8.4)
2 2
r r
mω P † mω P
a = X + i√ ; a = X − i√ (8.5)
2~ 2m~ω 2~ 2m~ω
cuya inversa se escribe como
b = 1 i
X √ a† + a ; Pb = √ a† − a (8.6)
2 2
r r
~ † m~ω †
X = a +a ; P =i a −a (8.7)
2mω 2
8.2. EL PROBLEMA DE VALORES PROPIOS DEL HAMILTONIANO 229
el conmutador de a† y a se calcula con las reglas canónicas de conmutación

h i 1hb i h i h i
a, a† = b − iPb = 1 X
X + iPb, X b − i X
b + iPb, X b + iPb , Pb
2 2 2
1 h b b i i h b b i i h b bi i h b b i
= X, X + P, X − X, P − iP , P
2 2 2 2
h
i b b i h
i b b i h i
= P, X + P , X = i Pb, X b
2 2
y usando la Ec. (8.2) queda h i
a, a† = I (8.8)
esta relación es entonces equivalente a las reglas canónicas de conmutación. Ahora queremos escribir el Hamiltoniano
en términos de los operadores a, a† , para ello calculamos primero el producto a † a 1
1b
b + iPb = 1 X

a† a = X − iPb X b 2 + Pb2 + iX
b Pb − iPbX
b
2 2
1 h i
a† a = b 2 + Pb 2 + i X,
X b Pb
2
1 b 2 b2
a† a = X +P −I (8.9)
2
de aquı́ en adelante reemplazamos la identidad I por el número 1 lo cual no es causa de ambigüedad. Nótese que la
presencia del término adicional I/2 es debido a la no conmutatividad de Xb y Pb. Comparando (8.3) con (8.9) vemos
que el Hamiltoniano adimensional será
Hb = N + 1 ; N ≡ a† a (8.10)
2
es claro que el nuevo operador N es Hermı́tico
† †
N † = a† a = (a)† a† = a† a = N
por otro lado el Hamiltoniano adimensional también se puede escribir como
b = aa† − 1
H
2
ahora bien, de acuerdo con la Ec. (8.10), Hb y N solo difieren en un operador que es múltiplo de la identidad. En
b
consecuencia, los autovectores de H son autovectores de N y viceversa.
Ahora calcularemos los conmutadores de N con a y a † por medio de la Ec. (8.8)
h i h i
[N, a] = a† a, a = a† [a, a] + a† , a a = −a
h i h i h i h i
†
N, a = a a, a = a a, a + a , a a = a†
† † † † † †
en resumen, el álgebra de conmutadores entre a, a † y N se escribe

h i h i
a, a† = 1 ; [N, a] = −a ; N, a† = a† (8.11)
donde también hemos tenido en cuenta la Ec. (8.8). Veremos que la ecuación de valores propios se resolverá en
términos de las propiedades de los operadores a, a † y N . De momento, hemos reducido el problema a encontrar los
vectores y valores propios del operador N
N ϕiν = ν ϕiν

y teniendo en cuenta las Ecs. (8.3, 8.10) los autovectores ϕiν serán también autovectores del Hamiltoniano H con
autovalores E = ν + 12 ~ω
i 1

H ϕν = ν + ~ω ϕiν (8.12)
2
1
De acuerdo con la discusión anterior este producto serı́a el Hamiltoniano si los operadores Pb, X
b fueran conmutantes.
8.3. Determinación del espectro

En todo lo que sigue, asumiremos que los ϕiν están normalizados. Calculemos la norma del vector a ϕiν . Dicha
norma es obviamente no negativa
i 2

a ϕν = ϕiν a† a ϕiν = ϕiν N ϕiν
i 2

a ϕν = ν ϕiν ϕiν i = ν ≥ 0 (8.13)
lo cual nos indica que
Lemma 1 Los valores propios del operador N son no negativos

i
a ϕ = 0 ⇔ ν = 0 pero dado que a ϕi = 0 ⇔ a ϕi = 0 se tiene que
La Ec. (8.13) nos muestra que ν ν ν
a ϕiν = 0 ⇔ ν = 0. i
De acuerdo
i a lo anterior, si ν > 0 entonces a ϕν no es cero. Apliquemos ahora el conmutador [N, a] sobre el
autovector ϕν usando las reglas de conmutación (8.11)

[N, a] ϕiν = −a ϕiν ⇒ N a ϕiν = aN ϕiν − a ϕiν = aν ϕiν − a ϕiν

N a ϕiν = (ν − 1) a ϕiν

esta expresión nos indica que cuando ν > 0 el vector a ϕiν es vector propio de N con autovalor ν − 1. Esto indica
además que ν ≥ 1 cuando ν > 0, ya que de lo contrario ν − 1 serı́a un autovalor negativo de N contradiciendo el
lema anterior. Estos resultados los podemos resumir en la siguiente forma
i
Lemma 2 Sea ϕν un autovector no nulo de N con autovalor ν. Tenemos que (a) a ϕiν = 0 ⇔ ν = 0. (b) Si

ν > 0 ⇒ a ϕiν es un autovector no nulo de N con autovalor ν − 1.

El anterior lema nos caracteriza
las propiedades de los vectores a ϕiν , es natural entonces preguntarse por las
propiedades de los vectores a† ϕiν . Con un proceso similar al anterior se tiene que
2

n o
nh i o
† i
a ϕν = ϕiν aa† ϕiν = ϕiν aa† − a† a + a† a ϕiν = ϕiν a, a† + N ϕiν
2

† i
a ϕν = ϕiν (1 + N ) ϕiν = (ν + 1) ϕiν ϕiν i
2
† i
a ϕν = ν + 1

donde hemos usado la Ec. (8.8). Puesto que ν ≥ 0 el vector a † ϕiν es siempre no nulo. Ahora usando la Ec. (8.11)
calculemos
h i
N, a† ϕiν = a† ϕiν ⇒ N a† ϕiν = a† N ϕiν + a† ϕiν = νa† ϕiν + a† ϕiν
h i h i
N a† ϕiν = (ν + 1) a† ϕiν

vemos que a† ϕiν es un autovector de N con autovalor ν + 1. Lo anterior podemos resumirlo en la forma
i
Lemma 3 Sea ϕν un autovector no nulo de N con autovalor ν. Tenemos que (a) a † ϕiν es siempre no nulo. (b)

a† ϕiν es un autovector de N con autovalor ν + 1.
Por ahora sabemos que el espectro de N es no negativo. Asumamos que ν no es entero y mostraremos que esta
hipótesis contradice al lema 1 y por tanto debe ser rechazada. Si ν no es entero podemos encontrar un entero n tal
que
n<ν <n+1 (8.14)
consideremos la sucesión de kets
i
ϕν , a ϕiν , a2 ϕiν , . . . , ap ϕiν , . . . , an ϕiν (8.15)
8.3. DETERMINACIÓN DEL ESPECTRO 231
i
aplicaremos iterativamente el lema 2. ϕν = a0 ϕiν es por hipótesis un autovector no nulo de N con valor propio

ν0 = ν − 0. Ahora a ϕiν de acuerdo con el lema es un autovector no nulo (ya que ν > 0) de N con valor propio
ν1 = ν − 1, podemos ϕi ≡ ϕi
denotar entonces a ν i si v −1 p−1
ν−1 . Otra aplicación del lema lleva a que > 0 entonces

2 i i p ϕiν = a
a i ϕν = a ϕν−1 es un autovector no nulo de N con valor propio ν 2 = ν −2. En general a ϕν = a a
ϕ
ν−p+1 es autovector no nulo de N con valor propio ν − p, siempre y cuando se cumpla que ν − p + 1 > 0.
Adicionalmente, puesto que ν no es entero, ν − p es no nulo, con lo cual el lema 1, nos dice que v − p > 0. A su vez,
de la Ec. (8.14) vemos que la condición ν − p > 0 solo se cumple en el intervalo 0 ≤ p ≤ n.
En sı́ntesis, de acuerdo con el lema 2, un vector a p ϕiν de la sucesión (8.15) con 0 ≤ p ≤ n, es un autovector no
nulo de N con valor propio ν − p > 0.
Veamos ahora que pasa con un vector fuera de la sucesión para lo cual calculamos

an+1 ϕiν = a an ϕiν

an ϕiν es un autovector no nulo de N con valor propio v − n > 0 (de acuerdo con la Ec. 8.14). Por tanto podemos
aplicar el lema 2 para decir que an+1 ϕiν es autovector de N con autovalor ν − n − 1 pero este valor propio es
estrictamente negativo de acuerdo con la Ec. (8.14). Esto contradice el lema 1 por lo cual debemos rechazar la
hipótesis de que ν es no entero.
Lo anterior se puede describir de otra forma diciendo que a p ϕiν con 0 ≤ p ≤ n es autovector de N donde los
valores propios νp tienen la siguiente caracterı́stica: ν 0 = ν ∈ (n, n + 1); ν1 ∈ (n − 1, n); v2 ∈ (n − 2, n − 1) ; . . . ;
νn−1 ∈ (1, 2); νn ∈ (0, 1). Al aplicar de nuevo el operador a, el valor propio correspondiente quedarı́a en el intervalo
(−1, 0) que está prohibido por el lema 1.
Veremos ahora que la hipótesis de que ν es entero es perfectamente consistente con los lemas anteriores, en tal
caso la Ec. (8.14) se cambia por
n=ν <n+1
i
y el ket a ϕν es un autovector no nulo de N con valor propio v − n = 0. Como su valor propio es cero, el lema 2
n
nos dice que

an+1 ϕin = 0 (8.16)
i
por tanto el conjunto de vectores diferentes obtenida por aplicación reiterada de a sobre ϕν está limitada cuando
ν = n es entero, ya que el lema 2 predice que para todo entero m ≥ n + 1 tenemos que a m ϕiν = 0, y se obtiene el
vector cero para cualquier aplicación adicional del operador a. De esta manera se evita la contradicción con el lema
1 evitando valores propios negativos.
Veremos ahora que el espectro de N consta
de todos los enteros no negativos. Ya hemos construı́do un autovector
de N con valor propio nulo: an ϕin ≡ ϕi0 . Ahora bien, el lema 3 nos dice que la aplicación sucesiva de a † sobre ϕi0
k
nos genera autoestados a† ϕi0 , con valor propio k, barriendo claramente todos los valores enteros no negativos.
Utilizando la Ec. (8.12) decimos que los autovalores de H tienen la forma

1
En = n + ~ω ; n = 0, 1, 2, . . .
2
vemos entonces que la energı́a del oscilador armónico cuántico está cuantizada, ya que no puede adquirir cualquier
valor. El espaciamiento entre los valores accesibles es además uniforme, es decir cada estado excitado consiste en
agregar un cuanto ~ω al estado anterior. Adicionalmente, el estado base (estado de menor energı́a) no posee energı́a
cero sino ~ω/2. Nótese que el espaciamiento uniforme de los niveles de energı́a del oscilador armónico cuántico con
valor de espaciamiento ~ω, coincide con la hipótesis de Planck para el estudio de la radiación del cuerpo negro.
8.3.1. Interpretación de los operadores a, a† y N

i
Si comenzamos con un estado ϕn de H con valor propio En = n + 1 ~ω, la aplicación de los operadores
2
a y a† sobre ϕin nos da

i i i 1

a ϕn = αn−1 ϕn−1 ; ϕn−1 → En−1 = (n − 1) + ~ω = En − ~ω
2

1
a† ϕin = αn+1 ϕin+1 ; ϕin+1 → En+1 = (n + 1) + ~ω = En + ~ω
2

N = a† a ϕin = n ϕin ; n = 0, 1, 2, 3, . . .

vemos que la acción de a sobre ϕin equivale a “extraer” un cuanto de energı́a ~ω del valor de energı́a E n del estado
original. En otras palabras, su acción sobre un autovector de N (o de H) consiste en hacer desaparecer un cuanto
de energı́a. Por esta razón se denomina operador
de destrucción o de aniquilación.
† i
Similarmente, la acción de a sobre ϕn equivale a “añadir” un cuanto de energı́a ~ω al valor original de energı́a
En . Su acción sobre un autovector de N (o de H) consiste en hacer aparecer un cuanto de energı́a. Por esta razón
se denomina operador de construcción o creación.
Finalmente, vemos que el operador N aplicado sobre ϕin nos da el valor n de cuantos que están asociados con
el nivel de energı́a (hay n cuantos agregados al valor del mı́nimo de la energı́a). Por esta razón N se conoce como
operador número.
8.3.2. Estudio de la degeneración del espectro

Mostraremos que el espectro del oscilador armónico es no degenerado. Comenzaremos estudiando el estado base.
Todos los autoestados de H asociados a E 0 = ~ω/2, o equivalentemente todos los autoestados de N asociados con
n = 0, deben satisfacer según el lema 2 la siguiente condición

a ϕi0 = 0 (8.17)
debemos ver entonces cuantos kets linealmente independientes satisfacen esta condición. Usando las Ecs. (8.5), la
Ec. (8.17) queda en la forma
r r r r
1 mω i i mω mω mω i
√ X+√
P ϕ0 = 0 ⇒ X+ √ P ϕi0 = 0 ⇒
2 ~ m~ω ~ ~ ~ m~ω

mω i
X + P ϕi0 = 0
~ ~
que en la base {|xi} se escribe

mω d
x+ ϕi0 (x) = 0 ; ϕi0 (x) = hx ϕi0 (8.18)
~ dx
debemos entonces resolver la ecuación diferencial de primer orden (8.18). Su solución más general es de la forma
1 mω 2
ϕi0 (x) = ce− 2 ~
x
(8.19)
siendo c una constante de integración (solo hay una en virtud de que la ecuación es de primer orden). Por tanto
todas las soluciones no nulas posibles de (8.18) son linealmente dependientes. Existe por tanto un único ket dentro
de factores multiplicativos asociado a E 0 = ~ω/2. Por tanto, el estado base es no degenerado 2 .
La demostración de que los demás estados no son degenerados la haremos por inducción para lo cual ya tenemos
el primer paso al demostrar que el estado base no es degenerado.
El segundo paso en la inducción es probar que si E n = (n + 1/2) ~ω no es degenerado entonces el nivel E n+1 =
(n + 1 + 1/2) ~ω tampoco lo es. Nuestra hipótesis es entonces que dentro de factores multiplicativos, solo hay un
vector |ϕn i tal que
N |ϕn i = n |ϕn i (8.20)
i
ahora consideramos un autovector ϕn+1 correspondiente al autovalor n + 1, donde el ı́ndice i indica una posible
degeneración
N ϕin+1 = (n + 1) ϕin+1 (8.21)
i
el lema 2 nos dice que a ϕn+1 es un
autovector no nulo de N con autovalor n. Dado que este ket no es degenerado
por hipótesis, tenemos que a ϕin+1 es linealmente dependiente con |ϕn i

a ϕin+1 = ci |ϕn i
2
Aunque aquı́ usamos la base {|xi}, es claro que el grado de degeneración es independiente de la base utilizada.
8.4. ESTADOS PROPIOS DEL HAMILTONIANO 233
si aplicamos a† a ambos lados se tiene

a† a ϕin+1 = ci a† |ϕn i

N ϕin+1 = ci a† |ϕn i (8.22)
donde hemos usado la definición de N Ec. (8.10). Combinando (8.21) con (8.22) se tiene

(n + 1) ϕin+1 = ci a† |ϕn i
i ci h i
ϕn+1 = a† |ϕn i (8.23)
(n + 1)
el lema 3 nos dice que

a† |ϕn i es autovector de N con autovalor (n + 1). La expresión (8.23) nos muestra que

todos los kets ϕn+1 asociados al valor propio (n + 1) son linealmente dependientes con a † |ϕn i. Por tanto el valor
i
propio n + 1 es no degenerado y la demostración está completa. Todos los valores propios del Hamiltoniano son no
degenerados.
8.4. Estados propios del Hamiltoniano

Ya que hemos resuelto el problema de valores propios, procederemos ahora a estudiar el problema de los kets
propios del Hamiltoniano del oscilador armónico unidimensional. Tomaremos como hipótesis de trabajo que N y H
son observables, de modo que sus kets propios {|ϕ n i} constituyen una base ortonormal 3 de Ex , y se cumplen por lo
tanto, relaciones de ortonormalidad y completez
X
hϕn0 |ϕn i = δn0 n ; |ϕn i hϕn | = 1
n
la completez será probada más adelante utilizando la representación {|xi}, es decir calculando las funciones de onda
ϕn (x) y mostrando que estas funciones son completas en el espacio de las funciones cuadráticamente integrables en
x.
Por otro lado N y H tienen un espectro no degenerado. Por tanto cada uno de estos observables constituye por
sı́ solo un C.S.C.O. en Ex .
8.4.1. Construcción de los kets propios con base en el ket del estado base
El ket |ϕ0 i asociado al estado base i.e. a n = 0 en N y a E 0 = ~ω/2 en H, es el vector en Ex que satisface la
condición
a |ϕ0 i = 0
y es único salvo constantes de proporcionalidad. Si lo asumimos normalizado, la ambigüedad se reduce a solo un
factor de fase global arbitraria eiθ , con θ real. Aplicando el lema 3 pág 230, el vector |ϕ 1 i asociado a n = 1 es
proporcional a a† |ϕ0 i
|ϕ1 i = c1 a† |ϕ0 i (8.24)
determinaremos c1 requiriendo que |ϕ1 i esté normalizado y que tal coeficiente sea real y positivo (es decir c 1 se fija
con fase cero). Para esto se calcula la norma de |ϕ 1 i
† n o
hϕ1 |ϕ1 i = hϕ0 | a† c∗1 c1 a† |ϕ0 i = |c1 |2 hϕ0 | aa† |ϕ0 i
y usando la regla de conmutación (8.8) se obtiene

hϕ1 |ϕ1 i = |c1 |2 hϕ0 | a† a + 1 |ϕ0 i = |c1 |2 hϕ0 | (N + 1) |ϕ0 i = |c1 |2 hϕ0 | (0 + 1) |ϕ0 i
hϕ1 |ϕ1 i = |c1 |2 hϕ0 | ϕ0 i ⇒ c1 = 1
3
La ortonormalidad está garantizada automáticamente, debido a la ausencia de degeneración.
la Ec. (8.24) queda entonces

|ϕ1 i = a† |ϕ0 i
De manera similar construı́mos a |ϕ 2 i aplicando el operador creación a † sobre |ϕ1 i
|ϕ2 i = c2 a† |ϕ1 i (8.25)
nuevamente requeriremos que c2 sea una constante real positiva que normalice a |ϕ 2 i. De aquı́ en adelante este
será el requerimiento para todas las constantes con que se construyen los siguientes estados.
hϕ2 |ϕ2 i = |c2 |2 hϕ1 | aa† |ϕ1 i = |c2 |2 hϕ1 | (N + 1) |ϕ1 i = |c2 |2 hϕ1 | (1 + 1) |ϕ1 i
1
hϕ2 |ϕ2 i = 2 |c2 |2 = 1 ⇒ c2 = √
2
1 1 † 2
|ϕ2 i = √ a† |ϕ1 i = √ a |ϕ0 i
2 2
este proceso se puede generalizar para construı́r al estado |ϕ n i con base en el estado |ϕn−1 i
|ϕn i = cn a† |ϕn−1 i (8.26)
hϕn |ϕn i = |cn |2 hϕn−1 | aa† |ϕn−1 i = |cn |2 hϕn−1 | (N + 1) |ϕn−1 i = |cn |2 hϕn−1 | [(n − 1) + 1] |ϕn−1 i
1
hϕn |ϕn i = n |cn |2 ⇒ cn = √
n
1
|ϕn i = √ a† |ϕn−1 i ; n = 1, 2, 3, . . . (8.27)
n
usando la Ec. (8.27) iterativamente, podemos conectar a |ϕ n i con el estado base
1 1 1 2 1 1 1 3
|ϕn i = √ a† |ϕn−1 i = √ √ a† |ϕn−2 i = √ √ √ a† |ϕn−3 i
n n n−1 n n−1 n−2
1 1 1 1 1 n
|ϕn i = √ √ √ . . . √ √ a† |ϕ0 i
n n−1 n−2 2 1
quedando finalmente
1 † n
|ϕn i = √ a |ϕ0 i ; n = 0, 1, 2, 3, . . . (8.28)
n!
En sı́ntesis, todos los autoestados de N y H√ se pueden construı́r con base en el autoestado base |ϕ 0 i por aplicación
sucesiva del operador creación. El factor 1/ n! garantiza la normalización de cada nuevo estado creado, bajo la
convención de que los coeficientes de normalización tengan fase cero, es decir que sean reales y positivos.
8.4.2. Ortonormalidad de los kets propios (opcional)

Es interesante ver a manera de consistencia, que la expresión (8.28) conduce a que los kets |ϕ n i son ortonormales
1 0
n
hϕn0 |ϕn i = √ hϕ0 | an a† |ϕ0 i (8.29)
n! n0 !
veamos como actúan los operadores sobre el ket
n n−1
n−1
n0 † n0 −1 † † n0 −1 †
a a |ϕ0 i = a aa a |ϕ0 i = a (N + 1) a |ϕ0 i
0
n 0
hp i 0
hp i
an a† |ϕ0 i = an −1 (N + 1) (n − 1)! |ϕn−1 i = an −1 [(n − 1) + 1] (n − 1)! |ϕn−1 i
" #
n p 1 n−1
n0 † n0 −1 †
a a |ϕ0 i = na (n − 1)! p a |ϕ0 i
(n − 1)!
8.4. ESTADOS PROPIOS DEL HAMILTONIANO 235
0
n 0
n−1
an a† |ϕ0 i = nan −1 a† |ϕ0 i (8.30)
donde hemos usado la Ec. (8.28). Utilizaremos el resultado (8.30) iterativamente, para ello analizamos tres casos
1) n < n0 . En este caso usamos la propiedad (8.30) n−veces de forma iterativa
n n−1 n−2
0 0 0
an a† |ϕ0 i = n an −1 a† |ϕ0 i = n (n − 1) an −2 a† |ϕ0 i
n n−3
n0 † n0 −3 †
a a |ϕ0 i = n (n − 1) (n − 2) a a |ϕ0 i
n n−n
0 0
an a† |ϕ0 i = n [n − 1] [n − 2] . . . [n − (n − 1)] an −n a† |ϕ0 i (8.31)
n 0
n0 † |n0 −n| †
a a |ϕ0 i = n × [n − 1] × . . . × 1 × a a |ϕ0 i (8.32)
finalmente n
0 0
an a† |ϕ0 i = n!a|n −n| |ϕ0 i (8.33)
0
pero por hipótesis |n0 − n| es un entero mayor o igual que 1, por tanto a |n −n| |ϕ0 i = 0 ya que a |ϕ0 i = 0. Usando
(8.29) y (8.33) resulta que
1 0
n 1 n 0
o
hϕn0 |ϕn i = √ hϕ0 | an a† |ϕ0 i = √ hϕ0 | n!a|n −n| |ϕ0 i = 0
n! n0 ! n! n0 !
2) si n = n0 podemos usar (8.31) para obtener

n 0
an a† |ϕ0 i = n!a0 a† |ϕ0 i = n! |ϕ0 i (8.34)
Usando (8.29) y (8.34) resulta que si n = n 0
1 n 1
hϕn |ϕn i = √ hϕ0 | an a† |ϕ0 i = hϕ0 | {n! |ϕ0 i} = 1
n! n! n!
3) n > n0 . En este caso podemos conjugar el producto interno hϕ n0 |ϕn i = hϕn |ϕn0 i∗ y probar la ortogonalidad del
miembro derecho con lo cual quedamos nuevamente en el primer caso. Alternativamente, podemos usar la propiedad
(8.30) n0 −veces de forma iterativa, aplicando la Ec. (8.28). En tal caso el análogo de la Ec. (8.31) es
n
n0 †
0
n0 −n0 † n−n0
a a |ϕ0 i = n [n − 1] [n − 2] . . . n − n − 1 a a |ϕ0 i (8.35)
n |n−n0 |
n0 †
0
0 †
a a |ϕ0 i = n [n − 1] [n − 2] . . . n − n + 1 × a a |ϕ0 i (8.36)
0
n hp i
an a† |ϕ0 i = n [n − 1] [n − 2] . . . n − n0 + 1 × (n − n0 )! |ϕn−n0 i (8.37)
y el producto interno (8.29) queda
1 0
n
hϕn0 |ϕn i = √ hϕ0 | an a† |ϕ0 i
n! n0 !
p
n [n − 1] [n − 2] . . . [n − n0 + 1] (n − n0 )!
= √ hϕ0 |ϕn−n0 i = 0
n! n0 !
donde hemos usado el hecho de que n − n0 es un entero mayor o igual que uno, de modo que hϕ 0 |ϕn−n0 i = 0.
8.4.3. Acción de los operadores creación y destrucción sobre los autoestados del Hamiltoniano
Las Ecs. (8.7) nos muestran que los observables X, P se pueden escribir en términos de a y a † , por lo tanto
cualquier observable fı́sico (sin espı́n) se puede escribir en términos de a y a † . Por otro lado, como los autoestados
{|ϕn i} del Hamiltoniano del oscilador armónico, constituyen una base en E x , recurriremos con frecuencia a esta base
para construı́r representaciones matriciales. Por lo anterior, resulta de especial importancia estudiar la acción de los
operadores a y a† sobre los estados {|ϕn i}.
La acción de a† sobre |ϕn i se puede obtener reemplazando n por n + 1 en la Ec. (8.27)
√
a† |ϕn i = n + 1 |ϕn+1 i ; n = 0, 1, 2, . . .
para obtener a |ϕn i multiplicamos la Ec. (8.27) por a.

1 1 1
a |ϕn i = √ aa† |ϕn−1 i = √ (N + 1) |ϕn−1 i = √ [(n − 1) + 1] |ϕn−1 i
n n n
√
a |ϕn i = n |ϕn−1 i ; n = 0, 1, 2, . . .
tenemos entonces que la acción de los operadores más relevantes sobre los autoestados |ϕ n i son
√ √
a† |ϕn i = n + 1 |ϕn+1 i ; a |ϕn i = n |ϕn−1 i ; n = 0, 1, 2, . . . (8.38)

1
N |ϕn i = n |ϕn i ; H |ϕn i = n + ~ω |ϕn i ; n = 0, 1, 2, . . . (8.39)
2
Se puede ver que la segunda de las Ecs. (8.38) contiene automáticamente el hecho de que a |ϕ 0 i = 0. Nótese que el
adjunto de las Ecs. (8.38) es √ √
hϕn | a = n + 1 hϕn+1 | ; hϕn | a† = n hϕn−1 | (8.40)
podemos expresar el significado de las Ecs. (8.38, 8.40) en palabras diciendo que a es un operador destrucción
(construcción) para kets (bras), en tanto que a † es un operador construcción (destrucción) para kets (bras).
La acción de los observables básicos X y P sobre los autoestados |ϕ n i se obtiene usando las Ecs. (8.7)
r r
~ † ~ √ √
X |ϕn i = a + a |ϕn i = n + 1 |ϕn+1 i + n |ϕn−1 i
2mω 2mω
r r
mω~ † mω~ √ √
P |ϕn i = i a − a |ϕn i = i n + 1 |ϕn+1 i − n |ϕn−1 i
2 2
con estas relaciones es fácil encontrar la representación matricial de los operadores a, a † , X y P en la base {|ϕn i}
√ √
hϕm | a |ϕn i = nhϕm |ϕn−1 i = nδm,n−1 (8.41)
†
√ √
hϕm | a |ϕn i = n + 1hϕm |ϕn+1 i = n + 1δm,n+1 (8.42)
r
~ √ √
hϕm | X |ϕn i = n + 1δm,n+1 + nδm,n−1 (8.43)
2mω
r
mω~ √ √
hϕm | P |ϕn i = i n + 1δm,n+1 − nδm,n−1 (8.44)
2
se puede ver que las matrices representativas de a y a † son hermı́ticas conjugadas una de otra como era de esperarse,
pues en este caso las matrices son reales y la una es la traspuesta de la otra. En forma explı́cita estas matrices vienen
dadas por
 √   
0 1 √0 0 ··· √0 0 0 0 ···
 0 0 2 √0 · · ·   1 0 0 0 ··· 
   √ 
 0 0 0  
3 · · ·  ; a† =  0 2 √0 0 · · · 
a= 
 0 0 0 0 ···   0 0 3 0 ··· 
   
.. .. .. .. . . .. .. .. .. . .
. . . . . . . . . .
nótese que las matrices de X y P son proporcionales a la suma y la diferencia de las matrices anteriores. Finalmente,
las matrices asociadas a X y P son hermı́ticas como se esperaba.
8.5. FUNCIONES PROPIAS ASOCIADAS A LOS ESTADOS ESTACIONARIOS EN LA BASE {|Xi} 237
8.5. Funciones propias asociadas a los estados estacionarios en la base {|xi}

Los resultados obtenidos hasta el momento se han extraı́do a partir de los kets abstractos |ϕ n i y el álgebra
abstracta de los operadores a, a† y N . En otras palabras, todos los resultados anteriores son independientes de la
base4 . El único resultado que no ha sido demostrado es el hecho de que los estados {|ϕ n i} forman una base, lo cual
hasta el momento es solo una hipótesis de trabajo que debe ser examinada. Con el fin de verificar la completez de
los kets propios de H y con el fin de poder hacer cálculos concretos de probabilidades vamos a encontrar estos kets
propios de H en la base {|xi} es decir las funciones de onda asociadas.
Ya hemos determinado la función de onda asociada al estado base ϕ 0 (x) la cual está dada por la Ec. (8.19)
mω 1/4 1 mω 2
ϕ0 (x) = hx |ϕ0 i = e− 2 ~
x
(8.45)
π~
donde (mω/π~)1/4 es un factor de normalización. Dado que los demás estados se obtienen de la Ec. (8.28)
1 † n
|ϕn i = √ a |ϕ0 i (8.46)
n!
debemos obtener la representación del vector |ϕ n i en la base {|xi} para ello multiplicamos la Ec. (8.46) por el bra
hx|
n n
1 † 1 1 b b
hx |ϕn i = √ hx| a |ϕ0 i = √ hx| √ X − iP |ϕ0 i
n! n! 2
r n
1 1 mω i
ϕn (x) = √ hx| √ X−√ P |ϕ0 i
n! 2 ~ mω~
r n
1 1 mω i ~ d
ϕn (x) = √ √ x− √ hx| ϕ0 i
n! 2n ~ mω~ i dx
"r r #n
1 mω ~ d
ϕn (x) = √ x− hx| ϕ0 i
~
2n n! mω dx
"r #n
1 ~ mω d
ϕn (x) = √ x− hx| ϕ0 i
2n n! mω ~ dx
n 1 n
1 ~ 2 mω d
ϕn (x) = x− ϕ0 (x)
n! 2mω ~ dx
ahora usando en forma explı́cita la función de onda del estado base Ec. (8.45) se tiene que
n 1 n
1 ~ 2 mω 14 mω d 1 mω 2
ϕn (x) = x− e− 2 ~ x
n! 2mω π~ ~ dx
1 mω 2
de lo anterior se puede ver fácilmente que ϕ n (x) es el producto de e− 2 ~ x por un polinomio de grado n y paridad
(−1)n . Los polinomios que surgen se denominan polinomios de Hermite.
Las dos primeras funciones asociadas a estados excitados (con energı́a mayor al estado base) son

4 mω 3 1/4 − 1 mω x2
ϕ1 (x) = xe 2 ~
π ~
mω 1/4 h mω i 1 mω 2
ϕ2 (x) = 2 x2 − 1 e− 2 ~ x
4π~ ~
si se grafica la función de onda y la densidad de probabilidad para n = 0, 1, 2 (ver Figs. 8.1, 8.2) y para valores
4
La ausencia de degeneración del estado base se demostró utilizando la base especı́fica {|xi}, pero el resultado debe ser independiente
de la base.
Figura 8.1: Funciones de onda asociadas a n = 0, 1, 2 para el oscilador armónico.
Figura 8.2: Densidades de probabilidad asociadas a n = 0, 1, 2 para el oscilador armónico.
grandes de n (Figs. 8.3), se pueden observar las siguientes caracterı́sticas: cuando n aumenta, la región en x en la
cual la densidad de probabilidad toma valores no despreciables se vuelve mayor. Esto corresponde a la caracterı́stica
clásica de que la amplitud de movimiento (y por tanto la región accesible) aumenta con la energı́a. También veremos
que el valor promedio o esperado de la energı́a potencial se incrementa con la energı́a (y por tanto con n). Aunque
esto se puede ver de un cálculo directo, se puede explicar cualitativamente teniendo en cuenta que para n grandes,
ϕn (x) toma valores no despreciables en regiones donde x es grande y por tanto donde V (x) es grande. Las gráficas
también muestran que el número de ceros de ϕ n (x) es igual a n, lo cual se puede demostrar formalmente con las
propiedades de los polinomios de Hermite. Un análisis de estos polinomios muestra también que el valor promedio
de la energı́a cinética se incrementa con n puesto que la energı́a viene dada por
Z ∞
1
2 ~2 d2 ϕn
P =− ϕ∗n (x) dx (8.47)
2m 2m −∞ dx2
y cuando el número de ceros de ϕn (x) aumenta, también se incrementa la curvatura de la función de onda y en la
Ec. (8.47) la segunda derivada de ϕn se incrementa a su vez.
Otra caracterı́stica sobresaliente para grandes valores de n es que la densidad de probabilidad es grande para
∼
x = ±xM siendo xM la amplitud clásica de movimiento cuando la energı́a es E n . Esto se relaciona con la caracterı́stica
clásica de que en xM la partı́cula está en reposo instantáneo y por tanto, en promedio se mantiene más tiempo en
las vecindades de ±xM que por ejemplo en las vecindades de x = 0 donde la rapidez es máxima.
8.6. Valores esperados y dispersión para los observables cuando el sistema

está en un estado estacionario del oscilador armónico
Dado que ninguno de los observables X y P conmuta con H, los autoestados |ϕ n i del Hamiltoniano no son
autoestados de X ni P . Por tanto, si el oscilador armónico está en un estado estacionario |ϕ n i la medida de X ó P
dará en principio cualquier valor ya que el espectro de estos observables incluye a todos los números reales.
Calcularemos los valores esperados de X y P y las raı́ces de la desviación media cuadrática ∆X y ∆P , cuando el
8.6. VALORES ESPERADOS Y DISPERSIÓN PARA LOS OBSERVABLES CUANDO EL SISTEMA EST Á EN UN E
Figura 8.3: Función de onda (izquierda) y densidad de probabilidad (derecha) asociadas a n = 10, para el oscilador
armónico.
sistema está en un estado estacionario |ϕ n i. Los valores esperados se calculan directamente de las Ecs. (8.43, 8.44)
hXi = hϕn | X |ϕn i = hP i = hϕn | P |ϕn i = 0
estos valores son válidos para todo tiempo. Nótese que el comportamiento del centro del paquete de onda difiere
profundamente del caso clásico en el cual las variables x y p son oscilantes en el tiempo (excepto cuando la energı́a
es cero)5 . Para calcular ∆X, ∆P deben calcularse los valores esperados de X 2 y P 2
(∆X)2 = hϕn | X 2 |ϕn i − [hϕn | X |ϕn i]2 = hϕn | X 2 |ϕn i (8.48)

2 2 2 2
(∆P ) = hϕn | P |ϕn i − [hϕn | P |ϕn i] = hϕn | P |ϕn i (8.49)
y usando (8.7) tenemos que

2 ~ † † ~ †
2
† † 2
X = a +a a +a = a + aa + a a + a
2mω 2mω

~ 2
X2 = a †
+ (1 + N ) + N + a 2
2mω

~ 2
X2 = a † 2
+ a + 2N + 1 (8.50)
2mω

2 m~ω † † m~ω † 2 † † 2
P = − a −a a −a =− a − aa − a a + a
2 2

m~ω 2
P2 = − a† + a2 − 2N − 1 (8.51)
2
reemplazando (8.50, 8.51) en (8.48, 8.49) es claro que

2 ~ †
2
2
(∆X) = hϕn | a + a + 2N + 1 |ϕn i (8.52)
2mω

m~ω 2
(∆P )2 = − hϕn | a † 2
+ a − 2N − 1 |ϕn i (8.53)
2
5
Puede verse que clásicamente los valores promedio de x y p tomados sobre un periodo completo de movimiento, sı́ son nulos como en
el caso cuántico. Sin embargo, debemos recordar que en el caso cuántico los promedios no son tomados sobre un periodo de movimiento.
calculando cada elemento matricial se tiene

p
hϕn | a2 |ϕn i = n (n − 1)hϕn |ϕn−2 i = 0 (8.54)
2 p
hϕn | a† |ϕn i = (n + 1) (n + 2)hϕn |ϕn+2 i = 0 (8.55)
hϕn | (2N + 1) |ϕn i = (2n + 1) hϕn |ϕn i = (2n + 1) (8.56)
reemplazando (8.54, 8.55, 8.56) en (8.52, 8.53), resulta

(2n + 1) ~ (2n + 1) m~ω
(∆X)2 = ; (∆P )2 =
2mω 2
Finalmente
2 1 ~ En 1
(∆X) = n+ = 2
; (∆P )2 = n+ m~ω = mEn (8.57)
2 mω mω 2
nótese que a medida que aumenta el nivel de energı́a, se ensanchan ambos paquetes. Esto es perfectamente permitido
por el principio de incertidumbre el cual solo prohibe un angostamiento indefinido de ambos paquetes. El producto
de estas desviaciones que se puede tomar como la definición de incertidumbre, es

1 ~
∆X · ∆P = n + ~≥
2 2
La cota inferior para el producto ∆X · ∆P depende de la forma del potencial, y en el caso del oscilador armónico
adquiere el mı́nimo valor posible ~/2 cuando n = 0, es decir cuando el sistema está en el estado base. Esto
está relacionado con el hecho de que en el estado base, la función de onda es una gaussiana y las gaussianas son
dsitribuciones de mı́nima incertidumbre (ver Sec. 2.12.3).
Por otro lado, es bien sabido que si x M es la amplitud del oscilador armónico clásico con energı́a E n =
(n + 1/2) ~ω, la relación entre la energı́a y la amplitud es
1
En = mω 2 x2M
2
usando (8.57) se tiene que
En 1 mω 2 x2M 1
(∆X)2 = 2
= 2
= x2M
mω 2 mω 2
1
∆X = √ xM (8.58)
2
análogamente, si pM es la amplitud de oscilación del momento clásico se tiene que
pM = mωxM
1
∆P = √ pM (8.59)
2
vemos que el ancho ∆X es del orden del ancho del intervalo [−x M , xM ], esto es de esperarse ya que esta es la región
clásicamente accesible y ya vimos en la sección 8.5 que es aproximadamente en esta región en donde ϕ n (x) adquiere
valores no despreciables. Un resultado similar se sigue para el intervalo [−p M , pM ].
Lo anterior permite también entender porqué ∆X se incrementa con n: la densidad |ϕ n (x)|2 posee dos picos
simétricos situados aproximadamente en x = ±x M . La desviación media cuadrática no puede ser mucho menor que
la distancias entre picos incluso si estos son muy agudos. Un argumento similar se sigue para ∆P .
Ahora bien, el valor esperado de la energı́a potencial en el estado |ϕ n i, se puede calcular teniendo en cuenta la
Ec. (8.48), y está dado por
1
1
hV (X)i = mω 2 X 2 ⇒ hV (X)i = mω 2 (∆X)2 (8.60)
2 2
similarmente, el valor esperado de la energı́a cinética es
2
P 1
= (∆P )2 (8.61)
2m 2m
8.7. PROPIEDADES DEL ESTADO BASE 241
y reemplazando (8.57) en (8.60, 8.61) resulta

1 1 En
hV (X)i = n+ ~ω =
2 2 2
2
P 1 1 En
= n+ ~ω =
2m 2 2 2
el valor esperado de las energı́as cinética y potencial es igual. Esto es consistente con el teorema del virial. No
obstante, debe tenerse en cuenta que en el teorema del virial el promedio es sacado sobre un periodo de movimiento,
en tanto que el promedio cuántico no está asociado a una evolución temporal.
Es notable además la simetrı́a entre los resultados sobre las variables X y P , esto se debe a que el Hamiltoniano
es muy simétrico en ambos ya que la energı́a cinética es proporcional a P 2 y la energı́a potencial es proporcional
X 2 . Tal simetrı́a se vé de forma manifiesta en la Ec. (8.3).
Los estados estacionarios |ϕn i no tienen equivalente en la mecánica clásica ya que tienen energı́a no nula a pesar
de que hXi y hP i sı́ son nulos. Sin embargo, podemos establecer cierta analogı́a entre el estado estacionario |ϕ n i y
el estado de una partı́cula clásica cuya posición está descrita por
x = xM cos (ωt − ϕ)
y para el cual la fase inicial ϕ es escogida arbitrariamente, es decir puede tomar cualquier valor entre 0 y 2π con
la misma probabilidad. Los valores esperados de x y p son entonces nulos ya que
Z 2π
1
x̄cl = xM cos (ωt − ϕ) dϕ = 0
2π 0
Z 2π
1
p̄cl = −pM sin (ωt − ϕ) dϕ = 0
2π 0
ahora, calculando el valor esperado de x 2cl y p2cl
Z 2π
1 2 x2
x2cl = xM cos (ωt − ϕ) dϕ = M
2π 0 2
Z 2π 2
1 p
p2cl = pM sin2 (ωt − ϕ) dϕ = M
2π 0 2
la desviación media cuadrática clásica de x y p queda
q q
xM pM
∆xcl = x2cl − (xcl )2 = √ ; ∆pcl = p2cl − (pcl )2 = √
2 2
y vemos que coincide con sus valores cuánticos Ecs. (8.58, 8.59). Este promedio clásico se está realizando sobre los
posible valores de la fase y no sobre un periodo de movimiento. Es decir, al igual que el promedio cuántico, no
involucra evolución temporal.
8.7. Propiedades del estado base

En la mecánica clásica, el estado de más baja energı́a del oscilador armónico se obtiene cuando la partı́cula
está en reposo en el origen (condiciones iniciales x = p = 0) y la energı́a total es cero. En contraste, el sistema
cuántico posee un estado de mı́nima energı́a |ϕ 0 i con energı́a no nula y lap función de onda asociada posee una
extensión espacial caracterizada por la desviación media cuadrática ∆X = ~/2mω.
La diferencia entre las dos descripciones tiene su origen en el principio de incertidumbre, que impide la min-
imización simultánea de la energı́a cinética y la potencial, ya que los operadores energı́a cinética y potencial no
conmutan entre sı́. El estado base es entonces el resultado de la minimización de la suma de las dos energı́as. Nótese
que el resultado clásico x = p = 0 para obtener energı́a mı́nima cero, requerirı́a una determinación total simultánea
de posición y momento, que cuánticamente no es posible.
Podemos realizar un argumento semicuantitativo para estimar el orden de magnitud de la energı́a base y la
extensión espacial de su función de onda. Pensemos que la distancia ξ caracteriza la extensión espacial de la función
de onda, es decir ξ ∼ ∆X. Entonces, de acuerdo con (8.60) el potencial promedio será del orden de
1
V ∼
= mω 2 ξ 2
2
pero
∆X · ∆P ∼
= ~ ⇒ ξ · ∆P ∼
=~ (8.62)
por tanto
~ p2 (∆P )2 ∼ ~2
∆P ∼
= ⇒T = = =
ξ 2m 2m 2mξ 2
con lo cual el orden de magnitud de la energı́a total es
~2 1
E =T +V ∼
= + mω 2 ξ 2 (8.63)
2mξ 2 2
para valores pequeños de ξ, T domina sobre V y para valores grandes de ξ ocurre lo contrario. El estado base se
calcula de manera aproximada con el mı́nimo de la función E en la Ec. (8.63)

dE ~2
= 0 ⇒ − 3 + mω 2 ξm = 0
dξ ξ=ξm mξm
~2 ~2
− + mω 2 ξm
4 4
= 0 ⇒ ξm = 2 2
m m ω
por tanto el valor mı́mimo aproximado del promedio de la energı́a total es
2 2

~ 1 ~ 1 ~ ~ω ~ω
E ∼ = 2
2 2
+ mω ξm = ~
+ mω 2
= +
2mξm 2 2m mω 2 mω 2 2
E ∼ = ~ω
nótese que la Ec. (8.62) implica tomar un principio de “mı́nima incertidumbre” ya que implica que el producto de
las incertidumbres se acerca al lı́mite inferior. Vemos entonces que la combinación de mı́nima incertidumbre con la
minimización del promedio de la suma de las energı́as cinética y potencial, nos predice correctamente el orden de
magnitud de la energı́a del estado base.
8.8. Evolución temporal de los observables del oscilador armónico

Consideremos un oscilador armónico cuyo estado en t = 0 está descrito por el estado normalizado
∞
X
|ψ (0)i = cn (0) |ϕn i (8.64)
n=0
como el sistema es conservativo, el estado en cualquier tiempo se obtiene empleando las Ecs. (5.66, 5.67).
∞
X 1
|ψ (t)i = cn (0) e−i(n+ 2 )ωt |ϕn i
n=0
el valor esperado de cualquier observable estará dado por

" ∞ # "∞ #
X 1 X 1
hψ (t)| A |ψ (t)i = c∗m (0) ei(m+ 2 )ωt hϕm | A cn (0) e−i(n+ 2 )ωt |ϕn i
m=0 n=0
∞
XX ∞
hψ (t)| A |ψ (t)i = c∗m (0) cn (0) ei(m−n)ωt hϕm | A |ϕn i
m=0 n=0
8.8. EVOLUCIÓN TEMPORAL DE LOS OBSERVABLES DEL OSCILADOR ARM ÓNICO 243
el valor esperado de A es entonces

∞ X
X ∞
hψ (t)| A |ψ (t)i = c∗m (0) cn (0) Amn ei(m−n)ωt ; Amn ≡ hϕm | A |ϕn i (8.65)
m=0 n=0
puesto que m y n son enteros, la evolución temporal de los valores esperados solo involucra frecuencias de la forma
kω/2π con k entero. Por tanto las frecuencias de Bohr están constituı́das por “armónicos” que son múltiplos enteros
del “armónico fundamental” ω/2π. Para el caso particular de los observables X y P estos valores esperados se
obtienen de (8.43, 8.65)
∞ X
X ∞
hXi = c∗m (0) cn (0) Xmn ei(m−n)ωt
m=0 n=0
r∞ ∞
~ XX ∗ √ √
hXi = cm (0) cn (0) n + 1δm,n+1 + nδm,n−1 ei(m−n)ωt
2mω m=0 n=0
r (∞ ∞
)
~ X √ X √
hXi = c∗n+1 (0) cn (0) n + 1 ei[(n+1)−n]ωt + c∗m (0) cm+1 (0) m + 1 ei[m−(m+1)]ωt
2mω
n=0 m=0
r ( ∞ ∞
)
~ X √ X √
hXi = n + 1c∗n+1 (0) cn (0) eiωt + n + 1c∗n (0) cn+1 (0) e−iωt
2mω
n=0 n=0
donde hemos tenido en cuenta que los ı́ndices m y n son mudos

r ∞
2~ X √
hXi = n + 1Re c∗n+1 (0) cn (0) eiωt (8.66)
mω n=0
Vemos entonces que solo se incluyen ondas sinusoidales de frecuencia angular ω. Esto está relacionado con la solución
clásica del oscilador armónico la cual es monocromática para la variable x. Para hP i se obtiene un resultado similar.
Por otro lado, en la discusión del teorema de Ehrenfest de la sección 5.7.1 vimos que la condición de igualdad de
los dos miembros en la Ec. (5.56) necesaria para obtener el lı́mite clásico adecuado, se cumple para todo estado |ψi,
cuando se usa el potencial del oscilador armónico que corresponde a n = 2 en la Ec. (5.58). Por tanto, de acuerdo
con las Ecs. (5.55, 5.52) se tiene que
d hXi 1 hP i
= h[X, H]i =
dt i~ m
d hP i 1
= h[P, H]i = −mω 2 hXi
dt i~
integrando estas ecuaciones se obtiene
1
hXi (t) = hXi (0) cos ωt + hP i (0) sin ωt (8.67)
mω
hP i (t) = hP i (0) cos ωt − mω hXi (0) sin ωt (8.68)
que es la forma sinusoidal que se obtuvo en (8.66).

Es importante mencionar que este análogo clásico solo es válido si el estado |ψ (0)i descrito por (8.64) es una
superposición con al menos dos coeficientes no nulos, ya que si solo uno de ellos es no nulo el sistema estará inicial-
mente en un estado estacionario y los valores esperados no evolucionarán en el tiempo 6 . En consecuencia, cuando
el oscilador está en un estado estacionario el comportamiento cuántico será muy diferente al clásico incluso si n
es muy grande. Si queremos un paquete de onda cuya posición promedio oscile en el tiempo, deben superponerse
varios estados estacionarios.
6
Cuando solo uno de los coeficientes en (8.64) es no nulo, entonces al menos uno de los coeficientes cn (0) ó cn+1 (0) es nulo para
cada n en la Ec. (8.66), con lo cual hXi = 0. Similarmente hP i = 0. Como en particular hXi (0) = hP i (0) = 0, también se obtiene que
hXi (t) = hP i (t) = 0 de las Ecs. (8.67, 8.68).
Capı́tulo 9
Estados coherentes cuasi-clásicos del

oscilador armónico (opcional)
Ya hemos estudiado las propiedades de los estados estacionarios del oscilador armónico y hemos observado que
su comportamiento difiere significativamente del oscilador armónico clásico. Por ejemplo, los valores esperados de
X y P son cero y no oscilantes como ocurre en el caso clásico (excepto en el caso en que la energı́a clásica es cero).
Vimos también que para emular razonablemente el caso clásico, se necesita la superposición de al menos dos estados
estacionarios. Por otro lado, es de esperarse que en el lı́mite de energı́as mucho mayores que ~ω (números cuánticos
n muy grandes), las predicciones clásicas y cuánticas sean casi idénticas, ya que al tener una enorme cantidad de
cuantos se enmascara su carácter discreto.
Hemos visto que muchos sistemas clásicos y cuánticos se pueden describir con el oscilador armónico al menos
en primera aproximación. Por esta razón es importante saber como pasar gradualmente de una descripción clásica
a una descripción cuántica o vice versa. En otras palabras es importante caracterizar ciertos parámetros que nos
indiquen como dicernir cuando los resultados clásicos o cuánticos sean adecuados para describir cierto sistema fı́sico.
Un caso importante es la radiación electromagnética, hemos visto que para altas intensidades la descripción clásica
es adecuada, en tanto que para bajas intensidades el carácter discreto de la radiación se manifiesta claramente.
Lo anterior nos induce a indagar por la existencia de estados cuánticos que conduzcan a predicciones fı́sicas muy
similares a las clásicas, al menos para el oscilador armónico macroscópico. Veremos que los estados que cumplen
esta condición son superposiciones coherentes de los estados estacionarios |ϕ n i del oscilador armónico. Por tal
razón a dichos estados se les denomina como estados coherentes del oscilador armónico o también estados
cuasi-clásicos. Los estados coherentes de la radiación electromagnética permiten dicernir cuantitativamente la
importancia de los efectos cuánticos en la radiación para cada sistema radiativo.
La idea es entonces encontrar estados para los cuales los valores de hXi , hP i , y hHi sean semejantes a los
valores clásicos para todo tiempo. Adicionalmente, puesto que estos observables no son compatibles (no conmutan
entre sı́) no es posible construı́r un estado cuántico en donde las tres cantidades estén bien definidas. Los estados
coherentes deben entonces lidiar inevitablemente con el principio de incertidumbre, de modo que también deben
lograr que las desviaciones medias cuadráticas ∆X, ∆P, ∆H sean despreciables en el lı́mite macroscópico.
9.1. Parametrización del oscilador clásico con parámetros cuánticos

Tomemos como punto de partida las ecuaciones clásicas del oscilador armónico
dx (t) p (t) dp (t)
= ; = −mω 2 x (t) (9.1)
dt m dt
reescribiremos por conveniencia estas ecuaciones en variable adimensionales x b y pb definidas por
r
1 mω
x
b (t) = βx (t) , pb (t) = p (t) ; β = (9.2)
~β ~
db
x (t) db
p (t)
= ωb
p (t) ; = −ωb
x (t) (9.3)
dt dt
9.2. CONSTRUCCIÓN DE LOS ESTADOS COHERENTES O CUASI-CL ÁSICOS 245
nótese que la “normalización” de las variables x y p se realizó con constantes que dependen de ~, de modo que
facilite la comparación del oscilador clásico con el oscilador cuántico. El estado clásico está determinado para todo
tiempo por las variables x (t) , p (t) o equivalentemente, por las variables x b (t) y pb (t). Estas a su vez se pueden
sintentizar en un número complejo adimensional α (t) en la forma
1
α (t) = √ [bx (t) + ib
p (t)] (9.4)
2
y las ecuaciones (9.3) se pueden escribir como una única ecuación compleja en la forma
dα (t)
= −iω α (t) (9.5)
dt
cuya solución es
1
α (t) = α0 e−iωt ; α0 = α (0) = √ [b p (0)] ≡ |α0 | eiδ
x (0) + ib (9.6)
2
siendo α0 un número complejo que se puede escribir como α 0 = |α0 | eiδ , claramente la solución representa un fasor
de magnitud |α0 | y cuya fase está dada por δ − ωt. Es decir, el fasor rota con velocidad angular −ω (de modo que
si ω > 0 el giro es en dirección horaria alrededor de O). √
Es claro
√ además que las componentes cartesianas del fasor α (t) en cualquier instante, corresponden a x
b (t) / 2
y pb (t) / 2. Vemos entonces que la descripción completa del movimiento se obtiene a través de la condición inicial
descrita por α0 , en la Ec. (9.6). Esta condición inicial se expresa bien sea como posición y momento inicial (com-
ponentes cartesianas adimensionales) o bien sea como |α 0 | y δ (parámetros polares correspondientes a la amplitud
adimensional de la oscilación y fase inicial respectivamente). De las Ecs. (9.4, 9.6) se obtiene
1 √ i √
b (t) = √ α0 e−iωt + α∗0 eiωt = 2Re α0 e−iωt ; pb (t) = − √ α0 e−iωt − α∗0 eiωt = 2Im α0 e−iωt
x (9.7)
2 2
ahora escribiremos la energı́a del sistema clásico H la cual es una constante de movimiento y por tanto coincide con
su valor inicial para todo tiempo
1 1
H = [p (0)]2 + mω 2 [x (0)]2
2m 2
~ω n 2
o
H = [b p (0)]2
x (0)] + [b (9.8)
2
teniendo en cuenta la segunda de las Ecs. (9.6), la energı́a queda en la forma
H = ~ω |α0 |2 (9.9)
para un oscilador macroscópico es claro que la energı́a es mucho mayor a la energı́a del cuanto fundamental de modo
que
|α0 | >> 1 (9.10)
9.2. Construcción de los estados coherentes o cuasi-clásicos

Buscaremos estados mecano-cuánticos para los cuales los valores esperados hXi , hP i y hHi sean muy similares a
los valores clásicos x, p, H. Para ello compararemos a X, P con las variables adimensionales xb, pb para lo cual definire-
mos los correspondientes observables adimensionales. Adicionalmente, escribiremos los observables en términos de
los operadores creación y destrucción

b 1 †

b 1 i †

† 1
X = βX = √ a + a ; P = P = −√ a − a ; H = ~ω a a + (9.11)
2 ~β 2 2
si comparamos las Ecs. (9.11) con las Ecs. (9.7, 9.6) vemos que el operador a es el análogo de la cantidad clásica
α (t) y a† posee el papel de α∗ (t). Clásicamente hemos visto que la cantidad compleja α 0 (condiciones iniciales) nos
dictamina la evolución temporal de los observables clásicos que se describen con α (t) en la Ec. (9.6), y dado que a
246CAPÍTULO 9. ESTADOS COHERENTES CUASI-CL ÁSICOS DEL OSCILADOR ARMÓNICO (OPCIONAL)
es el análogo cuántico de α, es natural continuar la analogı́a calculando la evolución temporal de hai para el sistema
en un estado arbitrario |ψ (t)i. Tal evolución se obtiene de la Ec. (5.52)
d
i~ hai (t) = h[a, H]i (t) (9.12)
dt
donde hemos tenido en cuenta que a es solo función de X y P y por tanto no depende explı́citamente del tiempo.
El miembro derecho de (9.12) se escribe como
Dh iE Dh i E
† I
h[a, H]i (t) = ~ω a, a a + (t) = ~ω a, a† a (t) = ~ω a, a† a (t)
2
h[a, H]i (t) = ~ω hai (t)

d
i hai (t) = ω hai (t) (9.13)
dt
cuya solución es
hai (t) = hai (0) e−iωt (9.14)

la solución para a† (t) es la compleja conjugada de (9.14)
D E D E
a† (t) = a† (0) eiωt = hai∗ (0) eiωt (9.15)
nótese que las soluciones cuánticas (9.14, 9.15) son los análogos de la solución clásica (9.6), como era de esperarse
en virtud de la analogı́a a, a† ↔ α, α∗ . Sustituyendo (9.14) y (9.15) en (9.11) se obtiene
D E 1
b (t) =
X √ hai (0) e−iωt + hai∗ (0) eiωt
2
D E i
Pb (t) = − √ hai (0) e−iωt − hai∗ (0) eiωt (9.16)
2
el lı́mite clásico se obtiene igualando los valores esperados con las variables clásicas
D E D E
b (t) = x
X b (t) ; Pb (t) = pb (t) (9.17)
esta igualación se realiza comparando las Ecs. (9.16) con las Ecs. (9.7). De esto se ve que la condición necesaria y
suficiente para obtener el lı́mite clásico (9.17) es que en t = 0 se cumpla la condición
hai (0) = α0 (9.18)
siendo α0 el parámetro complejo que caracteriza al movimiento clásico que pretendemos emular cuánticamente, y
viene dado por la segunda de las Ecs. (9.6). Debemos ahora obtener la condición para la igualación de las energı́as
clásica y cuántica, para ello calculamos el valor esperado del Hamiltoniano cuántico, como éste es constante de
movimiento, se puede evaluar en cero
D E ~ω
hHi = ~ω a† a (0) +
2
debemos igualar esta energı́a con su valor clásico H y obtener la condición que se genera con tal igualación. Para
ello podemos despreciar el término ~ω/2, ya que el lı́mite clásico corresponde a energı́as mucho mayores

que ~ω.
Recordemos que el término ~ω/2 es puramente cuántico en su origen. La igualación de hHi ' ~ω a† a (0) con el
valor clásico dado por la Ec. (9.9) nos lleva a la condición
D E
a† a (0) = |α0 |2 (9.19)
recordando que hemos asumido un estado |ψ (t)i para el sistema, las condiciones (9.18, 9.19) se escriben como
hψ (0)| a |ψ (0)i = α0 ; hψ (0)| a† a |ψ (0)i = |α0 |2 (9.20)

9.3. PROPIEDADES DE LOS ESTADOS |αi 247
veremos que las condiciones (9.20) son suficientes para determinar el estado normalizado |ψ (0)i excepto por un
factor de fase constante. Para verlo introducimos el operador b (α 0 ) definido por
b (α0 ) ≡ a − α0
nótese que este operador mide la “desviación” entre el comportamiento del operador cuántico a y el de su análogo
clásico α0 en el tiempo inicial, tenemos que

b† (α0 ) b (α0 ) = a† − α∗0 (a − α0 ) = a† a − a† α0 − α∗0 a + |α0 |2
con lo cual
n o
kb (α0 ) |ψ (0)ik2 = hψ (0)| b† (α0 ) b (α0 ) |ψ (0)i = hψ (0)| a† a − a† α0 − α∗0 a + |α0 |2 |ψ (0)i
kb (α0 ) |ψ (0)ik2 = hψ (0)| a† a |ψ (0)i − α0 hψ (0)| a† |ψ (0)i − α∗0 hψ (0)| a |ψ (0)i + |α0 |2
y usando las condiciones (9.20) tenemos que
kb (α) |ψ (0)ik2 = |α0 |2 − α0 α∗0 − α∗0 α0 + |α0 |2 = 0
como la norma del ket b (α) |ψ (0)i es nula entonces el ket como tal es nulo, por tanto
b (α) |ψ (0)i = 0 ⇒ (a − α0 ) |ψ (0)i = 0

a |ψ (0)i = α0 |ψ (0)i (9.21)
recı́procamente, si el ket normalizado |ψ (0)i satisface esta relación, podemos devolvernos en los pasos y ver que las
condiciones (9.20) se satisfacen. Nótese que el resultado b (α) |ψ (0)i = 0 es el esperado, ya que cuando el estado
|ψ (0)i es cuasi-clásico, es razonable que la “desviación” entre el comportamiento clásico y el cuántico se anule.
Lo anterior nos lleva a la conclusión de que el estado cuasi-clásico asociado con un movimiento clásico caracter-
izado por el parámetro α0 , es tal que el vector de estado |ψ (0)i en t = 0 es un autovector del operador destrucción
a con autovalor α0 . Escribiremos los autovectores de a y su autovalores en la forma
a |αi = α |αi (9.22)
veremos además que la solución de (9.22) es única salvo constantes.
9.3. Propiedades de los estados |αi

Vamos a determinar las soluciones para el ket |αi de la Ec. (9.22). Para ello expandiremos el ket |αi en la base
de estados estacionarios del oscilador armónico
∞
X
|αi = cn (α) |ϕn i (9.23)
n=0
aplicando el operador destrucción a ambos lados de la expansión y usando la Ec. (8.38), se obtiene
∞
X ∞
X √
a |αi = cn (α) [a |ϕn i] ⇒ a |αi = cn (α) n |ϕn−1 i (9.24)
n=0 n=0
sustituyendo la Ec. (9.24) en la Ec. (9.22) y usando (9.23) resulta

∞
X ∞
X
√
ncn (α) |ϕn−1 i = α ck (α) |ϕk i
n=0 k=0
reemplazando n → k + 1 en el miembro izquierdo, se tiene

∞
X ∞
X
√
k + 1ck+1 (α) |ϕk i = α ck (α) |ϕk i
k=0 k=0
nótese que aunque la suma de la izquierda debe ir desde k = −1, este primer término es nulo. Apelando a la
independencia lineal de los |ϕk i se obtiene
α
ck+1 (α) = √ ck (α) (9.25)
k+1
utilizando esta relación iterativamente tenemos

α α α α2
ck (α) = √ ck−1 (α) = √ √ ck−2 (α) = p ck−2 (α)
k k k−1 k (k − 1)

α2 α α3
ck (α) = p √ ck−3 (α) = p ck−3 (α)
k (k − 1) k−2 k (k − 1) (k − 2)
αk
ck (α) = p ck−k (α)
k (k − 1) (k − 2) . . . × 2 × 1
de modo que todos los coeficientes de la expansión de |αi se pueden generar a partir de c 0 (α)
αk
ck (α) = √ c0 (α) (9.26)
k!
Escogeremos a c0 (α) como real y positivo (fase cero). Adicionalmente, escogeremos c 0 (α) de modo que |αi quede
adecuadamente normalizado. De acuerdo con (9.23), la normalización de |αi nos lleva a
∞
X ∞
X ∞ X
X ∞
1 = hα |αi = c∗k (α) cn (α) hϕk |ϕn i = c∗k (α) cn (α) δkn
k=0 n=0 k=0 n=0
∞
X
⇒ |ck (α)|2 = 1 (9.27)
k=0
reemplazando (9.26) en (9.27) se tiene

∞
X
2 |α|2k 2
|c0 (α)| = 1 ⇒ |c0 (α)|2 e|α| = 1
k!
k=0
|α|2
c0 (α) = e− 2 (9.28)
reemplazando (9.26) y (9.28) en (9.23) queda finalmente

∞
X X∞ X∞
αn αn |α|2
|αi = cn (α) |ϕn i = √ c0 (α) |ϕn i = √ e− 2 |ϕn i
n=0 n=0
n! n=0
n!
X∞
−
|α|2 αn
|αi = e 2 √ |ϕn i (9.29)
n=0 n!
9.3.1. Valores permitidos de la energı́a para un estado coherente |αi

Los estados coherentes son autoestados de un operador que no es observable (el operador a no es hermı́tico). Por
tanto sus valores propios pueden ser complejos y no corresponden a observables fı́sicos. Sin embargo, estos estados
son de cuadrado integrable y por tanto pertenecen al espacio de estados fı́sicos posibles. Asumamos entonces un
oscilador en el estado |αi descrito por la Ec. (9.29). La probabilidad de obtener el valor E m = (m + 1/2) ~ω para el
sistema en el estado |αi se puede calcular de (9.29)
2
|α|2 X∞
α n

Pm (α) = |hϕm |αi|2 = e− 2 √ hϕm |ϕn i
n!
n=0
2m
2 |α|
Pm (α) = e−|α|
m!
9.3. PROPIEDADES DE LOS ESTADOS |αi 249
es fácil ver que la probabilidad anterior cumple con la condición

!
|α|2 −|α|2 |α|
2(m−1)
Pm (α) = e ⇒
m (m − 1)!
|α|2
Pm (α) = Pm−1 (α)
m
de modo que la distribución de la probabilidad es del tipo Poisson. Se puede verificar que el máximo de esta
probabilidad se obtiene cuando
m = la parte entera de |α| 2 (9.30)
calcularemos ahora el valor esperado de la energı́a el cual debe ser comparado con la energı́a clásica. Para ello
notemos primero que de la Ec. (9.22), se tiene que
ka |αik2 = kα |αik2 ⇒ hα| a† a |αi = hα| α∗ α |αi ⇒
hα| a† a |αi = |α|2 (9.31)
con lo cual

1 †
hHiα = ~ω hα| a a + |αi
2

1
hHiα = ~ω |α|2 + (9.32)
2
teniendo en cuenta el resultado (9.30), vemos que si |α| >> 1 (como corresponde al lı́mite clásico), la cantidad hHi α
es muy similar en valor
relativo
a la energı́a E n que corresponde al máximo de Pn (α). Con el fin de calcular el
ancho ∆H calcularemos H 2 α

2 2 2 † 1 2 2 2 † † † 1
H α = ~ ω hα| a a + |αi = ~ ω hα| a a a a + a a + |αi
2 4

2 2 2 2 † 1 2 2 2 2 2 1
= ~ ω hα| N N |αi + ~ ω hα| a a + |αi = ~ ω hN α |N αi + ~ ω |α| +
4 4

2 1
H α = ~2 ω 2 k|N αik2 + ~2 ω 2 |α|2 + (9.33)
4
donde hemos usado la Ec. (9.31) y el hecho de que N = a † a es hermı́tico. Multiplicando (9.22) por a † se tiene que
2

a† a |αi = αa† |αi ⇒ N |αi = αa† |αi ⇒ kN |αik2 = |α|2 a† |αi

⇒ kN |αik2 = |α|2 hα| aa† |αi ⇒ kN |αik2 = |α|2 hα| a† a + 1 |αi

kN |αik2 = |α|2 |α|2 + 1 (9.34)
donde hemos usado nuevamente (9.31). Reemplazando (9.34) en (9.33) se obtiene

2 2 2 2 2 2 2 2 1
H α = ~ ω |α| |α| + 1 + ~ ω |α| +
4

2 1
H α = ~2 ω 2 |α|4 + 2 |α|2 + (9.35)
4
y el ancho se obtiene usando (9.32) y (9.35)

2
1 1 2
(∆Hα ) = H α − 2
hHi2α 2 2
= ~ ω |α| + 2 |α| + 4 2
− ~ω |α| + 2
4 2

1 1
(∆Hα )2 = ~2 ω 2 |α|4 + 2 |α|2 + − |α|4 − |α|2 − = ~2 ω 2 |α|2
4 4
(∆Hα ) = ~ω |α| (9.36)
en el lı́mite cuasi-clásico el ancho relativo debe ser mucho menor que uno, con el fin de poder afirmar que la energı́a
está bien definida. El ancho relativo se puede calcular de (9.32) y (9.36)
∆Hα |α|
= (9.37)
hHiα |α|2 + 12
para el lı́mite cuasi-clásico |α| >> 1, se tiene que
∆Hα |α| 1
' 2 = |α| << 1 (9.38)
hHα i |α|
de modo que se puede considerar que la energı́a está bien definida en el lı́mite cuasi-clásico. Es inmediato ver que
hN iα = |α|2 ; ∆Nα = |α|
lo cual nos dice que para obtener un estado cuasi-clásico |α| >> 1, se debe suporponer un enorme número de estados
|ϕn i ya que ∆Nα >> 1. Sin embargo, el valor relativo de la dispersión sobre N también es muy pequeño
∆Nα 1
' << 1
hN iα |α|
9.3.2. Cálculo de los observables X, P en el estado |αi

Con el fin de realizar la comparación con los valores clásicos, calcularemos hXi , hP i , ∆X, ∆P . Para ello se
usan las expresiones de X y P en términos de a y a † (ver Ecs. 8.7), junto con la Ec. (9.22)
r r i r ~ r
~ † ~ h † ∗ 2~
hXiα = hα| a + a |αi = hα| a |αi + hα| a |αi = (α + α) = Re (α)
2mω 2mω 2mω mω
r r r
m~ω m~ω ∗ m~ω (α − α∗ ) √
hP iα = i hα| a† − a |αi = i (α − α) = (−2i) i = 2m~ωIm (α)
2 2 2
2i
2 ~ 2 ~ 2 ~ 2
† † 2 † † † 2
X α = hα| a + a |αi = hα| a + a + a a + aa |αi = hα| a + a + 2N + 1 |αi
2mω 2mω 2mω
~ h ∗2 i ~ h ∗ i
= α + α2 + 2 |α|2 + 1 = (α + α)2 + 1
2mω 2mω

2 m~ω 2 m~ω 2 m~ω h ∗2 i
P α = − hα| a† − a |αi = − hα| a† + a2 − 2N − 1 |αi = −α − α2 + 2 |α|2 + 1
2 2 2
m~ω h i
= − (α − α∗ )2 + 1
2

~ h ∗ i ~ ~
(∆Xα )2 = X 2 α − hXi2α = (α + α)2 + 1 − (α∗ + α)2 =
2mω 2mω 2mω
"r #2

2 m~ω h i m~ω ∗
2 2 ∗ 2
(∆Pα ) = P α − hP iα = − (α − α ) + 1 − i (α − α)
2 2
m~ω h i m~ω m~ω
= − (α − α∗ )2 + 1 + (α∗ − α)2 =
2 2 2
resumiendo los anteriores resultados tenemos que
r
2~ √
hXiα = hα| X |αi = Re (α) ; hP iα = hα| P |αi = 2m~ωIm (α) (9.39)
mω

2 ~ h i
m~ω h i
X α = (α + α∗ )2 + 1 ; P 2 α = 1 − (α − α∗ )2 (9.40)
r2mω r 2
~ m~ω
∆Xα = ; ∆Pα = (9.41)
2mω 2
se observa que los anchos ∆Xα y ∆Pα no dependen de α y el producto de los anchos toma su valor mı́nimo
~
∆Xα · ∆Pα = (9.42)
2
lo cual es muy deseable para un lı́mite cuasi-clásico.
9.4. GENERADOR Y FUNCIÓN DE ONDA DE LOS ESTADOS COHERENTES 251
9.4. Generador y función de onda de los estados coherentes

Teniendo en cuenta la Ec. (8.28) vemos que el estado coherente de la Ec. (9.29) se puede escribir en términos
del operador construcción a partir del estado base del oscilador armónico
" #
∞
|α|2 X αn
∞
|α|2 X αn a † n ∞
|α|2 X αa
† n
|αi = e− 2 √ |ϕn i = e− 2 √ √ |ϕ0 i = e− 2 |ϕ0 i
n! n! n! n!
n=0 n=0 n=0

|α|2 †
|αi = e− 2 eαa |ϕ0 i ≡ D̄ (α) |ϕ0 i (9.43)
podemos generar a |αi a partir de |ϕ0 i con un operador más simétrico, para ello tenemos en cuenta que el operador
destrucción a aniquila el estado base, con lo cual tenemos que

−α∗ a ∗ α∗2 2
e |ϕ0 i = 1 − α a + a + . . . |ϕ0 i = |ϕ0 i (9.44)
2!
de la Ec. (9.44) podemos reescribir la Ec. (9.43) en la forma

|α|2 † ∗
|αi = e− 2 eαa e−α a |ϕ0 i
|αi = D (α) |ϕ0 i (9.45)

2
− |α| † ∗a
D (α) ≡ e 2 eαa e−α (9.46)
teniendo en cuenta que h i h i

αa† , −α∗ a = −αα∗ a† , a = |α|2 I
y usando la relación (1.147), las Ecs. (9.45, 9.46) quedan

† −α∗ a
D (α) = eαa ; |αi = D (α) |ϕ0 i (9.47)
este operador (conocido como operador de Weyl) es unitario

∗ a−αa†
D † (α) = eα ⇒ D (α) D † (α) = D † (α) D (α) = I
La Ec. (9.47) nos muestra que podemos ver al operador unitario D (α) como un operador “creación” del estado
coherente |αi a partir del estado base del oscilador armónico. La Ec. (9.47) nos permite encontrar la función de
onda asociada a los estados coherentes
ψα (x) = hx| αi = hx| D (α) |ϕ0 i (9.48)
para calcular la función de onda, primero escribimos el operador αa † − α∗ a en términos de X y P usando las Ecs.
(8.5) r
† ∗ mω α − α∗ i α + α∗
αa − α a = √ X− √ √ P
~ 2 m~ω 2
teniendo en cuenta que
r r
mω α − α∗ i α + α∗ i mω
√ X, − √ √ P = − √ (α − α∗ ) (α + α∗ ) [X, P ]
~ 2 m~ω 2 2 m~ω ~
1 2
= α − α∗2
2
y usando de nuevo la relación (1.147), el operador D (α) queda
r ∗2
αa† −α∗ a mω α − α∗ i α + α∗ α − α2
D (α) = e = exp √ X exp − √ √ P exp
~ 2 m~ω 2 4
sustituyendo este resultado en (9.48) se obtiene

r
α∗2 − α2 mω α − α∗ i α + α∗
ψα (x) = exp hx| exp √ X exp − √ √ P |ϕ0 i
4 ~ 2 m~ω 2
∗2 r ( " r # )
α −α 2 mω α − α ∗ i ~
ψα (x) = exp exp √ x hx| exp − (α + α∗ ) P |ϕ0 i (9.49)
4 ~ 2 ~ 2mω
ahora bien, el operador e−iλP/~ es el operador traslación de λ a lo largo de x (siendo P la componente x del momento)
ver sección 1.44.2 Ec. (1.202), pág 93, de modo que
( "r # ) * r
i ~ ~
∗ ∗
hx| exp − (α + α ) P = x − (α + α )
~ 2mω 2mω

r r !
α∗2 − α2 mω α − α∗ ~
ψα (x) = exp exp √ x ϕ0 x− (α + α∗ ) (9.50)
4 ~ 2 2mω
si escribimos α y α∗ en términos de hXiα y hP iα según las Ecs. (9.39), tenemos que

r
∗ hP i mω
α−α = 2i Im(α) = 2i √ α ; α + α∗ = 2Re (α) = 2 hXiα (9.51)
2m~ω 2~
hXiα hP iα
α∗2 − α2 = − (α − α∗ ) (α + α∗ ) = −2i (9.52)
~
reemplazando las Ecs. (9.51, 9.52) en la función de onda (9.50) tenemos que
r r r !
hXiα hP iα mω 2i hP iα ~ mω
ψα (x) = exp −i exp √ √ x ϕ0 x− 2 hXiα
2~ ~ 2 2m~ω 2mω 2~
hXiα hP iα
ψα (x) = eiθα eihP iα x/~ ϕ0 (x − hXiα ) ; θα ≡ − (9.53)
2~
la ecuación (9.53) nos muestra que ψ α (x) se puede obtener a partir de la función de onda ϕ 0 (x) del estado base
del oscilador armónico en la siguiente forma: Se traslada esta función a lo largo de x en una cantidad hXi α y
se multiplica por la exponencial oscilante e ihP iα x/~ . El factor eiθa es irrelevante y puede ser omitido, nótese sin
embargo que el término eihP iα x no es una fase global sino local ya que dependen de x, y por tanto es relevante. Esta
exponencial nos asegura que el valor promedio de P en el estado ψ α (x) sea hP iα .
Si reemplazamos la forma explı́cita de ϕ 0 (x) (Ec. 8.45, Pág. 237), en la Ec. (9.53) obtenemos
 " r #2 
mω 1 1  
1 mω mω 4 iθα ihP iα x/~ 1 2mω
(x − hXiα )2 =
4 iθα ihP i x/~
ψα (x) = e e α exp − e e exp − (x − hXiα )
π~ 2 ~ π~  2 ~ 
( )
1 x − hXiα 2
iθα mω 4 x
ψα (x) = e exp − + i hP iα (9.5
π~ 2∆Xα ~
donde hemos usado también la Ec. (9.41). La forma del paquete de onda asociada con el estado |αi está dada por
r ( )
2 mω 1 x − hXiα 2
|ψα (x)| = exp − (9.55)
π~ 2 ∆Xα
con lo cual para cualquier estado coherente |αi obtenemos un paquete Gaussiano. Esto a su vez está relacionado
con la propiedad de mı́nima incertidumbre que obtuvimos en la Ec. (9.42).
9.5. LOS ESTADOS COHERENTES SON COMPLETOS PERO NO ORTOGONALES 253
9.5. Los estados coherentes son completos pero no ortogonales

Los estados coherentes o cuasi-clásicos |αi son autovectores del operador a, el cual no es hermı́tico. Por tanto, no
es claro si estos estados satisfacen relaciones de completez y ortogonalidad. Veremos que el conjunto de los estados
coherentes {|αi} es completo pero no es ortogonal.
Consideremos primero el producto interno de dos estados cuasi-clásicos. Aplicando (9.29) tenemos
" ∞
#" ∞
#
0 |α|2 X α∗m |α0 |2 X α0n
hα α = e 2 −
√ hϕm | e 2 −
√ |ϕn i
m=0 m! n=0 n!
" ∞ ∞ #
|α|2 | α0 |2 X X α0n α∗m
= e − 2 e− 2 √ √ hϕm | ϕn i
m=0 n=0 n! m!
"∞ # "∞ #
|α|2 |α0 |2 X α0n α∗n |α|2 |α0 |2 X (α0 α∗ )n
= e − 2 e− 2 √ √ = e − 2 e− 2
n! n! n!
n=0 n=0
0 |α|2 |α0 |2 ∗ 0

hα α = e − 2 − 2
e eα α
con lo cual resulta 0 2 2

hα α = e−|α−α0 | (9.56)
de modo que este producto escalar no es nunca cero. Los estados coherentes no son ortogonales.
Veremos no obstante que los estados |αi poseen una relación de completez de la forma
Z Z
1
|αi hα| d2 α = 1 (9.57)
π
comenzaremos reemplazando |αi al lado izquierdo de (9.57) por su expresión en (9.29)

Z Z Z Z " ∞
#" ∞
#
1 1 |α|2 X αn |α|2 X α∗m
I ≡ |αi hα| d2 α = e− 2 √ |ϕn i e− 2 √ hϕm | d2 α
π π n! m!
n=0 m=0
Z Z " ∞ X ∞
#
1 2 X αn α∗m
I = e−|α| √ √ |ϕn i hϕm | d2 α (9.58)
π n! m!
n=0 m=0
el complejo α lo podemos escribir como
α = ρeiϕ = x + iy ; d2 α = ρ dρ dϕ = dx dy = d {Re (α)} d {Im (α)} (9.59)
donde hemos tenido en cuenta la expresión del diferencial de área en coordenadas polares 1 . Sustituyendo la
parametrización polar de la Ec. (9.59) en la integral (9.58), ésta última queda como
Z Z "∞ ∞ #
1 2 X X ρeiϕ n ρe−iϕ m
e−|ρe |
iϕ
I = √ √ |ϕn i hϕm | ρ dρ dϕ
π n! m!
n=0 m=0
Z Z "∞ ∞ #
1 2 X X ρn+m ei(n−m)ϕ
I = e−|ρ| √ |ϕn i hϕm | ρ dρ dϕ
π n=0 m=0 n!m!
∞ ∞ Z Z 2π
1 X X ∞ −ρ2 n+m 1
I = e ρ ρ dρ √ |ϕn i hϕm | dϕ ei(n−m)ϕ (9.60)
π n!m!
n=0 m=0 0 0
la integral sobre ϕ es inmediata Z 2π

ei(n−m)ϕ dϕ = 2πδnm
0
1
Combinando las Ecs. (9.39, 9.59), podemos ver que d2 α = d {Re (α)} d {Im (α)} = 2~ 1
d hXiα d hP iα , con lo cual la Ec. (9.57) que
expresa la completez de los estados coherentes, se puede interpretar como una integral sobre el espacio de fase clásico.
de modo que la Ec. (9.60) queda en la forma

X∞ X ∞ Z ∞ X∞ Z ∞
−ρ2 n+m 1 2 1
I = 2 e ρ ρ dρ √ |ϕn i hϕm | δmn = 2 e−ρ ρn+n ρ dρ √ |ϕn i hϕn |
n=0 m=0 0 n!m! n=0 0 n!n!
X∞ Z ∞
−ρ2 2n 1
I = 2 e ρ ρ dρ |ϕn i hϕn |
0 n!
n=0
haciendo el cambio de variable u = ρ2 , du = 2ρ dρ tenemos

X 1 Z ∞ Z ∞
−ρ2 2n
In |ϕn i hϕn | ; In = 2 ρ dρ e ρ = du e−u un (9.61)
n
n! 0 0
haciendo dV = du e−u y U = un integramos In por partes

Z ∞ Z

n −u ∞
In = −u e 0 − −e (nun−1 ) du = n du e−u un−1
−u
0
con lo cual encontramos una relación de recurrencia para I n

In = nIn−1
cuya solución es
In = nIn−1 = n (n − 1) In−2 = n (n − 1) (n − 2) In−3 = . . . = [n × (n − 1) × (n − 2) × · · · × 2 × 1] In−n
In = n!I0
de la Ec. (9.61) tenemos que
Z ∞ ∞
I0 = du e−u = −e−u 0 = 1 ⇒
0
In = n!I0 = n!
que al sustituı́rlo en (9.61) nos da X
I= |ϕn i hϕn | = 1
n
donde hemos usado la completez de las autofunciones del oscilador armónico. Con esto se demuestra la Ec. (9.57),
que nos expresa la completez de los estados coherentes |αi.
9.6. Evolución temporal de los estados coherentes

Consideremos un oscilador armónico que en t = 0 está en un estado coherente dado |ψ (0)i = |α 0 i. Veremos
la evolución temporal de este estado y de los observables más importantes. Ya hemos visto que hXi (t) y hP i (t)
permanecen iguales a sus valores clásicos para todo tiempo. De hecho, esta caracterı́stica fué la motivación para la
construcción de estos estados.
Para calcular la evolución temporal del estado del sistema, expandimos el estado inicial en autoestados del
Hamiltoniano del oscilador armónico usando (9.29)
X |α0 |2 αn
|ψ (0)i = |α0 i = cn (0) |ϕn i ; cn (0) ≡ e− 2 √0 (9.62)
n n!
Como el Hamiltoniano del oscilador armónico es independiente del tiempo, la evolución temporal del estado se
puede calcular con la Ec. (5.67)
X |α0 |2 X αn 1
|ψ (t)i = cn (0) e−iEn t/~ |ϕn i = e− 2 √ 0 e−i(n+ 2 )ωt |ϕn i
n n n!
2 n
|α0 |2 X αn |α0 e−iωt | X α0 e−iωt
−i ωt − 0 −inωt −i ωt −
|ψ (t)i = e 2 e 2 √ e |ϕn i = e 2 e 2 √ |ϕn i (9.63)
n n! n n!
9.6. EVOLUCIÓN TEMPORAL DE LOS ESTADOS COHERENTES 255
comparando (9.63) con (9.62), vemos que el ket |ψ (t)i se obtiene del ket inicial |ψ (0)i = |α 0 i cambiando α0 por
ωt
α0 e−iωt y multiplicando el ket resultante por la fase global (irrelevante) e −i 2 , con lo cual |ψ (t)i se puede reescribir
como
|ψ (t)i = e−iωt/2 α = α0 e−iωt (9.64)
por tanto el estado cuasi-clásico continúa siendo autovector del operador a, para todo tiempo t. Su autovalor es
α0 e−iωt que es el parámetro α (t) descrito por las ecuaciones (9.4, 9.6) y que geométricamente es un fasor que rota
en el plano complejo con velocidad angular −ω. Recordemos que este fasor caracteriza en todo tiempo al oscilador
armónico clásico cuya evolución pretendemos reproducir a través del estado |ψ (t)i. Los valores esperados de hXi y
hP i para todo tiempo se obtienen a partir de (9.64) y (9.39)
r
2~ √
hXiα(t) (t) = Re α0 e−iωt ; hP iα(t) (t) = 2m~ωIm α0 e−iωt (9.65)
mω
y tal como se predijo, estas ecuaciones son similares a la evolución clásica Ecs. (9.7).
Por otro lado, la energı́a promedio es independiente del tiempo

−iωt 2 1 2 1

hHiα(t) (t) = ~ω α0 e + = ~ω |α0 | + (9.66)
2 2
finalmente, las raı́ces de las desviaciones medias cuadráticas ∆H α(t) , ∆Xα(t) y ∆Pα(t) calculadas con las Ecs. (9.36,
9.41) nos dan r r
~ m~ω
∆H = ~ω |α0 | ; ∆X = ; ∆P = (9.67)
2mω 2
vemos que los anchos no dependen del tiempo. En particular ∆X y ∆P permanecen siendo paquetes de mı́nima
incertidumbre para todo tiempo. No hay dispersión de los paquetes de onda. Veamos un poco más en detalle la
evolución del paquete de onda, la función de onda ψ (x, t) para todo tiempo se puede calcular con las Ecs. (9.54,
9.64)
1/4 h i2
iθα mω
xhP i(t) − x−hXi(t)
−iωt/2 i ~
ψ (x, t) = e e e e 2∆X
π~
vemos que la forma del paquete es Gaussiana para todo tiempo t. Su forma no varı́a en el tiempo puesto que
|ψ (t)|2 = |ϕ0 (x − hXi (t))|2
vemos que los estados cuasi-clásicos son tales que los anchos ∆X y ∆P permanecen como paquetes de mı́nima
incertidumbre y la forma del paquete permanece intacta cuando éste se propaga. Esta ausencia de dispersión y
de cambio del perfil del paquete es la que le da el nombre de “estados coherentes” a los estados cuasi-clásicos del
oscilador armónico.
La Fig. 9.1 muestra el movimiento de un paquete de onda de un estado coherente. De acuerdo con la Ec. (9.65),
el valor esperado de X oscila alrededor de x = 0 con periodo T = 2π/ω, y dado que el paquete de onda no se
distorsiona, este será también el movimiento del paquete como un todo. En contraste, vimos en la sección 2.13.1 que
un paquete Gaussiano libre se distorsiona cuando se propaga, ya que su ancho aumenta a medida que se propaga
(dispersión del paquete de onda). Vemos en contraste que un paquete Gaussiano sometido a un potencial parabólico
(oscilador armónico) no posee dispersión. Esto se debe a que la tendencia del paquete a dispersarse es compensada
por el potencial, cuyo efecto es empujar al paquete hacia el origen desde regiones donde x (y por tanto V (x)) es
grande.
Adicionalmente, ya hemos visto en las secciones (9.3.1, 9.3.2) que cuando |α| >> 1, las raı́ces de las desviaciones
medias cuadráticas de X, P y H no cambian, son mucho menores que sus valores esperados asociados y además
dichos valores esperados emulan en todo tiempo la evolución clásica. De modo que escogiendo un valor de |α|
lo suficientemente alto, obtenemos una evolución temporal cuántica para la cual la posición y momento de los
osciladores son en valor relativo, tan definidos como es posible, ya que los paquetes son de mı́nima incertidumbre,
y su valor caracterı́stico tiene un comportamiento similar al clásico. Por tanto, en este lı́mite el estado |αi emula
muy bien las propiedades de un oscilador macroscópico (clásico) para el cual la posición, momento y energı́a están
bien definidos.
Figura 9.1: Propagación de un paquete de onda Gaussiano sometido a un potencial parabólico y asociado a un estado
cuasi-clásico. El paquete oscila alrededor del punto de equilibrio. La forma y el ancho del paquete Permanecen
intactos en el tiempo.
9.7. Tratamiento mecano-cuántico de un oscilador armónico macroscópico

Consideraremos un ejemplo macroscópico que nos permita una apreciación numérica de la discusión anterior. Sea
un cuerpo de masa m = 1kg, suspendido de una cuerda de longitud l = 0,1m colocado en un campo gravitacional
g ' 10m/seg 2 . Sabemos que para pequeñas oscilaciones el periodo de movimiento es
s
l
T = 2π ' 0,63seg ; ω = 10Rad/seg
g
asumamos que este oscilador realiza movimiento periódico de amplitud x M = 1cm. Nos preguntamos ahora por el
estado mecano-cuántico que mejor representa esta oscilación.
De acuerdo con la discusión anterior, dicho estado es del tipo |αi. Combinando la relación clásica entre energı́a
y amplitud con la Ec. (9.32) (despreciando el factor 1/2 en esta última) se obtiene
1
E = mω 2 x2M = ~ω |α|2 ⇒
2
r
mω
|α| = xM
2~
en donde el argumento de α depende de la fase inicial de movimiento. Para nuestro caso tenemos las siguientes
9.7. TRATAMIENTO MECANO-CUÁNTICO DE UN OSCILADOR ARMÓNICO MACROSCÓPICO 257
estimaciones numéricas
√
|α| '5 × 1015 >> 1
r
~
∆X = ' 2,2 × 10−18 m << xM
2mω
r
m~ω
∆P = ' 2,2 × 10−17 kg m/s
2
la raı́z de la desviación media cuadrática para la velocidad está dada por
∆V ' 2,2 × 10−17 m/s
el valor máximo de la velocidad del oscilador es 0,1m/s y la raı́z del valor medio cuadrático es de este mismo orden
de magnitud. Por tanto, las incertidumbres en la posición y velocidad son completamente despreciables con respecto
a las cantidades involucradas en el problema. Por ejemplo ∆X es menor que un fermi (10 −15 m) que es el tamaño
aproximado de un núcleo atómico. Es claro que esta cantidad es despreciable para una longitud macroscópica.
Finalmente, la energı́a del oscilador se conoce con una excelente precisión relativa, usando la Ec. (9.38) resulta
∆H 1
' ' 0,4 × 10−15 << 1
hHi |α|
todo esto nos muestra porqué la mecánica clásica provee una adecuada descripción del oscilador armónico macroscópi-
co.
Capı́tulo 10
Teorı́a general del momento angular en

mecánica cuántica
Es bien conocida la gran importancia que tiene el momento angular en mecánica clásica. En primer lugar es
una constante de movimiento cuando el sistema es aislado constituyendo uno de los principios de conservación más
fundamentales en la teorı́a clásica. Además, también es una cantidad conservada para una partı́cula sometida a
una fuerza central, y trae como consecuencia el hecho de que el movimiento sea en un plano y que se conserve la
velocidad aerolar (segunda ley de Kepler).
Veremos que estas propiedades tienen su contrapartida cuántica. Por ejemplo, veremos más adelante que para
una partı́cula sometida a una interacción central, los operadores L 1 , L2 , L3 que surgen de cuantizar las cantidades
clásicas, son constantes de movimiento en el sentido cuántico, es decir no dependen explı́citamente del tiempo y
conmutan con el Hamiltoniano. Veremos además que existe otro tipo de momento angular que no depende de R ni P
ni de ninguna otra variable geométrica clásica. Estos momentos angulares que surgen directamente como observables
cuánticos y no como la cuantización de observables clásicos se denominan momentos angulares intrı́nsecos. Este
momento angular intrı́nseco (también conocido como espı́n), está cuantizado desde el principio y es esencial para
entender el mundo microscópico como veremos más adelante.
De aquı́ en adelante denotaremos como momento angular orbital L a cualquier momento angular que provenga
de la cuantización de un momento angular clásico. Llamaremos momento angular de espı́n S o simplemente espı́n,
a cualquier momento angular intrı́nseco de una partı́cula. Finalmente, en sistemas complejos como núcleos, átomos,
moléculas, etc. los momentos angulares orbitales de sus constituyentes se combinan y también se combinan con
los espines de sus constituyentes para formar el momento angular total J. La notación J representará entonces
la resultante entre la suma de momentos orbitales e intrı́nsecos, pero también se usará para denotar un momento
angular genérico cuando no hagamos distinción entre el momento angular intrı́nseco y orbital. Las reglas de adición
de los momentos angulares se estudiarán en capı́tulos subsecuentes.
Existen una serie de propiedades de los momentos angulares que solo dependen de sus relaciones de conmutación
y que serán válidas para cualquier momento angular sin importar su naturaleza. Veremos en particular, que toda
componente de un momento angular posee un espectro discreto, propiedad denominada “cuantización espacial”.
Desarrollaremos en capı́tulos posteriores, las aplicaciones concernientes tanto al momento angular orbital como al
intrı́nseco.
10.1. Definición de momento angular por sus propiedades de conmutación

10.1.1. Cuantización del momento angular orbital
Para obtener los tres observables L 1 , L2 , L3 asociados a un momento angular orbital clásico de componentes
L1 , L2 , L3 , donde
→
−
L = r×p (10.1)
Li = εijk xj pk ; i, j, k = 1, 2, 3 (10.2)
10.1. DEFINICIÓN DE MOMENTO ANGULAR POR SUS PROPIEDADES DE CONMUTACI ÓN 259
simplemente reemplazamos cada componente x j , pk por los correspondientes operadores X j , Pk . La cantidad εijk es el
tensor de Levi Civita. Nótese que aunque aparece un producto de estos operadores, no es necesaria una simetrización
puesto que en (10.2) solo sobreviven los términos con j 6= k de modo que los operadores en el producto conmutan
según las reglas canónicas de conmutación (4.9). Por esta razón, no hay ambigüedad en el orden y el operador que se
obtiene es automáticamente hermı́tico. Visto de otra manera, la simetrización del producto coincide con el producto
original cuando los operadores conmutan. Los observables cuánticos son entonces
Li = εijk Xj Pk ; i, j, k = 1, 2, 3 (10.3)
L = R×P (10.4)
calculemos entonces los conmutadores entre los L i con base en las relaciones canónicas de conmutación (4.9)
[L1 , L2 ] = [X2 P3 − X3 P2 , X3 P1 − X1 P3 ] = [X2 P3 , X3 P1 − X1 P3 ] − [X3 P2 , X3 P1 − X1 P3 ]

= [X2 P3 , X3 P1 ] − [X2 P3 , X1 P3 ] − [X3 P2 , X3 P1 ] + [X3 P2 , X1 P3 ]
= X2 [P3 , X3 P1 ] + [X2 , X3 P1 ] P3 − X2 [P3 , X1 P3 ] − [X2 , X1 P3 ] P3
−X3 [P2 , X3 P1 ] − [X3 , X3 P1 ] P2 + X3 [P2 , X1 P3 ] + [X3 , X1 P3 ] P2
[L1 , L2 ] = X2 [P3 , X3 ] P1 + X3 [X2 , P1 ] P3 − X2 [P3 , X1 ] P3 − X1 [X2 , P3 ] P3

−X3 [P2 , X3 ] P1 − X3 [X3 , P1 ] P2 + X3 [P2 , X1 ] P3 + X1 [X3 , P3 ] P2
[L1 , L2 ] = −i~X2 P1 + i~X1 P2 = i~ (R × P)3

[L1 , L2 ] = i~L3
procediendo de forma similar con los demás conmutadores se obtiene
[L1 , L2 ] = i~L3 ; [L1 , L3 ] = −i~L2 ; [L2 , L3 ] = i~L1
o más sintéticamente
[Li , Lj ] = i~εijk Lk (10.5)
este resultado se puede generalizar cuando tenemos N partı́culas sin espı́n. El momento angular total del sistema
en mecánica cuántica es
N
X
L= L(i) ; L(i) ≡ R(i) × P(i)
i=1
y cada momento angular individual L (i)

satisface relaciones de conmutación del tipo (10.5) y conmuta con L (j) para
i 6= j, ya que son operadores actuando en el espacio de estados de partı́culas diferentes. Por tanto para N partı́culas
tendrı́amos h i
(m) (n) (m)
Li , L j = i~εijk δmn Lk
Se puede demostrar adicionalmente que el origen de las reglas de conmutación (10.5) yace en las propiedades
geométricas de las rotaciones en tres dimensiones. Esto está relacionado con el hecho de que en mecánica clásica, el
momento angular junto con el torque forman las variables fundamentales de la dinámica rotacional.
10.1.2. Definición de momento angular

De nuestro trabajo con el oscilador armónico hemos aprendido que muchas propiedades se pueden extraer de las
reglas de conmutación entre los operadores sin utilizar una representación especı́fica. Esto nos induce a generalizar los
resultados anteriores para definir un operador momento angular como cualquier tripla de observables J = (J 1 , J2 , J3 ),
que satisface las relaciones
[Ji , Jj ] = i~εijk Jk (10.6)
será de gran utilidad el operador
J2 = J12 + J22 + J32
260 CAPÍTULO 10. TEORÍA GENERAL DEL MOMENTO ANGULAR EN MEC ÁNICA CUÁNTICA
este operador es Hermı́tico ya que cada componente es hermı́tica. Vale la pena enfatizar que el carácter de observable
de los Ji forma parte esencial de la definición de momento angular 1 . Calculemos primero el conmutador de J 2 con
J, para lo cual calculamos para cada componente
2
J , J1 = J12 + J22 + J32 , J1 = J22 , J1 + J32 , J1
= J2 [J2 , J1 ] + [J2 , J1 ] J2 + J3 [J3 , J1 ] + [J3 , J1 ] J3
= −i~J2 J3 − i~J3 J2 + i~J3 J2 + i~J2 J3
2

J , J1 = 0
y similarmente con las otras componentes de modo que

2
J ,J = 0 (10.7)
toda la teorı́a del momento angular en cuántica se basará completamente en las reglas de conmutación (10.6,
10.7). En particular, estas relaciones muestran que no es posible medir simultáneamente las tres componentes del
momento angular, pero sı́ es posible medir simultáneamente una sola componente y la cantidad J 2 . Es decir cualquier
componente de J es una variable compatible con J 2 . Esto implicará que si asumimos que J 2 y Ji son observables,
podemos encontrar una base común de vectores propios para J 2 y uno de los Ji . Es usual elegir la componente de
J3 , y decimos que tomamos a X3 como “eje de cuantización” de modo que construı́mos una base que diagonalice
simultáneamente a J2 y a J3 .
10.2. Propiedades algebráicas del momento angular

Estudiaremos la estructura del espectro de J 2 y J3 ası́ como la estructura de sus vectores propios comunes.
Veremos que muchos de los argumentos se asemejan a los que se utilizaron para el oscilador armónico.
En primer lugar, inspirados por la definición de los operadores a y a † en las Ecs. (8.4) introduciremos los
siguientes operadores
J+ ≡ J1 + iJ2 ; J− ≡ J1 − iJ2 (10.8)

1 1
J1 = (J+ + J− ) ; J2 = (J+ − J− ) (10.9)
2 2i
y al igual que los operadores a y a† , los operadores J± no son hermı́ticos y son conjugados el uno del otro. En todo
el estudio del momento angular trabajaremos con los operadores J 2 , J3 , J+ , J− por lo cual será necesario encontrar
todas las relaciones de conmutación entre ellos
10.2.1. Álgebra de los operadores J2 , J3 , J+ , J−

Usando las Ecs. (10.6, 10.7, 10.8) podemos encontrar las relaciones de conmutación requeridas
[J3 , J± ] = [J3 , J1 ± iJ2 ] = [J3 , J1 ] ± i [J3 , J2 ] = i~J2 ± i (−i~J1 ) = ~ {iJ2 ± J1 }

[J3 , J+ ] = ~J+ ; [J3 , J− ] = −~J−
[J+ , J− ] = [J1 + iJ2 , J1 − iJ2 ] = [J1 , J1 − iJ2 ] + i [J2 , J1 − iJ2 ]

= [J1 , J1 ] − i [J1 , J2 ] + i [J2 , J1 ] + [J2 , J2 ] = 2i [J2 , J1 ] = 2i (−i~J3 )
[J+ , J− ] = 2~J3 (10.10)

J2 , J ± = J2 , J1 ± iJ2 = J2 , J1 ± i J2 , J2

J2 , J ± = 0
1
Para un conjunto concreto de tres operadores, el carácter de observable solo podrá verificarse cuando se sepa sobre que espacio
actúan los operadores momento angular. Las reglas de conmutación no especifican sobre qué espacio actúan los momentos angulares.
10.3. ESTRUCTURA DE VALORES Y VECTORES PROPIOS 261
también serán útiles los siguientes productos
J+ J− = (J1 + iJ2 ) (J1 − iJ2 ) = J12 + J22 + iJ2 J1 − iJ1 J2

= J12 + J22 + J32 − J32 + i [J2 , J1 ] = J2 − J32 + i (−i~J3 )
J+ J− = J2 − J32 + ~J3 (10.11)
el producto J− J+ se puede obtener explı́citamente o usando las Ecs. (10.10, 10.11)
J− J+ = J+ J− − [J+ , J− ] = J2 − J32 + ~J3 − 2~J3

J− J+ = J2 − J32 − ~J3
resumiremos el álgebra encontrada hasta ahora. Tenemos las definiciones
J ≡ (J1 , J2 , J3 ) ; J2 ≡ J12 + J22 + J32 (10.12)

J+ ≡ (J1 + iJ2 ) ; J− ≡ (J1 − iJ2 ) (10.13)
donde los Ji son observables con las siguientes propiedades algebráicas

2
[Ji , Jj ] = i~εijk Jk ; J ,J = 0 (10.14)
[J3 , J+ ] = ~J+ ; [J3 , J− ] = −~J− (10.15)
2
[J+ , J− ] = 2~J3 ; J , J± = 0 (10.16)
2
J+ J− = J − J32 + ~J3 ; J− J+ = J − 2
J32 − ~J3 (10.17)
10.3. Estructura de valores y vectores propios

10.3.1. Notación
Dado que J2 es la suma de cuadrados de tres operadores hermı́ticos, tal operador es positivo
hψ| J2 |ψi = hψ| J12 |ψi + hψ| J22 |ψi + hψ| J32 |ψi = hψ| J1† J1 |ψi + hψ| J2† J2 |ψi + hψ| J3† J3 |ψi
= kJ1 |ψik2 + kJ2 |ψik2 + kJ3 |ψik2 ≥ 0
este resultado era de esperarse ya que la variable clásica es el módulo al cuadrado de un vector el cual es no negativo.
En particular eligiendo a |ψi como un autovector de J 2 vemos que
hψ| J2 |ψi = hψ| a |ψi = a hψ| ψi = a k|ψik2 ≥ 0 ⇒ a ≥ 0
los autovalores deben ser no negativos (en analogı́a con los autovectores de N en el oscilador armónico). Dado que
J tiene dimensiones de momento angular, el valor propio de J 2 se puede parametrizar como a = µ~2 siendo µ una
cantidad adimensional no negativa. Adicionalmente, se puede demostrar que para todo µ ≥ 0 la ecuación
j (j + 1) = µ (10.18)
tiene una y solo una raı́z no negativa 2 . Por tanto la especificación de µ determina completamente a j y viceversa.
Por tanto, sin pérdida de generalidad podemos denotar a los valores propios de J 2 en la forma
J2 |ψi = j (j + 1) ~2 |ψi ; j ≥ 0
si consideramos que {|ψi} es la base de vectores propios comunes a J 2 y J3 denotaremos a los valores propios de J 3
en la forma
J3 |ψi = m~ |ψi
siendo m una cantidad adimensional.
2 √
La Ec. (10.18) tiene como solución j± = −1 ± 1 + 4µ /2. Si µ ≥ 0, la única solución no negativa para j es j+ .
Puesto que J2 y J3 son observables conmutantes, ellos hacen parte de un C.S.C.O pero no necesariamente lo
constituyen por sı́ solos. Por esa razón denotaremos a los kets propios comunes a los dos con tres números cuánticos:
j para rotular los valores propios de J 2 , m para rotular los valores propios de J 3 y k asociado a la degeneración.
Naturalmente, estos ı́ndices pueden ser de momento contı́nuos o discretos y k podrı́a simbolizar varios ı́ndices (los
necesarios para completar un C.S.C.O.).
En sı́ntesis escribiremos la ecuación de valores propios en la forma
J2 |j, m, ki = j (j + 1) ~2 |j, m, ki ; J3 |j, m, ki = m~ |j, m, ki (10.19)
10.3.2. Caracterı́sticas generales de los valores propios de J2 y J3

Asumiremos que los estados propios están normalizados y que J 2 y J3 son observables. En analogı́a con el
oscilador armónico, vamos a caracterizar primero a los vectores J + |j, m, ki y J− |j, m, ki, por medio de sus normas
al cuadrado
kJ+ |j, m, kik2 = hj, m, k| J− J+ |j, m, ki ≥ 0 (10.20)

2
kJ− |j, m, kik = hj, m, k| J+ J− |j, m, ki ≥ 0 (10.21)
y usando las Ecs. (10.17, 10.19) resulta

kJ± |j, m, kik2 = hj, m, k| J2 − J32 ∓ ~J3 |j, m, ki

= hj, m, k| j (j + 1) ~2 − m2 ~2 ∓ m~2 |j, m, ki
= j (j + 1) ~2 − m2 ~2 ∓ m~2
kJ± |j, m, kik2 = ~2 {j (j + 1) − m (m ± 1)} (10.22)
reemplazando (10.22) en (10.20, 10.21) se tiene que
j (j + 1) − m (m + 1) = (j − m) (j + m + 1) ≥ 0 (10.23)
j (j + 1) − m (m − 1) = (j − m + 1) (j + m) ≥ 0 (10.24)
asumamos que j − m < 0, dado que j ≥ 0 entonces m > 0 y j + m + 1 > 0. Por tanto, (j − m) (j + m + 1) < 0,
contradiciendo la Ec. (10.23). Debemos rechazar la hipótesis de que j − m < 0.
Es necesario entonces que j − m ≥ 0, de esta hipótesis se obtiene que j − m + 1 > 0, y para satisfacer la Ec.
(10.24) se requiere que (j + m) ≥ 0, tenemos entonces que las condiciones
j−m≥0 y j +m ≥0 (10.25)
por construcción satisfacen (10.24). Solo falta ver que estas condiciones también cumplen con la desigualdad (10.23).
Usando la segunda condición j + m ≥ 0 vemos que implica j + m + 1 > 0, y esto junto con la primera condición
en (10.25) nos satisface la Ec. (10.23). Vemos entonces que las condiciones (10.25) son necesarias y suficientes para
que se cumplan las desigualdades (10.23) y (10.24). Finalmente, y teniendo en cuenta que j es no negativo, estas
condiciones se pueden reescribir como
j−m ≥ 0 y j+m≥0 ⇔ j ≥m y j ≥ −m
⇔ j ≥ |m| ⇔ −j ≤ m ≤ j
con lo cual obtenemos el siguiente lema
Lemma 4 Si j (j + 1) ~2 y m~ son valores propios de J2 y J3 asociados al ket propio común |j, m, ki entonces j y
m satisfacen la desigualdad
−j ≤ m ≤ j (10.26)
Ahora veremos con base en la Ec. (10.26), las caracterı́sticas de los kets J − |j, m, ki y J+ |j, m, ki, siendo |j, m, ki
autovector común de J2 y J3 .
10.3. ESTRUCTURA DE VALORES Y VECTORES PROPIOS 263
En primer lugar, veremos las condiciones necesarias y suficientes para la nulidad del vector J − |j, m, ki. Esto se
puede hacer con base en la Ec. (10.22)
J− |j, m, ki = 0 ⇔ kJ− |j, m, kik2 = 0 ⇔ ~2 {j (j + 1) − m (m − 1)} = 0
⇔ (j − m + 1) (j + m) = 0
cuyas soluciones son m = −j (su mı́nimo valor posible) y m = j + 1. Pero la segunda solución contradice al lema 4
Ec. (10.26). Por tanto
m = −j ⇔ J− |j, m, ki = 0 (10.27)
por tanto si m > −j el vector J− |j, m, ki será no nulo siempre que se cumpla la Ec. (10.26). Esto se puede corroborar
reemplazando m > −j en la Ec. (10.22) verificando que la norma de J − |j, m, ki no es nula. Ahora demostraremos
que J− |j, m, ki es un ket propio de J2 y J3 . Puesto que J2 y J− conmutan según la Ec. (10.16), podemos escribir

J2 , J− |j, m, ki = 0 ⇒ J2 J− |j, m, ki = J− J2 |j, m, ki ⇒ J2 J− |j, m, ki = J− j (j + 1) ~2 |j, m, ki
⇒ J2 [J− |j, m, ki] = j (j + 1) ~2 [J− |j, m, ki]
por tanto J− |j, m, ki es ket propio de J2 con valor propio j (j + 1) ~2 . Este resultado está relacionado con el hecho
de que J2 y J− conmutan, como se aprecia en el teorema 1.66, pág. 50. Ahora veremos que J − |j, m, ki es también
ket propio de J3 , para lo cual empleamos la Ec. (10.15)
[J3 , J− ] |j, m, ki = −~J− |j, m, ki ⇒ J3 J− |j, m, ki = (J− J3 − ~J− ) |j, m, ki ⇒
J3 J− |j, m, ki = (J− m − J− ) ~ |j, m, ki
⇒ J3 [J− |j, m, ki] = (m − 1) ~ [J− |j, m, ki]
de modo que J− |j, m, ki es autovector de J3 con autovalor (m − 1) ~. Los anteriores resultados se pueden resumir
en el siguiente lema
Lemma 5 Sea |j, m, ki un vector propio común a J 2 y J3 con valores propios j (j + 1) ~2 y m~. Se tiene que (a)
m = −j si y solo si J− |j, m, ki = 0. (b) Si m > −j entonces J− |j, m, ki 6= 0 y es autovector de J2 y J3 con valores
propios j (j + 1) ~2 y (m − 1) ~.
El siguiente paso natural es estudiar al vector J + |j, m, ki. De la Ec. (10.22) podemos ver las condiciones nece-
sarias y suficientes para que J+ |j, m, ki sea nulo.
J+ |j, m, ki = 0 ⇔ kJ+ |j, m, kik2 = 0 ⇔ ~2 {j (j + 1) − m (m + 1)} = 0
⇔ (j + m + 1) (j − m) = 0
las soluciones son m = j y m = − (j + 1) pero la segunda solución es incompatible con el lema 4 Ec. (10.26). Por
tanto
m = j ⇔ J+ |j, m, ki = 0 (10.28)
si m < j, y usando (10.16, 10.15) obtenemos
2
J , J+ |j, m, ki = 0 ⇒ J2 J+ |j, m, ki = J+ J2 |j, m, ki ⇒
J2 [J+ |j, m, ki] = j (j + 1) ~2 [J+ |j, m, ki]
[J3 , J+ ] |j, m, ki = ~J+ |j, m, ki ⇒ J3 J+ |j, m, ki = J+ J3 |j, m, ki + ~J+ |j, m, ki

J3 J+ |j, m, ki = m~J+ |j, m, ki + ~J+ |j, m, ki
J3 [J+ |j, m, ki] = (m + 1) ~ [J+ |j, m, ki]
por tanto J+ |j, m, ki es vector propio de J2 y de J3 con valores propios j (j + 1) ~2 y (m + 1) ~. Tenemos entonces
el siguiente lema
Lemma 6 Sea |j, m, ki un vector propio común a J 2 y J3 con valores propios j (j + 1) ~2 y m~. Se tiene que (a)
m = j si y solo si J+ |j, m, ki = 0. (b) Si m < j entonces J+ |j, m, ki 6= 0 y es autovector de J2 y J3 con valores
propios j (j + 1) ~2 y (m + 1) ~.
Veremos que estos lemas permiten encontrar el espectro de J 2 y J3 .
10.3.3. Determinación de los valores propios de J2 y J3

Asumamos que |j, m, ki es un autovector de J 2 y J3 con valores propios j (j + 1) ~2 y m~. El lema 4 nos dice
que
−j ≤ m ≤ j
como el ket es fijo los valores de j y m son fijos. Es claro que existe un número entero no negativo p, tal que
−j ≤ m − p < −j + 1 (10.29)
formamos ahora una sucesión de vectores

n o
|j, m, ki , J− |j, m, ki , (J− )2 |j, m, ki , . . . , (J− )p |j, m, ki (10.30)
demostraremos que estos son vectores propios no nulos de J 2 y J3 y que para potencias más altas de J− , se obtienen
vectores nulos. Esto se realiza aplicando iterativamente el lema 5
Comenzamos aplicando el lema 5 a |j, m, ki. Por hipótesis |j, m, ki es vector propio no nulo de J 2 y J3 con valores
propios j (j + 1) ~2 y m~. Si m > −j podemos aplicar el lema 5 con lo cual J − |j, m, ki ≡ |j, m − 1, ki es vector
propio no nulo de J2 y J3 con valores propios j (j + 1) ~2 y (m − 1) ~. Si m − 1 > −j podemos aplicar de nuevo
el lema y J− |j, m − 1, ki = (J− )2 |j, m, ki ≡ |j, m − 2, ki es vector propio
h no nulo de iJ 2 y J3 con valores propios
j (j + 1) ~2 y (m − 2) ~. En general si m − (n − 1) > −j entonces J − (J− )n−1 |j, m, ki = J− |j, m − (n − 1) , ki =
(J− )n |j, m, ki ≡ |j, m − n, ki es vector propio no nulo de J 2 y J3 con valores propios j (j + 1) ~2 y (m − n) ~.
Veremos que estas condiciones se satisfacen solo para n = 0, 1, . . . , p. Si asumimos que 0 ≤ n ≤ p entonces
m − (n − 1) = m − n + 1 ≥ m − p + 1 ≥ −j + 1
donde hemos usado (10.29) en el último paso. Por tanto
m − (n − 1) ≥ −j + 1 > −j
de modo que la condición m − (n − 1) > −j necesaria para aplicar el lema 5 se cumple cuando n = 0, 1, . . . , p.
Ahora veamos lo que ocurre con el vector (J − )p+1 |j, m, ki = J− [(J− )p |j, m, ki]. Puesto que (J− )p |j, m, ki es
autovector de J2 y J3 con valores propios j (j + 1) ~2 y (m − p) ~, el lema 4 Ec. (10.26) nos dice que (m − p) ≥ −j.
Asumamos de momento que
(m − p) > −j
una aplicación adicional del lema 5 nos dice que J − [(J− )p |j, m, ki] es autovector no nulo de J2 y J3 con valores
propios j (j + 1) ~2 y (m − p − 1) ~. Ahora aplicando la Ec. (10.29) se tiene que
m − p − 1 < −j
lo cual contradice al lema 4 Ec. (10.26). Por tanto debemos rechazar la hipótesis m − p > −j. Solo nos queda
entonces que m − p = −j y al aplicar el lema 5 se obtiene
(J− )p+1 |j, m, ki = J− |j, m − p, ki = 0
y todas las potencias mayores también se anulan. Esta anulación evita el conflicto con el lema 4.
De lo anterior se deduce que existe un entero no negativo p tal que
m − p = −j (10.31)
Por un razonamiento similar, existe un entero no negativo q, tal que
j ≤ m+q <j +1
y se puede demostrar que para este entero no negativo q, la sucesión

n o
|j, m, ki , J+ |j, m, ki , (J+ )2 |j, m, ki , . . . , (J+ )q |j, m, ki (10.32)
10.4. PROPIEDADES DE LOS VECTORES PROPIOS DE J 2 Y J3 265
consiste de vectores no nulos, pero potencias mayores de J + producen vectores nulos con lo cual se evita una
contradicción con el lema 4. Esto implica a su vez que existe un entero no negativo q tal que
m+q =j (10.33)
aquı́ aparece una diferencia con respecto al oscilador armónico, ya que ambos operadores J + y J− tienen una sucesión
limitada de potencias que generan vectores no nulos. En el oscilador armónico, la sucesión de a † no está limitada.
Esto tiene que ver con el hecho de que J + ( J− ) es un operador que incrementa (decrementa) el valor de m dejando j
sin cambiar. Pero para un j dado, m tiene lı́mite superior e inferior, por tanto hay lı́mites tanto para el decremento
como para el incremento. Otra diferencia importante es la degeneración y el hecho de que el conjunto J 2 , J3 no
forma en general un C.S.C.O.
Combinando las Ecs. (10.31, 10.33) se tiene que
p+q
p + q = 2j ⇒ j =
2
pero p + q es un entero no negativo. Por tanto, j solo puede adquirir valores enteros o semienteros no negativo
1 3 5
j = 0, , 1, , 2, , . . .
2 2 2
Estos son los valores posibles pero no hemos demostrado que tenga que tomarlos todos (de hecho no es ası́ en
general). Adicionalmente, si existe un autovector no nulo |j, m, ki de J 2 y J3 , las sucesiones (10.30, 10.32) constan
de autovectores no nulos de J2 con valores propios j (j + 1) ~2 y también de J3 con autovalores dados por
−j~, (−j + 1) ~, (−j + 2) ~, . . . , (j − 2) ~, (j − 1) ~, j~
es decir tenemos 2j + 1 valores posibles de m para un j dado. Puesto que estos valores se obtienen de las sucesiones
ya mencionadas, todos los 2j + 1 valores de m posibles bajo la restricción (10.26) son valores propios accesibles para
un valor dado de j.
Podemos sintetizar estos resultados en la siguiente forma: Sea J un momento angular arbitrario que obedece
las reglas de conmutación (10.6). Si j (j + 1) ~ 2 y m~ denotan los autovalores de J2 y J3 asociados al ket común
|j, m, ki. Tenemos que
Los únicos valores posibles de j son enteros o semienteros no negativos: 0, 12 , 1, 32 , 2, 52 , . . .. No necesariamente

j debe tomar todos estos valores.
Para un valor dado de j existen 2j + 1 valores posibles de m: −j, − j + 1, − j + 2, . . . , j − 2, j − 1, j. La

cantidad m es entera si j es entera y semientera si j es entera. Todos los valores de m son permitidos si uno
de ellos lo es.
10.4. Propiedades de los vectores propios de J2 y J3

Veremos que las propiedades algebráicas de los operadores J 2 , J3 , J+ , J− , nos permiten extraer información
sobre los estados propios de J2 y J3 incluso sin especificar el espacio de Hilbert E sobre el cual actúan los operadores.
Para ello solo requerimos dos hipótesis de trabajo: (1) Que J 2 y J3 son observables con respecto al espacio E sobre
el cual actúan, y (2) Que conocemos por algún medio experimental y/o teórico, los valores de j que son permitidos
en nuestro sistema fı́sico (recordemos que j debe ser entero o semientero no negativo, pero no necesariamente debe
cubrir todos los valores enteros y semienteros no negativos).
Debemos recordar que para un j dado que esté permitido, todos los valores de m permitidos por la Ec. (10.26)
deben aparecer. En el oscilador armónico aprendimos que con un solo estado (el estado base) podemos generar todos
los estados propios por medio del operador construcción. En esta sección desarrollaremos un método para generar
los autoestados de J2 y J3 a partir de un subconjunto de estos estados y de los operadores J + y J− .
10.4.1. Generación de autoestados por medio de los operadores J+ y J−

Consideremos un operador momento angular J que actúa sobre un espacio de estados E, y mostraremos un
algoritmo para construir una base ortonormal en E de vectores propios comunes a J 2 y J3 .
Tomemos un par de valores propios j (j + 1) ~ 2 y m~ que sean realizables fı́sicamente para nuestro sistema
fı́sico. Los autovectores asociados |j, m, ki pueden ser degenerados en j, m lo cual se indica con el ı́ndice k. Los
vectores propios asociados al par (j, m) forman un autosubespacio E (j, m) de dimensión g (j, m). Si g (j, m) > 1
para al menos un par (j, m), entonces el conjunto J 2 , J3 no forma un C.S.C.O. Escogeremos en E (j, m) una base
ortonormal de vectores {|j, m, ki} con k = 1, . . . , g (j, m).
Si m 6= j existe un subespacio E (j, m + 1) de E compuesto por autovectores de J 2 , J3 con valores propios
j (j + 1) ~2 y (m + 1) ~. Análogamente, si m 6= −j existe un subespacio E (j, m − 1) con autovectores de J 2 , J3
y valores propios j (j + 1) ~2 , (m − 1) ~. Si m 6= j construiremos una base ortonormal en E (j, m + 1) a partir de
la base ya construı́da para E (j, m). Similarmente, si m 6= −j generaremos una base ortonormal en E (j, m − 1)
partiendo de la base en E (j, m).
En primer lugar mostraremos que para k 1 6= k2 los vectores J+ |j, m, k1 i y J+ |j, m, k2 i son ortogonales. De igual
forma se verá que J− |j, m, k1 i y J− |j, m, k2 i son ortogonales. Para ello calculamos el producto interno entre los
kets en cuestión utilizando las fórmulas (10.17)

(J± |j, m, k2 i , J± |j, m, k1 i) = hj, m, k2 | J∓ J± |j, m, k1 i = hj, m, k2 | J2 − J32 ∓ ~J3 |j, m, k1 i

= j (j + 1) − m2 ∓ m ~2 hj, m, k2 | j, m, k1 i
(J± |j, m, k2 i , J± |j, m, k1 i) = [j (j + 1) − m (m ± 1)] ~2 hj, m, k2 | j, m, k1 i (10.34)
y puesto que los vectores {|j, m, ki i} asociados a E (j, m) son ortonormales por hipótesis, se tiene
Theorem 10.1 Sean |j, m, k1 i y |j, m, k2 i dos autovectores ortogonales de J 2 y J3 con valores propios j (j + 1) ~2 ,
m~, y k1 6= k2 . Entonces J± |j, m, k2 i es ortogonal a J± |j, m, k1 i.
Si k1 = k2 , la Ec. (10.34) nos permite calcular la norma de J ± |j, m, k2 i
kJ± |j, m, kik2 = [j (j + 1) − m (m ± 1)] ~2
por tanto podemos construı́r vectores ortonormales asociados a |j, m ± 1, ki para lo cual simplemente debemos
normalizar los vectores J± |j, m, ki.
Comencemos con J+ |j, m, ki, normalizando los vectores J + |j, m, ki obtenemos un conjunto ortonormal en
E (j, m + 1) dado por
J+ |j, m, ki
|j, m + 1, ki ≡ p (10.35)
~ j (j + 1) − m (m + 1)
multipliquemos (10.35) por J− usando (10.17)

J− J+ |j, m, ki J2 − J32 − ~J3 |j, m, ki
J− |j, m + 1, ki = p = p
~ j (j + 1) − m (m + 1) ~ j (j + 1) − m (m + 1)
[j (j + 1) − m (m + 1)] ~ |j, m, ki
= p
j (j + 1) − m (m + 1)
p
J− |j, m + 1, ki = ~ j (j + 1) − m (m + 1) |j, m, ki (10.36)
Vamos a demostrar que el conjunto ortonormal {|j, m + 1, ki} en E (j, m + 1) generado por todos los elementos
de la base {|j, m, ki} de E (j, m) a través de (10.35), constituye una base para E (j, m + 1). La demostración se
hará por contradicción, es decir asumiendo que {|j, m + 1, ki} no es una base, según el teorema 1.23, Pág. 24, esta
negación equivale a decir que existe un vector no nulo |j, m + 1, αi en E (j, m + 1) ortogonal a todos los vectores del
conjunto.
Asumamos que existe un vector no nulo |j, m + 1, αi en E (j, m + 1) ortogonal a todos los elementos del conjunto
ortonormal {|j, m + 1, ki}. Por tanto, α 6= k para todos los k 0 s del conjunto anterior. Dado que m+1 6= −j, el vector
J− |j, m + 1, αi es no nulo en virtud del lema 5, y dicho vector yace en E (j, m). Ahora bien, puesto que α 6= k, el
10.5. CONSTRUCCIÓN DE UNA BASE ESTÁNDAR CON BASE EN UN C.S.C.O 267
teorema 10.1 dice que J− |j, m + 1, αi será ortogonal a todos los vectores J − |j, m + 1, ki. Por otro lado, la Ec. (10.36)
nos dice que J− |j, m + 1, ki es colineal con |j, m, ki. En consecuencia, al barrer toda la base {|j, m, ki} obtenemos
que el conjunto {J− |j, m + 1, ki} generado de esta manera también es una base para E (j, m). De lo anterior vemos
que J− |j, m + 1, αi es un vector no nulo de E (j, m), ortogonal a todos los vectores de la base {|j, m, ki}, pero esto
es imposible en virtud del teorema 1.23. Por tanto, el conjunto de vectores {|j, m + 1, ki} generado por la base
{|j, m, ki} de E (j, m) por medio de (10.35) es completo.
De una forma similar se puede demostrar que cuando m 6= −j podemos definir vectores |j, m − 1i en la forma
J− |j, m, ki
|j, m − 1, ki ≡ p (10.37)
~ j (j + 1) − m (m − 1)
para formar una base ortonormal en E (j, m − 1). Nótese que (10.37) se obtiene de (10.36) reemplazando m → m−1.
Las Ecs. (10.35, 10.37) implican una escogencia de fase cero entre |j, m ± 1, ki y el vector J ± |j, m, ki, de modo que
la constante de proporcionalidad entre ambos es real y positiva. Esta convención de fase cero es conocida como
convención de Cordon-Shortley.
En particular vemos que las Ecs. (10.35) establecen relaciones uno a uno y sobreyectivas entre las bases de
E (j, m) y E (j, m + 1). Igualmente las Ecs. (10.37) nos dan una relación uno a uno y sobreyectiva entre las bases de
E (j, m) y E (j, m − 1). En consecuencia, los espacios E (j, m) y E (j, m ± 1) son de la misma dimensionalidad. Por
inducción se obtiene entonces que la dimensionalidad de cualquier E (j, m) solo depende de j
g (j, m) = g (j)
describamos un procedimiento sistemático para generar una base ortonormal para el espacio completo E. Para
un valor accesible de j encontramos un subespacio de la forma E (j, m) digamos E (j, j), y encontramos una base
ortonormal de dicho espacio {|j, j, ki ; k = 1, . . . , g (j)}. Ahora usando (10.37) contruı́mos iterativamente las bases
para E (j, j − 1) , E (j, j − 2) , . . . , E (j, −j). La unión de las bases de los 2j + 1 subespacios asociados a j nos da una
base ortonormal para el subespacio E (j) dado por
E (j) = E (j, j) ⊕ E (j, j − 1) ⊕ E (j, j − 2) ⊕ . . . ⊕ E (j, −j) (10.38)
es claro que el espacio E (j) es de dimensionalidad (2j + 1) g (j). Una vez generada la base para un E (j), cambiamos a
otro valor accesible de j y repetimos el procedimiento, barriendo todos los valores accesibles de j. La base ortonormal
para E se obtiene de la unión de las bases asociadas a cada valor de j puesto que
E = E (j1 ) ⊕ E (j2 ) ⊕ E (j3 ) ⊕ . . . (10.39)
siendo {j1 , j2 , j3 , . . .} los valores accesibles de j en el sistema fı́sico considerado. Insistimos que este debe ser un
subconjunto del conjunto de todos los enteros y semienteros no negativos. La tabla 10.1 describe esquemáticamente
el algoritmo para generar una base para E (j) a partir de la base para E (j, j).
La base generada con este algoritmo se conoce como la base estándar del espacio de estados E, para la cual
existen relaciones de completez y ortonormalidad
g(j)
+j X
X X
hj, m, k j 0 , m0 , k 0 = δjj 0 δmm0 δkk0 ; |j, m, ki hj, m, k| = I (10.40)
j m=−j k=1
Por supuesto podemos empezar por E (j, −j) y construı́r con base en J + . Finalmente, podemos empezar por un
E (j, m) con −j < m < j, en tal caso habrá que generar con J + “hacia arriba” hasta j y con J− “hacia abajo” hasta
−j.
10.5. Construcción de una base estándar con base en un C.S.C.O

Un método muy utilizado para generar una base estándar consiste en usar un conjunto de observables
{A1 , A2 , . . . , An }
k=1 k=2 ... k = g (j)

E (j, j) |j, j, 1i |j, j, 2i ... |j, j, g (j)i
⇓ J− ⇓ J− ⇓ J− ... ⇓ J−
E (j, j − 1) |j, j − 1, 1i |j, j − 1, 2i ... |j, j − 1, g (j)i
⇓ J− ⇓ J− ⇓ J− ... ⇓ J−
.. .. .. ..
. . . .
E (j, m) |j, j − m, 1i |j, j − m, 2i ... |j, j − m, g (j)i
⇓ J− ⇓ J− ⇓ J− ... ⇓ J−
.. .. .. ..
. . . .
E (j, −j) |j, −j, 1i |j, −j, 2i ... |j, −j, g (j)i
E (j, k = 1) E (j, k = 2) E (j, k = g (j))
Cuadro 10.1: Construcción de la base estándar para E (j) de dimensión (2j + 1) g (j). Comenzando con cada uno
de los g (j) vectores |j, j, ki de la primera fila, usamos el operador J − para construı́r los 2j + 1 vectores de cada
columna. Los g (j) vectores de la m−ésima fila, expanden al subespacio E (j, m). Los 2j + 1 vectores de la k−ésima
columna expanden al subespacio E (j, k). Hay un total de 2j + 1 subespacios de la forma E (j, m) y un total de g (j)
subespacios de la forma E (j, k). El espacio total se puede obtener por suma directa de los E (j, m), o alternativamente
por suma directa de los E (j, k).
que junto con J2 y J3 formen un C.S.C.O. y que además conmuten con todas las componentes de J
[Ai , J] = 0 ; i = 1, . . . , n
un observable que conmute con las componentes de J se denomina un escalar. Por simplicidad asumiremos que un
solo escalar A es suficiente para formar un C.S.C.O con J 2 y J3 . Veamos la acción de A sobre un estado arbitrario
|j, m, ki de E (j, m), definiendo |ψi ≡ A |j, m, ki tenemos que
J2 |ψi = J2 A |j, m, ki = AJ2 |j, m, ki = j (j + 1) ~2 A |j, m, ki = j (j + 1) ~2 |ψi

J3 |ψi = J3 A |j, m, ki = AJ3 |j, m, ki = m~A |j, m, ki = m~ |ψi
donde hemos usado el hecho de que A conmuta con J 2 y J3 . Tenemos entonces que |ψi ≡ A |j, m, ki es autovector
de J2 y J3 con autovalores j (j + 1) ~2 y m~ y por lo tanto pertenece a E (j, m). Por tanto cada subespacio E (j, m)
es globalmente invariante bajo la acción de un operador A que conmute con J 2 y J3 . Si ahora escogemos un valor
de j, el subespacio E (j, j) será en particular invariante bajo A y podemos diagonalizar la restricción de A sobre
E (j, j), con cierta base ortonormal {|j, j, ki} de E (j, j), 3 de modo que
A |j, j, ki = ajk |j, j, ki (10.41)
el conjunto {|j, j, ki ; j f ijo; k = 1, . . . , g (j)} es una base ortonormal de E (j, j), a partir de la cual se puede
construı́r la base ortonormal para E (j). Aplicando este procedimiento para cada valor accesible de j obtenemos la
base ortonormal {|j, m, ki} para el espacio completo E.
Los resultados anteriores no requieren que A sea escalar, solo requieren que conmute con J 2 y J3 . Sea {|j, m, ki}
la base de vectores de E (j, m) obtenida por la aplicación sucesiva de J − sobre la base {|j, j, ki}. Veremos que si A
es un escalar, los kets {|j, m, ki} además de ser vectores propios de J 2 y J3 también serán vectores propios de A.
Para ver esto observemos que para un escalar A se tiene
[A, J− ] = [A, J1 − iJ2 ] = [A, J1 ] − i [A, J2 ] = 0 (10.42)
Usando (10.41, 10.42) se obtiene
A [J− |j, j, ki] = J− A |j, j, ki = ajk [J− |j, j, ki]

3
Recordemos que A es hermı́tico y por tanto normal. Para todo operador normal existe una representación ortonormal que lo diago-
naliza.
10.5. CONSTRUCCIÓN DE UNA BASE ESTÁNDAR CON BASE EN UN C.S.C.O 269
J− |j, j, ki es autovector de A con el mismo autovalor que |j, j, ki (teorema 1.66). Equivalentemente, |j, j − 1, ki es
autovector de A con el mismo autovalor que |j, j, ki. Aplicando sucesivamente este proceso vemos que los kets dados
por
|j, j, ki , |j, j − 1, ki , . . . , |j, −j, ki
son vectores propios de A con valor propio a jk por tanto podemos escribir
A |j, m, ki = ajk |j, m, ki ; m = j, j − 1, . . . , −j + 1, − j (10.43)
el espectro de A es entonces el mismo para todos los subespacios E (j, m) con j fijo, pero depende en general tanto
de j como de k, de modo que un conjunto de números cuánticos (j, m, k) define unı́vocamente a un vector |j, m, ki
de E, como corresponde a un C.S.C.O.
Nótese que un observable que conmute con J 2 y J3 no necesariamente conmuta con J1 y J2 . En particular, el
conjunto (J2 , J3 , A) podrı́a formar un C.S.C.O. sin que A conmute con J 1 y/o J2 . En tal caso sin embargo, J± no
conmuta con A y por tanto J± |j, m, ki no necesariamente es autovector de A con el mismo valor propio de |j, m, ki.
Por tanto, cuando A conmuta con J2 y J3 pero no es escalar, la base {|j, m, ki} obtenida por aplicación sucesiva de
J− sobre {|j, j, ki} debe ser rotada a otra base {|j, m, αi} para diagonalizar a la restricción de A sobre E (j, m). En
cambio cuando A es escalar esta última rotación no es necesaria.
10.5.1. Descomposición de E en subespacios del tipo E (j, k)

En los procedimientos anteriores hemos descompuesto el espacio completo E en la forma dada por la combinación
de las Ecs. (10.38, 10.39)
E = E (j1 , j1 ) ⊕ E (j1 , j1 − 1) ⊕ E (j1 , j1 − 2) ⊕ . . . ⊕ E (j1 , −j1 ) ⊕

E (j2 , j2 ) ⊕ E (j2 , j2 − 1) ⊕ E (j2 , j2 − 2) ⊕ . . . ⊕ E (j2 , −j2 ) ⊕
E (j3 , j3 ) ⊕ E (j3 , j3 − 1) ⊕ E (j3 , j3 − 2) ⊕ . . . ⊕ E (j3 , −j3 ) ⊕ . . .
siendo j1 , j2 , j3 , . . . los valores permitidos de j para el sistema en estudio. Esta es una descomposición en subespacios
del tipo E (j, m). Sin embargo los subespacios E (j, m) tienen ciertas desventajas, por un lado su dimensión g (j)
depende del sistema fı́sico especı́fico ya que esta dimensión nos da cuenta de la degeneración asociada al par (j, m),
por tanto g (j) es desconocido al menos en el caso general. Adicionalmente un subespacio del tipo E (j, m) no es
invariante ante J, por ejemplo
1 1 1
J1 |j, m, ki = (J+ + J− ) |j, m, ki = c+ |j, m + 1, ki + c− |j, m − 1, ki (10.44)
2 2 2
de acuerdo con (10.40) este estado es ortonormal a |j, m, ki y no es nulo ya que por lo menos uno de los estados
|j, m + 1, ki , |j, m − 1, ki tiene que ser no nulo y ambos son ortogonales entre sı́.
Examinando la tabla (10.1) vemos que cada subespacio del tipo E (j, m) es generado por la expansión de los
g (j) vectores de la m−ésima fila de la tabla (los g (j) valores posibles de k). Vemos sin embargo que hay otra manera
de agrupar los vectores: podemos generar un subespacio con los (2j + 1) vectores de una columna fija de la tabla,
con lo cual obtenemos un subespacio del tipo E (j, k) puesto que en este caso es el par (j, k) el que permanece fijo
en la expansión.
La descomposición de E quedarı́a en la forma
E = E (j1 , k = 1) ⊕ E (j1 , k = 2) ⊕ . . . ⊕ E (j1 , k = g (j1 )) ⊕

E (j2 , k = 1) ⊕ E (j2 , k = 2) ⊕ . . . ⊕ E (j2 , k = g (j2 )) ⊕
E (j3 , k = 1) ⊕ E (j3 , k = 2) ⊕ . . . ⊕ E (j3 , k = g (j3 )) ⊕ . . . (10.45)
los subespacios E (j, k) poseen las propiedades siguientes: (a) la dimensión de E (j, k) es 2j + 1 de modo que para
un j dado su dimensión se conoce sin importar el sistema fı́sico que se esté trabajando. (b) E (j, k) es globalmente
invariante bajo J. Incluso se puede demostrar que E (j, k) es irreducible como subespacio invariante de J, es decir
no hay un subespacio propio de E (j, k) que sea invariante bajo J.
Nos limitaremos a demostrar la invarianza de E (j, k) bajo J. Una base para este espacio es de la forma
{|j, m, ki ; m = −j, −j + 1, . . . , j − 1, j}. Para J 3 es inmediato, para J1 tomamos el resultado de la Ec. (10.44)
notando que los dos kets son estados con el mismo valor de j, k y solo difieren en m. Por tanto J 1 |j, m, ki pertenece
a E (j, k). Para J2 el argumento es similar. En general E (j, k) será invariante bajo cualquier función del tipo F (J),
lo cual se puede ver simplemente de la expansión de Taylor de F (J) y de que E (j, k) es invariante ante cualquier
potencia de J.
10.6. Representaciones matriciales de los operadores momento angular

Los elementos matriciales de los Ji en la base estándar {|j, m, ki}, se pueden calcular a través de la acción de
los operadores J3 , J± sobre los kets propios |j, m, ki de J2 y J3 descritos por las Ecs. (10.19, 10.35, 10.37)
p
J3 |j, m, ki = m~ |j, m, ki ; J± |j, m, ki = ~ j (j + 1) − m (m ± 1) |j, m ± 1, ki (10.46)
combinando las Ecs. (10.9, 10.46) encontramos la acción de J 1 y J2 sobre los kets de la base
1 ~ hp
J1 j 0 , m 0 , k 0 = (J+ + J− ) j 0 , m0 , k 0 = j 0 (j 0 + 1) − m0 (m0 + 1) j 0 , m0 + 1, k 0
2 2
p i
+ j 0 (j 0 + 1) − m0 (m0 − 1) j 0 , m0 − 1, k 0 (10.47)
1 ~ hp 0 0
J2 j 0 , m 0 , k 0 = (J+ − J− ) j 0 , m0 , k 0 = j (j + 1) − m0 (m0 + 1) j 0 , m0 + 1, k 0
2i 2i
p i
− j (j + 1) − m (m − 1) j 0 , m0 − 1, k 0
0 0 0 0 (10.48)
de las Ecs. (10.46, 10.47, 10.48) y la ortonormalidad de la base, los elementos matriciales de J i y J± quedan

hj, m, k| J3 j 0 , m0 , k 0 = m~δkk0 δjj 0 δmm0 (10.49)
0 0 0 p
hj, m, k| J± j , m , k = ~ j (j + 1) − m0 (m0 ± 1)δkk0 δjj 0 δm,m0 ±1 (10.50)
1 ~ hp
hj, m, k| J1 j 0 , m0 , k 0 = hj, m, k| (J+ + J− ) j 0 , m0 , k 0 = δkk0 δjj 0 j (j + 1) − m0 (m0 + 1)δm,m0 +1
2 2i
p
+ j (j + 1) − m0 (m0 − 1)δm,m0 −1 (10.51)
1 ~ hp
hj, m, k| J2 j 0 , m0 , k 0 = hj, m, k| (J+ − J− ) j 0 , m0 , k 0 = δkk0 δjj 0 j (j + 1) − m0 (m0 + 1)δm,m0 +1
2i 2i
i
p
− j (j + 1) − m0 (m0 − 1)δm,m0 −1 (10.52)
lo cual muestra que los elementos matriciales de J solo dependen de j y m pero no de k. Este hecho implica que la
representación matricial de las componentes de J en la base estándar {|j, m, ki} tiene una forma particularmente
simple cuando descomponemos E en subespacios del tipo E (j, k). Las Ecs. (10.49, 10.50, 10.51, 10.52) muestran que
un operador Ji (o una función de la forma F (J)) tiene elementos matriciales nulos cuando el elemento enlaza dos
kets base asociados a espacios E (j1 , k1 ) y E (j2 , k2 ) con j1 6= j2 y/o con k1 6= k2 . Por tanto la matriz será diagonal
por bloques donde los bloques son todos de dimensión 2j + 1 (que es la dimensión de un espacio E (j, k)) en la forma
E (j, k) ··· E (j, k 0 ) E (j 0 , k 0 ) ···
matriz
E (j, k) 0 0 0
(2j + 1) × (2j + 1)
matriz
E (j, k 0 ) 0 0 0
(2j + 1) × (2j + 1)
(10.53)
..
.
matriz
E (j 0 , k 0 ) 0 0 0
(2j 0 + 1) × (2j 0 + 1)
..
. 0 0 0 0
10.6. REPRESENTACIONES MATRICIALES DE LOS OPERADORES MOMENTO ANGULAR 271
comenzando por el valor de j1 más bajo permitido construı́mos las matrices asociadas a E (j 1 , k1 ) para el k = k1 más
bajo permitido, luego manteniendo j 1 fijo recorremos los posibles valores de k, una vez terminado este recorrido,
continuamos con el siguiente valor permitido j 2 de j, recorriendo el ı́ndice k nuevamente y ası́ sucesivamente. Las
matrices asociadas a estos subespacios son de dimensión 2j i + 1.
Por tanto, lo que debemos hacer es calcular las matrices de dimensión finita (2j + 1) ×(2j + 1) que representan a
cada operador en cada subespacio E (j, k). Adicionalmente, estas matrices no dependen de k y por tanto no dependen
del sistema fı́sico bajo estudio. Solo dependen de j y del operador que se quiere representar.
En sı́ntesis, la representación matricial de una componente J i del momento angular en la base estándar, se puede
calcular dentro de un subespacio de la forma E (j, k) sin alusión alguna al sistema fı́sico que se está trabajando. La
matrices del tipo (Ji )(j) son en consecuencia de carácter universal y representan al operador J i dentro del subespacio
E (j, k) para todos los posibles valores de j es decir j = 0, 12 , 1, . . .. Cuando tenemos un sistema fı́sico especı́fico,
debemos determinar cuales de estos valores de j son permitidos y el número de subespacios E (j, k) asociados con
cada j, es decir el grado de degeneración (2j + 1) g (j). La matriz representativa de J i será entonces diagonal por
bloques con la estructura descrita en la Ec. (10.53), y se puede construı́r a partir de las matrices universales definidas
para cada subespacio E (j, k). Para cada valor de j, tendremos g (j) bloques idénticos de (J i )(j) , es decir todos los
valores posibles de k, una vez que para un j dado se barren los valores posibles de k, se cambia al siguiente valor
0
accesible j 0 y se construyen g (j 0 ) bloques idénticos de (Ji )(j ) y ası́ sucesivamente.
10.6.1. Representaciones matriciales del tipo (Ji )(j) en la base estándar para j arbitrario
De lo anterior, los elementos matriciales para j arbitrario de un operador (J i )(j) dentro de un subespacio E (j, k)
están dados por

hj, m, k| J3 j 0 , m0 , k 0 = m~δkk0 δjj 0 δmm0 (10.54)

2 0 0 0
2
hj, m, k| J j , m , k = j (j + 1) ~ δkk0 δjj 0 δmm0 (10.55)
p
hj, m, k| J± j 0 , m0 , k 0 = ~ j (j + 1) − m0 (m0 ± 1)δkk0 δjj 0 δm,m0 ±1 (10.56)
~ hp
hj, m, k| J1 j 0 , m0 , k 0 = δkk0 δjj 0 j (j + 1) − m0 (m0 + 1)δm,m0 +1
2 i
p
+ j (j + 1) − m0 (m0 − 1)δm,m0 −1 (10.57)
~ hp
hj, m, k| J2 j 0 , m0 , k 0 = δkk0 δjj 0 j (j + 1) − m0 (m0 + 1)δm,m0 +1
2i i
p
− j (j + 1) − m0 (m0 − 1)δm,m0 −1 (10.58)
vemos que la matriz de (J3 )(j) es diagonal, esto se debe a que se eligió a X 3 como el eje de cuantización (la
base estándar consta de vectores propios de J 2 y J3 ), sus elementos son los 2j + 1 valores de m~. Para las matrices
(J1,2 )(j) los únicos elementos no nulos son los que están por encima y por debajo de la diagonal. (J 1 )(j) es una matriz
(j)
simétrica y real en tanto que (J2 )(j) es antisimétrica y puramente imaginaria. La matriz J2 es naturalmente
diagonal ya que esta es una base de vectores propios de J 2 , y adémas sus elementos diagonales son idénticos, de
(j)
modo que J2 es j (j + 1) ~2 I, siendo I la matriz identidad de dimensión (2j + 1) × (2j + 1). La matriz (J + )(j)
solo tiene elementos no nulos por encima de la diagonal, en tanto que la matriz (J − )(j) solo tiene elementos no nulos
por debajo de la diagonal.
Puesto que todas las direcciones del espacio son equivalentes, es claro que la elección del eje de cuantización
es arbitraria. De esto se desprende que todos los J i deben tener los mismos valores propios. Los vectores propios
serán sin embargo diferentes ya que los J i no conmutan entre sı́. En consecuencia, dentro de un subespacio dado
E (j, k) los autovalores de J1 , J2 , J3 son j~, (j − 1) ~, . . . , (−j + 1) ~, −j~. Estos también serán los valores propios de
cualquier componente de la forma Jn = J · n siendo n un vector unitario de dirección arbitraria. Los autovectores
comunes de J2 y J1 son combinaciones lineales de los |j, m, ki con j y k fijos. Lo mismo ocurre con los vectores
propios comunes a J2 y J2 .
En conclusión una base ortonormal {|j, m, ki} del espacio de estados compuesta por vectores comunes a J 2 y J3
J2 |j, m, ki = j (j + 1) ~2 |j, m, ki ; J3 |j, m, ki = m~ |j, m, ki
se denomina un base estándar si la acción de J ± sobre estos vectores está dada por
p
J± |j, m, ki = ~ j (j + 1) − m (m ± 1) |j, m ± 1, ki
10.6.2. Representaciones matriciales en la base estándar para j = 0

Los subespacios E (j = 0, k) son de dimensión 2 (0) + 1 = 1. Y el único valor posible de m es cero. Las matrices
(Ji )(j) son números y de acuerdo con las Ecs. (10.57, 10.58, 10.54) estos números son cero.
10.6.3. Representaciones matriciales en la base estándar para j = 1/2

Los subespacios E (j = 1/2, k) son de dimensión 2 (1/2)+1 = 2. Las matrices dentro de un subespacio E (j = 1/2, k) s
de dimensión 2 × 2 y los vectores base los elegiremos en el orden m 1 = 1/2, m2 = −1/2. Las representaciones ma-
triciales se obtienen usando las Ecs. (10.57, 10.58, 10.54, 10.55), teniendo en cuenta que estamos interesados en las
representaciones dentro de un subespacio E (j = 1/2, k) de modo que k = k 0 . Con estas consideraciones calcularemos
la representación matricial de J1 usando (10.57)
"s
1 1 ~ 1 1
(J1 )pq ≡ , mp , k J1 , mq , k = δkk δ 1 , 1 + 1 − mq (mq + 1) δmp ,mq +1
2 2 2 2 2 2 2
s #
1 1
+ + 1 − mq (mq − 1) δmp ,mq −1
2 2
"r r #
~ 3 3
(J1 )pq = − mq (mq + 1) δmp ,mq +1 + − mq (mq − 1) δmp ,mq −1
2 4 4
de aquı́ en adelante se omite el ı́ndice k ya que las representaciones matriciales no dependen de tal ı́ndice. Estas
expresiones muestran que los elementos diagonales son cero, por tanto

(1/2) 1 1 1 1
(J1 )11 ≡ , J1 , =0
2 2 2 2

(1/2) 1 1 1 1
(J1 )22 ≡ , − J1 , − =0
2 2 2 2
y los términos no diagonales son
"s
(1/2)
1 1 1 1 ~ 3 1 1
(J1 )12 ≡ , J1 , − = − − − + 1 δ 1 ,− 1 +1
2 2 2 2 2 4 2 2 2 2
s #
3 1 1
+ − − − − 1 δ 1 ,− 1 −1
4 2 2 2 2
r
(1/2) ~ 3 1 ~
(J1 )12 = + δ1,1 =
2 4 4 2 2 2
"s
(1/2) 1 1 1 1 ~ 3 1 1
(J1 )21 ≡ , − J1 , = − + 1 δ− 1 , 1 +1
2 2 2 2 2 4 2 2 2 2
s #
3 1 1
+ − − 1 δ− 1 , 1 −1
4 2 2 2 2
(1/2) ~
(J1 )21 =
2
10.6. REPRESENTACIONES MATRICIALES DE LOS OPERADORES MOMENTO ANGULAR 273
este elemento se podı́a también calcular teniendo en cuenta que la matriz de J 1 es simétrica real. La matriz repre-
sentativa queda entonces
(1/2) ~ 0 1
(J1 ) =
2 1 0
de manera similar se calculan los elementos matriciales de los otros operadores, el resultado es

(1/2) ~ 0 1 (1/2) ~ 0 −i (1/2) ~ 1 0
(J1 ) = ; (J2 ) = ; (J3 ) = (10.59)
2 1 0 2 i 0 2 0 −1

2 (1/2) 3 2 1 0 (1/2) 0 1 (1/2) 0 0
J = ~ ; (J+ ) =~ ; (J− ) =~ (10.60)
4 0 1 0 0 1 0
10.6.4. Representaciones matriciales en la base estándar para j = 1

Los subespacios E (j = 1, k) son de dimensión 2 (1) + 1 = 3. Las matrices son de dimensión 3 × 3. Ordenaremos
los vectores base con m1 = 1, m2 = 0, m3 = −1.
Calculemos por ejemplo la representación de J 2 usando (10.58), esta ecuación muestra que los términos de la
diagonal son cero ası́ como aquellos en donde los ı́ndices difieren en más de una unidad, por tanto
(1) (1) (1) (1) (1)
(J2 )11 = (J2 )22 = (J2 )33 = (J2 )13 = (J2 )31 = 0
para los otros elementos usamos (10.58) con j = 1, k = k 0 , y omitimos k
q q
~
h1, mp | J2 |1, mq i = 1 (1 + 1) − mq (mq + 1) δmp ,mq +1 − 1 (1 + 1) − mq (mq − 1) δmp ,mq −1
2i
q q
~
h1, mp | J2 |1, mq i = 2 − mq (mq + 1) δmp ,mq +1 − 2 − mq (mq − 1) δmp ,mq −1
2i
teniendo en cuenta además que la matriz asociada a J 2 es antisimétrica, solo tendremos que calcular dos términos
(1) ~ h√ √ i ~ ~
(J2 )12 = h1, m1 | J2 |1, m2 i = h1, 1| J2 |1, 0i = 2 δ1,0+1 − 2 δ1,0−1 = √ [δ1,1 − δ1,−1 ] = √
2i 2i 2i
(1) i~ (1)
(J2 )12 = − √ = − (J2 )21
2
(1) ~ hp
(J2 )23 = h1, m2 | J2 |1, m3 i = h1, 0| J2 |1, −1i = 2 − (−1) [(−1) + 1] δ0,−1+1
p 2i
− 2 − (−1) [(−1) − 1] δ0,−1−1
(1) ~√
(J2 )23 = 2⇒
2i
(1) i~ (1)
(J2 )23 = − √ = − (J2 )23 ⇒
2
la matriz queda entonces  
0 −i 0
~
(J2 )(1) = √  i 0 −i 
2 0 i 0
de manera similar se obtienen las otras matrices resultando
   
0 1 0 0 −i 0
~ ~
(J1 )(1) = √  1 0 1  ; (J2 )(1) = √  i 0 −i 
2 0 1 0 2 0 i 0
   
1 0 0 (1) 1 0 0
(J3 )(1) = ~  0 0 0  ; J2 = 2~2  0 1 0 
0 0 −1 0 0 1
 √   
0 2 √0 √0 0 0
(J+ )(1) = ~  0 0 2  ; (J− )(1) = ~  2 √0 0 
0 0 0 0 2 0
se puede verificar que las representaciones matriciales construı́das obedecen las reglas de conmutación (10.6). Se
puede verificar que los autovalores de las matrices (J i )(1/2) son todos iguales y están dados por ±~/2. Similarmente,
los valores propios de las matrices (J i )(1) son todos iguales y corresponden a +~, 0, −~. En sı́ntesis todas las carac-
terı́sticas generales discutidas al final de la sección 10.6.1 se cumplen para las matrices calculadas explı́citamente.
Capı́tulo 11
Propiedades de los momentos angulares

orbitales
Aplicaremos la teorı́a general desarrollada en el capı́tulo 10 al caso del momento angular orbital que sirvió orig-
inalmente para encontrar el álgebra con la cual se definió un momento angular generalizado. Utilizaremos la base
{|ri} para mostrar que los valores propios de L 2 son de la forma l (l + 1) ~2 son l entero no negativo. Es decir
las consideraciones fı́sicas excluirán a los valores semienteros en tanto que todos los valores enteros no negativos
aparecen en el espectro. Encontraremos también las funciones propias en la base {|ri} y sus principales propiedades.
En la representación {|ri} los observables R y P corresponden a multiplicación por r y al operador diferencial
−i~∇ respectivamente. La cuantización de las tres componentes del momento angular en la base {|ri} se representa
como
L = R× P = −i~r × ∇
~ ∂ ∂ ~ ∂ ∂ ~ ∂ ∂
L1 = x2 − x3 ; L2 = x3 − x1 ; L3 = x1 − x2 (11.1)
i ∂x3 ∂x2 i ∂x1 ∂x3 i ∂x2 ∂x1
L± ≡ L1 ± iL2 (11.2)
será más conveniente trabajar en coordenadas polares esféricas, ya que más adelante veremos que el operador
momento angular solo operará sobre los ángulos θ, ϕ y no sobre la variable r.
x1 = r sin θ cos ϕ ; x2 = r sin θ sin ϕ ; x3 = r cos θ
r ≥ 0 ; 0 ≤ θ ≤ π ; 0 ≤ ϕ < 2π (11.3)
un elemento de volumen d3 r = dx dy dz en coordenadas esféricas está dado por
d3 r = r 2 dr dΩ ; dΩ = sin θ dθ dϕ (11.4)
donde dΩ es un elemento diferencial de ángulo sólido en la dirección de los ángulos θ y ϕ.
A partir de (11.3) calculamos las derivadas parciales
∂x1 ∂x1 ∂x1
= sin θ cos ϕ ; = r cos θ cos ϕ ; = −r sin θ sin ϕ
∂r ∂θ ∂ϕ
∂x2 ∂x2 ∂x2
= sin θ sin ϕ ; = r cos θ sin ϕ ; = r sin θ cos ϕ
∂r ∂θ ∂ϕ
∂x3 ∂x3 ∂x3
= cos θ ; = −r sin θ ; =0
∂r ∂θ ∂ϕ
y las relaciones entre derivadas parciales esféricas y cartesianas nos dan
∂ ∂x1 ∂ ∂x2 ∂ ∂x3 ∂ ∂ ∂ ∂
= + + = sin θ cos ϕ + sin θ sin ϕ + cos θ
∂r ∂r ∂x1 ∂r ∂x2 ∂r ∂x3 ∂x1 ∂x2 ∂x3
∂ ∂x1 ∂ ∂x2 ∂ ∂x3 ∂ ∂ ∂ ∂
= + + = r cos θ cos ϕ + r cos θ sin ϕ − r sin θ
∂θ ∂θ ∂x1 ∂θ ∂x2 ∂θ ∂x3 ∂x1 ∂x2 ∂x3
∂ ∂x1 ∂ ∂x2 ∂ ∂x3 ∂ ∂ ∂
= + + = −r sin θ sin ϕ + r sin θ cos ϕ
∂ϕ ∂ϕ ∂x1 ∂ϕ ∂x2 ∂ϕ ∂x3 ∂x1 ∂x2
276 CAPÍTULO 11. PROPIEDADES DE LOS MOMENTOS ANGULARES ORBITALES
en forma matricial
    
∂r sin θ cos ϕ sin θ sin ϕ cos θ ∂1
 ∂θ  =  r cos θ cos ϕ r cos θ sin ϕ −r sin θ   ∂2 
∂ϕ −r sin θ sin ϕ r sin θ cos ϕ 0 ∂3
calculando la inversa de esta matriz se obtiene
   cos θ cos ϕ  
∂1 cos ϕ sin θ r − rsin ϕ
sin θ ∂r
 ∂2  =  sin θ sin ϕ cos θ sin ϕ cos ϕ   ∂θ  (11.5)
r r sin θ
∂3 cos θ − sinr θ 0 ∂ϕ
reemplazando (11.3, 11.5) en (11.1) obtenemos

i sin θ cos θ sin ϕ cos ϕ
L1 = x2 ∂3 − x3 ∂2 = r sin θ sin ϕ cos θ ∂r − ∂θ − r cos θ sin θ sin ϕ ∂r + ∂θ + ∂ϕ
~ r r r sin θ
cos θ cos ϕ
= − sin2 θ sin ϕ ∂θ − cos2 θ sin ϕ ∂θ − ∂ϕ
sin θ
i cos ϕ
L1 = − sin ϕ ∂θ − ∂ϕ (11.6)
~ tan θ
y se proceden de forma similar con las otras componentes

i cos θ cos ϕ sin ϕ sin θ
L2 = x3 ∂1 − x1 ∂3 = r cos θ cos ϕ sin θ ∂r + ∂θ − ∂ϕ − r sin θ cos ϕ cos θ ∂r − ∂θ
~ r r sin θ r
sin ϕ
= cos2 θ cos ϕ ∂θ − cos θ ∂ϕ + sin2 θ cos ϕ ∂θ
sin θ
i sin ϕ
L2 = cos ϕ ∂θ − ∂ϕ (11.7)
~ tan θ

i cos θ sin ϕ cos ϕ
L3 = x1 ∂2 − x2 ∂1 = r sin θ cos ϕ sin θ sin ϕ ∂r + ∂θ + ∂ϕ
~ r r sin θ

cos θ cos ϕ sin ϕ
−r sin θ sin ϕ cos ϕ sin θ ∂r + ∂θ − ∂ϕ
r r sin θ
= sin θ cos θ cos ϕ sin ϕ∂θ + cos2 ϕ ∂ϕ − sin θ cos θ sin ϕ cos ϕ ∂θ + sin2 ϕ ∂ϕ
i
L3 = ∂ ϕ (11.8)
~

con las Ecs. (11.6, 11.7, 11.8), se puede evaluar L 2 = L21 + L22 + L23 , lo cual es más sencillo si lo ponemos actuar
sobre una función arbitraria ψ (r, θ, ϕ)
277
2 2
2 ∂ cos ϕ ∂ ∂ sin ϕ ∂ ∂ 2
L ψ = i~ sin ϕ + ψ + i~ − cos ϕ + ψ + −i~ ψ
∂θ tan θ ∂ϕ ∂θ tan θ ∂ϕ ∂ϕ

∂ cos ϕ ∂ ∂ cos ϕ ∂
= −~2 sin ϕ + sin ϕ + ψ
∂θ tan θ ∂ϕ ∂θ tan θ ∂ϕ

2 ∂ sin ϕ ∂ ∂ sin ϕ ∂ ∂2ψ
−~ − cos ϕ + − cos ϕ + ψ − ~2 2
∂θ tan θ ∂ϕ ∂θ tan θ ∂ϕ ∂ϕ

2 ∂ ∂ψ cos ϕ ∂ψ 2 cos ϕ ∂ ∂ψ cos ϕ ∂ψ
= −~ sin ϕ sin ϕ + −~ sin ϕ +
∂θ ∂θ tan θ ∂ϕ tan θ ∂ϕ ∂θ tan θ ∂ϕ

∂ ∂ψ sin ϕ ∂ψ sin ϕ ∂ ∂ψ sin ϕ ∂ψ ∂2ψ
+~2 cos ϕ − cos ϕ + − ~2 − cos ϕ + − ~2 2
∂θ ∂θ tan θ ∂ϕ tan θ ∂ϕ ∂θ tan θ ∂ϕ ∂ϕ

∂ ∂ψ ∂ψ ∂ 1 cos ϕ ∂ ∂ψ
= −~2 sin ϕ sin ϕ + cos ϕ +
∂θ ∂θ ∂ϕ ∂θ tan θ tan θ ∂θ ∂ϕ

cos ϕ ∂ψ ∂ ∂ ∂ψ 1 ∂ψ ∂ cos ϕ ∂ ∂ψ
−~2 sin ϕ + sin ϕ + cos ϕ +
tan θ ∂θ ∂ϕ ∂ϕ ∂θ tan θ ∂ϕ ∂ϕ tan θ ∂ϕ ∂ϕ

∂ ∂ψ ∂ψ ∂ 1 sin ϕ ∂ ∂ψ
+~2 cos ϕ − cos ϕ + sin ϕ +
∂θ ∂θ ∂ϕ ∂θ tan θ tan θ ∂θ ∂ϕ

2 sin ϕ ∂ψ ∂ ∂ ∂ψ 1 ∂ψ ∂ sin ϕ ∂ ∂ψ ∂2ψ
−~ − cos ϕ − cos ϕ + sin ϕ + − ~2 2
tan θ ∂θ ∂ϕ ∂ϕ ∂θ tan θ ∂ϕ ∂ϕ tan θ ∂ϕ ∂ϕ ∂ϕ

2 2 ∂2ψ 2 ∂ψ ∂ 1 sin ϕ cos ϕ ∂ ∂ψ
L ψ = −~ sin ϕ 2 + sin ϕ cos ϕ +
∂θ ∂ϕ ∂θ tan θ tan θ ∂θ ∂ϕ
2
2 cos ϕ ∂ψ cos ϕ sin ϕ ∂ ∂ψ cos ϕ sin ϕ ∂ψ cos2 ϕ ∂ 2 ψ
−~ + − +
tan θ ∂θ tan θ ∂ϕ ∂θ tan2 θ ∂ϕ tan2 θ ∂ϕ2
2
2 2 ∂ ψ ∂ψ ∂ 1 cos ϕ sin ϕ ∂ ∂ψ
+~ − cos ϕ 2 + cos ϕ sin ϕ +
∂θ ∂ϕ ∂θ tan θ tan θ ∂θ ∂ϕ
2
2 sin ϕ ∂ψ sin ϕ cos ϕ ∂ ∂ψ sin ϕ cos ϕ ∂ψ sin2 ϕ ∂ 2 ψ 2
2∂ ψ
−~ − + + − ~
tan θ ∂θ tan θ ∂ϕ ∂θ tan2 θ ∂ϕ tan2 θ ∂ϕ2 ∂ϕ2
agrupando derivadas se tiene
L2 ψ ∂2ψ 2
2 ∂ ψ cos2 ϕ ∂ 2 ψ sin2 ϕ ∂ 2 ψ ∂ 2 ψ
= sin2 ϕ + cos ϕ + + +
−~2 ∂θ 2 ∂θ 2 tan2 θ ∂ϕ2 tan2 θ ∂ϕ2 ∂ϕ2
sin ϕ cos ϕ ∂ ∂ψ sin ϕ cos ϕ ∂ ∂ψ cos ϕ sin ϕ ∂ ∂ψ cos ϕ sin ϕ ∂ ∂ψ
+ − + −
tan θ ∂θ ∂ϕ tan θ ∂ϕ ∂θ tan θ ∂ϕ ∂θ tan θ ∂θ ∂ϕ
∂ψ ∂ 1 ∂ψ ∂ 1 cos ϕ ∂ψ sin2 ϕ ∂ψ
2
+ sin ϕ cos ϕ − cos ϕ sin ϕ + +
∂ϕ ∂θ tan θ ∂ϕ ∂θ tan θ tan θ ∂θ tan θ ∂θ
cos ϕ sin ϕ ∂ψ sin ϕ cos ϕ ∂ψ
− +
tan2 θ ∂ϕ tan2 θ ∂ϕ
L2 ψ ∂2ψ 1 ∂2ψ ∂2ψ 1 ∂ψ

= + + +
−~2 ∂θ 2 tan2 θ ∂ϕ2 ∂ϕ2 tan θ ∂θ
2 2
∂ 1 ∂ 1 ∂
= + +1 + ψ
∂θ 2 tan2 θ ∂ϕ2 tan θ ∂θ
2
L2 ψ ∂ 1 ∂2 1 ∂
= + + ψ (11.9)
−~2 ∂θ 2 sin2 θ ∂ϕ2 tan θ ∂θ
11.1. Momentos angulares orbitales como operadores diferenciales en coor-

denadas esféricas
Las Ecs. (11.6, 11.7, 11.8) nos dicen que las componentes del momento angular en coordenadas esféricas se
escriben en la forma

∂ cos ϕ ∂
L1 = i~ sin ϕ + (11.10)
∂θ tan θ ∂ϕ

∂ sin ϕ ∂
L2 = i~ − cos ϕ + (11.11)
∂θ tan θ ∂ϕ
~ ∂
L3 = (11.12)
i ∂ϕ
y las Ecs. (11.9, 11.2) nos dicen que los operadores L 2 , L± quedan
2
2 2 ∂ 1 ∂ 1 ∂2
L = −~ + + (11.13)
∂θ 2 tan θ ∂θ sin2 θ ∂ϕ2

∂ ∂
L+ = ~eiϕ + i cot θ (11.14)
∂θ ∂ϕ

−iϕ ∂ ∂
L− = ~e − + i cot θ (11.15)
∂θ ∂ϕ
en la representación {|ri} las funciones propias asociadas a los valores propios l (l + 1) ~ 2 de L2 y m~ de L3 cumplen
L2 ψ (r, θ, ϕ) = l (l + 1) ~2 ψ (r, θ, ϕ) ; L3 ψ (r, θ, ϕ) = m~ψ (r, θ, ϕ) (11.16)
y al reemplazar (11.13, 11.12) en las Ecs. (11.16) estas últimas se convierten en ecuaciones diferenciales parciales
cuya solución son las funciones propias
2
∂ 1 ∂ 1 ∂2
− + + ψ (r, θ, ϕ) = l (l + 1) ψ (r, θ, ϕ) (11.17)
∂
−i ψ (r, θ, ϕ) = m~ψ (r, θ, ϕ) (11.18)
∂ϕ
donde l es en general entero o semientero no negativo y m toma solo los valores −l, −l + 1, . . . , l − 1, l.
Nótese que en las ecuaciones (11.17, 11.18) no hay operador derivada asociado a r. Por tanto r se puede considerar
un parámetro y asumir una separación de variables de la forma
ψlmk (r, θ, ϕ) = f (r) Ylm (θ, ϕ) (11.19)
insertando (11.19) en las ecuaciones diferenciales (11.17, 11.18) queda

2
∂ 1 ∂ 1 ∂2
− + + Ylm (θ, ϕ) = l (l + 1) Ylm (θ, ϕ) (11.20)
∂
−i~ Ylm (θ, ϕ) = m~Ylm (θ, ϕ) (11.21)
∂ϕ
que están expresando la ecuación de valores propios
L2 Ylm (θ, ϕ) = l (l + 1) Ylm (θ, ϕ) ; L3 Ylm (θ, ϕ) = m~Ylm (θ, ϕ)
f (r) es una función de r que aparece como constante de integración para las ecuaciones diferenciales (11.17, 11.18).
Es importante tener en cuenta que f (r) debe ser tal que ψ lm (r, θ, ϕ) = f (r) Ylm (θ, ϕ) sea de cuadrado integrable.
El hecho de que f (r) sea arbitrario nos indica que L 2 y L3 no forman un C.S.C.O. en el espacio E r de funciones
de r es decir de funciones en r, θ, ϕ. En virtud de esto deberı́amos introducir un ı́ndice adicional en las Ecs. (11.20,
11.2. VALORES PERMITIDOS DE L Y M 279
11.21) para las soluciones indicando la posible degeneración de éstas. Sin embargo, veremos que estas soluciones
serán únicas para l y m dados salvo por un factor constante. Esto indica que toda la degeneración estará en el factor
f (r) en la Ec. (11.19).
Para normalizar la función completa ψ lmk (r, θ, ϕ) es conveniente normalizar la parte angular Y lm (θ, ϕ) y la parte
radial f (r) separadamente. Estas relaciones de normalización se manifestarán en ecuaciones de la forma
Z 2π Z
dϕ sin θ |Ylm (θ, ϕ)|2 dθ = 1
0
Z ∞
r 2 |f (r)|2 dr = 1
0
11.2. Valores permitidos de l y m

La Ec. (11.21) para Ylm (θ, ϕ) muestra que Ylm (θ, ϕ) es igual a
Ylm (θ, ϕ) = Flm (θ) eimϕ (11.22)
podemos cubrir todo el espacio barriendo ϕ entre 0 y 2π. Nótese que si Y lm (θ, ϕ) no fuera contı́nua en algún valor
de θ, ϕ, no serı́a diferenciable y no podrı́a ser función propia de los operadores diferenciales L 3 y L2 . En particular
la continuidad en ϕ = 0 nos lleva a
Ylm (θ, ϕ = 0) = Ylm (θ, ϕ = 2π)
que implica además
e2imπ = 1 (11.23)
m solo puede ser entero o semientero. Si m es semientero se puede parametrizar como m = (n + 1/2) con n =
0, 1, 2, . . ., en este caso se tiene
1
e2imπ = e2(n+ 2 )iπ = e2niπ eiπ = −1
de modo que si m es semientero viola la condición (11.23). Por otro lado, sabemos que l y m son ambos enteros o
ambos semienteros. En consecuencia, tanto m como l solo pueden tomar valores enteros.
La siguiente pregunta natural es si l puede tomar todos los valores enteros no negativos. Para ello tendremos en
cuenta que según la teorı́a general (lema 6, Pág. 263) se debe satisfacer
L+ Yll (θ, ϕ) = 0 (11.24)
ahora reemplazando (11.14) y (11.22), en la Ec. (11.24) tenemos

iϕ ∂ ∂ h i
~e + i cot θ Fll (θ) eilϕ = 0
∂θ ∂ϕ

∂Fll (θ)
+ i (il) cot θ Fll (θ) eilϕ = 0
∂θ
finalmente
d
− l cot θ Fll (θ) = 0 (11.25)
dθ
teniendo en cuenta que
d (sin θ)
cot θ dθ = (11.26)
sin θ
la solución general de la ecuación es
Fll (θ) = cl (sin θ)l (11.27)
siendo cl una constante de normalización. Se puede demostrar inversamente que esta función es función propia de
L2 y L3 con autovalores l (l + 1) ~2 y l~. Usando (11.12) y (11.22) vemos que
~ ∂ h i il~
L3 Yll (θ, ϕ) = Fll (θ) eilϕ = Fll (θ) eilϕ
i ∂ϕ i
L3 Yll (θ, ϕ) = l~Yll (θ, ϕ) (11.28)

multiplicando (11.24) por L− y usando (10.17) resulta

L− L+ Yll (θ, ϕ) = L2 − L23 − ~L3 Yll (θ, ϕ) = 0 ⇒
0 ⇒

⇒ L2 Yll (θ, ϕ) = L23 + ~L3 Yll (θ, ϕ) = (L3 + ~) L3 Yll (θ, ϕ)
y usando (11.28) mostramos que
L2 Yll (θ, ϕ) = (L3 + ~) (l~) Yll (θ, ϕ) = (l~ + ~) (l~) Yll (θ, ϕ)
L2 Yll (θ, ϕ) = l (l + 1) ~2 Yll (θ, ϕ)
por tanto para cada valor entero no negativo de l, existe una función Y ll única dentro de factores constantes de la
forma
Yll (θ, ϕ) = cl (sin θ)l eilϕ (11.29)
y a través de la acción iterativa de L − podemos construı́r Yl,l−1 , . . . , Yl,m , . . . , Yl,−l . En sı́ntesis, para cada par (l, m)
con l entero no negativo y m entero con la condición −l ≤ m ≤ l; existe una y solo una función Y lm (θ, ϕ) (dentro
de factores constantes), que se puede calcular de (11.29) y que es función propia de L 2 y L3 con valores propios
l (l + 1) ~2 y m~. A estas autofunciones se les denomina armónicos esféricos.
11.3. Propiedades fundamentales de los armónicos esféricos

Algunas de las propiedades de los armónicos esféricos se pueden extraer de la teorı́a general. Por ejemplo, de la
Ec. (10.46) tenemos que p
L± Ylm (θ, ϕ) = ~ l (l + 1) − m (m ± 1)Yl,m±1 (θ, ϕ)
utilizando las expresiones diferenciales de L ± Ecs. (11.14, 11.15) junto con (11.22), expresamos esta propiedad en
forma diferencial

iϕ ∂ p
e − m cot θ Ylm (θ, ϕ) = l (l + 1) − m (m + 1)Yl,m+1 (θ, ϕ)
∂θ

∂ p
e−iϕ − − m cot θ Ylm (θ, ϕ) = l (l + 1) − m (m − 1)Yl,m−1 (θ, ϕ)
∂θ
11.3.1. Ortonormalidad y completez

Las Ecuaciones (11.20, 11.21) determinan a los armónicos esféricos salvo por un factor multiplicativo. Podemos
escoger este factor de manera que se normalicen estas autofunciones. La condición de ortonormalidad se escribe
como1 Z
Yl∗0 m0 (θ, ϕ) Ylm (θ, ϕ) dΩ = δll0 δmm0
teniendo en cuenta la expresión del ángulo sólido (11.4) esta se escribe como
Z 2π Z π
dϕ sin θ dθ Yl∗0 m0 (θ, ϕ) Ylm (θ, ϕ) = δll0 δmm0 (11.30)
0 0
es un hecho además que cualquier función de θ y ϕ se puede expandir en términos de los armónicos esféricos
∞ X
X +l Z 2π Z π
∗
f (θ, ϕ) = clm Ylm (θ, ϕ) ; clm = hlm| f i = dϕ sin θ dθ Ylm (θ, ϕ) f (θ, ϕ)
l=0 m=−l 0 0
1
La constante de normalización para Ylm (θ, ϕ) arbitrario se puede calcular determinando la constante de normalización para Yll (θ, ϕ)
en la Ec. (11.29) y usando la Ec. (10.37) de la Pág. 267, que garantiza la normalización de cada Y lm (θ, ϕ) generado a través de L− a
partir de Yll (θ, ϕ).
11.4. CONSTRUCCIÓN DE BASES ESTÁNDAR DE LA FUNCIÓN DE ONDA ESPACIAL DE UNA PARTÍCULA S
por tanto los armónicos esféricos son una base ortonormal en el espacio E Ω de funciones de θ y ϕ. Esto se expresa
con relaciones de completez que aplican en este espacio
∞ X
X +l
∗
δ (θ − θ 0 ) δ (ϕ − ϕ0 )
Ylm (θ, ϕ) Ylm θ 0 , ϕ0 = δ cos θ − cos θ 0 δ ϕ − ϕ0 =
sin θ
l=0 m=−l
la inclusión de δ (cos θ − cos θ 0 ) en la relación de completez se debe a que el elemento diferencial de ángulo sólido se
escribe como dΩ = sin θ dθ dϕ = −d (cos θ) dϕ.
11.3.2. Propiedades de paridad y conjugación

El cambio r → −r en coordenadas cartesianas se expresa como (x 1 , x2 , x3 ) → (−x1 , −x2 , −x3 ). En coordenadas
esféricas esta transformación de paridad se expresa en la forma
r →r , θ →π−θ , ϕ→π+ϕ
se puede demostrar que

Ylm (π − θ, π + ϕ) = (−1)l Ylm (θ, ϕ)
de modo que los armónicos esféricos tienen paridad definida, la cual es independiente de m. Si l es par (impar) todos
sus 2l + 1 armónicos esféricos asociados son pares (impares). También se puede demostrar que bajo conjugación los
armónicos esféricos tienen la propiedad
∗
Ylm (θ, ϕ) = (−1)m Yl,−m (θ, ϕ)
11.4. Construcción de bases estándar de la función de onda espacial de una

partı́cula sin espı́n
En general L2 y L3 no forman un C.S.C.O. de modo que los subespacios E r (l, m) no son en general unidimen-
sionales. Por tanto aplicaremos el algoritmo descrito en la sección 10.4.1 para construir una base estándar para
Er .
Comenzamos entonces por el subespacio E r (l, l) que serı́a el espacio de las autofunciones de L 2 y L3 con valores
propios l (l + 1) ~2 y l~. El punto de partida es construı́r una base ortonormal en E r (l, l) que denotaremos por
{ψl,l,k (r)} donde k es el ı́ndice que recorre la base cuando L 2 y L3 no forman un C.S.C.O.
El siguiente paso consiste en aplicar iterativamente el operador L − sobre todos los elementos {ψl,l,k (r)} de
Er (l, l) para generar una base ortonormal sobre los subespacios
Er (l, l − 1) , Er (l, l − 2) , . . . , Er (l, m) , . . . , Er (l, −l + 1) , Er (l, −l)
Todos los elementos de estas bases cumplen con las Ecs. (10.19, 10.46), que en este contexto se escriben como
L2 ψl,m,k (r) = l (l + 1) ~2 ψl,m,k (r) ; L3 ψl,m,k (r) = m~ψl,m,k (r) (11.31)

p
L± ψl,m,k (r) = ~ l (l + 1) − m (m ± 1)ψl,m±1,k (r) (11.32)
pero ya hemos visto que todas las funciones propias de L 2 y L3 correspondientes a un par especı́fico (l, m) poseen la
misma dependencia angular denotada por Y lm (θ, ϕ). Es decir la variación de k para l, m fijos, solo hace que varı́e la
dependencia radial de ψl,m,k (r). De las Ecuaciones (11.19) ya dedujimos que las funciones propias ψ l,m,k (r) tienen
la forma
ψl,m,k (r) = Rl,m,k (r) Ylm (θ, ϕ) (11.33)
apliquemos el operador L± sobre la Ec. (11.33) teniendo en cuenta que tales operadores solo actúan sobre la
componente angular
p
L± ψl,m,k (r) = Rl,m,k (r) L± Ylm (θ, ϕ) = ~ l (l + 1) − m (m ± 1)Rl,m,k (r) Yl,m±1 (r)
comparando con la Ec. (11.32) vemos que la función radial debe satisfacer para todo r la condición
Rl,m±1,k (r) = Rl,m,k (r)
la aplicación sucesiva de L± nos lleva a que R (r) no puede depender de m. Este resultado se puede enunciar de la
siguiente manera: Si {ψl,m,k (r)} constituye una base estándar de E r , su función radial asociada no puede depender
de m de modo que estas funciones se escriben como
ψl,m,k (r) = Rl,k (r) Ylm (θ, ϕ) (11.34)
Podrı́amos estar tentados a pensar que la función radial solo depende de la degeneración k. Sin embargo, la
función radial también depende en general de l por la siguiente razón: una función de la forma f (r) g (θ, ϕ) solo
puede ser contı́nua en el origen (r = 0, θ y ϕ arbitrarios) si g (θ, ϕ) se reduce a una constante o si f (r) tiende a
cero cuando r → 0 con f (0) = 0. Para ver esto, basta con observar que si g (θ, ϕ) es no trivial, entonces el lı́mite de
f (r) g (θ, ϕ) cuando r → 0 dependerá de la dirección por la cual nos aproximemos al origen si f (r) no tiende a cero
cuando r → 0. De lo anterior vemos que si requerimos que ψ l,m,k (r) sea contı́nuo, entonces solo las funciones radiales
con l = 0 pueden ser no nulas en el origen (puesto que Y 00 es constante). Si además requerimos diferenciabilidad
hasta cierto orden en el origen obtendremos condiciones sobre R l,k (r) que dependen de l.
Las relaciones de ortonormalidad de estas funciones se escriben en la forma
Z Z ∞
3 ∗
d r ψl,m,k (r) ψl0 ,m0 ,k0 (r) = r 2 dr Rl,k
∗
(r) Rl0 ,k0 (r)
0
Z 2π Z π
∗
× dϕ sin θ dθ Ylm (θ, ϕ) Yl0 m0 (θ, ϕ) = δkk0 δll0 δmm0
0 0
y dado que los armónicos esféricos son ortonormales Ec. (11.30) tenemos que
Z ∞ Z 2π Z π
2 ∗ ∗
r dr Rl,k (r) Rl0 ,k0 (r) dϕ sin θ dθ Ylm (θ, ϕ) Yl0 m0 (θ, ϕ) = δkk0 δll0 δmm0
0 0 0
Z ∞
δll0 δmm0 r 2 dr Rl,k
∗
(r) Rl0 ,k0 (r) = δkk0 δll0 δmm0 (11.35)
0
Z ∞
r 2 dr Rl,k
∗
(r) Rl,k0 (r) = δkk0 (11.36)
0
de modo que las funciones radiales R l,k (r) están normalizadas con respecto a r y dos funciones radiales asociadas
al mismo valor de l pero con diferente valor de k son ortogonales.
Nótese que la relación (11.36) proviene del hecho de que las funciones ψ l,l,k (r) = Rl,k (r) Yll (θ, ϕ) que se esco-
gieron como base en el subespacio Er (l, l) son ortonormales. Por tal razón, es esencial que el ı́ndice l sea el mismo en
ambas funciones radiales de la ecuación (11.36). Si l 6= l 0 entonces ψl,m,k y ψl0 ,m0 ,k0 deben ser ortogonales puesto que
corresponden a funciones propias de L 2 con diferente valor propio, pero la ortogonalidad de los armónicos esféricos
ya garantiza la ortogonalidad de las ψ 0 s cuando l 6= l 0 , de modo que en general la integral a la izquierda de (11.36)
toma cualquier valor, esto se puede apreciar haciendo l 6= l 0 en (11.35).
11.5. Valores esperados y desviaciones medias cuadráticas de observables

cuando el sistema está en un estado |l, m, ki
Supongamos que una partı́cula sin espı́n está en el estado |l, m, ki que es autoestado de L 2 y L3 con valores
propios l (l + 1) ~2 y m~. Por tanto, el cuadrado de su momento angular y su proyección a lo largo de X 3 están bien
definidos. Supongamos ahora que queremos medir las proyecciones a lo largo de los otros dos ejes L 1 y L2 ; puesto
que estos observables no conmutan con L 3 , los estados |l, m, ki no son en general autoestados de L 1 ni de L2 , por
tanto las predicciones sobre sus autovalores serán solo probabilı́sticas.
Calculemos entonces los valores esperados y las raı́ces de las desviaciones medias cuadráticas de L 1 y L2 . Para
ello expresamos estos observables en términos de los operadores escalera L ± invirtiendo las Ecs. (11.34)
1 1
L1 = (L+ + L− ) ; L2 = (L+ − L− )
2 2i
11.5. VALORES ESPERADOS Y DESVIACIONES MEDIAS CUADR ÁTICAS DE OBSERVABLES CUANDO EL SI
por tanto L1 |l, m, ki es una combinación lineal de los estados |l, m + 1, ki y |l, m − 1, ki, similarmente ocurre con
L2 |l, m, ki, esto nos lleva por tanto a que
hl, m, k| L1 |l, m, ki = hl, m, k| L2 |l, m, ki = 0 (11.37)
para calcular las desviaciones medias cuadráticas debemos calcular los valores esperados de L 21 , L22
1
hl, m, k| L21 |l, m, ki = hl, m, k| (L+ + L− ) (L+ + L− ) |l, m, ki
4
1
= hl, m, k| L2+ + L2− + L+ L− + L− L+ |l, m, ki
4
1
hl, m, k| L22 |l, m, ki = − hl, m, k| (L+ − L− ) (L+ − L− ) |l, m, ki
4
1
= − hl, m, k| L2+ + L2− − L+ L− − L− L+ |l, m, ki
4
los términos con L2± no contribuyen puesto que L2+ |l, m, ki = c± |l, m ± 2, ki. Por tanto ambos valores esperados
son idénticos. Usando la Ec. (10.17) se obtiene
1
hl, m, k| L21 |l, m, ki = hl, m, k| L22 |l, m, ki = hl, m, k| [L+ L− + L− L+ ] |l, m, ki
4
1 ~2
= hl, m, k| 2L2 − 2L23 |l, m, ki = l (l + 1) − m2 (11.38)
4 2
las desviaciones medias cuadráticas son
~2
(∆L1 )2 = (∆L2 )2 = hl, m, k| L21 |l, m, ki − [hl, m, k| L1 |l, m, ki]2 = l (l + 1) − m2
2
en resumen cuando la partı́cula está en el estado |l, m, ki, los valores esperados y raı́ces de las desviaciones medias
cuadráticas de L1 y L2 son
hl, m, k| L1 |l, m, ki = hl, m, k| L2 |l, m, ki = 0

r
1
∆L1 = ∆L2 = ~ [l (l + 1) − m2 ]
2
p resultado posee el siguiente análogo clásico: asumamos un momento angular clásico de módulo |L| = L =
Este
~ l (l + 1) y cuya tercera componente L 3 es igual a m~. Si graficamos a L en un espacio de configuración con ejes
L1 , L2 , L3 colocando el vector L con la cola en el origen, podemos describir tal vector en coordenadas esféricas con
ángulo polar θ y ángulo azimutal ϕ
L1 = L sin θ cos ϕ ; L2 = L sin θ sin ϕ ; L3 = L cos θ

L21 + L22 = L2 sin2 θ
de acuerdo con nuestras hipótesis p

L=~ l (l + 1) ; L3 = m~
por tanto

L21 + L22 = L2 − L23 = l (l + 1) ~2 − m2 ~2 = l (l + 1) − m2 ~2
q p
L21 + L22 = L sin θ = ~ [l (l + 1) − m2 ]
y las componentes del momento angular son

p
L1 = L sin θ cos ϕ = ~ [l (l + 1) − m2 ] cos ϕ
p
L2 = L sin θ sin ϕ = ~ [l (l + 1) − m2 ] sin ϕ
p
L3 = L cos θ = ~ l (l + 1) cos θ
asumamos ahora que los valores de L y θ son conocidos y que el ángulo azimutal ϕ es una variable aleatoria que
puede tomar cualquier valor en el intervalo [0, 2π) con igual probabilidad en todo el rango. Si promediamos sobre ϕ
tenemos
Z 2π
~p 2
L1 = [l (l + 1) − m ] cos ϕ dϕ = 0
2π 0
Z 2π
~p
L2 = [l (l + 1) − m2 ] sin ϕ dϕ = 0
2π 0
L1 = L 2 = 0 (11.39)
adicionalmente
Z 2π
~2 ~2
L21 = l (l + 1) − m2 cos2 ϕ dϕ =
l (l + 1) − m2
2π 0 2
Z 2π
~2 ~2
L22 = l (l + 1) − m2 sin2 ϕ dϕ = l (l + 1) − m2
2π 0 2
~ 2
L21 = L22 = l (l + 1) − m2 (11.40)
2
vemos que los promedios clásicos de L 1 , L2 , L21 , L22 dados por las Ecs. (11.39, 11.40) son idénticos a los valores
esperados cuánticos dados en las Ecs. (11.37,
para una partı́cula en el estado |l, m, ki. Por tanto, en lo

11.38)
que concierne a los valores de hL1 i, hL2 i , L21 , L22 , una partı́cula cuántica en el estado |l, m, ki se comporta de
p
manera similar a una particula clásica con momento angular de magnitud L = ~ l (l + 1) y con tercera componente
L3 = m~ para el cual ϕ es una variable aleatoria con distribución uniforme de probabilidad sobre el intervalo [0, 2π).
No obstante, este análogo clásico también tiene sus limitaciones. Por ejemplo en este modelo clásico puesto que
ϕ es aleatoria
p y puede tomarp cualquier valor en el contı́nuo nos lleva a que L 1 y L2 puede tomar cualquier valor
entre −~ [l (l + 1) − m2 ] y ~ [l (l + 1) − m2 ]. En contraste, para el caso cuántico los valores accesibles de todas las
componentes para una medida individual de la partı́cula en el estado |l, m, ki están cuantizados. Especı́ficamente,
hemos visto que los valores accesibles de L 1 y L2 coinciden con los de L3 , puesto que l es fijo hay 2l + 1 valores
accesibles que son l~, (l − 1) ~, . . . , (−l + 1) ~, −l~.
11.6. Probabilidades asociadas a la medida de L2 y L3 en un estado arbitrario

Consideremos una partı́cula cuyo estado está descrito por la función de onda normalizada dada por
hr |ψi = ψ (r) = ψ (r, θ, ϕ)
calcularemos ahora la probabilidad de obtener un valor especı́fico l (l + 1) ~ 2 de L2 y/o un valor especı́fico m~ de

L3 .
Puesto que L2 y L3 son variables compatibles, podemos hacer una medición simultánea de estas cantidades.
Denotaremos PL2 ,L3 (l, m) la probabilidad de obtener los valores l (l + 1) ~ 2 y m~ en una medición simultánea de
dichas cantidades. Para ello expandimos ψ (r) en autoestados de L 2 y L3 , para lo cual escogeremos una base estándar
de la forma (11.34)
ψl,m,k (r) = Rl,k (r) Ylm (θ, ϕ)
esta expansión es entonces XXX
ψ (r) = cl,m,k Rl,k (r) Ylm (θ, ϕ) (11.41)
k l m
donde los coeficientes de Fourier de la expansión son los usuales

Z
cl,m,k = hl, m, k |ψi = d3 r ψl,m,k ∗
(r) ψ (r)
Z ∞ Z 2π Z π
= r 2 dr Rl,k
∗
(r) dϕ ∗
sin θ dθ Ylm (θ, ϕ) ψ (r, θ, ϕ) (11.42)
0 0 0
11.6. PROBABILIDADES ASOCIADAS A LA MEDIDA DE L 2 Y L3 EN UN ESTADO ARBITRARIO 285
de acuerdo con los postulados, la probabilidad P L2 ,L3 (l, m) está dada por
X
PL2 ,L3 (l, m) = |cl,m,k |2 (11.43)
k
si medimos L2 solamente, la probabilidad PL2 (l) de obtener l (l + 1) ~2 es
l
X l
X X
PL2 (l) = PL2 ,L3 (l, m) = |cl,m,k |2 (11.44)
m=−l k m=−l
ahora, si medimos L3 únicamente, la probabilidad de obtener m~ es

X X X
PL3 (m) = PL2 ,L3 (l, m) = |cl,m,k |2 (11.45)
l≥|m| k l≥|m|
estrictamente la condición l ≥ |m| se satisface automáticamente ya que no hay coeficientes c l,k,m con l < |m|.
Adicionalmente, si tenemos en cuenta que L 2 , Li , L± son operadores diferenciales que solo actúan sobre las
variables angulares, solo la dependencia angular en ψ (r) será relevante para calcular estas probabilidades. En
consecuencia, r se puede ver como un parámetro para estos cálculos (cantidad arbitraria pero fija). Si consideramos
que ψ (r, θ, ϕ) es función de las variables θ, ϕ y que r es un parámetro, entonces como toda función de θ y ϕ se
podrá expandir en armónicos esféricos con coeficientes que dependen del parámetro r
XX
ψ (r, θ, ϕ) = al,m (r) Ylm (θ, ϕ) (11.46)
l m
Z 2π Z π
∗
alm (r) = hlm| ψi = dϕ sin θ dθ Ylm (θ, ϕ) ψ (r, θ, ϕ) (11.47)
0 0
si comparamos las expansiones (11.41, 11.46) vemos que los c l,m,k son los coeficientes de la expansión de a l,m (r) en
las funciones Rl,k (r)
X
al,m (r) = cl,m,k Rl,k (r) (11.48)
k
usando (11.42) y (11.47) se obtiene

Z ∞ Z 2π Z π
2 ∗ ∗
cl,m,k = r dr Rl,k (r) dϕ sin θ dθ Ylm (θ, ϕ) ψ (r, θ, ϕ)
Z0 ∞ 0 0
cl,m,k = r 2 dr Rl,k
∗
(r) al,m (r) (11.49)
0
la Ec. (11.49) es la inversa de (11.48). De hecho la Ec. (11.49) se puede obtener multiplicando (11.48) por r 2 Rl,k
∗ (r),
integrando en r y utilizando la relación de ortonormalidad (11.36). Usando las Ecs. (11.36, 11.48) se obtiene
Z ∞ Z ∞ " #" #
X X
r 2 dr |al,m (r)|2 = r 2 dr c∗l,m,k Rl,k
∗
(r) cl,m,k0 Rl,k0 (r)
0 0 k k0
Z ∞ XX Z ∞ X
r 2 dr |al,m (r)|2 = c∗l,m,k cl,m,k0 r 2 dr Rl,k
∗
(r) Rl,k0 (r) = c∗l,m,k cl,m,k0 δkk0
0 k k0 0 k,k 0
Z ∞ X
r 2 dr |al,m (r)|2 = |cl,m,k |2
0 k
por lo tanto, la probabilidad PL2 ,L3 (l, m) descrita por la Ec. (11.43) se puede reescribir como
Z ∞
PL2 ,L3 (l, m) = r 2 dr |al,m (r)|2 (11.50)
0
de lo cual se puede deducir las probabilidades P L2 (l) y PL3 (m)

l
X Z ∞ X Z ∞
2
PL2 (l) = 2
r dr |al,m (r)| ; PL3 (m) = r 2 dr |al,m (r)|2 (11.51)
m=−l 0 l≥|m| 0
en sı́ntesis, para calcular las probabilidades asociadas a las medidas de los observables L 2 y L3 podemos considerar
a la función de onda solo como función de las variables θ, ϕ y expandir dicha función en armónicos esféricos como
se vé en la Ec. (11.46). Los coeficientes de esta expansión se usan entonces para calcular las probabilidades como se
vé en las Ecs. (11.50, 11.51).
Ahora bien, la Ec. (11.12) nos muestra que el operador L 3 solo depende del ángulo azimutal ϕ. Por tanto, para
el cálculo de PL3 (m) podemos considerar a ϕ como la única variable en ψ (r) siendo r y θ parámetros en la función
de onda. Para ver esto basta con observar que los armónicos esféricos son el producto de una función de solo θ por
una función de solo ϕ
eimϕ
Ylm (θ, ϕ) = Zlm (θ) √ (11.52)
2π
con esta parametrización cada una de las funciones del producto está normalizada, esto se vé teniendo en cuenta
que
Z 2π 0
e−imϕ eim ϕ
dϕ √ √ = δmm0
0 2π 2π
si sustituı́mos esto en la relación de ortonormalidad para los armónicos esféricos Ec. (11.30) encontramos que
Z 2π Z π
dϕ sin θ dθ Yl∗0 m0 (θ, ϕ) Ylm (θ, ϕ) = δll0 δmm0
0 0
Z 2π Z π " #
e −im0 ϕ eimϕ
∗
dϕ sin θ dθ Zl0 m0 (θ) √ Zlm (θ) √ = δll0 δmm0
0 0 2π 2π
"Z #Z
2π −im0 ϕ imϕ π
e e
√ √ dϕ sin θ dθ Zl∗0 m0 (θ) Zlm (θ) = δll0 δmm0
0 2π 2π 0
Z π
δmm0 sin θ dθ Zl∗0 m0 (θ) Zlm (θ) = δll0 δmm0 (11.53)
0
Z π
∗
sin θ dθ Zl,m (θ) Zl0 ,m (θ) = δll0 (11.54)
0
nótese que en esta relación solo aparece un número cuántico m ya que si m 6= m 0 ambos miembros en (11.53) se
anulan para cualquier valor de la integral que aparece a la izquierda de (11.53), de modo que a priori esta integral
puede tomar cualquier valor.
Tomaremos entonces para el cálculo de P L3 a la función de onda ψ (r) como una función que solo depende de ϕ
como variable y que depende solo paramétricamente de θ y r. Su expansión de Fourier será
X Z 2π
eimϕ 1
ψ (r, θ, ϕ) = bm (r, θ) √ ; bm (r, θ) = √ dϕ e−imϕ ψ (r, θ, ϕ) (11.55)
m 2π 2π 0
si reescribimos las Ecs. (11.46, 11.47) con la parametrización (11.52) obtenemos

XX eimϕ
ψ (r, θ, ϕ) = al,m (r) Zlm (θ) √ (11.56)
l m 2π
Z 2π Z π
∗ e−imϕ
alm (r) = hlm| ψi = dϕ sin θ dθ Zlm (θ) √ ψ (r, θ, ϕ) (11.57)
0 0 2π
si comparamos las Ecs. (11.55) con las Ecs. (11.56, 11.57) vemos que los a lm con m fijo son los coeficientes de la
expansión de bm (r, θ) sobre las funciones Zlm (θ) para tal valor de m
X Z π
∗
bm (r, θ) = al,m (r) Zlm (θ) ; alm (r) = sin θ dθ Zlm (θ) bm (r, θ) (11.58)
l 0
11.7. EJEMPLOS DE CÁLCULOS DE PROBABILIDAD PARA L2 Y L3 287
multiplicando a ambos lados de (11.58) por sin θ dθ y por el conjugado de cada miembro e integrando resulta
" #" #
X X
bm (r, θ) b∗m (r, θ) sin θ dθ = al,m (r) Zlm (θ) a∗l0 ,m (r) Zl∗0 m (θ) sin θ dθ
l l0
Z π XX Z π
2
|bm (r, θ)| sin θ dθ = al,m (r) a∗l0 ,m (r) Zlm (θ) Zl∗0 m (θ) sin θ dθ
0 l l0 0
y usando (11.54) resulta

Z π XX
|bm (r, θ)|2 sin θ dθ = al,m (r) a∗l0 ,m (r) δll0
0 l l0
Z π X
|bm (r, θ)|2 sin θ dθ = |al,m (r)|2 (11.59)
0 l
y sustituyendo (11.59) en la segunda de las ecuaciones (11.51), la probabilidad P L3 (m) queda en la forma
Z ∞ Z π
PL3 (m) = 2
r dr sin θ dθ |bm (r, θ)|2 (11.60)
0 0
Por lo tanto, en lo que respecta al cálculo de P L3 (m) se puede considerar que para la función de onda, las
cantidades r y θ son parámetros y la única variable es ϕ. Con esta consideración, la expansión de Fourier se hace
en la forma indicada en (11.55) y los coeficientes de la expansión se utilizan para calcular P L3 (m) como se observa
en la Ec. (11.60).
Por otro lado, vemos que para calcular P L2 los dos ángulos θ y ϕ son relevantes ya que el operador diferencial
asociado (11.13) depende de ambos ángulos. Por tanto la única cantidad que se puede considerar como parámetro
para este cálculo es r y debemos emplear la fórmula (11.51).
11.7. Ejemplos de cálculos de probabilidad para L2 y L3

11.7.1. Función de onda parcialmente separable
Supongamos que la función de onda ψ (r) de una partı́cula tiene la forma
ψ (r, θ, ϕ) = f (r) g (θ, ϕ) (11.61)
siempre es posible normalizar cada función por separado de modo que
Z ∞ Z 2π Z π
2
2
r dr |f (r)| = 1 ; dϕ sin θ dθ |g (θ, ϕ)|2 = 1 (11.62)
0 0 0
la expansión (11.46, 11.47) se escribe entonces en la forma
XX Z 2π Z π
∗
f (r) g (θ, ϕ) = al,m (r) Ylm (θ, ϕ) ; alm (r) = f (r) dϕ sin θ dθ Ylm (θ, ϕ) g (θ, ϕ)
l m 0 0
XX
f (r) g (θ, ϕ) = f (r) dl,m Ylm (θ, ϕ) ; alm (r) ≡ f (r) dlm (11.63)
l m
quedando entonces
XX Z 2π Z π
∗
g (θ, ϕ) = dl,m Ylm (θ, ϕ) ; dlm ≡ dϕ sin θ dθ Ylm (θ, ϕ) g (θ, ϕ)
l m 0 0
usando la segunda Ec. (11.63), la probabilidad P L2 ,L3 dada en (11.50) queda en la forma
Z ∞ Z ∞
2 2
PL2 ,L3 (l, m) = 2
r dr |al,m (r)| = |dl,m | r 2 dr |f (r)|2
0 0
Z 2π Z π
2 ∗
PL2 ,L3 (l, m) = |dl,m | ; dlm ≡ dϕ sin θ dθ Ylm (θ, ϕ) g (θ, ϕ) (11.64)
0 0
donde hemos usado la condición de normalización radial (11.62). Esta probabilidad es totalmente independiente de
la parte radial de la función de onda f (r).
11.7.2. Función de onda totalmente separable

Consideremos ahora el caso en el cual la función de onda admite una separación total
ψ (r, θ, ϕ) = f (r) h (θ) k (ϕ) (11.65)
de nuevo asumimos que cada función está normalizada por aparte

Z ∞ Z π Z 2π
2 2
2
r dr |f (r)| = sin θ dθ |h (θ)| = dϕ |k (ϕ)|2 = 1 (11.66)
0 0 0
Por supuesto la Ec. (11.65) es un caso especial de (11.61) de modo que los resultados precedentes son válidos aquı́.
Pero la separación adicional nos permite simplificar el cálculo de P L3 , pues la expansión (11.55) queda en este caso
en la forma
X Z 2π
eimϕ 1
f (r) h (θ) k (ϕ) = bm (r, θ) √ ; bm (r, θ) = √ f (r) h (θ) dϕ e−imϕ k (ϕ)
m 2π 2π 0
X e imϕ
f (r) h (θ) k (ϕ) = f (r) h (θ) cm √ ; bm (r, θ) ≡ cm f (r) h (θ) (11.67)
m 2π
quedando finalmente Z
X eimϕ 1 2π
k (ϕ) = cm √ ; cm ≡ √ dϕ e−imϕ k (ϕ) (11.68)
m 2π 2π 0
ahora aplicando (11.67 y 11.68) a la Ec. (11.60) para el cálculo de P L3 se obtiene

Z ∞ Z π Z ∞ Z π
2
PL3 (m) = 2
r dr sin θ dθ |bm (r, θ)| = 2
r dr sin θ dθ |cm f (r) h (θ)|2
0 0 0 0
Z ∞ Z π
2 2
= |cm | 2
r dr |f (r)| sin θ dθ |h (θ)|2
0 0
y usando las condiciones de normalización (11.66) se tiene

Z 2π
2 1
PL3 (m) = |cm | ; cm ≡√ dϕ e−imϕ k (ϕ) (11.69)
2π 0
11.7.3. Comportamiento de la probabilidad con θ y ϕ

Hasta ahora solo se ha considerado una estructura especı́fica de separación de variables en la función de onda en
forma de las Ecs. (11.61, 11.65). Tomaremos ahora ejemplos concretos que cumplan con alguna de estas ecuaciones,
por ejemplo asumamos que la función de onda es de la forma (11.65) pero totalmente independiente de θ y ϕ
1 1
h (θ) = √ ; k (ϕ) = √ (11.70)
2 2π
con lo cual la Ec. (11.65) se convierte en
1
ψ (r) = f (r) √ = f (r) Y00 (θ, ϕ)
4π
de modo que una medida de L2 y/o L3 da el valor cero con total certeza.
Ahora modifiquemos solo la dependencia con θ
r
3 1
h (θ) = cos θ ; k (ϕ) = √
2 2π
r
3
ψ (r) = f (r) cos θ = Y10 (θ, ϕ)
4π
11.7. EJEMPLOS DE CÁLCULOS DE PROBABILIDAD PARA L2 Y L3 289
de nuevo tenemos certeza total sobre los valores de L 2 y L3 en una medida (l = 1, m = 0). Para L2 obtenemos
2~2 y para L3 tendremos cero. Vemos que la modificación de la dependencia de θ no modifica las predicciones
concernientes a L3 puesto que tales predicciones solo dependen del ángulo ϕ.
Ahora modificamos la dependencia de ϕ (con respecto al primer problema) de modo que
1 eiϕ
h (θ) = √ ; k (ϕ) = √
2 2π
eiϕ
ψ (r) = f (r) √
4π
la dependencia angular ya no está dada por un solo armónico esférico. Aplicando (11.69) vemos que P L3 (m) nos da
Z 2π Z 2π
2 1 −imϕ 1
PL3 (m) = |cm | ; cm ≡√ dϕ e k (ϕ) = dϕ e−imϕ eiϕ = δm1
2π 0 2π 0
PL3 (m) = δm1
por tanto m solo puede tomar el valor m = 1, vemos entonces que las predicciones sobre L 3 han cambiado por la
introducción de la dependencia azimutal. Las predicciones
√ sobre L 2 cambian también con respecto a las dadas por
iϕ
(11.70). Para calcular PL2 es necesario expandir e / 4π en armónicos esféricos. Se puede verificar que todos los
armónicos con l impar y m = 1 aparecen en dicha expansión. Por tanto, ya no hay certeza en la medida de L 2 sino
una distribución de probabilidad. Tal como ya se discutió, la dependencia de ϕ entra en las predicciones sobre L 2 .
Capı́tulo 12
Interacciones centrales en mecánica cuántica
En mecánica cuántica es frecuente encontrarse con el problema de dos partı́culas interactuantes como es el caso
de la interacción electrón núcleo en un átomo hidrogenoide (sistema consistente en un núcleo y un electrón). Cuando
la interacción entre las dos partı́culas se puede describir por un potencial que solo depende de la posición relativa
entre ambas, es posible demostrar al igual que en mecánica clásica, que el problema se puede reducir al estudio
de una sola partı́cula ficticia. Además cuando la interacción entre las partı́culas depende solo de la distancia entre
ellas, el sistema equivalente es la partı́cula ficticia sujeta a un potencial central.
Una vez que el problema se reduce al problema equivalente de una partı́cula, se considerarán las propiedades
mecano cuánticas de una partı́cula sujeta a un potencial central V (r). Este problema está ı́ntimamente relacionado
con el problema del momento angular, ya que el hecho de que V (r) sea invariante ante rotaciones alrededor del
origen significará que el Hamiltoniano H conmuta con todas las componentes del momento angular orbital L, es
decir es un escalar. Esto simplificará considerablemente el problema de valores propios ya que será posible construı́r
una base común de funciones propias de H, L 2 y L3 . Esto a su vez permitirá que la dependencia angular de la
ecuación de valores propios se convierta en el problema de valores propios del momento angular orbital que ya se
ha estudiado en detalle. Por tanto, el problema se reducirá a encontrar la dependencia radial.
12.1. El problema de dos cuerpos y su reducción al problema equivalente de

una partı́cula en Mecánica Clásica
Figura 12.1: Variables de posición fundamentales en el problema de dos cuerpos.
Consideremos un sistema de dos masas puntuales m 1 y m2 como lo indica la Fig. 12.1, donde las únicas fuerzas
que actúan sobre ellas son las debidas al potencial mutuo U . La isotropı́a del espacio nos sugiere que si las masas no
poseen alguna propiedad vectorial, la interacción entre ellas debe ir dirigida a lo largo de la lı́nea que las une, esto
indica que el potencial debe ser función del valor absoluto de la coordenada relativa r 2 − r1 ≡ r. Este sistema tiene
12.1. EL PROBLEMA DE DOS CUERPOS Y SU REDUCCI ÓN AL PROBLEMA EQUIVALENTE DE UNA PART ÍC
seis grados de libertad y por tanto requiere de seis coordenadas generalizadas. Quizás el sistema de coordenadas
generalizadas más conveniente lo constituye las coordenadas de posición del centro de masa R, y las coordenadas
que determinan al vector relativo r. Estas coordenadas se pueden escribir en términos de las coordenadas de posición
de las partı́culas r1 y r2
m1 r1 + m 2 r2
r ≡ r 2 − r1 ; R ≡ (12.1)
m1 + m 2
estas ecuaciones se pueden invertir para obtener
m2
r1 = R − r
m1 + m 2
m1
r2 = R+ r (12.2)
m1 + m 2
también son útiles las coordenadas de posición de las partı́culas relativas al centro de masa r 01 y r02
r1 = R + r01 ; r2 = R + r02 (12.3)
con lo cual
m2
r01 = − r
m1 + m 2
m1
r02 = r (12.4)
m1 + m 2
En esta sección consideraremos una situación algo más general en donde el potencial puede depender también de
las derivadas temporales del vector relativo r. El Lagrangiano del sistema se puede escribir como

L = T Ṙ, ṙ − U (r, ṙ, ..)
es bien sabido que la energı́a cinética de un sistema clásico de partı́culas se puede escribir como la energı́a cinética
del centro de masa mas la energı́a cinética con respecto al centro de masa
1 1 1 1 1
T Ṙ, ṙ = m1 ṙ21 + m2 ṙ22 = m1 ṙ02 02
1 + m2 ṙ2 + M Ṙ
2
(12.5)
2 2 2 2 2
donde M ≡ m1 +m2 . Usando (12.4) se puede escribir la energı́a cinética en términos de las coordenadas generalizadas
elegidas i.e. las componentes de Ṙ y ṙ
1 m1 m2 2 1
T = ṙ + M Ṙ2
2 M 2
el Lagrangiano queda de la forma
1 1 m1 m2 2
L = M Ṙ2 + ṙ − U (r, ṙ, ..) (12.6)
2 2 M
se puede ver que las coordenadas de R son todas cı́clicas, es decir no aparecen en el Lagrangiano pero sı́ aparecen
las coordenadas Ṙ. Si elegimos como coordenadas generalizadas las tres componentes cartesianas de R, vemos que
los tres momentos lineales (que serı́an los momentos canónicos) son constantes y por tanto, Ṙ = cte, de modo que
el centro de masa está en reposo o movimiento rectilı́neo uniforme 1
R = R0 + Ṙt (12.7)
si nuestro sistema original de referencia es inercial, entonces el sistema con origen en el centro de masa también lo
es. Podemos entonces ver el movimiento a partir del centro de masa en cuyo caso el Lagrangiano queda
1 2
L= µṙ − U (r, ṙ, ..) (12.8)
2
1
Desde el punto de vista Newtoniano esto se puede ver por el hecho de que el sistema está aislado, de modo que el centro de masa no
puede estar acelerado. En términos de simetrı́as, se dice que el sistema tiene invarianza traslacional que conduce a la conservación del
momento lineal.
292 CAPÍTULO 12. INTERACCIONES CENTRALES EN MEC ÁNICA CUÁNTICA
donde hemos definido

m1 m2
µ≡ (12.9)
M
como la masa reducida del sistema. El Lagrangiano (12.8) es el equivalente al Lagrangiano que se obtendrı́a si
tuviéramos una partı́cula de masa µ sometida a una fuerza que apunta siempre hacia un punto fijo (fuerza central),
y a una distancia r del centro de fuerza. Por lo tanto el problema de dos cuerpos sometidos a fuerzas centrales
mutuas, se puede reducir a un problema de una sola partı́cula que interactúa con un centro de fuerzas.
No debemos olvidar sin embargo, que la partı́cula equivalente a la cual está asociada el Lagrangiano (12.8),
NO existe, no hay ninguna partı́cula de masa µ y las trayectorias que se encuentran son para esta partı́cula
imaginaria. Para encontrar la trayectoria de las partı́culas originales con respecto al sistema inercial original, es
necesario devolverse tomando las Ecs. (12.2, 12.7) junto con las soluciones que encontremos para r. No obstante,
si ocurre que m1 << m2 entonces tanto la trayectoria como la masa imaginarias van a ser muy semejantes a la
trayectoria y masa real de m1 .
Ahora queremos construı́r un Hamiltoniano equivalente para cuantizar más adelante. Usando (12.6) suponiendo
que U solo depende de r, podemos calcular los momentos conjugados asociados a las componentes de R y de r, los
cuales están dados por

∂L ∂ 1 1 1 1
Pi = = M Ẋk Ẋk + µẋk ẋk − V (r) = M δik Ẋk + M Ẋk δik = M Ẋi
∂ Ẋi ∂ Ẋi 2 2 2 2

∂L ∂ 1 1
pi = = M Ẋk Ẋk + µẋk ẋk − V (r) = µẋi
∂ ẋi ∂ ẋi 2 2
tenemos entonces que
P = M Ṙ = m1 ṙ1 + m2 ṙ2 = p1 + p2 (12.10)

m1 m2 m1 m2 ṙ2 − m2 m1 ṙ1 m1 p2 − m 2 p1
p = µṙ = (ṙ2 − ṙ1 ) = = (12.11)
m1 + m 2 m1 + m 2 m1 + m 2
p p2 p1
= − (12.12)
µ m2 m1
P es el momento total y p es el momento relativo de las dos partı́culas. El Hamiltoniano clásico se escribe como
P2 p2
H (R, P, r, p) = + + V (r) (12.13)
2M 2µ
empleando las ecuaciones de Hamilton encontramos que
Ṗ = 0 ; ṗ = −∇V (r) (12.14)
la primera ecuación nos dice que el centro de masa tiene movimiento rectilı́neo uniforme como ya se habia observado.
La segunda ecuación es la segunda ley de Newton aplicada a la partı́cula imaginaria de masa µ. Puesto que el
centro de masa es también inercial, podemos ubicarnos allı́ para ver las ecuaciones de movimiento, en cuyo caso el
Hamiltoniano queda
p2
H (r, p) = + V (r) (12.15)
2µ
que es el equivalente al Lagrangiano (12.8) para la partı́cula µ con posición r y momento p (excepto que ya asumimos
que el potencial solo depende de r). Nótese que el primer término a la derecha de las Ecs. (12.6, 12.13) junto con la
primera de las Ecs. (12.14) nos permite interpretar al par R, P como variables conjugadas a una segunda partı́cula
imaginaria de masa M y que viaja a la velocidad constante del centro de masa ocupando para todo tiempo la
posición del centro de masa2 .
También se observa que la Ec. (12.12) nos dice que la velocidad p/µ de la partı́cula imaginaria es igual a la
diferencia entre la velocidades de las dos partı́culas es decir su velocidad relativa, lo cual es consistente con derivar
la primera de las Ecs. (12.1) con respecto al tiempo.
2
En sı́ntesis hemos cambiado el problema de dos cuerpos (reales) acoplados por el problema de dos cuerpos (imaginarios) totalmente
desacoplados.
12.2. REDUCCIÓN DEL PROBLEMA DE DOS CUERPOS EN MEC ÁNICA CUÁNTICA 293
12.2. Reducción del problema de dos cuerpos en mecánica cuántica

Cuando se realiza un proceso de cuantización no es obvio a priori que el problema de dos cuerpos se reduzca
al problema de un solo cuerpo. La razón estriba en que debemos cuantizar las variables asociadas a las partı́culas
reales, es decir debemos cuantizar (R 1 , P1 ) y (R2 , P2 ), después de esto podemos pasar a las coordenadas de centro
de masa que denotamos por (RC , PC ) y las coordenadas relativas (Rr , Pr ). Sin embargo, para poder interpretar
consistentemente estas nuevas coordenadas como equivalentes a dos partı́culas imaginarias, es necesario que dichas
nuevas coordenadas sean canónicas (es decir que obedezcan las reglas canónicas de conmutación). Adicionalmente,
para que el movimiento de estas dos partı́culas imaginarias se pueda desacoplar, es necesario que las variables
(RC , PC ) conmuten con las variables (Rr , Pr ). Veremos sin embargo, que estas condiciones sı́ se satisfacen para
el problema cuántico de dos cuerpos, de modo que la reducción al problema de un cuerpo también es posible en
mecánica cuántica.
Asociaremos los operadores R1 , P1 y R2 , P2 que describen la posición y el momento de las dos partı́culas y que
satisfacen las relaciones canónicas
h i h i h i
(i) (k) (i) (k) (i) (k)
Pj , P m = Xj , X m = 0 ; Xj , P m = δjm δik i~ ; i, k = 1, 2 ; j, m = 1, 2, 3 (12.16)
donde i, k rotulan partı́culas en tanto que j, m rotulan componentes. Definimos ahora los observables R C y Rr en
forma análoga a las Ecs. (12.1)
m1 R1 + m 2 R2
RC = ; Rr = R2 − R1 (12.17)
m1 + m 2
y los momentos tienen expresiones de la forma (12.10, 12.11)
m1 P2 − m 2 P1
PC = P 1 + P 2 ; P r = (12.18)
m1 + m 2
los conmutadores entre las componentes de R C , Rr , PC , Pr se pueden calcular con base en las definiciones (12.17,
12.18) y las reglas de conmutación (12.16) y se obtiene
h i h i h i
e (i) , X
X e (k) = Pe (i) , Pe(k) = 0 ; X e (i) , Pe(k) = δjm δik i~ ; i, k = 1, 2 ; j, m = 1, 2, 3
j m j m j m
e (1) ≡ (RC ) ; X
X e (2) ≡ (Rr ) ; Pe(1) ≡ (PC ) ; Pe(2) ≡ (Pr )
j j j j j j j j
es decir tanto el par RC , PC , como el par Rr , Pr obedecen reglas canónicas de conmutación. Además todo observable
del conjunto {RC , PC } conmuta con todo observable del conjunto {R r , Pr }.
Lo anterior nos permite interpretar al par R C , PC , y al par Rr , Pr como los observables posición y momento de
dos partı́culas ficticias distintas al igual que en el caso clásico.
12.2.1. Autovalores y autofunciones del Hamiltoniano

Usando las reglas de cuantización el Hamiltoniano para dos cuerpos sometidos a una fuerza central está dado
por
P21 P2
H= + 2 + V (R2 − R1 )
2m1 2m2
teniendo en cuenta que este Hamiltoniano no acopla observables de momento con observables de posición, el cálculo
para llegar del conjunto (R1 , P1 , R2 , P2 ) al conjunto (RC , PC , Rr , Pr ) es idéntico al del caso clásico puesto que
todos los productos que aparecen conmutan. El resultado es entonces totalmente análogo a (12.13)
P2C P2
H= + r + V (Rr )
2M 2µ
este Hamiltoniano se puede separar en la forma
P2C P2
H = H C + Hr ; HC ≡ ; Hr ≡ r + V (Rr )
2M 2µ
[HC , Hr ] = 0 ⇒ [HC , H] = 0 ; [Hr , H] = 0
Asumiendo que H, HC , Hr son observables, tal conjunto tendrá entonces una base común de kets propios.
HC |ϕi = EC |ϕi ; Hr |ϕi = Er |ϕi ; H |ϕi = E |ϕi

H = H C + Hr ⇒ E = E C + Er (12.19)
consideremos la base {|rC , rr i}, donde los elementos de esta base son vectores propios comunes a los observables
RC y Rr . En esta base, un estado se representa por la función de onda ϕ (r C , rr ) que es función de seis variables.
Los operadores RC y Rr se representan por multiplicación de las funciones de onda por las variables r C y rr
respectivamente, en tanto que PC y Pr se representan por los gradientes

∂ ∂ ∂
PC → −i~∇C ≡ −i~ , ,
∂xC,1 ∂xC,2 ∂xC,3

∂ ∂ ∂
Pr → −i~∇r ≡ −i~ , ,
∂xr,1 ∂xr,2 ∂xr,3
el espacio de estados E puede ser considerado como el producto tensorial
E = E rC ⊗ E rr
donde los espacios ErC , Err están asociados a RC y Rr respectivamente. HC y Hr son entonces extensiones a E de
Hamiltonianos originalmente definidos en E rC y Err respectivamente. Podemos entonces encontrar una base |ϕi que
cumple las Ecs. (12.19) en la forma siguiente
|ϕi = |ϕC i ⊗ |ϕr i ; |ϕC i ∈ ErC ; |ϕr i ∈ Err

HC |ϕC i = EC |ϕC i ; Hr |ϕr i = Er |ϕr i ; H |ϕi = (EC + Er ) |ϕi
las dos primeras ecuaciones se pueden escribir en la base {|r C i} y {|rr i} respectivamente y se obtiene
~2 2
− ∇ ϕC (rC ) = EC ϕC (rC ) (12.20)
2M C
~2 2
− ∇ + V (rr ) ϕr (rr ) = Er ϕr (rr ) (12.21)
2µ r
la Ec. (12.20) muestra que la partı́cula equivalente para la descripción del centro de masa es libre como en la
mecánica clásica. Sus soluciones son del tipo onda plana
1 i p2C
ϕC (rC ) = 3/2
e ~ pC ·rC ; EC = ≥0
(2π~) 2M
el espectro de energı́a es no negativo y contı́nuo y corresponde a la energı́a cinética del movimiento del sistema como
un todo.
La Ec. (12.21) describe la dinámica de la partı́cula imaginaria de masa µ con posición equivalente a la posición
relativa entre las dos partı́culas. Describe entonces el comportamiento del sistema de dos partı́culas en el sistema de
referencia del centro de masa. Si el potencial solo depende de |r 2 − r1 | y no de la dirección de este vector relativo,
la partı́cula µ estará sujeta a un potencial central V (r). El problema se reduce entonces a resolver la dinámica de
la partı́cula µ.
El momento angular del sistema es
J = L 1 + L2 ; L1 = R1 × P1 ; L2 = R2 × P2
se puede demostrar que este momento angular total también se puede escribir como
J = L C + Lr ; LC = RC × PC ; Lr = Rr × Pr
Adicionalmente, se puede demostrar que L C y Lr satisfacen las reglas de conmutación de un momento angular.
Naturalmente, las componentes de L C conmutan con las de Lr . Una vez más, estas propiedades nos permiten
interpretar consistentemente a LC y a Lr como momentos angulares de partı́culas cuánticas imaginarias.
12.3. EL PROBLEMA CLÁSICO DE UNA PARTÍCULA SOMETIDA A UNA FUERZA CENTRAL 295
12.3. El problema clásico de una partı́cula sometida a una fuerza central

Asumamos una partı́cula clásica sometida a una fuerza de la forma 3
dV
F = −∇V (r) = − ur
dr
dado que la fuerza es paralela al vector posición (siempre que el origen se elija en el centro de fuerza) tenemos que
~τ = r × F = 0 y puesto que ~τ = dL/dt, se tiene que L = cte. El momento angular clásico es entonces una constante
de movimiento para una partı́cula clásica sometida a una fuerza central. La trayectoria está contenida entonces
en un plano que pasa por el centro de fuerzas y que es perpendicular al momento angular. La velocidad se puede
descomponer en una componente radial (paralela a r) y una transversal (perpendicular a r). La velocidad radial
tiene como magnitud
dr
vr =
dt
y la magnitud de la velocidad tangencial está dada por
1
|vθ | = |v sin δ| = |ur × v| = |r × v|
r
siendo δ el ángulo entre ur y v. El módulo del momento angular es
|L| = |r × µv| = µr |vθ | ⇒

|L|
|vθ | =
µr
la energı́a total (cinética mas potencial) es

1 2 1 1
E = µv + V (r) = µvr2 + µvθ2 + V (r)
2 2 2
2
1 2 1 |L|
E = µv + µ + V (r)
2 r 2 µr
1 2 L2
E = µvr + + V (r) (12.22)
2 2µr 2
El Hamiltoniano clásico en coordenadas esféricas se escribe como
!
p2r 1 p2ϕ
H = + + p2θ + V (r)
2µ 2µr 2 sin2 θ
p2ϕ
L2 = + p2θ
sin2 θ
La energı́a cinética en (12.22) se dividió en dos términos la energı́a cinética radial y la transversal. Nótese que la
dependencia angular del Hamiltoniano se puede absorber en L 2 teniendo en cuenta que esta es una constante de
movimiento
p2 L2
H= r + + V (r) (12.23)
2µ 2µr 2
la absorción de los ángulos y sus momentos conjugados en L 2 está relacionada con el hecho de que V (r) no depende
de los ángulos. El Hamiltoniano es la energı́a del sistema en este caso como se aprecia al comparar (12.22) con
(12.23). Podemos entonces tratar al Hamiltoniano como función solo de r y p r tomando a L2 como parámetro.
Tenemos entonces solo dos ecuaciones de Hamilton
∂H ∂H
ṙ = ; ṗr = −
∂pr ∂r
3
De aquı́ en adelante simplificaremos la notación y usaremos r, p en lugar de rr y pr para las variables dinámicas fundamentales del
problema de una partı́cula.
tomando el Hamiltoniano (12.23) estas ecuaciones quedan
dr pr dpr L2 dV
= ; = 3−
dt µ dt µr dr
d2 r 1 dpr 2
d r L 2 dV
= ; µ 2 = 3− (12.24)
dt2 µ dt dt µr dr
si definimos el potencial efectivo

L2
Vef f (r) = V (r) +
2µr 2
el Hamiltoniano (12.23) y las ecuaciones de movimiento (12.24) quedan
p2r d2 r dVef f
H= + Vef f (r) ; µ 2 = −
2µ dt dr
que es equivalente a un problema unidimensional sujeto a la interacción descrita por el potencial efectivo (teniendo
en cuenta que r va entre 0 e ∞). Veremos como se traducen estas caracterı́sticas en la mecánica cuántica.
12.4. Hamiltoniano cuántico

De aquı́ en adelante nos concentraremos en la ecuación (12.21) de valores propios para el Hamiltoniano en la
representación de la coordenada relativa {|r r i}. Por tanto simplificamos su notación en la forma

~2 2
− ∇ + V (r) ϕ (r) = Eϕ (r) (12.25)
2µ
puesto que el potencial V solo depende de la distancia r de la partı́cula al origen, las coordenadas esféricas son más
adecuadas para el problema. El Laplaciano en coordenadas esféricas se escribe

2 1 ∂2 1 ∂2 1 ∂ 1 ∂2
∇ = r+ 2 + + (12.26)
r ∂r 2 r ∂θ 2 tan θ ∂θ sin2 θ ∂ϕ2
esta expresión da el Laplaciano solo para r 6= 0 y no está definida para r = 0, lo cual se debe a la posición
privilegiada del origen en coordenadas esféricas (el origen corresponde a r = 0 para cualquier valor de θ, ϕ), más
adelante impondremos condiciones sobre la función de onda en el origen. De la Ec. (11.13) vemos que el Laplaciano
(12.26) se puede escribir en términos de L 2
1 ∂2 L2
∇2 = r −
r ∂r 2 ~2 r 2
de modo que el Hamiltoniano cuántico se puede escribir

~2 2 ~2 1 ∂ 2 L2
H = − ∇ + V (r) = r − 2 2 + V (r)
2µ 2µ r ∂r 2 ~ r
2
~ ∂ 2 L 2
H = − r+ + V (r) (12.27)
2µr ∂r 2 2µr 2
que es el análogo del Hamiltoniano clásico (12.23). El operador diferencial L 2 contiene toda la dependencia angular.
El problema de valores propios del Hamiltoniano queda escrito en la forma

~2 ∂ 2 L2
− r+ + V (r) ϕ (r, θ, ϕ) = E ϕ (r, θ, ϕ) (12.28)
2µr ∂r 2 2µr 2
12.5. SOLUCIÓN GENERAL DEL PROBLEMA DE VALORES PROPIOS 297
12.5. Solución general del problema de valores propios

Puesto que las componentes de L solo actúan en la variables angulares, conmutan con todos los operadores que
solo dependan de r. Además, sabemos que L i conmuta con L2 . Por tanto de acuerdo con (12.27), las tres componentes
de L conmutan con el Hamiltoniano y como no dependen explı́citamente del tiempo, son todas constantes de
movimiento en el sentido cuántico (sección 5.8.2)
∂L d hLi
[H, L] = 0 ; = =0
∂t dt
por tanto H es un operador escalar con respecto a las rotaciones alrededor del origen, lo cual proviene de la invarianza
del potencial bajo rotaciones alrededor del origen. Por supuesto H también conmuta con L 2 . Sin embargo, aunque
tenemos a nuestra disposición cinco constantes de movimiento (L, L 2 , H), no podemos usarlas todas para solucionar
el problema de valores propios (12.28) ya que no todos estos operadores conmutan entre sı́. Solo podremos usar L 2 ,
L3 (u otra componente) y H. Si asumimos que H, L 2 , L3 son observables, existirá una base común de funciones
propias en el espacio Er de una partı́cula. Por lo tanto podemos sin retringir la generalidad del problema requerir
que la funciones de onda en (12.28) también sean funciones de onda de L 2 y L3
Hϕ (r) = Eϕ (r) ; L2 ϕ (r) = l (l + 1) ~2 ϕ (r) ; L3 ϕ (r) = m~ϕ (r) (12.29)
pero ya conocemos la forma de la parte angular de las autofunciones comunes de L 2 y L3 (sección 11.4). La Ec.
(11.34) nos indica que estas funciones son de la forma
ϕ (r) = Rlk (r) Ylm (θ, ϕ) (12.30)
donde este ϕ (r) es solución de las dos últimas ecuaciones (12.29) sin importar la forma de la parte radial. Por tanto,
solo queda resolver el problema de determinar R (r) a fin de que ϕ (r) sea autofunción del Hamiltoniano.
12.5.1. La ecuación radial

Si sustituı́mos (12.30) en la Ec. (12.28) de valores propios del Hamiltoniano

~2 ∂ 2 L2
− r+ + V (r) Rlk (r) Ylm (θ, ϕ) = E Rlk (r) Ylm (θ, ϕ)
2µr ∂r 2 2µr 2

~2 ∂ 2 L2 Ylm (θ, ϕ)
Ylm (θ, ϕ) − r + V (r) R lk (r) + R lk (r) = E Rlk (r) Ylm (θ, ϕ)
2µr ∂r 2 2µr 2
y teniendo en cuenta que los armónicos esféricos son autofunciones de L 2 con valor propio l (l + 1) ~2 se tiene

~2 ∂ 2 l (l + 1) ~2 Ylm (θ, ϕ)
Ylm (θ, ϕ) − r + V (r) R lk (r) + R lk (r) = E Rlk (r) Ylm (θ, ϕ)
2µr ∂r 2 2µr 2
la ecuación radial toma finalmente la forma

~2 d2 l (l + 1) ~2
− r+ + V (r) Rlk (r) = E Rlk (r) (12.31)
2µr dr 2 2µr 2
en realidad una solución de (12.31), sustituı́da en (12.30) no necesariamente representa una solución de la ecuación
de valores propios (12.25) del Hamiltoniano. Esto se debe a que la expresión (12.26) para el Laplaciano no es
necesariamente válida en r = 0. Debemos por tanto asegurarnos que la solución R (r) de (12.31) sea lo suficientemente
regular en el origen para que (12.30) sea en realidad solución de (12.25). Nótese además que aunque la Ec. (12.31) no
depende de los ángulos, sı́ depende de l, en realidad para cada valor de l tenemos un operador diferente en (12.31).
De las Ecs. (12.29), podemos decir que el problema de valores propios de L 2 , L3 , H lo resolvemos para cada par
de valores fijos de l y m. Esto implica que en el espacio de estados E r resolvemos el problema para cada subespacio
E (l, m) asociado a valores fijos de l y m. La Ec. (12.31) nos muestra que cuando estudiamos la parte radial (que es
la única desconocida) de las funciones propias del Hamiltoniano, la ecuación asociada depende de l pero no de m,
es decir la ecuación (12.31) es idéntica para todos los 2l + 1 subespacios E (l, m) con l fijo. Denotaremos por E l,k los
autovalores del operador Hl definido por (12.31) y que corresponderá a los autovalores del Hamiltoniano dentro de
un subespacio dado E (l, m). El ı́ndice k (discreto o contı́nuo) indica los diferentes valores propios asociados al mismo
número cuántico l, los valores posibles de k indican la dimensionalidad de cada subespacio E (l, m). En (12.31) hemos
denotado las funciones propias de Hl con los ı́ndices Rl,k (r). Debe notarse sin embargo que los ı́ndices de la función
radial no tienen que ser los mismos de los valores propios E l,k puesto que podrı́amos tener varias funciones radiales
propias de Hl para un valor propio dado El,k en cuyo caso la función radial requerirı́a un ı́ndice adicional. Sin
embargo, demostraremos más adelante que para cada l, k solo existe una función radial linealmente independiente.
Por otra parte, para la Ec. (12.31)

~2 d2 l (l + 1) ~2
− r+ + V (r) Rlk (r) = El,k Rlk (r)
2µr dr 2 2µr 2
Definimos el cambio de variable

1
Rl,k (r) = ul,k (r) (12.32)
r
y multiplicamos a ambos lados por r

~2 d2 l (l + 1) ~2 1 1
r − 2
r+ 2
+ V (r) ul,k (r) = rEl,k ul,k (r)
2µr dr 2µr r r
2 2
2

~ d 1 l (l + 1) ~ 1 1
r − 2
r ul,k (r) + 2
ul,k (r) + V (r) ul,k (r) = El,k ul,k (r)
2µr dr r 2µr r r
2 2
~ d l (l + 1) ~2
− ul,k (r) + ul,k (r) + V (r) ul,k (r) = El,k ul,k (r)
2µ dr 2 2µr 2
quedando finalmente

~2 d2 l (l + 1) ~2
− + + V (r) ul,k (r) = El,k ul,k (r) (12.33)
2µ dr 2 2µr 2
de nuevo la Ec. (12.33) es análoga a un problema unidimensional de un partı́cula de masa µ sometida al potencial
efectivo Vef f definido por
l (l + 1) ~2
Vef f = V (r) +
2µr 2

teniendo en cuenta que r solo puede tomar valores no negativos. El término l (l + 1) ~ 2 / 2µr 2 es siempre positivo
de modo que si correspondiera a una interacción real corresponderı́a a una fuerza repulsiva, por este motivo se
conoce como potencial centrı́fugo. Debe tenerse en cuenta sin embargo, que el término centrı́fugo no corresponde a
una verdadera interacción sino a una porción de la energı́a cinética (energı́a cinética transversal). Cuando l = 0 el
término centrı́fugo está ausente. Para una interacción Coulombiana V (r) = −e 2 /r, si l 6= 0 el término centrı́fugo
domina para valores pequeños de r de modo que el potencial efectivo es repulsivo a cortas distancias.
12.5.2. Comportamiento de la solución radial en el origen

Ya hemos mencionado que debemos examinar las soluciones R (r) de la ecuación radial (12.31) en el origen para
garantizar que éstas también sean soluciones de la Ec. (12.25) puesto que en el paso de (12.25) a (12.31) se ha usado
el Laplaciano en coordenadas esféricas (12.26) que no está definido en el origen.
Asumiremos que el potencial V (r) es tal que
lı́m r 2 V (r) = 0 (12.34)

r→0
es decir, permanece finito o diverge menos rápido que 1/r 2 . Esta hipótesis es válida en la mayorı́a de los casos y en
particular para el potencial de Coulomb. Consideremos una solución de la Ec. (12.31) asumamos que en el origen
se comporta en la forma
lı́m Rl,k (r) ∼ Cr s (12.35)
r→0
12.6. ESTADOS ESTACIONARIOS DE UNA PART ÍCULA EN UN POTENCIAL CENTRAL 299
sustituyendo (12.35) en (12.31) tenemos

~2 d2 l (l + 1) ~2
− r+ + V (r) Cr s = El,k Cr s
2µr dr 2 2µr 2
~2 d2 s+1 l (l + 1) ~2 s
− r + r + V (r) r s = El,k r s
2µr dr 2 2µr 2
~2 s−1 l (l + 1) ~2 s
−s (s + 1) r + r + V (r) r s = El,k r s
2µr 2µr 2
~2 s−2 l (l + 1) ~2 s−2
−s (s + 1) r + r + [V (r) − El,k ] r s = 0
2µ 2µ

s−2 ~2 l (l + 1) ~2 2
r −s (s + 1) + + [V (r) − El,k ] r = 0
2µ 2µ
asumimos que r 6= 0 de modo que
~2 l (l + 1) ~2
−s (s + 1) + + [V (r) − El,k ] r 2 = 0
2µ 2µ
tomando el lı́mite cuando r → 0 y teniendo en cuenta la condición (12.34)
−s (s + 1) + l (l + 1) = 0
(l − s) (s + l + 1) = 0 (12.36)
por tanto tenemos dos soluciones posibles
s=l ó s = − (l + 1) (12.37)
es decir que para un valor propio dado E l,k hay dos soluciones linealmente independientes de la ecuación de segundo
orden (12.31), que se comportan como r l y como 1/r l+1 en la vecindad del origen respectivamente. La solución
1/r l+1 claramente diverge en el origen para todos los valores de l. Adicionalmente, se puede demostrar que la
función Ylm (θ, ϕ) /r l+1 no es una solución de la ecuación de valores propios (12.25) para r = 0, esto se debe a que
el laplaciano de Ylm (θ, ϕ) /r l+1 involucra la l−ésima derivada de δ (r). Por tales razones, la solución 1/r l+1 debe
ser descartada.
De lo anterior las soluciones aceptables para (12.33) deben ir a cero en el origen para todo l ya que
lı́m ul,k (r) = lı́m [rRl,k (r)] ∼ Cr l+1

r→0 r→0
de modo que a la Ec. (12.33) se le debe agregar la condición
ul,k (0) = 0 (12.38)
en la Ec. (12.33) r va entre 0 e infinito. Sin embargo, es posible asumir el problema como un problema unidimensional
equivalente en donde r tome todos los valores reales pero con potencial efectivo infinito para valores negativos de
r. En tal caso, la función de onda toma valores idénticamente ceros en la parte negativa de r y la condición (12.38)
asegura la continuidad de la función de onda en r = 0.
12.6. Estados estacionarios de una partı́cula en un potencial central

Hemos visto que cuando el potencial V (r) es independiente de θ y ϕ podemos requerir que las autofunciones
del Hamiltoniano sean también autofunciones de L 2 y L3 . Esto permite aseverar que la dependencia angular viene
dada por las autofunciones de L2 y L3 es decir los armónicos esféricos
1
ϕl,m,k (r) = Rl,k (r) Ylm (θ, ϕ) = ul,k (r) Ylm (θ, ϕ) (12.39)
r
por tanto, la ecuación de valores propios del Hamiltoniano que involucra a r, θ, ϕ puede ser reemplazada por una
ecuación diferencial que solo involucra a r y que depende del parámetro l, Ec. (12.33), dicha ecuación junto con
la condición (12.38) nos dictamina la dependencia radial de la función de onda. Nótese que estas caracterı́sticas
emulan el comportamiento clásico.
Las funciones ϕl,m,k (r, θ, ϕ) deben ser de cuadrado integrable
Z
|ϕl,m,k (r, θ, ϕ)|2 r 2 dr dΩ = 1
la estructura de la función de onda Ec. (12.39) permite separar la parte radial y la angular
Z Z ∞ Z
|ϕl,m,k (r, θ, ϕ)|2 r 2 dr dΩ = r 2 dr |Rl,m,k (r)|2 |Ylm (θ, ϕ)|2 dΩ = 1
0
y puesto que los armónicos esféricos están normalizados entonces la función radial está normalizada por aparte
Z ∞ Z ∞
2
2
r dr |Rl,m,k (r)| = dr |ul,m,k (r)|2 = 1 (12.40)
0 0
en realidad es conveniente aceptar en algunos casos autofunciones que no sean de cuadrado integrable. Esto ocurre
cuando al menos parte del espectro de H es contı́nuo, en cuyo caso requerimos que las funciones de onda sean
ortonormales en el sentido extendido es decir
Z ∞ Z ∞
2 ∗

r dr Rl,k0 (r) Rl,k (r) = dr u∗l,k0 (r) ul,k (r) = δ k − k 0 (12.41)
0 0
siendo k un ı́ndice contı́nuo.

En las Ecs. (12.40, 12.41), los integrandos convergen en su lı́mite inferior r = 0 debido a la condición (12.38).
Esto es fı́sicamente necesario ya que la probabilidad de encontrar a la partı́cula en cualquier volumen de dimen-
sión finita permanece finita (en particular para un volumen que contiene al origen) 4 . Por tanto, es solo debido al
comportamiento de la función de onda en r → ∞ que la integral (12.41) diverge en k = k 0 cuando el espectro es
contı́nuo.
Las Ecs. (12.39) nos dicen que las funciones propias del Hamiltoniano de una partı́cula inmersa en un potencial
central V (r) dependen de por lo menos tres ı́ndices l, m, k (k podrı́a representar varios ı́ndices contı́nuos o discretos).
La función ϕl,m,k (r) en (12.39) es autofunción simultánea de H, L 2 , L3 con autovalores El,k , l (l + 1) ~2 y m~. A
k se le conoce como número cuántico radial, l se denomina número cuántico azimutal y m el número cuántico
magnético. La parte radial Rl,k (r) = ul,k /r de la autofunción ası́ como el autovalor E l,k no dependen del número
cuántico magnético m y están dadas por la ecuación radial (12.33) junto con la condición (12.38). Por otro lado, la
parte angular de la función de onda (armónicos esféricos) depende de l y m pero no de k, dicha parte angular es
independiente de la forma del potencial V (r).
12.6.1. Degeneración de los niveles de energı́a

Consideraremos ahora el problema de la degeneración de los niveles de energı́a. Las 2l+1 funciones ϕ l,m,k (r, θ, ϕ)
con l y k fijos y m variando entre −l y l son autofunciones de H con el mismo valor propio E l,k , dado que estas
2l + 1 funciones corresponden a valores propios diferentes de L 3 serán claramente ortogonales. En consecuencia hay
por lo menos un degeneración de orden 2l + 1 del valor propio E l,k , tal degeneración es independiente de la forma
del potencial y por esta razón se denomina una degeneración esencial. La degeneración esencial se debe al hecho de
que H contiene a L2 pero no a L3 y a que el Hamiltoniano es siempre invariante rotacional (escalar). Puesto que H
contiene a L2 pero no a L3 , se tiene que m no aparece en la ecuación radial que proviene del problema de valores
propios del Hamiltoniano pero sı́ aparece l.
No obstante, es posible que El,k correspondiente a la ecuación radial con operador H l coincida con El0 ,k0 de
otra ecuación radial (l 6= l 0 ). Esto ocurre para ciertos potenciales, y se conoce como degeneraciones accidentales. En
particular, el potencial de Coulomb que describe a los átomos hidrogenoides exhibe degeneraciones accidentales.
4
Nótese que si no se hubiera descartado la posibilidad de que lı́mr→0 Rl,k (r) ∼ 1/r l+1 , hubiésemos tenido comportamiento divergente
en el origen.
12.6. ESTADOS ESTACIONARIOS DE UNA PART ÍCULA EN UN POTENCIAL CENTRAL 301
La ecuación radial (12.33) para un l fijo, al ser una ecuación de segundo orden posee a priori dos soluciones
linealmente independientes. Sin embargo, la condición (12.38) ha surgido de eliminar una de ellas puesto que se
descartó el comportamiento del tipo lı́m r→0 Rl,k (r) = 1/r l+1 . Por tanto solo tenemos una solución linealmente
independiente para cada El,k . Debemos también considerar el comportamiento de las soluciones para r → ∞. Si
V (r) → 0 cuando r → ∞ los valores de El,k para los cuales la solución clásica es acotada ( y que cuánticamente
cumplen la condición 12.38) forman un conjunto discreto, como veremos más adelante para el átomo de Hidrógeno.
Si asumimos que los operadores H, L2 y L3 son observables, la discusión anterior nos muestra que consti-
tuyen un C.S.C.O. ya que para valores fijos de E l,k solo hay una función radial linealmente independiente, y
para l y m fijos la función angular (armónico esférico) es única. Por tanto, para un conjunto dado de autovalores
El,k , l (l + 1) ~2 , m~ existe una única función normalizada (dentro de factores de fase) del tipo ϕ l,m,k (r). El auto-
valor de L2 dictamina la forma especı́fica de la ecuación radial, el autovalor de H nos determina la función radial
Rl,k (r) de forma única y m determina junto con l el armónico esférico (solución angular).
Capı́tulo 13
Átomos hidrogenoides
El problema de mayor interés de la interacción central entre dos cuerpos lo constituyen los átomos Hidrogenoides
consistentes en un núcleo y un electrón. Tal es el caso del átomo de Hidrógeno y sus isótopos el deuterio y el tritio.
Ası́ mismo también son átomos hidrogenoides los iones con un solo electrón como el He + , Li++ etc. Veremos más
adelante que los átomos alcalinos (con un solo electrón en el último nivel de energı́a) se pueden tratar también como
Hidrogenoides si consideramos que los electrones internos actúan como un apantallamiento del núcleo y que el sistema
núcleo-electrones internos actúa como un “núcleo efectivo” para el electrón externo. De momento trabajaremos con
el caso más simple.
13.1. El átomo de Hidrógeno

El átomo de Hidrógeno consiste en un electrón y un protón que interactúan de manera esencialmente elec-
trostática, es decir bajo un potencial de la forma
q2 e2 q2
V (r) = − =− ; ≡ e2
4πε0 r r 4πε0
siendo r la distancia entre el protón y el electrón, q corresponde a la carga electrónica en unidades SI en tanto que e
es el valor en unidades cgs. Numéricamente tenemos los siguientes valores aproximados para la masa m p del protón,
me del electrón y la carga q del protón
mp = 1,7 × 10−27 kg ; me = 0,91 × 10−30 kg ; q = 1,6 × 10−19 Coulombs
puesto que se trata de dos partı́culas sujetas a una interacción central, podemos reducirlo al problema de una
partı́cula relativa de masa µ y donde el vector posición de la partı́cula imaginaria es el vector posición relativo entre
las dos. Usaremos un Hamiltoniano del tipo (12.15)
p2 e2
H (r, p) = −
2µ r
puesto que mp >> me la masa reducida del sistema será prácticamente la masa del electrón

me mp me ∼ me ∼
µ≡ = me = m e 1 − = me
mp + m e 1+ m p
m p
y el centro de masa del sistema está prácticamente en la posición del protón. Por tanto la partı́cula imaginaria
asociada al centro de masa, tiene prácticamente las caracterı́sticas del protón (la masa del protón es casi la masa
total del sistema y el centro de masa está prácticamente en la posición del protón). La partı́cula imaginaria de masa
reducida tiene prácticamente las caracterı́sticas del electrón, ya que la masa reducida del sistema es casi la masa
del electrón y la posición del electrón con respecto al centro de masa es prácticamente su posición con respecto al
protón. Adoptaremos la posición de que el protón está en el centro de masa y que el electrón es la partı́cula relativa.
Con el fin de fijar el valor de ciertos parámetros, usaremos el modelo semi-clásico de Bohr que si bien no es
compatible con nuestros postulados, permitirá definir conceptos y parámetros útiles para el estudio de los espectros
13.2. PROBLEMA DE VALORES PROPIOS DEL ÁTOMO DE HIDRÓGENO 303
atómicos. Dentro de este modelo el electrón viaja en una órbita circular de radio r alrededor del protón, la energı́a
total es la energı́a cinética más la potencial electrostática y obedece la segunda ley de Newton. Adicionalmente, el
momento angular del electrón está cuantizado en unidades de ~, estas suposiciones se condensan en
1 2 v2 e2
E = µv + V (r) ; µ = −∇V (r) ; l = n~ ; V (r) = −
2 r r
1 2 e2 v2 e2
E = µv − ; µ = 2 ; µvr = n~ ; n entero positivo
2 r r r
las órbitas posibles son solo aquellas que cumplen la regla de cuantización del momento angular. Con este postulado
Bohr explicó la existencia de niveles discretos de energı́a. Calculemos los valores cuantizados de E n , rn y vn . Para
ello primero se calcula la energı́a de ionización E I que es la energı́a que se le debe dar al átomo de Hidrógeno en su
estado base para remover su electrón. También se pueden estimar con base en el modelo, el radio del átomo para el
estado base (radio de Bohr a0 ) y la velocidad del electrón v0 en el estado base, tales cantidades dan
µe4 ~2 e2
EI = ; a 0 = ; v 0 = (13.1)
2~2 µe2 ~
con estos parámetros de entrada los valores cuantizados de E n , rn y vn son
1 1
En = − 2
EI ; r n = n 2 a0 ; v n = v0 (13.2)
n n
los valores experimentales de EI y de los niveles de energı́a En estuvieron en concordancia con la teorı́a de Bohr.
Un estimativo de la energı́a de ionización y del radio que caracteriza las dimensiones atómicas es
EI ∼
= 13,6eV , a0 ∼
= 0,52 A
puede verse que el principio de incertidumbre explica la existencia de un estado base estable y permite además la
estimación del orden de magnitud de la energı́a base y de la extensión espacial de su función de onda.
13.2. Problema de valores propios del átomo de Hidrógeno

Dado que el potencial es central, podemos aplicar los resultados del capı́tulo 12. En la representación {|ri} la
ecuación de valores propios del Hamiltoniano es

~2 2 e2
− ∇ − ϕ (r) = Eϕ (r)
2m r
la función propia ϕ (r) admite la forma

1
ϕl,m,k (r) = ul,k (r) Ylm (θ, ϕ)
r
donde ul,k (r) está dado por la ecuación (12.33)
2 2
~ d l (l + 1) ~2 e2
− + − ul,k (r) = El,k ul,k (r) (13.3)
2µ dr 2 2µr 2 r
a la cual le debemos agregar la condición (12.38)
ul,k (0) = 0 (13.4)
El espectro de H posee una parte discreta (energı́as negativas) y una parte contı́nua (energı́as positivas). El espectro
contı́nuo está asociado con el hecho de que para E > 0 la región accesible clásica no está acotada, en este caso
las autofunciones asociadas no serán de cuadrado integrable. En contraste, para E < 0, la naturaleza discreta del
espectro está asociada con el hecho de que la región accesible clásicamente es acotada, en tal caso las funciones
propias son de cuadrado integrable.
304 CAPÍTULO 13. ÁTOMOS HIDROGENOIDES
Es cómodo trabajar de modo que a0 y EI sean las unidades de longitud y energı́a, lo cual se logra introduciendo
los parámetros adimensionales
s
r El,k
ρ= ; λl,k = − (13.5)
a0 EI
Vamos a examinar los estados acotados de energı́a negativa por lo cual el signo negativo dentro del radical es de
hecho necesario. Usando la primera de las Ecs. (13.5) en la ecuación radial (13.3), ésta se escribe como

~2 d2 l (l + 1) ~2 e2
− + − ul,k (ρ) = El,k ul,k (ρ)
2µ d (a0 ρ)2 2µ (a0 ρ)2 a0 ρ

~2 d2 l (l + 1) ~2 1 e2
− + − − El,k ul,k (ρ) = 0
2µa20 dρ2 2µa20 ρ2 a0 ρ
multiplicando la ecuación por −2µa 20 /~2 se obtiene

d2 l (l + 1) 2µa0 e2 2µa20
− + 2 + 2 El,k ul,k (ρ) = 0
dρ2 ρ2 ~ ρ ~
y usando las Ecs. (13.1)

( 2 )
d2 l (l + 1) 2µ ~2 e2 2µ ~2
− + 2 + 2 El,k ul,k (ρ) = 0
dρ2 ρ2 ~ µe2 ρ ~ µe2

d2 l (l + 1) 2 2~2
− + + 4 El,k ul,k (ρ) = 0
dρ2 ρ2 ρ µe
2
d l (l + 1) 2 El,k
− + − − ul,k (ρ) = 0
dρ2 ρ2 ρ EI
finalmente usando la segunda de las Ecs. (13.5) la ecuación radial queda

d2 l (l + 1) 2 2
− + − λ l,k ul,k (ρ) = 0 (13.6)
dρ2 ρ2 ρ
Un análisis asintótico cualitativo del comportamiento de u l,k (ρ) nos permitirá simplificar la forma de la Ec.
(13.6). Cuando ρ → ∞, los términos proporcionales a 1/ρ y 1/ρ 2 se vuelven despreciables y la Ec. (13.6) se
convierte en 2
d 2
− λl,k ul,k (ρ) = 0
dρ2
cuyas soluciones son e±ρλl,k . Sin embargo, más adelante veremos que incluso en este lı́mite no se puede despreciar
completamente a los términos 1/ρ y 1/ρ 2 lo cual nos llevará a soluciones del tipo ρ n e±ρλl,k .
No obstante, este análisis asintótico cualitativo permite encontrar una forma aproximada de la solución esperada
en la ası́ntota. Nótese que la solución e ρλl,k es divergente en ρ → ∞ lo cual nos permite predecir que este tipo de
solución será descartada. Todo lo anterior nos induce a realizar el siguiente cambio de variable
ul,k (ρ) = e−ρλl,k yl,k (ρ) (13.7)
naturalmente este cambio de variable no significa ninguna pérdida de generalidad, ni descarta ningún tipo de
solución. Simplemente, parece simplificar a priori la forma funcional de la solución que de antemano consideramos
como aceptable. Realizando el cambio de variable (13.7) en la Ec. (13.6) nos queda
d2 h −ρλl,k i l (l + 1) 2
e yl,k (ρ) + − + − λl,k e−ρλl,k yl,k (ρ) = 0
2
(13.8)
dρ2 ρ2 ρ
13.3. SOLUCIÓN DE LA ECUACIÓN RADIAL POR SERIES DE POTENCIAS 305
calculamos la derivada

d2 h −ρλl,k i d −ρλl,k −ρλl,k dyl,k (ρ)
e y l,k (ρ) = −λl,k e yl,k (ρ) + e
dρ2 dρ dρ

dyl,k (ρ)
= (−λl,k )2 e−ρλl,k yl,k (ρ) − λl,k e−ρλl,k
dρ
2
−ρλl,k dyl,k (ρ) −ρλl,k d yl,k (ρ)
−λl,k e +e
dρ dρ2

d d2
= e−ρλl,k λ2l,k − 2λl,k + 2 yl,k (ρ)
dρ dρ
reemplazando esta derivada en (13.8) se obtiene

−ρλl,k d d2 l (l + 1) 2
e λ2l,k − 2λl,k + − 2
+ − λl,k yl,k (ρ) = 0
dρ dρ2 ρ2 ρ
simplificando y reorganizando queda finalmente

2
d d 2 l (l + 1)
− 2λl,k + − yl,k (ρ) = 0 (13.9)
dρ2 dρ ρ ρ2
y la condición (13.4) queda

yl,k (0) = 0 (13.10)
13.3. Solución de la ecuación radial por series de potencias

13.3.1. Serie de potencias radial y relaciones de recurrencia
Consideraremos la expansión de yl,k (ρ) en series de potencias
∞
X
yl,k (ρ) = ρs cq ρq (13.11)
q=0
donde por definición c0 es el primer coeficiente no nulo en la expansión
c0 6= 0
La condición (13.10) implica que s es estrictamente positivo. De modo que s es la mı́mima potencia de ρ que aparece
en la expansión (13.11). Calculemos la primera y segunda derivada de la expansión (13.11)
 
∞ ∞
dyl,k (ρ) d X X
= cq ρq+s  = (q + s) cq ρq+s−1 (13.12)
dρ dρ
q=0 q=0
 
2 X∞ X∞
d yl,k (ρ) d  q+s−1 
= (q + s) c q ρ = (q + s) (q + s − 1) cq ρq+s−2 (13.13)
dρ2 dρ q=0 q=0
reemplazando (13.11, 13.12, 13.13) en (13.9) resulta

d2 yl,k (ρ) dyl,k (ρ) 2 l (l + 1)
− 2λl,k + − yl,k (ρ) = 0
dρ2 dρ ρ ρ2
∞
X ∞
X ∞
q+s−2 q+s−1 2 l (l + 1) X
(q + s) (q + s − 1) cq ρ − 2λl,k (q + s) cq ρ + − cq ρq+s = 0
ρ ρ2
q=0 q=0 q=0
∞
X ∞
X ∞
X ∞
X
(q + s) (q + s − 1) cq ρq+s−2 − 2λl,k (q + s) cq ρq+s−1 + 2cq ρq+s−1 − l (l + 1) cq ρq+s−2 = 0
q=0 q=0 q=0 q=0
∞
X ∞
X
[(q + s) (q + s − 1) − l (l + 1)] cq ρq+s−2 + [2 − 2λl,k (q + s)] cq ρq+s−1 = 0
q=0 q=0
escribiendo separadamente el primer término de la primera sumatoria

∞
X
0 = [s (s − 1) − l (l + 1)] c0 ρs−2 + [(q + s) (q + s − 1) − l (l + 1)] cq ρq+s−2
q=1
∞
X
+ [2 − 2λl,k (q + s)] cq ρq+s−1 (13.14)
q=0
para la primera sumatoria hacemos q 0 = q − 1 de modo que

∞
X ∞
X
q+s−2
0
[(q + s) (q + s − 1) − l (l + 1)] cq ρ = q0 + s + 1 q 0 + s − l (l + 1) cq0 +1 ρq +s−1 (13.15)
q=1 q 0 =0
reemplazando (13.15) en (13.14) y teniendo en cuenta que los ı́ndices son mudos resulta
∞
X
0 = [s (s − 1) − l (l + 1)] c0 ρs−2 + [(q + s + 1) (q + s) − l (l + 1)] cq+1 ρq+s−1
q=0
∞
X
+ 2 [1 − λl,k (q + s)] cq ρq+s−1
q=0
∞
X
[s (s − 1) − l (l + 1)] c0 ρs−2 + {[(q + s + 1) (q + s) − l (l + 1)] cq+1 + 2 [1 − λl,k (q + s)] cq } ρq+s−1 = 0
q=0
para que la serie sea cero para todo ρ, es necesario y suficiente que cada coeficiente de la expansión sea cero lo cual
nos conduce a
[s (s − 1) − l (l + 1)] c0 = 0
[(q + s + 1) (q + s) − l (l + 1)] cq+1 + 2 [1 − λl,k (q + s)] cq = 0 ; q = 0, 1, . . . , ∞
que se pueden reescribir como
(s − l − 1) (s + l) c0 = 0 (13.16)
[(q + s + 1) (q + s) − l (l + 1)] cq+1 = 2 [λl,k (q + s) − 1] cq ; q = 0, 1, . . . , ∞ (13.17)
y teniendo en cuenta que c0 6= 0 por definición, la Ec. (13.16) nos dice que s solo puede tomar dos valores
s = l + 1 ó s = −l
pero recordando que s debe ser estrictamente positivo para garantizar un comportamiento aceptable en el origen
(condición 13.10), el único valor aceptable como solución es
s=l+1 (13.18)
Esto es consistente con la discusión de la sección 12.5.2. Reemplazando s = l + 1 en (13.17) se obtiene
[(q + l + 2) (q + l + 1) − l (l + 1)] cq+1 = 2 [λl,k (q + l + 1) − 1] cq ; q = 0, 1, . . . , ∞
haciendo q 0 = q + 1 esta relación se convierte en

0
q + l + 1 q 0 + l − l (l + 1) cq0 = 2 λl,k q 0 + l − 1 cq0 −1 ; q 0 = 1, 2, . . . , ∞
teniendo en cuenta que q 0 es ı́ndice mudo y reorganizando términos se obtiene
q (q + 2l + 1) cq = 2 [(q + l) λl,k − 1] cq−1 ; q = 1, 2, . . . , ∞ (13.19)
la Ec. (13.19) define una relación de recurrencia para los coeficientes de la expansión (13.11). Si fijamos c 0 podemos
calcular todos los demás coeficientes con esta recurrencia. Por otro lado, de la Ec. (13.19) se obtiene
cq 2 [(q + l) λl,k − 1]
= (13.20)
cq−1 q (q + 2l + 1)
que claramente tiende a cero cuando q → 0, por tanto la serie converge para todo ρ (criterio del cociente para
series). Por tanto, hemos determinado para todo λ l,k una solución de (13.9) que satisface la condición (13.10).
13.3.2. Condición asintótica ρ → ∞ y truncamiento de la serie

Ya hemos mirado la condición en el origen pero no en ρ → ∞. Si el término entre paréntesis a la derecha de
(13.19) no es cero para ningún valor entero q, la expansión (13.11) será una verdadera serie ya que la relación de
recurrencia generará infinitos coeficientes c q , para q grande podemos ver de (13.20) que
cq 2qλl,k 2λl,k
lı́m = → (13.21)
q→∞ cq−1 q2 q
ahora la expansión en series de potencias de la función e 2ρλl,k es

∞
2ρλl,k
X (2λl,k )q dq 2λl,k
e = dq ρq ; dq = ⇒ = (13.22)
q! dq−1 q
q=0
comparando (13.21) con (13.22) se puede demostrar que para valores grandes de ρ, la serie se comporta en la forma
e2ρλl,k . De la Ec. (13.7), la función radial u l,k (r) se comporta como
ul,k (ρ) ∼ eρλl,k
la cual no es fı́sicamente aceptable 1 . Por tanto, no es aceptable una solución en serie (cantidad infinita de términos
no nulos). En consecuencia, es necesario que la expansión (13.11) sea truncada y se convierta en una sumatoria
(polinomio). En tal caso la Ec. (13.7) nos dice que el comportamiento asintótico de u l,k (r) es el producto de un
polinomio por una función e−ρλl,k el cual es aceptable.
Definiremos ck como el primer coeficiente nulo de la expansión. Esto equivale a decir que existe un valor
entero positivo k tal que ck−1 6= 0, pero el término entre paréntesis a la derecha de (13.19) es cero para q = k. En
tal caso, la relación de recurrencia (13.19), nos indica que el coeficiente c k será nulo y que los términos subsecuentes
también serán nulos. La expansión (13.11) será un polinomio ya que la relación de recurrencia generará un número
finito de coeficientes cq . Para un valor fijo de l, rotulamos el correspondiente valor de λ l,k con este entero k. Es claro
que k ≥ 1, puesto que c0 6= 0. Igualando a cero el término entre paréntesis a la derecha de (13.19) cuando q = k se
obtiene
1
λl,k = (13.23)
l+k
reemplazando estos valores permitidos de λ l,k en la Ec. (13.5) para la energı́a se obtiene
s
1 El,k
= −
l+k EI
EI
El,k = − ; k = 1, 2, 3, . . . (13.24)
(l + k)2
1
Esta función radial diverge cuando ρ → ∞. Además no es de cuadrado integrable, en tanto que para soluciones de energı́a negativa
(acotadas clásicamente), se esperan funciones de cuadrado integrable. Además, estas funciones ni siquiera son ortonormales en el sentido
extendido.
Tomando en cuenta (13.11, 13.18), y el hecho de que c q = 0 para q ≥ k, la función yl,k (ρ) queda en la forma
k−1
X
l+1
yl,k (ρ) = ρ cq ρq (13.25)
q=0
tenemos entonces que yl,k (ρ) es un polinomio donde la menor potencia es ρ l+1 y la máxima potencia es ρl+k .
13.3.3. Coeficientes del polinomio radial en términos de c0

La relación de recurrencia (13.19) permite encontrar los coeficientes del polinomio a partir de c 0 , reemplazando
(13.23) en (13.19) la relación de recurrencia queda

1 2 (q + l) − 2 (l + k)
q (q + 2l + 1) cq = 2 (q + l) − 1 cq−1 = cq−1
l+k (l + k)
2q + 2l − 2l − 2k
q (q + 2l + 1) cq = cq−1
(l + k)
2 (k − q)
cq = − cq−1 (13.26)
q (q + 2l + 1) (l + k)
demostraremos por inducción que
q
q 2 (k − 1)! (2l + 1)!
cq = (−1) c0 (13.27)
l+k (k − q − 1)! q! (q + 2l + 1)!
primero para q = 1, la relación (13.26) nos dice que 2

2 (k − 1) 2 1
c1 = − c0 = − (k − 1) c0
1 × (1 + 2l + 1) (l + k) l+k 1 × (1 + 2l + 1)
1
2 (k − 1)! (2l + 1)!
c1 = (−1)1 c0
l+k (k − 2)! 1! × (1 + 2l + 1)!
1
2 (k − 1)! (2l + 1)!
c1 = (−1)1 c0 (13.28)
l+k (k − 1 − 1)! 1! (1 + 2l + 1)!
comparando (13.28) con (13.27) vemos que (13.27) se cumple para q = 1. Ahora asumimos que se cumple para q y
demostraremos que se cumple para q + 1. Usando (13.26) con q → q + 1 se obtiene
2 (k − q − 1)
cq+1 = − cq
(q + 1) (q + 2l + 2) (l + k)
(q + 1) (q + 2l + 2) (l + k)
cq = − cq+1 (13.29)
2 (k − q − 1)

q
q2 (k − 1)! (2l + 1)!
cq = (−1) c0
l+k (k − q − 1)! q! (q + 2l + 1)!
q
(q + 1) (q + 2l + 2) (l + k) 2 (k − 1)! (2l + 1)!
− cq+1 = (−1)q c0
2 (k − q − 1) l+k (k − q − 1)! q! (q + 2l + 1)!
q
2 2 (k − 1)! (k − q − 1) (2l + 1)!
cq+1 = (−1) (−1)q c0
(l + k) l + k (k − q − 1)! q! (q + 1) (q + 2l + 1)! (q + 2l + 2)
q+1
q+1 2 (k − 1)! (2l + 1)!
cq+1 = (−1) c0
l+k (k − q − 2)! (q + 1)! (q + 2l + 2)!
q+1
q+1 2 (k − 1)! (2l + 1)!
cq+1 = (−1) c0 (13.30)
l+k [k − (q + 1) − 1]! (q + 1)! [(q + 1) + 2l + 1]!
2
También podemos ver que para q = 0, la Ec. (13.27) conduce a c0 = c0 . Por tanto podemos comenzar la inducción con q = 0.
comparando (13.30) con (13.27) vemos que si la relación (13.27) se cumple para q entonces se cumple para q + 1, lo
cual demuestra la validez de (13.27).
13.3.4. Cálculo de c0 y de la función radial para l = 0, k = 1

Ahora falta evaluar a c0 , lo cual se logra con la ecuación de normalización (12.40). Nótese que la Ec. (13.23)
nos dice que l = k = 0 está prohibido, por tanto calcularemos explı́citamente la función radial más simple que es
ul=0,k=1 (r). Comenzaremos empleando las ecuaciones (13.25) con l = 0, k = 1
k−1
X 0
X
l+1 q 0+1
yl,k (ρ) = ρ cq ρ ⇒ y01 (ρ) = ρ cq ρq = c 0 ρ
q=0 q=0
verifiquemos explı́citamente que c k = c1 = 0. Usando (13.26) para l = 0 y q = k = 1 se obtiene

2 (k − q) 2 (1 − 1)
cq = − cq−1 ⇒ c1 = − c0 = 0
q (q + 2l + 1) (l + k) 1 × [1 + 2 (0) + 1] (0 + 1)
ahora usando (13.7, 13.23) y la relación entre ρ y r Ec. (13.5)
1
u0,1 (ρ) = e−ρλ0,1 y0,1 (ρ) ; λ0,1 = = 1 ⇒ u0,1 (ρ) = c0 ρe−ρ
0+1
c0 −r/a0
u0,1 (r) = re
a0
finalmente usamos la ecuación de normalización (12.40) y elegimos c 0 con fase cero (constante real positiva)
Z ∞ Z ∞ Z
2 2 c20 ∞ 2 −2r/a0
|ul,k (r)| dr = 1 ⇒ |u01 (r)| dr = 1 ⇒ 2 r e dr = 1
0 0 a0 0
Z ∞
1 − 2 r ∞ 1
r 2 e−2r/a0 dr = − a0 e a0 a20 + 2a0 r + 2r 2 = a30 ⇒
0 4 0 4
c20 a30 c20 a0
= 1⇒ =1
4a20 4
(0,1) 2
c0 = √ (13.31)
a0
donde hemos tenido en cuenta que c0 en general depende de los valores de l y k. Finalmente la función radial R l,k (r)
está dada por (12.32), para el caso de l = 0, k = 1 se tiene que
(0,1)
1 1 c0 2 1 −r/a0
R0,1 (r) = u0,1 (r) = re−r/a0 = √ e
r r a0 a 0 a0
2 −r/a0
R0,1 (r) = 3/2
e
a0
13.3.5. Cálculo de c0 y de la función radial para l = 0, k = 2

Calculemos ahora Rl,k (r) con l = 0, k = 2. Usando las Ecs. (13.25) con l = 0, k = 2
k−1
X 1
X
l+1 q 0+1
yl,k (ρ) = ρ cq ρ ⇒ y0,2 (ρ) = ρ cq ρq = ρ (c0 + c1 ρ)
q=0 q=0
usando (13.26) para l = 0, k = 2, q = 1, 2 se obtiene

2 (k − q) 2 (2 − 1) 1
cq = − cq−1 ⇒ c1 = − c0 = − c0 ⇒
q (q + 2l + 1) (l + k) (1 + 1) (0 + 2) 2
2 (2 − 2)
c2 = − c1 = 0
2 (2 + 1) (0 + 2)
verificando una vez más que ck = c2 = 0. Con estos coeficientes y0,2 (ρ) queda

1 1
y0,2 (ρ) = ρ c0 − c0 ρ = c0 ρ 1 − ρ
2 2
y usando (13.7, 13.23, 13.5)

−ρλ02 1 1 1 1
u0,2 (ρ) = e y0,2 (ρ) ; λ0,2 = = ⇒ u0,2 (ρ) = c0 ρ 1 − ρ e− 2 ρ
0+2 2 2

r r − r
u0,2 (r) = c0 1− e 2a0 (13.32)
a0 2a0
ahora debemos calcular el c0 que normaliza a u0,2 (r) de acuerdo con las Ecs. (13.32, 12.40) eligiendo fase cero para
c0
Z ∞ Z ∞ 2
2 2 r r 2 − ar
|u0,2 (r)| dr = 1 ⇒ c0 1− e 0 dr = 1
0 0 a0 2a0
evaluando la integral
Z ∞ 2
r r 2 − ar 1 − a1 r ∞
1− e 0 dr = − 3 e 0 8a0 + 8a0 r + 4a0 r + r = 2a0
4 3 2 2 4
0 a0 2a0 4a0 0
por tanto
(0,2) 1
c20 (2a0 ) = 1 ⇒ c0 =√
2a0
reemplazando en (13.32) queda

1 r r − 2ar 2r r − 2ar
u0,2 (r) = √ 1− e 0 = 1− e 0
2a0 a0 2a0 (2a0 )3/2 2a0

2 r − 2ar
R0,2 (r) = 1− e 0
(2a0 )3/2 2a0
13.3.6. Cálculo de c0 y de la función radial para l = k = 1

Como último ejemplo evaluamos Rl,k (r) para l = k = 1. Usando (13.25) con l = k = 1
k−1
X 0
X
yl,k (ρ) = ρl+1 cq ρq ; y1,1 (ρ) = ρ1+1 cq ρq
q=0 q=0
2
y1,1 (ρ) = c0 ρ
usando (13.7, 13.23, 13.5)
1 1 r2 − r
u1,1 (ρ) = e−ρλ1,1 y1,1 (ρ) ; λ1,1 = = ⇒ u1,1 (r) = c0 2 e 2a0 (13.33)
1+1 2 a0
normalizando u1,1 (r) con las Ecs. (13.33, 12.40) con c 0 positivo
Z ∞ Z ∞
r 4 − ar
|u1,1 (r)|2 dr = 1 ⇒ c20 e 0 dr = 1
0 0 a40
evaluando la integral
Z ∞
r 4 − ar 1 − ar 4 3 2 2 3
∞
4
e 0 dr = − 3 e 0 r + 4r a0 + 12r a0 + 24ra0 + 24a0 = 24a0
0 a40 a0 0
13.4. PARÁMETROS ATÓMICOS 311
con lo cual resulta

(1,1) 1 1 1
c20 (24a0 ) = 1 ⇒ c0 =√ = √
24a0 2 6a0
quedando
1 1 r 2 − 2ar 1 r 2 − 2ar 1 r 2 − 2ar
u1,1 (r) = √ e 0 = √ √ e 0 = √ e 0
2 6a0 a20 2 2 3 a5/2 (2a0 )3/2 3 a0
0
quedando finalmente
1 1 r − 2ar
R1,1 (r) = 3/2
√ e 0
(2a0 ) 3 a0
La Ec. (13.24) nos muestra que en el átomo de Hidrógeno, l y k no definen un nivel de energı́a por separado, es
conveniente introducir un número cuántico de la forma
n≡l+k (13.34)
de modo que n determina unı́vocamente el valor de la energı́a según se observa en (13.24) ya que en tal caso tenemos
EI
En = − ; n = 1, 2, 3, . . .
n2
Puesto que determinar n y l es equivalente a determinar k y l, será más conveniente reemplazar a k por n. En
consecuencia, utilizaremos los números cuánticos n, l, m en lugar de k, l, m de aquı́ en adelante. En virtud de que n
define la energı́a, se denomina el número cuántico principal, de aquı́ en adelante citaremos los números cuánticos
usando primero el número cuántico principal, luego el número cuántico azimutal y finalmente el número cuántico
magnético i.e. n, l, m.
13.4. Parámetros atómicos

Las fórmulas para la función de onda han sido escritas tomando a a 0 (radio de Bohr) como unidad de longitud
que nos dará una idea de la extensión espacial de las funciones de onda de los estados acotados del átomo de
Hidrógeno. Similarmente, la energı́a de ionización E I se utilizará para obtener el orden de magnitud de los niveles
de energı́a. Las ecuaciones (13.1) se pueden reescribir como
2
µe4 µe4 c2 1 e2 2 ~2 ~2 c ~c ~
EI = 2 = 2 2 = µc ; a0 = 2 = 2 = 2
2~ 2~ c 2 ~c µe µe c e µc
que se pueden reescribir como
1 1 e2 q2 ~
EI = α2 µc2 , a0 = λel ; α ≡ = ; λel ≡ (13.35)
2 α ~c 4πε0 ~c µc
la constante adimensional α se conoce como constante de estructura fina. Por otro lado puesto que µ ' m e se tiene
que λel es aproximadamente la longitud de onda de compton del electrón. Numéricamente
1 ~
α' ; λel ' ' 3,8 × 10−3 A
137 me c
la segunda de las Ecs. (13.35) nos dice que el radio de Bohr (radio atómico tı́pico) es unas dos órdenes de magnitud
mayor que la longitud de onda de Compton del electrón. La primera de las Ecs. (13.35) se escribe numéricamente
como

1 2 2 1 1 2
EI ' α me c ' me c2 ⇒ EI ' 2. 7 × 10−5 me c2
2 2 137
me c2 ' 0,5 × 106 eV
de modo que la energı́a de enlace tı́pica de un átomo es unas 10 −5 veces menor que la energı́a en reposo del
electrón me c2 .
EI << me c2
esta relación es indispensable para poder justificar una aproximación no relativista al problema. Los efectos rela-
tivistas son pequeños pero observables. Debido a que los efectos relativistas son pequeños pueden calcularse a través
de la teorı́a de perturbaciones.
13.5. Resumen de resultados

Para el átomo de Hidrógeno, que es un problema de dos cuerpos (un protón y un electrón) reducimos el problema
al de una partı́cula equivalente de masa aproximadamente igual a la masa m e del electrón (masa reducida µ del
sistema) y en donde el centro de masa está aproximadamente en la posición del protón. Es conveniente expresar los
resultados en términos del radio de Bohr a 0 y la energı́a de ionización EI los cuales en términos de las constantes
fı́sicas universales vienen dados por

µe4 1 2 2 ~2 1 ~ 1
EI = 2
= α µc ; a 0 = 2
= ' λel (13.36)
2~ 2 µe α µc α
e 2 q 2 ~
α ≡ = ; λel ≡ (13.37)
~c 4πε0 ~c me c
Siendo α la constante de estructura fina y λ el la longitud de onda de Compton del electrón. Teniendo en cuenta la
Ec. (13.34)
n≡l+k
enunciaremos los resultados en términos de los números cuánticos n, l, m. Un estado será rotulado usando el orden
|n, l, mi, es decir usando primero el número cuántico principal n, luego el número cuántico azimutal l y finalmente
el número cuántico magnético m.
La función de onda asociada es de la forma
un,l (r)
ϕn,l,m (r, θ, ϕ) = Rn,l (r) Ylm (θ, ϕ) = Ylm (θ, ϕ) (13.38)
r r
−ρλn r En 1 eimϕ
un,l (ρ) = e yn,l (ρ) ; ρ ≡ ; λn ≡ − = ; Ylm (θ, ϕ) = Zl,m (θ) √ (13.39)
a0 EI n 2
y los valores de energı́a son

EI
En = − ; n = 1, 2, 3, . . . (13.40)
n2
siendo Ylm (θ, ϕ) los armónicos esféricos. La solución de la función radial y n,l (ρ) es un polinomio dado por
n−l−1
X
l+1
yn,l (ρ) = ρ cq ρq (13.41)
q=0
donde los coeficientes cq se pueden encontrar a partir de c0 , con la siguiente fórmula de recurrencia
2 (n − l − q)
cq = − cq−1 (13.42)
q (q + 2l + 1) n
q
q 2 (n − l − 1)! (2l + 1)!
cq = (−1) c0 (13.43)
n (n − l − q − 1)! q! (q + 2l + 1)!
finalmente la constante c0 (que en general depende de los valores de n y l) se determina como constante de normal-
ización para la función radial un,l (r)
Z ∞
|un,l (r)|2 dr = 1 (13.44)
0
a manera de ejemplo escribimos explı́citamente algunas funciones radiales

−3/2 −r/a0 −3/2 r − 2ar
Rn=1,l=0 (r) = 2 (a0 ) e ; R2,0 (r) = 2 (2a0 ) 1− e 0 (13.45)
2a0
1 r − 2ar
R2,1 (r) = (2a0 )−3/2 √ e 0 (13.46)
3 a0
13.6. DISCUSIÓN DE LOS RESULTADOS 313
13.6. Discusión de los resultados

La Ec. (13.40) nos da el espectro de energı́as del átomo de Hidrógeno
EI
El,k = − ; k = 1, 2, 3, ... (13.47)
(l + k)2
y nos muestra que para un l fijo existen infinitos valores de energı́a asociados a k = 1, 2, 3, .... Adicionalmente,
para cada par l, k la energı́a posee al menos una degeneración de orden 2l + 1 debido a los diferentes valores de
m asociados a l fijo, esta degeneración debida a la ausencia del número cuántico m en la ecuación radial, se denomina
degeneración esencial puesto que es propia de cualquier interacción central. No obstante, también están presentes
degeneraciones accidentales propias de la interacción especı́fica, ya que la Ec. (13.47) nos dice que dos autovalores
El,k y El0 ,k0 asociados a ecuaciones radiales distintas (l 6= l 0 ) serán iguales si l 0 + k 0 = l + k.
Usando ahora los números cuánticos n, l, m, la Ec. (13.47) queda
EI
En = − (13.48)
n2
utilizando la terminologı́a espectroscópica un valor de n especifica una capa o nivel electrónico.
Puesto que k es un entero positivo, hay un número finito de valores de l asociados a un valor dado de n. De la
definición de n Ec. (13.34) y los valores permitidos de k (1, 2, 3, ...) es claro que
l = 0, 1, 2, ..., n − 1 ; n = 1, 2, 3, ...
Cada combinación especı́fica n, l se denomina una subcapa o subnivel electrónico. Puesto que hay n valores de l
para un n dado se dice que cada capa o nivel n contiene n subcapas o subniveles. Ahora bien, puesto que L 2 , L3 y
H forman un C.S.C.O. se tiene que un estado está definido unı́vocamente por una tripla (n, l, m). En consecuencia,
cada subnivel (n, l) contiene 2l + 1 estados diferentes asociados a los diferentes valores de m para l fijo.
Dado que n especifica unı́vocamente a la energı́a y (n, l, m) especifica completamente al estado, la degeneración
de la energı́a para un n dado es el número total de valores de l, m para dicho valor de n
n−1 n−1
!
X X 2n (n − 1)
gn = (2l + 1) = 2 l +n= +n
2
l=0 l=0
2
gn = n
veremos más adelante que la presencia del momento angular intrı́nseco del electrón nos duplica este valor. Si tenemos
en cuenta adicionalmente el espı́n del protón, tendrı́amos un factor de dos adicional.
Usando una vez más la notación espectroscópica, los valores de l se denotan con una letra del alfabeto en la
siguiente forma
l=0↔s , l=1↔p , l=2↔d , l=3↔f , l=4↔g
la notación espectroscópica rotula un subnivel por el número n seguido por la letra que caracteriza al valor de l.
Por ejemplo, para el nivel base n = 1 (que no es degenerado según la Ec. (13.48) y que se conoce como “nivel K”)
solo l = 0 es posible, de modo que solo tiene el subnivel 1s. El primer estado excitado n = 2 (conocido como “nivel
L”) permite l = 0, 1 de modo que contiene los subniveles 2s y 2p. El segundo estado excitado (“nivel M ”) posee los
subniveles 3s, 3p, 3d.
Hemos visto que un estado se especifica con los números cuánticos n, l, m. Donde n, l especifica la dependencia
radial y l, m la dependencia angular. Veamos ahora las caracterı́sticas de la dependencia angular.
13.6.1. Dependencia angular

Si bien la función de onda
eimϕ
ϕ (r, θ, ϕ) = Rn,l (r) Ylm (θ, ϕ) = Rn,l (r) Zl,m (θ) √
2
depende de ambos ángulos, puesto que la mayorı́a de observables dependen del módulo al cuadrado de la función
de onda, debemos calcular la dependencia angular de |Y lm (θ, ϕ)|2 este módulo nos da

imϕ 2
e 1
|Ylm (θ, ϕ)| = Zl,m (θ) √ = |Zl,m (θ)|2
2
2 2
vemos entonces que este módulo al cuadrado tiene simetrı́a azimutal. Por tanto se obtiene una superficie de rev-
olución alrededor del eje Z de cuantización. |Y 00 |2 es constante y por tanto esféricamente simétrico. |Y 1m (θ, ϕ)|2 es
2
proporcional a cos2 θ; |Y2m (θ, ϕ)|2 es proporcional a 3 cos2 θ − 1 etc.
La función radial Rn,l (r) caracteriza a cada subnivel y se puede calcular con los resultados de la sección 13.5
introduciendo nuestro cambio de notación de R l,m,k (r) a Rn,l,m (r) .
El comportamiento de Rn,l (r) en la vencindad del origen es del tipo r l , de modo que solo los estados que
pertenecen a un subnivel s (l = 0) tienen una densidad de probabilidad diferente de cero en el origen. A medida
que l aumenta, es mayor la región alrededor del protón para la cual la probabilidad de encontrar el electrón es
despreciable, es de esperarse que esto aumente el valor esperado del radio atómico 3 . Esto tiene consecuencias en
procesos fı́sicos tales como la captura de electrones por núcleos y la estructura hiperfina de las lı́neas espectrales.
Vale la pena recordar que el concepto de subnivel aparece en el modelo semiclásico de Sommerfeld que asigna
a cada valor de n (número cuántico de Bohr) un número n de órbitas elı́pticas de la misma energı́a y diferente
momento angular. La órbita asociada al máximo momento angular para un n dado es circular. Puesto que el modelo
semiclásico de Sommerfeld fué exitoso para predecir la degeneración de los niveles de energı́a, es lógico pensar que
el modelo de Bohr se reproduce para los estados con l = n − 1 (máximo valor del momento angular para n dado).
En particular vamos a mostrar que para l = n − 1 se obtiene la segunda expresión (13.2) para los radios de Bohr.
La probabilidad de encontrar al electrón en un volumen dV que en coordenadas esféricas se caracteriza por
dV = r 2 dr sin θ dθ dϕ = r 2 dr dΩ
estará dada por
dPn,l,m (r, θ, ϕ) = |ϕn,l,m (r, θ, ϕ)|2 r 2 dr dΩ = |Rn,l (r)|2 r 2 dr × |Yl,m (θ, ϕ)|2 dΩ
si queremos encontrar la probabilidad de encontrar al electrón entre r y r + dr dentro de un cierto ángulo sólido
tenemos que esta probabilidad está dada por
Z Z θ2
1 ϕ2
dPn,l,m (r) = |Rn,l (r)|2 r 2 dr × dϕ |Zl,m (θ)|2 sin θ dθ
2 ϕ1 θ1
Z
ϕ 2 − ϕ 1 θ2
dPn,l,m (r) = Ml,m |Rn,l (r)|2 r 2 dr ; Ml,m ≡ |Zl,m (θ)|2 sin θ dθ (13.49)
2 θ1
donde [ϕ1 , ϕ2 ] y [θ1 , θ2 ] definen el intervalo de los ángulos que generan el ángulo sólido dentro del cual se quiere
evaluar la probabilidad.
Ahora evaluaremos esta probabilidad para l = n − 1. Aplicando l = n − 1 en (13.41)
0
X
yn,n−1 (ρ) = ρ(n−1)+1 cq ρq = c 0 ρn
q=0
Con esto y usando la tercera de las Ecs. (13.39) se calcula la función radial
1
un,n−1 (ρ) = e−ρλn,n−1 c0 ρn ; λn =
n
n
ρ − r r
un,n−1 (ρ) = c0 e− n ρn = c0 e a0 n
a0
n
−a nr 1 r c0 − a r n a0 r n
Rn,n−1 (r) = c0 e 0 = e 0
r a0 a0 r a0
n−1
c0 r − r
Rn,n−1 (r) = e a0 n (13.50)
a0 a0
3
Esto se asemeja al comportamiento clásico en el cual el aumento de la magnitud del momento angular produce un aumento en el
radio promedio de una órbita cerrada.
13.6. DISCUSIÓN DE LOS RESULTADOS 315
n→∞ E=0 E=0 E=0 E=0

n=4 4s 4p 4d 4f
n=3 3s 3p 3d
n=2 2s 2p
n = 1 (E = EI ) 1s
l = 0 (s) l = 1 (p) l = 2 (d) l = 3 (f )
Cuadro 13.1: Niveles de energı́a (negativos) para estados acotados del átomo de hidrógeno. Los niveles sobre una fila
poseen la misma energı́a (mismo número cuántico principal n). En n = 1 la energı́a corresponde en valor absoluto a
la energı́a de ionización, y para n muy grande la energı́a tiende a cero por la izquierda. A medida que se incrementa
n disminuye la brecha entre los valores de energı́a permitidos.
nivel 1s ϕ1,0,0 (r) = √1 3 e−r/a0

πa0
nivel 2s ϕ2,0,0 (r) = √ 3 1 − 2ar 0 e−r/2a0
1
8πa0
ϕ2,1,1 (r) = − √1 r −r/2a0
e sin θ eiϕ
8 πa30 a0
nivel 2p ϕ2,1,0 (r) = √1 3 ar0 e−r/2a0 cos θ
4 2πa0
ϕ2,1,−1 (r) = √1 3 ar0 e−r/2a0 sin θ e−iϕ
8 πa0
Cuadro 13.2: Funciones de onda asociadas al estado base ( n = 1) y al primer estado excitado ( n = 2).
finalmente la probabilidad se obtiene de (13.49) y (13.50)

Z θ2
2 2 ϕ2 − ϕ 1
dPn,n−1,m (r) = Mn−1,m |Rn,n−1 (r)| r dr ; Mn−1,m ≡ |Zn−1,m (θ)|2 sin θ dθ
2 θ1
" n−1 #2 " n−1 #2 2
c0 r − a rn 2 r − a rn r
dPn,n−1,m (r) = Mn−1,m e 0 r dr = c20 Mn−1,m e 0 dr
a0 a0 a0 a0
2n−2 2
− a2rn r r
dPn,n−1,m (r) = c20 Mn−1,m e 0 dr
a0 a0
la densidad de probabilidad radial para l = n − 1 es

2n
dPn,n−1,m (r) r − a2rn
ρn,n−1 (r) ≡ = c20 Mn−1,m e 0
dr a0
esta densidad de probabilidad tiene un máximo en
r = r n = n 2 a0
que es el radio de Bohr para una órbita de energı́a E n .

La tabla 13.1, ilustra los niveles de energı́a y la degeneración de algunos estados. La tabla 13.2 muestra las
expresiones de la función de onda para los primeros niveles de energı́a.
Capı́tulo 14
Corrientes de probabilidad en átomos

hidrogenoides, acoples con campos
magnéticos
14.1. Corrientes de probabilidad para las soluciones estacionarias del átomo

de Hidrógeno
Siguiendo los resultados de la sección 3.3.5, expresamos la función de onda estacionaria en forma polar
ϕ (r) = α (r) eiξ(r) ; α (r) ≥ 0, 0 ≤ ξ (r) < 2π (14.1)
de modo que la densidad de probabilidad ρ (r) y la densidad de corriente de probabilidad J (r) están dadas por la
Ecs. (3.32, 3.33)
~
ρ (r) = α2 (r) ; J (r) = α2 (r) ∇ξ (r) (14.2)
µ
Teniendo en cuenta la estructura de las soluciones estacionarias Ecs. (13.38, 13.39) el módulo α (r) y la fase ξ (r)
para las soluciones hidrogenoides estacionarias están dadas por
1
αn.l,m (r) = |Rn,l (r)| |Ylm (θ, ϕ)| = √ |Rn,l (r)| |Zlm (θ)| ; ξ (r) = mϕ (14.3)
2
es importante tener en cuenta que µ denota la masa y m denota el autovalor m~ de L 3 . Aplicando las Ecs. (14.2)
y usando la expresión para el gradiente en coordenadas esféricas tenemos que:

~ 2 ~ ∂ 1 ∂ 1 ∂
Jn,l,m (r) = α (r) ∇ξ (r) = ρn,l,m (r) ur + uθ + uϕ (mϕ)
µ µ ∂r r ∂θ r sin θ ∂ϕ
~ m
Jn,l,m (r) = ρn,l,m (r) uϕ (14.4)
µ r sin θ
donde uϕ es el vector unitario ortogonal al plano formado por r y u 3 en el sentido en el cual se incrementa el ángulo
azimutal ϕ. La Ec. (14.4) nos dice que el sentido de rotación de la corriente está dictaminado por el signo de m
y de sin θ ya que las demás cantidades son todas positivas. La Ec. (14.4) nos dice que la corriente en cada punto
M definida por el vector posición r, es perpendicular al plano definido por r y u 3 . El fluı́do de probabilidad rota
alrededor del eje X3 . Puesto que |J| no es proporcional a r sin θ ρ (r) el sistema no rota como un todo. Es decir, la
velocidad angular de la corriente es diferente en cada punto. Si queremos ver la estructura de la corriente asociada
a un estado estacionario para un plano perpendicular a u 3 (es decir para θ fijo) vemos que si sin θ > 0, tenemos
rotación del fluı́do de probabilidad alrededor de u 3 en el sentido antihorario (horario) si m > 0, (m < 0). Si m = 0
no hay corriente de probabilidad en ningún punto del espacio.
Tomemos un elemento de volumen d3 r situado en el punto r, su contribución al momento angular con respecto
al origen (en el centro del núcleo) es:
dL = µr × Jn,l,m (r) d3 r
14.1. CORRIENTES DE PROBABILIDAD PARA LAS SOLUCIONES ESTACIONARIAS DEL ÁTOMO DE HIDRÓ
el momento angular total se obtiene por integración. Por simetrı́a todas las componentes en X 1 y X2 se anulan y
solo sobrevive la componente sobre X 3 la cual vendrá dada por
Z Z Z
ρn,l,m (r) ρn,l,m (r)
L3 = µ d3 r u3 · [r × Jn,l,m (r)] = m~ d3 r u3 · [r × uϕ ] = m~ d3 r uϕ · [u3 × r]
r sin θ r sin θ
Z Z Z
3 ρn,l,m (r)
= m~ d r uϕ · [r sin θ uϕ ] = m~ d r ρn,l,m (r) = m~ d3 r |ψ (r)|2
3
r sin θ
L3 = m~
donde hemos usado la Ec. (14.4), la identidad a·(b × c) = c·(a × b), y la Ec. (3.25) para la densidad de probabilidad.
De lo anterior se concluye que el autovalor m~ de L 3 puede interpretarse como el momento angular clásico asociado
al movimiento rotacional del fluı́do de probabilidad.
14.1.1. Efecto sobre la corriente debido a la introducción de un campo magnético

Asumamos ahora que al átomo de Hidrógeno se le aplica un campo magnético constante B. Tal campo puede
ser descrito por el siguiente potencial vectorial
1
A (r) = − r × B (14.5)
2
estudiaremos la corriente de probabilidad asociada al estado base. Por simplicidad asumiremos que el campo
magnético no modifica al estado base. Puesto que el Hamiltoniano H depende de B, esto no es del todo cor-
recto, pero puede demostrarse que para B = Bu 3 en el gauge descrito por la Ec. (14.5), las funciones ϕ n,l,m (r) son
auto funciones de H dentro de términos de segundo orden en B, los cuales son despreciables para campos tı́picos de
laboratorio. Aplicaremos entonces la expresión de la densidad de corriente para una partı́cula inmersa en un campo
electromagnético descrita por las Ecs. (5.49, 5.50) donde hacemos φ (R, t) = 0, aplicaremos además las Ecs. (14.1,
14.2)

1 ∗ ~ 1 −iξ(r) ~ iξ(r)
Jn,l,m = Re ϕn,l,m (r) ∇ − qA (r) ϕn,l,m (r) = Re α (r) e ∇ − qA (r) α (r) e
µ i µ i
h i
1 −iξ(r) ~ iξ(r) −iξ(r) iξ(r)
= Re α (r) e ∇ α (r) e − qα (r) e A (r) α (r) e
µ i

1 −iξ(r) iξ(r) ~ 2 −iξ(r) ~ iξ(r) 2
= Re α (r) e e ∇α (r) + α (r) e ∇e − qα (r) A (r)
µ i i

1 ~ i~
= Re α (r) ∇α (r) + α2 (r) e−iξ(r) eiξ(r) ∇ξ (r) − qα2 (r) A (r)
µ i i
1 α2 (r)
= Re −i~α (r) ∇α (r) + ~α2 (r) ∇ξ (r) − qα2 (r) A (r) = {~ ∇ξ (r) − qA (r)}
µ µ
ρn,l,m
Jn,l,m = [~ ∇ξn,l,m (r) − qA (r)] (14.6)
µ
sustituyendo (14.5) en la Ec. (14.6) con B = Bu 3 , el estado base tendrá una corriente dada por

ρ1,0,0 qB ρ1,0,0 ∂ (mϕ) 1 ∂ (mϕ) 1 ∂ (mϕ)
J1,0,0 = ~ ∇ξ1,0,0 (r) + r × u3 = ~ ur + uθ + uϕ
µ 2 µ ∂r r ∂θ r sin θ ∂ϕ m=0

qB
+ r × u3
2

~ [m]m=0 qB ρ1,0,0 qB
= ρ1,0,0 +r× u3 = − u3 × r
µ 2µ 2 µ
ρ1,0,0 qB
J1,0,0 = (~ωc × r) ; ω ~c ≡ − u3 (14.7)
2 µ
donde hemos usado la Ec. (14.3). El vector ω ~ c es la frecuencia de ciclotrón. La velocidad equivalente del fluı́do
está dada por J1,0,0 = ρ1,0,0 v1,0,0 con lo cual la velocidad equivalente nos da
ω
~c
v1,0,0 = ×r≡ω
~f × r (14.8)
2
318CAPÍTULO 14. CORRIENTES DE PROBABILIDAD EN ÁTOMOS HIDROGENOIDES, ACOPLES CON CAMP
La Ec. (14.7) nos muestra que la corriente de probabilidad en el estado base no es cero en presencia de un campo
magnético, es claro que esta corriente se anula al hacer B = 0. Las Ecs. (14.7, 14.8) nos muestran que el fluı́do de
probabilidad, gira como un todo1 alrededor de B (o de u3 ) con un frecuencia angular2 ω ~f = ω ~ c /2. Fı́sicamente,
este resultado se debe a la presencia del campo eléctrico E (r) transiente que se induce cuando se “enciende” el
campo magnético. Bajo la influencia de este campo eléctrico transitorio el electrón permanece aproximadamente en
su estado base y comienza a rotar alrededor del protón, con una velocidad angular que depende solo del valor de B
y no de la forma precisa en que se enciende el campo magnético. Por supuesto, una vez que la corriente se genera (y
desaparece el campo eléctrico transitorio), el campo magnético permanente puede sostenerla via fuerza de Lorentz,
ya que la carga ahora está en movimiento.
Es importante mencionar que si usamos un gauge diferente al dado por la Ec. (14.5) las funciones de onda serı́an
diferentes, y en la Ec. (14.6) existirı́an otras contribuciones a primer orden en B. Sin embargo, en cualquier gauge se
debe reproducir la Ec. (14.7) a primer orden en B, puesto que los resultados fı́sicos no pueden depender del gauge.
La Ec. (14.7), también se puede escribir en términos de los parámetros atómicos usando la función de onda
explı́cita del estado base del átomo de Hidrógeno que aparace en la tabla 13.2 página 315

|ϕ1,0,0 |2 e−2r/a0 qB qB e−2r/a0
J1,0,0 = (~ωc × r) = − u 3 × r = − (r sin θ uϕ )
2 2πa30 µ µ 2πa30
qBe−2r/a0
J1,0,0 = − r sin θ uϕ (14.9)
2πµa30
aquı́ vemos además que la densidad de corriente es proporcional a ρ (r) r sin θ, lo cual nos ratifica que el fluı́do de
probabilidad gira como un todo.
14.2. Átomo de hidrógeno en un campo magnético uniforme: paramagnetismo,

diamagnetismo y efecto Zeeman
Estudiaremos ahora los efectos que surgen cuando el átomo de hidrógeno está inmerso en un campo magnético.
Para los campos magnéticos tı́picos de laboratorio, el gradiente de dichos campos es tal que B no varı́a apreciable-
mente en distancias comparables a la escala atómica. Por tanto, para muchos casos tomar este campo como uniforme
será una buena aproximación, y ası́ lo haremos de aquı́ en adelante. Estudiaremos entonces el espectro de un electrón
sujeto a la interacción eléctrica interna debida al núcleo y a un campo magnético externo. Si bien la solución exacta
de la ecuación de Schrödinger es muy compleja en este caso, ésta será soluble bajo ciertas aproximaciones.
Una aproximación importante es la de ignorar los efectos debidos a la masa finita del núcleo, esta aproximación
está justificada dado que el protón es mucho más pesado que el electrón. Es importante observar que bajo la
influencia de un campo magnético no es rigurosamente posible reducir el problema de dos cuerpos acoplados al
problema de dos cuerpos desacoplados uno en el centro de masa con la masa del sistema y otro con la masa reducida
del sistema y la dinámica del vector relativo. Por tanto, al tener en cuenta los efectos de masa finita del núcleo no
es suficiente con reemplazar la masa del electrón por la masa reducida del sistema.
Usaremos además el hecho de que para campos magnéticos tı́picos de laboratorio el corrimiento del espec-
tro atómico debido al campo magnético externo es mucho menor al causado por el campo eléctrico interno. Los
corrimientos de los niveles atómicos son mucho menores que las separaciones entre niveles del átomo libre.
El estudio de los efectos de introducir un campo magnético nos permitirá comprender como surge el paramag-
netismo y el diamagnetismo en la mecánica cuántica
14.2.1. Hamiltoniano del sistema

Consideremos un electrón sin espı́n de masa m e y carga q sujeto a un potencial central V (r) y a un potencial
vectorial magnético A (r). Su Hamiltoniano es
1
H= [P − qA (R)]2 + V (R) (14.10)
2me
1
Es claro de las Ecs. (14.7, 14.8), que la velocidad angular ω~ f del fluı́do no depende de la posición en este caso.
2
La frecuencia de ciclotrón es la que tendrı́a un electrón clásico que solo estuviera bajo la interacción con el campo magnético. El
hecho de que la corriente de la nube electrónica tenga la mitad de este valor, se debe al efecto adicional del campo eléctrico generado por
el núcleo.
14.2. ÁTOMO DE HIDRÓGENO EN UN CAMPO MAGNÉTICO UNIFORME: PARAMAGNETISMO, DIAMAGNE
si el campo magnético B es uniforme, el potencial vectorial se puede escribir como

1
A (r) = − r × B (14.11)
2
para introducir esta cantidad en el Hamiltoniano (14.10) calcularemos el siguiente factor
h q i2 q2 q
[P − qA (R)]2 = P − R × B = P2 + (R × B)2 + [P · (R × B) + (R × B) · P] (14.12)
2 4 2
ahora bien, B es un vector constante y no un operador, por tanto conmuta con todos los operadores. Adicionalmente,
tenemos que
P · (R × B) = Pi εijk Rj Bk ; (R × B) · P = εijk Rj Bk Pi ; (R × P)i = εijk Rj Pk
suma sobre ı́ndices repetidos. Los únicos términos no nulos de esta sumatoria corresponden a aquellos en donde
todos los ı́ndices son diferentes, por tanto R j conmuta con Pi para los términos no nulos, de modo que
P · (R × B) = (R × B) · P ; R × P = −R × P
En consecuencia, a las expresiones anteriores se les puede aplicar las identidades vectoriales usuales. Utilizando
a · (b × c) = c · (a × b)
(a × b) · (c × d) = (a · c) (b · d) − (a · d) (b · c)
en la Ec. (14.12) queda

q2 q
[P − qA (R)]2 = P2 + (R × B) · (R × B) + [2P · (R × B)]
4 2
q 2
= P2 + [(R · R) (B · B) − (R · B) (B · R)] + q [B · (P × R)]
4
q 2 h i
[P − qA (R)]2 = P2 + R2 B2 − (R · B)2 − qB · (R × P) (14.13)
4
Ahora bien, la proyección r⊥ de un vector arbitrario r sobre un plano perpendicular a B se escribe
r2 B2 cos2 θ
|r⊥ | = |r| sin θ ⇒ r2⊥ = r2 sin2 θ = r2 1 − cos2 θ = r2 − ⇒
B2
(r · B)2
r2⊥ = r2 −
B2
donde θ es el ángulo entre r y B. Con base en esto definimos el operador vectorial R ⊥ como la proyección de R
sobre un plano perpendicular a B
(R · B)2
R2⊥ ≡ R2 − (14.14)
B2
en particular si B = Bu3 tenemos que
R2⊥ = X12 + X22
reemplazando (14.14) en (14.13) y recordando que R × P es el momento angular orbital cuántico, tenemos
q2 B 2 2
[P − qA (R)]2 = P2 + R⊥ − qL · B (14.15)
4
reemplazando (14.15) en el Hamiltoniano (14.10) tenemos

1 2 q2 B 2 2
H = P + R⊥ − qL · B + V (R)
2me 4
P2 µB q2 B 2 2
H ≡ H 0 + H1 + H2 ; H0 ≡ + V (R) , H1 ≡ − [L · B] , H2 ≡ R (14.16)
2me ~ 8me ⊥
q~ (R · B)2
µB ≡ ; R2⊥ ≡ R2 − (14.17)
2me B2
donde H0 es el Hamiltoniano “no perturbado” asociado al átomo de Hidrógeno libre. Nótese que cuando B 6= 0
el momento mecánico ya no es P sino [P − qA (R)], por tanto la energı́a cinética será [P − qA (R)] 2 /2me . Aún
más, el término P2 /2me depende del gauge escogido. Puede demostrarse que en el gauge definido por la Ec. (14.11)
~ R es el momento mecánico de la partı́cula con respecto a
P2 /2me es la energı́a cinética “relativa” Π 2R /2me donde Π
un sistema rotante de Larmor que rota alrededor de B con velocidad angular ω L = −qB/2me . Ası́ mismo, se puede
demostrar que el término H2 corresponde a la energı́a cinética Π 2E /2me relativa a la velocidad de arrastre de este
~R ·Π
marco de referencia, en tanto que el término H 1 está asociado al término cruzado Π ~ E /me .
14.2.2. Estimación numérica de las contribuciones H0 , H1 y H2

Haremos un estimativo numérico de las diferencias de energı́a ∆E (y las frecuencias correspondientes ∆E/h),
asociadas a cada Hamiltoniano. Hemos visto que las diferencias de energı́a ∆E 0 asociadas a H0 (átomo de Hidrógeno
libre) son del orden de magnitud de la energı́a de ionización E I como se aprecia en la Ec. (13.40). Utilizando las
Ecs. (13.36) se tiene que
2 2
me 4 me ~
∆E0 ' EI = 2 e = 2
2~ 2~ me a0
~2 ∆E0
∆E0 ' 2 ; ' 1014 Hz
2me a0 h
ahora usando las Ecs. (14.16) para H 1 y teniendo en cuenta que los momentos angulares son del orden de la constante
de Planck, se obtiene
∆E1 µB [~B] B q~ B qB 1 qB
' = µB = = =
h ~ h h 2me h 4πme 2π 2me
∆E1 ωL qB
' ; ωL ≡
h 2π 2me
donde hemos tenido en cuenta (14.17). La cantidad ω L se refiere a la velocidad angular de Larmor. Podemos ver
que ωL /2π es la mitad de la frecuencia de ciclotrón. Para campos tı́picos de laboratorio asumiremos B . 10 5 gauss,
∆E1 ωL
' . 1011 Hz ⇒
h 2π
∆E1 < < ∆E0
ahora evaluaremos el orden de magnitud de ∆E 2 asociado a H2 . Los elementos matriciales del operador R 2⊥ =
X12 + X22 son de dimensiones atómicas y por tanto del orden de magnitud de a 0 (radio de Bohr). Por tanto, de la
Ec. (14.16) se obtiene
q2 B 2 2 ∆E2 q 2 B 2 2 2π q 2 B 2 2 2π 2me
∆E2 ' a0 ⇒ ' a0 = a ⇒
8me ∆E1 8me hωL 8me 0 h qB
∆E2 πqBa20
'
∆E1 2h
por otro lado
∆E1 h qB 2me a0 qBa20 2πqBa20
' = =
∆E0 2π 2me ~2 ~ h
vemos que
∆E2 ∆E1
∼
∆E1 ∆E0
de modo que las diferencias de energı́a presentan una clara jerarquı́a
∆E2 << ∆E1 << ∆E0
los efectos del campo magnético son en la práctica mucho menores que los del campo eléctrico interno, además
será en general suficiente tener en cuenta solo el término H 1 y el término H2 solo se tendrá en cuenta cuando H1 se
anule.
Aunque el término H1 es más importante, analizaremos primero el término H 2 ya que esto permitirá justificar
algunas aproximaciones que se usan cuando solo se considera H 1
14.2. ÁTOMO DE HIDRÓGENO EN UN CAMPO MAGNÉTICO UNIFORME: PARAMAGNETISMO, DIAMAGNE
14.2.3. Término diamagnético

Hemos dicho que solo consideraremos el efecto de H 2 cuando se anule el efecto de H1 . Tal es el caso cuando
tenemos un estado de momento angular cero en el átomo de Hidrógeno. En la sección 14.1.1 vimos que la presencia de
un campo magnético uniforme modifica la corriente de probabilidad asociada al electrón. Esta corriente tiene simetrı́a
axial con respecto al eje B. La corriente gira como un todo alrededor de B en la dirección horaria (antihoraria)
cuando q > 0 (q < 0). La corriente eléctrica que se genera tiene asociado un momento magnético hM 2 i que como
veremos es antiparalelo a B y por tanto está asociado a una energı́a de acople positiva que explica el origen del
término H2 .
Para ver esto recurrimos a calcular clásicamente el momento magnético M 2 asociado a una carga q en movimiento
circular de radio r. Si la velocidad de la carga es v su movimiento equivale a una corriente de la forma
v
i=q
2πr
la superficie definida por el circuito es S = πr 2 de modo que el momento magnético está dado por
qrv
|M| = |i × S| = (14.18)
2
ahora bien el momento angular λ̃ viene dado por
~λ = r × me v = r × (P − qA (r)) = L
~ − qr × A (r)
~ es el momento angular canónico. Puesto que la velocidad es tangencial, la magnitud de ~λ está dada por
donde L

~
|λ| = L − qr × A (r) = me rv
podemos escribir la Ec. (14.18) en la forma

~ = q q h~ i
M λ̃ = L − qr × A (r) (14.19)
2me 2me
puesto que estamos estudiando el caso L = 0, usando el gauge (14.11) el momento magnético queda 3
2 2 2
~ 2 = − q r × A (r) = q r × (r × B) = q
M (r · B) r − r2 B
2me 4me 4me
vemos que M ~ 2 es proporcional a B. Por otro lado, si bien M ~ 2 no es colineal con B, es fácil ver que en el estado
base del átomo de hidrógeno (en el cual L ~ = 0), el valor esperado de M2 (donde M2 es la cuantización de M ~ 2 ) es
~
antiparalelo a B. En consecuencia, M2 representa el momento magnético inducido por B en el átomo . Su energı́a4
de acople con B viene dada por

Z B 2

W2 = − M~ 2 B0 · dB0 = − 1 M ~ 2 (B) · B = − 1 q (r · B) r − r2 B · B
0 2 2 4me
" #
q 2 h i q 2 B 2 (r · B) 2
W2 = r2 B2 − (r · B)2 = r2 −
8me 8me B2
y usando la Ec. (14.17) tenemos

q2 2 2
W2 =
r B
8me ⊥
cuya cuantización conduce al Hamiltoniano H 2 descrito en la Ec. (14.16). Vemos entonces que H 2 describe el acople
entre el campo B y el momento magnético M ~ 2 inducido por B en el átomo. Puesto que de acuerdo con la ley de
Lenz el momento inducido se opone al campo aplicado 5 , la energı́a de acople es positiva. H 2 se denomina el término
diamagnético del Hamiltoniano.
3
Debe tenerse en cuenta que cuando m = 0, el momento angular que se anula es el canónico y no el mecánico. Esto tiene que ver con
el hecho de que es el momento angular canónico el que se cuantiza.
4
Vale recordar que la modificación de la corriente (con respecto a la que se genera para el átomo libre) se forma gracias al campo
eléctrico transiente que se induce cuando se conecta el campo magnético. Además, en el estado base no hay corriente ni momento dipolar
magnético permanente.
5
En realidad se opone al cambio de flujo, pero cuando el campo se conecta aumenta desde cero hacia B de modo que el aumento de
flujo va en la dirección del campo.
14.2.4. Término paramagnético

Asumiremos ahora que L ~ 6= 0 de modo que el Hamiltoniano H1 es el dominante (con respecto a H2 ). La relación
(14.19) nos indica la relación general entre el momento angular canónico λ y el momento magnético M. ~ Por otro
~ ~
lado, hemos demostrado que la contribución de H 2 sobre M está dada por la Ec. (14.19) con L = 0. Por tanto para
L~ 6= 0 tal ecuación se puede escribir como
q ~ 2
~ =M
M ~ 1 +M
~2 ; ~1≡
M L , ~ 2 ≡ − q r × A (r)
M
2me 2me
pero el análisis numérico indica que para el átomo de hidrógeno, la contribución del Hamiltoniano H 1 domina sobre
la contribución de H2 siempre que la primera sea no nula (i.e. L ~ 6= 0). Por lo tanto, si L
~ 6= 0 podemos aproximar el
momento magnético en la forma
~ 'M
M ~1= q L ~ (14.20)
2me
de modo que L ~ es prácticamente paralelo a M~ y ambos son perpendiculares al plano de la órbita clásica. La energı́a
de acople con B está dada por
W1 = − M ~1·B (14.21)
Al cuantizar las relaciones (14.20, 14.21) se obtiene
q q
M1 = L ; H1 = −M1 · B = − L·B (14.22)
2me 2me
que coincide con la Ec. (14.16), de modo que el Hamiltoniano H 1 corresponde al acople entre el campo magnético
B y el momento magnético atómico permanente puesto que M 1 es independiente de B, es decir M1 existe aunque
no exista campo magnético. En consecuencia, M 1 se genera a través de la corriente asociada al átomo de Hidrógeno
libre (ver sección 14.1).
De acuerdo con la Ec. (14.22), los autovalores del operador M 1 vienen dados por

q
m~ ≡ mµB
2me
de modo que µB es el “cuanto fundamental” de momento magnético como lo es ~ del momento angular. Es este
hecho lo que le da relevancia al magnetón de Bohr µ B . Más adelante veremos que además del momento angular
orbital L, el electrón posee un momento angular intrı́nseco o espı́n S, que también posee un momento magnético
asociado MS proporcional a S en la forma
µB
MS = 2 S
~
de hecho la necesidad de introducir este momento magnético adicional para explicar la estructura fina del átomo de
Hidrógeno, es una de las evidencias experimentales de la existencia del espı́n del electrón (ver sección 15.4.2).
Finalmente, es importante mencionar que el dominio de los efectos paramagnéticos sobre los diamagnéticos
(cuando los primeros son no nulos) se debe al pequeño tamaño del radio atómico, que a su vez genera una superficie
y un flujo muy pequeños. Por ejemplo, para un electrón libre sometido a un campo magnético, las contribuciones
paramagnética y diamagnética tienen la misma importancia relativa.
14.3. Efecto Zeeman

Hemos visto los nuevos términos que aparecen en el Hamiltoniano del átomo de Hidrógeno cuando se introduce
un campo magnético uniforme. A continuación veremos como estos nuevos términos modifican el espectro del átomo
de Hidrógeno. En particular, examinaremos la forma en que se modifica la emisión de la lı́nea óptica conocida como
o
la “lı́nea de resonancia” (λ ' 1200A) con la inclusión del campo magnético. Veremos que no solo se cambia la
frecuencia sino también la polarización de las lı́neas atómicas. Esto se conoce como efecto Zeeman.
Sin embargo, es necesario aclarar que para predecir el espectro real es necesario incluı́r el momento angular
intrı́nseco o espı́n del electrón (e incluso del protón) del cual surge la estructura fina e hiperfina del espectro y
modifica sustancialmente las componentes de la lı́nea de resonancia. A esto se le conoce usualmente como efecto
Zeeman anómalo. No obstante, la discusión que realizaremos aquı́ será válida cualitativamente.
14.3. EFECTO ZEEMAN 323
14.3.1. Corrimiento de los niveles atómicos con la corrección paramagnética

Estudiaremos la transición entre el estado base y el estado más bajo con momento angular no nulo es decir
entre los niveles 1s (n = 1, l = m = 0) y 2p (n = 2, l = 1, m = 1, 0, −1) 6 . Esta transición corresponde a la lı́nea
de resonancia del átomo de hidrógeno. Aunque el momento angular en el estado base es cero, no lo es en el estado
2p, por tanto despreciaremos la respuesta diamagnética cuando se coloca un campo magnético B, incluyendo solo
las correcciones de H1 . Si denotamos |ϕn,l,m i los estados comunes de H0 , L2 y L3 , se puede ver de inmediato que si
B = Bu3 entonces |ϕn,l,m i también es autoestado del Hamiltoniano perturbado H 0 + H1

µB µB
(H0 + H1 ) |ϕn,l,m i = H0 −
L · B |ϕn,l,m i = H0 − BL3 |ϕn,l,m i
~ ~
(H0 + H1 ) |ϕn,l,m i = (En − mµB B) |ϕn,l,m i
por tanto si ignoramos el término diamagnético, los |ϕ n,l,m i son aún estados estacionarios de H 0 + H1 , solo se
modifican los valores de energı́a. Calculemos el espectro de los estados involucrados en la lı́nea de resonancia
(H0 + H1 ) |ϕ1,0,0 i = E1 |ϕ1,0,0 i = −EI |ϕ1,0,0 i ; (H0 + H1 ) |ϕ2,1,m i = (E2 − mµB B) |ϕ2,1,m i

EI
(H0 + H1 ) |ϕ1,0,0 i = − − mµB B |ϕ2,1,m i
4
el nivel de energı́a 2p en presencia de B suele escribirse en la forma

B EI 3 q~ 3EI qB
E2p = − − mµB B = −EI + EI − m B = −EI + ~ + m~ −
4 4 2me 4~ 2me
B 3EI E2 − E 1
E2p = −EI + ~ (Ω + mωL ) ; Ω ≡ =
4~ ~
donde Ω es claramente la frecuencia de la lı́nea de resonancia en ausencia de B. En tanto que en presencia de B tal
frecuencia de resonancia es (Ω + mωL ).
14.3.2. Oscilaciones dipolares eléctricas

El momento dipolar eléctrico cuantizado del átomo está dado por
D = qR
para calcular el valor esperado hDi calculamos los elementos matriciales de B. Bajo paridad el operador D se
transforma a −D (ya que bajo paridad R → −R y q → q). El momento dipolar es por tanto un operador impar.
Adicionalmente los estados ϕn,l,m (r) tiene paridad bien definida en la base |ri, esto se debe a que los armónicos
esféricos tiene paridad definida teniendo paridad +1 (−1) para l par (impar). En particular se tiene que

hϕ1,0,0 | D |ϕ1,0,0 i = ϕ2,1,m0 D |ϕ2,1,m i = 0 ; ∀m, m0 (14.23)
los elementos de matriz no nulos asociados a la lı́nea de resonancia son entonces no-diagonales. Para calcular los
elementos de matrix hϕ2,1,m | D |ϕ1,0,0 i = q hϕ2,1,m | R |ϕ1,0,0 i escribiremos a x1 , x2 , x3 en términos de armónicos
esféricos
r
2π
x1 = r sin θ cos ϕ = r [Y1,−1 (θ, ϕ) − Y1,1, (θ, ϕ)] (14.24)
3
r
2π
x2 = r sin θ sin ϕ = ir [Y1,−1 (θ, ϕ) + Y1,1 (θ, ϕ)] (14.25)
3
r
4π
x3 = r cos θ = r Y1,0 (θ, ϕ) (14.26)
3
6
La transición más baja corresponde al paso de 1s a 2s pero en este caso la respuesta diamagnética es dominante ya que el momento
angular en cero en ambos estados.
el cálculo de los elementos matriciales involucra una integral radial y una angular, en virtud de la separabilidad de
las funciones de onda estacionarias. La integral radial la definimos como una cantidad χ
Z ∞
χ≡ R2,1 (r) R1,0 (r) r 3 dr (14.27)
0
la parte angular consiste en productos escalares de armónicos esféricos que se pueden calcular fácilmente debido a
sus propiedades de ortogonalidad. Por ejemplo, calculemos el elemento matricial hϕ 2,1,1 | Dx1 |ϕ1,0,0 i en la base {|ri},
para lo cual aplicamos la Ec. (5.3)
Z
hϕ2,1,1 | Dx1 |ϕ1,0,0 i = q hϕ2,1,1 | X1 |ϕ1,0,0 i = q ϕ∗2,1,1 (r) x1 ϕ1,0,0 (r) d3 r
Z ( r )
∗
2π
= q R2,1 (r) Y1,1 (θ, ϕ) r [Y1,−1 (θ, ϕ) − Y1,1, (θ, ϕ)] [R1,0 (r) Y0,0 (θ, ϕ)] r 2 dr dΩ
3
r Z Z
∞
2π 3 ∗
= q R2,1 (r) R1,0 (r) r dr dΩ Y1,1 (θ, ϕ) [Y1,−1 (θ, ϕ) − Y1,1, (θ, ϕ)] Y0,0 (θ, ϕ)
3 0
r Z
2π ∗ ∗
1
= q χ dΩ Y1,1 (θ, ϕ) Y1,−1 (θ, ϕ) − Y1,1 (θ, ϕ) Y1,1, (θ, ϕ) √
3 4π
q
= √ χ {δ1,1 δ1,−1 − δ1,1 δ1,1 }
6
q
hϕ2,1,1 | Dx1 |ϕ1,0,0 i = −√ χ
6
donde hemos usado las Ecs. (14.24, 14.27) y la ortonormalidad de los armónicos esféricos. Procediendo de manera
similar con los otros elementos matriciales se obtiene
qχ
hϕ2,1,1 | Dx1 |ϕ1,0,0 i = − hϕ2,1,−1 | Dx1 |ϕ1,0,0 i = − √ ; hϕ2,1,0 | Dx1 |ϕ1,0,0 i = 0 (14.28)
6
iqχ
hϕ2,1,1 | Dx2 |ϕ1,0,0 i = hϕ2,1,−1 | Dx2 |ϕ1,0,0 i = √ ; hϕ2,1,0 | Dx2 |ϕ1,0,0 i = 0 (14.29)
6
qχ
hϕ2,1,1 | Dx3 |ϕ1,0,0 i = hϕ2,1,−1 | Dx3 |ϕ1,0,0 i = 0 ; hϕ2,1,0 | Dx3 |ϕ1,0,0 i = √ (14.30)
3
se concluye que si el sistema está en un estado estacionario, la cantidad hDi es cero ya que los elementos diagonales
se anulan. Supondremos entonces que el sistema está inicialmente en una superposición del estado base 1s y uno de
los estados 2p.
ψ (0) = cos α |ϕ1,0,0 i + sin α |ϕ2,1,m i
donde m asume uno de sus valores permitidos 1, 0, −1. Consideraremos a α como un parámetro real, aplicando la
evolución temporal de un sistema conservativo calculamos la evolución temporal de este estado
|ψm (t)i = eiEI t/~

cos α |ϕ1,0,0 i + ei[EI −~(Ω+mωL )] t/~ sin α |ϕ2,1,m i
n o
= eiEI t/~
cos α |ϕ1,0,0 i + e−i(Ω+mωL ) t sin α |ϕ2,1,m i
|ψm (t)i = cos α |ϕ1,0,0 i + e−i(Ω+mωL ) t sin α |ϕ2,1,m i (14.31)
donde hemos omitido la fase global irrelevante en el último paso. Calcularemos hDi cuando el sistema está en el
estado |ψm (t)i en el tiempo t. Usando las Ecs. (14.23, 14.28, 14.29, 14.30, 14.31), obtendremos el valor esperado de
14.3. EFECTO ZEEMAN 325
D para los casos m = 1, 0, −1. Para m = 1 obtenemos

h i h i
hψm=1 (t)| Dx1 |ψm=1 (t)i = cos α hϕ1,0,0 | + ei(Ω+ωL ) t sin α hϕ2,1,1 | Dx1 cos α |ϕ1,0,0 i + e−i(Ω+ωL ) t sin α |ϕ2,1,1 i
= cos2 α hϕ1,0,0 | Dx1 |ϕ1,0,0 i + e−i(Ω+ωL ) t cos α sin α hϕ1,0,0 | Dx1 |ϕ2,1,1 i
+ei(Ω+ωL ) t sin α cos α hϕ2,1,1 | Dx1 |ϕ1,0,0 i + sin2 α hϕ2,1,1 | Dx1 |ϕ2,1,1 i
qχ qχ
= − √ e−i(Ω+ωL ) t sin 2α − √ ei(Ω+ωL ) t sin 2α
2 6 2 6
" #
qχ e −i(Ω+ω L ) t + ei(Ω+ωL ) t
= − √ sin 2α
6 2
qχ
hψm=1 (t)| Dx1 |ψm=1 (t)i = − √ sin 2α cos [(Ω + ωL ) t]
6
y se procede de manera similar com m = 0, −1. Los resultados son:
qχ qχ
hDx1 im=1 = − √ sin 2α cos [(Ω + ωL ) t] ; hDx2 im=1 = − √ sin 2α sin [(Ω + ωL ) t] ; hDx3 i1 = 0 (14.32)
6 6
qχ
hDx1 im=0 = hDx2 im=0 = 0 ; hDx3 im=0 = √ sin 2α cos Ωt (14.33)
3
qχ qχ
hDx1 im=−1 = √ sin 2α cos [(Ω − ωL ) t] ; hDx2 im=−1 = − √ sin 2α sin [(Ω − ωL ) t] ; hDx3 im=−1 (14.34)
=0
6 6
estas ecuaciones muestran que: (a) El vector hDi m=1 (t) rota en el plano X1 X2 alrededor de X3 , en dirección
antihoraria con velocidad angular Ω + ω L .(b) El vector hDim=0 (t) oscila a lo largo de X3 con frecuencia angular Ω.
(c) El vector hDim=−1 (t) rota en el plano X1 X2 alrededor de X3 pero en dirección horaria con velocidad angular
Ω − ωL .
14.3.3. Frecuencia y polarización de la radiación emitida

En los tres casos m = 1, 0, −1; el valor medio del dipolo eléctrico es una función oscilante del tiempo. Por lo
tanto, dicho dipolo debe radiar.
Puesto que las dimensiones atómicas son mucho menores que la longitud de onda óptica, la radiación de los
átomos a grandes distancias se puede tratar como la de un dipolo puntual. Asumiremos que la radiación emitida o
absorbida por el átomo durante la transición entre el estado |ϕ 2,1,m i y el estado base, se puede predecir correctamente
utilizando la teorı́a clásica de la radiación. Un tratamiento riguroso del problema requiere la cuantización del campo
electromagnético (electrodinámica cuántica), que predice el comportamiento de los fotones y la forma en que estos se
emiten en la radiación. Sin embargo, los resultados obtenidos por el método semi-clásico que abordaremos (en donde
la materia se trata cuánticamente y la radiación se trata clásicamente), predicen la distribución de la radiación en
muy buena aproximación.
Supondremos que tenemos una muestra que contiene un gran número de átomos de hidrógeno y que los excitamos
de alguna manera7 al estado 2p. En la mayorı́a de experimentos la excitación de los átomos es isotrópica y los tres
estados |ϕ2,1,m i ocurren con la misma probabilidad. En primer lugar, estudiaremos la distribución angular de la
radiación y de la polarización para cada m fijo, y posteriormente se superponen los resultados para encontrar el
espectro que se observa.
Cuando m = 1, la frecuencia angular de la radiación emitida es Ω + ω L según la Ec. (14.32). De modo que el
campo magnético corre ligeramente la frecuencia de la lı́nea óptica (recordemos que Ω es la frecuencia de la lı́nea
óptica en ausencia de B). De acuerdo con la teorı́a electromagnética clásica, un dipolo rotante como hDi 1 (t) emite
radiación en la dirección u3 con polarización circular de helicidad positiva σ + . Por otro lado, la radiación emitida
en el plano X1 X2 está linealmente polarizada (paralela a este plano) en otras direcciones la polarización es elı́ptica.
Para m = 0, el dipolo oscila linealmente en la dirección u 3 . Las Ecs. (14.33) muestran que la frecuencia angular
es Ω, es decir igual a la asociada a la ausencia de B, esto se debe a que el corrimiento de la frecuencia debida al
campo es proporcional a m. En este caso la electrodinámica clásica predice que su polariación es lineal en todas las
7
Por ejemplo, haciendo incidir un haz de luz muy monocromática cuyos fotones tengan una energı́a igual a la necesaria para realizar
la transición 1s → 2p.
direcciones. En particular, para una dirección de propagación sobre el plano X 1 X2 , esta polarización es paralela a
u3 (polarización π). Además no se emite radiación en la dirección u 3 , ya que un dipolo que oscila linealmente no
radı́a en la dirección de su eje de oscilación.
En el caso m = −1, las Ecs. (14.34) muestra que la frecuencia angular de la radiación emitida es Ω − ω L . La
dsitribución angular de la radiación es similar al caso m = 1. Sin embargo, puesto que el dipolo hDi m=−1 gira en la
dirección opuesta a hDim=1 , la polarización elı́ptica y circular tiene helicidad opuesta a la correspondiente a m = 1.
Si ahora asumimos que hay un número igual de átomos con m = 1, 0, −1, tenemos que se emiten tres frecuencias
bien definidas en todas direcciones (Ω+mω L con m = 1, 0, −1). La polarización asociada a m = 0 es lineal y la de las
otras dos es en general elı́ptica. Nótese que en la dirección de propagación perpendicular a B las tres polarizaciones
son lineales, la de m = 0 está polarizada en la dirección de B y las otras dos en dirección perpendicular a B. Las Ecs.
(14.32, 14.33, 14.34) nos muestran además que la intensidad de la lı́nea central m = 0 es dos veces la de cada una de
las lı́neas corridas. En la dirección paralela a B solo hay radiación debida a m = ±1 con frecuencias (Ω ± ω L ) /2π,
ambas asociadas a polarización circular pero de helicidad opuesta σ ± .
Hemos visto que un campo magnético constante remueve parcialmente la degeneración asociada a la energı́a de
un átomo de hidrógeno, ya que la energı́a ahora depende de los números cuánticos n y m. Es este efecto el que le
da el nombre de número cuántico magnético al valor propio de L 3 (y de cualquier momento angular J3 ).
Capı́tulo 15
Momento angular intrı́nseco
15.1. Comportamiento clásico de átomos paramagnéticos inmersos en un

campo magnético
Asumamos que el átomo bajo estudio es neutro de modo que no está sujeto a la fuerza de Lorentz cuando se
le aplica un campo magnético B. Para una gran cantidad de átomos neutros inmersos en un campo magnético B,
es posible demostrar que el momento dipolar magnético electrónico (primer término en la expansión multipolar
magnética de la distribución) es proporcional al momento angular electrónico para un nivel atómico dado 1
~ = γL
M (15.1)
la constante de proporcionalidad se denomina factor giromagnético del nivel bajo consideración. La fuerza resultante
F sobre el átomo neutro se puede obtener de una energı́a potencial W

W = −M ~ ·B ; F=∇ M ~ ·B
El torque asociado (tomando el origen en la posición del centro del átomo) es
~ ×B
~τ = M
y puesto que el teorema del momento angular nos dice que
dL
= ~τ
dt
se tiene que
dL ~ × B = γL × B
=M
dt
esto nos muestra que L es perpendicular a su razón de cambio y adicionalmente, la razón de cambio es perpendicular
al campo magnético B. Si B es constante en el tiempo en el punto donde se evalúa, esto indica que L no cambia de
magnitud y precesa alrededor del eje definido por el campo magnético, el ángulo θ entre B y L permanece constante
y la velocidad angular de precesión es ω = γ |B|. Ahora bien, puesto que M ~ es paralelo a L y sus magnitudes están
relacionadas por una constante, concluı́mos que también M ~ conserva su magnitud y precesa con el mismo ángulo
θ y la misma velocidad angular ω alrededor de B.
Si definimos al eje X3 a lo largo de B, para calcular la fuerza F podremos en buena aproximación despreciar en
W los términos proporcionales a M1 y M2 tomando a M3 como constante. Esto se debe a la tendencia natural de
los átomos a alinear su momento magnético con el campo magnético, si bien existen componentes “laterales” M 1 y
M2 estas tienden a cancelarse cuando se toma un promedio temporal que comprenda muchos periodos de precesión
y dado que las frecuencias de precesión son tan altas, solo estos promedios temporales de M 1 y M2 juegan un
papel en W y estos promedios son cero, ya que todas las direcciones ocurren en la precesión con igual magnitud.
1
Antes del advenimiento de la teorı́a cuántica, la espectroscopı́a permitı́a distinguir entre diferentes estados de un átomo.
328 CAPÍTULO 15. MOMENTO ANGULAR INTRÍNSECO
Adicionalmente, cuando se tiene en cuenta el efecto sobre muchas partı́culas, la cancelación estadı́stica funciona aún
mejor. La fuerza será entonces aproximadamente
F = ∇ (M3 B3 ) = M3 ∇B3
nótese que la fuerza resultante serı́a cero si el campo es uniforme independientemente de su intensidad. Por tanto,
una fuerza significativa requiere un alto gradiente del campo. Si asumimos por simplicidad que B 3 solo varı́a a lo
largo de X3 , es decir si ∂B3 /∂x1 = ∂B3 /∂x2 = 0 la fuerza sobre el átomo será paralela al eje X 3 y proporcional
a M3 . Si asumimos que tenemos una gran cantidad de átomos, se espera que los momentos magnéticos de éstos
estén orientados aleatoriamente antes de la aplicación del campo, pues tales orientaciones estarán dictaminadas por
fluctuaciones térmicas que son de naturaleza aleatoria 2 . Por tanto, antes de la aplicación del campo todos los valores
de M3 entre − |M| y |M| están presentes, en otras palabras, el ángulo θ entre B y M ~ puede tomar cualquier valor
entre 0 y π.
15.2. Experimento de Stern-Gerlach
Figura 15.1: (a) En el experimento de Stern-Gerlach, los átomos de plata que se emiten a alta temperatura del horno
E son colimados en F para luego ser deflectados por el gradiente de campo magnético creado por el electroimán A.
Finalmente, el átomo es registrado en el punto N de la pantalla P. (b) Vista frontal del electroimán. El haz incide
sobre el eje X2 .
Stern y Gerlach realizaron un experimento en 1922 para estudiar la deflexión de un haz de átomos neutros
paramagnéticos en un campo magnético de alto gradiente.
El montaje se muestra en la Fig. 15.1a. En un horno E se colocan átomos neutros de plata (que son param-
agnéticos) y se calientan a alta temperatura, luego se dejan escapar por un pequeño agujero y se propagan en lı́nea
recta en el alto vacı́o del montaje. El agujero colimador permite solo el paso de átomos en cierta dirección que
elegimos como eje X2 . El haz colimado en esta forma entra entonces a un electroimán A para ser deflectado antes
de impactar la pantalla P .
2
Esto implica despreciar posibles correlaciones entre los diferentes momentos magnéticos de los átomos.
15.3. RESULTADOS DEL EXPERIMENTO Y EL MOMENTO ANGULAR INTR ÍNSECO 329
De acuerdo con la teorı́a clásica, si queremos producir una deflexión apreciable, el electroimán debe producir un
campo B de alto gradiente. Una forma de lograrlo es a través de un imán configurado como se ilustra en la Fig.
15.1b. El campo magnético generado tiene un plano de simetrı́a (el plano X 2 X3 ) que contiene la dirección inicial del
haz colimado. Si despreciamos efectos de borde el campo magnético no tiene componente en la dirección X 2 , por
tanto el efecto sobre el haz es el mismo en cualquier punto sobre el eje X 2 dentro del electroimán. La componente
más grande de B es en la dirección de X 3 , además la variación del campo a lo largo de X 3 es muy fuerte, esto
ocurre gracias a la configuración angulosa del polo norte que produce una gran acumulación de lı́neas de campo
en la vecindad del ángulo, en tanto que en el polo sur la densidad de lı́neas es mucho menor. Puesto que el campo
magnético es solenoidal (∇ · B = 0), este debe adquirir una componente en la dirección X 1 que varı́a con la distancia
x1 al plano de simetrı́a X2 X3 .
La simetrı́a del electroimán muestra claramente que ∂B 3 /∂x2 = 0 ya que el campo magnético no depende de
x2 . Además ∂B3 /∂x1 = 0 en todos los puntos del plano de simetrı́a X 2 X3 .
En virtud de que el experimento reúne todas las condiciones descritas en la sección 15.1, concluı́mos que la
deflexión HN de un átomo que golpea la pantalla es proporcional a M 3 y por tanto a L3 . En consecuencia,
medir HN es equivalente a medir M3 ó L3 . Puesto que los momentos magnéticos de los átomos de plata estaban
distribuı́dos isotrópicamente antes de entrar en el electroimán, los valores de M 3 toman todos los valores posibles
(para una gran cantidad de átomos) entre − |M| y |M|. Por tanto, esperamos que se forme sobre la pantalla un
patrón contı́nuo simétrico con respecto a H, sobre la pantalla P . En otras palabras, se espera que haya impactos
sobre todos los puntos en el intervalo N 1 , N2 de manera mas o menos uniforme, donde N 1 (cota máxima) corresponde
al caso en que M3 toma el valor máximo M3 = |M| y N2 corresponde al caso en el cual M3 toma el valor mı́nimo
M3 = − |M|. Desde el punto de vista experimental efectos tales como la dispersión de las velocidades y el tamaño
finito del colimador ocasionarán que átomos con el mismo valor de M 3 no golpeen en el mismo punto, sino en
una vecindad de un punto que corresponde a la velocidad promedio de una partı́cula que pasa por el centro del
colimador. Por tanto el resultado clásico predice una distribución como la lı́nea punteada de la Fig. 15.2, que va un
poco más allá de N1 y N2 por aspectos experimentales.
15.3. Resultados del experimento y el momento angular intrı́nseco

En el experimento no se observó una distribución homogénea a lo largo de [N 1 , N2 ] como predecı́a el modelo
clásico. Lo que se observó fueron dos manchas bien definidas centradas en N 1 y N2 simétricas con respecto a H,
como lo muestran las lı́neas contı́nuas de la Fig. 15.2. Puesto que el ancho de estas manchas era mucho menor que el
ancho de N1 y N2 ; esto hacı́a sospechar que la deflexión estaba “cuantizada” en dos haces bien definidos. Este hecho
se puede confirmar disminuyendo el tamaño del colimador y/o disminuyendo la dispersión de velocidades del haz
(con un filtro de velocidades colocado antes del electroimán). Si la cuantización existe, lo anterior debe disminuir el
ancho de las manchas alrededor de N1 y N2 . La formación de dos zonas de impacto “cuantizadas” está en franca
contradicción con la teorı́a clásica.
Podrı́a pensarse por ejemplo que esta cuantización proviene de la cuantización del momento angular clásico (que
a su vez conducirı́a a la cuantización de M si asumimos que se mantiene la relación 15.1) hay varias razones para
rechazar este hipótesis como veremos a continuación.
En primer lugar, mostraremos que bajo las condiciones de este experimento no es necesario tratar los grados de
libertad de posición y momento cuánticamente. Para esto debemos verificar que para describir el movimiento de los
átomos de plata, es posible construı́r paquetes de onda cuyo ancho ∆x 3 y cuya dispersión ∆p3 sean completamente
despreciables con respecto a la escala de longitudes y momentos que se manejan en el experimento. Estos anchos
deben cumplir el principio de incertidumbre
∆x3 ∆p3 & ~
la masa M de un átomo de plata es de 1,8 × 10 −25 kg. Los anchos ∆x3 y ∆v3 = ∆p3 /M deben ser tales que
~
∆x3 ∆v3 & ' 10−9 M.K.S.A. (15.2)
M
ahora veamos cuales son las longitudes y velocidades tı́picas en el experimento. El ancho del colimador F es de
unos 10−4 m, la separación entre N1 y N2 entre las manchas es de varios milı́metros. La distancia sobre la cual
Figura 15.2: La lı́nea contı́nua nos muestra las dos manchas bien localizadas alrededor de los puntos N 1 y N2 , que
se obtuvieron en el experimento de Stern-Gerlach. La lı́nea punteada nos muestra la predicción clásica.
el campo magnético varı́a apreciablemente se puede deducir de los valores del campo en medio del electroimán
(B ' 104 gauss) y su gradiente (∂B/∂x3 ' 105 gauss/cm), que nos da
B
' 10−3 mt
∂B/∂x3
ahora la velocidad de un átomo de plata que abandona el horno a una temperatura de 10 3 K es del orden de 500m/s.
Para haces bien colimados, la dispersión de las velocidades a lo largo de X 3 no es mucho menor a varios metros por
segundo. De lo anterior, es posible encontrar valores de ∆x 3 y ∆v3 que satisfagan la relación (15.2) que proviene
de la relación de incertidumbre, y que al mismo tiempo sean mucho menores que todas las escalas de longitud y
velocidad del experimento. Por tanto, los observables r y p se pueden tratar como clásicos y podemos pensar en
paquetes casi puntuales que se mueven sobre trayectorias clásicas. La cuantización de estos observables (o de otros
que dependan de éstos como el momento angular) darı́a una enorme cantidad de valores propios que simuları́an un
contı́nuo, esto estarı́a muy lejos de explicar una cuantización tan drástica en tan solo dos estados.
Una segunda razón es que los momentos angulares orbitales cuánticos l (l + 1) ~ 2 solo pueden tener valores de l
enteros. Esto implica que el número de proyecciones posibles a lo largo de X 3 para un l dado, es siempre un número
impar (2l + 1). Lo anterior entrarı́a en conflicto con la idea de tener un número par de “auto resultados” que en
este caso son dos.
Si asumimos que la deflexión aún se da por el acople del campo con un momento angular (es decir que aún hay
un momento angular que cumpla la Ec. 15.1) este momento angular debe tener solo dos proyecciones posibles a lo
largo de X3 , es decir
2j + 1 = 2
15.4. EVIDENCIA EXPERIMENTAL DEL MOMENTO ANGULAR INTR ÍNSECO DEL ELECTRÓN 331
lo cual nos lleva a j = 1/2. De esto se concluye que si el observable asociado a la deflexión observada es aún un
momento angular, no puede ser un momento angular orbital, ya que para éstos los valores semienteros están excluı́dos
por razones de periodicidad. El observable asociado no proviene entonces de la cuantización de un momento angular
clásico y se conoce como momento angular intrı́nseco o espı́n.
15.4. Evidencia experimental del momento angular intrı́nseco del electrón

Existen numerosas evidencias experimentales de la existencia del espı́n en los electrones. En particular, las
propiedades magnéticas de muchas sustancias requieren tener en cuenta esta propiedad. A manera de ejemplo, la
explicación del ferromagnetismo requiere el espı́n del electrón como componente esencial.
En esta sección solo citaremos dos propiedades a nivel atómico que evidencian la existencia de un momento
angular intrı́nseco del electrón: La estructura fina de las lı́neas espectrales atómicas y el efecto Zeeman anómalo
15.4.1. Estructura fina de las lı́neas espectrales
La teorı́a del átomo de Hidrógeno desarrollada en el capı́tulo 13 consideró al electrón como una partı́cula puntual
cuyo estado se puede describir con una función de onda espacial ϕ (x, y, z). Los resultados obtenidos en el capı́tulo
13 describen el espectro de emisión y absorción del átomo de Hidrógeno con buena precisión, ası́ como los niveles
de energı́a y las reglas de selección que nos indican las frecuencias de Bohr permitidas en el espectro.
Sin embargo, un estudio de alta resolución del espectro nos revela ciertas diferencias que aunque pequeñas son
observables. Estas diferencias se deben principalmente a dos aspectos: las correcciones relativistas y los efectos de
introducir un campo magnético que interactúe con el átomo.
En lo que respecta a la estructura fina del espectro del átomo de hidrógeno, se observó que cada lı́nea posee
varias componentes, es decir para un nivel de energı́a dado n hay realmente varias energı́as muy cercanas entre sı́.
Por supuesto, las diferencias entre energı́as de un mismo nivel son mucho menores que las diferencias entre energı́as
de niveles distintos, razón por la cual la concordancia con los experimentos de baja resolución era buena. Por lo
tanto, debe introducirse alguna corrección a la teorı́a desarrollada en el capı́tulo 13 para explicar el desdoblamiento
de las lı́neas espectrales allı́ predichas.
15.4.2. Efecto Zeeman anómalo
Cuando un átomo se coloca en un campo magnético uniforme, cada una de las lı́neas (es decir, cada componente
de la estructura fina) se desdobla en ciertas lı́neas equidistantes, donde la brecha es proporcional al campo magnético,
esto se conoce como efecto Zeeman. Este efecto se puede explicar usando el formalismo cuántico hasta ahora descrito.
La explicación teórica se basa en la relación del momento dipolar magnético M con el momento angular orbital del
electrón
µB q~
M= L ; µB = (15.3)
~ 2me
donde µB se conoce como el “magnetón de Bohr”. Sin embargo, la teorı́a presentada en el capı́tulo 13 solo está en
concordancia con el experimento en algunos casos que llamaremos “efecto Zeeman” normal. En otros casos, sin
embargo aparece un “efecto Zeeman anómalo” que resulta particularmente sustancial en átomos con número atómico
impar (en particular, el átomo de Hidrógeno), ya que sus niveles se dividen en un número par de subniveles en tanto
que la teorı́a predice que el número de subniveles debe ser impar ya que es igual a 2l+1 con l entero. Si asumimos que
en el efecto Zeeman anómalo el desdoblamiento continúa siendo generado por un momento angular J 2 , es necesario
que el valor propio j (j + 1) ~2 de este momento angular corresponda a j semi-entero para poder explicar que el
número de subniveles 2j + 1 sea par.
Nótese que un experimento del tipo Stern-Gerlach no serı́a práctico para la medición del momento angular
electrónico debido a que el electrón tiene carga neta (monopolo eléctrico), y la interacción del momento dipolar
magnético del electrón con el campo es mucho más débil que la interacción de Lorentz descrita por qv × B.
15.5. Introducción del momento angular intrı́nseco en el formalismo de la

mecánica cuántica no relativista
Para poder introducir el momento angular intrı́nseco en el formalismo no relativista de la mecanica cuántica
será necesario introducir algunos postulados adicionales. La teorı́a no relativista para incorporar al espı́n fué desar-
rollada por Pauli. Más adelante, Dirac desarrolló una teorı́a relativista que desembocó en la llamada ecuación de
Dirac, en la cual el espı́n aparece en forma natural debido a la covarianza de la ecuación con el grupo de transfor-
maciones de Lorentz. Si bien, el espı́n también se puede deducir de las transformaciones no relativistas del grupo
de Galileo, la aparición del espı́n es mucho más natural en las teorı́as relativistas.
Sin embargo, dado que la teorı́a de Pauli es más simple que la de Dirac y que estamos desarrollando una teorı́a
no relativista, introduciremos el espı́n con los postulados de Pauli.
Antes de Pauli, Uhlenbeck y Goudsmit en 1925 propusieron que el electrón poseı́a un efecto de rotación que
generaba un momento angular intrı́nseco que llamaron espı́n (del inglés spin que significa rotación o giro). Se postula
entonces que existe un momento dipolar magnético M S que esta asociado con el momento angular intrı́nseco o espı́n
(denotado por S) en la forma
µB
MS = 2 S (15.4)
~
que tiene la misma estructura que la relación (15.3) para el momento angular orbital, pero con un factor de dos, que
nos dice que el factor giromagnético de espı́n es dos veces mayor que el factor giromagnético orbital. Esta relación
se impuso por razones estrictamente fenomenológicas, con el fin de ajustar la concordancia teorı́a experimento.
Más adelante, Pauli estableció una forma de incorporar este momento angular intrı́nseco en el formalismo de la
mecánica cuántica no relativista agregando unos postulados sobre estos observables.
Hasta el momento, hemos cuantizado solo observables que dependen de los observables básicos R y P y que
denominaremos observables orbitales, lo cuales actúan en el espacio de estados E r que es isométrico e isomorfo
con el espacio F de las funciones de onda. Similarmente denominamos espacio orbital de estados a E r .
Dentro de los postulados de Pauli, añadiremos a estos observables orbitales un conjunto de observables de espı́n
en la siguiente forma
(I) El operador de espı́n S ≡ (S1 , S2 , S3 ) es un momento angular, es decir cumple con las reglas de conmutación
(10.6)
[Si , Sj ] = i~εijk Sk
(II) Estos operadores de espı́n actúan en un espacio de estados de espı́n E s , en el cual los observables S2 y
S3 constituyen un C.S.C.O. Por tanto, E s es expandido por los estados propios comunes de S 2 y S3
S2 |s, ms i = s (s + 1) ~2 |s, ms i ; S3 |s, ms i = ms ~ |s, ms i
de acuerdo con la teorı́a general del momento angular, sabemos que s debe ser entero o semientero y que m s toma
todos los valores incluı́dos entre −s y s en saltos de unidad. Sabemos también que m s es entero (semi-entero) si y
solo si s es entero (semi-entero).
III) Una partı́cula dada está caracterizada por un valor único de espı́n s y diremos que esta partı́cula tiene espı́n
s.
Puesto que {|s, ms i} con s fijo es una base para el espacio de estados de espı́n E s , dicho espacio es de dimensión
finita 2s + 1. Notese además que todos los elementos de E s son estados propios de S2 con el mismo valor propio
s (s + 1) ~2 .
IV) El espacio de estados E de una partı́cula es el producto tensorial 3 de Er con Es
E = E r ⊗ Es
consecuentemente, todos los observables de espı́n conmutan con todos los observables orbitales. Además excepto
para s = 0, esto implica que para la caracterización del estado de una partı́cula no será suficiente especificar un ket
de Er . Por ejemplo, los observables X1 , X2 , X3 constituyen un C.S.C.O. en Er pero no en E, para formar un C.S.C.O.
en E debemos agregar un C.S.C.O. del espacio E s , por ejemplo S2 y algún Si (usualmente S3 ).
3
Para detalles sobre productos tensoriales ver sección 1.32, page 61.
15.6. PROPIEDADES DE UN MOMENTO ANGULAR 1/2 333
Adicionalmente, de las propiedades del producto tensorial, el producto tensorial de los elementos de una base
{|ϕn i} en Er con los elementos de una base {χi } en Es será una base de E = Er ⊗ Es
{|ϕn , χi i} ≡ {|ϕn i ⊗ |χi i}
Esto implica que todo estado de una partı́cula es una combinación lineal de estos productos tensoriales
XX XX
|ψi = cn,i |ϕn , χi i = cn,i |ϕn i ⊗ |χi i ; cn,i = hϕn , χi |ψi
n i n i
debemos recordar sin embargo, que no todo estado |ψi ∈ E proviene del producto tensorial de un estado |ϕi ∈ E r
con un estado |χi ∈ Es . Es decir que la relación
|ψi = |ϕi ⊗ |χi ; |ϕi ∈ Er ; |χi ∈ Es ; |ψi ∈ E (15.5)
no es válida en general. Sin embargo, cuando la relación (15.5) es válida para un cierto |ψi es claro que
XX
|ψi = cn,i |ϕn , χi i ; cn,i = hϕn |ϕi hχi |χi
n i
Estos postulados conciernen a una teorı́a general de espı́n. El siguiente postulado está dirigido más especifica-
mente al espı́n del electrón
(V) El electrón es una partı́cula de espı́n 1/2 (s = 1/2) y su momento dipolar magnético intrı́nseco está dado
por
µB µB
MS = (2s + 1) S=2 S
~ ~
que coincide con (15.4).
Adicionalmente, los constituyentes nucleares (protones y neutrones) también son partı́culas de espı́n 1/2 aunque
su factor giromagnético es diferente al del electrón. También existen partı́culas de espı́n 0, 1/2, 1, 3/2, 2, ...
A priori podrı́amos estar tentados a pensar que el espı́n es un efecto del tamaño del electrón que genera la
posibilidad de que esta partı́cula produzca rotaciones. En tal caso, además de los observables de posición (del centro
de masa del electrón), será necesario añadir tres observables asociados a la rotación (por ejemplo una cuantización
adecuada de los ángulos de Euler). Sin embargo, las rotaciones espaciales deben cumplir relaciones de periodicidad
similares a las que se imponen para los armónicos esféricos, lo cual nos exige que s sea entero. La presencia de
espı́n semientero indica que este observable no tiene un origen rotacional, ni puede provenir de la cuantización de
un momento angular clásico que sea función exclusiva de R y P. En el presente tratamiento, el electrón continúa
siendo una partı́cula puntual y el espı́n no tiene análogo clásico.
15.6. Propiedades de un momento angular 1/2

Puesto que los electrones ası́ como los nucleones son partı́cula de espı́n 1/2, el espacio de estados E s=1/2 merece
especial atención. En esta sección nos ocuparemos de estudiar solo el espacio E 1/2 y en el siguiente nos ocuparemos
de caracterizar el espacio de estados completo E = E 1/2 ⊗ Er
El espacio de estados E1/2 es de dimensión dos. Los autoestados comunes de S 2 y S3 , que conforman una base
ortonormal en E1/2 están dados por

1 1 1
s = 1 , m s = 1 , s = 1 , m s = − 1
≡ , , , −1
2 2 2 2 2 2 2 2
Simplificaremos la notación para estos autoestados comunes de S 2 y S3 en la forma

1 1 1 1
,
2 2 ≡ |+i ; 2 , − 2 ≡ |−i
es común referirse a los autoestados |±i, como estado con espı́n “arriba” y “abajo” respectivamente 4 . Es claro que

1 1 1
S2 |±i = + 1 ~2 |±i ; S3 |±i = ± ~ |±i
2 2 2
3 2 1
S2 |±i = ~ |±i ; S3 |±i = ± ~ |±i (15.6)
4 2
con relaciones de ortonormalidad y completez
h+ |+i = h− |−i = 1 ; h+ |−i = 0 ; |+i h+| + |−i h−| = I s (15.7)
el estado más general de espı́n es entonces una combinación lineal de esta base
|χi = c+ |+i + c− |−i (15.8)
siendo c± números complejos. Dado que ambos estados |±i son autoestados de S 2 con el mismo autovalor, cualquier
combinación lineal de ellos también lo es. Por tanto, todos los estados de E s son autoestados de S2 con el mismo
valor propio (3/4) ~2 , esto implica que S2 es proporcional al operador identidad de E s
3 2
S2 = ~ Is
4
definiendo los operadores escalera Ec. (10.13), tenemos
S± = S1 ± iS2 (15.9)
Invirtiendo la relaciones (15.9) escribimos
S+ + S − S+ − S −
S1 = ; S2 = (15.10)
2 2i
La acción de los operadores S± sobre los vectores base está dada por las Ecs. (10.46) con j = s = 1/2
S+ |+i = S− |−i = 0 ; S+ |−i = ~ |+i ; S− |+i = ~ |−i (15.11)
Los operadores Si , S2 , S± poseen el álgebra de cualquier momento angular Ecs. (10.14-10.17). Sin embargo, hay
algunas propiedades algebráicas adicionales propias de j = s = 1/2. En lo que sigue tomaremos j = s = 1/2.
Las expresiones (15.10) junto con (15.11) nos permiten demostrar ciertas propiedades de los S i y de S± . Cal-
culemos primero S12 , S22 , S1 S2 , S2 S1
1 2 1 2
S12 = S+ + S − 2
+ S+ S− + S− S+ ; S22 = − S+ + S− 2
− S + S− − S − S+ (15.12)
4 4
1 2 2
1 2 2

S1 S2 = S+ − S + S− + S − S+ − S − ; S 2 S1 = S+ + S + S− − S − S+ − S −
4i 4i
S+2 − [S , S ] − S 2 S 2 + [S , S ] − S 2
+ − − + −
S1 S2 = ; S 2 S1 = + −
4i 4i
S+2 − 2~S − S 2 S 2 + 2~S3 − S− 2
3 −
S1 S2 = ; S 2 S1 = + (15.13)
4i 4i
donde hemos usado (10.16). Similarmente podemos calcular los otros productos
1 1
S1 S3 = (S+ S3 + S− S3 ) ; S3 S1 = (S3 S+ + S3 S− ) (15.14)
2 2
1 1
S2 S3 = (S+ S3 − S− S3 ) ; S3 S1 = (S3 S+ − S3 S− ) (15.15)
2i 2i
4
Este es por supuesto un abuso del lenguaje, ya que ambos estados poseen el mismo espı́n y se diferencian solo en su momento
magnético intrı́nseco.
15.6. PROPIEDADES DE UN MOMENTO ANGULAR 1/2 335
un estado arbitrario de Es está dado por (15.8). Por tanto la acción de los operadores S ± sobre un estado arbitrario
de Es se obtiene combinando (15.11) con (15.8)
2 2 2
S+ |χi = S+ [c+ |+i + c− |−i] = c− S+ |−i = ~c− S+ |+i = 0
2 2 2
S− |χi = S− [c+ |+i + c− |−i] = c+ S− |+i = ~c+ S− |−i = 0
S+ S− |χi = S+ S− [c+ |+i + c− |−i] = c+ S+ S− |+i = ~c+ S+ |−i = ~2 c+ |+i = ~2 P+ |χi
S− S+ |χi = S− S+ [c+ |+i + c− |−i] = c− S− S+ |−i = ~c− S− |+i = ~2 c− |−i = ~2 P− |χi
(S+ S− + S− S+ ) |χi = ~2 [P+ + P− ] |χi = ~2 |χi
y como |χi es arbitrario, se obtiene

2 2
S+ = S− = 0 ; S + S− = ~ 2 P+ ; S − S+ = ~ 2 P− ; (S+ S− + S− S+ ) = ~2 Is (15.16)
donde hemos definido los proyectores P ± de modo que
Es = E+ ⊕ E− ; |χi = |χi+ + |χi− ; |χi± ∈ E± , |χi ∈ Es

P± |χi = |χi± = c± |±i
usando (15.16) en (15.12) se obtiene

1 2 1
S12 = 2
S+ + S − + S + S− + S − S+ = ~2 Is
4 4
1 2 1
S22 = − S+ + S − 2
− S + S− − S − S+ = ~2 Is
4 4
3 2 1 2 1 2 1
S32 = S − S 1 − S 2 = ~ Is − ~ Is − ~ Is = ~2 Is
2 2 2
4 4 4 4
1
⇒ S12 = S22 = S32 = ~2 Is (15.17)
4
Ahora utilizando (15.16) en (15.13) se obtiene
i 2 2
~ i 2 2
~
S1 S2 = − S+ − 2~S3 − S− = i S3 ; S 2 S1 = − S+ + 2~S3 − S− = −i S3
4 2 4 2
i~
⇒ S 1 S2 + S 2 S1 = 0 ; S 1 S2 = S3 (15.18)
2
empleando (15.11) en (15.14) tenemos
1 1
S1 S3 |χi = (S+ S3 + S− S3 ) [c+ |+i + c− |−i] = (S+ + S− ) [c+ S3 |+i + c− S3 |−i]
2 2
~ ~c+ ~c−
= (S+ + S− ) [c+ |+i − c− |−i] = (S+ + S− ) |+i − (S+ + S− ) |−i
4 4 4
~2 c+ ~2 c−
= |−i − |+i
4 4
~2
S1 S3 |χi = [c+ |−i − c− |+i] (15.19)
4
1 c+ c−
S3 S1 |χi = (S3 S+ + S3 S− ) [c+ |+i + c− |−i] = (S3 S+ + S3 S− ) |+i + (S3 S+ + S3 S− ) |−i
2 2 2
~c+ ~c− ~2 c+ ~2 c− ~2
= S3 |−i + S3 |+i = − |−i + |+i = − [c+ |−i − c− |+i]
2 2 4 4 4
~2
S3 S1 |χi = − [c+ |−i − c− |+i] (15.20)
4
comparando (15.19) con (15.20) teniendo en cuenta que |χi es arbitrario se obtiene
S1 S3 + S 3 S1 = 0
ahora miremos la acción de S2 sobre |χi

S+ − S − S+ − S − S+ − S − ~ ~
S2 |χi = [c+ |+i + c− |−i] = c+ |+i + c− |−i = −c+ |−i + c− |+i
2i 2i 2i 2i 2i
i~
S2 |χi = [c+ |−i − c− ~ |+i] (15.21)
2
comparando (15.21) con (15.20) resulta
i~
S3 S1 = S2 (15.22)
2
similarmente se puede demostrar que
i~
S2 S3 + S 3 S2 = 0 ; S 2 S3 = S1 (15.23)
2
15.6.1. Resumen de resultados

Los observables Si , S2 , S± poseen el álgebra de un momento angular Ecs. (10.14-10.17). Pero hay algunas
propiedades algebráicas adicionales especı́ficas de j = s = 1/2. Definiendo el anticonmutador de dos operadores
como
{A, B} ≡ AB + BA
Este álgebra especı́fica está dada por
2 2
S+ = S− = 0 ; S+ S− = ~2 P+ ; S− S+ = ~2 P− ; {S+ , S− } = ~2 Is (15.24)
1 i~
S12 = S22 = S32 = ~2 Is ; Si Sj = εijk Sk ; {Si , Sj } = 0 ; i 6= j (15.25)
4 2
vale la pena enfatizar que la última de las relaciones (15.25) nos dice que para s = 1/2, los operadores de espı́n S i
son anticonmutantes.
15.6.2. Representación matricial de los observables de espı́n

Un operador que actúa en Es se puede representar en la base {|+i , |−i} con una matriz 2 × 2. En particular,
usando (15.6, 15.9, 15.11) se puede construı́r la representación matricial de los S ± , Si y S2 (ver también las Ecs.
10.59, 10.60 Pag. 273). Esta representación matricial se puede resumir en la forma

~ 0 1 0 −i 1 0
(S) = σ ; σ1 = ; σ2 = ; σ3 =
2 1 0 i 0 0 −1

2
3 2 3 2 0 1 0 0
S = ~ Is ≡ ~ σ0 ; (S+ ) = ~ ≡ ~σ+ ; (S− ) = ~ ≡ ~σ−
4 4 0 0 1 0
puesto que las matrices (~/2) σi y las matrices ~σ± son representaciones de los operadores S i y S± deben cumplir
el álgebra de éstos operadores Ecs. (15.24, 15.25)
[σi , σj ] = 2iεijk σk ; σ12 = σ22 = σ32 = 12×2

{σi , σj } = 0 ; σi σj = iεijk σk f or i 6= j
2 2
σ+ = σ− = 0 ; σ + σ− = P + ; σ − σ+ = P − ; σ + σ− + σ − σ+ = I s (15.26)
estas relaciones se pueden verificar explı́citamente. También se puede verificar explı́citamente que
T rσi = 0 ; det (σi ) = −1 ; i = 1, 2, 3 (15.27)
Las Ecs. (15.27) son independientes de la base ya que la traza y el determinante son invariantes ante transformaciones
de similaridad. Podemos verificar también la siguiente identidad
(~σ ·A) (σ̃ · B) = 12×2 (A · B) + iσ̃· (A × B) ; ~σ ≡ (σ1 , σ2 , σ3 ) (15.28)

15.7. DESCRIPCIÓN NO RELATIVISTA COMPLETA DE OPERADORES Y ESTADOS DE PART ÍCULAS CON E
donde A y B son vectores arbitrarios u operadores vectoriales cuyas tres componentes conmutan con las componentes
de S. No es necesario que A y B conmuten, pero si no conmutan, el orden de aparición de los operadores en (15.28)
debe ser estricto. La Ec. (15.28) se puede demostrar usando las propiedades (15.26) y la hipótesis de que las
componentes de A y B conmutan con las σ i . Usaremos sı́mbolos explı́citos de sumatoria para efectos de claridad
XX X XX
(σ̃ · A) (σ̃ · B) = (σm Am ) (σn Bn ) = (σm Am ) (σm Bm ) + (σm Am ) (σn Bn )
m n m m n6=m
" #
X XX X XX X
2
= σm Am Bm + σm σn Am Bn = 12×2 Am Bm + iεmnk σk Am Bn
m m n6=m m m n6=m k
X X XX X
= 12×2 Am Bm + i σk εmnk Am Bn = 12×2 (A · B) + i σk (A × B)k
m k m n6=m k
(σ̃ · A) (σ̃ · B) = 12×2 (A · B) + iσ̃· (A × B)
Finalmente, si definimos el conjunto de matrices
σµ ≡ (σ0 , σ̃) = (I, σ1 , σ2 , σ3 ) (15.29)
cualquier matriz compleja 2 × 2 se puede escribir como una combinación lineal compleja de estas cuatro matrices
M2×2 = cµ σµ ; µ = 0, 1, 2, 3
sumando sobre ı́ndices repetidos. Esto se debe a que las cuatro matrices σ µ son linealmente independientes y se
necesitan cuatro elementos (complejos) para determinar una matriz compleja 2 × 2. Por lo tanto, las cuatro matrices
σµ forman una base para el espacio vectorial complejo de todas las matrices complejas 2 × 2.
15.7. Descripción no relativista completa de operadores y estados de partı́cu-

las con espı́n 1/2
Hemos visto como se describen los estados y operadores de E r y de Es por aparte. Pero la descripción completa
del sistema cuántico requiere construı́r un único espacio de estados para el formalismo. El espacio de estados
completo E para una partı́cula de espı́n 1/2, se construye como el producto tensorial de E r y Es
E = E r ⊗ Es
15.7.1. Construcción de los estados

Si tenemos un operador definido en Er podemos extenderlo al espacio E mediante el producto tensorial con la
identidad de Es . Si A es un operador que transforma sobre E r podemos extenderlo a un operador A0 que transforma
sobre E en la forma
A0 ≡ A ⊗ I s
similarmente un operador B de Es se puede extender a un operador sobre E con la prescripción
B 0 = Ir ⊗ B
Sin embargo, no cambiaremos la notación para estas extensiones y las seguiremos llamando A y B. En particular,
podemos obtener un C.S.C.O. en E como la yuxtaposición de un C.S.C.O. en E r con un C.S.C.O. en Es . Por ejemplo,
en Es el conjunto S2 , S3 forma un C.S.C.O. a esto le podemos añadir un C.S.C.O. de E r para obtener un C.S.C.O.
de E. Como ejemplos tenemos

X1 , X2 , X3 , S2 , S3 ; P1 , P2 , P3 , S2 , S3 ; L2 , L3 , H, S2 , S3 (15.30)
puesto que todos los kets de E son kets propios de S 2 , este operador podrı́a ser omitido y aún tendrı́amos un C.S.C.O.
en E. Esto se debe a que estrictamente S 3 por sı́ solo ya forma un C.S.C.O. en E s . Sin embargo, es usual dejar S2
dentro del C.S.C.O. ya que si bien es deseable que éste contenga el mı́nimo de operadores posible, no es obligatorio
que ası́ sea.
Vamos a escribir las relaciones con el primero de los C.S.C.O. en la Ec. (15.30). Una base en E se obtiene como
el producto tensorial de las bases en cada espacio
|r, εi ≡ |x1 , x2 , x3 , εi = |ri ⊗ |εi , |εi ∈ Es
las componentes xi varı́an entre −∞ e ∞ y ε toma los valores +1 o −1 (ı́ndice

discreto que realmente significa
ms = ±1/2). Por definición {|r, εi} es una base de autovectores comunes a X1 , X2 , X3 , S2 , S3 en E
3 ~
Xi |r, εi = xi |r, εi ; S2 |r, εi = ~2 |r, εi ; S3 |r, εi = ε |r, εi ; ε ≡ ±1
4 2
puesto que esto es un C.S.C.O. cada |r, εi es único salvo factores constantes. Dado que {|ri} es ortonormal en E r en
el sentido extendido, y {|εi} es ortonormal en E s (ver Ecs. 15.7) entonces {|r, εi} es ortonormal en E en el sentido
extendido

0
0
hr0 ε0 |r, εi = r ⊗ ε (|ri ⊗ |εi) = hr0 |ri hε0 |εi

hr0 ε0 |r, εi = δ r − r0 δεε0
la relación de completez que nos dice que {|r, εi} es una base en E es
XZ Z Z
d r |r, εi hr, ε| = d r |r, +i hr, +| + d3 r |r, −i hr, −| = IE
3 3
por tanto, todo estado |ψi ∈ E se puede expandir en {|r, εi}

XZ
|ψi = IE |ψi = d3 r |r, εi hr, ε| ψi
ε
XZ
|ψi = d3 r ψε (r) |r, εi , ψε (r) ≡ hr, ε| ψi (15.31)
ε
donde ψε (r) son las coordenadas o componentes (transformadas de Fourier) en la base {|r, εi}. Estas coordenadas
o componentes, dependen de tres ı́ndices contı́nuos r y del ı́ndice discreto ε. Por tanto, una función de onda en E se
especifica a través de dos funciones de onda espaciales correspondientes a los dos estados de espı́n
ψ (r) = ψ+ (r) + ψ− (r) (15.32)

ψ± (r) ≡ hr, ± |ψi (15.33)
como ψ+ (r) y ψ− (r) son estados ortogonales, es usual escribirlos en forma de un arreglo de dos componentes
conocido como espinor
ψ+ (r)
[ψ] (r) = (15.34)
ψ− (r)
el bra hψ| asociado al espacio dual E ∗ se obtiene con el hermı́tico conjugado de la Ec. (15.31)
XZ
hψ| = d3 r ψε∗ (r) hr, ε|
ε
conjugando las Ecs. (15.32, 15.33) vemos que
ψ ∗ (r) = ψ+
∗ ∗
(r) + ψ− (r) ∗
; ψ± (r) ≡ hψ |r, ±i
∗ (r) que se pueden escribir en forma de espinor como
nos dice que el bra hψ| está representado por dos funciones ψ ±
el adjunto de (15.34)
[ψ]† (r) = ψ+ ∗ (r) ψ ∗ (r)
− (15.35)
el producto escalar entre dos estados |ψi y |ϕi, se puede escribir como
" #
XZ Z X
3 3
hψ |ϕi = hψ| IE |ϕi = d r hψ |r, εi hr, ε| ϕi = d r hψ |r, εi hr, ε| ϕi
ε ε
Z
3
hψ |ϕi = d r [hψ |r, +i hr, +| ϕi + hψ |r, −i hr, −| ϕi]
Z
∗
hψ |ϕi = d3 r ψ+ ∗
(r) ϕ+ (r) + ψ− (r) ϕ− (r)
esto también se puede escribir en la forma

Z
3 ∗ ∗
ϕ+ (r)
hψ |ϕi = d r ψ+ (r) ψ− (r)
ϕ− (r)
Z
hψ |ϕi = d3 r [ψ]† (r) [ϕ] (r)
donde hemos usado (15.34, 15.35). Esta expresión se asemeja a la que se obtiene para el producto interno de dos kets
en Er , pero teniendo en cuenta que en vez de funciones de onda escalares tenemos espinores de dos componentes, de
modo que se debe realizar la multiplicación matricial antes de integrar en el espacio. En particular la normalización
queda en la forma
Z Z h i
hψ |ψi = |ψ| = d r [ψ] (r) [ψ] (r) = d3 r |ψ+ (r)|2 + |ψ− (r)|2 = 1
2 3 †
(15.36)
hemos visto que un vector de E no necesariamente es el producto tensorial de un vector en E r por otro en Es . Sin
embargo, esto es válido para algunos vectores (en particular los vectores base |r, εi), si el vector |ψi en cuestión es
de este tipo
|ψi = |ϕi ⊗ |χi ; |ϕi ∈ Er , |χi ∈ Es
el espinor asociado tendrá una forma simple ya que
Z
|ϕi = d3 r ϕ (r) |ri ; |χi = c+ |+i + c− |−i
usando las Ecs. (15.32, 15.33) se tiene que
ψ± (r) ≡ hr, ± |ψi = [hr| ⊗ h±|] [|ϕi ⊗ |χi] = hr |ϕi h± |χi = ϕ (r) h±| [c + |+i + c− |−i]
ψ± (r) = c± ϕ (r)
y los espinores dados en (15.34, 15.35) quedan

c+ ϕ (r) c+
[ψ] (r) = = ϕ (r)
c− ϕ (r) c−

[ψ]† (r) = ϕ∗ (r) c∗+ c∗−
si en particular |χi = |+i entonces c + = 1, c− = 0. Resultando
|ψi = |ϕi ⊗ |+i ⇒ ψ+ (r) ≡ hr |ϕi h+ |+i = ϕ (r) ; ψ− (r) ≡ hr |ϕi h− |+i = 0

1
[ψ] (r) = ϕ (r) ; [ψ]† (r) = ϕ∗ (r) 1 0
0
similarmente, si |χi = |−i

0
[ψ] (r) = ϕ (r) ; [ψ]† (r) = ϕ∗ (r) 0 1
1
15.7.2. Construcción de operadores

Veremos como se puede caracterizar la acción de los operadores en E. Para ello trabajaremos primero operadores
originalmente definidos en Es , después operadores definidos en E r y finalmente operadores mixtos.
Operadores espinoriales
Asumamos que el operador As está definido originalmente solo por su acción sobre E s

As |εi = ε0 ; |εi , ε0 ∈ Es
Su extensión como operador sobre E se escribe
A0s ≡ As ⊗ Ir
definimos la acción del operador extendido en la forma

A0s |ψi = ψ 0 ; |ψi , ψ 0 ∈ E
expandiendo |ψi en la base |r, εi

XZ
|ψi = d3 r ψε (r) |r, εi
ε
XZ
A0s |ψi = d3 r ψε (r) A0s |r, εi
ε
la acción de A0s sobre |r, εi es muy clara, ya que

A0s |r, εi = (As ⊗ Ir ) [|ri ⊗ |εi] = (Ir |ri) ⊗ [As |εi] = |ri ⊗ ε0

A0s |r, εi = r,ε0
XZ
0
As |ψi = d3 r ψε (r) r,ε0
ε
la extensión del operador solo afectará a la parte espinorial de |r, εi y la transformará de la misma forma que lo
hace el operador original, en tanto que la parte espacial permanece intacta. Estos operadores se pueden representar
como matrices 2×2 y de aquı́ en adelante usamos A para denotar al operador extendido 5 . Tomemos como ejemplo
a S+ , este operador actuando sobre un estado arbitrario |ψi de E nos da
XZ Z
S+ |ψi = d3 r ψε (r) [S+ |r,εi] = d3 r {ψ+ (r) [S+ |r,+i] + ψ− (r) [S+ |r,−i]}
Zε
S+ |ψi = d3 r ψ− (r) [S+ |r,−i]
donde hemos usado que S+ |+i = 0 y por tanto S+ |r,+i = 0. Y como S+ |−i = ~ |+i se tiene finalmente
Z
0
ψ ≡ S+ |ψi = ~ d3 r ψ− (r) |r,+i
las componentes espinoriales de |ψ 0 i son entonces

Z Z Z
0 0
ψ+ (r) ≡ hr, + ψ = hr, +| ~ d r ψ− r r ,+ = ~ d r ψ− r hr, + r ,+ = ~ d3 r0 ψ− r0 hr r0 h+ |+i
0 3 0 0 0 3 0 0
Z

= ~ d3 r0 ψ− r0 δ r − r0 = ~ψ− (r)
5
Por supuesto la representación matricial de A0s es estrictamente de dimensión infinita, pero dado que A0s = As ⊗ 1r , se tiene que la
parte no trivial de la matriz es de dimensión finita.
0 (r), con lo cual resulta

de manera similar podemos obtener ψ−

ψ+0
(r) ≡ hr, + ψ 0 = ~ψ− (r) ; 0
ψ− (r) ≡ hr, − ψ 0 = 0

0 ψ− (r)
ψ (r) = ~
0
pero esto también se puede escribir como

0 0 1 ψ+ (r)
ψ (r) = ~
0 0 ψ− (r)
0
ψ (r) = ~σ+ [ψ] (r)
es decir la misma representación matricial sirve para definir a S + tanto en Es como en E. ¿Cuál es la diferencia?.
Formalmente, en Es cada elemento de la matriz es un número. En cambio en E cada elemento matricial representa a
un operador que actúa sobre Er , por ejemplo, la matriz σ+ como representación extendida, rigurosamente significa
lo siguiente
0 0r Ir
σ+ =
0r 0r
es decir cada elemento matricial representa a los operadores nulo e identidad del espacio E r . No obstante, desde el
punto de vista práctico esta notación es innecesaria.
Operadores orbitales
El procedimiento es similar. Asumamos A x que actúa sobre Er , definiendo su extensión y su acción sobre un ket
|ψi de E obtenemos

Ax |ri = r0 ; |ri , r0 ∈ Er

A0x ≡ Ax ⊗ Is ; A0x |r, εi = r0 , ε
XZ
|ψi = d3 r ψε (r) |r, εi
ε
X Z XZ
0
ψ ≡ A0x |ψi = 3
d r ψε (r) A0x |r, εi = d3 r ψε (r) r0 , ε
Zε ε
0
ψ ≡ A0x |ψi = d3 r ψ+ (r) A0x |r, +i + ψ− (r) A0x |r, −i
como A0x |r, +i actúa sobre un espacio idéntico a |ri (ya que actúa sobre un subespacio unidimensional de E s ),
podemos escribir Ax |r, +i. Igual ocurre para Ax |r, −i
Z
0
ψ+ (r) ≡ hr, + ψ = hr, +| d3 r0 ψ+ r0 Ax r0 , + + ψ− r0 Ax r0 , −
0
Z

= d3 r0 hr, +| ψ+ r0 Ax r0 , + + hr, +| ψ− r0 Ax r0 , −
Z n o
= d3 r0 A bx (r) ψ+ r0 hr, + r0 , + + ψ− r0 Ax hr, + r0 , −
Z n o
= d3 r00 A bx (r) ψ+ r0 δ r − r0 = A bx (r) ψ+ (r)
bx (r) denota la forma del operador Ax en la base {|ri}, con lo cual se obtiene
donde A

ψ+0
(r) ≡ hr, + ψ 0 = A bx (r) ψ+ (r)

ψ 0 (r) ≡ hr, − ψ 0 = A bx (r) ψ− (r)
−
!
0 bx (r)
A 0 ψ+ (r) h i
ψ (r) = = Abx (r) ⊗ Is [ψ] (r)
0 b
Ax (r) ψ− (r)
que nos muestra la forma correcta para la extensión del operador A x
Por tanto, la representación matricial 2 × 2 del operador es proporcional a la identidad, puesto que no hay
cambio en los estados espinoriales. Los operadores actúan sobre la parte espacial tal como lo hace el operador
original. Tomemos como ejemplo a los operadores X 1 , P1
ψε0 (r) = hr, ε| X1 |ψi = x1 ψε (r)

00 ~ ∂
ψε (r) = hr, ε| P1 |ψi = ψε (r)
i ∂x1
sus representaciones matriciales son
!
∂
x1 0 ~ ∂x1 0
[X1 ] = ; [P1 ] = ∂
0 x1 i 0 ∂x1
de nuevo cada elemento de la matriz es un operador sobre E r aunque esta vez es un operador no trivial. En este
caso el operador trivial es sobre los espinores y por eso la matriz es proporcional a la identidad.
Operadores mixtos
Si un operador es de carácter mixto, será una matriz 2×2 no trivial que actúa sobre E s y en donde cada elemento
matricial es un operador no trivial sobre E r . Algunos ejemplos de operadores mixtos que aparecen en cuántica son
L3 S3 , S · P. De acuerdo con la teorı́a de representaciones, las representaciones matriciales deben manifestar la
preservación del producto

~ ∂ ~
[L3 S3 ] = [L3 ] [S3 ] = Is Ir σ3
i ∂ϕ 2
" !#
∂
~ ∂ϕ 0 ~ 1 0
= ∂
i 0 ∂ϕ 2 0 −1
!
∂
~2 ∂ϕ 0
[L3 S3 ] = ∂
2i 0 − ∂ϕ
[S · P] = [S1 P1 ] + [S2 P2 ] + [S3 P3 ] = [S1 ] [P1 ] + [S2 ] [P2 ] + [S3 ] [P3 ]

~ ~ ∂ ~ ~ ∂ ~ ~ ∂
= σ1 + σ2 + σ3
2 i ∂x1 2 i ∂x2 2 i ∂x3
2

~ ∂ ∂ ∂
= σ1 + σ2 + σ3
2i ∂x1 ∂x2 ∂x3

~2 0 1 ∂ 0 −i ∂ 1 0 ∂
[S · P] = + +
2i 1 0 ∂x1 i 0 ∂x2 0 −1 ∂x3
" ! ! !#
∂
~2 0 ∂x1 0 −i ∂x∂ 2 ∂
∂x3 0
[S · P] = ∂ + +
2i ∂x1 0 i ∂x∂ 2 0 0 − ∂x∂ 3
!
∂ ∂
~2 ∂x3 ∂x1 − i ∂x∂ 2
[S · P] = ∂
2i ∂x1 + i ∂x∂ 2 − ∂x∂ 3
vale enfatizar que por construcción, operadores de espacios distintos conmutan.

En sı́ntesis, para un operador arbitrario A de E tal que

A |ψi = ψ 0
15.8. REPRESENTACIÓN EN LA BASE |P, εi 343
podemos asociarle una matriz 2 × 2 en la forma

0
ψ (r) = [A] [ψ] (r)
donde la estructura de la matriz representa la transformación sobre el espacio de espines y cada elemento de la
matriz representa un operador en el espacio de coordenadas. Un elemento matricial hψ| A |ϕi estará dado por
Z
hψ| A |ϕi = d3 r [ψ]† (r) [A] [ϕ] (r)
expresión similar a la que se encuentra para el espacio de coordenadas, pero teniendo en cuenta que en vez de
funciones de onda escalares aquı́ tenemos espinores de dos componentes. Los productos matriciales deben hacerse
para entonces evaluar la integral. Esta representación solo se usará cuando sea particularmente simple. En general
al igual que en Er suele ser mejor trabajar con los operadores y estados en abstracto hasta donde sea posible.
15.8. Representación en la base |p, εi

Un tratamiento similar se puede desarrollar si escojemos los C.S.C.O como P 1 , P2 , P3 , S2 , S3 . En tal caso la base
es {|p, εi} el producto escalar con la base {|r, εi} nos da
p·r
ei ~
hr, ε p, ε0 = hr |pi hε ε0 = δεε0 (15.37)
(2π~)3/2
a cada vector |ψi se le asocia un espinor de dos componentes

ψ̄+ (p)
ψ̄ (p) ≡ ; ψ̄± (p) = hp, ± |ψi
ψ̄− (p)
de acuerdo con (15.37) ψ̄± (p) es la transformada de Fourier de ψ ± (r).

XZ

ψ̄ε (p) = hp, ε |ψi = d3 r hp, ε r, ε0 r, ε0 ψi
ε0
XZ e−i p·r
~
ψ̄ε (p) = d3 r δεε0 ψε0 (r)
ε0 (2π~)3/2
Z
1 p·r
ψ̄ε (p) = 3/2
d3 r e−i ~ ψε (r)
(2π~)
los operadores también se representan por matrices 2×2. Cuando el operador original es espinorial la representación
matricial es idéntica a la que se encontró para la base {|r, εi}.
15.9. Cálculos de probabilidad para estados de espı́n 1/2

Aplicaremos los postulados de la mecánica cuántica para los observables sobre el espacio de estados E. Imag-
inemos que queremos medir simultáneamente la posición y la componente del espı́n de un partı́cula de espı́n 1/2
a lo largo de X3 . Puesto que r, S3 constituye un C.S.C.O. hay un único estado asociado a cada medida de estos
observables, x1 , x2 , x3 , ± ~2 . La probabilidad dP (r, +) de que la partı́cula se encuentre dentro de un volumen d 3 r
alrededor del punto r con su espı́n “arriba” (que es una forma de designar el caso en el cual la componente del espı́n
a lo largo de X3 es +~/2), está dada por
dP (r, +) = |hr, +| ψi|2 d3 r = |ψ+ (r)|2 d3 r
donde hemos asumido que la función de onda está normalizada en la forma (15.36). Similarmente la probabilidad de
que la partı́cula se encuentre dentro de un volumen d 3 r centrado en r con su espı́n “abajo” (es decir con la componente
del espı́n a lo largo de X3 igual a −~/2), está dada por
dP (r, −) = |hr, −| ψi|2 d3 r = |ψ− (r)|2 d3 r

Si lo que queremos es medir la componente del espı́n a lo largo de X 1 , debemos tener en cuenta que los autoestados
(normalizados) de S1 vienen dados por
1
|±iS1 = √ [|r, +i ± |r, −i] (15.38)
2
siendo |±i los autoestados de S3 . Podemos verificar que estos son autoestados de S 1 en la siguiente forma
1 1 1 ~
S1 |±iS1 = √ S1 [|r, +i ± |r, −i] = √ (S+ + S− ) [|r, +i ± |r, −i] = √ [S− |r, +i ± S+ |r, −i] = √ [|r, +i ± |r
2 2 2 2 2 2 2
~
S1 |±iS1 = |±iS1
2
La probabilidad de encontrar al electrón en el volumen d 3 r centrado en r y con componente positiva de espı́n a lo
largo de X1 es
2
1 1
dPS1 (r, +) = |S1 hr, +| ψi| d r = √ [hr, +| + hr, −|] |ψi = |[hr, +| ψi + hr, −| ψi]|2
2 3
2 2
1
dPS1 (r, +) = |ψ+ (r) + ψ− (r)|2 d3 r (15.39)
2
Por supuesto, podemos estar interesados en calcular la probabilidad de que la partı́cula posea un momento
centrado en p en un volumen (de momento) d 3 p y con componente de espı́n a lo largo de Z de ±~/2. Para ello
usamos las componentes del estado |ψi en la base {|p, εi}, que nos da las transformadas de Fourier de ψ̄± (r)
ψ̄± (p) ≡ hp, ± |ψi
la probabilidad ya mencionada será entonces

2
dP (p, ±) = |hp, ± |ψi|2 d3 p = ψ̄± (p) d3 p
Por otro lado, podemos estar interesados en hacer mediciones incompletas en el sentido de que los observables
asociados a las medidas no formen un C.S.C.O. es decir que las medidas no conducen a determinar el estado de
manera única. Cuando las medidas son incompletas hay varios estados ortogonales asociados al mismo resultado y
debe sumarse los cuadrados de los módulos de las amplitudes correspondientes.
Como ejemplo, si no nos interesa conocer el espı́n, la probabilidad dP (r) de encontrar a la partı́cula en el
volumen d3 r centrado en r es igual a
n o n o
dP (r) = |hr, +| ψi| 2 + |hr, −| ψi|2 d3 r = |ψ+ (r)|2 + |ψ− (r)|2 d3 r
dado que los dos estados ortogonales |r, +i y |r, −i están asociados al mismo resultado r donde sus amplitudes de
probabilidad son ψ+ (r) y ψ− (r).
Ahora supongamos que queremos saber la probabilidad de que la partı́cula tenga componente S 3 igual a +~/2,
pero sin importar su ubicación ni el valor de las demás variables orbitales. Hay un conjunto infinito de estados
ortogonales {|r, +i} asociados a este resultado, cuyas probabilidades deben ser sumadas
Z Z
P+ = d r |hr, +| ψi| = d3 r |ψ+ (r)|2
3 2
si por ejemplo queremos encontrar la probabilidad de obtener un espı́n +~/2 a lo largo de X 1 , debemos integrar la
Ec. (15.39) en todo el espacio.
Capı́tulo 16
Adición de momentos angulares
16.1. El problema clásico de la adición del momento angular

Cuando tenemos un sistema de partı́culas el momento angular total del sistema es la suma de los momentos
angulares individuales
Xn
L= ri × p i (16.1)
i=1
cuando no hay fuerzas externas, el torque externo sobre el sistema es cero, y el momento angular total es constante
de movimiento. Algo similar ocurre cuando el torque neto con respecto a un origen dado es cero, ya que el momento
angular alrededor del mismo origen será constante de movimiento. En el último caso sin embargo, hay que tener
en cuenta que en general al cambiar el origen, el torque puede ser diferente de cero y el momento angular ya no
será constante de movimiento.
Cuando el sistema esté aislado, el momento angular total se conserva, sin embargo no necesariamente se con-
servará el momento angular de cada partı́cula, si hay fuerzas internas ellas causarán un cambio en los momentos
angulares individuales, de forma que la suma total sea constante. Solo cuando las partı́culas no son interactuantes
podemos garantizar la conservación de los momentos angulares individuales, ya que en este caso cada partı́cula
forma un sistema aislado.
Otro escenario en donde se conserva el momento lineal es en fuerzas centrales. Si tenemos dos partı́culas no
interactuantes cada una interactuando con el mismo centro de fuerzas (originada por una tercera partı́cula mucho
más masiva que las otras), el momento angular de cada partı́cula se conserva puesto que cada una está sometida a
una fuerza central. Pero si hay una interacciona entre las dos partı́culas, la fuerza neta sobre la partı́cula 1 ya no es
en general central, por tanto su momento angular ya no necesariamente es constante de movimiento, similarmente
ocurre para la partı́cula 2. No obstante, si se cumple el principio de acción y reacción en su forma fuerte, el momento
angular total de las dos partı́culas se conserva por la cancelación de los torques internos. En conclusión, en un sistema
aislado de partı́culas interactuantes solo el momento angular total se conserva pero no los momentos individuales.
Veremos que este fenómeno tiene su contrapartida cuántica.
16.2. Momento angular total en mecánica cuántica

Trabajaremos el sistema de dos partı́culas en mecánica cuántica. Primero asumiremos que no son interactuantes.
El Hamiltoniano en la base de {|r1 , r2 i} está dado por
H0 = H 1 + H 2
~2 2 ~2 2
H1 = − ∇1 + V (r1 ) ; H2 = − ∇ + V (r2 ) (16.2)
2µ1 2µ2 2
donde µi son las masas, V (r) el potencial central al cual están sometidas, y ∇ 2i indica el Laplaciano tomado con las
coordenadas de la partı́cula i. Del capı́tulo 12 sabemos que L (1) conmuta con H1 , y teniendo en cuenta que todos los
observables relacionados con una partı́cula conmutan con todos los observables relacionados con la otra, se obtiene
h i h i
L(1) , H1 = L(1) , H2 = 0 (16.3)
346 CAPÍTULO 16. ADICIÓN DE MOMENTOS ANGULARES
argumento similar se tiene para L(2) . Estos nos indica que

h i h i
L(1) , H0 = L(2) , H0 = 0
y como L(α) no depende explı́citamente del tiempo, se tiene que cada momento angular es constante de movimiento
por aparte, tal como en el caso clásico. Ahora asumimos que las dos partı́culas interactúan por medio de un potencial
W (|r2 − r1 |) que solo depende de la distancia entre las partı́culas, esto implica por supuesto asumir la validez de
la ley de acción y reacción. La distancia |r 2 − r1 | se escribe
r
(1) (2) (1) (2)
|r2 − r1 | = xi − x i xi − xi (16.4)
suma sobre ı́ndices repetidos, el Hamiltoniano se escribe como
H = H1 + H2 + W (|r2 − r1 |)
con Hi dados por (16.2). Las relaciones (16.3) nos dan

h i h i h i
L(1) , H = L(1) , H1 + H2 + W (|r2 − r1 |) = L(1) , W (|r2 − r1 |)
(1)
analicemos por ejemplo la componente L 3 , para calcular el conmutador con W debemos aplicar el conmutador a
una función de onda arbitraria ψ (r)
! !
h i ~ ∂ ∂ ~ ∂ ∂
(1) (1) (1) (1) (1)
L3 , W ψ (r) = x1 (1)
− x2 (1)
(W ψ) − W x1 (1)
− x2 (1)
ψ
i ∂x2 ∂x1 i ∂x2 ∂x1
! !
~ (1) ∂W (1) ~ ∂W (1) ∂ψ (1) ∂ψ
= x1 (1)
− (1)
x2
ψ+ x1 (1)
− x2 W
i ∂x2 ∂x1 i ∂x2 ∂x1
!
~ (1) ∂ψ (1) ∂ψ
−W x1 (1)
− x2 (1)
i ∂x2 ∂x1
!
~ (1) ∂W (1) ∂W
= x1 (1)
− x2 (1)
ψ (r)
i ∂x2 ∂x1
y como ψ (r) es arbitraria se concluye que

!
h ~ i ∂W ∂W
(1) (1) (1)
L3 , W (|r2 − r1 |) = x1 (1)
− x2 (1)
i ∂x2 ∂x1
esta expresión no es necesariamente cero, de modo que L (1) no es en general constante de movimiento. Ahora bien,
si definimos el momento angular total L con una expresión análoga al caso clásico Ec. (16.1) tenemos
L = L(1) + L(2)
obtenemos un operador cuyas tres componentes son constantes de movimiento. Por ejemplo, se vé que
h i
(1) (2)
[L3 , H] = L3 + L 3 , H
!
~ (1) ∂W (1) ∂W (2) ∂W (2) ∂W
[L3 , H] = x1 (1)
− x2 (1)
+ x1 (2)
− x2 (2)
(16.5)
i ∂x2 ∂x1 ∂x2 ∂x1
16.2. MOMENTO ANGULAR TOTAL EN MECÁNICA CUÁNTICA 347
y puesto que W solo depende de |r2 − r1 | dada por (16.4) tenemos que
r
(1) (2) (1) (2)
∂ xk − x k xk − x k
∂W ∂W ∂ |r2 − r1 | ∂W
(1)
= (1)
= (1)
∂xi ∂ |r 2 − r 1 | ∂x ∂ |r 2 − r1 | ∂xi
i
(1) (2) ∂ (1) (2) (1) (2)
2 xk − x k (1) x k − x k xk − xk δik
∂W ∂xi ∂W
= r = r
∂ |r2 − r1 | (1) (2) (1) (2) ∂ |r2 − r1 | (1) (2) (1) (2)
2 xk − x k xk − x k xk − x k xk − x k
(1) (2)
∂W ∂W xi − x i
(1)
=
∂xi ∂ |r2 − r1 | |r2 − r1 |
(2)
similarmente se calcula ∂W/∂xi se obtiene entonces
(1) (2)
∂W ∂W ∂ |r2 − r1 | ∂W xi − x i
(1)
= (1)
=
∂xi ∂ |r2 − r1 | ∂x ∂ |r2 − r1 | |r2 − r1 |
i
(2) (1)
∂W ∂W ∂ |r2 − r1 | ∂W xi − x i
(2)
= = (16.6)
∂xi ∂ |r2 − r1 | ∂x(2) ∂ |r2 − r1 | |r2 − r1 |
i
reemplazando (16.6) en (16.5), resulta

~ 1 ∂W h
(1) (1) (2) (1) (1) (2)
[L3 , H] = x1 x2 − x 2 − x 2 x1 − x 1
i |r2 − r1 | ∂ |r2 − r1 |
i
(2) (2) (1) (2) (2) (1)
+x1 x2 − x2 − x2 x1 − x1
por tanto tenemos que

[L3 , H] = 0
y similarmente para las otras componentes. De modo que aunque L (1) y L(2) no son individualmente constantes de
movimiento, sı́ lo es su suma L(1) + L(2) definida como el momento total del sistema, al igual que en el caso clásico.
En lo anterior asumimos que las partı́culas no tienen espı́n. Vamos a tomar como segundo ejemplo a una partı́cula
con espı́n sujeta a una interacción de tipo central. El Hamiltoniano para una partı́cula sometida a una fuerza central
Ec. (12.25) conmuta con el momento angular orbital L de la partı́cula y como todos los operadores de espı́n conmutan
con todos los operadores orbitales, entonces S también conmuta con el Hamiltoniano. Por tanto, L y S son cada
una constantes de movimiento. Sin embargo, puede demostrarse que las correcciones relativistas introducen en el
Hamiltoniano un acoplamiento espı́n-órbita que es un término de la forma
HSO = ξ (r) L · S
siendo ξ (r) una función conocida de la variable r. Por el momento no analizaremos la procedencia fı́sica de este
término, pero sı́ sus consecuencias. El Hamiltoniano ahora es
H 0 = H + ξ (r) L · S
Y se puede ver que ni L ni S conmutan con el nuevo Hamiltoniano

L3 , H 0 = [L3 , H + HSO ] = [L3 , HSO ] = ξ (r) [L3 , L1 S1 + L2 S2 + L3 S3 ]

L3 , H 0 = ξ (r) [L3 , L1 S1 + L2 S2 ] = ξ (r) [L3 , L1 ] S1 + ξ (r) [L3 , L2 ] S2

L3 , H 0 = i~ξ (r) {L2 S1 − L1 S2 }
similarmente

S3 , H 0 = [S3 , HSO ] = ξ (r) [S3 , L1 S1 + L2 S2 + L3 S3 ]
0

S3 , H = ξ (r) [S3 , L1 S1 + L2 S2 ] = ξ (r) L1 [S3 , S1 ] + ξ (r) L2 [S3 , S2 ]
0

S3 , H = i~ξ (r) {L1 S2 − L2 S1 } = − L3 , H 0
vemos entonces que

S3 + L 3 , H 0 = 0
e igualmente para las otras componentes. De esto se deduce que
J≡L+S
es una constante de movimiento a pesar de que L y S no lo son. Llamaremos a J el momento angular total del
sistema.
Hay varias semejanzas entre los dos ejemplos realizados. En ambos tenemos dos momentos angulares parciales J (1)
(1) (2)
y J(2) que conmutan entre sı́. En ambos casos conocemos una base de autovectores de J 2(1) , J3 , J2(2) , J3 . También
ocurre en los dos ejemplos que cada momento angular no es constante de movimiento (cuando los subsistemas uno
y dos se acoplan) pero su suma sı́ lo es, definiendo
J ≡ J(1) + J(2)
(1) (2)
J conmuta con el Hamiltoniano del sistema. Nótese que la base de autovectores (conocida) de J 2(1) , J3 , J2(2) , J3
(1) (2)
no diagonaliza al Hamiltoniano puesto que éste no conmuta con J 3 ni con J3 . En contraste J2 y J3 sı́ conmutan
con el Hamiltoniano, por tanto una base común de J 2 y J3 hará que la matriz del Hamiltoniano sea diagonal por
bloques1 , tantos bloques como autosubespacios asociados a los conjuntos de autovalores de J 2 y J3 . Por tanto, la
estructura de la matriz será más simple en la base de vectores propios comunes a J 2 y J3 que en la base de vectores
(1) (2)
comunes a J2(1) , J3 , J2(2) , J3 .
(1) (2)
Puesto que el punto de partida es la base conocida de vectores propios comunes de J 2(1) , J3 , J2(2) , J3 nuestra
tarea será entonces construı́r a partir de ésta, una nueva base de vectores comunes a J 2 y J3 , esto nos enfrentará con
el problema de las reglas de adición o composición de los momentos angulares J (1) y J(2) . Abordaremos inicialmente
el problema de la adición de dos momentos angulares con j (1) = j(2) = 1/2.
16.3. La adición de dos momentos angulares es otro momento angular

Si tenemos dos momentos angulares arbitrarios J (1) y J(2) ambos sobre espacios diferentes, la suma (de los
operadores extendidos) es también un momento angular. Como cada J (α) es un momento angular, se tiene que
h i h i
(1) (1) (1) (2) (2) (2)
Ji , J j = iεijk Jk ; Ji , Jj = iεijk Jk
ahora se tiene que

h i h i h i
(1)
(2) (1) (2) (1) (1) (2) (2) (1) (2)
[Ji , Jj ] = Ji
+ Ji , Jj + Jj = Ji , J j + J j + Ji , J j + J j
h i h i h i h i
(1) (1) (1) (2) (2) (1) (2) (2)
[Ji , Jj ] = Ji , Jj + Ji , J j + Ji , J j + Ji , J j
dado que los momentos angulares J(1) y J(2) conmutan por ser de espacios diferentes, se tiene que
h i h i h i
(1) (1) (2) (2) (1) (2) (1) (2)
[Ji , Jj ] = Ji , Jj + Ji , J j = iεijk Jk + iεijk Jk = iεijk Jk + Jk
[Ji , Jj ] = iεijk Jk
lo cual muestra que si J(1) y J(2) son dos momentos angulares arbitrarios que conmutan entre sı́, entonces el operador
J ≡ J(1) + J(2)
también es un momento angular. Todas las propiedades generales de un momento angular serán válidas entonces
para J. Tendremos además otras propiedades para conmutadores mixtos (que involucren por ejemplo un momento
angular total y un momento angular parcial). En particular, veamos las propiedades de conmutación de J 2
2
J2 = J(1) + J(2) = J2(1) + J2(2) + 2J(1) · J(2) (16.7)
1
De hecho existirá una base que diagonaliza a los tres operadores simultáneamente.
16.3. LA ADICIÓN DE DOS MOMENTOS ANGULARES ES OTRO MOMENTO ANGULAR 349
donde hemos tenido en cuenta que J(1) y J(2) conmutan. El producto escalar se puede expresar en términos de los
(1) (2) (1) (2)
operadores escalera J± , J± y los operadores J3 y J3 .
(1) (2) (1) (2) (1) (2)
J(1) · J(2) = J1 J1 + J2 J2 + J3 J3 (16.8)
1 (1) (1)

(2) (2)
1 (1) (1)

(2) (2)

(1) (2)
= J+ + J − J+ + J − + 2 J+ − J − J+ − J − + J 3 J3
4 4i
1 h (1) (2) (1) (2) (1) (2) (1) (2) (1) (2) (1) (2)
= J J + J + J− + J − J+ + J − J− − J + J+ + J + J−
4 + + i
(1) (2) (1) (2) (1) (2)
+J− J+ − J− J− + J3 J3
1 (1) (2) (1) (2)

(1) (2)
J(1) · J(2) = J+ J− + J − J+ + J 3 J3 (16.9)
2
La idea ahora es comparar los conjuntos conmutantes
n o
2 (1) 2 (2)
J(1) , J3 , J(2) , J3 ; J2 , J 3
donde el primero consiste de momentos angulares parciales y el segundo de momentos angulares totales. Puesto que
J(1) y J(2) conmutan con J2(1) y J2(2) , también conmuta J
h i h i
J, J2(1) = J, J2(2) = 0
en particular J2 y J3 conmutan con J2(1) y J2(2)

h i hi
J3 , J2(1) J3 , J2(2) = 0
= (16.10)
h i h i
J2 , J2(1) = J2 , J2(2) = 0 (16.11)
(1) (2)
por otro lado, es obvio que J3 conmuta con J3 y J3
h i h i
(1) (2)
J3 , J 3 = J3 , J 3 =0 (16.12)
(1) (2)
pero J2 no conmuta ni con J3 ni con J3 , lo cual vemos usando (16.7, 16.8)
h i h i h i
(1) (1) (1)
J2 , J 3 = J2(1) + J2(2) + 2J(1) · J(2) , J3 = 2 J(1) · J(2) , J3
h i h i h i h i
(1) (1) (2) (1) (2) (1) (1) (2) (1) (1) (2) (1)
J2 , J 3 = 2 J1 J1 + J 2 J2 , J 3 = 2 J1 J1 , J 3 + 2 J2 J2 , J 3
h i h i h i h i
(1) (2) (1) (1) (1) (2) (1) (2) (1) (1) (1) (2)
= 2J1 J1 , J3 + 2 J1 , J3 J1 + 2J2 J2 , J3 + 2 J2 , J3 J2
h i
(1) (1) (2) (1) (2)
J2 , J 3 = −2i~J2 J1 + 2i~J1 J2
quedando finalmente h i h i
(1) (1) (2) (1) (2)
J2 , J 3 = 2i~ J1 J2 − J2 J1 (16.13)
y puesto que J es un momento angular, se cumple que
2
J ,J = 0
y por tanto h i h i h i
(1) (2) (1) (2)
J2 , J 3 + J 3 =0 ⇒ J2 , J 3 = − J2 , J 3
el análisis anterior nos muestra que el siguiente conjunto de operadores conmuta entre sı́
n o
J2 , J3 , J2(1) , J2(2)
16.4. Adición de dos momentos angulares con j(1) = j(2) = 1/2

(k)
Cada espacio E1/2 asociado a j(k) fijo, es un espacio de dos dimensiones. Por tanto, su producto tensorial
(1) (2)
E = E 1/2 ⊗E1/2 será de 4 dimensiones. Denotaremos a la base ortonormal “natural” en este espacio por {|ε 1 i ⊗ |ε2 i} ≡
{|ε1 , ε2 i} y en forma explı́cita escribimos
{|ε1 , ε2 i} = {|+, +i , |+, −i , |−, +i , |−, −i} (16.14)

(1) (2)
estos vectores son autoestados de los observables J 2(1) , J3 , J2(2) , J3 . Estrictamente estos operadores deben ser las
extensiones tensoriales de los operadores originales.
3 2
J2(1) |ε1 , ε2 i = J2(2) |ε1 , ε2 i = ~ |ε1 , ε2 i (16.15)
4
(1) ~ (2) ~
J3 |ε1 , ε2 i = ε1 |ε1 , ε2 i ; J3 |ε1 , ε2 i = ε2 |ε1 , ε2 i (16.16)
2 2
el conjunto
(1) (2)
J2(1) , J3 , J2(2) , J3 (16.17)
(1) (2)
forma para el espacio E = E 1/2 ⊗E1/2 , un C.S.C.O. “natural”, en el sentido de que este es el C.S.C.O. que se desprende
de la base “natural” o
n de E. En otras palabras, la base (16.14) está compuesta por vectores propios comunes al C.S.C.O.
(1) 2 (2)
J(1) , J3 , J(2) , J3 . Estrictamente J2(1) , J2(2) pueden ser excluı́dos ya que son proporcionales a la identidad 2 .
2
También hemos visto que los 4 observables
J2(1) , J2(2) , J2 , J3 (16.18)
(1) (2)
conmutan entre sı́. Veremos ahora que este conjunto también es un C.S.C.O. en E = E 1/2 ⊗ E1/2 . Adicionar dos
momentos angulares implica construı́r el sistema ortonormal de autovectores comunes al conjunto (16.18). Este
(1) (2)
conjunto diferirá de (16.14) ya que J 2 no conmuta con J3 , J3 . Denotaremos los vectores de la nueva base en la
forma |J, M i donde los autovalores de J 2(1) , J2(2) (que permanecen iguales) están implı́citos 3 . Estos vectores satisfacen
las relaciones
3
J2(1) |J, M i = J2(2) |J, M i = ~2 |J, M i (16.19)
4
J2 |J, M i = J (J + 1) ~2 |J, M i (16.20)
J3 |J, M i = M ~ |J, M i (16.21)
ya que J es un momento angular, entonces J debe ser entero o semientero no negativo, M debe estar entre −J y J
variando en saltos unidad. El problema es entonces encontrar los valores que J y M pueden tomar con base en los
valores de j1 , j2 y m1 , m2 , ası́ como expresar la base {|J, M i} en términos de la base conocida (16.14).
A continuación resolveremos el problema diagonalizando las matrices 4×4 que representan a J 2 y a J3 en la base
{|ε1 , ε2 i}. Más adelante se empleará un método más general que se puede usar en espacios vectoriales de dimensión
arbitraria.
16.4.1. Autovalores de J3 y su degeneración

(1) (2)
Nótese que para los observables J2(1,2) todos los vectores en el espacio E = E 1/2 ⊗ E1/2 son autovectores, por tanto
|J, M i ya son autovectores de estos observables.
2
Nótese que la ecuación (16.15) nos dice que J2(1) = J2(2) , entendidos como extensiones sobre el espacio tensorial, ya que actúan de
manera idéntica sobre todos los elementos de la base. Esto también se puede ver teniendo en cuenta que ambos son proporcionales
a la
2 2 (1) (2) 2 (1) 2 (2)
identidad en sus respectivos espacios, de modo que sus extensiones son J(1) = 3/4~ E ⊗ E y J(2) = E ⊗ 3/4~ E de modo
que J2(1) = J2(2) = 3/4~2 E (1×2) .
3
La notación completa serı́a J, M j(1) , j(2) = |J, M (1/2, 1/2)i.
16.4. ADICIÓN DE DOS MOMENTOS ANGULARES CON J(1) = J(2) = 1/2 351
Por otro lado, las Ecs. (16.10, 16.12) nos dicen que J 3 conmuta con los cuatro observables del C.S.C.O. dados
por la Ec. (16.17). Por tanto, esperamos que los vectores base {|ε 1 , ε2 i} sean automáticamente autovectores de J 3 .
Usando (16.16) se encuentra que
~
(1) (2)
J3 |ε1 , ε2 i = J3 + J3 |ε1 , ε2 i = (ε1 + ε2 ) |ε1 , ε2 i
2
vemos entonces que |ε1 , ε2 i es autovector de J3 con autovalor
1
M~ = (ε1 + ε2 ) ~ (16.22)
2
puesto que ε1 y ε2 toman los valores ±1, vemos que M toma los valores +1, 0, −1.
Los valores M = ±1 son no degenerados. Solo un autovector corresponde a cada uno de ellos: |+, +i corresponde
a +1 y |−, −i corresponde a −1. En otras palabras para que M = +1 solo hay una posibilidad ε 1 = ε2 = +1, el
caso M = −1 solo es posible si ε1 = ε2 = −1. En contraste, M = 0 tiene degeneración dos, a él corresponden los
estados |+, −i y |−, +i. Esto se traduce en que hay dos soluciones para M = 0, ε 1 = −ε2 = 1 y ε1 = −ε2 = −1.
Cualquier combinación lineal de los vectores |+, −i y |−, +i es un autoestado de J 3 con autovalor M = 0.
Estos resultados se ven claramente en la representación matricial de J 3 en la base {|ε1 , ε2 i}. Ordenando los
vectores en la forma de la Ec. (16.14) esta matriz es
 
1 0 0 0
 0 0 0 0 
(J3 ) = ~ 
 0 0 0 0 

0 0 0 −1
16.4.2. Diagonalización de J2
Aplicaremos J2 a los vectores de la base (16.14), para lo cual usaremos las Ecs. (16.7, 16.9)
2
(1) (2) (1) (2) (1) (2)
J2 = J(1) + J(2) = J2(1) + J2(2) + J+ J− + J− J+ + 2J3 J3
(1) (2)
los 4 vectores |ε1 , ε2 i son autovectores de J2(1) , J2(2) , J3 y J3 como se vé en la Ecs. (16.15, 16.16), y la acción de los
operadores escalera viene dada por la Ecs. (15.11), por tanto podemos evaluar J 2 |ε1 , ε2 i para todos los elementos
de la base {|ε1 , ε2 i}

2 3 2 3 2 1
J |+, +i = ~ + ~ |+, +i + ~2 |+, +i
4 4 2
= 2~2 |+, +i (16.23)

2 3 2 3 2 1
J |+, −i = ~ + ~ |+, −i − ~2 |+, −i + ~2 |−, +i
4 4 2
= ~2 [|+, −i + |−, +i] (16.24)

2 3 2 3 2 1
J |−, +i = ~ + ~ |−, +i − ~2 |−, +i + ~2 |+, −i
4 4 2
= ~2 [|+, −i + |−, +i] (16.25)

2 3 2 3 2 1
J |−, −i = ~ + ~ |−, −i + ~2 |−, −i
4 4 2
= 2~2 |−, −i (16.26)
la matriz representativa de J2 en la base {|ε1 , ε2 i} en el orden dado por (16.14) está dada por
 
2 0 0 0
 0 1 1 0 
J2 = ~ 2   0 1

1 0 
0 0 0 2
puesto que J2 conmuta con J3 , la matriz tendrá elementos no cero solo entre autovectores de J 3 asociados con el
mismo autovalor, lo cual explica los ceros de la matriz. De acuerdo con los resultados de la sección 16.4.1, los únicos
elementos no diagonales de J2 que son diferentes de cero, son aquellos que relacionan a los vectores {|+, −i , |−, +i},
los cuales están asociados al mismo valor de M (M = 0).
Ahora para diagonalizar esta matriz podemos tener en cuenta que es diagonal por bloques partiéndose en tres
submatrices  
A1×1 0 0
 0 B2×2 0 
0 0 C1×1
La matrices unidimensionales son las asociadas a los vectores |±, ±i que son autovectores de J 2 , como se vé en las
Ecs. (16.23,16.26). Los autovalores asociados son 2~ 2 . Ahora debemos diagonalizar la submatriz

2 1 1
B2×2 = ~
1 1
que representa a J2 dentro del subespacio dos dimensional generado por {|+, −i , |−, +i}, es decir el autosubespacio
de J3 que corresponde a M = 0. Los autovalores λ~ 2 = J (J + 1) ~2 de esta matriz se encuentran con la ecuación
caracterı́stica
(1 − λ)2 − 1 = 0
cuyas raı́ces son λ = 0 y λ = 2. Esto nos da los últimos autovalores de J 2 : 0 y 2~2 , es decir J = 0 y 1. Los
autovectores nos dan
1
|J = 1, M = 0i = √ [|+, −i + |−, +i] (16.27)
2
1
|J = 0, M = 0i = √ [|+, −i − |−, +i] (16.28)
2
como siempre, se puede colocar una fase global si se desea.
Vemos entonces que J2 tiene dos autovalores diferentes: 0 y 2~ 2 . El autovalor nulo es no degenerado y tiene como
único vector asociado a (16.28). Por otro lado, el valor propio 2~ 2 tiene degeneración triple, ya que está asociado a
los vectores |+, +i , |−−i y a la combinación lineal (16.27).
16.4.3. Autoestados de J2 y J3 : singlete y triplete

Hemos obtenido entonces los autovalores de J 2 y J3 ası́ como un conjunto completo de autovectores comunes
de J2 y J3 (que automáticamente son autoestados de J 2(1) y J2(2) ). Expresaremos los autoestados en la notación
(16.19-16.21).
El número cuántico J de (16.20) puede tomar dos valores: 0 y 1. El primero está asociado con un único vector,
que es también autovector de J3 con autovalor cero, el cual denotamos por
1
|0, 0i = √ [|+, −i − |−, +i] (16.29)
2
en tanto que para J = 1 hay tres vectores asociados con tres valores distintos de M
1
|1, 1i = |+, +i ; |1, 0i = √ [|+, −i + |−, +i] ; |1, −1i = |−−i (16.30)
2
se puede chequear fácilmente que los cuatro vectores dados en (16.29, 16.30) son ortonormales. La especificación de
J y M determina a un vector de esta base unı́vocamente, de modo que J 2 y J3 forman un C.S.C.O.. Aunque no es
necesario, a este C.S.C.O se le pueden agregar los operadores J 2(1) y J2(2) .
Por tanto cuando adicionamos dos momentos angulares con j 1 = j2 = 1/2 (por ejemplo dos espı́nes), el número J
que caracteriza al autovalor J (J + 1) ~ 2 del operador J2 puede ser igual a cero o igual a uno. Con cada uno de estos
valores se asocia una familia de (2J + 1) vectores ortogonales (tres para J = 1, uno para J = 0) que corresponden
a los 2J + 1 valores de M para J fijo.
16.5. MÉTODO GENERAL DE ADICIÓN DE DOS MOMENTOS ANGULARES ARBITRARIOS 353
A la familia (16.30) de tres vectores asociados a J = 1 se le denomina un triplete. Al vector |0, 0i asociado
a J = 0 se le denomina un singlete. La Ec. (16.30) nos muestra que los estados del triplete son simétricos con
respecto al intercambio de dos momentos angulares (por ejemplo espı́nes), en tanto que el estado singlete Ec.
(16.29) es antisimétrico. Es decir si cada vector |ε 1 , ε2 i se reemplaza por |ε2 , ε1 i, las expresiones (16.30) permanecen
invariantes en tanto que (16.29) cambia de signo. Esto tendrá gran importancia cuando las partı́culas cuyos espines
se adicionan sean idénticas. Además esto nos indica la combinación lineal de |+, −i con |−, +i que se requiere para
completar el triplete (debe ser simétrica). La parte singlete serı́a entonces la combinación lineal antisimétrica de
|+, −i con |−, +i la cual es ortogonal a la parte simétrica y por supuesto a los demás estados del triplete.
16.5. Método general de adición de dos momentos angulares arbitrarios

Consideraremos un sistema fı́sico descrito por el espacio E, y J un momento angular relativo a este sistema.
J puede ser un momento angular parcial o el momento angular total del sistema. Vimos en la sección 10.4.1, que
siempre es posible construı́r una base estándar {|j, m, ki} compuesta de autovectores comunes a J 2 y J3
J2 |j, m, ki = j (j + 1) ~2 |j, m, ki ; J3 |j, m, ki = m~ |j, m, ki (16.31)
de modo que la acción de los operadores escalera sobre esta base estándar está dada por las Ecs. (10.46)
p
J± |j, m, ki = ~ j (j + 1) − m (m ± 1) |j, m ± 1, ki (16.32)
denotamos como E (j, k) al autosubespacio expandido por vectores de la base estándar con j, k fijos. Este espacio
es de dimensión 2j + 1 correspondiente a los valores de m para un j dado. La dimensión no depende de k. Las Ecs.
(16.31, 16.32) nos dicen que los 2j + 1 vectores de la base para E (j, k) se transforman entre sı́ por medio de los
operadores J2 , J3 , J+ , J− . Es decir, el autosubespacio E (j, k) es globalmente invariante bajo estos cuatro operadores
y más en general es globalmente invariante bajo la acción de una función F (J). El espacio completo E se puede
escribir como una suma directa de subespacios ortogonales E (j, k) como se vé en la Ec. (10.45)
E = E (j1 , k = 1) ⊕ E (j1 , k = 2) ⊕ . . . ⊕ E (j1 , k = g (j1 )) ⊕

E (j2 , k = 1) ⊕ E (j2 , k = 2) ⊕ . . . ⊕ E (j2 , k = g (j2 )) ⊕
E (j3 , k = 1) ⊕ E (j3 , k = 2) ⊕ . . . ⊕ E (j3 , k = g (j3 )) ⊕ . . . (16.33)
debido a la invariancia de estos subespacios bajo los operadores J 2 , J3 , J+ , J− , F (J) estos operadores tendrán
una representación matricial en la base estándar donde los elementos matriciales no nulos están dentro de cada
subespacio E (j, k). Además dentro de cada subespacio E (j, k) los elementos de matriz de una función del tipo F (J)
son independientes de k.
Recordemos además que si a J2 y J3 le agregamos los operadores necesarios para formar un C.S.C.O. podemos
dar un significado fı́sico a k construyendo los vectores propios comunes a todo el C.S.C.O. si por ejemplo solo se
requiere un operador A para formar el C.S.C.O. y asumimos que A conmuta con J (escalar), podemos requerir que
los autovectores |j, m, ki también sean autovectores de A
A |j, m, ki = aj,k |j, m, ki (16.34)
de modo que la base estándar {|j, m, ki} estará determinada por las Ecs. (16.31, 16.32, 16.34). Cada E (j, k) es
también autosubespacio de A y el ı́ndice k discrimina entre los diferentes autovalores a j,k asociados a cada valor
de k. Cuando se requiere más de un operador para formar el C.S.C.O. el ı́ndice k corresponde realmente a varios
ı́ndices.
16.5.1. Formación del sistema a partir de dos subsistemas

Asumamos que nuestro sistema fı́sico se forma por la unión de dos subsistemas (por ejemplo un sistema de dos
partı́culas o la unión del sistema orbital con el de espı́n para una sola partı́cula). Usaremos los ı́ndices (1) y (2) para
denotar cantidades relativas a cada subsistema.
Asumiremos que para el espacio de estados E 1 del subsistema (1) conocemos una base estándar {|j 1 , m1 , k1 i} de
(1)
vectores propios comunes a J2(1) y J3 siendo J(1) el momento angular asociado al subsistema (1) por tanto las Ecs.
(16.31, 16.32) nos dan
(1)
J2(1) |j1 , m1 , k1 i = j1 (j1 + 1) ~2 |j1 , m1 , k1 i ; J3 |j1 , m1 , k1 i = m1 ~ |j1 , m1 , k1 i
(1)
p
J± |j1 , m1 , k1 i = ~ j1 (j1 + 1) − m1 (m1 ± 1) |j1 , m1 ± 1, k1 i
y similarmente para la base estándar {|j 2 , m2 , k2 i} del espacio E2 asociado al subsistema (2)
(2)
J2(2) |j2 , m2 , k2 i = j2 (j2 + 1) ~2 |j2 , m2 , k2 i ; J3 |j2 , m2 , k2 i = m2 ~ |j2 , m2 , k2 i
(2)
p
J± |j2 , m2 , k2 i = ~ j2 (j2 + 1) − m2 (m2 ± 1) |j2 , m2 ± 1, k2 i
el espacio de estados del sistema completo es el producto tensorial de los espacios E 1 y E2
E = E 1 ⊗ E2
y sabemos que el producto tensorial de las bases de E 1 y E2 formará una base en E. Denotamos esta base como
|j1 , m1 , k1 i ⊗ |j2 , m2 , k2 i ≡ |j1 , j2 ; m1 , m2 ; k1 , k2 i (16.35)
los espacios E1 y E2 son sumas directas de subespacios del tipo E 1 (j1 , k1 ) y E2 (j2 , k2 ) respectivamente. Estas sumas
están descritas por la Ec. (16.33)

(1) (1) (1) (1)
E1 = E1 j1 , k(1) = 1 ⊕ E1 j1 , k(1) = 2 ⊕ . . . ⊕ E1 j1 , k(1) = g j1 ⊕

(1) (1) (1) (1)
E1 j2 , k(1) = 1 ⊕ E1 j2 , k(1) = 2 ⊕ . . . ⊕ E1 j2 , k(1) = g j2 ⊕

(1) (1) (1) (1)
E1 j3 , k(1) = 1 ⊕ E1 j3 , k(1) = 2 ⊕ . . . ⊕ E1 j3 , k(1) = g j3 ⊕ ... (16.36)
(m)
y similarmente para el sistema (2). En este caso la notación j i representa diversos valores de j para el subsistema
m. No obstante, esta notación no será necesaria de aquı́ en adelante y usaremos j m para denotar el valor de j
asociado al subsistema m. Estas sumas las resumimos en la forma
X X
E1 = E1 (j1 , k1 ) ; E2 = E2 (j2 , k2 )
⊕ ⊕
por lo tanto E será la suma directa de subespacios E (j 1 , j2 ; k1 , k2 ) obtenido por el producto tensorial de los sube-
spacios E1 (j1 , k1 ) y E2 (j2 , k2 )
X
E= E (j1 , j2 ; k1 , k2 ) ; E (j1 , j2 ; k1 , k2 ) = E1 (j1 , k1 ) ⊗ E2 (j2 , k2 ) (16.37)
⊕
la dimensión del subespacio E (j1 , j2 ; k1 , k2 ) es (2j1 + 1) (2j2 + 1). Este subespacio será globalmente invariante ante
cualquier función de F (J1 ) y F (J2 ), donde naturalmente J1 y J2 son las extensiones de los operadores definidos
originalmente en cada subsistema.
16.5.2. Momento angular total y sus relaciones de conmutación

Vimos en la sección 16.3 que la suma de los momentos angulares
J = J(1) + J(2)
es también un momento angular siendo J (1) y J(2) las extensiones adecuadas. Por tanto J al igual que J (1) y J(2)
satisface las propiedades algebráicas de un momento angular. No obstante, también hay algunas relaciones de
conmutación entre momentos angulares totales y parciales que son de importancia en nuestra discusión (ver sección
16.3). Vimos que J(1) y J(2) conmutan con J2(1) y J2(2) y por tanto también con J. En particular J 2 y J3 conmutan
(1) (2)
con J2(1) y J2(2) . Además es inmediato que J3 y J3 conmutan con J3 , por tanto
h i h i h i h i h i h i
(1) (2)
J3 , J2(1) = J3 , J2(2) = J2 , J2(1) = J2 , J2(2) = J3 , J3 = J3 , J3 = 0 (16.38)
(1) (2)
sin embargo, J3 y J3 no conmutan con J2 lo cual se pudo ver partiendo de las Ecs. (16.7, 16.9)
J2 = J2(1) + J2(2) + 2J(1) · J(2) (16.39)

(1) (2) (1) (2) (1) (2)
J2 = J2(1) + J2(2) + 2J3 J3 + J+ J− + J− J+ (16.40)
con lo cual se llega a la Ec. (16.13)

h i h i h i
(1) (2) (1) (2) (1) (2)
J2 , J 3 = − J2 , J 3 = 2i~ J1 J2 − J2 J1 (16.41)
16.5.3. Cambio de base a realizar

Un vector de la base
{|j1 , m1 , k1 i ⊗ |j2 , m2 , k2 i} ≡ {|j1 , j2 ; m1 , m2 ; k1 , k2 i} (16.42)
es autoestado simultáneo de los observables
(1) (2)
J2(1) , J2(2) , J3 , J3
con autovalores j1 (j1 + 1) ~2 , j2 (j2 + 1) ~2 , m1 ~, m2 ~. Se observa entonces que la base (16.42) es adecuada para
el estudio de los momentos angulares individuales J (1) y J(2) de cada subsistema. Ahora bien, las Ecs. (16.38) nos
dicen que el conjunto de observables
J2(1) , J2(2) , J2 , J3
también conmutan entre sı́. Obsérvese que si construı́mos una base común a estos observables, serı́a más adecuada
para el estudio del momento angular total del sistema ya que un vector de esta base permitirı́a extraer los valores
propios de J2 y J3 . Esta base debe ser diferente a la anterior puesto que según la Ec. (16.41), J 2 no conmuta con
(1) (2)
J3 ni con J3 .
Además losnı́ndices k1 y o k2 tienen un significado fı́sico que es extensión natural del procedimiento para cada
2 (1)
subsistema. Si A1 , J(1) , J3 forma un C.S.C.O. en E1 donde A1 conmuta con J(1) entonces podemos escoger una
base estándar {|j1 , m1 , k1 i} consistente en los vectores
n ortonormales
o completos comunes a estos observables. Si algo
2 (2)
similar ocurre con un conjunto de observables A2 , J(2) , J3 en E2 entonces el conjunto
(1) (2)
A1 , A2 ; J2(1) , J2(2) ; J3 , J3
forma un C.S.C.O. en E cuyos autovectores están dados por la Ec. (16.42). Por otro lado, puesto que A 1 conmuta
con J(1) y con J(2) entonces conmutará con J. Esto a su vez implica que A 1 conmuta con J2 y J3 . Lo mismo ocurre
para el observable A2 , por tanto los observables en el conjunto
A1 , A2 ; J2(1) , J2(2) ; J2 , J3
conmutan entre ellos. Puede demostrarse que además forman un C.S.C.O. y la nueva base que buscaremos es un
sistema ortonormal de vectores propios comunes de este C.S.C.O.
Ahora bien, el subespacio E (j1 , j2 ; k1 , k2 ) definido en (16.37) es globalmente invariante bajo la acción de un
operador que sea función de J(1) o que sea función de J(2) . Por tanto, es globalmente invariante ante la acción de un
F (J). Esto implica que los observables J 2 y J3 que pretendemos diagonalizar, tienen elementos matriciales no nulos
solo dentro de cada espacio E (j1 , j2 ; k1 , k2 ). Las matrices de dimensión infinita que representan a J 2 y J3 en la base
(16.42) son diagonales por bloques y se pueden escribir como suma directa de submatrices cada una asociado a un
subespacio de la forma E (j1 , j2 ; k1 , k2 ). Por tanto, el problema se reduce a diagonalizar las submatrices asociadas a
cada subespacio E (j1 , j2 ; k1 , k2 ) cuya dimensión es (2j1 + 1) (2j2 + 1).

Por otro lado, los elementos matriciales en la base (16.42) para cualquier función F J(1) ó F J(2) son inde-
pendientes de k1 y k2 (solo los elementos matriciales de A 1 dependen de k1 y los de A2 dependen de k2 ). Por tanto,
esto también vale para J2 y J3 . En consecuencia, la diagonalización de estos dos operadores dentro de todos los
subespacios E (j1 , j2 ; k1 , k2 ) con el mismo valor de j1 y j2 , se realiza de forma idéntica. Por esta razón hablamos de
adición de los momentos angulares sin hacer referencia a los otros números cuánticos. Simplificaremos la notación
omitiendo los ı́ndices k1 y k2 escribiendo entonces
E (j1 , j2 ) ≡ E (j1 , j2 ; k1 , k2 ) ; |j1 , j2 ; m1 , m2 i ≡ |j1 , j2 ; m1 , m2 ; k1 , k2 i
puesto que J es un momento angular y E (j 1 , j2 ) es invariante ante F (J) entonces E (j 1 , j2 ) es una suma directa de
subespacios ortogonales E (J, k) cada uno de los cuales es invariante ante la acción de J 2 , J3 , J±
X
E (j1 , j2 ) = E (J, k) (16.43)
⊕
de aquı́ surgen las siguientes preguntas, dado un par j 1 y j2 ¿Cuáles son los valores de J que contribuyen en la suma
directa (16.43)? y ¿Cuántos subespacios E (J, k) están asociados con un J dado?.
Dado que tenemos una base conocida (16.42) esta será nuestro punto de partida para llegar a la base asociada
a J2 y J3 . Surge entonces el problema de expandir los autovectores de la base buscada asociados a E (j 1 , j2 ) en
términos de los autovectores de la base conocida (16.42).
Es importante mencionar que si tenemos más momentos angulares podemos adicionar los dos primeros y al
resultado le adicionamos un tercero y ası́ sucesivamente. Esto solo es posible puesto que el algoritmo de suma es
conmutativo y asociativo como veremos más adelante.
16.5.4. Autovalores de J2 y J3 : Caso de dos espines j1 = j2 = 1/2.

En este caso cada espacio E1 y E2 contiene solo un subespacio invariante ya que están asociados cada uno a un
valor fijo de j. El producto tensorial E = E 1 ⊗ E2 está asociado a un solo subespacio E (j 1 , j2 ) con j1 = j2 = 1/2.
De acuerdo con la descomposición (16.43), el espacio E (1/2, 1/2) es la suma directa de subespacios del tipo
E (J, k) de dimensión 2J + 1. Cada uno de estos subespacios contiene uno y solo un autovector de J 3 asociado a
cada uno de los valores de M tal que |M | ≤ J. Hemos visto en la sección 16.4.1 que M solo toma los valores 1, 0, −1;
donde el primero y el tercero no son degenerados en tanto que M = 0 es doblemente degenerado. De esto se concluye
que:
1. Valores de J > 1 están excluı́dos. Por ejemplo para que J = 2 fuera posible tendrı́a que existir al menos
un autovector de J3 con M = 2. Esto se debe a que la teorı́a del momento angular nos dice que para un j
dado los valores permitidos de m consisten en todos los valores enteros o semienteros que cubren el intervalo
−j ≤ m ≤ j en saltos unidad.
2. E (J = 1, k) aparece solo una vez (es decir k es único), puesto que M = ±1 solo aparece una vez, es decir
M = ±1 es no degenerado.
3. E (J = 0, k) aparece una sola vez. Esto se debe a que M = 0 es dos veces degenerado pero uno de los
autovectores con M = 0 está en el subespacio con J = 1, de modo que solo un autovector con M = 0
está asociado a un subespacio con J = 0.
Por tanto el espacio 4-dimensional E (1/2, 1/2) se descompone en subespacios del tipo E (J, k) según la Ec.
(16.43) en la forma

1 1
E , = E (J = 1) ⊕ E (J = 0)
2 2
que son de dimensión 3 y 1 respectivamente. Veremos ahora como extender estas conclusiones al caso general.
Figura 16.1: (a) Ilustración de las reglas de adición para momentos angulares en el caso general. (b) Pares de posibles
valores de (m, m0 ) = (m1 , m2 ) para el caso especı́fico j = j1 = 2, j 0 = j2 = 1. En ambos casos, los puntos asociados
con un valor dado de M = m + m0 = m1 + m2 están localizados sobre una lı́nea recta de pendiente −1 pintada
como lı́nea punteada. Hemos supuesto que j = j 1 ≥ j 0 = j2 , con lo cual el ancho del rectángulo es mayor o igual a
su altura.
16.5.5. Autovalores de J3 y su degeneración: Caso general

Consideremos un subespacio de la forma E (j 1 , j2 ) de dimensión (2j1 + 1) (2j2 + 1). Asumiremos que j1 y j2
están rotulados de modo que
j1 ≥ j 2
los vectores base {|j1 , j2 ; m1 , m2 i} de este subespacio (que se construyen con el producto tensorial de las bases de
los espacios factor) ya son autovectores de J 3

(1) (2)
J3 |j1 , j2 ; m1 , m2 i = J3 + J 3 |j1 , j2 ; m1 , m2 i = (m1 + m2 ) ~ |j1 , j2 ; m1 , m2 i
≡ M ~ |j1 , j2 ; m1 , m2 i
de modo que el correspondiente autovalor de M ~ es tal que
M = m 1 + m2 (16.44)
de lo cual, M toma los valores
M = j1 + j2 , j1 + j2 − 1, j1 + j2 − 2, . . . , − (j1 + j2 ) (16.45)
Denotaremos el grado de degeneración de cada M en el subespacio E (j 1 , j2 ), en la forma gj1 ,j2 (M ). Para encontrar
esta degeneración usaremos el siguiente procedimiento geométrico: realizamos un diagrama en dos dimensiones
asociando a cada vector |j1 , j2 ; m1 , m2 i un par ordenado donde el eje de abcisas se asocia con m 1 y el eje de
ordenadas con m2
|j1 , j2 ; m1 , m2 i ≡ (m1 , m2 )
todos los puntos asociados a estos vectores están ubicados en el borde o interior de un rectángulo cuyos vértices
están en (j1 , j2 ) , (j1 , −j2 ) , (−j1 , −j2 ) y (−j1 , j2 ). La Fig. 16.1 representa los puntos asociados a una configuración
arbitraria (izquierda) y una configuración con j 1 = 2, j2 = 1 (derecha). Si partimos de un punto dado (vector)
del tipo P = (m1 , m2 ) es claro que estados “vecinos” del tipo P ± ≡ (m1 ± 1, m2 ∓ 1) poseen el mismo valor de
M = m1 + m2 siempre y cuando existan los valores incrementados y decrementados de m 1 y m2 . Cuando alguno de
los valores incrementados o decrementados no exista, es por que el estado (m 1 , m2 ) se encuentra en alguno de los
bordes del rectángulo (o en una esquina). Para estados P en el interior del rectángulo, existe tanto P + como P− .
Dos puntos vecinos definidos con esta relación están unidos por una recta de pendiente −1
(m2 ∓ 1) − m2
pendiente = = −1
(m1 ± 1) − m1
En conclusión, los puntos situados a lo largo de las lı́neas punteadas de las Figs. 16.1a, y 16.1b, de pendiente −1,
corresponden a los vectores con el mismo valor de M = m 1 + m2 . El número de puntos (vectores) unidos por una
lı́nea define el grado de degeneración g j1 ,j2 (M ) del valor de M asociado.
Consideremos ahora los diferentes valores de M en orden descendente Ec. (16.45). Observaremos el patrón de
las lı́neas punteadas a medida que disminuye M . Empezando por el máximo M = j 1 + j2 vemos que este valor es
no-degenerado, ya que la lı́nea que lo cruza pasa solo por la esquina superior derecha (es en realidad un punto),
cuyas coordenadas son (j1 , j2 ). Vemos entonces que
gj1 ,j2 (j1 + j2 ) = 1 (16.46)
para el siguiente M = j1 + j2 − 1 la degeneración es doble (a menos que j 1 y/o j2 sean nulos), ya que la lı́nea
correspondiente contiene los puntos (j 1 , j2 − 1) y (j1 − 1, j2 ). Entonces
gj1 ,j2 (j1 + j2 − 1) = 2 (16.47)
La degeneración aumenta una unidad por cada decremento de M en una unidad, hasta que se alcanza la esquina
inferior derecha (j1 , −j2 ) del rectángulo4 , que corresponde al valor M = j1 − j2 ≥ 0 ya que suponemos siempre que
j1 ≥ j2 . El número de puntos llega entonces a su máximo (que es el número de puntos que miden “la altura” del
rectángulo) y es igual a
gj1 ,j2 (j1 − j2 ) = 2j2 + 1 (16.48)
si continuamos decrementando M , el número de puntos permanece constante en 2j 2 +1 siempre que la lı́nea asociada
a M cruce al rectángulo tocando sus lados superior (m 2 = j2 ) e inferior (m2 = −j2 ). Esto ocurre hasta que la lı́nea
asociada alcanza la esquina superior izquierda (−j 1 , j2 ) del rectángulo, para el cual M = −j 1 + j2 ≤ 0. Por tanto,
el número máximo de puntos 2j2 + 1 se mantiene en un intervalo para M dado por
gj1 ,j2 (M ) = 2j2 + 1 para − (j1 − j2 ) ≤ M ≤ j1 − j2 (16.49)
finalmente, para valores de M menores que − (j 1 − j2 ), la lı́nea asociada a cada M ya no intersecta la lı́nea superior
del rectángulo (m2 = j2 ) y gj1 ,j2 (M ) decrece monótonamente en la unidad por cada decremento unidad de M ,
alcanzando el valor 1 nuevamente cuando M = − (j 1 + j2 ), correspondiente a la esquina inferior izquierda del
rectángulo. Por lo tanto
gj1 ,j2 (−M ) = gj1 ,j2 (M ) (16.50)
estos resultados se resumen en la figura 16.2 para el caso j 1 = 2 y j2 = 1, esta figura muestra g2,1 (M ) como función
de M .
16.5.6. Autovalores de J2 : caso general

De la Ec. (16.45) vemos que los valores de M son enteros si j 1 y j2 son ambos enteros o ambos semi-enteros.
Ası́ mismo, los valores M son semi-enteros si unos de los j i es entero y el otro semientero. Por otro lado, la teorı́a
general del momento angular nos dice que J es entero (semi-entero) si y solo si M es entero (semi-entero). Podemos
entonces distinguir dos situaciones (1) j 1 y j2 son ambos enteros o semi-enteros, (2) Uno de los j i es entero y el otro
semientero. El primer caso conduce a pares (J, M ) enteros y el segundo caso a pares (J, M ) semi-enteros.
Puesto que el máximo valor de M es j1 +j2 , tenemos que J > j1 +j2 no aparece en E (j1 , j2 ) y por tanto no aparece
en la suma directa (16.43). Esto se debe a que para este valor J > j 1 + j2 tendrı́a que existir el correspondiente valor
de M = J según la teorı́a general del momento angular. Para J = j 1 + j2 hay un subespacio invariante asociado
E (J = j1 + j2 ), puesto que M = j1 + j2 existe, pero este subespacio es único ya que M = j 1 + j2 es no-degenerado.
En este subespacio hay uno y solo un vector asociado a M = j 1 + j2 − 1, y dado que M = j1 + j2 − 1 es doblemente
degenerado en E (j1 , j2 ), tenemos que J = j1 + j2 − 1 también está presente y a él corresponde un único subespacio
invariante E (J = j1 + j2 − 1).
4
Como estamos asumiendo que j1 ≥ j2 , siempre se alcanza la esquina inferior derecha (j1 , −j2 ) antes que la esquina superior izquierda
(−j1 , j2 ) en esta secuencia. A lo más ocurre que las dos esquinas se alcanzan al mismo tiempo cuando j1 = j2 , en cuyo caso tenemos un
cuadrado.
Figura 16.2: Gráfica del grado de degeneración g j1 ,j2 (M ) versus M , para el caso j1 = 1, j2 = 2 ilustrado en la Fig.
16.1b. El grado de degeneración se obtiene por simple conteo del número de puntos que toca cada lı́nea punteada
en la Fig. 16.1b. Adicionalmente, esta figura muestra la simetrı́a expresada por la Ec. (16.50).
En un contexto general denotaremos como p j1 ,j2 (J) el número de subespacios E (J, k) de E (j 1 , j2 ) asociados a
un J dado. En otras palabras, este es el número de diferentes valores de k para el valor dado de J (siendo j 1 y j2
fijos desde el principio).
Veremos que pj1 ,j2 (J) y gj1 ,j2 (M ) están asociados de manera sencilla. Consideremos un valor particular de M ,
a este valor de M está asociado uno y solo un vector en cada subespacio E (J, k) siempre que J ≥ |M |. Su grado de
degeneración está dado entonces por
gj1 ,j2 (M ) = pj1 ,j2 (J = |M |) + pj1 ,j2 (J = |M | + 1) + pj1 ,j2 (J = |M | + 2) + . . .
Invirtiendo esta relación, se obtiene a p j1 ,j2 (J) en términos de gj1 ,j2 (M )
pj1 ,j2 (J) = gj1 ,j2 (M = J) − gj1 ,j2 (M = J + 1)

= gj1 ,j2 (M = −J) − gj1 ,j2 (M = −J − 1) (16.51)
es de resaltar que en la Ec. (16.51), J es fijo y los valores de M no están asociados al valor fijo de J, sino a todos
los valores permitidos de M en E (j1 , j2 ). Por esta razón, los valores de gj1 ,j2 (M = J + 1) y gj1 ,j2 (M = −J − 1)
pueden ser no nulos.
Teniendo en cuenta la degeneración de los valores de M estudiada en la sección 16.5.5, podemos determinar los
valores del número cuántico J que ocurren en E (j 1 , j2 ) y el número de subespacios invariantes E (J, k) asociados
con cada uno de ellos. En primer lugar tenemos que
pj1 ,j2 (J) = 0 para J > j1 + j2
ya que gj1 ,j2 (M ) = 0 para |M | > j1 + j2 . Si ahora aplicamos las Ecs. (16.46, 16.47) tenemos que
pj1 ,j2 (J = j1 + j2 ) = gj1 ,j2 (M = j1 + j2 ) − gj1 ,j2 (M = j1 + j2 + 1)

pj1 ,j2 (J = j1 + j2 ) = gj1 ,j2 (M = j1 + j2 ) = 1
pj1 ,j2 (J = j1 + j2 − 1) = gj1 ,j2 (M = j1 + j2 − 1) − gj1 ,j2 (M = j1 + j2 ) = 2 − 1

pj1 ,j2 (J = j1 + j2 − 1) = 1
por tanto todos los valores de pj1 ,j2 (J) se pueden encontrar por iteración
pj1 ,j2 (J = j1 + j2 − 2) = 1, . . . , pj1 ,j2 (J = j1 − j2 ) = 1

finalmente, aplicando la Ec. (16.49) tenemos
pj1 ,j2 (J) = 0 para J < j1 − j2 = |j1 − j2 |
la última igualdad se obtiene recordando que hemos mantenido la suposición j 1 ≥ j2 en todo el tratamiento. Para
el caso j2 ≥ j1 solo hay que invertir los ı́ndices 1 y 2.
En conclusión, para valores fijos de j 1 y j2 , es decir dentro de un subespacio E (j 1 , j2 ) de dimension (2j1 + 1) (2j2 + 1)
los autovalores de J2 son tales que
J = j1 + j2 , j1 + j2 − 1, j1 + j2 − 2, . . . , |j1 − j2 |
y cada valor de J está asociado a un único subespacio invariante E (J, k) en la suma directa dada por la Ec. (16.43),
la cual se reduce a
jX
1 +j2
E (j1 , j2 ) = E (J) (16.52)

⊕J=|j1 −j2 |
de modo que el ı́ndice k es realmente innecesario. Esto implica en particular que si tomamos un valor fijo de J y
un valor fijo de M compatible con J (|M | ≤ J), existe un único vector |J, M i en E (j 1 , j2 ) asociado a estos números
cuánticos. La especificación de J es suficiente para determinar el subespacio invariante, y la especificación de M me
lleva a un único vector en dicho subespacio. En consecuencia J 2 y J3 forman un C.S.C.O. en E (j1 , j2 ).
A manera de consistencia, podemos mostrar que el número N de pares (J, M ) encontrados para E (j 1 , j2 ) coincide
con la dimensión (2j1 + 1) (2j2 + 1) de E (j1 , j2 ), puesto que el conjunto {|J, M i} constituye una base para E (j 1 , j2 ).
Asumiremos por simplicidad que j1 ≥ j2 . Puesto que cada subespacio E (J) es de dimensión 2J + 1 (es decir tiene
2J + 1 valores diferentes de M ), la suma directa (16.52) nos dice que
jX
1 +j2
N= (2J + 1) (16.53)
J=j1 −j2
si reemplazamos
J = j 1 − j2 + i
podemos calcular (16.53)
jX
1 +j2 2j2
X 2j2
X 2j2
X
N = (2J + 1) = [2 (j1 − j2 + i) + 1] = [2 (j1 − j2 ) + 1] 1+2 i
J=j1 −j2 i=0 i=0 i=0
2j2 (2j2 + 1)
= [2 (j1 − j2 ) + 1] (2j2 + 1) + 2 = (2j1 − 2j2 + 1) (2j2 + 1) + 2j2 (2j2 + 1)
2
= [(2j1 − 2j2 + 1) + 2j2 ] (2j2 + 1) = (2j1 + 1) (2j2 + 1)
16.6. Autovectores comunes de J2 y J3

La base “natural” de E (j1 , j2 ) es la base de los productos tensoriales entre las bases de E (j 1 ) y E (j2 ) denotada
(1) (2)
por {|j1 , j2 , m1 , m2 i}. Esta es la base de vectores propios comunes a J 2(1) , J3 , J2(2) , J3 . Ahora bien, los vectores
propios comunes a J2 , J3 , J2(1) , J2(2) serán denotados por |JM i. Estrictamente la notación deberı́a incluir los valores
j1 y j2 de donde proviene el producto tensorial. Sin embargo, esta notación se omitirá ya que j 1 y j2 son fijos en
todo el proceso. Por la misma razón, se simplificará la notación de la base natural escribiéndola simplemente como
{|m1 , m2 i}. Cuando sea necesario se distinguirán ambas bases por un subı́ndice en la forma |JM i J y |m1 , m2 ij . La
transformación de la base {|m1 , m2 i} a la base {|JM i}, se debe realizar con una transformación unitaria, puesto
que ambas bases son ortonormales. Como los {|JM i} son autovectores comunes de J 2 , J3 , J2(1) , J2(2) tenemos que
J2 |JM i = J (J + 1) ~2 |JM i ; J3 |JM i = M ~ |JM i

J2(1) |JM i = j1 (j1 + 1) ~ |JM i ; J2(2) |JM i = j2 (j2 + 1) ~2 |JM i
2
16.6. AUTOVECTORES COMUNES DE J2 Y J3 361
16.6.1. Caso especial j1 = j2 = 1/2

En la sección 16.4, hemos encontrado los vectores propios |J, M i en E (1/2, 1/2) a través de la diagonalización
de las representaciones matriciales. En este caso recurriremos a la generación de los diferentes vectores por medio de
operadores escalera J± . La ventaja de este método es que es más fácil de generalizar y de manejar cuando tenemos
valores altos de los momentos angulares.
En primer lugar el ket |1/2, 1/2i ≡ |++i es el único vector propio de J 3 en E (1/2, 1/2) que corresponde a M = 1.
Puesto que J2 y J3 conmutan, y el valor M = 1 es no degenerado, el teorema 1.66 página 50 nos dice que |++i
también tiene que ser autovector de J 2 . Siguiendo los razonamientos de la sección 16.5.4 el valor propio para J 2
tiene que ser J = 1. Por tanto, podemos escoger la fase del vector |J = 1, M = 1i para que coincida con |++i
|1, 1i = |++i (16.54)
los otros estados del triplete J = 1 se obtienen por aplicación sucesiva del operador J − tal como se describió en la
sección 10.4.1. Usando la Ec. (10.46), tenemos entonces
p √
J− |1, 1i = ~ 1 (1 + 1) − 1 (1 − 1) |1, 0i = ~ 2 |1, 0i
con lo cual se tiene
1 1
|1, 0i = √ J− |1, 1i = √ J− |++i
~ 2 ~ 2
para calcular |1, 0i en términos de la base original {|m 1 , m2 i} basta recordar que
(1) (2)
J− = J − + J −
con lo cual
1 (1) (2)
1
|1, 0i = √ J− + J− |++i = √ (~ |−+i + ~ |+−i)
~ 2 ~ 2
1
|1, 0i = √ (|−+i + |+−i) (16.55)
2
ahora aplicamos J− a |1, 0i para obtener el último elemento |1, −1i del triplete.
√
J− |1, 0i = ~ 2 |1, −1i (16.56)
combinando las Ecs. (16.55, 16.56) tenemos
1 1 (1) 1
(2)
|1, −1i = √ J− |1, 0i = √ J− + J− √ (|−+i + |+−i)
~ 2 ~ 2 2
1 h i 1 h (2) i
(1) (2) (1) (2) (1)
= J− + J− |−+i + J− + J− |+−i = J− |−+i + J− |+−i
2~ 2~
1
= [~ |−−i + ~ |−−i]
2~
|1, −1i = |−−i
nótese que el estado |−−i se pudo haber extraı́do con un argumento similar al usado para encontrar |++i, ya que
el estado con M = −1 al igual que el asociado a M = 1 es no degenerado. El procedimiento anterior tiene sin
embargo la ventaja de mostrar el algoritmo general y además nos permite ajustar las convenciones de fases que
podrı́an aparecer en |1, 0i y |1, −1i. Existen dos lugares en el procedimiento en donde se fijan las fases, en la Ec.
(16.54) se puede colocar una fase arbitraria, y en las Ecs. (10.46) para J ± se pueden colocar fases que dependan de
m.
Finalmente, encontraremos el estado singlete |J = 0, M = 0i , que es el único vector del subespacio unidimen-
sional E (J = 0). Este se puede encontrar dentro de fases constantes, con la condición de ser ortonormal al triplete.
Al ser ortonormal a |1, 1i = |++i y a |1, −1i = |−−i, se tiene que |0, 0i debe ser una combinación lineal de |+−i
y |−+i
|0, 0i = α |+−i + β |−+i (16.57)
2 2
h0, 0 |0, 0i = |α| + |β| = 1 (16.58)
en donde hemos agregado la condición de normalización. Teniendo en cuenta que |0, 0i también debe ser ortogonal
a |1, 0i, las Ecs. (16.55, 16.57) nos dan
1
h1, 0 |0, 0i = √ [h−+| + h+−|] [α |+−i + β |−+i] = 0
2
⇒ α h−+| + −i + β h−+| − +i + α h+−| + −i + β h+−| − +i = 0
β+α = 0 (16.59)
combinando las Ecs. (16.58, 16.59) tenemos
1
α = −β ⇒ |α|2 = |β|2 ⇒ 2 |α|2 = 1 ⇒ |α| = √
2
con lo cual
1
α = −β = √ eiχ
2
siendo χ cualquier número real. Eligiendo χ = 0, tenemos
1
|0, 0i = √ [|+−i − |−+i]
2
es importante observar que con este método no fué necesario recurrir a las representaciones matriciales de los
operadores, en particular de J2 (que fué la que se tuvo que diagonalizar).
16.7. Autovectores de J2 y J3 : Caso general

Hemos visto en la sección 16.5.6, Ec. (16.52) que la descomposición de E (j 1 , j2 ) como suma directa de subespacios
invariantes E (J) está dada por
E (j1 , j2 ) = E (j1 + j2 ) ⊕ E (j1 + j2 − 1) ⊕ . . . ⊕ E (|j1 − j2 |) (16.60)
determinaremos los vectores |J, M i para cada uno de estos subespacios
16.7.1. Determinación de los vectores |JM i del subespacio E (j1 + j2 )

El ket |m1 = j1 , m2 = j2 i es el único autovector de J3 en E (j1 , j2 ) con M = j1 +j2 . Puesto que J2 y J3 conmutan
y M = j1 + j2 es no-degenerado, el teorema 1.66 página 50 nos dice que |m 1 = j1 , m2 = j2 i también tiene que ser
autovector de J2 . De acuerdo con (16.60) el valor asociado de J solo puede ser J = j 1 + j2 . Podemos escoger el
factor de fase de manera que
|J = j1 + j2 , M = j1 + j2 i = |m1 = j1 , m2 = j2 i
que también denotaremos por

|j1 + j2 , j1 + j2 iJ = |j1 , j2 ij (16.61)
la aplicación reiterada de J− permitirá encontrar todos los vectores del tipo |J, M i asociados a J = j 1 +j2 . Aplicando
las Ecs. (10.46), tenemos
p
J− |j1 + j2 , j1 + j2 iJ = ~ 2 (j1 + j2 ) |j1 + j2 , j1 + j2 − 1iJ
1
|j1 + j2 , j1 + j2 − 1iJ = p J− |j1 + j2 , j1 + j2 iJ (16.62)
~ 2 (j1 + j2 )
para escribir el vector |j1 + j2 , j1 + j2 − 1iJ en términos de la base original |m1 , m2 ij , debemos escribir el término
(1) (2)
de la derecha en la Ec. (16.62) en la base original, para lo cual tenemos en cuenta que J − = J− + J− y que
|j1 + j2 , j1 + j2 iJ = |j1 , j2 ij ; con lo cual la Ec. (16.62) queda
16.7. AUTOVECTORES DE J2 Y J3 : CASO GENERAL 363

(1) (2) √ √
J− + J− |j1 , j2 ij ~ 2j1 |j1 − 1, j2 ij + ~ 2j2 |j1 , j2 − 1ij
|j1 + j2 , j1 + j2 − 1iJ = p = p
~ 2 (j1 + j2 ) ~ 2 (j1 + j2 )
obteniendo finalmente
s s
j1 j2
|j1 + j2 , j1 + j2 − 1iJ = |j1 − 1, j2 ij + |j1 , j2 − 1ij (16.63)
j1 + j 2 j1 + j 2
nótese además que la combinación lineal de vectores originales que me forma a |j 1 + j2 , j1 + j2 − 1iJ está au-
tomáticamente normalizada.
Para obtener |j1 + j2 , j1 + j2 − 2iJ , aplicamos J− a ambos lados de la Ec. (16.63) escribiendo tal operador como
(1) (2)
J− = J− + J− a la derecha de dicha ecuación. Podemos repetir este procedimiento sistemáticamente, hasta llegar
al estado |j1 + j2 , − (j1 + j2 )iJ , el cual se puede ver que es igual a |−j 1 , −j2 ij por un argumento similar al que nos
llevó a la Ec. (16.61), puesto que M = −j 1 − j2 también es no-degenerado.
Al finalizar este proceso hemos encontrado todos los 2 (j 1 + j2 ) + 1 vectores de la forma |J = j1 + j2 , M i, los
cuales expanden el subespacio E (J = j 1 + j2 ) de E (j1 , j2 ).
16.7.2. Determinación de los vectores |JM i en los otros subespacios

Definiremos ahora a G (j1 + j2 ) como el suplemento o complemento ortogonal de E (j 1 + j2 ) en E (j1 , j2 ). De
acuerdo con la Ec. (16.60), tal complemento ortogonal estará dado por
G (j1 + j2 ) = E (j1 + j2 − 1) ⊕ E (j1 + j2 − 2) ⊕ . . . ⊕ E (|j1 − j2 |)
y aplicamos a G (j1 + j2 ) un análisis análogo al realizado en la sección 16.7.1 para E (j 1 + j2 ).

En G (j1 + j2 ) el grado de degeneración gj0 1 ,j2 (M ) de un valor dado de M es menor en la unidad que la degen-
eración en el espacio completo E (j 1 , j2 )
gj0 1 ,j2 (M ) = gj1 ,j2 (M ) − 1 (16.64)
esto se debe a que E (j1 + j2 ) posee uno, y solo un vector asociado a cada valor accesible de M en E (j 1 , j2 ). Es
decir, para cada M en el intervalo − (j 1 + j2 ) ≤ M ≤ j1 + j2 hay uno y solo un vector en E (j1 + j2 ). En particular,
M = j1 + j2 ya no existe en G (j1 + j2 ), y por tanto el valor máximo de M en G (j 1 + j2 ) es M = j1 + j2 − 1,
como este era doblemente degenerado en E (j 1 , j2 ), será no-degenerado en G (j1 + j2 ). Por argumentos similares
a los de la sección 16.7.1, el vector asociado a M = j 1 + j2 − 1 en este subespacio, debe ser proporcional a
|J = j1 + j2 − 1, M = j1 + j2 − 1i. Queremos ahora encontrar su expansión en términos de la base {|m 1 , m2 i}. En
virtud del valor de M = j1 + j2 − 1, la expansión debe ser de la forma
|j1 + j2 − 1, j1 + j2 − 1iJ = α |j1 , j2 − 1ij + β |j1 − 1, j2 ij ; |α|2 + |β|2 = 1 (16.65)
donde además requerimos la normalización. Adicionalmente, este estado debe ser ortogonal a |j 1 + j2 , j1 + j2 − 1iJ ∈
E (j1 + j2 ), i.e. al estado del complemento ortogonal de G (j 1 + j2 ) con el mismo valor de M = j1 + j2 − 1. Usando
las expresiones (16.63, 16.65) para este vector, dicha ortogonalidad se escribe como
J hj1 + j2 , j1 + j2 − 1 |j1 + j2 − 1, j1 + j2 − 1iJ = 0

"s s #
j1 j2 h i
j hj1 − 1, j2 | + j hj1 , j2 − 1| α |j1 , j2 − 1ij + β |j1 − 1, j2 ij = 0
j1 + j 2 j1 + j 2
s s
j1 j2
β j hj1 − 1, j2 | j1 − 1, j2 ij + α j hj1 , j2 − 1| j1 , j2 − 1ij = 0
j1 + j 2 j1 + j 2
s s
j1 j2
β +α = 0 (16.66)
j1 + j 2 j1 + j 2
la condición de normalización (16.65) junto con la Ec. (16.66) nos permiten encontrar α y β dentro de un factor de
fase. Escogiendo α real y positivo, la Ec. (16.66) nos dice que β es real y toma el valor
s
j2 2 2 2 j2 2 j1 + j 2
β = −α ⇒α +β =α 1+ =1⇒α =1
j1 j1 j1
s s s
j1 j2 j2
α = ; β = −α =−
j1 + j 2 j1 j1 + j 2
Con lo cual la Ec. (16.65) queda

s s
j1 j2
|j1 + j2 − 1, j1 + j2 − 1iJ = |j1 , j2 − 1ij − |j1 − 1, j2 ij (16.67)
j1 + j 2 j1 + j 2
este es el primer vector de una nueva familia caracterizada por J = j 1 + j2 − 1, de forma similar al vector asociado
a J = j1 + j2 en la sección 16.7.1. Los otros vectores de esta nueva familia se pueden generar por aplicación sucesiva
del operador J− . De esta forma, obtenemos [2 (j1 + j2 − 1) + 1] vectores del tipo |J = j1 + j2 − 1, M i donde J y M
toman los valores
J = j1 + j2 − 1 ; M = j1 + j2 − 1, j1 + j2 − 2, . . . , − (j1 + j2 − 1)
estos vectores nos permiten expandir al subespacio E (j 1 + j2 − 1).

Ahora bien, si j1 +j2 −2 ≥ |j1 − j2 | podemos formar el suplemento de la suma directa E (j 1 + j2 )⊕E (j1 + j2 − 1)
en el espacio E (j1 , j2 )
G (j1 + j2 , j1 + j2 − 1) = E (j1 + j2 − 2) ⊕ E (j1 + j2 − 3) ⊕ . . . ⊕ E (|j1 − j2 |)
en el suplemento G (j1 + j2 , j1 + j2 − 1), la degeneración de cada valor de M decrece en una unidad con respecto a
la degeneración en el suplemento anterior G (j 1 + j2 ). En particular, el máximo valor de M es ahora M = j 1 + j2 − 2
y es no-degenerado. El vector asociado en G (j 1 + j2 , j1 + j2 − 1) será |J = j1 + j2 − 2, M = j1 + j2 − 2i.
Para calcular al vector |j1 + j2 − 2, j1 + j2 − 2iJ en términos de la base |m1 , m2 i, basta notar que éste debe ser
una combinación lineal de tres vectores
|j1 + j2 − 2, j1 + j2 − 2iJ = α1 |j1 , j2 − 2ij + α2 |j1 − 1, j2 − 1ij + α3 |j1 − 2, j2 ij (16.68)
los tres coeficientes se fijan dentro de un factor de fase por la condición de normalización y de ortogonalidad con
los vectores (ya conocidos) dados por: |j 1 + j2 , j1 + j2 − 2i , |j1 + j2 − 1, j1 + j2 − 2i. Es decir, los vectores en el
complemento ortogonal de G (j1 + j2 , j1 + j2 − 1), con el mismo valor de M = j1 + j2 − 2. Una vez determinados
los coeficientes en (16.68), podemos encontrar los demás vectores de esta tercera familia, por aplicación sucesiva de
J− . Estos vectores nos permiten expandir a E (j 1 + j2 − 2).
El procedimiento se puede repetir hasta abarcar todos los valores de M mayores o iguales a |j 1 − j2 |, y en virtud
de la Ec. (16.50) también todos los valores correspondientes a M menores o iguales a − |j 1 − j2 |. De esta forma
determinamos todos los vectores {|J, M i} en términos de la base original {|m 1 , m2 i}.
16.8. Transformación de la base desacoplada a la base acoplada y coeficientes

de Clebsch-Gordan
(1) (2)
En el espacio E (j1 , j2 ), los autovectores comunes a J2(1) , J3 , J2(2) , J3 , y que denotamos (en notación completa)
por {|j1 , j2 ; m1 , m2 i} forman una base ortonormal conocida como la base “desacoplada” en el sentido de que esta base
nos da información directa de los números cuánticos individuales de cada partı́cula. Por otra parte, los autovectores
comunes a J2 , J3 , J2(1) , J2(2) , y que denotamos (en notación completa) por {|j 1 , j2 ; J, M i} forman una base ortonormal
conocida como la base “acoplada” ya que esta base nos da información directa de los números cuánticos asociados
al sistema como un todo.
16.8. TRANSFORMACIÓN DE LA BASE DESACOPLADA A LA BASE ACOPLADA Y COEFICIENTES DE CLEB
La transformación que nos lleva desde la base desacoplada hasta la base acoplada es unitaria puesto que es una
transformación de una base ortonormal a otra base también ortonormal. Esta transformación unitaria se escribe
fácilmente usando la completez de la base desacoplada
j1
X j2
X
|j1 , j2 ; J, M i = |j1 , j2 ; m1 , m2 i hj1 , j2 ; m1 , m2 | J, M i (16.69)
m1 =−j1 m=−j2
cambiaremos ligeramente la notación para los coeficientes de esta expansión en la forma
hj1 , j2 ; m1 , m2 | J, M i ≡ hm1 , m2 (j1 , j2 ) J, M i (16.70)
con lo cual la expansión (16.69) se escribe como

j1
X j2
X
|j1 , j2 ; J, M i = |j1 , j2 ; m1 , m2 i hm1 , m2 (j1 , j2 ) J, M i (16.71)
m1 =−j1 m=−j2
los coeficientes hm1 , m2 (j1 , j2 ) J, M i de la expansión, que son elementos de la matriz unitaria de transformación,
se conocen como coeficientes de Clebsch-Gordan. Los números cuánticos de la izquierda indican un ket de la base
desacoplada, los de la derecha indica un ket de la base acoplada y los números cuánticos (j 1 , j2 ) del centro, in-
dican los momentos angulares j1 y j2 que se están acoplando. Un aspecto importante es que la notación original
|j1 , j2 ; m1 , m2 ; k1 , k2 i , |j1 , j2 ; J, M ; k1 , k2 i para las bases no es necesaria dado que los productos internos son in-
dependientes de k1 y k2 , y dentro del espacio E (j1 , j2 ) los k 0 s toman un solo valor, de modo que dentro de este
subespacio este número cuántico no discrimina diferentes estados.
No es posible dar expresiones generales para los coeficientes de Clebsch-Gordan. Estos coeficientes se pueden
generar con el algoritmo explicado en las secciones anteriores. Adicionalmente, existen tablas numéricas de estos
coeficientes. Por ejemplo, las Ecs. (16.61, 16.63, 16.67) nos permiten encontrar algunos coeficientes de Clebsch-
Gordan
hj1 , j2 (j1 , j2 ) j1 + j2 , j1 + j2 i = 1
s
j1
hj1 − 1, j2 (j1 , j2 ) j1 + j2 , j1 + j2 − 1i =
j1 + j 2
s
j2
hj1 , j2 − 1 (j1 , j2 ) j1 + j2 , j1 + j2 − 1i =
j1 + j 2
s
j1
hj1 , j2 − 1 (j1 , j2 ) j1 + j2 − 1, j1 + j2 − 1i =
j1 + j 2
s
j2
hj1 − 1, j2 (j1 , j2 ) j1 + j2 − 1, j1 + j2 − 1i = −
j1 + j 2
Es importante mencionar que para determinar estos coeficientes en forma única, deben escogerse ciertas con-
venciones de fases. Lo usual es definir estos coeficientes como reales. Sin embargo, la escogencia de ciertas fases
dictamina el signo de algunos coeficientes. Por supuesto, los signos relativos de los coeficientes que aparecen en la
expansión del mismo vector |J, M i están fijos, solo se puede escoger en forma arbitraria el signo global.
Adicionalmente, la reglas de adición que hemos obtenido muestran que estos coeficientes tienen unas reglas de
selección: el coeficiente hj1 , j2 ; m1 , m2 | J, M i es diferente de cero solo si
M = m1 + m2 ; |j1 − j2 | ≤ J ≤ j1 + j2 (16.72)
donde J debe ser del mismo tipo (entero o semi-entero) que los valores j 1 + j2 y |j1 − j2 |. La segunda condición en
(16.72) se conoce usualmente como “regla del triángulo” ya que expresa el hecho de que si la condición se satisface,
debe poderse formar un triángulo con tres segmentos de longitud j 1 , j2 y J. En otras palabras, la segunda ecuación
(16.72) expresa el conocido teorema que nos dice que un lado J de un triángulo es menor que la suma de los otros
dos lados y mayor que su diferencia.
Naturalmente la relación inversa de la expresada en (16.71) se puede obtener usando la completez de la base
acoplada
jX
1 +j2 J
X
|j1 , j2 ; m1 , m2 i = |J, M i hJ, M |j1 , j2 ; m1 , m2 i (16.73)
J=j1 −j2 M =−J
dado que los coeficientes de C-G son elementos de una matriz unitaria y se eligen como reales, la matriz será ortogonal
real, por tanto se cumple la condición
hJ, M |j1 , j2 ; m1 , m2 i = hj1 , j2 ; m1 , m2 | J, M i (16.74)
En sı́ntesis, los coeficientes de Clebsch-Gordan determinan la transformación de la base desacoplada a la base

acoplada y viceversa.
Capı́tulo 17
Propiedades generales de los sistemas de dos

estados
Si por ejemplo consideramos los estados propios del operador de espı́n S para una partı́cula de espı́n s = 1/2,
tenemos que hay solo dos autoestados de S que usualmente denotamos |±i. Si estamos interesados en información
concerniente solo a variables de espı́n, por ejemplo la probabilidad de que el momento magnético de espı́n sea
+1/2 en una medida de espı́n (sin importar los valores que tomen las variables espaciales), entonces podemos por
simplicidad considerar un espacio vectorial (espinorial) de solo dos dimensiones para realizar los cálculos, tal que
los dos estados |±i formarán una base para dicho espacio.
Existen otros escenarios en los cuales los sistemas de dos estados resultan relevantes en mecánica cuántica.
Consideremos un sistema para el cual existen dos estados con energı́as muy cercanas entre sı́, y que son muy
diferentes a las energı́as de los otros autoestados de energı́a del sistema. Asumamos que queremos evaluar el efecto
de una perturbación externa o de una perturbación interna previamente ignorada. Si la intensidad de la perturbación
es suficientemente pequeña, se puede demostrar que su efecto sobre los dos estados “cercanos”, se puede calcular en
primera aproximación ignorando los otros niveles de energı́a. De modo que todos los cálculos involucran un espacio
de dos dimensiones.
17.1. Formulación del problema

Consideremos un sistema fı́sico cuyo espacio de estados es de dos dimensiones. Como ya se mencionó esto es
usualmente solo una aproximación, en la cual asumimos que hay un subespacio dos dimensional del espacio completo
de estados que está casi desacoplado de su complemento ortogonal. Es decir, la probabilidad de obtener valores de
energı́a diferentes a las de los dos estados en una medición es mucho menor que la probabilidad de obtener alguna de
las dos energı́as de los dos estados en cuestión. De acuerdo con el quinto postulado, esto implica que la probabilidad
de que el sistema esté en una combinación lineal que involucra solo a los dos estados es casi uno.
Definamos un Hamiltoniano H0 que denominaremos Hamiltoniano no perturbado, y usaremos la base de sus
vectores propios |ϕ1 i , |ϕ2 i para realizar los cálculos. Sus niveles de energı́a serán E 1 y E2 de modo que
H0 |ϕ1 i = E1 |ϕ1 i ; H0 |ϕ2 i = E2 |ϕ2 i , hϕi |ϕj i = δij , i, j = 1, 2 (17.1)
ahora queremos tener en cuenta una perturbación externa o interacción interna previamente ignorada. Tal pertur-
bación (también llamado acople) será simbolizada como W , y el Hamiltoniano perturbado H viene dado por
H = H0 + W (17.2)
denotaremos a los autoestados y autovalores de H como |ψ ± i y E± respectivamente
H |ψ+ i = E+ |ψ+ i ; H |ψ− i = E− |ψ− i (17.3)
asumiremos que W es independiente del tiempo. Expresaremos matricialmente a la perturbación W usando la base
no perturbada |ϕ1 i , |ϕ2 i (i.e. la base de vectores propios del Hamiltoniano no perturbado H 0 )

hϕ1 | W |ϕ1 i hϕ1 | W |ϕ2 i W11 W12
W = = , Wij = Wji∗ (17.4)
hϕ2 | W |ϕ1 i hϕ2 | W |ϕ2 i W21 W22
368 CAPÍTULO 17. PROPIEDADES GENERALES DE LOS SISTEMAS DE DOS ESTADOS
de modo que W11 y W22 son reales y W12 = W21 ∗ . En ausencia del acople o perturbación W , las energı́as accesibles
del sistema son E1 y E2 , siendo |ϕ1 i , |ϕ2 i los estados estacionarios del sistema, de modo que si en t = 0 el sistema
está en uno de estos dos estados, permanecerá en el indefinidamente. Veremos entonces como se modifican las
energı́as y estados estacionarios cuando se introduce el acople W .
17.2. Consecuencias de la introducción del acople sobre los niveles de energı́a

y los estados estacionarios
Al introducir el acople, el Hamiltoniano del sistema será el descrito en la Ec. (17.2). Por tanto, de acuerdo
con los postulados, los niveles de energı́a y estados estacionarios serán ahora los descritos en la Ec. (17.3). Una
medida de la energı́a solo podrá dar alguno de los valores E + ó E− y los estados estacionarios serán sus autoestados
asociados |ψ+ i y |ψ− i. Esto implica en particular que E1 y E2 ya no son energı́as permitidas en el sistema y los
estados |ϕ1 i y |ϕ2 i ya no serán estados estacionarios (pues estos no son en general autovalores ni autoestados del
Hamiltoniano perturbado H). Esto implica que si el sistema está inicialmente en el estado |ϕ 1 i la introducción de
la perturbación genera una evolución temporal y por tanto hay cierta probabilidad P 12 (t) de encontrar al sistema
en el estado |ϕ2 i en el tiempo t. Decimos entonces que W induce transiciones entre los estados no perturbados. Por
esta razón decimos que W actúa como un acople entre |ϕ 1 i y |ϕ2 i.
17.2.1. Efecto del acople sobre los estados estacionarios del sistema
La representación matricial del Hamiltoniano perturbado en la base |ϕ 1 i, |ϕ2 i será
∗

E1 + W11 W21
H=
W21 E2 + W22
los valores y vectores propios de esta matriz se realizaron en detalle en la sección 1.45.3. Las Ecs. (1.220, 1.221,
1.222) nos muestran tales autovalores y autovectores
q
1 1
E± = (E1 + W11 + E2 + W22 ) ± (E1 + W11 − E2 − W22 )2 + 4 |W12 |2 (17.5)
2 2
θ θ
|ψ+ i = cos e−iϕ/2 |ϕ1 i + sin eiϕ/2 |ϕ2 i (17.6)
2 2
θ θ
|ψ− i = − sin e−iϕ/2 |ϕ1 i + cos eiϕ/2 |ϕ2 i (17.7)
2 2
donde los ángulos θ y ϕ están dados por la Ecs. (1.223)
2 |W21 |
tan θ = , W21 = |W21 | eiϕ ; 0 ≤ θ < π , 0 ≤ ϕ < 2π (17.8)
E1 + W11 − E2 − W22
Es fácil ver que si W12 = 0, los autoestados de H son los autoestados de H 0 y los nuevos niveles de energı́a
son simplemente E1 + W11 y E2 + W22 . Por tanto, los efectos interesantes surgen cuando W posee elementos no-
diagonales W12 = W21 ∗ . Para simplificar la discusión asumimos que la matriz de W en la base {|ϕ i , |ϕ i} es
1 2
puramente no-diagonal1 . Haciendo W11 = W22 = 0 en las Ecs. (17.5, 17.8) obtenemos
q
1 1
E± = (E1 + E2 ) ± (E1 − E2 )2 + 4 |W12 |2 (17.9)
2 2
2 |W21 |
tan θ = , 0 ≤ θ < π ; W21 = |W21 | eiϕ (17.10)
E1 − E 2
es conveniente definir las siguientes variables
1 1
Em ≡ (E1 + E2 ) ; ∆≡ (E1 − E2 ) (17.11)
2 2
1
Si W11 y W22 son no nulos, podemos definir E e1 = E1 + W11 y Ee2 = E2 + W22 . Todos los resultados que se obtendrán en esta sección
serán válidos en este caso, haciendo los reemplazos E1 → Ee1 y E2 → Ee2 .
17.2. CONSECUENCIAS DE LA INTRODUCCI ÓN DEL ACOPLE SOBRE LOS NIVELES DE ENERG ÍA Y LOS ES
que corresponden al promedio y el desdoblamiento de los niveles no perturbados. Sustituyendo (17.11) en las Ecs.
(17.9, 17.10) tenemos que
q q
|W21 |
E+ = Em + ∆2 + |W21 |2 ; E− = Em − ∆2 + |W21 |2 ; tan θ = (17.12)
∆
Las Ecs. (17.12) muestran que cuando E m cambia, la variación de E± es equivalente a correr el origen a lo largo del
Figura 17.1: Variación de las energı́as E ± con respecto al desdoblamiento ∆ ≡ (E 1 − E2 ) /2. Hemos definido el cero
del eje de energı́a en Em . En ausencia de acoplamiento los niveles se cruzan en el origen como lo muestran las lı́neas
rectas punteadas. Al introducir el acople W no-diagonal, los dos niveles perturbados se “repelen uno a otro” y se
obtienen curvas de E+ y E− que no se cruzan. Tales curvas son ramas hiperbólicas (lı́neas sólidas en la figura) cuyas
ası́ntotas son los niveles no perturbados.
eje de energı́a. Adicionalmente, las Ecs. (17.6, 17.7, 17.10, 17.12) muestran que los autovectores |ψ ± i no dependen
de Em sino solo del desdoblamiento ∆. Es interesante mostrar el comportamiento de las energı́as E 1,2 y E± en un
diagrama de ∆ versus energı́a. La Fig. 17.1 muestra que tal diagrama para las energı́as E ± corresponde a ramas
hiperbólicas simétricas con respecto a los ejes coordenados (en donde el zero del eje vertical se ubicó en E m ), y
cuyas ası́ntotas son las lı́neas rectas punteadas que describen el comportamiento de las energı́as E 1 y E2 . La Fig.
17.1 también muestra que la separación mı́nima entre las ramas hiperbólicas es 2 |W 21 |. Puede verse entonces que
en ausencia de acople, los niveles de energı́a E 1 y E2 se cruzan en ∆ = 0 (como se vé también en las Ecs. 17.11).
Con la introducción del acople, los niveles de energı́a “se repelen” es decir tienden a alejarse. Por esta razón se suele
hablar de diagramas anti-cruzantes, para curvas del tipo mostrado por E ± . Se observa además que cuando W → 0
tenemos que E± → E1,2 si E1 > E2 en tanto que E± → E2,1 si E2 > E1 . De las Ecs. (17.11, 17.12) vemos que
q
|E+ − E− | = 2 ∆2 + |W21 |2 > 2∆ ; |E1 − E2 | ≡ 2∆ ⇒ (17.13)
|E+ − E− | > |E1 − E2 | (17.14)
donde el aumento en el desdoblamiento es mayor a medida que crece el acople. Vemos entonces que el acople separa
la frecuencias normales, situación que aparece en muchos escenarios fı́sicos.
Es necesario poder discriminar cuando podemos hablar de un acople “fuerte” o “débil”. Para ello vemos que las
Ecs. (17.12) se pueden reescribir como
p
W21
E± = E m ± ∆ 1 + K 2 ; K≡ , ∆ 6= 0 (17.15)
∆
de modo que la intensidad del acople se puede medir en términos de K

W21

K ≡ << 1 ⇒ acople débil
∆

W21

K ≡ >> 1 ⇒ acople f uerte
∆
17.2.2. Efecto de un acople débil sobre los niveles de energı́a y estados estacionarios
El acople débil está caracterizado por |∆| >> |W 21 |. La Fig. 17.1 nos muestra que en este lı́mite todas las energı́as
se comportan aproximadamente como las ası́ntotas. Puesto que K << 1, las Ecs. (17.15) se pueden expandir en
series de potencias de K
!
1 W21 2
E± = E m ± ∆ 1 + + ... (17.16)
2 ∆
adicionalmente, la Ec. (17.12) nos dice que θ ' 0 en este lı́mite. Por tanto tan θ ' θ ' sin θ, de modo que a primer
orden obtenemos
θ θ θ tan θ |W21 |
cos ' 1 ; sin ' ' =
2 2 2 2 2∆
reemplazando estas aproximaciones en las Ecs. (17.6, 17.7), los autoestados en el lı́mite de acople débil quedan
|W21 | iϕ/2 |W21 | −iϕ/2

|ψ+ i ' e−iϕ/2 |ϕ1 i + e |ϕ2 i ; |ψ− i ' − e |ϕ1 i + eiϕ/2 |ϕ2 i (17.17)
2∆ 2∆
−iϕ/2 |W21 | iϕ |W21 | −iϕ
|ψ+ i ' e |ϕ1 i + e |ϕ2 i ; |ψ− i ' − e |ϕ1 i + |ϕ2 i eiϕ/2 (17.18)
2∆ 2∆
puesto que las fase globales son irrelevantes, vemos que un acople débil genera estados perturbados muy similares
a los estados no perturbados como era de esperarse. Por ejemplo, el estado |ψ + i se puede ver como el estado |ϕ1 i
ligeramente “contaminado” por una pequeña contribución del estado |ϕ 2 i. Similarmente, |ψ− i es casi el estado |ϕ2 i
con una pequeña contribución de |ϕ 1 i.
17.2.3. Efecto de un acople fuerte sobre los niveles de energı́a y estados estacionarios
El acople fuerte se caracteriza por |∆| << |W 21 |. La Fig. 17.1 nos muestra que este lı́mite corresponde al
comportamiento de las energı́as alrededor de ∆ = 0. En particular, si tomamos ∆ = 0 el acople se considera fuerte
para cualquier valor no nulo de W21 . En el lı́mite E1 = E2 i.e. ∆ = 0, las Ecs. (17.12) quedan en la forma
E± = Em ± |W21 | (17.19)
y vemos entonces que el efecto del acople es más mucho más importante cuando los dos niveles no perturbados
tienen la misma energı́a (por ejemplo por degeneración). Las Ecs. (17.19) muestran que este efecto es de primer
orden, en tanto que en el lı́mite de acople débil el efecto es de segundo orden como se aprecia en la Ec. (17.16).
Cuando ∆ = 0 vemos de (17.12) que θ = π/2 y los autoestados (17.6, 17.7) quedan
π −iϕ/2 π π π
|ψ+ i = cos e |ϕ1 i + sin eiϕ/2 |ϕ2 i ; |ψ− i = − sin e−iϕ/2 |ϕ1 i + cos eiϕ/2 |ϕ2 i (17.20)
4 4 4 4
1 h −iϕ/2 i 1 h i
|ψ+ i = √ e |ϕ1 i + eiϕ/2 |ϕ2 i ; |ψ− i = √ −e−iϕ/2 |ϕ1 i + eiϕ/2 |ϕ2 i (17.21)
2 2
de modo que en el lı́mite de acople fuerte, los estados |ψ ± i difieren radicalmente de |ϕ1,2 i como se esperaba. Vemos
que |ψ± i son superposiciones de |ϕ1 i y |ϕ2 i con coeficientes del mismo módulo. Podemos decir que |ψ ± i son estados
de “máxima mezcla” de los estados |ϕ 1 i y |ϕ2 i.
17.3. EVOLUCIÓN TEMPORAL DEL VECTOR DE ESTADO: OSCILACI ÓN DEL SISTEMA ENTRE DOS ESTAD
17.3. Evolución temporal del vector de estado: oscilación del sistema entre
dos estados sin perturbar
La evolución del estado |ψ (t)i del sistema de dos estados está governada por la ecuación de Schrödinger
d
i~ |ψ (t)i = (H0 + W ) |ψ (t)i (17.22)
dt
y dado que |ψ (t)i es una superposición de los estados |ϕ 1 i y |ϕ2 i para todo tiempo tenemos que
|ψ (t)i = a1 (t) |ϕ1 i + a2 (t) |ϕ2 i (17.23)
insertando la expansión (17.23) en la ecuación de Schrödinger (17.22), aplicando el bra hϕ 1 | y usando la Ec. (17.4)
con W11 = W22 = 0, resulta
d
i~ hϕ1 | [a1 (t) |ϕ1 i + a2 (t) |ϕ2 i] = hϕ1 | (H0 + W ) [a1 (t) |ϕ1 i + a2 (t) |ϕ2 i]
dt
d
i~ [a1 (t) hϕ1 |ϕ1 i + a2 (t) hϕ1 |ϕ2 i] = a1 (t) hϕ1 | (H0 + W ) |ϕ1 i + a2 (t) hϕ1 | (H0 + W ) |ϕ2 i
dt
d
i~ a1 (t) = a1 (t) (E1 + W11 ) + a2 (t) [E2 hϕ1 |ϕ2 i + W12 ]
dt
d
i~ a1 (t) = E1 a1 (t) + W12 a2 (t)
dt
donde hemos asumido que H0 es conservativo y por tanto |ϕ1 i es independiente del tiempo. Un procedimiento
similar aplicando el bra hϕ2 | nos lleva a las ecuaciones
d
i~ a1 (t) = E1 a1 (t) + W12 a2 (t) (17.24)
dt
d
i~ a2 (t) = W21 a1 (t) + E2 a2 (t) (17.25)
dt
si W12 6= 0, tenemos una sistema de dos ecuaciones diferenciales homogéneas acopladas.
La evolución temporal de |ψ (t)i se puede obtener utilizando el método descrito en la sección 5.8. Esto es, se
escribe la expansión de |ψ (0)i en términos de los autoestados |ψ ± i del Hamiltoniano H
|ψ (0)i = λ |ψ+ i + µ |ψ− i (17.26)
de modo que la evolución temporal vendrá dada por
|ψ (t)i = λe−iE+ t/~ |ψ+ i + µe−iE− t/~ |ψ− i (17.27)
lo cual nos permite obtener a1 (t) y a2 (t) aplicando los bras hϕ1 | y hϕ2 | a ambos lados de la Ec. (17.27).
Dado que los estados |ϕ1 i y |ϕ2 i ya no son estacionarios, es de esperarse que incluso si el estado inicial es por
ejemplo |ϕ1 i el sistema evolucione temporalmente. Veremos de hecho que si el estado del sistema está descrito por
la Ec. (17.27), el sistema oscila entre los estados no perturbados |ϕ 1 i y |ϕ2 i. Para verlo asumiremos que en t = 0 el
sistema está en el estado |ϕ1 i
|ψ (0)i = |ϕ1 i
ahora debemos expandir este estado inicial en términos de |ψ ± i como en la Ec. (17.26). Para ello invertimos las Ecs.
(17.6, 17.7). Esto se realiza multiplicando la Ec. (17.6) por cos (θ/2) y la Ec. (17.7) por − sin (θ/2) y sumando
θ θ θ θ
cos |ψ+ i − sin |ψ− i = cos2 e−iϕ/2 |ϕ1 i + sin2 e−iϕ/2 |ϕ1 i = e−iϕ/2 |ϕ1 i
2 2 2 2
iϕ/2 θ θ
|ϕ1 i = |ψ (0)i = e cos |ψ+ i − sin |ψ− i (17.28)
2 2
comparando la Ec. (17.28) con la Ec. (17.26) vemos que λ = e iϕ/2 cos (θ/2) y µ = −eiϕ/2 sin (θ/2), con lo cual la Ec.
(17.27) queda
iϕ/2 θ −iE+ t/~ θ −iE− t/~
|ψ (t)i = e cos e |ψ+ i − sin e |ψ− i (17.29)
2 2
si el sistema evoluciona bajo el Hamiltoniano perturbado hasta el tiempo t, el sistema estará en este tiempo en el
estado |ψ (t)i descrito por la Ec. (17.29). Asumamos ahora que la perturbación W se “desconecta” en el tiempo t.
Si justo después de desconectar la perturbación medimos la energı́a, obtendremos E 1 ó E2 (ya que estos vuelven a
ser los valores de energı́a accesibles del sistema), y la probabilidad de obtener cada uno de estos valores viene dada
por
PEi = |hϕi |ψ (t)i|2 ; i = 1, 2
pero esto es equivalente a decir que esta es la probabilidad de que el sistema quede preparado en el estado |ϕ i i.
Por esta razón, suele decirse que |hϕ i |ψ (t)i|2 es la probabilidad de encontrar al sistema en el tiempo t en |ϕ i i.
No obstante, vale la pena mencionar que esta afirmación solo es válida si: (a) Se desconecta la perturbación en el
tiempo t y (b) Justo después de desconectar la perturbación, se hace la medida del observable H (si se mide otro
observable, el sistema queda preparado en un autoestado de ese otro observable). Nótese que si la perturbación no
se desconecta en t, una medición del observable H solo puede dar E + o E− lo cual a su vez implica que el sistema
quedará preparado en el estado |ψ+ i o en el estado |ψ− i y no hay posibilidad de que quede en el estado |ϕ i i. De
otra parte, si no se realiza ninguna medición, el sistema evoluciona de acuerdo con la ecuación de Schrödinger y no
podemos hablar de la probabilidad de obtener un estado (ya que la ecuación de Schrödinger es determinista).
La anterior discusión nos muestra que si no se realiza ninguna medida en el tiempo t, la cantidad hϕ i |ψ (t)i ≡ ai
es simplemente el coeficiente de Fourier de la expansión de |ψ (t)i en términos de |ϕ 1 i y |ϕ2 i. En otras palabras, el
coeficiente ai nos dice el “peso” con el cual contribuye cada estado |ϕ i i al estado |ψ (t)i con la restricción de que
|a1 |2 + |a2 |2 = 1.
Con estas aclaraciones interpretaremos de aquı́ en adelante a |hϕ 2 |ψ (t)i|2 como la probabilidad de encontrar al
sistema en el tiempo t en |ϕ2 i. La amplitud de probabilidad asociada está dada por

iϕ/2 θ −iE+ t/~ θ −iE− t/~
hϕ2 |ψ (t)i = e cos e hϕ2 |ψ+ i − sin e hϕ2 |ψ− i (17.30)
2 2
de las Ecs. (17.6, 17.7) tenemos que
θ θ θ θ
hϕ2 |ψ+ i = cos e−iϕ/2 hϕ2 |ϕ1 i + sin eiϕ/2 hϕ2 |ϕ2 i ; hϕ2 |ψ− i = − sin e−iϕ/2 hϕ2 |ϕ1 i + cos eiϕ/2 hϕ2 |ϕ2 i
2 2 2 2
θ θ
hϕ2 |ψ+ i = sin eiϕ/2 ; hϕ2 |ψ− i = cos eiϕ/2 (17.31)
2 2
reemplazando (17.31) en (17.30), la probabilidad de encontrar al sistema en el tiempo t en |ϕ 2 i queda
2
2
θ θ θ θ
P12 (t) = |hϕ2 |ψ (t)i| = eiϕ/2 cos e−iE+ t/~ sin eiϕ/2 − sin e−iE− t/~ cos eiϕ/2
2 2 2 2
iϕ h
i 2 2
e 1 2 −iE+ t/~ −iE− t/~
= sin θ e −iE+ t/~
− sin θ e −iE− t/~
= sin θ e − e
2 4
1 1 h i
P12 (t) = sin2 θ e−iE+ t/~ − e−iE− t/~ eiE+ t/~ − eiE− t/~ = sin2 θ 1 − e−i(E+ −E− )t/~ − ei(E+ −E− )t/~ + 1
4 4
1 n h io 1 (E+ − E− ) t
2 −i(E+ −E− )t/~ i(E+ −E− )t/~ 2
= sin θ 2 − e +e = sin θ 2 − 2 cos
4 4 ~
teniendo en cuenta que 1 − cos θ = 2 sin 2 (θ/2), tenemos finalmente

1 (E+ − E− ) t
P12 (t) = sin2 θ 1 − cos
2 ~

(E+ − E− ) t
P12 (t) = sin2 θ sin2 (17.32)
2~
17.3. EVOLUCIÓN TEMPORAL DEL VECTOR DE ESTADO: OSCILACI ÓN DEL SISTEMA ENTRE DOS ESTAD
usando la Ec. (1.214), Pág. 95, tenemos que
(H11 − H22 )2 (E1 − E2 )2

sin2 θ = 1 − cos2 θ = 1 − =1−
(H11 − H22 )2 + 4 |H21 |2 (E1 − E2 )2 + 4 |W21 |2
4 |W21 |2
sin2 θ = (17.33)
(E1 − E2 )2 + 4 |W21 |2
reemplazando las Ecs. (17.33, 17.9) en la Ec. (17.32) podemos escribir P 12 en términos de los elementos matriciales
Wij y de las energı́as no perturbadas E1 y E2
q 
2 2 2
4 |W21 | 4 |W 12 | + (E 1 − E 2 )
P12 (t) = sin2  t (17.34)
(E1 − E2 )2 + 4 |W21 |2 2~
la Ec. (17.34) es conocida como Fórmula de Rabi.

La Ec. (17.32) nos muestra que P12 (t) oscila en el tiempo con una frecuencia (E + − E− ) /h, que corresponde
a la única frecuencia de Bohr del sistema. P 12 (t) varı́a desde cero hasta sin2 θ, este valor máximo se alcanza para
tiempos
(2k + 1) π~
tk = , k = 0, 1, 2, . . .
E+ − E −
la frecuencia de oscilación y el máximo sin 2 θ de la probabilidad dependen de |W21 | y de ∆ ≡ E1 − E2 . Usando
(17.12), con ∆ = 0 tenemos que
E+ − E − 2 |W21 |
∆=0 ⇒ = , sin2 θ = 1
h h
de modo que en un tiempo tk = (2k+1)π~ 2|W21 | el sistema (cuyo estado inicial es |ϕ 1 i) estará en el estado |ϕ2 i . En
consecuencia, todo acople entre dos estados de igual energı́a hace que el sistema oscile completamente de un estado
a otro con una frecuencia proporcional al acople.
Nótese que este fenómeno es análogo al que ocurre con dos péndulos acoplados de la misma frecuencia natural.
Si el péndulo 1 se desplaza dejando fijo al péndulo 2, el primero comienza a oscilar pero su oscilación disminuye en
tanto que va aumentando la del péndulo 2 hasta que se llega a la condición opuesta para un cierto tiempo, en el cual
el péndulo 2 oscila y el péndulo 1 está instantáneamente en reposo. Luego comienza la transferencia de energı́a al
péndulo 1 de nuevo y ası́ sucesivamente. Similarmente, cuando aumenta el acople (constante del resorte que acopla
a los péndulos), disminuye el tiempo de transferencia.
Por otro lado, cuando ∆ ≡ E1 −E2 aumenta, la frecuencia (E+ − E− ) /h también aumenta (ver Ecs. 17.13, 17.14)
en tanto que sin2 θ disminuye como se aprecia en la Ec. (17.33). Para un acople débil |∆| = |E 1 − E2 | >> |W21 |, se
observa de las Ecs. (17.13, 17.14) que el desdoblamiento E + − E− de los niveles perturbados solo difiere ligeramente
del desdoblamiento ∆ de los estados no perturbados. Se puede ver también de la Ec. (17.33) que la cantidad sin 2 θ
es muy pequeña en tal lı́mite. Esto es de esperarse ya que en el lı́mite de acople débil |ψ + i es muy similar a |ϕ1 i,
con lo cual el sistema estarı́a en t = 0 en un estado cuasi-estacionario, de modo que su tiempo caracterı́stico de
evolución es muy grande.

Notas de Mecánica Cuántica - Rodolfo A. Díaz S.

Uploaded by

Document Information

Original Description:

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Notas de Mecánica Cuántica - Rodolfo A. Díaz S.

Uploaded by

Copyright:

Available Formats

Mecánica Cuántica: Notas de Clase

Rodolfo Alexander Diaz S.

1. Linear or vector spaces 10

1.25.1. The wave function space z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2. Construcción fenomenológica de los postulados de la mecánica cuántica 98

3. Ecuación de Schrödinger y sus propiedades 124

4. Enunciado matemático de los postulados de la mecánica cuántica 158

5. Consecuencias de los postulados sobre los observables y sus medidas 169

6. Aplicación de los postulados cuando se posee información parcial de un sistema 204

6.3. Aplicaciones del operador densidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214

7. Formulaciones alternativas de la mecánica cuántica 218

8. El oscilador armónico cuántico 227

9. Estados coherentes cuasi-clásicos del oscilador armónico (opcional) 244

10.Teorı́a general del momento angular en mecánica cuántica 258

10.4. Propiedades de los vectores propios de J 2 y J3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265

11.Propiedades de los momentos angulares orbitales 275

12.Interacciones centrales en mecánica cuántica 290

13. Átomos hidrogenoides 302

14.Corrientes de probabilidad en átomos hidrogenoides, acoples con campos magnéticos 316

15.Momento angular intrı́nseco 327

16.Adición de momentos angulares 345

17.Propiedades generales de los sistemas de dos estados 367

Linear or vector spaces

1.1. Definition of a linear vector space

1. If xi ∈ V , and α is a scalar, then αxi ∈ V

4. xi + (xj + xk ) = (xi + xj ) + xk , ∀xi , xj , xk ∈ V

5. (α + β) xi = αxi + βxi ; ∀xi ∈ V

6. α (xi + xj ) = αxi + αxj , ∀xi , xj ∈ V

7. (αβ) xi = α (βxi ) ; ∀xi ∈ V

9. ∃ an element 0 ∈ V such that xi + 0 = xi , ∀xi ∈ V

10. ∀xi ∈ V , ∃ an element in V denoted by −xi such that xi + (−xi ) = 0

(f + g) (x) = f (x) + g (x) ; (αf ) (x) = αf (x) ; x ∈ [a, b]

1.2. Algebraic properties

1.3. Vector subspaces

is called a linear combination of the vectors in S.

1.4. Dimension and bases in vector spaces

Theorem 1.3 Every non-zero vector space has a basis

xi = α1 x1 + ... + αi−1 xi−1 ⇒ α1 x1 + ... + αi−1 xi−1 − 1 · xi = 0

1.5. Mappings and transformations in vector spaces

T (0) = T (0 · 0) = 0 · T (0) = 0 ; T (−x) = T ((−1) x) = (−1) T (x) = −T (x)

(αT ) (x) ≡ αT (x) (1.7)

finally the zero and negative linear transformations are defined as

0 (x) ≡ 0 ; (−T ) (x) ≡ −T (x) (1.8)

with these definitions it is inmediate to establish the following

1.6. Linear transformations of a vector space into itself

(T U ) (x) ≡ T (U (x)) (1.9)

associativity and distributivity properties can easily be derived

we prove for instance

[(T + U ) V ] (x) = (T + U ) (V (x)) = T (V (x)) + U (V (x))

Ta ((x1 , x2 )) = (x1 , 0) ; Tb ((x1 , x2 )) = (0, x2 ) ⇒ Ta Tb = Tb Ta = 0

thus Ta 6= 0 and Tb 6= 0 but Ta Tb = Tb Ta = 0.

we see that I 6= 0 ⇔ V 6= {0}. Further

(αI) (x) = αI (x) = αx

When T is non-singular its inverse can be defined so that

it can be shown that when T is non-singular T −1 is also a linear transformation.

1.6.1. Projection operators

P 2 (z) = P (P (z)) = P (x) = x = P (z)

Theorem 1.10 If P is a linear transformation on a vector space V , P is idempotent⇔there exists subspaces M

z = P (z) + (I − P ) (z) (1.10)

P (z) belongs to M by definition, now

1.7. Normed vector spaces

d (x, y) ≥ 0 and d (x, y) = 0 ⇔ x = y

1.7.1. Convergent sequences, cauchy sequences and completeness