martes, 11 de agosto de 2009

Vectores y matrices I

Si el lenguaje matemático capaz de describir lo que está ocurriendo en el mundo sub-microscópico es el lenguaje de las matrices, entonces debemos familiarizarnos con dicho lenguaje haciendo un buen repaso del mismo antes de seguir adelante, fijando la notación que estaremos utilizando. Pero primero empezaremos con un repaso de los números imaginarios y los números complejos.

En relación con los números imaginarios, es decir, con las raíces cuadradas de los números negativos, surgen muchas conclusiones falaces. El calificativo “imaginario” es poco afortunado, pero desde que se introdujeron estos números es el que se viene empleando. Hasta principios del siglo XVII, los matemáticos casi no trabajaban más que con números positivos. Se decía que los números negativos eran “absurdos” y “ficticios”, y se rechazaba a los números imaginarios en general como imposibles. En realidad, el número √-1 no es más imaginario que el número -1, que a su vez no lo es más que el número 1. El concepto de número es muy abstruso, y no perderemos el tiempo aquí en complejidades, pero en lo que a la práctica se refiere, se ha encontrado que los números imaginarios son indispensables en problemas que se presentan en las comunicaciones por radio y teléfono, y en los modernos métodos eléctricos para ubicar yacimientos petrolíferos.

Los números imaginarios nacieron ante la necesidad de que la ecuación x² = -a tuviera siempre solución. Si x² = 1 tiene solución, ¿por qué no habría de tenerla x² = -1? La raíz cuadrada de -1 se define del mismo modo que la raíz cuadrada de cualquier número positivo, es decir, que √-1 es aquél número que elevado al cuadrado dá -1. Compárese con √9, o sea 3, que elevado al cuadrado dá 9. La raíz cuadrada de todo número negativo tal como -a (en que a es positivo) se puede escribir como el número real √a multiplicado por √-1 , y por conveniencia se suele representar √-1 por i, es decir:

- a = √- 1 · √a = i√a

Si sumamos un número real a un número imaginario, la representación que obtenemos es la de un número complejo:

z = 2 + 5i

Resulta conveniente definir el conjugado de un número complejo z simbolizándolo ya sea como z* o como z. De este modo, para el número que se acaba de dar, su conjugado es:

z* = z = 2 - 5i

El conjugado de un número complejo lo obtenemos invirtiendo el signo del símbolo i. En general, para cualquier número complejo:

z = a + ib

se tiene:

z* = z = a - ib

Obviamente:

(z*)*= z

Veamos ahora lo que pasa cuando multiplicamos un número complejo z con su conjugado z*:

z = 3 + 4i___z* = z = 3 - 4i

z · z* = (3 + 4i)(3 - 4i) = 9 - 12i + 12i - 16i²

z · z* = 9 - 16i² = 9 + (16)(-1) = 9 + 16

z · z* = 25

Lo más relevante aquí es que el producto de un número complejo z con su conjugado complejo es igual a un número real en el que no hay nada de imaginario ni complejo. En general, si:

z = a + ib

entonces:

z · z* = (a + ib)(a - ib) = a² -iab + iab + b² = a² + b²

El producto de un número complejo con su conjugado siempre es igual a un número real.

Las definiciones que se han dado se pueden extender a otros tipos de representaciones matemáticas.

PROBLEMA: Dados los siguientes números complejos:

1) z = 2cos(5) + 2i sen(5)

2) z = 3e6i

obtener el producto de dichos números con sus conjugados.

1) El conjugado complejo de z = 2cos(5) +2 i sen(5) lo obtenemos reemplazando a i por -i:

z* = z = 2cos(5) - 2i sen(5)

Entonces:

z · z* = [2cos(5) +2 i sen(5)]·[2cos(5) - 2i sen(5)]

z · z* = 4cos²(5) - 4icos(5) sen(5) + 4isen(5) cos(5) - 4i²sen²(5)

z · z* = 4 cos²(5) - 4(-1) sen²(5)

z · z* = 4 [cos²(5) + sen²(5)]

z · z* = 4

2) El conjugado complejo de z = 3e6i lo obtenemos reemplazando a i por -i:

z* = z = 3e-6i

Entonces:

z · z* = (3e6i )(3e-6i ) = 9e6i-6i = 9e0 = 9

Ahora repasaremos el concepto general de un vector, definido como una n-pla ordenada de números:

x = (x1, x2, x3, ...)

Los elementos de un vector no están limitados a números reales. También pueden ser números imaginarios o complejos:

x = (2, 3i, 1, 0, -5i)

x = (9, 1-2i, 0, 4+3i)

Del mismo modo en el que definimos el conjugado complejo de un número, también podemos extender dicha definición a un vector definiendo el conjugado complejo de un vector, reemplazando todas las ocurrencias de +i por -i y las ocurrencias de -i por +i. De este modo, el conjugado complejo del vector:

x = (4, -2i, 5 + 3i, 9)

será el vector:

x* = (4, 2i, 5 - 3i, 9)

Definimos ahora el producto escalar de dos vectores:

x = (x1, x2, x3, ...)

y = (y1, y2, y3, ...)

como:

x · y = x1y1 + x2y2 + x3y3 + ...

Esto último lo podemos representar de modo más compacto con el símbolo de la sumatoria:


Recurriremos ahora a la definición general del producto de dos matrices según la cual, dadas dos matrices A y B, el elemento cij de la matriz resultante del producto matricial AB situado en el renglón i y la columna j de la matriz C está dado por la siguiente sumatoria:


Esta definición supone que si el producto matricial se va a llevar a cabo en el orden AB, entonces la matriz A debe tener tantas columnas como renglones tenga la matriz B. De acuerdo con esta definición, la obtención de cada elemento que va en el renglón i y en la columna j de la matriz C se lleva a cabo seleccionando (con el dedo índice de la mano izquierda) todos los elementos puestos a lo largo del renglón i de la primera matriz A y seleccionando (con el dedo índice de la mano derecha) todos los elementos puestos en la columna j de la matriz B, multiplicando los pares respectivos y sumándolos:


La característica más interesante del producto matricial es que no es conmutativo:


La definición que se acaba de dar para el producto matricial basada en una sumatoria es la que debe ser utilizada siempre en la demostración formal de todos los teoremas básicos que tengan que ver con matrices. Aunque el orden de los sumandos en una sumatoria no altera el resultado final:

Σ aik bkj = Σ bkj aik

la notación propuesta tiene la enorme ventaja de que si los sub-índices que son iguales están aparejados entonces se nos dá el orden en el cual se debe llevar a cabo la multiplicación matricial. De este modo, si tenemos la siguiente sumatoria que nos representa un producto matricial:

Σ pnm qtn

entonces al intercambiar el orden en el que están puestos pnmqtn para que de este modo los sub-índices que son iguales queden aparejados, o sea qtnpnm, tenemos que el producto matricial que se está representando debe ser QP.

Definida la matriz identidad I como aquella matriz que multiplicada en cualquier orden con otra matriz A nos produce la misma matriz, o sea AI = IA = A, definimos la inversa de una matriz A-1 como aquella matriz tal que A-1A = AA-1 = I.

PROBLEMA: Demostrar que la inversa de un producto de dos matrices, (AB) -1, es igual al producto de sus inversas tomadas en el orden inverso, B-1A-1.

Supóngase que C = AB. Puesto que el producto de dos matrices no es conmutativo, para la demostración tendremos que pre-multiplicar o post-multiplicar según se requiera, y reagrupar según se requiera.

CC-1 = (AB)(AB) -1 = I

A-1(AB)(AB) -1 = A-1I__(pre-multiplicando)

(A-1A)B(AB) -1 = A-1__(reagrupando)

(I)B(AB) -1 = A-1

B(AB) -1 = A-1

B(AB) -1 = A-1

B(AB) -1 = A-1

B-1B(AB) -1 = B-1A-1__(pre-multiplicando)

(B-1B)(AB) -1 = B-1A-1__(reagrupando)

(I)(AB) -1 = B-1A-1

(AB) -1 = B-1A-1

A continuación veremos un efecto similar, para lo cual definiremos a la transpuesta de una matriz A, simbolizada como AT, la cual se obtiene tomando el elemento que está en el renglón i y en la columna j poniéndolo en el renglón j y en la columa i de la transpuesta.

PROBLEMA: Demostrar que la transpuesta del producto de dos matrices, (AB)T, es igual al producto de las transpuestas tomadas en el orden inverso, BTAT.

Sea C = (cij) una matriz obtenida por la multiplicación matricial de las matrices A y B en el orden AB. Entonces:


La transpuesta de la matriz, CT = (AB)T se obtiene de la anterior definición matricial intercambiando en dicha definición los índices i y j, esto es, (cij)T = (cji). Entonces:


Por otro lado, la transpuesta de la matriz A es aquella en la cual cada elemento (ajk) = (akjT). Del mismo modo, para B tenemos (bki) = (bikT). Sustituyendo esto arriba:


En esta sumatoria los sub-índices no están aparejados y por lo tanto no nos pueden dar el orden correcto del producto matricial que están simbolizando. Aparejándolos tenemos:


Revirtiendo a la notación matricial compacta tenemos entonces:

(AB)T = BTAT

En palabras, la transpuesta de un producto de dos matrices es igual al producto de las transpuestas tomadas en el orden inverso.

Si nos hacemos a la idea de que en la expresión x · y podemos considerar al primer vector x como un vector renglón, una matriz que consta de un solo renglón y de varias columnas, y al vector y como un vector columna, una matriz que consta de varios renglones y una sola columna, ambos de la misma dimensión (del mismo tamaño), entonces podemos hacer la representación matricial del producto de dos vectores de la siguiente manera:


Podemos comprobar que si a partir de un vector x con componentes reales, imaginarios y/o complejos, formamos un vector conjugado complejo x*, al evaluar el producto x·x* siempre obtendremos un valor real.

PROBLEMA: Dado el siguiente vector:

x = (4, - 2, 3 + i, 0, - i, 5 - 2i)

obtener el producto x·x*.

El conjugado complejo del vector x será:

x* = (4, - 2, 3 - i, 0, i, 5 + 2i)

Entonces:

x·x*= (4)(4) + (-2)(-2) + (3+i)(3-i) + (0)(0) + (-i)(i) + (5-2i)(5+2i)

x·x*= 16 + 4 + (9 + 1) + 0 + (1) + (25+4)

x·x*= 60

Podemos trabajar con vectores que constan de una cantidad finita de componentes. Pero también podemos trabajar con vectores que constan de una cantidad infinita de componentes, y en muchos casos podemos obtener resultados concretos.

PROBLEMA: Dado el siguiente vector especificado en un espacio vectorial infinito:

x = (1/√2, 1/√4, 1/√8, 1/√16, 1/√32, 1/√64, ...)

obtener el producto x·x*.

El producto x·x* será igual a una serie matemática conocida:

x·x* = (1/√2)(1/√2) + (1/√4)(1/√4) + (1/√8)(1/√8) + (1/√16)(1/√16) + ...

x·x* = 1/2 + 1/4 + 1/8 + 1/16 + 1/32 + 1/64 + ...

Aquellos que están familiarizados con series aritméticas posiblemente reconocerán de inmediato esta serie como una serie convergente, la cual converge hacia el número 1, y por lo tanto:

x·x* = 1

Antes de proseguir adelante, resulta instructivo hacer una pausa para reflexionar en lo que acabamos de obtener. En este ejemplo en particular, cada uno de los términos del producto x·x* muy bien podría representar una probabilidad estadística, por el simple hecho de que al sumarlos todos nos dá una probabilidad igual a la unidad, lo cual equivale a una certeza. El primer término (1/2) equivaldría entonces a una probabilidad del 50 por ciento, el segundo término (1/4) equivaldría a una probabilidad del 25 por ciento, el tercer término (1/8) equivaldría a una probabilidad del 12.5 por ciento, de modo tal que iríamos acumulando términos de probabilidades decrecientes, pero al sumar todas esas probabilidades obtendríamos 1 como nos lo requiere una distribución de probabilidades. Obsérvese que, por sí solos, cada uno de los términos del vector x no significa absolutamente nada, es el cuadrado de cada término xn² el que nos dá una probabilidad:

x·x* = x1² + x2² + x3² + x4² + x5² + x6² + ...

Existen muchas otras series aritméticas infinitas cuyos términos sumados en su totalidad ciertamente no dán la unidad, pero pueden darla si dividimos cada uno de los términos cuadráticos de la serie entre el resultado que produce la serie. Tómese por ejemplo la siguiente serie aritmética:


Esta es una serie convergente, pero no converge hacia la unidad, converge hacia el número π²/6. Sin embargo, podemos lograr tal cosa si dividimos cada término de la serie entre π²/6:


De este modo, obtenemos la siguiente serie cuyos términos sumados hasta el infinito convergen hacia la unidad:


Al normalizar la serie infinita para que la suma de sus términos nos resulte en la unidad, en realidad no estamos haciendo más que recurrir a la vieja técnica mediante la cual podemos hacer que un vector x cualquiera tenga una longitud igual a la unidad obteniendo primero la magnitud |x| del vector (conocida también como la norma del vector):


tras lo cual dividimos cada componente del vector entre la magnitud del mismo:

x = (x1/|x|, x2/|x|, x3/|x|, ...)

El vector normalizado x a una longitud unitaria del cual podemos obtener la anterior serie infinita sería el siguiente:


PROBLEMA: Normalizar el vector x = (1,1).

La norma del vector x es:


Entonces el vector, ya normalizado, será:


En este caso, si cada uno de los términos del producto x·x* representa una probabilidad estadística, entonces cada uno de los componentes del vector representa una probabilidad del 50 por ciento, tomando en cuenta el hecho de que es el cuadrado de cada componente lo que nos proporciona el valor de la probabilidad.

Tomemos ahora la siguiente matriz diagonalizada, la cual supondremos que representa una serie de valores físicos obtenidos experimentalmente en el laboratorio (que podría ser tal vez alguna energía medida en electrón-volts, por ejemplo):


Cada uno de los valores colocados a lo largo de la diagonal principal de la matriz representa no sólo una cantidad observable, medible, también representa uno de los autovalores eigen (propios) de la matriz. En este caso, no hay degeneración, puesto que todos los valores eigen son diferentes.

Ahora tomemos el siguiente vector:

x = (1/√3, 1/√3, 1/√3)

Este vector es obviamente un vector normalizado, ya que:


Si interpretamos cada uno de los componentes cuadráticos de la norma del vector como una probabilidad, entonces cada término representaría una probabilidad estadística de un tercio. Ahora tomaremos la matriz dada arriba y la interpondremos entre el producto matricial x·x a manera de “sandwich” para formar el triple producto matricial x·A·x:


La multiplicación matricial de estos tres factores es relativamente fácil, puesto que la matriz ya está diagonalizada. Si llevamos a cabo las operaciones que corresponden a este producto matricial triple, obtendremos el siguiente resultado intermedio:

(3.75)(1/√3)² + (2.24)(1/√3)² + (1.38)(1/√3

o bien:

(3.75)(1/3) + (2.24)(1/3) + (1.38)(1/3)

¿Podemos darle una interpretación física a este resultado intermedio? La respuesta es afirmativa, si le damos una interpretación probabilista a cada uno de los términos cuadráticos del vector normalizado x asociado con cada autovalor eigen de la matriz. En este caso la interpretación sería la siguiente: el valor 3.75 que corresponde al parámetro que estamos midiendo tiene una probabilidad de un tercio de ser obtenido, el valor 2.24 también tiene una probabilidad de un tercio de ser obtenido, y el valor 1.38 también tiene una probabilidad de ser obtenido. En breve, cada valor tiene la misma probabilidad de ser obtenido que el otro. Si estas fuesen las características de las líneas espectrales de algo, entonces estaríamos hablando de líneas espectrales de la misma intensidad, ya que ambas tendrían la misma probabilidad de ocurrir. Podemos ir vislumbrando aquí la manera en la cual pueden entrar en el panorama matemático no sólo las magnitudes de las energías predichas por el modelo atómico planetario de Bohr, sino también las intensidades de las líneas espectrales producidas por cada uno de esos niveles de energía, algo que estaba notoriamente fuera del alcance del modelo de Bohr. Y esas intensidades estarían asociadas directamente con un probabilidades estadísticas relativas, de modo tal que podríamos enunciar que, en cierta forma, probabilidad = intensidad.

En el ejemplo que acabamos de ver, había una distribución probabilista repartida en partes iguales. Pero no tiene por que ser así; ciertamente no lo es tratándose de las líneas espectrales del hidrógeno en donde todas las líneas tienen intensidades diferentes indicándonos distintas probabilidades de ocurrencia.

Considérese ahora el siguiente producto matricial triple:


Nuevamente, tenemos la misma matriz que en el ejemplo anterior, con los mismos autovalores eigen. Pero ahora las probabilidades ya no son iguales, son diferentes.

Si llevamos a cabo las operaciones que corresponden a este producto matricial triple, obtendremos el siguiente resultado intermedio:

(3.75)(4/√21)² + (2.24)(2/√21)² + (1.38)(1/√21

o bien:

(3.75)(16/21) + (2.24)(4/21) + (1.38)(1/21)

(3.75)(0.761904) + (2.24)(0.190476) + (1.38)(0.04762)

Si hemos de darle una interpretación física a esto, diríamos entonces que el valor 3.75 que corresponde al parámetro que estamos midiendo tiene una probabilidad del 76.19 por ciento de ser obtenido, por su parte el valor 2.24 tiene una probabilidad del 19.05 por ciento de ser obtenido, y por último el valor 1.38 tiene una probabilidad del 4.76 por ciento de ser obtenido.

¿Y si llevamos la operación aritmética hasta su conclusión final, que interpretación le podríamos dar a dicho resultado? En este último caso, el resultado de las operaciones aritméticas es:

3.34952

Por la forma en la que lo hemos obtenido, cualquiera con nociones elementales de estadística lo reconocerá de inmediato como el promedio aritmético, o más formalmente, como la esperanza matemática (en la literatura inglesa se le suele designar como expectation value) del conjunto de valores.

La esperanza matemática de una matriz A es algo que encontramos con tanta frecuencia que se acostumbra simbolizarla de la siguiente manera:


y esto vendría representando la siguiente evaluación numérica:


en donde a1, a2, a3, a4, etc. son los autovalores eigen de la matriz A, y p(1), p(2), p(3), p(4), etc. son las probabilidades de que se dé cada uno de esos autovalores al llevarse a cabo la medición experimental en el laboratorio. Lo importante es recordar que el “promedio” de una matriz, su esperanza matemática, está definido en base a sus autovalores eigen. Sin ellos, no hay tal definición.

A estas alturas, se vuelve tentador inventar una notación mediante la cual, si hacemos las siguientes simbolizaciones:


el triple producto matricial que hemos llevado a cabo se podría representar en forma compacta de la manera siguiente:


Si adoptamos esta simbología, la esperanza matemática de la matriz A podría quedar definida de la siguiente manera:


Dejaremos por lo pronto pendiente esta posibilidad de simbolización que aparece a la derecha de la igualdad, pero recurriremos a ella conforme se vaya requiriendo para fines de conveniencia nuestra. Retendremos, sin embargo, la notación que se ha dado para la esperanza matemática de una matriz A encerrándola entre paréntesis angulados, e inclusive la ampliaremos para simbolizar también la media estadística de los valores cuadráticos de la matriz que podríamos llamar simplemente la media cuadrática. Para el ejemplo de arriba, la evaluación de este promedio cuadrático se llevaría a cabo de la siguiente manera:

(3.75)²(0.761904) + (2.24)²(0.190476) + (1.38)²(0.04762)

y quedaría simbolizado de la manera siguiente:


en donde, nuevamente:

p(1) + p(2) + p(3) + p(4) + ... = 1