Cálculo matricial

De testwiki
Ir a la navegación Ir a la búsqueda

Plantilla:Distinguir

En matemáticas, el cálculo matricial es una notación especializada para realizar cálculo multivariable, especialmente sobre espacios de matrices. Recoge las distintas derivadas parciales de una única función con respecto a muchas variables, y/o de una función multivariable con respecto a una única variable, en vectores y matrices que pueden tratarse como entidades únicas. Esto simplifica enormemente operaciones como la búsqueda del máximo o el mínimo de una función multivariante y la resolución de sistemas de ecuaciones diferenciales. La notación empleada aquí se utiliza habitualmente en estadística e ingeniería, mientras que la notación de índice tensorial es la preferida en física.

Dos convenciones de notación opuestas dividen el campo del cálculo matricial en dos grupos distintos. Los dos grupos pueden distinguirse por si escriben la derivada de un escalar con respecto a un vector como un vector columna o como un vector fila. Ambas convenciones son posibles incluso cuando se hace la suposición común de que los vectores deben tratarse como vectores columna cuando se combinan con matrices (en lugar de vectores fila). Una única convención puede ser algo estándar en un único campo que utilice habitualmente el cálculo matricial (por ejemplo, la econometría, la estadística, la teoría de la estimación y el aprendizaje automático). Sin embargo, incluso dentro de un mismo campo, puede haber autores que utilicen convenciones opuestas. Los autores de ambos grupos suelen escribir como si sus convenciones específicas fueran estándar. La combinación de resultados de distintos autores sin comprobar cuidadosamente que se han utilizado notaciones compatibles puede dar lugar a graves errores. Las definiciones de estas dos convenciones y las comparaciones entre ellas se recogen en la sección de convenciones de maquetación.

Ámbito

El cálculo matricial se refiere a una serie de notaciones diferentes que utilizan matrices y vectores para recoger la derivada de cada componente de la variable dependiente con respecto a cada componente de la variable independiente. En general, la variable independiente puede ser un escalar, un vector o una matriz, mientras que la variable dependiente también puede ser cualquiera de ellos. Cada situación diferente dará lugar a un conjunto diferente de reglas, o a un cálculo distinto, utilizando el sentido más amplio del término. La notación matricial es una forma cómoda de recoger las numerosas derivadas de forma organizada.

Como primer ejemplo, consideremos el gradiente del cálculo vectorial. Para una función escalar de tres variables independientes, f(x1,x2,x3), la gradiente es dada por la ecuación vectorial

f=fx1x^1+fx2x^2+fx3x^3

donde x^i representa un vector unitario en la xi dirección para 1i3. Este tipo de derivada generalizada puede verse como la derivada de un escalar, f, respecto a un vector 𝐱, y su resultado puede recogerse fácilmente en forma vectorial.

f=(f𝐱)𝖳=[fx1fx2fx3]T.

Ejemplos más complicados incluyen la derivada de una función escalar con respecto a una matriz, conocida como matriz gradiente, que recoge la derivada con respecto a cada elemento de la matriz en la posición correspondiente de la matriz resultante. En ese caso, el escalar debe ser función de cada una de las variables independientes de la matriz. Como otro ejemplo, si tenemos un n-vector de variables dependientes, o funciones, de m variables independientes podríamos considerar la derivada del vector dependiente con respecto al vector independiente. El resultado podría recogerse en una matriz m×n formada por todas las combinaciones de derivadas posibles.

Hay un total de nueve posibilidades utilizando escalares, vectores y matrices. Observe que a medida que consideramos números más altos de componentes en cada una de las variables independientes y dependientes podemos quedarnos con un número muy grande de posibilidades. Los seis tipos de derivadas que pueden organizarse mejor en forma matricial se recogen en la siguiente tabla.[1]

Tipos de derivadas matriciales
Tipos Escalar Vector Matriz
Escalar yx 𝐲x 𝐘x
Vector y𝐱 Plantilla:N/a
Matriz Plantilla:N/a Plantilla:N/a

Aquí hemos utilizado el término "matriz" en su sentido más general, reconociendo que los vectores y los escalares son simplemente matrices con una columna y una fila, respectivamente. Además, hemos utilizado letras negritas para indicar vectores y mayúsculas para matrices. Esta notación se utiliza en todo el texto.

Observe que también podríamos hablar de la derivada de un vector respecto a una matriz, o de cualquiera de las otras celdas sin rellenar de nuestra tabla. Sin embargo, estas derivadas se organizan de forma más natural en un tensor de rango superior a 2, por lo que no encajan perfectamente en una matriz. En las tres secciones siguientes definiremos cada una de estas derivadas y las relacionaremos con otras ramas de las matemáticas. Consulte la sección de convenciones de disposición para ver una tabla más detallada.

Relación con otras derivadas

La derivada matricial es una notación conveniente para llevar la cuenta de las derivadas parciales para hacer cálculos. La derivada de Fréchet es la forma estándar en el entorno del análisis funcional para tomar derivadas con respecto a vectores. En el caso de que una función matricial de una matriz sea diferenciable en Fréchet, las dos derivadas coincidirán hasta la traslación de notaciones. Como ocurre en general con las derivadas parciales, algunas fórmulas pueden extenderse bajo condiciones analíticas más débiles que la existencia de la derivada como cartografía lineal aproximante.

Usos

El cálculo matricial se utiliza para derivar estimadores estocásticos óptimos, que a menudo implican el uso de multiplicadores de Lagrange. Esto incluye la derivación de:

Notación

Las derivadas vectoriales y matriciales presentadas en las secciones siguientes aprovechan al máximo la notación matricial, utilizando una única variable para representar un gran número de variables. En lo que sigue distinguiremos escalares, vectores y matrices por su tipo de letra. M(n,m) es el espacio de matrices reales n×m con n filas y m columnas. Dichas matrices se denotarán utilizando letras mayúsculas en negrita: A, X, Y, etc. Un elemento de M(n,1), es decir, un vector columna, se denota con una letra minúscula en negrita: a, x, y, etc. Un elemento de M(1,1) es un escalar, denotado con letra minúscula cursiva: a, t, x, etc. XT es la transposición de la matriz, tr(X) es la traza y det(X) o |X| es el determinante. Se supone que todas las funciones son de clase de diferenciabilidad C1, a menos que se indique lo contrario. Generalmente se utilizarán letras de la primera mitad del alfabeto (a, b, c, ...) para denotar constantes, y de la segunda mitad (t, x, y, ...) para denotar variables.

NOTA: Como se ha mencionado anteriormente, existen notaciones que compiten entre sí para presentar sistemas de derivadas parciales en vectores y matrices, y no parece que esté surgiendo todavía ningún estándar. Las dos secciones introductorias siguientes utilizan la convención de disposición del numerador simplemente por conveniencia, para evitar complicar demasiado la discusión. En la sección siguiente se tratan las convenciones de disposición con más detalle. Es importante tener en cuenta lo siguiente:

  1. A pesar del uso de los términos "disposición del numerador" y "disposición del denominador", en realidad hay más de dos opciones notacionales posibles. La razón es que la elección de numerador frente a denominador (o, en algunas situaciones, numerador frente a mixto) puede hacerse independientemente para las derivadas escalar por vector, vector por escalar, vector por vector y escalar por matriz, y varios autores mezclan y combinan sus elecciones de disposición de diversas maneras.
  2. La elección de la disposición del numerador en las secciones introductorias no implica que ésta sea la opción "correcta" o "superior". Los distintos tipos de disposición tienen ventajas e inconvenientes. La combinación descuidada de fórmulas escritas en diferentes disposiciones puede dar lugar a errores graves, y la conversión de una disposición a otra requiere cuidado para evitar errores. Por ello, cuando se trabaja con fórmulas existentes, lo mejor es identificar el diseño utilizado y mantener la coherencia con él, en lugar de intentar utilizar el mismo diseño en todas las situaciones.

Alternativas

La notación de índice tensorial con su convenio de suma de Einstein es muy similar al cálculo matricial, excepto en que sólo se escribe un componente cada vez. Tiene la ventaja de que se pueden manipular fácilmente tensores de rango arbitrariamente alto, mientras que los tensores de rango superior a dos son bastante difíciles de manejar con la notación matricial. Todo el trabajo aquí puede hacerse en esta notación sin usar la notación matricial de una sola variable. Sin embargo, muchos problemas en la teoría de la estimación y otras áreas de la matemática aplicada darían lugar a demasiados índices como para poder seguirlos adecuadamente, lo que apunta a favor del cálculo matricial en esas áreas. Además, la notación de Einstein puede ser muy útil para demostrar las identidades presentadas aquí (véase la sección sobre diferenciación) como alternativa a la notación típica de elementos, que puede resultar engorrosa cuando se llevan las sumas explícitas. Nótese que una matriz puede considerarse un tensor de rango dos.

Derivadas con vectores

Plantilla:Main Dado que los vectores son matrices con una sola columna, las derivadas matriciales más sencillas son derivadas vectoriales.

Las notaciones desarrolladas aquí pueden acomodar las operaciones usuales del cálculo vectorial identificando el espacio M(n,1) de n-vectores con el espacio euclídeo Rn, y el escalar M(1,1) se identifica con R. El concepto correspondiente del cálculo vectorial se indica al final de cada subsección.

NOTA: La discusión en esta sección asume la convención de disposición del numerador con fines pedagógicos. Algunos autores utilizan convenciones diferentes. En la sección sobre convenciones de disposición se trata esta cuestión con más detalle. Las identidades que se dan más abajo se presentan en formas que pueden usarse en conjunción con todas las convenciones de disposición comunes.

Vector-por-escalar

La derivada de un vector 𝐲=[y1y2ym]𝖳, por un escalar x se escribe (en notación de disposición del numerador) como

𝐲x=[y1xy2xymx].

En cálculo vectorial la derivada de un vector y respecto a un escalar x se conoce como vector tangente del vector y, 𝐲x. Nótese aquí que y: R1Rm.

Ejemplo. Ejemplos sencillos de ello son el vector velocidad en el espacio euclídeo, que es el vector tangente del vector posición (considerado en función del tiempo). Asimismo, la aceleración es el vector tangente de la velocidad.

Escalar-por-vector

La derivada de un escalar y por un vector 𝐱=[x1x2xn]𝖳, es escrito (en notación de disposición del numerador) como

y𝐱=[yx1yx2yxn].

En cálculo vectorial, el gradiente de un campo escalar f en el espacio Rn (cuyas coordenadas independientes son las componentes de x) es el transpuesto de la derivada de un escalar por un vector.

f=[fx1fxn]=(f𝐱)𝖳

Por ejemplo, en física, el campo eléctrico es el gradiente vectorial negativo del potencial eléctrico.

La derivada direccional de una función escalar f(x) del vector espacial x en la dirección del vector unitario u (representado en este caso como un vector columna) se define utilizando el gradiente de la siguiente manera.

𝐮f(𝐱)=f(𝐱)𝐮

Utilizando la notación que acabamos de definir para la derivada de un escalar con respecto a un vector podemos reescribir la derivada direccional como 𝐮f=f𝐱𝐮.Este tipo de notación será útil para demostrar reglas de producto y reglas en cadena que resultan similares a las que conocemos para la derivada escalar.

Vector-por-vector

Cada uno de los dos casos anteriores puede considerarse como una aplicación de la derivada de un vector respecto de un vector, utilizando adecuadamente un vector de tamaño uno. De forma similar, encontraremos que las derivadas que implican matrices se reducirán a derivadas que implican vectores de forma correspondiente.

La derivada de una función vectorial (un vector cuyas componentes son funciones)𝐲=[y1y2ym]𝖳con respecto a un vector de entrada, 𝐱=[x1x2xn]𝖳se escribe (en notación de disposición del numerador) como

𝐲𝐱=[y1x1y1x2y1xny2x1y2x2y2xnymx1ymx2ymxn].

En cálculo vectorial, la derivada de una función vectorial y con respecto a un vector x cuyas componentes representan un espacio se conoce como pushforward (o diferencial), o matriz jacobiana.

El pushforward a lo largo de una función vectorial f con respecto al vector v en Rn viene dado por d𝐟(𝐯)=𝐟𝐯d𝐯.

Derivadas con matrices

Hay dos tipos de derivadas con matrices que se pueden organizar en una matriz del mismo tamaño. Se trata de la derivada de una matriz por un escalar y la derivada de un escalar por una matriz. Pueden ser útiles en problemas de minimización que se encuentran en muchas áreas de las matemáticas aplicadas y han adoptado los nombres de matriz tangente y matriz gradiente, respectivamente, después de sus análogos para los vectores.

Nota: La discusión en esta sección asume la convención de disposición del numerador con fines pedagógicos. Algunos autores utilizan convenciones diferentes. En la sección sobre convenciones de disposición se trata este tema con más detalle. Las identidades que se dan más abajo se presentan en formas que pueden usarse en conjunción con todas las convenciones de disposición comunes.

Matriz-por-escalar

La derivada de una función matricial Y por un escalar x se conoce como matriz tangente y viene dada (en notación de disposición del numerador) por

𝐘x=[y11xy12xy1nxy21xy22xy2nxym1xym2xymnx].

Escalar-por-matriz

La derivada de una función escalar y de una matriz p×q X de variables independientes, con respecto a la matriz X, viene dada (en notación de disposición del numerador) por

y𝐗=[yx11yx21yxp1yx12yx22yxp2yx1qyx2qyxpq].

Ejemplos importantes de funciones escalares de matrices son la traza de una matriz y el determinante.

En analogía con el cálculo vectorial, esta derivada suele escribirse de la siguiente manera.

𝐗y(𝐗)=y(𝐗)𝐗

También por analogía con el cálculo vectorial, la derivada direccional de un escalar f(X) de una matriz X en la dirección de la matriz Y viene dada por

𝐘f=tr(f𝐗𝐘).

Es la matriz gradiente, en particular, que encuentra muchos usos en los problemas de minimización en la teoría de la estimación, en particular en la derivación del algoritmo del filtro de Kalman, que es de gran importancia en el campo.

Otras derivadas matriciales

Los tres tipos de derivadas que no se han considerado son las de vectores por matrices, matrices por vectores y matrices por matrices. Estas derivadas no se consideran tan ampliamente y no existe una notación comúnmente aceptada.

Convenciones de disposición

En esta sección se discuten las similitudes y diferencias entre las convenciones notacionales que se utilizan en los distintos campos que aprovechan el cálculo matricial. Aunque en gran medida hay dos convenciones consistentes, algunos autores encuentran conveniente mezclar las dos convenciones en formas que se discuten a continuación. Después de esta sección, las ecuaciones se enumerarán en las dos formas que compiten por separado.

La cuestión fundamental es que la derivada de un vector con respecto a otro vector, es decir 𝐲𝐱, a menudo se escribe de dos formas opuestas. Si el numerador y es de tamaño m y el denominador x de tamaño n, entonces el resultado puede disponerse como una matriz m×n o como una matriz n×m, es decir, los elementos de y dispuestos en columnas y los elementos de x dispuestos en filas, o viceversa. Esto nos lleva a las siguientes posibilidades:

  1. Disposición del numerador, es decir, disposición en función de y y xT(es decir, contrariamente a x). A veces se denomina formulación jacobiana. Esto corresponde a la presentación m×n del ejemplo anterior, lo que significa que el número de fila de 𝐲𝐱 es igual al tamaño del numerador 𝐲 y el número de columna de 𝐲𝐱 es igual al tamaño de xT.
  2. Disposición del denominador, es decir, disposición en función de yT y x (es decir, contrariamente a y). A veces se denomina formulación hessiana. Algunos autores denominan gradiente a esta disposición, a diferencia de la jacobiana (disposición del numerador), que es su transpuesta. (Sin embargo, gradiente significa más comúnmente la derivada y𝐱, independientemente de la disposición). Esto corresponde a la disposición n×m del ejemplo anterior, lo que significa que el número de fila de 𝐲𝐱 es igual al tamaño de x (el denominador).
  3. Una tercera posibilidad que se ve a veces es insistir en escribir la derivada como 𝐲𝐱, (es decir, la derivada se toma con respecto a la transpuesta de x) y siguen la disposición del numerador. Esto permite afirmar que la matriz se dispone según numerador y denominador. En la práctica, esto produce los mismos resultados que la disposición del numerador.

Al tratar el gradiente y𝐱 y el caso contrario 𝐲x, tenemos los mismos problemas. Para ser coherentes, deberíamos hacer una de las siguientes cosas:

  1. Si elegimos la disposición del numerador para 𝐲𝐱, deberíamos trazar el gradiente y𝐱 como un vector fila, y 𝐲x como vector columna.
  2. Si elegimos la disposición del denominador para 𝐲𝐱, deberíamos trazar el gradiente y𝐱 como un vector columna, y 𝐲x como vector fila.
  3. En la tercera posibilidad anterior, escribimos y𝐱 y 𝐲x, y utilizamos la disposición del numerador.

No todos los libros de texto y artículos de matemáticas son consistentes en este aspecto. Es decir, a veces se utilizan diferentes convenciones en diferentes contextos dentro del mismo libro o documento. Por ejemplo, algunos eligen la disposición del denominador para los gradientes (presentándolos como vectores columna), pero la disposición del numerador para la derivada vectorial 𝐲𝐱.

Del mismo modo, cuando se trata de derivadas escalares por matrices y𝐗 y derivadas matriz-por-escalar 𝐘x, entonces la disposición coherente del numerador se dispone según Y y XT, mientras que la disposición coherente del denominador se dispone según YT y X. En la práctica, sin embargo, seguir una disposición del denominador para 𝐘x, y disponiendo el resultado según YT, rara vez se ve porque da lugar a fórmulas malas que no se corresponden con las fórmulas escalares. Como resultado, a menudo se pueden encontrar las siguientes disposiciones:

  1. Disposición consistente del numerador, que dispone 𝐘x en función de Y y y𝐗 según XT.
  2. Disposición mixta, que establece 𝐘x según Y y y𝐗 según X.
  3. Utilizar la notación y𝐗, con resultados iguales a la disposición coherente del numerador.

En las siguientes fórmulas manejamos las cinco combinaciones posibles y𝐱,𝐲x,𝐲𝐱,y𝐗 y 𝐘x por separado. También manejamos casos de derivadas escalares por escalares que implican un vector o matriz intermedia. (Esto puede surgir, por ejemplo, si una curva paramétrica multidimensional se define en términos de una variable escalar, y luego se toma una derivada de una función escalar de la curva con respecto al escalar que parametriza la curva). Para cada una de las distintas combinaciones, damos resultados de disposición del numerador y del denominador, excepto en los casos anteriores en los que la disposición del denominador rara vez se produce. En los casos de matrices en los que tiene sentido, damos resultados de disposición del numerador y de disposición mixta. Como se ha indicado anteriormente, los casos en los que los denominadores de vectores y matrices se escriben en notación de transposición son equivalentes a la disposición del numerador con los denominadores escritos sin la transposición.

Tenga en cuenta que varios autores utilizan diferentes combinaciones de disposiciones del numerador y del denominador para diferentes tipos de derivadas, y no hay garantía de que un autor utilice sistemáticamente la disposición del numerador o del denominador para todos los tipos. Compare las fórmulas siguientes con las citadas en la fuente para determinar la disposición utilizada para ese tipo concreto de derivada, pero tenga cuidado de no asumir que las derivadas de otros tipos siguen necesariamente el mismo tipo de disposición.

Cuando se toman derivadas con un denominador agregado (vectorial o matricial) para encontrar un máximo o un mínimo del agregado, debe tenerse en cuenta que el uso de la disposición del numerador producirá resultados que se transponen con respecto al agregado. Por ejemplo, al intentar hallar la estimación de máxima verosimilitud de una distribución normal multivariante utilizando el cálculo matricial, si el dominio es un vector columna k×1, entonces el resultado utilizando la disposición del numerador tendrá la forma de un vector fila 1×k. Por lo tanto, o bien los resultados deben transponerse al final o bien debe utilizarse la disposición del denominador (o disposición mixta).

Resultado de diferenciar varios tipos de agregados con otros tipos de agregados
Escalar y Vector columna y (tamaño m×1) Matriz Y (tamaño m×n)
Notación Tipo Notación Tipo Notación Tipo
Escalar x Numerador yx Escalar 𝐲x Tamaño-m vector columna 𝐘x m×n matriz
Denominador Tamaño-m vector de fila
Vector columna x
(tamaño n×1)
Numerador y𝐱 Tamaño-n vector de fila 𝐲𝐱 m×n matriz 𝐘𝐱
Denominador Tamaño-n vector de fila n×m matriz
Matriz X
(tamaño p×q)
Numerador y𝐗 q×p matriz 𝐲𝐗 𝐘𝐗
Denominador p×q matriz

Los resultados de las operaciones se transpondrán cuando se cambie entre la notación de disposición del numerador y la notación de disposición del denominador.

Notación numerador-disposición

Utilizando la notación numerador-disposición, tenemos:[1]

y𝐱=[yx1yx2yxn].𝐲x=[y1xy2xymx].𝐲𝐱=[y1x1y1x2y1xny2x1y2x2y2xnymx1ymx2ymxn].y𝐗=[yx11yx21yxp1yx12yx22yxp2yx1qyx2qyxpq].

Las siguientes definiciones sólo se ofrecen en notación numerador-disposición:

𝐘x=[y11xy12xy1nxy21xy22xy2nxym1xym2xymnx].d𝐗=[dx11dx12dx1ndx21dx22dx2ndxm1dxm2dxmn].

Notación denominador-disposición

Usando la notación denominador-disposición, tenemos:[2]

y𝐱=[yx1yx2yxn].𝐲x=[y1xy2xymx].𝐲𝐱=[y1x1y2x1ymx1y1x2y2x2ymx2y1xny2xnymxn].y𝐗=[yx11yx12yx1qyx21yx22yx2qyxp1yxp2yxpq].

Identidades

Como se ha indicado anteriormente, en general, los resultados de las operaciones se transpondrán al cambiar entre la notación de disposición del numerador y la notación de disposición del denominador.

Para entender mejor todas las identidades que aparecen a continuación, hay que tener en cuenta las reglas más importantes: la regla de la cadena, la regla del producto y la regla de la suma. La regla de la suma se aplica universalmente, y la regla del producto se aplica en la mayoría de los casos siguientes, siempre que se mantenga el orden de los productos matriciales, ya que los productos matriciales no son conmutativos. La regla de la cadena se aplica en algunos de los casos, pero lamentablemente no se aplica en las derivadas matriz por escalar ni en las derivadas escalar por matriz (en este último caso, se trata sobre todo del operador de traza aplicado a matrices). En este último caso, la regla del producto tampoco se puede aplicar directamente, pero se puede hacer el equivalente con un poco más de trabajo utilizando las identidades diferenciales.

Las siguientes identidades adoptan las siguientes convenciones:

  • los escalares, a, b, c, d, y e son constantes respecto de, y los escalares, u, y v son funciones de una de x, x, o X;
  • los vectores a, b, c, d y e son constantes con respecto de, y los vectores u y v son funciones de x, x o X;
  • las matrices A, B, C, D y E son constantes con respecto de, y las matrices U y V son funciones de x, x o X.

Identidades vector-por-vector

Esto se presenta en primer lugar porque todas las operaciones que se aplican a la diferenciación vector-por-vector se aplican directamente a la diferenciación escalar-por-vector o escalar simplemente reduciendo el vector apropiado en el numerador o denominador a un escalar.

Identidades: vector-por-vector 𝐲𝐱
Condición Expresión Disposición del numerador, es decir, por y y xT Disposición del denominador, es decir, por yT y x
a no es una función de x 𝐚𝐱= 𝟎
𝐱𝐱= 𝐈
A no es una función de x 𝐀𝐱𝐱= 𝐀 𝐀
A no es una función de x 𝐱𝐀𝐱= 𝐀 𝐀
a no es una función de x,
u = u(x)
a𝐮𝐱= a𝐮𝐱
v = v(x),
a no es una función de x
v𝐚𝐱= 𝐚v𝐱 v𝐱𝐚
v = v(x), u = u(x) v𝐮𝐱= v𝐮𝐱+𝐮v𝐱 v𝐮𝐱+v𝐱𝐮
A no es una función de x,
u = u(x)
𝐀𝐮𝐱= 𝐀𝐮𝐱 𝐮𝐱𝐀
u = u(x), v = v(x) (𝐮+𝐯)𝐱= 𝐮𝐱+𝐯𝐱
u = u(x) 𝐠(𝐮)𝐱= 𝐠(𝐮)𝐮𝐮𝐱 𝐮𝐱𝐠(𝐮)𝐮
u = u(x) 𝐟(𝐠(𝐮))𝐱= 𝐟(𝐠)𝐠𝐠(𝐮)𝐮𝐮𝐱 𝐮𝐱𝐠(𝐮)𝐮𝐟(𝐠)𝐠

Identidad escalar-por-vector

Las identidades fundamentales se sitúan por encima de la línea negra gruesa.

Identidades: escalar-por-vector y𝐱=𝐱y
Condición Expresión Disposición del numerador, es decir, por xT; el resultado es el vector de fila Disposición del denominador, es decir, por x; el resultado es el vector de columna
a no es una función de x a𝐱= 𝟎 [3] 𝟎 [3]
a no es una función de x,
u = u(x)
au𝐱= au𝐱
u = u(x), v = v(x) (u+v)𝐱= u𝐱+v𝐱
u = u(x), v = v(x) uv𝐱= uv𝐱+vu𝐱
u = u(x) g(u)𝐱= g(u)uu𝐱
u = u(x) f(g(u))𝐱= f(g)gg(u)uu𝐱
u = u(x), v = v(x) (𝐮𝐯)𝐱=𝐮𝐯𝐱= 𝐮𝐯𝐱+𝐯𝐮𝐱

𝐮𝐱,𝐯𝐱 en la disposición de numerador

𝐮𝐱𝐯+𝐯𝐱𝐮

𝐮𝐱,𝐯𝐱 en la disposición de denominador

u = u(x), v = v(x),
A no es una función de x
(𝐮𝐀𝐯)𝐱=𝐮𝐀𝐯𝐱= 𝐮𝐀𝐯𝐱+𝐯𝐀𝐮𝐱

𝐮𝐱,𝐯𝐱 en la disposición de numerador

𝐮𝐱𝐀𝐯+𝐯𝐱𝐀𝐮

𝐮𝐱,𝐯𝐱 en la disposición de denominador

2f𝐱𝐱= 𝐇 𝐇, la matriz hessiana[4]
a no es una función de x (𝐚𝐱)𝐱=(𝐱𝐚)𝐱=

𝐚𝐱𝐱=𝐱𝐚𝐱=
𝐚 𝐚
A no es una función de x
b no es una función de x
𝐛𝐀𝐱𝐱= 𝐛𝐀 𝐀𝐛
A no es una función de x 𝐱𝐀𝐱𝐱= 𝐱(𝐀+𝐀) (𝐀+𝐀)𝐱
A no es una función de x
A es simétrica
𝐱𝐀𝐱𝐱= 2𝐱𝐀 2𝐀𝐱
A no es una función de x 2𝐱𝐀𝐱𝐱𝐱= 𝐀+𝐀
A no es una función de x
A es simétricasymmetric
2𝐱𝐀𝐱𝐱𝐱= 2𝐀
(𝐱𝐱)𝐱=𝐱𝐱𝐱=𝐱2𝐱= 2𝐱 2𝐱
a no es una función de x,
u = u(x)
(𝐚𝐮)𝐱=𝐚𝐮𝐱= 𝐚𝐮𝐱

𝐮𝐱 en disposición de numerador

𝐮𝐱𝐚

𝐮𝐱 en disposición de denominador

a, b no son funciones de x axxbx= x(ab+ba) (ab+ba)x
A, b, C, D, e no son funciones de x (Ax+b)C(Dx+e)x= (Dx+e)CA+(Ax+b)CD DC(Ax+b)+AC(Dx+e)
a no es una función de x 𝐱𝐚𝐱= (𝐱𝐚)𝐱𝐚 𝐱𝐚𝐱𝐚

Identidades vector-por-escala

Identidades: vector-por-escala 𝐲x
Condición Expresión Disposición de numerador, es decir, por y, el resultado es el vector columna Disposición de denominador, es decir, por yT, el resultado es el vector fila
a no es una función de x 𝐚x= 𝟎[3]
a no es una función de x,
u = u(x)
a𝐮x= a𝐮x
A no es una función de x,
u = u(x)
𝐀𝐮x= 𝐀𝐮x 𝐮x𝐀
u = u(x) 𝐮x= (𝐮x)
u = u(x), v = v(x) (𝐮+𝐯)x= 𝐮x+𝐯x
u = u(x), v = v(x) (𝐮×𝐯)x= (𝐮x)×𝐯+𝐮×𝐯x 𝐮x×𝐯+𝐮×(𝐯x)
u = u(x) 𝐠(𝐮)x= 𝐠(𝐮)𝐮𝐮x 𝐮x𝐠(𝐮)𝐮
Supone una disposición coherente de la matriz; véase más abajo.
u = u(x) 𝐟(𝐠(𝐮))x= 𝐟(𝐠)𝐠𝐠(𝐮)𝐮𝐮x 𝐮x𝐠(𝐮)𝐮𝐟(𝐠)𝐠
Supone una disposición coherente de la matriz; véase más abajo.
U = U(x), v = v(x) (𝐔×𝐯)x= 𝐔x×𝐯+𝐔×𝐯x 𝐯×(𝐔x)+𝐯x×𝐔

NOTA: Las fórmulas que implican las derivadas vector-por-vector 𝐠(𝐮)𝐮 y 𝐟(𝐠)𝐠 (cuyas salidas son matrices) suponen que las matrices se disponen de forma coherente con la disposición de los vectores, es decir, matriz de disposición-numerador cuando vector de disposición-numerador y viceversa; de lo contrario, transponen las derivadas vector-por-vector.

Identidades escalar-por-matriz

Obsérvese que no existen equivalentes exactos de la regla del producto escalar y de la regla de la cadena cuando se aplican a funciones de matrices con valores matriciales. Sin embargo, la regla del producto de este tipo sí se aplica a la forma diferencial (véase más adelante), y ésta es la forma de derivar muchas de las identidades que aparecen a continuación y que implican la función traza, combinada con el hecho de que la función traza permite la transposición y la permutación cíclica, es decir:

tr(𝐀)=tr(𝐀)tr(𝐀𝐁𝐂𝐃)=tr(𝐁𝐂𝐃𝐀)=tr(𝐂𝐃𝐀𝐁)=tr(𝐃𝐀𝐁𝐂)

Por ejemplo, para computar tr(𝐀𝐗𝐁𝐗𝐂)𝐗:

dtr(𝐀𝐗𝐁𝐗𝐂)=dtr(𝐂𝐀𝐗𝐁𝐗)=tr(d(𝐂𝐀𝐗𝐁𝐗))=tr(𝐂𝐀𝐗d(𝐁𝐗)+d(𝐂𝐀𝐗)𝐁𝐗)=tr(𝐂𝐀𝐗d(𝐁𝐗))+tr(d(𝐂𝐀𝐗)𝐁𝐗)=tr(𝐂𝐀𝐗𝐁d(𝐗))+tr(𝐂𝐀(d𝐗)𝐁𝐗)=tr(𝐂𝐀𝐗𝐁(d𝐗))+tr(𝐂𝐀(d𝐗)𝐁𝐗)=tr((𝐂𝐀𝐗𝐁(d𝐗)))+tr(𝐂𝐀(d𝐗)𝐁𝐗)=tr((d𝐗)𝐁𝐗𝐀𝐂)+tr(𝐂𝐀(d𝐗)𝐁𝐗)=tr(𝐁𝐗𝐀𝐂(d𝐗))+tr(𝐁𝐗𝐂𝐀(d𝐗))=tr((𝐁𝐗𝐀𝐂+𝐁𝐗𝐂𝐀)d𝐗)=tr((𝐂𝐀𝐗𝐁+𝐀𝐂𝐗𝐁)d𝐗)

En ese sentido,

(𝐀𝐗𝐁𝐗𝐂)𝐗=𝐁𝐗𝐀𝐂+𝐁𝐗𝐂𝐀. (disposición de numerador)
(𝐀𝐗𝐁𝐗𝐂)𝐗=𝐂𝐀𝐗𝐁+𝐀𝐂𝐗𝐁. (disposición de denominador)

(Para el último paso, véase la sección Conversión de forma diferencial a derivada).

Identidades: escalar-por-matriz y𝐗
Condición Expresión Disposición de numerador, es decir, por XT Disposición de denominador, es decir, por X
a no es una función de X a𝐗= 𝟎 [5] 𝟎 [5]
a no es una función de X, u = u(X) au𝐗= au𝐗
u = u(X), v = v(X) (u+v)𝐗= u𝐗+v𝐗
u = u(X), v = v(X) uv𝐗= uv𝐗+vu𝐗
u = u(X) g(u)𝐗= g(u)uu𝐗
u = u(X) f(g(u))𝐗= f(g)gg(u)uu𝐗
U = U(X) [4]    g(𝐔)Xij= tr(g(𝐔)𝐔𝐔Xij) tr((g(𝐔)𝐔)𝐔Xij)
Ambas formas asumen la disposición de numerador para 𝐔Xij,

es decir, la disposición mixta se utiliza si es que se usa la disposición de denominador X.

a y b no son funciones de X 𝐚𝐗𝐛𝐗= 𝐛𝐚 𝐚𝐛
a y b no son funciones de X 𝐚𝐗𝐛𝐗= 𝐚𝐛 𝐛𝐚
a, b y C no son funciones de X (𝐗𝐚+𝐛)𝐂(𝐗𝐚+𝐛)𝐗= ((𝐂+𝐂)(𝐗𝐚+𝐛)𝐚) (𝐂+𝐂)(𝐗𝐚+𝐛)𝐚
a, b y C no son funciones de X (𝐗𝐚)𝐂(𝐗𝐛)𝐗= (𝐂𝐗𝐛𝐚+𝐂𝐗𝐚𝐛) 𝐂𝐗𝐛𝐚+𝐂𝐗𝐚𝐛
tr(𝐗)𝐗= 𝐈
U = U(X), V = V(X) tr(𝐔+𝐕)𝐗= tr(𝐔)𝐗+tr(𝐕)𝐗
a no es una función de X,
U = U(X)
tr(a𝐔)𝐗= atr(𝐔)𝐗
g(X) es cualquier polinomio con coeficientes escalares o cualquier función matricial definida por una serie polinómica infinita (por ejemplo eX, sin(X), cos(X), ln(X), entre otros, utilizando una serie de Taylor); g(x)es la función escalar equivalente, g′(x) es su derivada, y g′(X) es la función matricial correspondiente. tr(𝐠(𝐗))𝐗= 𝐠(𝐗) (𝐠(𝐗))
A no es una función de X [6]    tr(𝐀𝐗)𝐗=tr(𝐗𝐀)𝐗= 𝐀 𝐀
A no es una función de X [4]    tr(𝐀𝐗)𝐗=tr(𝐗𝐀)𝐗= 𝐀 𝐀
A no es una función de X [4]    tr(𝐗𝐀𝐗)𝐗= 𝐗(𝐀+𝐀) (𝐀+𝐀)𝐗
A no es una función de X [4]    tr(𝐗𝟏𝐀)𝐗= 𝐗1𝐀𝐗1 (𝐗1)𝐀(𝐗1)
A, B no son funciones de X tr(𝐀𝐗𝐁)𝐗=tr(𝐁𝐀𝐗)𝐗= 𝐁𝐀 𝐀𝐁
A, B, C no son funciones de X tr(𝐀𝐗𝐁𝐗𝐂)𝐗= 𝐁𝐗𝐂𝐀+𝐁𝐗𝐀𝐂 𝐀𝐂𝐗𝐁+𝐂𝐀𝐗𝐁
n es un número entero positivo [4]    tr(𝐗n)𝐗= n𝐗n1 n(𝐗n1)
A no es función de X,
n es un número entero positivo
[4]    tr(𝐀𝐗n)𝐗= i=0n1𝐗i𝐀𝐗ni1 i=0n1(𝐗i𝐀𝐗ni1)
[4]    tr(e𝐗)𝐗= e𝐗 (e𝐗)
[4]    tr(sin(𝐗))𝐗= cos(𝐗) (cos(𝐗))
[7]    |𝐗|𝐗= cofactor(X)=|𝐗|𝐗1 cofactor(X)=|𝐗|(𝐗1)
a no es una función de X [4]ln|a𝐗|𝐗=[8] 𝐗1 (𝐗1)
A, B no son funciones de X [4]     |𝐀𝐗𝐁|𝐗= |𝐀𝐗𝐁|𝐗1 |𝐀𝐗𝐁|(𝐗1)
n es un número entero positivo [4]    |𝐗n|𝐗= n|𝐗n|𝐗1 n|𝐗n|(𝐗1)
(véase pseudo-inverso) [4]      ln|𝐗𝐗|𝐗= 2𝐗+ 2(𝐗+)
(véase pseudo-inverso) [4]     ln|𝐗𝐗|𝐗+= 2𝐗 2𝐗
A no es una función de X,
X es cuadrado e invertible
|𝐗𝐀𝐗|𝐗= 2|𝐗𝐀𝐗|𝐗1=2|𝐗||𝐀||𝐗|𝐗1 2|𝐗𝐀𝐗|(𝐗1)
A no es una función de X,
X no es cuadrado,
A es simétrico
|𝐗𝐀𝐗|𝐗= 2|𝐗𝐀𝐗|(𝐗𝐀𝐗)1𝐗𝐀 2|𝐗𝐀𝐗|𝐀𝐗(𝐗𝐀𝐗)1
A no es función de X,
X no es cuadrado,
A no es simétrico
|𝐗𝐀𝐗|𝐗= |𝐗𝐀𝐗|((𝐗𝐀𝐗)1𝐗𝐀+(𝐗𝐀𝐗)1𝐗𝐀) |𝐗𝐀𝐗|(𝐀𝐗(𝐗𝐀𝐗)1+𝐀𝐗(𝐗𝐀𝐗)1)

Identidades matriz-por-escala

Identidades: matriz-por-escala 𝐘x
Condición Expresión Disposición de numerador, es decir, por Y
U = U(x) a𝐔x= a𝐔x
A, B no son funciones de x,
U = U(x)
𝐀𝐔𝐁x= 𝐀𝐔x𝐁
U = U(x), V = V(x) (𝐔+𝐕)x= 𝐔x+𝐕x
U = U(x), V = V(x) (𝐔𝐕)x= 𝐔𝐕x+𝐔x𝐕
U = U(x), V = V(x) (𝐔𝐕)x= 𝐔𝐕x+𝐔x𝐕
U = U(x), V = V(x) (𝐔𝐕)x= 𝐔𝐕x+𝐔x𝐕
U = U(x) 𝐔1x= 𝐔1𝐔x𝐔1
U = U(x,y) 2𝐔1xy= 𝐔1(𝐔x𝐔1𝐔y2𝐔xy+𝐔y𝐔1𝐔x)𝐔1
A no es una función de x, g(X) es cualquier polinomio con coeficientes escalares, o cualquier función de matriz definida por una serie polinómica infinita (e.g. eX, sin(X), cos(X), ln(X), entre otros); g(x) es una función escalar equivalente, g′(x) es su derivado y g′(X) es la función matricial correspondiente 𝐠(x𝐀)x= 𝐀𝐠(x𝐀)=𝐠(x𝐀)𝐀
A no es una función de x ex𝐀x= 𝐀ex𝐀=ex𝐀𝐀

Véase también Derivada de la aplicación exponencial.

Identidades escalar-por-escalar

Con vectores implicados

Identidades: escalar-por-escalar, con vectores implicados
Condición Expresión Cualquier disposición (se supone que el producto punto ignora la disposición de filas frente a columnas)
u = u(x) g(𝐮)x= g(𝐮)𝐮𝐮x
u = u(x), v = v(x) (𝐮𝐯)x= 𝐮𝐯x+𝐮x𝐯

Con matrices implicadas

Identidades: escalar-por-escalar, con matrices implicadas[4]
Condición Expresión Disposición coherente del numerador, es decir, por Y y XT Disposición mixta, es decir, por Y y X
U = U(x) |𝐔|x= |𝐔|tr(𝐔1𝐔x)
U = U(x) ln|𝐔|x= tr(𝐔1𝐔x)
U = U(x) 2|𝐔|x2= |𝐔|[tr(𝐔12𝐔x2)+tr2(𝐔1𝐔x)tr((𝐔1𝐔x)2)]
U = U(x) g(𝐔)x= tr(g(𝐔)𝐔𝐔x) tr((g(𝐔)𝐔)𝐔x)
A no es una función de x, g(X) es cualquier polinomio con coeficientes escalares, o cualquier función matricial definida por una serie polinómica infinita (es decir, eX, sin(X), cos(X), ln(X), entre otras); g(x) es la función escalar equivalente, g′(x) es su derivado, y g′(X) es la función matricial correspondiente. tr(𝐠(x𝐀))x= tr(𝐀𝐠(x𝐀))
A no es una función de x tr(ex𝐀)x= tr(𝐀ex𝐀)

Identidades en forma diferencial

A menudo es más fácil trabajar en forma diferencial y luego volver a convertir a derivadas normales. Esto sólo funciona bien utilizando la disposición del numerador. En estas reglas, "a" es un escalar.

Identidades diferenciales: escalar que implican matrices[1][4]
Condición Expresión Resultado (disposición del numerador)
d(tr(𝐗))= tr(d𝐗)
d(|𝐗|)= |𝐗|tr(𝐗1d𝐗)=tr(adj(𝐗)d𝐗)
d(ln|𝐗|)= tr(𝐗1d𝐗)
Identidades diferenciales: matriz[1][4][9][10]
Condición Expresión Resultado (disposición del numerador)
A no es una función de X d(𝐀)= 0
a no es una función de X d(a𝐗)= ad𝐗
d(𝐗+𝐘)= d𝐗+d𝐘
d(𝐗𝐘)= (d𝐗)𝐘+𝐗(d𝐘)
(producto de Kronecker) d(𝐗𝐘)= (d𝐗)𝐘+𝐗(d𝐘)
(producto de Hadamard) d(𝐗𝐘)= (d𝐗)𝐘+𝐗(d𝐘)
d(𝐗)= (d𝐗)
d(𝐗1)= 𝐗1(d𝐗)𝐗1
(matriz traspuesta conjugada) d(𝐗H)= (d𝐗)H
n es un número entero positivo d(𝐗n)= i=0n1𝐗i(d𝐗)𝐗ni1
d(e𝐗)= 01ea𝐗(d𝐗)e(1a)𝐗da
d(logX)= 0(𝐗+z𝐈)1(d𝐗)(𝐗+z𝐈)1dz
𝐗=iλi𝐏i es diagonalizable

𝐏i𝐏j=δij𝐏i
f es diferenciable en todo valor propio λi

d(f(𝐗))= ij𝐏i(d𝐗)𝐏j{f(λi)λi=λjf(λi)f(λj)λiλjλiλj

En la última fila, δij es el delta de Kronecker y (𝐏k)ij=(𝐐)ik(𝐐1)kj es el conjunto de operadores de proyección ortogonales que se proyectan sobre el k-ésimo vector propio de X. Q es la matriz de vectores propios de 𝐗=𝐐Λ𝐐1, y (Λ)ii=λi son los valores propios. La función matricial f(𝐗) se define en términos de la función escalar f(x) para matrices diagonalizables mediante f(𝐗)=if(λi)𝐏i donde 𝐗=iλi𝐏i con 𝐏i𝐏j=δij𝐏i.

Para convertir a la forma derivada normal, primero se convierte a una de las siguientes formas canónicas, y luego se utilizan estas identidades:

Plantilla:Anchor

Conversión de la forma diferencial a la forma derivada[1]
Forma diferencial canónica Forma derivada equivalente (disposición del numerador)
dy=adx dydx=a
dy=𝐚d𝐱 dyd𝐱=𝐚
dy=tr(𝐀d𝐗) dyd𝐗=𝐀
d𝐲=𝐚dx d𝐲dx=𝐚
d𝐲=𝐀d𝐱 d𝐲d𝐱=𝐀
d𝐘=𝐀dx d𝐘dx=𝐀

Aplicaciones

El cálculo diferencial matricial se utiliza en estadística y econometría, en particular para el análisis estadístico de distribuciones multivariantes, especialmente la distribución normal multivariada y otras distribuciones elípticas.[11][12][13]

Se utiliza en el análisis de regresión para calcular, por ejemplo, la fórmula de regresión por mínimos cuadrados ordinarios para el caso de múltiples variables explicativas.[14] También se utiliza en sensibilidad local y diagnóstico estadístico.[15]

Véase también

Plantilla:Portal

Referencias

  1. 1,0 1,1 1,2 1,3 1,4 Plantilla:Cita web
  2. Plantilla:Cita libro Utiliza la definición hessiana (transpuesta a la jacobiana) de las derivadas vectoriales y matriciales.
  3. 3,0 3,1 3,2 Aquí, 𝟎 se refiere al vector columna de los 0, de tamaño n, donde n es la longitud de x.
  4. 4,00 4,01 4,02 4,03 4,04 4,05 4,06 4,07 4,08 4,09 4,10 4,11 4,12 4,13 4,14 4,15 4,16 Plantilla:Cite book Este libro usa una disposición mixta, es decir, por Y en 𝐘x, por X en y𝐗.
  5. 5,0 5,1 Aquí, 𝟎 se refiere a la matriz de todos los 0, de la misma forma que X.
  6. Plantilla:Cite web
  7. Véase Determinante para la derivación.
  8. The constant a disappears in the result. This is intentional. In general,
    dlnaudx=1aud(au)dx=1auadudx=1ududx=dlnudx.
    or, also
    dlnaudx=d(lna+lnu)dx=dlnadx+dlnudx=dlnudx.
  9. Plantilla:Cite journal
  10. Nota inédita (en inglés) por S Adler (IAS)
  11. Plantilla:Harvtxt
  12. Plantilla:Harvtxt
  13. Plantilla:Harvtxt
  14. Plantilla:Harvtxt
  15. Plantilla:Harvtxt

Bibliografía

Lectura adicional

Enlaces externos

Software

Información

Plantilla:Control de autoridades