Análisis de variables sustitutas

De testwiki
Ir a la navegación Ir a la búsqueda

Surrogate Variable Analysis (SVA)[1] o Análisis de Variables Sustitutas, es un algoritmo que permite modelar el efecto de la heterogeneidad de expresión (EH, Expression Heterogeneity) en matrices de expresión génica. Esta EH se utiliza para describir los patrones de variación debidos a la influencia de cualquier variable no tenida en cuenta en el modelo.

El algoritmo parte de la eliminación de las variables consideradas en una matriz de expresión génica 𝐗 para estimar posibles variables sustitutas (surrogate variables) 𝐡1,𝐡2,,𝐡k que modelen los efectos de variables ocultas no tenidas en cuenta en el modelo.

De acuerdo con los autores ,[1] la utilización de SVA aumenta la precisión biológica y la reproducibilidad de análisis en los estudios de expresión de todo el genoma.

Algoritmo

El algoritmo SVA consta de cuatro pasos básicos.

Paso 1: Descomposición en genes

En este primer paso, se eliminan las variables primarias consideradas en el modelo de expresión xij=μi+fi(yj)+eij mediante el cálculo de los residuos:

rij=xijμi^fi^(yj)

Posteriormente se modelan los residuos utilizando descomposición en valores singulares de la matriz de residuos 𝐑 (donde cada elemento (i,j) de 𝐑 es rij) para identificar los efectos de EH en términos de una base ortogonal de vectores singulares que reproduce estos efectos:

𝐑=𝐔𝐃𝐕T

Finalmente, se calcula un valor de significancia estadística para cada gen. Para ello se calcula un valor estadístico Tk que representará la varianza expresada por el k-ésimo gen, y se calculan B valores Tk0 alternativos (hipótesis nula) mediante la permutación de las filas de 𝐑. Se tomará como significancia de cada gen el valor pk:

pk=#{Tk0bTk;b=1,,B}B

Paso 2: Identificación de las fuentes de EH

En este paso se identifica el subconjunto de genes que producen cada efecto ortogonal de la EH mediante un análisis de significancia estadística de las asociaciones entre los genes y los efectos individuales de EH en la matriz de expresión residual.

Para ello se estiman μ^ y fi^ ajustando el modelo xij=μi+fi(yj)+eij y se vuelven a calcular los residuos rij=xijμi^fi^(yj). La matriz de residuos 𝐑 se vuelve a descomponer usando descomposición en valores singulares, y llamamos los genes-propios residuales a las señales residuales de eh independientes de las variables primarias, las columnas de 𝐕: 𝐞k=(ek1,,ekn)T.

Finalmente los m^1 genes-propios más significativos (de acuerdo con los pk calculados anteriormente) respecto al gen-propio 𝐞k son seleccionados en un subconjunto para el siguiente paso.

Paso 3: Construcción de variables sustitutas

Para cada subconjunto de genes se construye la variable sustituta basándose en la variación total de la EH de ese subconjunto en los datos originales de expresión. Para ello se construye la matriz de expresión reducida m^1×n 𝐗𝐫=(𝐱s1,𝐱sm^1). Esta matriz representa la expresión de los genes que contienen la variación EH representada por la variable sustituta 𝐡k. La matriz de expresión reducida se descompone de nuevo en genes-propios 𝐞jr.

Posteriormente, se establece la k-ésima variable sustituta como 𝐡^k=ej*r, donde j*=argmax1jn𝐜𝐨𝐫(𝐞k,𝐞jr), el gen-propio de la matriz reducida más correlado con el gen-propio residual correspondiente.

Paso 4: Construcción del modelo

Todas las variables sustitutas que hayan sido consideradas significativas se incluyen como covariables en el análisis de regresión siguiente, permitiendo coeficientes específicos para cada variable sustituta:

xij=μi+fi(yj)+k=1Kλkihkj+eij*

Usos

Su uso se restringe actualmente como corrección a modelos de expresión génica.

Referencias

Plantilla:Listaref

Bibliografía

Jeffrey T. Leek, John D. Storey, Capturing Heterogeneity in Gene Expression Studies by Surrogate Variable Analysis, PLoS Genet 3(9) (2007) e161. Plantilla:Enlace roto

Enlaces externos

Plantilla:Control de autoridades

  1. 1,0 1,1 Jeffrey T. Leek, John D. Storey, Capturing Heterogeneity in Gene Expression Studies by Surrogate Variable Analysis, PLoS Genet 3(9) (2007) e161. Plantilla:Enlace roto.