Índice de diversidad

Un índice de diversidad es una medida cuantitativa que refleja cuántos tipos diferentes (por ejemplo, especies) hay en un conjunto de datos (por ejemplo, una comunidad). Índices más sofisticados que tienen en cuenta el parentesco filogenético entre los tipos.^[1] Los índices de diversidad son representaciones estadísticas de distintos aspectos de la biodiversidad (por ejemplo, la riqueza, la uniformidad y la dominancia), que son simplificaciones útiles para comparar distintas comunidades o lugares.

Número efectivo de especies o números Hill

Cuando se utilizan índices de diversidad en ecología, los tipos de interés suelen ser especies, pero también pueden ser otras categorías, como géneros, familias, tipos funcionales o haplotipos. Las entidades de interés suelen ser organismos individuales (por ejemplo, plantas o animales), y la medida de abundancia puede ser, por ejemplo, el número de individuos, la biomasa o la cobertura. En demografía, las entidades de interés pueden ser personas, y los tipos de interés diversos grupos demográficos. En ciencias de la información, las entidades pueden ser caracteres y los tipos las distintas letras del alfabeto. Los índices de diversidad más utilizados son simples transformaciones del número efectivo de tipos (también conocido como "diversidad verdadera"), pero cada índice de diversidad también puede interpretarse por sí mismo como una medida correspondiente a algún fenómeno real (pero diferente para cada índice de diversidad).^[2]^[3]^[4]^[5]

Muchos índices sólo tienen en cuenta la diversidad categórica entre sujetos o entidades. Sin embargo, estos índices no tienen en cuenta la variación total (diversidad) que puede haber entre sujetos o entidades, que sólo se produce cuando se calculan tanto la diversidad categórica como la cualitativa.

La diversidad verdadera, o el número efectivo de tipos, se refiere al número de tipos igualmente abundantes necesarios para que la abundancia proporcional media de los tipos sea igual a la observada en el conjunto de datos de interés (donde puede que no todos los tipos sean igualmente abundantes). La diversidad real en un conjunto de datos se calcula tomando primero la media generalizada ponderada Plantilla:Math de las abundancias proporcionales de los tipos en el conjunto de datos, y luego tomando el recíproco de esto. La ecuación es:^[4]^[5]

^{q} D = \frac{1}{M_{q - 1}} = \frac{1}{\sqrt[q - 1]{\sum_{i = 1}^{R} p_{i} p_{i}^{q - 1}}} = {(\sum_{i = 1}^{R} p_{i}^{q})}^{1 / (1 - q)}

El denominador Plantilla:Math es igual a la abundancia proporcional media de los tipos del conjunto de datos calculada con la media generalizada ponderada con exponente Plantilla:Math. En la ecuación, Plantilla:Math es la riqueza (el número total de tipos en el conjunto de datos), y la abundancia proporcional del tipo i es Plantilla:Math. Las propias abundancias proporcionales se utilizan como pesos nominales. Los números $^{q} D$ se denominan números de Hill de orden q o número efectivo de especies.^[6]

Cuando Plantilla:Math, la ecuación anterior es indefinida. Sin embargo, el límite matemático como Plantilla:Math las aproximaciones 1 están bien definidas y la diversidad correspondiente se calcula con la siguiente ecuación:

^{1} D = \frac{1}{\prod_{i = 1}^{R} p_{i}^{p_{i}}} = \exp (- \sum_{i = 1}^{R} p_{i} \ln (p_{i}))

que es la exponencial de la entropía de Shannon calculada con logaritmos naturales (véase más arriba). En otros ámbitos, esta estadística también se conoce como perplejidad.

La ecuación general de la diversidad suele escribirse de la forma:^[2]^[3]

^{q} D = {(\sum_{i = 1}^{R} p_{i}^{q})}^{1 / (1 - q)}

y el término entre paréntesis se denomina suma básica. Algunos índices de diversidad populares corresponden a la suma básica calculada con distintos valores de Plantilla:Math.^[3]

Sensibilidad del valor de diversidad a las especies raras frente a las abundantes

El valor de Plantilla:Math suele denominarse orden de la diversidad. Define la sensibilidad de la diversidad real a las especies raras frente a las abundantes modificando la forma de calcular la media ponderada de las abundancias proporcionales de las especies. Con algunos valores del parámetro Plantilla:Math, el valor de la media generalizada Plantilla:Math asume tipos familiares de medias ponderadas como casos especiales. En particular,

Plantilla:Math corresponde a la media armónica ponderada,
Plantilla:Math a la media geométrica ponderada, y
Plantilla:Math a la media aritmética ponderada.
Como Plantilla:Math se aproxima a infinito, la media generalizada ponderada con exponente Plantilla:Math se acerca al máximo valor Plantilla:Math que es la abundancia proporcional de la especie más abundante en el conjunto de datos.

En general, aumentar el valor de Plantilla:Math aumenta el peso efectivo dado a las especies más abundantes. Esto lleva a obtener un Plantilla:Math y una menor diversidad real (Plantilla:Math) con el aumento de Plantilla:Math.

Cuando Plantilla:Math, la media geométrica ponderada de los Plantilla:Math y cada especie se pondera exactamente por su abundancia proporcional (en la media geométrica ponderada, los pesos son los exponentes). Cuando Plantilla:Math, el peso dado a las especies abundantes es exagerado, y cuando Plantilla:Math, el peso que se da a las especies raras. En Plantilla:Math, las ponderaciones de las especies anulan exactamente las abundancias proporcionales de las especies, de modo que la media ponderada de las Plantilla:Math valores igual a Plantilla:Math incluso cuando no todas las especies son igualmente abundantes. En Plantilla:Math, el número efectivo de especies, Plantilla:Math, es igual al número real de especies Plantilla:Math. En el contexto de la diversidad, Plantilla:Math suele limitarse a valores no negativos. Esto se debe a que los valores negativos de Plantilla:Math daría a las especies raras tanto más peso que a las abundantes que Plantilla:Math superaría Plantilla:Math.^[4]^[5]

Riqueza

Plantilla:Main

La riqueza Plantilla:Math simplemente cuantifica cuántos tipos diferentes contiene el conjunto de datos de interés. Por ejemplo, la riqueza de especies (normalmente Plantilla:Math) es simplemente el número de especies, por ejemplo, en un lugar determinado. La riqueza es una medida sencilla, por lo que ha sido un índice de diversidad muy utilizado en ecología, donde a menudo no se dispone de datos sobre abundancia.^[7] Si la diversidad real se calcula con Plantilla:Math, el número efectivo de tipos (Plantilla:Math) es igual al número real de tipos, lo que es idéntico a la riqueza (Plantilla:Math).^[3]^[5]

Índice de Shannon

El índice de Shannon ha sido un índice de diversidad popular en la literatura ecológica, donde también se conoce como índice de diversidad de Shannon, índice de Shannon-Wiener e índice (erróneamente) de Shannon-Weaver.^[8] La medida fue propuesta originalmente por Claude Shannon en 1948 para cuantificar la entropía (de ahí la entropía de Shannon, relacionada con el contenido de información de Shannon) en cadenas de texto.^[9] La idea es que cuantas más letras haya, y cuanto más cercanas sean sus abundancias proporcionales en la cadena de interés, más difícil será predecir correctamente qué letra será la siguiente en la cadena. La entropía de Shannon cuantifica la incertidumbre (entropía o grado de sorpresa) asociada a esta predicción. Se suele calcular de la siguiente manera:

H^{'} = - \sum_{i = 1}^{R} p_{i} \ln p_{i}

Donde Plantilla:Math es la proporción de caracteres pertenecientes al tipo i de letra en la cadena de interés. En ecología, Plantilla:Math suele ser la proporción de individuos pertenecientes a la especie i en el conjunto de datos de interés. A continuación, la entropía de Shannon cuantifica la incertidumbre a la hora de predecir la identidad de especie de un individuo tomado al azar del conjunto de datos.

Aunque la ecuación se escribe aquí con logaritmos naturales, la base del logaritmo utilizado al calcular la entropía de Shannon puede elegirse libremente. El propio Shannon habló de las bases logarítmicas 2, 10 y Plantilla:Math, y éstas se han convertido desde entonces en las bases más populares en las aplicaciones que utilizan la entropía de Shannon. Cada base logarítmica corresponde a una unidad de medida diferente, que se ha denominado dígitos binarios (bits), dígitos decimales (decits) y dígitos naturales (nats) para las bases 2, 10 y Plantilla:Math, respectivamente. Para comparar valores de entropía de Shannon calculados originalmente con bases logarítmicas diferentes es necesario convertirlos a la misma base logarítmica: cambio de la base Plantilla:Math a la base Plantilla:Math se obtiene multiplicando por Plantilla:Math.^[9]

El índice de Shannon (Plantilla:Math) está relacionada con la media geométrica ponderada de las abundancias proporcionales de los tipos. En concreto, es igual al logaritmo de la diversidad verdadera calculada con Plantilla:Math:^[4]

H^{'} = - \sum_{i = 1}^{R} p_{i} \ln p_{i} = - \sum_{i = 1}^{R} \ln p_{i}^{p_{i}}

También se puede escribir

H^{'} = - (\ln p_{1}^{p_{1}} + \ln p_{2}^{p_{2}} + \ln p_{3}^{p_{3}} + \dots + \ln p_{R}^{p_{R}})

que es igual a

H^{'} = - \ln p_{1}^{p_{1}} p_{2}^{p_{2}} p_{3}^{p_{3}} \dots p_{R}^{p_{R}} = \ln (\frac{1}{p_{1}^{p_{1}} p_{2}^{p_{2}} p_{3}^{p_{3}} \dots p_{R}^{p_{R}}}) = \ln (\frac{1}{\prod_{i = 1}^{R} p_{i}^{p_{i}}})

Dado que la suma de los valores Plantilla:Math es igual a 1 por definición, el denominador es igual a la media geométrica ponderada de los valores Plantilla:Math, con el valor Plantilla:Math que se utilizan como pesos (exponentes en la ecuación). Por lo tanto, el término entre paréntesis equivale a la diversidad real, Plantilla:Math y Plantilla:Math es igual a Plantilla:Math.^[2]^[4]^[5]

Cuando todos los tipos del conjunto de datos de interés son igual de comunes, todos los valores Plantilla:Math iguales Plantilla:Math, por lo que el índice de Shannon toma el valor Plantilla:Math. Cuanto más desiguales sean las abundancias de los tipos, mayor será la media geométrica ponderada de los valores Plantilla:Math y menor será la entropía de Shannon correspondiente. Si prácticamente toda la abundancia se concentra en un tipo, y los demás tipos son muy raros (aunque haya muchos de ellos), la entropía de Shannon se aproxima a cero. Cuando sólo hay un tipo en el conjunto de datos, la entropía de Shannon es exactamente igual a cero (no hay incertidumbre a la hora de predecir el tipo de la siguiente entidad elegida al azar).

En el aprendizaje automático, el índice de Shannon también se denomina Aprendizaje del árbol de Ganancia de información.

Entropía de Rényi

La entropía de Rényi es una generalización de la entropía de Shannon a otros valores de Plantilla:Math que 1. Se puede expresar:

^{q} H = \frac{1}{1 - q} \ln (\sum_{i = 1}^{R} p_{i}^{q})

que es igual a

^{q} H = \ln (\frac{1}{\sqrt[q - 1]{\sum_{i = 1}^{R} p_{i} p_{i}^{q - 1}}}) = \ln (^{q} D)

Esto significa que si se toma el logaritmo de la diversidad verdadera en función de cualquier valor de Plantilla:Math da la entropía de Rényi correspondiente al mismo valor de Plantilla:Math.

Índice de Simpson

El índice de Simpson fue introducido en 1949 por Edward H. Simpson para medir el grado de concentración cuando los individuos se clasifican en tipos.^[10] El mismo índice fue redescubierto por Orris C. Herfindahl en 1950.^[11] La raíz cuadrada del índice ya había sido introducida en 1945 por el economista Albert O. Hirschman.^[12] Como resultado, la misma medida suele conocerse como índice de Simpson en ecología, y como índice de Herfindahl o índice de Herfindahl-Hirschman (IHH) en economía.

La medida equivale a la probabilidad de que dos entidades tomadas al azar del conjunto de datos de interés representen el mismo tipo:^[10]

λ = \sum_{i = 1}^{R} p_{i}^{2},

Donde Plantilla:Math es la riqueza (el número total de tipos en el conjunto de datos). Esta ecuación también es igual a la media aritmética ponderada de las abundancias proporcionales Plantilla:Math de los tipos de interés, utilizando como pesos las propias abundancias proporcionales.^[2] Por definición, las abundancias proporcionales están limitadas a valores entre cero y uno, pero se trata de una media aritmética ponderada, por lo que Plantilla:Math, que se alcanza cuando todos los tipos abundan por igual.

Comparando la ecuación utilizada para calcular λ con las ecuaciones utilizadas para calcular la diversidad verdadera, se puede ver que Plantilla:Math es igual a Plantilla:Math, es decir, diversidad real calculada con Plantilla:Math. Por tanto, el índice de Simpson original es igual a la suma básica correspondiente.^[3]

La interpretación de λ como la probabilidad de que dos entidades tomadas al azar del conjunto de datos de interés representen el mismo tipo supone que la primera entidad se sustituye al conjunto de datos antes de tomar la segunda entidad. Si el conjunto de datos es muy grande, el muestreo sin sustitución da aproximadamente el mismo resultado, pero en conjuntos de datos pequeños, la diferencia puede ser sustancial. Si el conjunto de datos es pequeño y se asume el muestreo sin sustitución, la probabilidad de obtener el mismo tipo con ambas extracciones aleatorias es:

ℓ = \frac{\sum_{i = 1}^{R} n_{i} (n_{i} - 1)}{N (N - 1)}

Donde Plantilla:Math es el número de entidades pertenecientes al tipo i y Plantilla:Math es el número total de entidades del conjunto de datos.^[10] Esta forma del índice de Simpson también se conoce como índice de Hunter-Gaston en microbiología.^[13]

Dado que la abundancia media proporcional de los tipos aumenta con la disminución del número de tipos y el aumento de la abundancia del tipo más abundante, λ obtiene valores pequeños en conjuntos de datos de alta diversidad y valores grandes en conjuntos de datos de baja diversidad. Este es un comportamiento contraintuitivo para un índice de diversidad, por lo que a menudo se han utilizado en su lugar transformaciones de λ que aumentan con el incremento de la diversidad. Los más populares de estos índices han sido el índice de Simpson inverso (1/λ) y el índice de Gini-Simpson (1 - λ).^[2] ^[3]Ambos también se han llamado índice de Simpson en la literatura ecológica, por lo que hay que tener cuidado para evitar comparar accidentalmente los diferentes índices como si fueran el mismo.

Índice de Simpson inverso

El índice de Simpson inverso es igual a:

\frac{1}{λ} = \frac{1}{\sum_{i = 1}^{R} p_{i}^{2}} =^{2} D

Esto equivale simplemente a la diversidad verdadera de orden 2, es decir, al número efectivo de tipos que se obtiene cuando se utiliza la media aritmética ponderada para cuantificar la abundancia media proporcional de los tipos en el conjunto de datos de interés.

El índice también se utiliza como medida del número efectivo de partidos.

Índice de Gini-Simpson

El índice de Gini-Simpson también se denomina impureza de Gini o índice de diversidad de Gini^[14] en el campo del aprendizaje automático. El índice de Simpson original λ es igual a la probabilidad de que dos entidades tomadas al azar del conjunto de datos de interés (con reemplazo) representen el mismo tipo. Su transformación 1 - λ, por tanto, equivale a la probabilidad de que las dos entidades representen tipos diferentes. Esta medida también se conoce en ecología como probabilidad de encuentro interespecífico (PIE)^[15] e índice de Gini-Simpson^[3] y puede expresarse como una transformación de la diversidad verdadera de orden 2:

1 - λ = 1 - \sum_{i = 1}^{R} p_{i}^{2} = 1 - \frac{1}{^{2} D}

El índice Gibbs-Martin de sociología, psicología y estudios de gestión,^[16] también conocido como índice Blau, es la misma medida que el índice Gini-Simpson.

Esta cantidad también se conoce como heterocigosidad en genética de poblaciones.

Índice Berger-Parker

El índice Berger-Parker^[17] es igual al máximo del valor Plantilla:Math en el conjunto de datos, es decir, la abundancia proporcional del tipo más abundante. Esto corresponde a la media generalizada ponderada de los valores Plantilla:Math cuando Plantilla:Math se aproxima a infinito, y por lo tanto es igual a la inversa de la verdadera diversidad de orden infinito (Plantilla:Math).

Véase también

Referencias

Plantilla:Listaref

Lectura adicional

Colinvaux, Paul A. (1973). Introduction to Ecology
Cover, Thomas M.; Thomas, Joy A. (1991). Elements of Information Theory
Chao, A.; Shen, T-J. (2003). "Nonparametric estimation of Shannon's index of diversity when there are unseen species in sample

Enlaces externos

Simpson's Diversity index
Diversity indices Plantilla:Wayback ofrece algunos ejemplos de estimaciones del índice de Simpson para ecosistemas reales.

Plantilla:Control de autoridades

[1] Plantilla:Cita publicación

[:2-2] 2,0 ^2,1 ^2,2 ^2,3 ^2,4 Plantilla:Cita publicación

[:3-3] 3,0 ^3,1 ^3,2 ^3,3 ^3,4 ^3,5 ^3,6 Plantilla:Cita publicación

[:0-4] 4,0 ^4,1 ^4,2 ^4,3 ^4,4 Plantilla:Cita publicación

[:1-5] 5,0 ^5,1 ^5,2 ^5,3 ^5,4 Plantilla:Cita publicación

[6] Plantilla:Cita publicación

[7] Plantilla:Cita publicación

[8] Plantilla:Cita publicación

[:4-9] 9,0 ^9,1 Plantilla:Cita publicación

[:5-10] 10,0 ^10,1 ^10,2 Plantilla:Cita publicación

[11] Plantilla:Cita publicación

[12] Plantilla:Cita publicación

[13] Plantilla:Cita publicación

[14] Plantilla:Cita web

[15] Plantilla:Cita publicación

[16] Plantilla:Cita libro

[17] Plantilla:Cita publicación

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

Índice de diversidad

Sumario

Número efectivo de especies o números Hill

Sensibilidad del valor de diversidad a las especies raras frente a las abundantes

Riqueza

Índice de Shannon

Entropía de Rényi

Índice de Simpson

Índice de Simpson inverso

Índice de Gini-Simpson

Índice Berger-Parker

Véase también

Referencias

Lectura adicional

Enlaces externos

Menú de navegación

Índice de diversidad

Número efectivo de especies o números Hill

Sensibilidad del valor de diversidad a las especies raras frente a las abundantes

Riqueza

Índice de Shannon

Entropía de Rényi

Índice de Simpson

Índice de Simpson inverso

Índice de Gini-Simpson

Índice Berger-Parker

Véase también

Referencias

Lectura adicional

Enlaces externos

Menú de navegación

Buscar