Coeficiente de Sorensen-Dice

De testwiki
Revisión del 08:42 19 abr 2024 de imported>Aosbot (Borrando parámetros que no existen en eswiki y dan error)
(difs.) ← Revisión anterior | Revisión actual (difs.) | Revisión siguiente → (difs.)
Ir a la navegación Ir a la búsqueda

El coeficiente ó índice de Sørensen-Dice, también conocido por otros nombres[1] tales como el índice de Sørensen, coeficiente de Dice, es un estadístico muestral utilizado para comparar la similitud de dos muestras. Fue desarrollado independientemente por los botánicos Thorvald Sørensen[2] y Lee Raymond Dice,[3] que publicaron en 1948 y 1945 respectivamente.

Fórmula

La fórmula original de Sørensen estaba destinada a ser aplicada a datos de presencia/ausencia, y se define de la siguiente forma:

QS=2CA+B=2|AB||A|+|B|

donde A y B son el número de especies en las muestras A y B, respectivamente, y C es el número de especies compartidas por las dos muestras; QS es el cociente de similitud y varía de 0 a 1. Esta expresión se extiende fácilmente a la abundancia en lugar de la presencia / ausencia de especies. Esta versión cuantitativa del índice de Sørensen también se conoce como Czekanowski índice. El índice de Sørensen es idéntico al coeficiente de Dice[4] que siempre está en [0, 1] rango. El índice de Sørensen utilizado como una medida de distancia, 1 - QS, es idéntica a la distancia Hellinger y Bray Curtis disimilitud[5] cuando se aplica a los datos cuantitativos.

Puede ser visto como una medida de similitud sobre conjuntos:

s=2|XY||X|+|Y|

No es muy diferente en forma del índice de Jaccard , pero tiene algunas propiedades diferentes. Por ejemplo en la función oscila entre cero y uno, como Jaccard. A diferencia de Jaccard, la función correspondiente diferencia

d=12|XY||X|+|Y|

no es una distancia métrica adecuada, ya que no posee la propiedad de la desigualdad del triángulo. El contraejemplo más simple de esto se da por los tres conjuntos {a}, {b}, y {a, b}, la distancia entre los dos primeros son 1, y la diferencia entre la tercera y cada uno de los otros son un tercio .

De manera similar a Jaccard, el conjunto de operaciones se pueden expresar en términos de operaciones vectoriales sobre vectores binarios A y B:

sv=2|AB||A|2+|B|2

que da el mismo resultado en vectores binarios y también da una similitud más general métrica sobre vectores en términos generales.

Para los conjuntos de X e Y de palabras clave utilizadas en la recuperación de la información , el coeficiente puede ser definido como dos veces la información compartida (intersección) sobre la suma de cardinalidades:[6]

Referencias

Plantilla:Listaref

Enlaces externos

Plantilla:Control de autoridades