Distancia de inicio de Fréchet

De testwiki
Revisión del 19:32 7 ene 2025 de imported>Aosbot (Añadiendo Control de autoridades)
(difs.) ← Revisión anterior | Revisión actual (difs.) | Revisión siguiente → (difs.)
Ir a la navegación Ir a la búsqueda

La distancia de inicio de Fréchet (DIF) es una métrica utilizada para determinar la calidad de las imágenes creadas por un modelo generativo, como una red adversarial generativa (GAN).[1] A diferencia de la puntuación de inicio anterior (IS), que evalúa solo la distribución de las imágenes generadas, la DIF compara la distribución de las imágenes generadas con la distribución de un conjunto de imágenes reales («verdad fundamental»).[1]

La métrica DIF se introdujo en 2017,[1] y es el estándar actual para evaluar la calidad de los modelos generativos desde 2020. Se ha utilizado para medir la calidad de muchos modelos recientes, incluidas las redes de alta resolución StyleGAN1[2] y StyleGAN2 .

Definición

Para cualesquiera dos distribuciones de probabilidad

μ,ν

encima

n

teniendo media finita y varianzas, ladistancia de Fréchet es[3]

dF(μ,ν):=(infγΓ(μ,ν)n×nxy2dγ(x,y))1/2,

dónde

Γ(μ,ν)

es el conjunto de todas las medidas de

n×n

con marginales

μ

y

ν

en el primer y segundo factor respectivamente. (El conjunto

Γ(μ,ν)

también se denomina el conjunto de todos los acoplamientos de

μ

y

ν

. ). Es decir, es la distancia de 2 Wasserstein en

n

. Para dos distribuciones gaussianas multidimensionales

𝒩(μ,Σ)

y

𝒩(μ,Σ)

, es explícitamente resoluble como[4]

dF(𝒩(μ,Σ),𝒩(μ,Σ))2=μμ22+tr(Σ+Σ2(Σ12ΣΣ12)12)

Esto nos permite definir el DIF en forma de pseudocódigo :

INGRESA una función

f:ΩXn

.

INGRESA dos conjuntos de datos S,SΩX .

Calcula f(S),f(S)n .

Ajusta dos distribuciones gaussianas 𝒩(μ,Σ),𝒩(μ,Σ), respectivamente para f(S),f(S) .

DEVUELVE

dF(𝒩(μ,Σ),𝒩(μ,Σ))2

.

En la mayoría de los usos prácticos del DIF,

ΩX

es el espacio de las imágenes, y

f

es un modelo de Inception v3 formado en ImageNet, pero sin la etapa de clasificación final. Técnicamente, es el vector de activación de 2048 dimensiones de la etapa pool3 .

En lugar de comparar imágenes píxel por píxel directamente (por ejemplo, como lo hace la norma L2 ), el DIF compara la media y la desviación estándar de la capa más profunda en Inception v3. Estas etapas están más cerca de los nodos de salida que corresponden a objetos del mundo real, como una raza específica de perro o un avión, y más lejos de las poco profundas cerca de la imagen de entrada.

Variantes

Se han sugerido variantes especializadas de DIF como métrica de evaluación para algoritmos de mejora de la música como Distancia de audio Fréchet (DAF),[5] para modelos generativos de video como Distancia de vídeo Fréchet (DVF),[6] y para moléculas generadas por IA como Distancia Fréchet ChemNet (DFC) .[7]

Limitaciones

Chong y Forsyth demostraron que DIF está sesgado estadísticamente, en el sentido de que su valor esperado sobre datos finitos no es su valor real. Además, debido a que DIF midió la distancia de Wasserstein hacia la distribución real del terreno, no es adecuada para evaluar la calidad de los generadores en configuraciones de adaptación de dominio o en generación de tiro cero. Finalmente, mientras que la DIF es más consistente con el juicio humano que la puntuación de inicio utilizada anteriormente, hay casos en los que la DIF es inconsistente con el juicio humano (por ejemplo, Figura 3,5 en Liu et al. ).

Referencias

Plantilla:Control de autoridades