Cotas de Chernoff

En la teoría de probabilidad, las Cotas de Chernoff fueron nombradas luego de su presentación por Herman Chernoff y, gracias a Herman Rubin,^[1] se dieron cotas exponencialmente decrecientes para las distribuciones de sumas de variables aleatorias independientes. Son una cota más fina que las conocidas cotas basadas en el primer y segundo momento tales como la inecuación de Markov o la inecuación de Chebyshev, las cuales solo obtienen cotas de nivel exponencial cuando la distribución decrece. Sin embargo, las cotas de Chernoff requieren que las variables sean independientes - una condición que ni las inecuaciones de Markov ni de Chebyshev requieren.

Están relacionadas con las (antecesoras históricas) inecuaciones de Bernstein, y a la inecuación de Hoeffding.

Ejemplo

Sean Plantilla:Math variables aleatorias independientes que distribuyen Bernoulli, cada una con probabilidad p > 1/2 de ser igual a 1. Entonces la probabilidad de la ocurrencia simultánea de más de n/2 de los eventos Plantilla:Math tiene un valor exacto Plantilla:Mvar, donde

S = \sum_{i = ⌊ \frac{n}{2} ⌋ + 1}^{n} (\binom{n}{i}) p^{i} (1 - p)^{n - i} .

La cota de Chernoff muestra que Plantilla:Mvar tiene la siguiente cota inferior:

S \geq 1 - e^{- \frac{1}{2 p} n {(p - \frac{1}{2})}^{2}} .

En efecto, notando que Plantilla:Math, lo cual obtenemos por la forma multiplicativa de las cotas de Chernoff (ver más abajo o el Corolario 13.3 en las notas de clases de Sinclair),^[2]

\begin{matrix} \Pr (\sum_{k = 1}^{n} X_{k} \leq ⌊ \frac{n}{2} ⌋) & = \Pr (\sum_{k = 1}^{n} X_{k} \leq (1 - (1 - \frac{1}{2 p})) μ) \\ \leq e^{- \frac{μ}{2} {(1 - \frac{1}{2 p})}^{2}} \\ = e^{- \frac{n}{2 p} {(p - \frac{1}{2})}^{2}} \end{matrix}

Estas cotas admiten varias generalizaciones como se señala más abajo. Podemos encontrar varias representaciones de las cotas de Chernoff: la original forma aditiva (la cual da una cota para el error absoluto) o la más práctica forma multiplicativa (la cual da una cota del error relativo para la esperanza).

Primer paso para probar las cotas de Chernoff

Las cotas de Chernoff para una variable aleatoria Plantilla:Mvar, la cual es la suma de Plantilla:Mvar variables aleatorias independientes Plantilla:Math, se obtienen al aplicar Plantilla:Mvar para algún t bien elegido. Este método fue aplicado por primera vez por Sergei Bernstein para probar las relacionadas inecuaciones de Bernstein.

De la inecuación de Markov y usando la independencia podemos llegar a la siguiente inecuación:

Para cualquier t > 0,

\Pr (X \geq a) = \Pr (e^{t X} \geq e^{t a}) \leq \frac{E [e^{t X}]}{e^{t a}} = e^{- t a} E [\prod_{i} e^{t X_{i}}] .

En particular optimizando sobre t y usando la independencia de Plantilla:Mvar obtenemos,

|

\Pr (X \geq a) \leq \min_{t > 0} e^{- t a} \prod_{i} E [e^{t X_{i}}] .

(1)

Similarmente,

\Pr (X \leq a) = \Pr (e^{- t X} \geq e^{- t a})

y también,

\Pr (X \leq a) \leq \min_{t > 0} e^{t a} \prod_{i} E [e^{- t X_{i}}]

Definiciones precisas y demostraciones

Teorema para la forma aditiva (error absoluto)

El siguiente teorema fue anunciado por Wassily Hoeffding y por esto es llamado el teorema Chernoff-Hoeffding.

Teorema Chernoff-Hoeffding. Supón que Plantilla:Math son variables aleatorias igualmente distribuidas, tomando valores en Plantilla:Math Sea Plantilla:Math y Plantilla:Math. Entonces

\begin{matrix} \Pr (\frac{1}{n} \sum X_{i} \geq p + ε) \leq {({(\frac{p}{p + ε})}^{p + ε} {(\frac{1 - p}{1 - p - ε})}^{1 - p - ε})}^{n} & = e^{- D (p + ε ‖ p) n} \\ \Pr (\frac{1}{n} \sum X_{i} \leq p - ε) \leq {({(\frac{p}{p - ε})}^{p - ε} {(\frac{1 - p}{1 - p + ε})}^{1 - p + ε})}^{n} & = e^{- D (p - ε ‖ p) n} \end{matrix}

donde

D (x ‖ y) = x \ln \frac{x}{y} + (1 - x) \ln (\frac{1 - x}{1 - y})

es la divergencia Kullback–Leibler entre dos variables aleatorias que distribuyen Bernoulli con parámetros x y y respectivamente. Si Plantilla:Math entonces

\Pr (X > n p + x) \leq \exp (- \frac{x^{2}}{2 n p (1 - p)}) .

Demostración

Sea Plantilla:Math. Tomando Plantilla:Math en (1), obtenemos:

\Pr (\frac{1}{n} \sum X_{i} \geq q) \leq \inf_{t > 0} \frac{E [\prod e^{t X_{i}}]}{e^{t n q}} = \inf_{t > 0} {(\frac{E [e^{t X_{i}}]}{e^{t q}})}^{n} .

Luego, conociendo que Plantilla:Math, tenemos que

{(\frac{E [e^{t X_{i}}]}{e^{t q}})}^{n} = {(\frac{p e^{t} + (1 - p)}{e^{t q}})}^{n} = {(p e^{(1 - q) t} + (1 - p) e^{- q t})}^{n} .

Por lo tanto podemos computar fácilmente el ínfimo, usando cálculo:

\frac{d}{d t} (p e^{(1 - q) t} + (1 - p) e^{- q t}) = (1 - q) p e^{(1 - q) t} - q (1 - p) e^{- q t}

Igualando la ecuación a 0 y resolviéndola, tenemos

\begin{matrix} (1 - q) p e^{(1 - q) t} & = q (1 - p) e^{- q t} \\ (1 - q) p e^{t} & = q (1 - p) \end{matrix}

entonces

e^{t} = \frac{(1 - p) q}{(1 - q) p} .

Por lo que,

t = \log (\frac{(1 - p) q}{(1 - q) p}) .

Como Plantilla:Math, vemos que Plantilla:Math, por lo cual nuestra cota se satisface para Plantilla:Mvar. Luego de resolverlo para Plantilla:Mvar, podemos sustituir en las ecuaciones anteriores para llegar a que

\begin{matrix} \log (p e^{(1 - q) t} + (1 - p) e^{- q t}) & = \log (e^{- q t} (1 - p + p e^{t})) \\ = \log (e^{- q \log (\frac{(1 - p) q}{(1 - q) p})}) + \log (1 - p + p e^{\log (\frac{1 - p}{1 - q})} e^{\log \frac{q}{p}}) \\ = - q \log \frac{1 - p}{1 - q} - q \log \frac{q}{p} + \log (1 - p + p (\frac{1 - p}{1 - q}) \frac{q}{p}) \\ = - q \log \frac{1 - p}{1 - q} - q \log \frac{q}{p} + \log (\frac{(1 - p) (1 - q)}{1 - q} + \frac{(1 - p) q}{1 - q}) \\ = - q \log \frac{q}{p} + (- q \log \frac{1 - p}{1 - q} + \log \frac{1 - p}{1 - q}) \\ = - q \log \frac{q}{p} + (1 - q) \log \frac{1 - p}{1 - q} \\ = - D (q ‖ p) . \end{matrix}

Ahora tenemos el resultado deseado, que

\Pr (\frac{1}{n} \sum X_{i} \geq p + ε) \leq e^{- D (p + ε ‖ p) n} .

Para completar la demostración para el caso simétrico, simplemente definimos la variable aleatoria Plantilla:Math, aplicamos la misma demostración, y sustituímos en nuestra cota.

Cotas más simples

Una cota más simple se obtiene al relajar el teorema usando Plantilla:Math, debido a que Plantilla:Math es convexo y al hecho de que

\frac{d^{2}}{d x^{2}} D (p + x ‖ p) = \frac{1}{(p + x) (1 - p - x)} \geq 4 = \frac{d^{2}}{d x^{2}} (2 x^{2}) .

Este resultado es un caso especial de la inecuación de Hoeffding. En algunas ocasiones, la cota

D ((1 + x) p ‖ p) \geq \frac{1}{4} x^{2} p, - \frac{1}{2} \leq x \leq \frac{1}{2},

la cual es más fuerte para Plantilla:Math es también usada.

Teorema para la forma multiplicativa de las cotas de Chernoff (error relativo)

Cota de Chernoff Multiplicativa. Supón que Plantilla:Math son variables aleatorias independientes tomando valores en Plantilla:Math Sea Plantilla:Mvar la variable que denota su suma y Plantilla:Math la suma de los valores esperados. Entonces para todo Plantilla:Math,

\Pr (X > (1 + δ) μ) < {(\frac{e^{δ}}{(1 + δ)^{(1 + δ)}})}^{μ} .

Demostración

Evaluando Plantilla:Math. De acuerdo a (1),

\begin{matrix} \Pr (X > (1 + δ) μ) & \leq \inf_{t > 0} \frac{E [\prod_{i = 1}^{n} \exp (t X_{i})]}{\exp (t (1 + δ) μ)} \\ = \inf_{t > 0} \frac{\prod_{i = 1}^{n} E [e^{t X_{i}}]}{\exp (t (1 + δ) μ)} \\ = \inf_{t > 0} \frac{\prod_{i = 1}^{n} [p_{i} e^{t} + (1 - p_{i})]}{\exp (t (1 + δ) μ)} \end{matrix}

La tercera línea abajo está dada porque $e^{t X_{i}}$ toma el valor Plantilla:Mvar con probabilidad Plantilla:Mvar y el valor 1 con probabilidad Plantilla:Math. Este es idéntico al cálculo anterior en la demostración del teorema de la forma aditiva.

Reescribiendo $p_{i} e^{t} + (1 - p_{i})$ as $p_{i} (e^{t} - 1) + 1$ y notando que $1 + x \leq e^{x}$ (con inecuación estricta si Plantilla:Math), hacemos $x = p_{i} (e^{t} - 1)$ . El mismo resultado puede obtenerse al reemplazar Plantilla:Mvar en la ecuación para la cota de Chernoff con Plantilla:Math.

Por lo tanto,

\Pr (X > (1 + δ) μ) < \frac{\prod_{i = 1}^{n} \exp (p_{i} (e^{t} - 1))}{\exp (t (1 + δ) μ)} = \frac{\exp ((e^{t} - 1) \sum_{i = 1}^{n} p_{i})}{\exp (t (1 + δ) μ)} = \frac{\exp ((e^{t} - 1) μ)}{\exp (t (1 + δ) μ)} .

Si simplemente hacemos Plantilla:Math tal que Plantilla:Math para Plantilla:Math, podemos sustituir y encontrar

\frac{\exp ((e^{t} - 1) μ)}{\exp (t (1 + δ) μ)} = \frac{\exp ((1 + δ - 1) μ)}{(1 + δ)^{(1 + δ) μ}} = {[\frac{e^{δ}}{(1 + δ)^{(1 + δ)}}]}^{μ}

Esto prueba el resultado deseado. Una estrategia similar de demostración puede ser usada para mostrar que

\Pr (X < (1 - δ) μ) < {[\frac{\exp (- δ)}{(1 - δ)^{(1 - δ)}}]}^{μ} .

La fórmula anterior en la práctica es usualmente torpe para computar,^[3] por lo que las siguientes cotas más flojas pero más convenientes son usadas a menudo:

\Pr (X \geq (1 + δ) μ) \leq e^{- \frac{δ^{2} μ}{3}}, 0 < δ < 1,

\Pr (X \geq (1 + δ) μ) \leq e^{- \frac{δ μ}{3}}, 1 < δ,

\Pr (X \leq (1 - δ) μ) \leq e^{- \frac{δ^{2} μ}{2}}, 0 < δ < 1.

Mejores cotas de Chernoff para algunos casos especiales

Podemos obtener cotas más fuertes usando técnicas de demostración más simples para algunos casos especiales de variables aleatorias simétricas.

Supón que Plantilla:Math son variables aleatorias independientes, y que Plantilla:Mvar denota la suma de ellas.

Si $\Pr (X_{i} = 1) = \Pr (X_{i} = - 1) = \frac{1}{2}$ . Entonces,

\Pr (X \geq a) \leq e^{\frac{- a^{2}}{2 n}}, a > 0,

y por lo tanto también

\Pr (| X | \geq a) \leq 2 e^{\frac{- a^{2}}{2 n}}, a > 0.

Si $\Pr (X_{i} = 1) = \Pr (X_{i} = 0) = \frac{1}{2}, E [X] = μ = \frac{n}{2}$ Entonces,

\Pr (X \geq μ + a) \leq e^{\frac{- 2 a^{2}}{n}}, a > 0,

\Pr (X \leq μ - a) \leq e^{\frac{- 2 a^{2}}{n}}, 0 < a < μ,

Aplicaciones de las cotas de Chernoff

Las cotas de Chernoff tienen aplicaciones muy útiles en el balance de conjuntos y el enrutamiento de paquetes en redes esparcidas.

El problema del balance de conjuntos surge durante el diseño de experimentos estadísticos. Típicamente mientras diseñamos un experimento estadístico, dadas las características de cada participante en el experimento, necesitamos conocer como dividir los participantes en dos conjuntos disjuntos tal que las características están tan balanceada como sea posible entre los dos grupos. Referirse a sección del libro para más información del problema.

Las cotas de Chernoff son también usadas para obtener cotas ajustadas para los problemas de la permutación de enrutamiento con una congestión de redes reducida durante el enrutamiento de paquetes en redes esparcidas. Referirse a sección del libro para un completo tratamiento del problema.

Las cotas de Chernoff puedes ser usadas de manera efectiva para evaluar el "nivel de robustez" de una aplicación/algoritmo al explorar su espacio de perturbación con aleatoriedad.^[4] El uso de cotas de Chernoff permite abandonar la hipótesis de las fuertes -y mayormente no realistas- pequeñas perturbaciones. El nivel de robustez puede ser, en cambio, usado para validar o rechazar una elección específica de algoritmo, una implementación de hardware o la pertinencia de una solución cuyos parámetros estructurales son afectados con incertidumbre.

Cotas de Chernoff para matrices

Rudolf Ahlswede y Andreas Winter introdujeron Plantilla:Harv una cota de Chernoff para variables aleatorias con representación matricial.

Si M está distribuida acorde a cierta distribución sobre Plantilla:Math matrices con esperanza 0, y si Plantilla:Math son copias independientes de M entonces para todo Plantilla:Math,

\Pr ({‖ \frac{1}{t} \sum_{i = 1}^{t} M_{i} ‖}_{2} > ε) \leq d \exp (- C \frac{ε^{2} t}{γ^{2}}) .

donde $‖ M ‖_{2} \leq γ$ se cumple casi siempre y C > 0 es una constante.

Notar que el número de muestras en la inecuación depende logarítmicamente de d. En general, desafortunadamente, tal dependencia es inevitable: toma por ejemplo una matriz diagona aleatoria de dimensión d. El operador norma de la suma de t muestras independientes es precisamente la máxima desviación entre d caminos independientes de longitud t. En orden de alcanzar una cota fija en la desviación máxima con probabilidad constante, es fácil darse cuenta de que t debería crecer logarítmicamente con d en este caso.^[5]

El siguiente teorema se puede satisfacer si asumimos que M tiene bajo rango, con el objetivo de evitar la dependencia de las dimensiones.

Teorema sin la dependencia de las dimensiones

Sea Plantilla:Math y M una matriz simétrica real aleatoria con $‖ E [M] ‖_{2} \leq 1$ y $‖ M ‖_{2} \leq γ$ casi siempre. Asume que cada elemento en la base de 'M' tiene a lo sumo rango r. Evalúa

t = Ω (\frac{γ \log (γ / ε^{2})}{ε^{2}}) .

Si $r \leq t$ se cumple casi siempre, entonces

\Pr ({‖ \frac{1}{t} \sum_{i = 1}^{t} M_{i} - E [M] ‖}_{2} > ε) \leq \frac{1}{𝐩 𝐨 𝐥 𝐲 (t)}

donde Plantilla:Math son copias de 'M' igualmente distribuidas.

Variante de muestreo

La siguiente variante de las cotas de Chernoff puede ser usada para acotar la probabilidad de que una mayoría en una población se convierta en minoría en una muestra, o viceversa^[6]

Supón que hay una población general A y una sub-población B⊆A. Denota el tamaño relativo de la sub-población (|B|/|A|) con r.

Supón que elegimos un entero k y una muestra aleatoria S⊂A de tamaño k. Denota el tamaño relativo de la sub-población (|B∩S|/|S|) con r_S.

Entonces, para toda fracción d∈[0,1]:

P r (r_{S} < (1 - d) \cdot r) < \exp (- r \cdot d^{2} \cdot k / 2)

En particular, si B es una mayoría en A (r > 0.5) podemos acotar la probabilidad de que B se mantenga como una minoría en S (r_S>0.5) tomando: d = 1 - 1 / (2 r):^[7]

P r (r_{S} > 0.5) > 1 - \exp (- r \cdot {(1 - \frac{1}{2 r})}^{2} \cdot k / 2)

Esta cota no es fina para nada. Por ejemplo, cuando r = 0.5 tenemos una cota trivial Prob > 0.

Referencias

Plantilla:Listaref

Plantilla:Control de autoridades

↑ Plantilla:Cita libro
↑ Plantilla:Cita web
↑ Plantilla:Cita libro
↑ C.Alippi: "Randomized Algorithms" chapter in Intelligence for Embedded Systems. Springer, 2014, 283pp, ISBN 978-3-319-05278-6.
↑ *Plantilla:Cite arXiv
↑ Plantilla:Cita libro; lemma 6.1
↑ Ver grafos de: la cota como una función de r donde k cambia y la cota como una función de k donde r cambia.

[1] Plantilla:Cita libro

[2] Plantilla:Cita web

[MitzenmacherUpfal-3] Plantilla:Cita libro

[Alippi2014-4] C.Alippi: "Randomized Algorithms" chapter in Intelligence for Embedded Systems. Springer, 2014, 283pp, ISBN 978-3-319-05278-6.

[5] *Plantilla:Cite arXiv

[6] Plantilla:Cita libro; lemma 6.1

[7] Ver grafos de: la cota como una función de r donde k cambia y la cota como una función de k donde r cambia.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Cotas de Chernoff

Sumario

Ejemplo

Primer paso para probar las cotas de Chernoff

Definiciones precisas y demostraciones

Teorema para la forma aditiva (error absoluto)

Demostración

Cotas más simples

Teorema para la forma multiplicativa de las cotas de Chernoff (error relativo)

Demostración

Mejores cotas de Chernoff para algunos casos especiales

Aplicaciones de las cotas de Chernoff

Cotas de Chernoff para matrices

Teorema sin la dependencia de las dimensiones

Variante de muestreo

Referencias

Menú de navegación

Cotas de Chernoff

Ejemplo

Primer paso para probar las cotas de Chernoff

Definiciones precisas y demostraciones

Teorema para la forma aditiva (error absoluto)

Demostración

Cotas más simples

Teorema para la forma multiplicativa de las cotas de Chernoff (error relativo)

Demostración

Mejores cotas de Chernoff para algunos casos especiales

Aplicaciones de las cotas de Chernoff

Cotas de Chernoff para matrices

Teorema sin la dependencia de las dimensiones

Variante de muestreo

Referencias

Menú de navegación

Buscar