Ten en cuenta que en la informática un problema suele tener diferentes soluciones, pero nosotros aquí te mostramos la mejor y más óptimo.
Solución:
Otras respuestas han abordado derivaciónpero tu pediste intuición:
La varianza es una medida de la incertidumbre. Cuanto mayor sea la varianza, mayor será la incertidumbre. La incertidumbre es aditiva. Si $X_1$ y $X_2$ no están correlacionados, la incertidumbre en su suma es la suma de sus incertidumbres: $Var(X_1 + X_2) = Var(X_1) + Var(X_2)$. Pero, ¿y si están correlacionados? Pueden pasar dos cosas. Si están correlacionados positivamente, esto aumentar la incertidumbre ya que esto hace que sea más probable que las observaciones de las dos variables se alejen de la media en la misma dirección, alejando aún más la suma de su media. Por otro lado, si están negativamente correlacionados, tenderán a tirar en direcciones opuestas con observaciones mayores que el promedio de una variable que tienden a ser compensadas por observaciones menores que el promedio de la otra. Esto conducirá a una cancelación de errores por lo que la suma estará aún más cerca de su promedio de lo que cualquiera de las variables está cerca de la suya. El término de covarianza $Cov(X_1,X_2)$ muestra cómo la correlación entre las variables afecta la incertidumbre general. Intuiciones similares se mantienen con más de 2 variables. Cada par de variables $X_i,X_j$ puede aumentar o disminuir la incertidumbre general de la suma. Al sumar todas esas covarianzas, se obtiene el cambio neto de incertidumbre de todos esos pares.
Las intuiciones no son teoremas. El párrafo anterior no se aplica a todos los casos. Por ejemplo, una forma de tener $Cov(X_1,X_2) > 0$ es tener una gran cantidad de valores negativos compensados por valores positivos más raros pero más grandes. $X_1$ y $X_2$ en realidad podrían tender a tirar en direcciones opuestas en el sentido de que $P((X_1 – mu_1)(X_2 – mu_2) < 0) > 0.5$ pero sin embargo $Cov(X_1,X_2) > 0$ ya que cuando tiran en la misma dirección De Verdad tire en la misma dirección. La fórmula en sí tiene en cuenta todas estas consideraciones.
Esta fórmula en realidad no es del todo profunda y funciona si reemplazas $mathrmCov$ con cualquier forma bilineal simétrica. Imagina que tenemos un producto interno $(-,-)$ y queremos encontrar $(a+b,a+b)$. Entonces $$(a+b,a+b)=(a,a)+(b,b)+(a,b)+(b,a)=(a,a)+(b,b)+2 (a,b)$$ Puedes encontrar una fórmula similar para $(a+b+c,a+b+c)$, y la forma general es exactamente la misma. Solo depende de que la covarianza sea simétrica y bilineal y que la varianza de una variable sea la covarianza consigo misma.
Es muy simple. Es como abrir corchetes en $(a+b)^2$. En ese caso tendrás $a^2+2ab+b^2$.
Con suerte, eso puede guiarlo para descubrir cómo se deriva. Avísame si necesitas una explicación más detallada.
Si estás de acuerdo, tienes el poder dejar un ensayo acerca de qué le añadirías a este post.