Si te encuentras con alguna parte que no entiendes puedes dejarlo en los comentarios y trataremos de ayudarte lo más rápido posible.
Solución:
Respuesta corta: no, la regla no se cumple en más dimensiones.
En el caso general (multivariante con matriz de covarianza arbitraria), la generalización natural de la “distancia normalizada desde la media”, $d = |x -u|/sigma$está dada por el distancia de Mahalanobis
$$d = sqrt (bf x – bf mu)^t bf Sigma^-1 (bf x – bf mu)$ PS
Los puntos de distancia de Mahalanobis constante se encuentran en un elipsoide.
Si (y solo si) los componentes son independientes y con la misma varianza, entonces $d=frac\sigma$.
El valor de umbral que contiene la mayor parte (por ejemplo, el 99 %) de la distribución varía según la dimensión. O dicho de otro modo, la probabilidad de que $x$ toma una distancia (Mahalanobis) menor que (digamos) $d=3.0$ disminuye con la dimensión.
Esta figura, tomada de aquí (“Estadísticas para Imágenes, Óptica y Fototonónica”, Peter Bajorski, fig. 5.21) (que explica todo esto con más detalle), muestra esa probabilidad en función de la dimensión, para distancias $d=2.0$ y $d=3.0$ (“$2-$sigma” y “$3-$sigma”).
Por ejemplo, vemos que en 5 dimensiones la probabilidad de que $x$ mentiras ‘bajo 3 sigmas’ se trata de $0.9$ (en lugar de $0.97$), y para ‘2 sigmas’ está alrededor $0.4$ (en lugar de $0.95$)
Sí, en cierto sentido. Para el caso 1D, debe estandarizar la variable normal a una variable normal estándar $Zsim N(0,1)$. Para la distribución normal multivariante, cada covariable no solo debe tener una distribución normal, sino independiente. También necesita saber algo más, la matriz de correlación. Entonces, su pregunta puede responderse elegantemente usando la cópula gaussiana. Para los intervalos de $8times8$ entre $ ,pm1,pm2,pm3,pminfty$ en cada coordenada, la distribución de probabilidad discreta 2D de variables normales estándar discretizadas independientes (correlación cero) sería : $$ matriz1.82times10^-6&0.0000289&0.000183&0.000461&0.000461&0.000183&0.0000289&1.82times10^-6\0.0000289&0.000458&0.00293&0&02.007 .000458 y 0.0000289 \ 0.000183 & 0.00291 & 0.0291 & 0.0185 y 0.0464 y 0.0464 & 0.0291 & 0.00291 & 0.00183030 y 0.0730 & 0.0730 & 0.0464 & 0.070 & 0.0464 & 0.000464 & 0.00730 & 0.000461 & 0.000730 & 0.000461 y 0.000730 & 0.0464 & 0.117 & 0 .117 & 0.0464 & 0.00730 & 0.000461 & 0.00291 & 0.0291 & 0.0185 y 0.0185 y 0.0464 y 0.0464 & 0.00291 & 0.0185 & 0.00291 & 0.000183 & 0.000458 & 0.00291 & 0.00730 & 0.00730 & 0.00291 & 0.000458 & 0.0000289 \ 1.82 Times10 ^ -6&0.0000289&0.000183&0.000461&0.000461&0.000183&0.0000289&1.82times10^-6\$$
Lo anterior se generó en Sage con el siguiente código: NormalCDF es la función de densidad acumulada normal $Phi$, $Z=z_i$ es el conjunto de valores límite de $9$ dados anteriormente (como un array), $p=\Phi(z_i)$, y $P=\Phi(z_i)-Phi(z_i-1)_i=1^8$ son las probabilidades 1D de estar dentro de cada uno de los intervalos $8$ limitados por estos puntos $9$, $M=(P_iP_j)$ una matriz que representa la CDF de la distribución discreta 2D de estar dentro del intervalo $(i,j)$, $N $ es un array de array de cadenas que representan cada $M_ij$ numéricamente aproximado a $3$ lugares, y $L$ es un string representando $N$ como una matriz sin paréntesis en LaTeX. El último comando muestra LaTeX dentro de Sage, asumiendo que tiene su hoja de trabajo configurada para mostrar tipografía matemática.
NormalCDF = lambda z: (1+sign(z))/2 if abs(z)==infinity else ((1+erf(z/sqrt(2)))/2).n()
Z = [-infinity]; Z.extend(range(-3,4)); Z.append(infinity)
p = [NormalCDF(z) for z in Z]
P = [p[i]-p[i-1] for i in range(1,len(p))]
M = Matrix(RDF,8,8,[[P[i]*P[j] for j in range(8)] for i in range(8)])
N = [[latex((P[i]*P[j]).n(digits=3)) for j in range(8)] for i in range(8)]
L = '\matrix' + (''.join(['& '.join(N[k])+'\\' for k in range(8)])) + ''
LatexExpr(L)
A menudo se dice que en dimensiones altas la distribución de probabilidad se concentra fuera del centro. Entonces, aunque en 1 D un intervalo de 3 sigma contendrá más del 99% de la distribución, un círculo de tres sigma para un gaussiano 2D con componentes iid contendrá menos masa que la contraparte de 1 D y lo mismo para 3D en comparación con 2D, etc.
Si aceptas, eres capaz de dejar una división acerca de qué le añadirías a esta sección.