Esta duda se puede resolver de diversas formas, por lo tanto te damos la resolución más completa para nosotros.
Solución:
No es sorprendente que estés un poco confundido; comprender lo que realmente sucede con los intervalos de confianza puede ser complicado.
La versión corta: si no desea verificar todos los archivos, debe elegir dos porcentajes diferentes: el nivel de confianza (95% en su ejemplo) y qué tan lejos está dispuesto a estar en ese nivel (20% en tu ejemplo). Estos porcentajes se refieren a dos cantidades diferentes, por lo que no tiene sentido sumarlos o restarlos. Una vez que haya tomado estas decisiones, creo que está bien usar la calculadora en línea para obtener un tamaño de muestra.
Si desea obtener más detalles sobre lo que está sucediendo, esta es la explicación: está tratando de estimar el true porcentaje de archivos que tienen datos correctos. Llamemos a ese porcentaje $p$. Dado que no desea calcular $p$ exactamente, debe elegir qué tan lejos está dispuesto a estar con su estimación, digamos 20%. Desafortunadamente, ni siquiera puede estar seguro de que su estimación de $p$ estará dentro del 20 %, por lo que debe elegir un nivel de confianza de que esa estimación estará dentro del 20 % de $p$. Has elegido el 95%. Luego, la calculadora en línea le brinda el tamaño de muestra de 23 que necesita para estimar $p$ dentro del 20 % con un 95 % de confianza.
Pero, ¿qué significa realmente ese 95%? Básicamente, significa que si tuviera que elegir montones y montones de muestras de tamaño 23 y calcular un intervalo de confianza de cada una, el 95 % de los intervalos de confianza resultantes contendrían el valor desconocido de $p$. El otro 5% daría un intervalo de algún tipo que no incluye $p$. (Algunos serían demasiado grandes, otros serían demasiado pequeños). Otra forma de verlo es que elegir un intervalo de confianza del 95% significa que está eligiendo un método que da resultados correctos (es decir, produce un intervalo de confianza que en realidad contiene el valor de $p$) 95% del tiempo.
Para responder a sus preguntas específicas:
“¿Eso significa que ‘puedo estar 95 % seguro de que entre el 80 % y el 100 % de los archivos son correctos’?” No precisamente. Realmente significa que puede estar 95% seguro de que el true el porcentaje de archivos correctos está entre el 80% y el 100%. Esa es una distinción sutil.
“¿Y solo entonces puedo decir con un 95 % de confianza que los archivos son correctos? (99 % +- 4 % = 95 % a 100 %)”. No, esto es confundir los dos tipos de porcentajes. El 99% se refiere al 99% de todos los intervalos de confianza construidos si construyera muchos de ellos. El 4% se refiere a un margen de error de $pm$ 4% para los archivos.
Otra cosa para recordar es que el estimador del tamaño de la muestra asume que la población de la que está extrayendo es mucho, mucho más grande que el tamaño de la muestra con la que termina. Dado que su población es bastante pequeña, puede salirse con la suya con una muestra de menor tamaño con el mismo nivel de confianza. Sin embargo, determinar exactamente qué tan pequeño es un cálculo mucho más difícil. Va más allá de lo que hubieras visto en una clase de estadística básica. No estoy seguro de cómo hacerlo; tal vez alguien más en el sitio lo haga. (EDITAR: Aún mejor: tome la sugerencia de Jyotirmoy Bhattacharya y pregunte en Stats Stack Exchange). Pero esta es la única justificación para poder usar un tamaño de muestra más pequeño que 23, no el hecho de que cancelaría el cálculo del intervalo de confianza si encontrara cualquier cosa que no sea 100% para la estimación de su muestra de la true valor de $p$.
Acuérdate de que te concedemos reseñar .