Solución:
No estoy de acuerdo con los demás.
Tiempo puede usar PCA en datos binarios (por ejemplo, datos codificados one-hot) eso no significa que sea algo bueno, o funcionará muy bien.
PCA está diseñado para continuo variables. Intenta minimizar la varianza (= desviaciones cuadradas). El concepto de desviaciones cuadradas se rompe cuando tienes variables binarias.
Entonces sí, puedes usar PCA. Y sí, obtienes una salida. Incluso es una salida de mínimos cuadrados, no es como si PCA fallara en segmentar dichos datos. Funciona, pero es mucho menos significativo de lo que quisieras que fuera; y supuestamente menos significativo que, por ejemplo, la minería de patrones frecuente.
MCA es una técnica conocida para la reducción de dimensiones de datos categóricos. En R hay muchos paquetes para usar MCA e incluso mezclar con PCA en contextos mixtos. En Python también existe una biblioteca mca. MCA aplica matemáticas similares a las que PCA, de hecho, el estadístico francés solía decir, “el análisis de datos es encontrar la matriz correcta para diagonalizar”
http://gastonsanchez.com/visually-enforcement/how-to/2012/10/13/MCA-in-R/
Básicamente, PCA encuentra y elimina información menos informativa (duplicada) sobre el conjunto de características y reduce la dimensión del espacio de características. En otras palabras, imagine un hiperespacio N-dimensional, PCA encuentra características M (M Por lo tanto, no es importante si las funciones son continuas o no. PCA se usa ampliamente en muchas aplicaciones. Principalmente para eliminar datos ruidosos y menos informativos que provienen de algún sensor o hardware antes de la clasificación / reconocimiento. Editar: Hablando estadísticamente, las características categóricas pueden verse como variables aleatorias discretas en el intervalo [0,1]. El cálculo de la expectativa E {X} y la varianza E {(XE {X}) ^ 2) siguen siendo válidos y significativos para rvs discretos. Sigo defendiendo la aplicabilidad de PCA en caso de características categóricas. Considere un caso en el que le gustaría predecir si “Va a llover durante un día determinado o no”. Tiene la característica categórica X, que es “Tengo que ir a trabajar el día indicado”, 1 para sí y 0 para no. Claramente, las condiciones climáticas no dependen de nuestro horario de trabajo, por lo que P (R | X) = P (R). Suponiendo 5 días de trabajo por semana, tenemos más 1 que 0 para X en nuestro conjunto de datos recopilados aleatoriamente. La PCA probablemente conduciría a eliminar esta dimensión de baja varianza en la representación de su función. Al final del día, PCA es para la reducción de dimensiones con una mínima pérdida de información. Intuitivamente, confiamos en la varianza de los datos en un eje dado para medir su utilidad para la tarea. No creo que exista ninguna limitación teórica para aplicarlo a características categóricas. El valor práctico depende de la aplicación y los datos, lo que también ocurre con las variables continuas.