Saltar al contenido

Correlación entre múltiples variables categóricas (Pandas)

Esta crónica fue analizado por expertos para que tengas la garantía de la exactitud de este ensayo.

Solución:

Puedes usar pd.factorize

df.apply(lambda x : pd.factorize(x)[0]).corr(method='pearson', min_periods=1)
Out[32]: 
     a    c    d
a  1.0  1.0  1.0
c  1.0  1.0  1.0
d  1.0  1.0  1.0

Entrada de datos

df=pd.DataFrame('a':['a','b','c'],'c':['a','b','c'],'d':['a','b','c'])

Actualizar

from scipy.stats import chisquare

df=df.apply(lambda x : pd.factorize(x)[0])+1

pd.DataFrame([chisquare(df[x].values,f_exp=df.values.T,axis=1)[0] for x in df])

Out[123]: 
     0    1    2    3
0  0.0  0.0  0.0  0.0
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
3  0.0  0.0  0.0  0.0

df=pd.DataFrame('a':['a','d','c'],'c':['a','b','c'],'d':['a','b','c'],'e':['a','b','c'])

Encontré una solución agradable y limpia en esta publicación. No es un solo paso, pero proporciona lo que se requiere. Publicar en correlación para variables categóricas

Si conservas algún recelo y forma de arreglar nuestro enunciado te recordamos añadir una crónica y con deseo lo observaremos.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *