Saltar al contenido

factorización de varias columnas en pandas

Jaime, parte de este equipo de trabajo, nos hizo el favor de crear este enunciado porque controla muy bien el tema.

Solución:

Primero debe crear un ndarray de tupla, pandas.lib.fast_zip puede hacer esto muy rápido en cython loop.

import pandas as pd
df = pd.DataFrame('x': [1, 1, 2, 2, 1, 1], 'y':[1, 2, 2, 2, 2, 1])
print pd.factorize(pd.lib.fast_zip([df.x, df.y]))[0]

la salida es:

[0 1 2 2 1 0]

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada.