Jaime, parte de este equipo de trabajo, nos hizo el favor de crear este enunciado porque controla muy bien el tema.
Solución:
Primero debe crear un ndarray de tupla, pandas.lib.fast_zip
puede hacer esto muy rápido en cython loop.
import pandas as pd
df = pd.DataFrame('x': [1, 1, 2, 2, 1, 1], 'y':[1, 2, 2, 2, 2, 1])
print pd.factorize(pd.lib.fast_zip([df.x, df.y]))[0]
la salida es:
[0 1 2 2 1 0]
¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)