Saltar al contenido

iterar sobre el objeto GroupBy en dask

Solución:

podría iterar a través de grupos haciendo esto con dask, tal vez haya una mejor manera, pero esto funciona para mí.

import dask.dataframe as dd
import pandas as pd
pdf = pd.DataFrame({'A':[1, 2, 3, 4, 5], 'B':['1','1','a','a','a']})
ddf = dd.from_pandas(pdf, npartitions = 3)
groups = ddf.groupby('B')

for group in pdf['B'].unique():
    print groups.get_group(group)

esto volvería

dd.DataFrame<dataframe-groupby-get_group-e3ebb5d5a6a8001da9bb7653fface4c1, divisions=(0, 2, 4, 4)>
dd.DataFrame<dataframe-groupby-get_group-022502413b236592cf7d54b2dccf10a9, divisions=(0, 2, 4, 4)>

Generalmente, no se recomienda iterar sobre objetos Dask.dataframe. Es ineficaz. En su lugar, es posible que desee intentar construir una función y mapear esa función sobre los grupos resultantes usando groupby.apply

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *