Saltar al contenido

¿Cuál es la diferencia entre una serie pandas y un DataFrame de una sola columna?

Salvador, miembro de este equipo de trabajo, nos ha hecho el favor de escribir esta reseña ya que domina a la perfección el tema.

Solución:

Citando los documentos de Pandas

pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

Estructura de datos tabulares bidimensional de tamaño mutable, potencialmente heterogénea con ejes etiquetados (filas y columnas). Las operaciones aritméticas se alinean en las etiquetas de fila y columna. Se puede considerar como un contenedor similar a un dict para los objetos de la serie. La estructura de datos primaria de los pandas.

Entonces el La serie es la estructura de datos de una sola columna de un DataFrame, no solo conceptualmente, sino literalmente, es decir, los datos en un DataFrame se almacena en la memoria como una colección de Series.

Análogamente: Necesitamos tanto listas como matrices, porque las matrices se construyen con listas. Las matrices de una sola fila, aunque equivalen a listas en funcionalidad, aún no pueden existir sin las listas de las que están compuestas.

Ambos tienen API extremadamente similares, pero encontrará que DataFrame Los métodos siempre tienen en cuenta la posibilidad de que tenga más de una columna. Y, por supuesto, siempre puedes agregar otro Series (u objeto equivalente) a un DataFrame, mientras agrega un Series a otro Series implica la creación de un DataFrame.

del documento de pandas http://pandas.pydata.org/pandas-docs/stable/dsintro.html La serie es una etiqueta unidimensional array capaz de contener cualquier tipo de datos. Para leer datos en forma de panda Series:

import pandas as pd
ds = pd.Series(data, index=index)

DataFrame es una estructura de datos etiquetada bidimensional con columnas de tipos potencialmente diferentes.

import pandas as pd
df = pd.DataFrame(data, index=index)

En ambos de los índices anteriores está la lista

por ejemplo: tengo un archivo csv con los siguientes datos:

,country,popuplation,area,capital
BR,Brazil,10210,12015,Brasile
RU,Russia,1025,457,Moscow
IN,India,10458,457787,New Delhi

Para leer los datos anteriores como serie y marco de datos:

import pandas as pd
file_data = pd.read_csv("file_path", index_col=0)
d = pd.Series(file_data.country, index=['BR','RU','IN'] or index =  file_data.index)

producción:

>>> d
BR           Brazil
RU           Russia
IN            India

df = pd.DataFrame(file_data.area, index=['BR','RU','IN'] or index = file_data.index )

producción:

>>> df
      area
BR   12015
RU     457
IN  457787

La serie es un objeto unidimensional que puede contener cualquier tipo de datos, como enteros, flotantes y cadenas, p. Ej.

   import pandas as pd
   x = pd.Series([A,B,C]) 

0 A
1 B
2 C

La primera columna de la serie se conoce como índice, es decir, 0,1,2, la segunda columna son sus datos reales, es decir, A, B, C

DataFrames es un objeto bidimensional que puede contener series, listas, diccionarios

df=pd.DataFrame(rd(5,4),['A','B','C','D','E'],['W','X','Y','Z'])

valoraciones y reseñas

Al final de la web puedes encontrar las crónicas de otros gestores de proyectos, tú además tienes el poder dejar el tuyo si te gusta.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *