- filepath_or_buffer : str, objeto de ruta o objeto similar a un archivo
-
Cualquier ruta de cadena válida es aceptable. La cadena podría ser una URL. Los esquemas de URL válidos incluyen http, ftp, s3, gs y file. Para las URL de archivos, se espera un host. Un archivo local podría ser: file: //localhost/path/to/table.csv.
Si desea pasar un objeto de ruta, pandas acepta cualquier os.PathLike
.
Por objeto similar a un archivo, nos referimos a objetos con un read()
método, como un identificador de archivo (por ejemplo, a través de incorporado open
función) o StringIO
.
- sep : str, predeterminado ‘,’
-
Delimitador a utilizar. Si sep es None, el motor C no puede detectar automáticamente el separador, pero el motor de análisis de Python puede, lo que significa que este último se utilizará y detectará automáticamente el separador mediante la herramienta de rastreo incorporada de Python, csv.Sniffer
. Además, los separadores de más de 1 carácter y diferentes de 's+'
se interpretará como expresiones regulares y también forzará el uso del motor de análisis de Python. Tenga en cuenta que los delimitadores de expresiones regulares tienden a ignorar los datos entre comillas. Ejemplo de expresiones regulares: 'rt'
.
- delimitador : str, predeterminado Ninguno
-
Alias de sep.
- encabezamiento : int, lista de int, predeterminado ‘inferir’
-
Número (s) de fila para usar como nombres de columna y el inicio de los datos. El comportamiento predeterminado es inferir los nombres de las columnas: si no se pasan nombres, el comportamiento es idéntico a header=0
y los nombres de las columnas se infieren de la primera línea del archivo, si los nombres de las columnas se pasan explícitamente, el comportamiento es idéntico a header=None
. Pasar explícitamente header=0
para poder reemplazar los nombres existentes. El encabezado puede ser una lista de números enteros que especifican la ubicación de las filas para un índice múltiple en las columnas, p. Ej. [0,1,3]. Se omitirán las filas intermedias que no estén especificadas (por ejemplo, se omitirá 2 en este ejemplo). Tenga en cuenta que este parámetro ignora las líneas comentadas y las líneas vacías si skip_blank_lines=True
, asi que header=0
denota la primera línea de datos en lugar de la primera línea del archivo.
- nombres : similar a una matriz, opcional
-
Lista de nombres de columna para usar. Si el archivo contiene una fila de encabezado, debe pasar explícitamente header=0
para anular los nombres de las columnas. No se permiten duplicados en esta lista.
- index_col : int, str, secuencia de int / str, o False, por defecto Ninguno
-
Columna (s) para usar como etiquetas de fila del DataFrame
, dado como nombre de cadena o índice de columna. Si se proporciona una secuencia de int / str, se utiliza un MultiIndex.
Nota: index_col=False
se puede utilizar para obligar a los pandas a no utilice la primera columna como índice, por ejemplo, cuando tenga un archivo mal formado con delimitadores al final de cada línea.
- usecols : tipo lista o invocable, opcional
-
Devuelve un subconjunto de las columnas. Si es similar a una lista, todos los elementos deben ser posicionales (es decir, índices enteros en las columnas del documento) o cadenas que correspondan a los nombres de columna proporcionados por el usuario en nombres o inferido de la (s) fila (s) del encabezado del documento. Por ejemplo, una lista válida usecols el parámetro sería [0,1,2]
o ['foo','bar','baz']
. El orden de los elementos se ignora, por lo que usecols=[0,1]
es lo mismo que [1,0]
. Para crear una instancia de un DataFrame desde data
con uso conservado del orden de los elementos pd.read_csv(data,usecols=['foo','bar'])[['foo','bar']]
para columnas en ['foo','bar']
orden o pd.read_csv(data,usecols=['foo','bar'])[['bar','foo']]
por ['bar','foo']
pedido.
Si es invocable, la función invocable se evaluará contra los nombres de columna, devolviendo nombres donde la función invocable se evalúa como Verdadero. Un ejemplo de un argumento invocable válido sería lambdax:x.upper()in['AAA','BBB','DDD']
. El uso de este parámetro da como resultado un tiempo de análisis mucho más rápido y un menor uso de memoria.
- estrujar : bool, predeterminado Falso
-
Si los datos analizados solo contienen una columna, devuelve una serie.
- prefijo : str, opcional
-
Prefijo para agregar a los números de columna cuando no hay encabezado, por ejemplo, ‘X’ para X0, X1,…
- mangle_dupe_cols : bool, por defecto True
-
Las columnas duplicadas se especificarán como ‘X’, ‘X.1’, … ‘X.N’, en lugar de ‘X’ … ‘X’. Pasar False hará que los datos se sobrescriban si hay nombres duplicados en las columnas.
- dtype : Escriba el nombre o el diccionario de la columna -> tipo, opcional
-
Tipo de datos para datos o columnas. Por ejemplo, ‘a’: np.float64, ‘b’: np.int32, ‘c’: ‘Int64’ Use str o objeto junto con adecuado na_values configuraciones para preservar y no interpretar dtype. Si se especifican convertidores, se aplicarán EN LUGAR de la conversión dtype.
- motor : ‘c’, ‘python’, opcional
-
Motor analizador a utilizar. El motor C es más rápido, mientras que el motor Python actualmente tiene más funciones.
- convertidores : dict, opcional
-
Dictado de funciones para convertir valores en determinadas columnas. Las claves pueden ser números enteros o etiquetas de columna.
- true_values : lista, opcional
-
Valores a considerar como verdaderos.
- false_values : lista, opcional
-
Valores a considerar como falsos.
- skipinitialspace : bool, predeterminado Falso
-
Omitir espacios después del delimitador.
- saltos : tipo lista, int o invocable, opcional
-
Números de línea para omitir (indexados en 0) o número de líneas para omitir (int) al comienzo del archivo.
Si es invocable, la función invocable se evaluará contra los índices de fila, devolviendo True si la fila debe omitirse y False en caso contrario. Un ejemplo de un argumento invocable válido sería lambdax:xin[0,2]
.
- skipfooter : int, predeterminado 0
-
Número de líneas en la parte inferior del archivo para omitir (no compatible con motor = ‘c’).
- nrows : int, opcional
-
Número de filas de archivo para leer. Útil para leer fragmentos de archivos grandes.
- na_values : escalar, str, list-like o dict, opcional
-
Cadenas adicionales para reconocer como NA / NaN. Si se aprueba dict, valores NA específicos por columna. Por defecto, los siguientes valores se interpretan como NaN: ”, ‘# N / A’, ‘# N / AN / A’, ‘#NA’, ‘-1. # IND’, ‘-1. # QNAN’, ‘-NaN’, ‘-nan’, ‘1. # IND’, ‘1. # QNAN’, ‘‘,’ N / A ‘,’ NA ‘,’ NULL ‘,’ NaN ‘,’ n / a ‘,’ nan ‘,’ null ‘.
- keep_default_na : bool, por defecto True
-
Si se deben incluir o no los valores NaN predeterminados al analizar los datos. Dependiendo de si na_values se pasa, el comportamiento es el siguiente:
-
Si keep_default_na es cierto, y na_values están especificados, na_values se agrega a los valores predeterminados de NaN utilizados para el análisis.
-
Si keep_default_na es cierto, y na_values no se especifican, solo se utilizan los valores NaN predeterminados para el análisis.
-
Si keep_default_na es falso, y na_values se especifican, solo se especifican los valores de NaN na_values se utilizan para analizar.
-
Si keep_default_na es falso, y na_values no se especifican, no se analizarán cadenas como NaN.
Tenga en cuenta que si na_filter se pasa como Falso, el keep_default_na y na_values se ignorarán los parámetros.
- na_filter : bool, por defecto True
-
Detecta marcadores de valor perdidos (cadenas vacías y el valor de na_values). En datos sin NA, pasar na_filter = False puede mejorar el rendimiento de la lectura de un archivo grande.
- verboso : bool, predeterminado Falso
-
Indique el número de valores NA colocados en columnas no numéricas.
- skip_blank_lines : bool, por defecto True
-
Si Es cierto, omita las líneas en blanco en lugar de interpretarlas como valores NaN.
- parse_dates : bool o lista de int o nombres o lista de listas o dict, por defecto Falso
-
El comportamiento es el siguiente:
-
booleano. Si es verdadero -> intente analizar el índice.
-
lista de int o nombres. por ejemplo, si [1, 2, 3] -> intente analizar las columnas 1, 2, 3 cada una como una columna de fecha separada.
-
lista de listas. por ejemplo, si [[1, 3]]-> combinar las columnas 1 y 3 y analizarlas como una sola columna de fecha.
-
dict, por ejemplo, ‘foo’: [1, 3] -> analizar las columnas 1, 3 como fecha y llamar al resultado ‘foo’
Si una columna o índice no se puede representar como una matriz de fechas y horas, digamos debido a un valor no analizable o una combinación de zonas horarias, la columna o índice se devolverá inalterado como un tipo de datos de objeto. Para el análisis de fecha y hora no estándar, utilice pd.to_datetime
después pd.read_csv
. Para analizar un índice o columna con una combinación de zonas horarias, especifique date_parser
ser un parcialmente aplicado pandas.to_datetime()
con utc=True
. Ver Analizar un CSV con zonas horarias mixtas para más.
Nota: Existe una ruta rápida para fechas con formato iso8601.
- infer_datetime_format : bool, predeterminado Falso
-
Si es cierto y parse_dates está habilitado, los pandas intentarán inferir el formato de las cadenas de fecha y hora en las columnas y, si se puede inferir, cambiar a un método más rápido para analizarlas. En algunos casos, esto puede aumentar la velocidad de análisis entre 5 y 10 veces.
- keep_date_col : bool, predeterminado Falso
-
Si es cierto y parse_dates especifica la combinación de varias columnas y luego mantiene las columnas originales.
- analizador_fecha : función, opcional
-
Función que se utilizará para convertir una secuencia de columnas de cadena en una matriz de instancias de fecha y hora. Los usos predeterminados dateutil.parser.parser
para hacer la conversión. Los pandas intentarán llamar analizador_fecha de tres formas diferentes, avanzando a la siguiente si se produce una excepción: 1) Pasar una o más matrices (según lo definido por parse_dates) como argumentos; 2) concatenar (en filas) los valores de cadena de las columnas definidas por parse_dates en una sola matriz y pasar eso; y 3) llamar analizador_fecha una vez para cada fila usando una o más cadenas (correspondientes a las columnas definidas por parse_dates) como argumentos.
- primer dia : bool, predeterminado Falso
-
Fechas en formato DD / MM, formato internacional y europeo.
- cache_dates : bool, por defecto True
-
Si es True, use una caché de fechas convertidas únicas para aplicar la conversión de fecha y hora. Puede producir una aceleración significativa al analizar cadenas de fechas duplicadas, especialmente aquellas con desplazamientos de zona horaria.
Nuevo en la versión 0.25.0.
- iterador : bool, predeterminado Falso
-
Devuelve el objeto TextFileReader para iterar o obtener fragmentos con get_chunk()
.
Modificado en la versión 1.2: TextFileReader
es un administrador de contexto.
- tamaño de porción : int, opcional
-
Devuelve el objeto TextFileReader para iteración. Ver el Documentos de IO Tools para obtener más información sobre iterator
y chunksize
.
Modificado en la versión 1.2: TextFileReader
es un administrador de contexto.
- compresión : ‘inferir’, ‘gzip’, ‘bz2’, ‘zip’, ‘xz’, None, predeterminado ‘infer’
-
Para descompresión sobre la marcha de datos en disco. Si ‘inferir’ y filepath_or_buffer es similar a una ruta, luego detecta la compresión de las siguientes extensiones: ‘.gz’, ‘.bz2’, ‘.zip’ o ‘.xz’ (de lo contrario, no hay descompresión). Si usa ‘zip’, el archivo ZIP debe contener solo un archivo de datos para ser leído. Establezca en Ninguno para no descomprimir.
- miles : str, opcional
-
Separador de miles.
- decimal : str, predeterminado ‘.’
-
Carácter para reconocer como punto decimal (por ejemplo, use ‘,’ para datos europeos).
- terminador de linea : str (longitud 1), opcional
-
Carácter para dividir el archivo en líneas. Solo válido con analizador de C.
- citachar : str (longitud 1), opcional
-
Carácter que se utiliza para indicar el inicio y el final de un elemento cotizado. Los elementos entre comillas pueden incluir el delimitador y se ignorará.
- citando : int o csv.QUOTE_ * instancia, por defecto 0
-
Comportamiento de cotización del campo de control por csv.QUOTE_*
constantes. Utilice uno de QUOTE_MINIMAL (0), QUOTE_ALL (1), QUOTE_NONNUMERIC (2) o QUOTE_NONE (3).
- doble cita : bool, por defecto True
-
Cuando se especifica quotechar y no se cita QUOTE_NONE
, indique si se deben interpretar o no dos elementos de cotización consecutivos DENTRO de un campo como un solo quotechar
elemento.
- escaparchar : str (longitud 1), opcional
-
Cadena de un carácter utilizada para escapar de otros caracteres.
- comentario : str, opcional
-
Indica que el resto de la línea no debe analizarse. Si se encuentra al principio de una línea, la línea se ignorará por completo. Este parámetro debe ser de un solo carácter. Como líneas vacías (siempre que skip_blank_lines=True
), las líneas completamente comentadas son ignoradas por el parámetro encabezamiento pero no por saltos. Por ejemplo, si comment='#'
, analizando #emptyna,b,cn1,2,3
con header=0
dará como resultado que ‘a, b, c’ se trate como el encabezado.
- codificacion : str, opcional
-
Codificación para usar en UTF al leer / escribir (por ejemplo, ‘utf-8’). Lista de codificaciones estándar de Python .
- dialecto : str o csv.Dialect, opcional
-
Si se proporciona, este parámetro anulará los valores (predeterminados o no) de los siguientes parámetros: delimitador, doble cita, escaparchar, skipinitialspace, citachar, y citando. Si es necesario anular los valores, se emitirá un ParserWarning. Consulte la documentación de csv.Dialect para obtener más detalles.
- error_bad_lines : bool, por defecto True
-
Las líneas con demasiados campos (por ejemplo, una línea csv con demasiadas comas) provocarán de forma predeterminada que se genere una excepción y no se devolverá ningún DataFrame. Si es False, estas “líneas defectuosas” se eliminarán del DataFrame que se devuelve.
- warn_bad_lines : bool, por defecto True
-
Si error_bad_lines es False y warn_bad_lines es True, se generará una advertencia por cada “línea defectuosa”.
- delim_whitespace : bool, predeterminado Falso
-
Especifica si hay espacios en blanco (p. Ej. ''
o ' '
) se utilizará como sep. Equivalente a la configuración sep='s+'
. Si esta opción se establece en Verdadero, no se debe pasar nada para el delimiter
parámetro.
- memoria baja : bool, por defecto True
-
Procese internamente el archivo en fragmentos, lo que dará como resultado un menor uso de memoria durante el análisis, pero posiblemente una inferencia de tipos mixtos. Para asegurarse de que no haya tipos mixtos, establezca Falso o especifique el tipo con la dtype parámetro. Tenga en cuenta que todo el archivo se lee en un solo DataFrame independientemente, use el tamaño de porción o iterador parámetro para devolver los datos en trozos. (Solo válido con analizador C).
- mapa_memoria : bool, predeterminado Falso
-
Si se proporciona una ruta de archivo para filepath_or_buffer, mapee el objeto de archivo directamente en la memoria y acceda a los datos directamente desde allí. El uso de esta opción puede mejorar el rendimiento porque ya no hay sobrecarga de E / S.
- float_precision : str, opcional
-
Especifica qué convertidor debe usar el motor C para valores de punto flotante. Las opciones son None
o ‘alto’ para el convertidor ordinario, ‘heredado’ para el convertidor pandas original de menor precisión y ‘ida y vuelta’ para el convertidor de ida y vuelta.
Modificado en la versión 1.2.
- opciones_almacenamiento : dict, opcional
-
Opciones adicionales que tienen sentido para una conexión de almacenamiento en particular, por ejemplo, host, puerto, nombre de usuario, contraseña, etc., si usa una URL que será analizada por fsspec
, por ejemplo, comenzando con “s3: //”, “gcs: //”. Se generará un error si se proporciona este argumento con una URL que no sea fsspec. Consulte los documentos de implementación de almacenamiento de backend y fsspec para conocer el conjunto de claves y valores permitidos.
Nuevo en la versión 1.2.