-
io : str, objeto de ruta o objeto similar a un archivo
-
Una URL, un objeto similar a un archivo o una cadena sin formato que contenga HTML. Tenga en cuenta que lxml solo acepta los protocolos http, ftp y url de archivos. Si tiene una URL que comienza con 'https'
puede intentar quitar el 's'
.
-
fósforo : str o expresión regular compilada, opcional
-
Se devolverá el conjunto de tablas que contienen texto que coincida con esta expresión regular o cadena. A menos que el HTML sea extremadamente simple, probablemente necesitará pasar aquí una cadena que no esté vacía. El valor predeterminado es ‘. +’ (Coincide con cualquier cadena que no esté vacía). El valor predeterminado devolverá todas las tablas contenidas en una página. Este valor se convierte en una expresión regular para que exista un comportamiento coherente entre Beautiful Soup y lxml.
-
sabor : str, opcional
-
El motor de análisis que se utilizará. ‘bs4’ y ‘html5lib’ son sinónimos entre sí, ambos están ahí por compatibilidad con versiones anteriores. El defecto de None
intenta usar lxml
para analizar y si eso falla, recurre a bs4
+ html5lib
.
-
encabezamiento : int o similar a una lista, opcional
-
La fila (o lista de filas para un MultiIndex
) para usar para hacer los encabezados de las columnas.
-
index_col : int o similar a una lista, opcional
-
La columna (o lista de columnas) que se utilizará para crear el índice.
-
saltos : int, list-like o slice, opcional
-
Número de filas para omitir después de analizar el entero de columna. Basado en 0. Si se proporciona una secuencia de números enteros o un segmento, se omitirán las filas indexadas por esa secuencia. Tenga en cuenta que una secuencia de un solo elemento significa ‘omitir la enésima fila’, mientras que un número entero significa ‘omitir n filas’.
-
attrs : dict, opcional
-
Este es un diccionario de atributos que puede utilizar para identificar la tabla en HTML. No se comprueba su validez antes de pasar a lxml o Beautiful Soup. Sin embargo, estos atributos deben ser atributos de tabla HTML válidos para funcionar correctamente. Por ejemplo,
attrs = {'id': 'table'}
es un diccionario de atributos válido porque el atributo de etiqueta HTML ‘id’ es un atributo HTML válido para alguna Etiqueta HTML según este documento.
attrs = {'asdf': 'table'}
es no un diccionario de atributos válido porque ‘asdf’ no es un atributo HTML válido incluso si es un atributo XML válido. Se pueden encontrar atributos de tabla HTML 4.01 válidos aquí. Se puede encontrar un borrador de trabajo de la especificación HTML 5 aquí. Contiene la información más reciente sobre atributos de tablas para la web moderna.
-
parse_dates : bool, opcional
-
Ver read_csv()
para más detalles.
-
miles : str, opcional
-
Separador que se utilizará para analizar miles. Predeterminado a ','
.
-
codificacion : str, opcional
-
La codificación utilizada para decodificar la página web. Predeterminado a None
.“Ninguno ” conserva el comportamiento de codificación anterior, que depende de la biblioteca del analizador subyacente (por ejemplo, la biblioteca del analizador intentará utilizar la codificación proporcionada por el documento).
-
decimal : str, predeterminado ‘.’
-
Carácter para reconocer como punto decimal (p. Ej., Utilice ‘,’ para datos europeos).
-
convertidores : dict, predeterminado Ninguno
-
Dictado de funciones para convertir valores en determinadas columnas. Las claves pueden ser números enteros o etiquetas de columna, los valores son funciones que toman un argumento de entrada, el contenido de la celda (no de la columna) y devuelven el contenido transformado.
-
na_values : iterable, predeterminado Ninguno
-
Valores NA personalizados.
-
keep_default_na : bool, por defecto True
-
Si se especifican na_values y keep_default_na es False, se anulan los valores predeterminados de NaN; de lo contrario, se agregan.
-
Display_only : bool, por defecto True
-
Si los elementos con “display: none” deben analizarse.