Saltar al contenido

Problema de extracción de tablas sin bordes de Python Camelot

Solución:

Para mejorar el área detectada, puede aumentar el valor de edge_tol (predeterminado: 50) para contrarrestar el efecto del texto que se coloca relativamente lejos verticalmente. Un edge_tol más grande conducirá a que se detecten textos más largos, lo que conducirá a una mejor estimación del área de la tabla. Usemos un valor de 500.

>>> tables = camelot.read_pdf('edge_tol.pdf', flavor="stream", edge_tol=500)
>>> camelot.plot(tables[0], kind='contour')
>>> plt.show()
>>> tables[0].df

Camelot usa celosía por defecto que se basa en líneas claras que dividen las celdas.

Para tablas sin líneas, desea usar stream:

tables = camelot.read_pdf('your_file_name.pdf', flavor="stream")
¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *