Saltar al contenido

¿Cómo saber si un PDF contiene solo imágenes o ha sido escaneado con OCR para realizar búsquedas?

Este equipo de especialistas pasados ciertos días de investigación y de recopilar de información, dimos con los datos necesarios, deseamos que todo este artículo sea de utilidad para tu proyecto.

Solución:

Las imágenes escaneadas convertidas a PDF que se han procesado con OCR posteriormente para hacer que el texto se pueda buscar normalmente contienen las partes del texto representadas como “invisibles”. Entonces, lo que ve en la pantalla (o en el papel cuando se imprime) sigue siendo la imagen original. pero cuando tu búsqueda con éxito, se resaltan los resultados que están en el texto invisible.

Te recomiendo que consultes las herramientas de línea de comandos derivadas de XPDF. pdffonts(.exe), pdfinfo(.exe) y pdftotext(.exe). Vea aquí para descargas: http://www.foolabs.com/xpdf/download.html

Ejemplo de uso de pdffonts:

C:downloads> pdffonts cisco-ip-phone-7911-guide6.1.pdf
name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
LGOKFL+Univers-BlackOblique          Type 1C           yes yes no   13171  0
LGOKGM+Univers-Black                 Type 1C           yes yes no   13172  0
[....]

Este PDF usa fuentes (indicadas por la columna ‘nombre’), las tiene incrustadas (indicadas por el ‘sí’ en la columna ’emb’) y usa fuentes de subconjunto (indicadas por el ‘sí’ en la columna ‘sub’).

C:downloads> pdffonts examle1.pdf
name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
Univers-BlackOblique                 Type 1C           yes no  no   14    0
Arial                                TrueType          no  no  no   15    0

Este PDF utiliza 2 fuentes (indicadas por la columna ‘nombre’). La fuente ‘Universe-BlackOblique’ está incrustada por completo (indicada por el ‘sí’ en la columna ’emb’ y el ‘no’ en la columna ‘sub’). También se usa la fuente ‘Arial’, pero no está incrustada.

C:downloads> pdffonts examle2.pdf
name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------

Este PDF no usa una sola fuente y, por lo tanto, no tiene ningún texto incrustado (por lo que tampoco tiene OCR).

Ejemplo de uso de pdftotext:

C:downloads> pdftotext ^
                   -layout ^
                   cisco-ip-phone-7911-guide6.1.pdf ^
                   cisco-ip-phone-7911-guide6.1.txt

Esto extraerá todas las cadenas de texto del PDF (tratando de conservar alguna semejanza con el diseño original). Si no hay texto en el PDF, sabrá que no hay OCR…

Puedes asistir nuestro cometido ejecutando un comentario y puntuándolo te estamos eternamente agradecidos.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *