Este equipo de especialistas pasados ciertos días de investigación y de recopilar de información, dimos con los datos necesarios, deseamos que todo este artículo sea de utilidad para tu proyecto.
Solución:
Las imágenes escaneadas convertidas a PDF que se han procesado con OCR posteriormente para hacer que el texto se pueda buscar normalmente contienen las partes del texto representadas como “invisibles”. Entonces, lo que ve en la pantalla (o en el papel cuando se imprime) sigue siendo la imagen original. pero cuando tu búsqueda con éxito, se resaltan los resultados que están en el texto invisible.
Te recomiendo que consultes las herramientas de línea de comandos derivadas de XPDF. pdffonts(.exe)
, pdfinfo(.exe)
y pdftotext(.exe)
. Vea aquí para descargas: http://www.foolabs.com/xpdf/download.html
Ejemplo de uso de pdffonts
:
C:downloads> pdffonts cisco-ip-phone-7911-guide6.1.pdf
name type emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
LGOKFL+Univers-BlackOblique Type 1C yes yes no 13171 0
LGOKGM+Univers-Black Type 1C yes yes no 13172 0
[....]
Este PDF usa fuentes (indicadas por la columna ‘nombre’), las tiene incrustadas (indicadas por el ‘sí’ en la columna ’emb’) y usa fuentes de subconjunto (indicadas por el ‘sí’ en la columna ‘sub’).
C:downloads> pdffonts examle1.pdf
name type emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
Univers-BlackOblique Type 1C yes no no 14 0
Arial TrueType no no no 15 0
Este PDF utiliza 2 fuentes (indicadas por la columna ‘nombre’). La fuente ‘Universe-BlackOblique’ está incrustada por completo (indicada por el ‘sí’ en la columna ’emb’ y el ‘no’ en la columna ‘sub’). También se usa la fuente ‘Arial’, pero no está incrustada.
C:downloads> pdffonts examle2.pdf
name type emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
Este PDF no usa una sola fuente y, por lo tanto, no tiene ningún texto incrustado (por lo que tampoco tiene OCR).
Ejemplo de uso de pdftotext
:
C:downloads> pdftotext ^
-layout ^
cisco-ip-phone-7911-guide6.1.pdf ^
cisco-ip-phone-7911-guide6.1.txt
Esto extraerá todas las cadenas de texto del PDF (tratando de conservar alguna semejanza con el diseño original). Si no hay texto en el PDF, sabrá que no hay OCR…
Puedes asistir nuestro cometido ejecutando un comentario y puntuándolo te estamos eternamente agradecidos.