Solución:
En primer lugar, debe comprender qué es un PDF. Los PDF están diseñados para imitar una página impresa y están diseñados solamente como formato de salida, no de entrada. un PDF es básicamente un mapa que contiene la ubicación exacta de caracteres (letras individuales o puntuación, etc.) o imágenes. En la mayoría de los casos, un PDF ni siquiera almacena información sobre dónde se palabra termina y comienza otro, mucho menos cosas como pausas suaves frente a pausas duras para los finales de los párrafos.
(Algunos archivos PDF recientes almacenan información sobre este material, pero es una tecnología nueva y sería afortunado si encontrara archivos PDF como ese. Incluso si lo hiciera, es posible que su visor de PDF no lo sepa).
De todos modos, depende de su software implementar algún tipo de “inteligencia artificial” para extraer simplemente de las ubicaciones de caracteres individuales qué es una palabra, qué es un párrafo, etc. Un software diferente hará esto mejor que otros, y también dependerá de cómo se hizo el PDF. En cualquier caso, deberías Nunca Espere resultados perfectos. Tener el PDF de salida no es lo mismo que tener el documento de origen. Es mucho mejor intentar obtener eso si puedes.
La solución estándar para su tipo de problema es utilizar Adobe Acrobat Professional (el más caro, no el lector gratuito) para convertir el PDF a HTML. Incluso eso no va a obtener resultados perfectos.
Existe un software gratuito que se puede usar para extraer texto de archivos PDF con algunos de los formatos intactos, pero nuevamente, no espere resultados perfectos. Consulte, por ejemplo, calibre (que se puede convertir a formato RTF), pdftohtml / pdfreflow o el procesador de texto AbiWord (con todos los complementos de importación / exportación habilitados). También hay un complemento de importación de PDF para OpenOffice.
Pero no espere la perfección con ninguno de estos resultados. Vas a contracorriente aquí. PDF simplemente no es un formato de entrada editable.
Otra opción es descargar y comenzar a usar el visor de pdf gratuito, Foxit (está bien). Luego puede ‘Guardar como’ y elegir .txt para convertirlo en un archivo de texto. Eso conservará todo el formato. No sé si puedes hacer lo mismo en Adobe porque dejé de usarlo hace un tiempo cuando me convertí a Foxit.
Existe una muy buena herramienta en línea llamada Sej-da. Se ocupa de la manipulación avanzada de PDF. No es necesario descargar ningún software. Como es un nuevo herramienta en línea que todavía se encuentra en Beta. Le permite extraer texto de un PDF, además de proporcionar una gran cantidad de otras funcionalidades de PDF
http://www.sejda.com/
Se realizó una breve revisión en video de las funciones de sejda el 14 de noviembre de 2012 por la Revisión 3 que se puede encontrar aquí:
http://revision3.com/tzdaily/sejda-online-pdf