Solución:
textract es una gran biblioteca que admite archivos PDF, Doc, Docx, etc.
Parece que hay algunos para pdf, pero no encontré ninguno para Word.
El procesamiento vinculado a la CPU como ese no es realmente el punto fuerte de Node de todos modos (es decir, no obtiene beneficios adicionales al usar node para hacerlo sobre cualquier otro lenguaje). Un enfoque pragmático sería encontrar una buena herramienta y utilizarla desde Node.
He escuchado cosas buenas en la oficina sobre docsplit http://documentcloud.github.com/docsplit/
Si bien no es Node, puede invocarlo fácilmente desde Node con http://nodejs.org/docs/latest/api/all.html#child_process.exec
Puede convertir fácilmente uno en otro o utilizar, por ejemplo, una plantilla .doc para generar un archivo .pdf, pero probablemente desee utilizar un servicio web existente para esta tarea.
Esto se puede hacer utilizando los servicios de Livedocx, por ejemplo.
Para utilizar este servicio desde el nodo, consulte node-livedocx (Descargo de responsabilidad: soy el autor de este módulo de nodo)