Te sugerimos que pruebes esta solución en un entorno controlado antes de enviarlo a producción, saludos.
Solución:
Un par de formas en que puede crear documentos de Word usando Python:
- Use la automatización COM para crear un documento usando el modelo de objetos de MS Word (usando
pywin32
). http://python.net/crew/pirx/spam7/ - Automatice OpenOffice usando Python: http://wiki.services.openoffice.org/wiki/Python
- Si el formato rtf está bien, use la biblioteca PyRTF: http://pyrtf.sourceforge.net/
EDITAR:
Como COM está fuera de discusión, sugiero lo siguiente (inspirado en la respuesta de @kcrumley):
Usando la biblioteca UNO para automatizar Open Office desde python, abra el archivo HTML en OOWriter, luego guárdelo como .doc.
EDIT2:
Ahora hay un proyecto python-docx de Python puro que se ve bien (no lo he usado).
Probé python-docx con éxito, te permite crear y editar docx dentro de Python
1) Si desea simplemente agregar otro paso al final de su proceso actual, ahora existen varias opciones para convertir archivos PDF a archivos de Word. No he probado 123PDFConverter, pero los editores de CNET lo recomiendan (mismo enlace); tiene una prueba gratuita; y es compatible con la automatización. Al igual que con cualquier convertidor de archivos de terceros, su kilometraje puede variar, dependiendo de cuán complicados sean sus archivos PDF y cuán bueno sea realmente el software.
2) Sobre la base de la sugerencia de automatización COM de codeape, si automatiza Word con COM, puede abrir su archivo HTML real en Word y llamar al comando “Guardar como” para guardarlo como un archivo DOC.
Al final de todo puedes encontrar las referencias de otros usuarios, tú aún puedes dejar el tuyo si te gusta.