Saltar al contenido

¿Cómo leo los caracteres ocultos de un archivo de texto?

La guía paso a paso o código que hallarás en este artículo es la resolución más sencilla y válida que encontramos a esta duda o dilema.

Solución:

Una manera fácil de ver este tipo de cosas en Windows es usar el comando “tipo”.

Yo haría algo como esto:

type filename.txt | more

Bueno, estoy usando NotePad ++ y no puedo ver eso en absoluto. ¿Cuál es el mejor lector de archivos de texto para este tipo de problemas?

El problema es que un editor de texto ‘bueno’ debería poder cargar todas las codificaciones de texto de forma transparente, incluso las estúpidas rotas como UTF-8-plus-BOM, lo que le impediría ver el problema. Claro, un buen editor de texto debería guardar UTF-8 sin la lista de materiales falsa, o al menos darle la opción de hacerlo, pero no sabrá cómo volver a guardarlo si no ve la lista de materiales falsa allí. .

La razón por la que ve los tres bytes altos al comienzo del archivo en TextMate es porque TextMate se equivocó y adivinó la codificación como Latin-1 en lugar de UTF-8. Presumiblemente, esto reproduce el comportamiento del servicio que está enviando al que no conoce Unicode, pero en realidad no es una característica deseable en sí misma. También es por eso que el æy øno han salido.

Si desea ver cada byte en el archivo explícitamente, lo que desea no es realmente un editor de texto, sino un editor hexadecimal. Hay mucho para elegir, por ejemplo. xvi32 en Windows.

Y luego arregle su aplicación para que no produzca listas de materiales falsas; de todos modos, no tienen lugar en un archivo UTF-8, sin importar los problemas que causa a las aplicaciones que no son Unicode. [I don’t know what the application is written in, but a common cause of unwanted BOMs is using .NET’s Encoding.UTF8 encoding. A new UTF8Encoding(false) would be preferable.]

Si el servicio al que está enviando quiere UTF-8 o alguna otra codificación es, en cualquier caso, algo que tendrá que preguntar a los operadores de ese servicio. Si ya están describiendo los bytes altos para æ et al en su archivo como inherentemente ‘inválido’, es posible que se enfrente a una situación en la que no admitan ningún carácter que no sea ASCII, en cuyo caso deberá considerar transliterar los caracteres de manera adecuada para el idioma de destino, p. æ->ae.

Frhed salta a mi mente… es una herramienta muy buena. Y como señaló Arjan, está guardando el archivo como documento codificado en UTF-8.

Nos puedes asistir nuestro análisis exponiendo un comentario y puntuándolo te estamos eternamente agradecidos.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *