Saltar al contenido

Eliminar caracteres Unicode de archivos de texto: sed, otros métodos Bash / shell

Solución:

Borre todos los caracteres no ASCII de file.txt:

$ iconv -c -f utf-8 -t ascii file.txt
$ strings file.txt

Si quieres eliminar solamente personajes particulares y tienes Python, puedes:

CHARS=$(python -c 'print u"u0091u0092u00a0u200E".encode("utf8")')
sed 's/['"$CHARS"']//g' < /tmp/utf8_input.txt > /tmp/ascii_output.txt

Para la codificación UTF-8 de Unicode, puede usar esta expresión regular para sed:

sed 's/xc2x91|xc2x92|xc2xa0|xe2x80x8e//g'
¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *