¿Por qué aparecen caracteres extraños en tu texto?
Si has visto símbolos como ó, “, ¿ o ñ donde deberían estar letras normales, estás ante un error de codificación, también conocido como mojibake. No es un virus ni un fallo de tu ordenador: es un problema de «traducción» entre sistemas de codificación de caracteres.
Los ordenadores representan cada carácter como un número. El estándar actual es UTF-8, que soporta todos los caracteres del español. Pero cuando un programa guarda texto con una codificación (por ejemplo Latin-1) y otro lo lee esperando UTF-8, los caracteres especiales se corrompen.
El español es especialmente vulnerable porque usa caracteres multibyte en UTF-8: acentos (á, é, í, ó, ú), la eñe (ñ) y los signos de apertura (¿, ¡). Estos requieren 2 bytes en UTF-8, y si se interpretan como Latin-1, cada byte se muestra como un carácter separado.
Solución en 10 segundos
- Copia el texto con caracteres extraños.
- Pega en PasteClean.
- Los caracteres se corrigen automáticamente.
👉 Ir a la herramienta PasteClean
Ejemplo real
Antes:
Después:
¿Qué hace PasteClean aquí?
- ✅ Reconoce más de 50 patrones de errores de codificación
- ✅ Corrige vocales acentuadas (á→á, é→é, ó→ó)
- ✅ Restaura la eñe (ñ→ñ)
- ✅ Corrige signos de apertura (¿→¿, ¡→¡)
- ✅ Arregla comillas tipográficas y guiones largos
- ✅ Detecta ambas variantes de corrupción (├│ y ó)
Errores frecuentes
- Doble codificación: el texto se corrompió dos veces, produciendo secuencias aún más largas
- Mezcla de codificaciones: parte del texto está bien y parte corrupta
- PDFs escaneados: el OCR produce errores que parecen codificación corrupta pero son errores de reconocimiento
- Bases de datos: campos almacenados con charset incorrecto
- Emails reenviados: cada reenvío puede corromper más la codificación
Preguntas frecuentes
¿Qué es mojibake?
Mojibake es el término técnico (de origen japonés) para el texto que se muestra con caracteres incorrectos debido a errores de codificación. PasteClean corrige automáticamente el mojibake más común en español.
¿Por qué pasa más en español que en inglés?
El inglés básico usa solo caracteres ASCII (1 byte). El español necesita caracteres multibyte en UTF-8 para acentos, ñ, ¿ y ¡, lo que los hace vulnerables a errores de interpretación.
¿PasteClean corrige todos los errores de codificación?
PasteClean cubre los patrones más comunes en español. Errores muy inusuales o doble-codificación extrema pueden requerir corrección manual.
¿Puedo prevenir estos errores?
Sí: usa siempre UTF-8 al guardar documentos, configurar bases de datos y exportar PDFs.
¿Es lo mismo que un problema de fuentes?
No. Los errores de codificación son problemas de datos (los bytes están mal interpretados). Los problemas de fuentes son visuales (la fuente no incluye el glifo correcto).
Artículos relacionados: Arreglar codificación UTF-8 · Limpiar texto de PDF · Limpiar texto online
Guías del blog: Guía completa: caracteres extraños · Limpiar texto de PDF
Última actualización: 24 de marzo de 2026 · Equipo PasteClean