Si alguna vez has visto "información" donde debería decir "información", o "“" donde debería haber comillas, has sido víctima del mojibake. Este artículo te explica qué es, por qué ocurre y cómo solucionarlo.
¿Qué es el mojibake?
Mojibake (文字化け) es un término japonés que significa literalmente "transformación de caracteres". Se usa para describir el texto que aparece con caracteres incorrectos debido a un error de codificación.
No es un virus, un fallo de tu ordenador ni un problema de fuentes. Es simplemente que el programa que muestra el texto lo está interpretando con una codificación diferente a la que se usó para guardarlo.
¿Cómo funciona la codificación de caracteres?
Los ordenadores almacenan todo como números (bytes). Para convertir esos bytes en letras, necesitan un "diccionario" llamado codificación de caracteres. Los más comunes son:
- ASCII: 128 caracteres. Solo letras inglesas, números y símbolos básicos.
- Latin-1 (ISO-8859-1): 256 caracteres. Añade letras acentuadas europeas.
- Windows-1252: Similar a Latin-1, con comillas tipográficas y otros extras.
- UTF-8: El estándar universal. Soporta TODOS los caracteres del mundo.
¿Por qué falla con el español?
En UTF-8, la letra "ó" se almacena como 2 bytes: C3 B3. Si un programa lee esos mismos 2 bytes pensando que son Latin-1, los interpreta como dos caracteres separados: "Ã" (C3) y "³" (B3), resultando en "ó" donde debería estar "ó".
Tabla de errores comunes en español
| Mojibake | Correcto | Causa |
|---|---|---|
| á | á | UTF-8 leído como Latin-1 |
| é | é | UTF-8 leído como Latin-1 |
| ó | ó | UTF-8 leído como Latin-1 |
| ñ | ñ | UTF-8 leído como Latin-1 |
| ¿ | ¿ | UTF-8 leído como Latin-1 |
| “ | " | UTF-8 leído como Windows-1252 |
| â€" | — | UTF-8 leído como Windows-1252 |
| ├│ | ó | Variante CP437/CP850 |
| ├▒ | ñ | Variante CP437/CP850 |
¿Dónde ocurre más frecuentemente?
- PDFs: Especialmente los generados con software antiguo o escáneres OCR
- Bases de datos: MySQL con charset latin1 almacenando datos UTF-8
- Emails: Servidores de correo que no preservan la codificación original
- Documentos convertidos: .doc a .txt, cambios de formato entre aplicaciones
Cómo corregirlo con PasteClean
PasteClean tiene un diccionario de corrección con más de 50 patrones de mojibake en español. Simplemente pega tu texto corrupto en PasteClean y los caracteres se corrigen automáticamente.
Preguntas frecuentes
¿Puedo prevenir el mojibake?
Sí: usa siempre UTF-8 al guardar documentos, configura bases de datos con utf8mb4, y asegúrate de que tus exportaciones de PDF usen codificación Unicode.
¿El mojibake daña los datos permanentemente?
En la mayoría de los casos, no. Los bytes originales están ahí, solo están mal interpretados. Herramientas como PasteClean pueden reconstruir el texto original.
¿PasteClean corrige mojibake de otros idiomas?
El diccionario está optimizado para español, pero los patrones de codificación UTF-8→Latin-1 son universales para idiomas europeos.
Lecturas relacionadas: Corregir caracteres extraños · Arreglar codificación UTF-8 · Limpiar texto de PDF