Si alguna vez has copiado texto de un PDF y lo has pegado en Word o un email, sabrás que el resultado suele ser un desastre de líneas cortadas, palabras divididas y espaciado irregular. Este artículo explica por qué ocurre y cómo solucionarlo.
¿Cómo almacena texto un PDF?
A diferencia de Word o HTML, un PDF no almacena texto como un flujo continuo de palabras. En su lugar, cada carácter tiene coordenadas X e Y que indican exactamente dónde se dibuja en la página. El PDF es esencialmente un formato de presentación visual, no de estructura de texto.
Esto significa que cuando tu visor de PDF crea texto "seleccionable", tiene que reconstruir las palabras y líneas a partir de las posiciones individuales de cada carácter. Y este proceso de reconstrucción es imperfecto.
Los 4 problemas principales
1. Líneas que se convierten en párrafos
Cada línea visual del PDF se convierte en una línea de texto independiente al copiar. Un párrafo de 10 líneas se transforma en 10 líneas separadas.
2. Palabras cortadas con guion
Cuando una palabra no cabe en una línea, el PDF la corta con un guion (experi-mentado). Al copiar, el guion y el salto de línea se mantienen, y la palabra queda partida en dos fragmentos inútiles.
3. Espaciado irregular
La justificación del texto en el PDF inserta espacios adicionales entre palabras. Al copiar, estos espacios extra se preservan, resultando en texto con espacios dobles y triples.
4. Caracteres corruptos
Si el PDF fue generado con una codificación diferente a UTF-8, los acentos y caracteres especiales del español se corrompen al copiar.
Ejemplo real
Antes (copiado de un PDF de BOE):
Después (procesado por PasteClean):
¿Cómo lo soluciona PasteClean?
PasteClean aplica un pipeline inteligente en este orden:
- Corrección de codificación: repara ├│→ó, ├▒→ñ y más de 50 patrones
- Unión de palabras cortadas: detecta "experi-\nmento" y reconstruye "experimentado"
- Reconstrucción de párrafos: une líneas que pertenecen al mismo párrafo
- Normalización de espaciado: elimina espacios dobles y triples
Prueba en PasteClean
Copia cualquier fragmento de un PDF y pégalo en PasteClean. En menos de un segundo tendrás el texto perfectamente reconstruido, con palabras completas, párrafos correctos y sin caracteres extraños.
Preguntas frecuentes
¿Todos los PDFs tienen este problema?
No todos. Los PDFs generados con buenas prácticas (exportados desde Word con UTF-8) suelen copiarse bien. Los problemáticos suelen ser PDFs antiguos, escaneados con OCR, o generados con software que no usa UTF-8.
¿PasteClean puede reconstruir tablas desde PDF?
PasteClean procesa texto plano. Las tablas se convierten en texto sin estructura de filas/columnas.
¿Funciona con PDFs muy largos?
Sí, PasteClean no tiene límite de longitud. Puedes pegar documentos completos.
¿Es seguro con documentos confidenciales?
Sí, todo el procesamiento ocurre en tu navegador. El texto nunca se envía a ningún servidor.
Lecturas relacionadas: Limpiar texto de PDF · Corregir caracteres extraños · Guía completa de limpieza de PDF