OCR PDF

OCR PDF en línea — haz el texto escaneado buscable

Convierte un PDF escaneado en un verdadero documento buscable. El texto se vuelve seleccionable y Ctrl+F funciona — todo se procesa localmente en tu navegador, nada se sube.

Arrastra y suelta tu PDF escaneado aquí
o
Máximo: 50 MB · 50 páginas · Tus archivos nunca salen de tu dispositivo

Cómo hacer un OCR PDF en línea

Lanzar un OCR con PDFluna lleva un clic y se hace completamente en tu navegador. Nada que instalar, sin cuenta que crear, y ningún archivo se envía a un servidor remoto. Aquí va el procedimiento completo, paso a paso:

  1. Importa tu PDF escaneado. Arrastra y suelta un PDF escaneado en la zona de import, o haz clic en Elegir archivo. Se admiten archivos de hasta 50 MB y 50 páginas.
  2. PDFluna verifica cada página. Analizamos el archivo localmente para encontrar las páginas que ya tienen una capa de texto buscable frente a las páginas que solo son imágenes. Solo las páginas solo-imagen necesitan OCR.
  3. Ejecuta OCR en tu navegador. Haz clic en Iniciar OCR. La herramienta descarga el motor OCR Tesseract (alrededor de 14 MB, cacheado tras el primer uso) y reconoce el texto página por página.
  4. Descarga tu PDF buscable. La salida se ve como el original pero el texto ahora es seleccionable, copiable y buscable con Ctrl+F. Tu archivo original nunca se modifica.

¿Qué es el OCR y por qué importa?

Cuando escaneas un documento de papel o fotografías un contrato con tu móvil, el PDF resultante no es un documento en el sentido habitual — es una pila de imágenes envueltas en un contenedor PDF. No hay texto real dentro: si intentas seleccionar arrastrando una palabra, nada se resalta; si buscas una palabra con Ctrl+F, no se encuentra nada; si copias un bloque, no obtienes nada. El OCR (Reconocimiento Óptico de Caracteres) corrige eso mirando cada página, identificando las formas de las letras, y reescribiendo el texto reconocido en el archivo como capa invisible detrás de la imagen.

La página visible se queda exactamente igual — mismo escaneo, misma calidad, misma maquetación. Pero ahora el PDF es buscable, copiable y accesible para los lectores de pantalla. Es el formato PDF que la mayoría de la gente realmente quiere enviar por correo, archivar o subir a un portal.

Cómo ejecuta OCR PDFluna en tu navegador

Bajo el capó, PDFluna usa Tesseract.js, una compilación WebAssembly del motor Tesseract de código abierto mantenido por Google. El motor y su modelo de reconocimiento inglés se descargan desde un CDN la primera vez que usas la herramienta (alrededor de 14 MB en total) y luego se cachean en tu navegador, así que cada ejecución posterior arranca en pocos segundos. El procesamiento real nunca toca un servidor:

  • Prescaneo. Abrimos el PDF con PDF.js e inspeccionamos cada página para ver si ya tiene una capa de texto real. Las páginas que la tienen se dejan tranquilas; no hay beneficio en volver a OCR-izarlas.
  • Rasterización. Cada página que necesita OCR se renderiza en un OffscreenCanvas a 300 DPI — la resolución para la que Tesseract está entrenado. Demasiado bajo y el texto pequeño se pierde; demasiado alto y el procesamiento se ralentiza sin ganancia de precisión.
  • Reconocimiento. Tesseract identifica cada palabra, devolviendo su texto, su confianza y su caja delimitadora en coordenadas de píxel.
  • Superposición. Usamos pdf-lib para añadir una capa de texto invisible en cada página, con cada palabra posicionada exactamente donde aparece en la imagen. El contenido original de la página se preserva byte a byte.

¿Es seguro hacer OCR a un PDF en línea?

Con PDFluna, sí — porque nada está realmente «en línea» en el paso de reconocimiento. Una vez que la página está cargada en tu navegador, el PDF se lee en memoria con la API File estándar y se procesa con JavaScript y WebAssembly en tu propia máquina. Nunca lo subimos, nunca lo vemos y nunca lo almacenamos. Eso convierte a PDFluna en una opción segura para escaneos confidenciales como declaraciones fiscales, contratos o expedientes médicos. Si quieres verificarlo, abre las DevTools del navegador y observa la pestaña Red — no se hace ninguna petición durante el OCR en sí (solo la descarga única del motor, que no carga datos de usuario).

Consejos para mejor precisión de OCR

  • Escanea a 300 DPI. Por debajo de 200 DPI, los caracteres pequeños se mezclan y la precisión cae con fuerza. 300 DPI es el punto dulce entre velocidad y precisión.
  • Mantén las páginas rectas. Los escaneos ligeramente inclinados (unos pocos grados) están OK; las páginas muy rotadas o deformadas no. Rota el PDF primero si es necesario.
  • Usa iluminación uniforme. Las fotos de móvil de documentos con sombras o reflejos importantes pueden confundir al motor. Los escaneos planos y uniformemente iluminados funcionan mejor.
  • Texto negro sobre blanco es ideal. Los fondos coloreados y las fuentes decorativas reducen la precisión. Las fuentes de cuerpo estándar (Times, Helvetica, Arial) son las más fáciles para el OCR.

Preguntas frecuentes

¿Qué es el OCR y cuándo lo necesito?

OCR significa Optical Character Recognition (Reconocimiento Óptico de Caracteres) — convierte los píxeles de un documento escaneado en texto verdadero. Si no puedes seleccionar el texto de tu PDF arrastrando sobre él, y Ctrl+F no devuelve resultados, el archivo es una imagen escaneada y necesita OCR antes de poder buscar o copiar.

¿Mi archivo se sube a vuestros servidores?

No. El OCR se ejecuta completamente en tu navegador mediante Tesseract.js (una compilación WebAssembly del motor Tesseract de código abierto). Tu PDF nunca sale de tu dispositivo. Puedes verificarlo tú mismo abriendo la pestaña DevTools → Red durante la ejecución de la herramienta — no se realiza ninguna subida de archivo, solo una descarga única del propio motor de reconocimiento.

¿Qué idiomas se soportan?

La versión actual reconoce inglés (incluyendo números, puntuación y la mayoría de los símbolos comunes). Elegimos solo inglés para la primera versión porque cada idioma añadido aproximadamente duplica el tamaño de descarga del modelo OCR. El soporte multilenguaje está en el roadmap.

¿Cuál es el tamaño máximo de archivo?

La herramienta acepta PDF de hasta 50 MB y hasta 50 páginas. El OCR es intensivo en memoria y CPU, y estos límites mantienen la experiencia fluida en portátiles y móviles de gama media. Para escaneos más grandes, divide primero el documento con nuestra herramienta gratuita Dividir PDF y haz OCR a cada parte.

¿Cuál es la precisión?

En escaneos limpios a 300 DPI con fuentes estándar, la precisión es típicamente del 95 al 99 %. Los resultados bajan en escaneos de baja resolución (por debajo de 200 DPI), escritura a mano (Tesseract no está diseñado para cursiva), páginas muy inclinadas o fuentes muy inusuales. Si la calidad del escaneo es mala, vuelve a escanear a un DPI más alto y reintenta.

¿Puedo seguir leyendo e imprimiendo el PDF normalmente?

Sí — la salida se ve exactamente igual que el original. Añadimos el texto reconocido como capa invisible detrás de la imagen, así que la página se renderiza idénticamente pero el texto se vuelve seleccionable con el ratón y buscable mediante Ctrl+F. Nada en el documento visible cambia.

¿Qué pasa con las páginas que ya tienen texto?

Las páginas con una capa de texto existente se dejan intactas por defecto — no tiene sentido volver a OCR-izarlas. Si tu PDF es una mezcla de páginas escaneadas y mecanografiadas, solo procesamos las escaneadas. Puedes anular esto con una opción si quieres forzar el OCR en todo el archivo.

¿Por qué la primera ejecución tarda más?

La primera vez que usas OCR PDF, tu navegador descarga el motor Tesseract (alrededor de 2 MB de WebAssembly) y el modelo de reconocimiento inglés (alrededor de 12 MB). Se cachean en tu navegador, así que las ejecuciones siguientes arrancan en pocos segundos.

Herramientas relacionadas