OCR PDF

OCR PDF online — torne o texto escaneado pesquisável

Transforme um PDF escaneado em um documento verdadeiramente pesquisável. O texto fica selecionável e Ctrl+F funciona — tudo é processado localmente no seu navegador, nada é enviado.

Arraste e solte seu PDF escaneado aqui
ou
Máximo: 50 MB · 50 páginas · Seus arquivos nunca saem do seu dispositivo

Como fazer um OCR PDF online

Lançar um OCR com a PDFluna leva um clique e acontece totalmente no seu navegador. Nada para instalar, sem conta para criar, e nenhum arquivo é enviado para um servidor remoto. Aqui está o procedimento completo, passo a passo:

  1. Importe seu PDF escaneado. Arraste e solte um PDF escaneado na zona de import, ou clique em Escolher arquivo. Arquivos de até 50 MB e 50 páginas são suportados.
  2. A PDFluna verifica cada página. Analisamos o arquivo localmente para encontrar páginas que já têm uma camada de texto pesquisável versus páginas que são apenas imagens. Apenas páginas só-imagem precisam de OCR.
  3. Execute OCR no seu navegador. Clique em Iniciar OCR. A ferramenta baixa a engine OCR Tesseract (cerca de 14 MB, em cache após o primeiro uso) e reconhece o texto página por página.
  4. Baixe seu PDF pesquisável. A saída parece igual ao original mas o texto agora é selecionável, copiável e pesquisável com Ctrl+F. Seu arquivo original nunca é modificado.

O que é OCR e por que isso importa?

Quando você escaneia um documento de papel ou fotografa um contrato com seu celular, o PDF resultante não é um documento no sentido habitual — é uma pilha de imagens envoltas em um contêiner PDF. Não há texto real lá dentro: se você tentar arrastar para selecionar uma palavra, nada é destacado; se você procurar uma palavra com Ctrl+F, nada é encontrado; se você copiar um bloco, você obtém nada. O OCR (Reconhecimento Óptico de Caracteres) corrige isso olhando cada página, identificando as formas das letras, e reescrevendo o texto reconhecido no arquivo como camada invisível atrás da imagem.

A página visível continua exatamente a mesma — mesmo escaneamento, mesma qualidade, mesmo layout. Mas agora o PDF é pesquisável, copiável e acessível para leitores de tela. É o formato PDF que a maioria das pessoas realmente quer enviar por e-mail, arquivar ou enviar para um portal.

Como a PDFluna executa OCR no seu navegador

Por baixo dos panos, a PDFluna usa Tesseract.js, uma compilação WebAssembly da engine open source Tesseract mantida pelo Google. A engine e seu modelo de reconhecimento de inglês são baixados de um CDN na primeira vez que você usa a ferramenta (cerca de 14 MB no total) e depois ficam em cache no seu navegador, então cada execução subsequente começa em segundos. O processamento real nunca toca um servidor:

  • Pré-escaneamento. Abrimos o PDF com PDF.js e inspecionamos cada página para ver se já tem uma camada de texto real. Páginas que têm são deixadas em paz; nenhum benefício em fazer OCR de novo.
  • Rasterização. Cada página que precisa de OCR é renderizada em um OffscreenCanvas a 300 DPI — a resolução para a qual o Tesseract foi treinado. Muito baixo e o texto pequeno se perde; muito alto e o processamento desacelera sem ganho de precisão.
  • Reconhecimento. O Tesseract identifica cada palavra, retornando seu texto, sua confiança e sua caixa delimitadora em coordenadas de pixel.
  • Sobreposição. Usamos pdf-lib para adicionar uma camada de texto invisível em cada página, com cada palavra posicionada exatamente onde aparece na imagem. O conteúdo original da página é preservado byte por byte.

É seguro fazer OCR em um PDF online?

Com a PDFluna, sim — porque nada está realmente "online" na etapa de reconhecimento. Uma vez que a página está carregada no seu navegador, o PDF é lido em memória pela File API padrão e processado com JavaScript e WebAssembly na sua própria máquina. Nunca fazemos upload, nunca vemos e nunca armazenamos. Isso torna a PDFluna uma escolha segura para escaneamentos confidenciais como declarações fiscais, contratos ou prontuários médicos. Se você quer verificar, abra os DevTools do navegador e observe a aba Rede — nenhuma requisição é feita durante o OCR em si (apenas o download único da engine, que não carrega dados de usuário).

Dicas para melhor precisão de OCR

  • Escaneie a 300 DPI. Abaixo de 200 DPI, caracteres pequenos se misturam e a precisão cai bastante. 300 DPI é o sweet spot entre velocidade e precisão.
  • Mantenha as páginas retas. Escaneamentos ligeiramente inclinados (alguns graus) estão OK; páginas muito giradas ou distorcidas não. Gire o PDF primeiro se necessário.
  • Use iluminação uniforme. Fotos de celular de documentos com sombras ou reflexos importantes podem confundir a engine. Escaneamentos planos e uniformemente iluminados funcionam melhor.
  • Texto preto sobre branco é ideal. Fundos coloridos e fontes decorativas reduzem a precisão. Fontes de corpo padrão (Times, Helvetica, Arial) são as mais fáceis para OCR.

Perguntas frequentes

O que é OCR e quando preciso dele?

OCR significa Optical Character Recognition (Reconhecimento Óptico de Caracteres) — transforma os pixels de um documento escaneado em texto verdadeiro. Se você não consegue selecionar o texto do seu PDF arrastando sobre ele, e Ctrl+F não retorna resultados, o arquivo é uma imagem escaneada e precisa de OCR antes de você poder pesquisar ou copiar.

Meu arquivo é enviado para os servidores de vocês?

Não. O OCR roda totalmente no seu navegador graças a Tesseract.js (uma compilação WebAssembly da engine open source Tesseract). Seu PDF nunca sai do seu dispositivo. Você pode verificar você mesmo abrindo a aba DevTools → Rede durante a execução da ferramenta — nenhum upload de arquivo é feito, apenas um download único da própria engine de reconhecimento.

Quais idiomas são suportados?

A versão atual reconhece inglês (incluindo números, pontuação e a maioria dos símbolos comuns). Escolhemos apenas inglês para a primeira versão porque cada idioma adicionado aproximadamente dobra o tamanho de download do modelo OCR. Suporte multi-idioma está no roadmap.

Qual é o tamanho máximo de arquivo?

A ferramenta aceita PDFs de até 50 MB e até 50 páginas. O OCR é intensivo em memória e CPU, e esses limites mantêm a experiência fluida em laptops e celulares de gama média. Para escaneamentos maiores, divida o documento primeiro com nossa ferramenta gratuita Dividir PDF e faça OCR em cada parte.

Qual a precisão?

Em escaneamentos limpos a 300 DPI com fontes padrão, a precisão é tipicamente de 95 a 99 %. Os resultados caem em escaneamentos de baixa resolução (abaixo de 200 DPI), escrita à mão (Tesseract não foi feito para cursiva), páginas muito inclinadas ou fontes muito incomuns. Se a qualidade do escaneamento é ruim, escaneie novamente em DPI mais alto e tente de novo.

Posso continuar lendo e imprimindo o PDF normalmente?

Sim — a saída tem exatamente a mesma aparência do original. Adicionamos o texto reconhecido como camada invisível atrás da imagem, então a página é renderizada de forma idêntica mas o texto fica selecionável com o mouse e pesquisável via Ctrl+F. Nada no documento visível muda.

O que acontece com páginas que já têm texto?

Páginas com uma camada de texto existente são deixadas intactas por padrão — não há benefício em fazer OCR de novo. Se seu PDF é uma mistura de páginas escaneadas e digitadas, processamos apenas as escaneadas. Você pode sobrepor isso com uma opção se quiser forçar OCR em todo o arquivo.

Por que a primeira execução demora mais?

Na primeira vez que você usa OCR PDF, seu navegador baixa a engine Tesseract (cerca de 2 MB de WebAssembly) e o modelo de reconhecimento de inglês (cerca de 12 MB). Eles ficam em cache no seu navegador, então execuções subsequentes começam em segundos.

Ferramentas relacionadas