OCR PDF online — torne o texto escaneado pesquisável
Transforme um PDF escaneado em um documento verdadeiramente pesquisável. O texto fica selecionável e Ctrl+F funciona — tudo é processado localmente no seu navegador, nada é enviado.
Como fazer um OCR PDF online
Lançar um OCR com a PDFluna leva um clique e acontece totalmente no seu navegador. Nada para instalar, sem conta para criar, e nenhum arquivo é enviado para um servidor remoto. Aqui está o procedimento completo, passo a passo:
- Importe seu PDF escaneado. Arraste e solte um PDF escaneado na zona de import, ou clique em Escolher arquivo. Arquivos de até 50 MB e 50 páginas são suportados.
- A PDFluna verifica cada página. Analisamos o arquivo localmente para encontrar páginas que já têm uma camada de texto pesquisável versus páginas que são apenas imagens. Apenas páginas só-imagem precisam de OCR.
- Execute OCR no seu navegador. Clique em Iniciar OCR. A ferramenta baixa a engine OCR Tesseract (cerca de 14 MB, em cache após o primeiro uso) e reconhece o texto página por página.
- Baixe seu PDF pesquisável. A saída parece igual ao original mas o texto agora é selecionável, copiável e pesquisável com Ctrl+F. Seu arquivo original nunca é modificado.
O que é OCR e por que isso importa?
Quando você escaneia um documento de papel ou fotografa um contrato com seu celular, o PDF resultante não é um documento no sentido habitual — é uma pilha de imagens envoltas em um contêiner PDF. Não há texto real lá dentro: se você tentar arrastar para selecionar uma palavra, nada é destacado; se você procurar uma palavra com Ctrl+F, nada é encontrado; se você copiar um bloco, você obtém nada. O OCR (Reconhecimento Óptico de Caracteres) corrige isso olhando cada página, identificando as formas das letras, e reescrevendo o texto reconhecido no arquivo como camada invisível atrás da imagem.
A página visível continua exatamente a mesma — mesmo escaneamento, mesma qualidade, mesmo layout. Mas agora o PDF é pesquisável, copiável e acessível para leitores de tela. É o formato PDF que a maioria das pessoas realmente quer enviar por e-mail, arquivar ou enviar para um portal.
Como a PDFluna executa OCR no seu navegador
Por baixo dos panos, a PDFluna usa Tesseract.js, uma compilação WebAssembly da engine open source Tesseract mantida pelo Google. A engine e seu modelo de reconhecimento de inglês são baixados de um CDN na primeira vez que você usa a ferramenta (cerca de 14 MB no total) e depois ficam em cache no seu navegador, então cada execução subsequente começa em segundos. O processamento real nunca toca um servidor:
- Pré-escaneamento. Abrimos o PDF com PDF.js e inspecionamos cada página para ver se já tem uma camada de texto real. Páginas que têm são deixadas em paz; nenhum benefício em fazer OCR de novo.
- Rasterização. Cada página que precisa de OCR é renderizada em um
OffscreenCanvasa 300 DPI — a resolução para a qual o Tesseract foi treinado. Muito baixo e o texto pequeno se perde; muito alto e o processamento desacelera sem ganho de precisão. - Reconhecimento. O Tesseract identifica cada palavra, retornando seu texto, sua confiança e sua caixa delimitadora em coordenadas de pixel.
- Sobreposição. Usamos pdf-lib para adicionar uma camada de texto invisível em cada página, com cada palavra posicionada exatamente onde aparece na imagem. O conteúdo original da página é preservado byte por byte.
É seguro fazer OCR em um PDF online?
Com a PDFluna, sim — porque nada está realmente "online" na etapa de reconhecimento. Uma vez que a página está carregada no seu navegador, o PDF é lido em memória pela File API padrão e processado com JavaScript e WebAssembly na sua própria máquina. Nunca fazemos upload, nunca vemos e nunca armazenamos. Isso torna a PDFluna uma escolha segura para escaneamentos confidenciais como declarações fiscais, contratos ou prontuários médicos. Se você quer verificar, abra os DevTools do navegador e observe a aba Rede — nenhuma requisição é feita durante o OCR em si (apenas o download único da engine, que não carrega dados de usuário).
Dicas para melhor precisão de OCR
- Escaneie a 300 DPI. Abaixo de 200 DPI, caracteres pequenos se misturam e a precisão cai bastante. 300 DPI é o sweet spot entre velocidade e precisão.
- Mantenha as páginas retas. Escaneamentos ligeiramente inclinados (alguns graus) estão OK; páginas muito giradas ou distorcidas não. Gire o PDF primeiro se necessário.
- Use iluminação uniforme. Fotos de celular de documentos com sombras ou reflexos importantes podem confundir a engine. Escaneamentos planos e uniformemente iluminados funcionam melhor.
- Texto preto sobre branco é ideal. Fundos coloridos e fontes decorativas reduzem a precisão. Fontes de corpo padrão (Times, Helvetica, Arial) são as mais fáceis para OCR.
Perguntas frequentes
O que é OCR e quando preciso dele?
OCR significa Optical Character Recognition (Reconhecimento Óptico de Caracteres) — transforma os pixels de um documento escaneado em texto verdadeiro. Se você não consegue selecionar o texto do seu PDF arrastando sobre ele, e Ctrl+F não retorna resultados, o arquivo é uma imagem escaneada e precisa de OCR antes de você poder pesquisar ou copiar.
Meu arquivo é enviado para os servidores de vocês?
Não. O OCR roda totalmente no seu navegador graças a Tesseract.js (uma compilação WebAssembly da engine open source Tesseract). Seu PDF nunca sai do seu dispositivo. Você pode verificar você mesmo abrindo a aba DevTools → Rede durante a execução da ferramenta — nenhum upload de arquivo é feito, apenas um download único da própria engine de reconhecimento.
Quais idiomas são suportados?
A versão atual reconhece inglês (incluindo números, pontuação e a maioria dos símbolos comuns). Escolhemos apenas inglês para a primeira versão porque cada idioma adicionado aproximadamente dobra o tamanho de download do modelo OCR. Suporte multi-idioma está no roadmap.
Qual é o tamanho máximo de arquivo?
A ferramenta aceita PDFs de até 50 MB e até 50 páginas. O OCR é intensivo em memória e CPU, e esses limites mantêm a experiência fluida em laptops e celulares de gama média. Para escaneamentos maiores, divida o documento primeiro com nossa ferramenta gratuita Dividir PDF e faça OCR em cada parte.
Qual a precisão?
Em escaneamentos limpos a 300 DPI com fontes padrão, a precisão é tipicamente de 95 a 99 %. Os resultados caem em escaneamentos de baixa resolução (abaixo de 200 DPI), escrita à mão (Tesseract não foi feito para cursiva), páginas muito inclinadas ou fontes muito incomuns. Se a qualidade do escaneamento é ruim, escaneie novamente em DPI mais alto e tente de novo.
Posso continuar lendo e imprimindo o PDF normalmente?
Sim — a saída tem exatamente a mesma aparência do original. Adicionamos o texto reconhecido como camada invisível atrás da imagem, então a página é renderizada de forma idêntica mas o texto fica selecionável com o mouse e pesquisável via Ctrl+F. Nada no documento visível muda.
O que acontece com páginas que já têm texto?
Páginas com uma camada de texto existente são deixadas intactas por padrão — não há benefício em fazer OCR de novo. Se seu PDF é uma mistura de páginas escaneadas e digitadas, processamos apenas as escaneadas. Você pode sobrepor isso com uma opção se quiser forçar OCR em todo o arquivo.
Por que a primeira execução demora mais?
Na primeira vez que você usa OCR PDF, seu navegador baixa a engine Tesseract (cerca de 2 MB de WebAssembly) e o modelo de reconhecimento de inglês (cerca de 12 MB). Eles ficam em cache no seu navegador, então execuções subsequentes começam em segundos.