OCR PDF

OCR PDF online — torne o texto escaneado pesquisável

Transforme um PDF escaneado em um documento verdadeiramente pesquisável. O texto fica selecionável e Ctrl+F funciona — tudo é processado localmente no seu navegador, nada é enviado.

Arraste e solte seu PDF escaneado aqui

Máximo: 50 MB · 50 páginas · Seus arquivos nunca saem do seu dispositivo

Como fazer um OCR PDF online

Lançar um OCR com a PDFluna leva um clique e acontece totalmente no seu navegador. Nada para instalar, sem conta para criar, e nenhum arquivo é enviado para um servidor remoto. Aqui está o procedimento completo, passo a passo:

Importe seu PDF escaneado. Arraste e solte um PDF escaneado na zona de import, ou clique em Escolher arquivo. Arquivos de até 50 MB e 50 páginas são suportados.
A PDFluna verifica cada página. Analisamos o arquivo localmente para encontrar páginas que já têm uma camada de texto pesquisável versus páginas que são apenas imagens. Apenas páginas só-imagem precisam de OCR.
Execute OCR no seu navegador. Clique em Iniciar OCR. A ferramenta baixa a engine OCR Tesseract (cerca de 14 MB, em cache após o primeiro uso) e reconhece o texto página por página.
Baixe seu PDF pesquisável. A saída parece igual ao original mas o texto agora é selecionável, copiável e pesquisável com Ctrl+F. Seu arquivo original nunca é modificado.

O que é OCR e por que isso importa?

Quando você escaneia um documento de papel ou fotografa um contrato com seu celular, o PDF resultante não é um documento no sentido habitual — é uma pilha de imagens envoltas em um contêiner PDF. Não há texto real lá dentro: se você tentar arrastar para selecionar uma palavra, nada é destacado; se você procurar uma palavra com Ctrl+F, nada é encontrado; se você copiar um bloco, você obtém nada. O OCR (Reconhecimento Óptico de Caracteres) corrige isso olhando cada página, identificando as formas das letras, e reescrevendo o texto reconhecido no arquivo como camada invisível atrás da imagem.

A página visível continua exatamente a mesma — mesmo escaneamento, mesma qualidade, mesmo layout. Mas agora o PDF é pesquisável, copiável e acessível para leitores de tela. É o formato PDF que a maioria das pessoas realmente quer enviar por e-mail, arquivar ou enviar para um portal.

Como a PDFluna executa OCR no seu navegador

Por baixo dos panos, a PDFluna usa Tesseract.js, uma compilação WebAssembly da engine open source Tesseract mantida pelo Google. A engine e seu modelo de reconhecimento de inglês são baixados de um CDN na primeira vez que você usa a ferramenta (cerca de 14 MB no total) e depois ficam em cache no seu navegador, então cada execução subsequente começa em segundos. O processamento real nunca toca um servidor:

Pré-escaneamento. Abrimos o PDF com PDF.js e inspecionamos cada página para ver se já tem uma camada de texto real. Páginas que têm são deixadas em paz; nenhum benefício em fazer OCR de novo.
Rasterização. Cada página que precisa de OCR é renderizada em um OffscreenCanvas a 300 DPI — a resolução para a qual o Tesseract foi treinado. Muito baixo e o texto pequeno se perde; muito alto e o processamento desacelera sem ganho de precisão.
Reconhecimento. O Tesseract identifica cada palavra, retornando seu texto, sua confiança e sua caixa delimitadora em coordenadas de pixel.
Sobreposição. Usamos pdf-lib para adicionar uma camada de texto invisível em cada página, com cada palavra posicionada exatamente onde aparece na imagem. O conteúdo original da página é preservado byte por byte.

É seguro fazer OCR em um PDF online?

Com a PDFluna, sim — porque nada está realmente "online" na etapa de reconhecimento. Uma vez que a página está carregada no seu navegador, o PDF é lido em memória pela File API padrão e processado com JavaScript e WebAssembly na sua própria máquina. Nunca fazemos upload, nunca vemos e nunca armazenamos. Isso torna a PDFluna uma escolha segura para escaneamentos confidenciais como declarações fiscais, contratos ou prontuários médicos. Se você quer verificar, abra os DevTools do navegador e observe a aba Rede — nenhuma requisição é feita durante o OCR em si (apenas o download único da engine, que não carrega dados de usuário).

Dicas para melhor precisão de OCR

Escaneie a 300 DPI. Abaixo de 200 DPI, caracteres pequenos se misturam e a precisão cai bastante. 300 DPI é o sweet spot entre velocidade e precisão.
Mantenha as páginas retas. Escaneamentos ligeiramente inclinados (alguns graus) estão OK; páginas muito giradas ou distorcidas não. Gire o PDF primeiro se necessário.
Use iluminação uniforme. Fotos de celular de documentos com sombras ou reflexos importantes podem confundir a engine. Escaneamentos planos e uniformemente iluminados funcionam melhor.
Texto preto sobre branco é ideal. Fundos coloridos e fontes decorativas reduzem a precisão. Fontes de corpo padrão (Times, Helvetica, Arial) são as mais fáceis para OCR.

Perguntas frequentes

O que é OCR e quando preciso dele?

OCR significa Optical Character Recognition (Reconhecimento Óptico de Caracteres) — transforma os pixels de um documento escaneado em texto verdadeiro. Se você não consegue selecionar o texto do seu PDF arrastando sobre ele, e Ctrl+F não retorna resultados, o arquivo é uma imagem escaneada e precisa de OCR antes de você poder pesquisar ou copiar.

Meu arquivo é enviado para os servidores de vocês?

Não. O OCR roda totalmente no seu navegador graças a Tesseract.js (uma compilação WebAssembly da engine open source Tesseract). Seu PDF nunca sai do seu dispositivo. Você pode verificar você mesmo abrindo a aba DevTools → Rede durante a execução da ferramenta — nenhum upload de arquivo é feito, apenas um download único da própria engine de reconhecimento.

Quais idiomas são suportados?

A versão atual reconhece inglês (incluindo números, pontuação e a maioria dos símbolos comuns). Escolhemos apenas inglês para a primeira versão porque cada idioma adicionado aproximadamente dobra o tamanho de download do modelo OCR. Suporte multi-idioma está no roadmap.

Qual é o tamanho máximo de arquivo?

A ferramenta aceita PDFs de até 50 MB e até 50 páginas. O OCR é intensivo em memória e CPU, e esses limites mantêm a experiência fluida em laptops e celulares de gama média. Para escaneamentos maiores, divida o documento primeiro com nossa ferramenta gratuita Dividir PDF e faça OCR em cada parte.

Qual a precisão?

Em escaneamentos limpos a 300 DPI com fontes padrão, a precisão é tipicamente de 95 a 99 %. Os resultados caem em escaneamentos de baixa resolução (abaixo de 200 DPI), escrita à mão (Tesseract não foi feito para cursiva), páginas muito inclinadas ou fontes muito incomuns. Se a qualidade do escaneamento é ruim, escaneie novamente em DPI mais alto e tente de novo.

Posso continuar lendo e imprimindo o PDF normalmente?

Sim — a saída tem exatamente a mesma aparência do original. Adicionamos o texto reconhecido como camada invisível atrás da imagem, então a página é renderizada de forma idêntica mas o texto fica selecionável com o mouse e pesquisável via Ctrl+F. Nada no documento visível muda.

O que acontece com páginas que já têm texto?

Páginas com uma camada de texto existente são deixadas intactas por padrão — não há benefício em fazer OCR de novo. Se seu PDF é uma mistura de páginas escaneadas e digitadas, processamos apenas as escaneadas. Você pode sobrepor isso com uma opção se quiser forçar OCR em todo o arquivo.

Por que a primeira execução demora mais?

Na primeira vez que você usa OCR PDF, seu navegador baixa a engine Tesseract (cerca de 2 MB de WebAssembly) e o modelo de reconhecimento de inglês (cerca de 12 MB). Eles ficam em cache no seu navegador, então execuções subsequentes começam em segundos.

Editar

Organizar

Converter de PDF

Converter para PDF

Assinar e segurança