OCR PDF online — rendi il testo scansionato ricercabile
Trasforma un PDF scansionato in un documento davvero ricercabile. Il testo diventa selezionabile e Ctrl+F funziona — tutto è elaborato localmente nel tuo browser, niente viene inviato.
Come fare un OCR PDF online
Lanciare un OCR con PDFluna richiede un clic e avviene completamente nel tuo browser. Niente da installare, niente account da creare, e nessun file viene inviato a un server remoto. Ecco la procedura completa, passo per passo:
- Importa il tuo PDF scansionato. Trascina e rilascia un PDF scansionato nella zona di import, o clicca Scegli file. Sono supportati file fino a 50 MB e 50 pagine.
- PDFluna controlla ogni pagina. Analizziamo il file localmente per trovare le pagine che hanno già un livello di testo ricercabile rispetto a quelle che sono solo immagini. Solo le pagine solo-immagine hanno bisogno dell'OCR.
- Esegui OCR nel tuo browser. Clicca Avvia OCR. Lo strumento scarica il motore OCR Tesseract (circa 14 MB, in cache dopo il primo uso) e riconosce il testo pagina per pagina.
- Scarica il tuo PDF ricercabile. L'output sembra uguale all'originale ma il testo è ora selezionabile, copiabile e ricercabile con Ctrl+F. Il tuo file originale non viene mai modificato.
Cos'è l'OCR e perché conta?
Quando scansioni un documento cartaceo o fotografi un contratto col tuo cellulare, il PDF risultante non è un documento nel senso abituale — è una pila di immagini avvolte in un contenitore PDF. Non c'è testo vero lì dentro: se provi a trascinare per selezionare una parola, niente viene evidenziato; se cerchi una parola con Ctrl+F, niente viene trovato; se copi un blocco, ottieni nulla. L'OCR (Riconoscimento Ottico dei Caratteri) corregge questo guardando ogni pagina, identificando le forme delle lettere, e riscrivendo il testo riconosciuto nel file come livello invisibile dietro l'immagine.
La pagina visibile resta esattamente la stessa — stessa scansione, stessa qualità, stesso layout. Ma ora il PDF è ricercabile, copiabile e accessibile per gli screen reader. È il formato PDF che la maggior parte delle persone vuole davvero inviare per email, archiviare o caricare su un portale.
Come PDFluna esegue l'OCR nel tuo browser
Sotto il cofano, PDFluna usa Tesseract.js, una build WebAssembly del motore open source Tesseract mantenuto da Google. Il motore e il suo modello di riconoscimento dell'inglese vengono scaricati da una CDN la prima volta che usi lo strumento (circa 14 MB in totale) e poi restano in cache nel tuo browser, quindi ogni esecuzione successiva inizia in pochi secondi. L'elaborazione vera non tocca mai un server:
- Pre-scansione. Apriamo il PDF con PDF.js e ispezioniamo ogni pagina per vedere se ha già un livello di testo reale. Le pagine che lo hanno vengono lasciate stare; nessun beneficio nel rifare l'OCR.
- Rasterizzazione. Ogni pagina che ha bisogno di OCR viene renderizzata su un
OffscreenCanvasa 300 DPI — la risoluzione per cui Tesseract è stato addestrato. Troppo basso e il testo piccolo si perde; troppo alto e l'elaborazione rallenta senza guadagno di precisione. - Riconoscimento. Tesseract identifica ogni parola, restituendo il suo testo, la sua confidenza e il suo bounding box in coordinate pixel.
- Sovrapposizione. Usiamo pdf-lib per aggiungere un livello di testo invisibile su ogni pagina, con ogni parola posizionata esattamente dove appare nell'immagine. Il contenuto originale della pagina è preservato byte per byte.
È sicuro fare OCR su un PDF online?
Con PDFluna, sì — perché niente è realmente "online" nella fase di riconoscimento. Una volta che la pagina è caricata nel tuo browser, il PDF viene letto in memoria tramite la File API standard ed elaborato con JavaScript e WebAssembly sulla tua macchina. Non carichiamo, non vediamo e non archiviamo mai. Questo rende PDFluna una scelta sicura per scansioni riservate come dichiarazioni fiscali, contratti o cartelle cliniche. Se vuoi verificare, apri i DevTools del browser e osserva la scheda Rete — non viene fatta nessuna richiesta durante l'OCR stesso (solo il singolo download del motore, che non trasporta dati utente).
Suggerimenti per una migliore precisione OCR
- Scansiona a 300 DPI. Sotto i 200 DPI, i caratteri piccoli si confondono e la precisione cala parecchio. 300 DPI è il punto ottimale tra velocità e precisione.
- Mantieni le pagine dritte. Le scansioni leggermente inclinate (qualche grado) vanno bene; le pagine molto ruotate o distorte no. Ruota il PDF prima se necessario.
- Usa illuminazione uniforme. Le foto da cellulare di documenti con ombre o riflessi importanti possono confondere il motore. Le scansioni piatte e uniformemente illuminate funzionano meglio.
- Testo nero su bianco è ideale. Sfondi colorati e font decorativi riducono la precisione. I font di corpo standard (Times, Helvetica, Arial) sono i più facili per l'OCR.
Domande frequenti
Cos'è l'OCR e quando ne ho bisogno?
OCR significa Optical Character Recognition (Riconoscimento Ottico dei Caratteri) — trasforma i pixel di un documento scansionato in testo vero. Se non riesci a selezionare il testo del tuo PDF trascinandoci sopra, e Ctrl+F non restituisce risultati, il file è un'immagine scansionata e ha bisogno di OCR prima che tu possa cercare o copiare.
Il mio file viene inviato ai vostri server?
No. L'OCR gira interamente nel tuo browser grazie a Tesseract.js (una build WebAssembly del motore open source Tesseract). Il tuo PDF non lascia mai il tuo dispositivo. Puoi verificarlo tu stesso aprendo la scheda DevTools → Rete durante l'esecuzione dello strumento — non viene fatto nessun upload di file, solo un singolo download del motore di riconoscimento stesso.
Quali lingue sono supportate?
La versione attuale riconosce l'inglese (inclusi numeri, punteggiatura e la maggior parte dei simboli comuni). Abbiamo scelto solo l'inglese per la prima versione perché ogni lingua aggiunta circa raddoppia la dimensione del download del modello OCR. Il supporto multilingua è nella roadmap.
Qual è la dimensione massima del file?
Lo strumento accetta PDF fino a 50 MB e fino a 50 pagine. L'OCR è intensivo in memoria e CPU, e questi limiti mantengono l'esperienza fluida su laptop e cellulari di fascia media. Per scansioni più grandi, dividi prima il documento con il nostro strumento gratuito Dividi PDF e fai OCR su ogni parte.
Quanto è preciso?
Su scansioni pulite a 300 DPI con font standard, la precisione è tipicamente del 95-99 %. I risultati calano su scansioni a bassa risoluzione (sotto i 200 DPI), scrittura a mano (Tesseract non è progettato per il corsivo), pagine molto inclinate o font molto insoliti. Se la qualità della scansione è scarsa, riscansiona a DPI più alto e riprova.
Posso continuare a leggere e stampare il PDF normalmente?
Sì — l'output ha esattamente lo stesso aspetto dell'originale. Aggiungiamo il testo riconosciuto come livello invisibile dietro l'immagine, quindi la pagina viene renderizzata in modo identico ma il testo è selezionabile col mouse e ricercabile via Ctrl+F. Niente nel documento visibile cambia.
Cosa succede alle pagine che hanno già del testo?
Le pagine con un livello di testo esistente vengono lasciate intatte per default — non c'è beneficio nel rifare l'OCR. Se il tuo PDF è un mix di pagine scansionate e digitate, processiamo solo quelle scansionate. Puoi sovrascrivere questo con un'opzione se vuoi forzare l'OCR su tutto il file.
Perché la prima esecuzione richiede più tempo?
La prima volta che usi OCR PDF, il tuo browser scarica il motore Tesseract (circa 2 MB di WebAssembly) e il modello di riconoscimento dell'inglese (circa 12 MB). Restano in cache nel tuo browser, quindi le esecuzioni successive iniziano in pochi secondi.