PDF OCR

PDF OCR online — maak gescande tekst doorzoekbaar

Verander een gescande PDF in een echt doorzoekbaar document. Tekst wordt selecteerbaar en Ctrl+F werkt — alles wordt lokaal in je browser verwerkt, niets wordt verzonden.

Sleep je gescande PDF hierheen
of
Maximaal: 50 MB · 50 paginas · Je bestanden verlaten nooit je apparaat

Hoe een PDF online OCR'en

OCR uitvoeren met PDFluna duurt één klik en gebeurt volledig in je browser. Niets te installeren, geen account aanmaken, en geen bestand wordt naar een externe server verzonden. Hier de volledige stap-voor-stap procedure:

  1. Importeer een gescande PDF. Sleep een gescande PDF in de importzone of klik op Bestand kiezen. Bestanden tot 50 MB en 50 paginas worden ondersteund.
  2. PDFluna controleert elke pagina. We analyseren het bestand lokaal om paginas met een doorzoekbare tekstlaag te vinden tegenover paginas die alleen afbeeldingen zijn. Alleen afbeeldingspaginas hebben OCR nodig.
  3. Voer OCR uit in de browser. Klik op OCR starten. De tool laadt de Tesseract OCR-engine (ongeveer 14 MB, gecachet na het eerste gebruik) en herkent tekst pagina voor pagina.
  4. Download de doorzoekbare PDF. De uitvoer ziet er hetzelfde uit als het origineel, maar de tekst is nu selecteerbaar, kopieerbaar en doorzoekbaar via Ctrl+F. Je oorspronkelijke bestand wordt nooit gewijzigd.

Wat is OCR en waarom is het belangrijk?

Wanneer je een papieren document scant of een contract met je telefoon fotografeert, is de resulterende PDF geen document in de gebruikelijke zin — het is een stapel afbeeldingen verpakt in een PDF-container. Er is geen echte tekst in: als je probeert te slepen om een woord te selecteren, wordt niets gemarkeerd; als je een woord opzoekt met Ctrl+F, vind je niets; als je een blok kopieert, krijg je niets. OCR (Optical Character Recognition) lost dit op door naar elke pagina te kijken, lettervormen te identificeren en de herkende tekst in het bestand te schrijven als een onzichtbare laag achter de afbeelding.

De zichtbare pagina blijft precies hetzelfde — dezelfde scan, dezelfde kwaliteit, dezelfde lay-out. Maar nu is de PDF doorzoekbaar, kopieerbaar en toegankelijk voor schermlezers. Het is het PDF-formaat dat de meeste mensen daadwerkelijk willen e-mailen, archiveren of uploaden naar een portaal.

Hoe PDFluna OCR uitvoert in je browser

Onder de motorkap gebruikt PDFluna Tesseract.js, een WebAssembly-build van de open-source Tesseract-engine onderhouden door Google. De engine en zijn Engelse herkenningsmodel worden geladen vanaf een CDN bij het eerste gebruik van de tool (ongeveer 14 MB in totaal) en daarna in je browser gecachet, zodat elke volgende run in seconden start. De daadwerkelijke verwerking raakt nooit een server:

  • Pre-scan. We openen de PDF met PDF.js en controleren elke pagina om te zien of deze al een echte tekstlaag heeft. Paginas die dat hebben, laten we met rust; er is geen voordeel in opnieuw OCR'en.
  • Rasterisatie. Elke pagina die OCR nodig heeft, wordt op een OffscreenCanvas gerenderd op 300 DPI — de resolutie waarop Tesseract is getraind. Te laag en kleine tekst gaat verloren; te hoog en de verwerking vertraagt zonder nauwkeurigheidswinst.
  • Herkenning. Tesseract identificeert elk woord en geeft de tekst, het vertrouwen en het bounding box in pixelcoordinaten terug.
  • Overlay. We gebruiken pdf-lib om een onzichtbare tekstlaag op elke pagina toe te voegen, met elk woord precies geplaatst waar het op de afbeelding verschijnt. De oorspronkelijke pagina-inhoud wordt byte-voor-byte behouden.

Is het veilig om PDFs online te OCR'en?

Met PDFluna ja, omdat er tijdens de herkenningsstap niets daadwerkelijk "online" is. Zodra de pagina in je browser is geladen, wordt de PDF in het geheugen gelezen via de standaard File API en verwerkt door JavaScript en WebAssembly op je eigen machine. We uploaden, zien of bewaren nooit. Dat maakt PDFluna een veilige keuze voor vertrouwelijke scans zoals belastingaangiftes, contracten of medische dossiers. Wil je verifieren, open de DevTools van je browser en kijk naar het Network-tabblad — tijdens de OCR zelf wordt geen enkel verzoek gedaan (alleen één download van de engine, die geen gebruikersgegevens draagt).

Tips voor betere OCR-nauwkeurigheid

  • Scan op 300 DPI. Onder 200 DPI lopen kleine tekens samen en daalt de nauwkeurigheid aanzienlijk. 300 DPI is het optimale punt tussen snelheid en nauwkeurigheid.
  • Houd paginas recht. Iets scheve scans (een paar graden) zijn OK; zwaar geroteerde of vervormde paginas niet. Roteer eerst de PDF indien nodig.
  • Gebruik gelijkmatige verlichting. Telefoonfotos van documenten met zware schaduwen of reflecties kunnen de engine in de war brengen. Vlakke, gelijkmatig verlichte scans werken het beste.
  • Zwarte tekst op wit is ideaal. Gekleurde achtergronden en decoratieve lettertypes verminderen de nauwkeurigheid. Standaard bodylettertypes (Times, Helvetica, Arial) zijn het gemakkelijkst voor OCR.

Veelgestelde vragen

Wat is OCR en wanneer heb ik het nodig?

OCR staat voor Optical Character Recognition (Optische Tekenherkenning) — het zet de pixels van een gescand document om in echte tekst. Als je geen tekst kunt selecteren in je PDF door eroverheen te slepen, en Ctrl+F geen resultaten oplevert, is het bestand een gescande afbeelding en heeft het OCR nodig voordat je kunt zoeken of kopieren.

Wordt mijn bestand naar jullie servers verzonden?

Nee. OCR werkt volledig in je browser dankzij Tesseract.js (een WebAssembly-build van de open-source Tesseract-engine). Je PDF verlaat je apparaat nooit. Je kunt het zelf controleren door het DevTools → Network-tabblad te openen tijdens de uitvoering — geen bestandsupload wordt gedaan, slechts één download van de herkenningsengine zelf.

Welke talen worden ondersteund?

De huidige versie herkent Engels (inclusief cijfers, leestekens en de meeste veelvoorkomende symbolen). We hebben alleen Engels gekozen voor de eerste versie omdat elke toegevoegde taal de download van het OCR-model ongeveer verdubbelt. Multi-language ondersteuning staat op de roadmap.

Wat is de maximale bestandsgrootte?

De tool accepteert PDFs tot 50 MB en tot 50 paginas. OCR is geheugen- en CPU-intensief, en deze limieten houden de ervaring soepel op middenklasse-laptops en -telefoons. Voor grotere scans, splits het document eerst met onze gratis PDF Splitsen-tool en voer OCR uit op elk deel.

Hoe nauwkeurig is het?

Op schone scans op 300 DPI met standaardlettertypes is de nauwkeurigheid meestal 95–99%. De resultaten dalen op scans met lage resolutie (onder 200 DPI), handschrift (Tesseract is niet gemaakt voor cursief schrift), zwaar scheve paginas of zeer ongebruikelijke lettertypes. Als de scankwaliteit slecht is, scan opnieuw op een hogere DPI en probeer opnieuw.

Kan ik de PDF normaal blijven lezen en afdrukken?

Ja — de uitvoer ziet er precies hetzelfde uit als het origineel. We voegen de herkende tekst toe als een onzichtbare laag achter de afbeelding, dus de pagina wordt identiek weergegeven, maar de tekst wordt selecteerbaar met de muis en doorzoekbaar via Ctrl+F. Niets in het zichtbare document verandert.

Wat gebeurt er met paginas die al tekst hebben?

Paginas met een bestaande tekstlaag blijven standaard onaangeroerd — er is geen voordeel in opnieuw OCR'en. Als je PDF een mix is van gescande en gedrukte paginas, verwerken we alleen de gescande. Je kunt dit overschrijven met een optie als je OCR op het hele bestand wilt forceren.

Waarom duurt de eerste run langer?

De eerste keer dat je PDF OCR gebruikt, downloadt je browser de Tesseract-engine (ongeveer 2 MB WebAssembly) en het Engelse herkenningsmodel (ongeveer 12 MB). Deze worden in je browser gecachet, dus volgende runs starten in seconden.

Gerelateerde tools