OCR PDF

OCR PDF online — spraw, by zeskanowany tekst był przeszukiwalny

Przekształć zeskanowany PDF w naprawdę przeszukiwalny dokument. Tekst staje się zaznaczalny, a Ctrl+F działa — wszystko jest przetwarzane lokalnie w Twojej przeglądarce, nic nie jest wysyłane.

Przeciągnij i upuść swój zeskanowany PDF tutaj
lub
Maksymalnie: 50 MB · 50 stron · Twoje pliki nigdy nie opuszczają urządzenia

Jak zrobić OCR PDF online

Uruchomienie OCR z PDFluną zajmuje jedno kliknięcie i odbywa się w całości w Twojej przeglądarce. Nic do instalowania, brak konta do utworzenia i żaden plik nie jest wysyłany na zdalny serwer. Oto pełna procedura, krok po kroku:

  1. Zaimportuj swój zeskanowany PDF. Przeciągnij i upuść zeskanowany PDF w strefę importu lub kliknij Wybierz plik. Obsługiwane są pliki do 50 MB i 50 stron.
  2. PDFluna sprawdza każdą stronę. Analizujemy plik lokalnie, by znaleźć strony, które już mają przeszukiwalną warstwę tekstu, w przeciwieństwie do tych, które są tylko obrazami. Tylko strony tylko-obraz potrzebują OCR.
  3. Uruchom OCR w przeglądarce. Kliknij Uruchom OCR. Narzędzie pobiera silnik OCR Tesseract (około 14 MB, buforowany po pierwszym użyciu) i rozpoznaje tekst stronę po stronie.
  4. Pobierz swój przeszukiwalny PDF. Wynik wygląda tak samo jak oryginał, ale tekst jest teraz zaznaczalny, kopiowalny i przeszukiwalny przez Ctrl+F. Twój oryginalny plik nigdy nie jest modyfikowany.

Czym jest OCR i dlaczego ma znaczenie?

Gdy skanujesz papierowy dokument lub fotografujesz umowę telefonem, wynikowy PDF nie jest dokumentem w zwykłym sensie — to stos obrazów opakowany w kontener PDF. Nie ma tam prawdziwego tekstu: jeśli spróbujesz przeciągnąć, by zaznaczyć słowo, nic nie zostanie podświetlone; jeśli wyszukasz słowo Ctrl+F, nic nie zostanie znalezione; jeśli skopiujesz blok, dostaniesz nic. OCR (Optyczne Rozpoznawanie Znaków) naprawia to, patrząc na każdą stronę, identyfikując kształty liter i przepisując rozpoznany tekst do pliku jako niewidzialną warstwę za obrazem.

Widoczna strona pozostaje dokładnie taka sama — ten sam skan, ta sama jakość, ten sam układ. Ale teraz PDF jest przeszukiwalny, kopiowalny i dostępny dla czytników ekranu. To format PDF, który większość ludzi naprawdę chce wysyłać e-mailem, archiwizować lub przesyłać do portalu.

Jak PDFluna wykonuje OCR w Twojej przeglądarce

Pod maską PDFluna używa Tesseract.js, kompilacji WebAssembly otwartoźródłowego silnika Tesseract utrzymywanego przez Google. Silnik i jego model rozpoznawania angielskiego są pobierane z CDN przy pierwszym użyciu narzędzia (około 14 MB łącznie), a potem są buforowane w przeglądarce, więc każde kolejne uruchomienie zaczyna się w sekundach. Prawdziwe przetwarzanie nigdy nie dotyka serwera:

  • Wstępne skanowanie. Otwieramy PDF z PDF.js i sprawdzamy każdą stronę, czy ma już prawdziwą warstwę tekstu. Strony, które ją mają, są pozostawione w spokoju; brak korzyści z ponownego OCR.
  • Rasteryzacja. Każda strona, która potrzebuje OCR, jest renderowana na OffscreenCanvas w 300 DPI — rozdzielczości, do której Tesseract został wytrenowany. Za niskie i mały tekst się gubi; za wysokie i przetwarzanie zwalnia bez przyrostu dokładności.
  • Rozpoznawanie. Tesseract identyfikuje każde słowo, zwracając jego tekst, pewność i otaczający prostokąt w współrzędnych pikselowych.
  • Nakładka. Używamy pdf-lib, by dodać niewidzialną warstwę tekstu na każdej stronie, z każdym słowem umieszczonym dokładnie tam, gdzie pojawia się na obrazie. Oryginalna zawartość strony jest zachowywana bajt po bajcie.

Czy bezpiecznie jest robić OCR PDF online?

Z PDFluną tak — bo nic nie jest naprawdę „online" na etapie rozpoznawania. Po załadowaniu strony w przeglądarce PDF jest odczytywany do pamięci przez standardowe File API i przetwarzany JavaScriptem i WebAssembly na Twojej własnej maszynie. Nigdy nie wgrywamy, nigdy nie widzimy i nigdy nie przechowujemy. To czyni PDFlunę bezpiecznym wyborem dla poufnych skanów, jak deklaracje podatkowe, umowy lub dokumentacja medyczna. Jeśli chcesz to zweryfikować, otwórz DevTools przeglądarki i obserwuj kartę Sieć — podczas samego OCR nie jest wykonywane żadne żądanie (tylko jednorazowe pobranie silnika, które nie przenosi danych użytkownika).

Wskazówki dla lepszej dokładności OCR

  • Skanuj w 300 DPI. Poniżej 200 DPI małe znaki się zlewają i dokładność znacząco spada. 300 DPI to punkt optymalny między szybkością a dokładnością.
  • Trzymaj strony prosto. Lekko pochylone skany (kilka stopni) są OK; bardzo obrócone lub zniekształcone strony nie. Najpierw obróć PDF, jeśli trzeba.
  • Używaj jednolitego oświetlenia. Zdjęcia dokumentów z telefonu z dużymi cieniami lub odbiciami mogą zmylić silnik. Płaskie, równomiernie oświetlone skany działają najlepiej.
  • Czarny tekst na białym jest idealny. Kolorowe tła i ozdobne czcionki zmniejszają dokładność. Standardowe czcionki korpusu (Times, Helvetica, Arial) są najłatwiejsze dla OCR.

Najczęściej zadawane pytania

Czym jest OCR i kiedy go potrzebuję?

OCR oznacza Optical Character Recognition (Optyczne Rozpoznawanie Znaków) — przekształca piksele zeskanowanego dokumentu w prawdziwy tekst. Jeśli nie możesz zaznaczyć tekstu Twojego PDF przeciągając go, a Ctrl+F nie zwraca wyników, plik jest zeskanowanym obrazem i potrzebuje OCR, zanim będziesz mógł wyszukiwać lub kopiować.

Czy mój plik jest wysyłany na wasze serwery?

Nie. OCR działa w całości w Twojej przeglądarce dzięki Tesseract.js (kompilacja WebAssembly otwartoźródłowego silnika Tesseract). Twój PDF nigdy nie opuszcza urządzenia. Możesz to sam zweryfikować, otwierając kartę DevTools → Sieć podczas wykonywania narzędzia — nie jest wykonywane żadne wgranie pliku, tylko jednorazowe pobranie samego silnika rozpoznawania.

Jakie języki są obsługiwane?

Obecna wersja rozpoznaje angielski (w tym liczby, interpunkcję i większość typowych symboli). Wybraliśmy tylko angielski dla pierwszej wersji, bo każdy dodany język w przybliżeniu podwaja rozmiar pobierania modelu OCR. Wsparcie dla wielu języków jest na roadmapie.

Jaki jest maksymalny rozmiar pliku?

Narzędzie akceptuje PDF-y do 50 MB i do 50 stron. OCR jest intensywny pamięciowo i procesorowo, a te limity utrzymują doświadczenie płynne na laptopach i telefonach średniej klasy. Dla większych skanów najpierw podziel dokument naszym darmowym narzędziem Podziel PDF i wykonaj OCR na każdej części.

Jak dokładny jest?

Na czystych skanach w 300 DPI ze standardowymi czcionkami dokładność wynosi zazwyczaj 95-99%. Wyniki spadają na skanach niskiej rozdzielczości (poniżej 200 DPI), piśmie ręcznym (Tesseract nie został zaprojektowany do pisma odręcznego), bardzo pochylonych stronach lub bardzo nietypowych czcionkach. Jeśli jakość skanu jest słaba, zeskanuj ponownie w wyższym DPI i spróbuj jeszcze raz.

Czy mogę nadal czytać i drukować PDF normalnie?

Tak — wynik wygląda dokładnie tak samo jak oryginał. Dodajemy rozpoznany tekst jako niewidzialną warstwę za obrazem, więc strona jest renderowana identycznie, ale tekst jest zaznaczalny myszą i przeszukiwalny przez Ctrl+F. Nic w widocznym dokumencie się nie zmienia.

Co się dzieje ze stronami, które już mają tekst?

Strony z istniejącą warstwą tekstu są pozostawione nietknięte domyślnie — nie ma korzyści z ponownego OCR. Jeśli Twój PDF jest mieszanką stron zeskanowanych i wpisanych, przetwarzamy tylko zeskanowane. Możesz to obejść opcją, jeśli chcesz wymusić OCR na całym pliku.

Dlaczego pierwsze uruchomienie trwa dłużej?

Przy pierwszym użyciu OCR PDF Twoja przeglądarka pobiera silnik Tesseract (około 2 MB WebAssembly) i model rozpoznawania angielskiego (około 12 MB). Są buforowane w przeglądarce, więc kolejne uruchomienia zaczynają się w sekundach.

Powiązane narzędzia