OCR PDF

OCR PDF онлайн — зроби сканований текст пошуковим

Перетвори сканований PDF на справді пошуковий документ. Текст стає виборним, і Ctrl+F працює — усе обробляється локально у твоєму браузері, нічого не відправляється.

Перетягни сюди свій сканований PDF
або
Максимум: 50 МБ · 50 сторінок · Твої файли ніколи не залишають пристрій

Як зробити OCR PDF онлайн

Запустити OCR з PDFluna займає один клік і відбувається повністю у твоєму браузері. Нічого не треба встановлювати, не треба створювати обліковий запис, і жоден файл не відправляється на віддалений сервер. Ось повна процедура крок за кроком:

  1. Імпортуй сканований PDF. Перетягни сканований PDF у зону імпорту або натисни Вибрати файл. Підтримуються файли до 50 МБ і 50 сторінок.
  2. PDFluna перевіряє кожну сторінку. Ми аналізуємо файл локально, щоб знайти сторінки, що вже мають пошуковий текстовий шар, проти сторінок, що є лише зображеннями. Лише сторінки-зображення потребують OCR.
  3. Запусти OCR у браузері. Натисни Запустити OCR. Інструмент завантажує движок Tesseract OCR (близько 14 МБ, кешований після першого використання) і розпізнає текст сторінка за сторінкою.
  4. Завантаж пошуковий PDF. Вивід виглядає так само, як оригінал, але текст тепер виборний, копіюваний і пошуковий через Ctrl+F. Твій оригінальний файл ніколи не змінюється.

Що таке OCR і чому це важливо?

Коли ти скануєш паперовий документ або фотографуєш контракт телефоном, отриманий PDF не є документом у звичному сенсі — це стопа зображень, обгорнута у PDF-контейнер. Там немає справжнього тексту: якщо спробуєш перетягнути для виділення слова, нічого не підсвітиться; якщо шукатимеш слово через Ctrl+F, нічого не знайдеш; якщо скопіюєш блок, отримаєш нічого. OCR (Оптичне розпізнавання символів) виправляє це, дивлячись на кожну сторінку, ідентифікуючи форми літер і записуючи розпізнаний текст у файл як невидимий шар за зображенням.

Видима сторінка залишається точно тією самою — той самий скан, та сама якість, той самий макет. Але тепер PDF пошуковий, копіюваний і доступний для читачів екрана. Це формат PDF, який більшість людей реально хочуть відправляти email, архівувати або завантажувати на портал.

Як PDFluna виконує OCR у твоєму браузері

Під капотом PDFluna використовує Tesseract.js, WebAssembly-збірку open-source движка Tesseract, що підтримується Google. Движок і його модель розпізнавання англійської завантажуються з CDN при першому використанні інструмента (близько 14 МБ загалом) і потім кешуються у твоєму браузері, тож кожен наступний запуск починається за секунди. Реальна обробка ніколи не торкається сервера:

  • Попереднє сканування. Ми відкриваємо PDF з PDF.js і перевіряємо кожну сторінку, щоб побачити, чи вона вже має реальний текстовий шар. Сторінки, що мають, залишаємо в спокої; немає користі від повторного OCR.
  • Растеризація. Кожна сторінка, що потребує OCR, рендериться на OffscreenCanvas у 300 DPI — роздільності, на якій тренувався Tesseract. Занадто низько і малий текст втрачається; занадто високо і обробка сповільнюється без виграшу в точності.
  • Розпізнавання. Tesseract ідентифікує кожне слово, повертаючи його текст, його впевненість і обмежувальну рамку в координатах пікселів.
  • Накладення. Ми використовуємо pdf-lib, щоб додати невидимий текстовий шар на кожну сторінку, з кожним словом, розташованим точно там, де воно зʼявляється на зображенні. Оригінальний вміст сторінки зберігається байт за байтом.

Чи безпечно робити OCR PDF онлайн?

З PDFluna — так, бо нічого насправді не «онлайн» на кроці розпізнавання. Як тільки сторінка завантажена у твоєму браузері, PDF читається в памʼять через стандартний File API і обробляється через JavaScript і WebAssembly на твоїй власній машині. Ми ніколи не завантажуємо, не бачимо і не зберігаємо. Це робить PDFluna безпечним вибором для конфіденційних сканів, як податкові декларації, контракти або медичні записи. Якщо хочеш перевірити, відкрий DevTools браузера і поспостерігай вкладку Network — під час самого OCR жоден запит не робиться (лише одне завантаження движка, що не несе жодних користувацьких даних).

Поради для кращої точності OCR

  • Скануй у 300 DPI. Нижче 200 DPI малі символи зливаються, і точність значно падає. 300 DPI — оптимальна точка між швидкістю і точністю.
  • Тримай сторінки прямо. Трохи нахилені скани (кілька градусів) це OK; сильно повернуті або спотворені сторінки — ні. Поверни PDF спочатку за потреби.
  • Використовуй рівномірне освітлення. Фото документів з телефону зі значними тінями або відблисками можуть збити движок з пантелику. Плоскі, рівномірно освітлені скани працюють найкраще.
  • Чорний текст на білому ідеальний. Кольорові фони і декоративні шрифти знижують точність. Стандартні шрифти основного тексту (Times, Helvetica, Arial) найлегші для OCR.

Часті запитання

Що таке OCR і коли він мені потрібен?

OCR розшифровується як Optical Character Recognition (Оптичне розпізнавання символів) — він перетворює пікселі сканованого документа на справжній текст. Якщо ти не можеш виділити текст у своєму PDF, перетягуючи по ньому, і Ctrl+F не повертає результатів, файл — це скановане зображення, і йому потрібен OCR, перш ніж ти зможеш шукати або копіювати.

Чи мій файл відправляється на ваші сервери?

Ні. OCR працює повністю у твоєму браузері завдяки Tesseract.js (WebAssembly-збірка open-source движка Tesseract). Твій PDF ніколи не залишає твого пристрою. Можеш перевірити сам, відкривши вкладку DevTools → Network під час виконання інструмента — жодного завантаження файлу не робиться, лише одне завантаження самого движка розпізнавання.

Які мови підтримуються?

Поточна версія розпізнає англійську (включно з числами, пунктуацією і більшістю поширених символів). Ми вибрали лише англійську для першої версії, бо кожна додана мова приблизно подвоює розмір завантаження OCR-моделі. Багатомовна підтримка у плані розвитку.

Який максимальний розмір файлу?

Інструмент приймає PDF до 50 МБ і до 50 сторінок. OCR інтенсивний за памʼяттю та CPU, і ці ліміти тримають досвід плавним на ноутбуках і телефонах середнього класу. Для більших сканів спочатку розділи документ нашим безкоштовним інструментом Розділити PDF і виконай OCR на кожній частині.

Наскільки точно?

На чистих сканах у 300 DPI зі стандартними шрифтами точність зазвичай 95–99%. Результати падають на сканах низької роздільності (нижче 200 DPI), почерк (Tesseract не створений для скоропису), сильно нахилені сторінки або дуже незвичайні шрифти. Якщо якість скану погана, переcкануй у вищому DPI і спробуй знову.

Чи можу я й далі читати і друкувати PDF нормально?

Так — вивід виглядає точно так само, як оригінал. Ми додаємо розпізнаний текст як невидимий шар за зображенням, тож сторінка рендериться ідентично, але текст стає виборним мишкою і пошуковим через Ctrl+F. Нічого у видимому документі не змінюється.

Що відбувається зі сторінками, що вже мають текст?

Сторінки з наявним текстовим шаром залишаються незайманими за замовчуванням — немає користі від повторного OCR. Якщо твій PDF — суміш сканованих і друкованих сторінок, ми обробляємо лише скановані. Можеш перевизначити це опцією, якщо хочеш примусити OCR на цілому файлі.

Чому перший запуск займає більше часу?

Першого разу, коли ти використовуєш OCR PDF, твій браузер завантажує движок Tesseract (близько 2 МБ WebAssembly) і модель розпізнавання англійської (близько 12 МБ). Вони кешуються у твоєму браузері, тож наступні запуски починаються за секунди.

Повʼязані інструменти