PDF OCR

PDF OCRオンライン — スキャンされたテキストを検索可能に

スキャンされたPDFを真に検索可能な文書に変換します。テキストが選択可能になり、Ctrl+Fが動作します — すべてブラウザでローカルに処理、何も送信されません。

スキャンされたPDFをここにドラッグ&ドロップ
または
最大:50 MB · 50ページ · お客様のファイルは端末を離れません

オンラインでPDF OCRを行う方法

PDFlunaでOCRを起動するのは1クリックで、すべてブラウザ内で行われます。インストールするものなし、作成するアカウントなし、リモートサーバーに送信されるファイルなし。完全な手順をステップバイステップで:

  1. スキャンされたPDFをインポート. インポートゾーンにスキャンされたPDFをドラッグ&ドロップするか、ファイル選択をクリックします。50 MBと50ページまでのファイルがサポートされます。
  2. PDFlunaが各ページを確認. すでに検索可能なテキスト層を持つページと画像のみのページを見つけるためにファイルをローカルに分析します。画像のみのページのみがOCRを必要とします。
  3. ブラウザでOCRを実行. OCR開始をクリックします。ツールはTesseract OCRエンジン(約14 MB、最初の使用後にキャッシュ)をダウンロードし、ページごとにテキストを認識します。
  4. 検索可能なPDFをダウンロード. 出力は元と同じに見えますが、テキストは選択可能、コピー可能、Ctrl+Fで検索可能になります。元のファイルは決して変更されません。

OCRとは何で、なぜ重要か?

紙の文書をスキャンしたり、電話で契約書を写真に撮ったりすると、結果のPDFは通常の意味での文書ではありません — PDFコンテナにラップされた画像のスタックです。実際のテキストはありません:単語をドラッグして選択しようとしても何もハイライトされず、Ctrl+Fで単語を検索しても何も見つからず、ブロックをコピーしても何も得られません。OCR(光学文字認識)はこれを修正します — 各ページを見て、文字の形を識別し、認識されたテキストを画像の後ろの不可視層としてファイルに書き戻します。

表示されるページは正確に同じままです — 同じスキャン、同じ品質、同じレイアウト。しかし今、PDFは検索可能、コピー可能、スクリーンリーダーにアクセス可能になりました。これがほとんどの人がメール、アーカイブ、ポータルへのアップロードに本当に必要なPDFフォーマットです。

PDFlunaがブラウザでどのようにOCRを実行するか

内部では、PDFlunaはTesseract.jsを使用します — Googleが維持するオープンソースTesseractエンジンのWebAssemblyビルド。エンジンと英語認識モデルは初回使用時にCDNからダウンロードされ(合計約14 MB)、その後ブラウザにキャッシュされるので、後続の実行は数秒で開始します。実際の処理はサーバーに触れません:

  • 事前スキャン。 PDF.jsでPDFを開き、各ページが既に実際のテキスト層を持っているかを確認します。持っているページはそのままにしておきます — 再OCRする利点はありません。
  • ラスタライズ。 OCRが必要な各ページが300 DPIでOffscreenCanvasにレンダリングされます — Tesseractが訓練された解像度。低すぎると小さなテキストが失われ、高すぎると精度の向上なしに処理が遅くなります。
  • 認識。 Tesseractが各単語を識別し、テキスト、信頼度、ピクセル座標のバウンディングボックスを返します。
  • オーバーレイ。 pdf-libを使用して各ページに不可視のテキスト層を追加し、各単語が画像に表示される正確な位置に配置されます。元のページコンテンツはバイト単位で保持されます。

オンラインでPDFをOCRするのは安全ですか?

PDFlunaでは、はい — 認識ステップで何も本当に「オンライン」ではないからです。ブラウザでページが読み込まれると、PDFは標準のFile APIを介してメモリに読み込まれ、お客様のマシンのJavaScriptとWebAssemblyで処理されます。アップロードせず、見ず、保存しません。これにより、PDFlunaは税申告書、契約書、医療記録などの機密スキャンに安全な選択肢となります。確認したい場合は、ブラウザのDevToolsを開いてネットワークタブを観察してください — OCR自体の間にリクエストは行われません(エンジンの単一のダウンロードのみで、ユーザーデータを運びません)。

より良いOCR精度のためのヒント

  • 300 DPIでスキャン。 200 DPI未満では小さな文字がぼやけ、精度が大幅に低下します。300 DPIは速度と精度の間のスイートスポットです。
  • ページをまっすぐに保つ。 わずかに歪んだスキャン(数度)はOK。非常に回転または歪んだページはNG。必要に応じて最初にPDFを回転してください。
  • 均一な照明を使用。 影や強い反射のある電話の文書写真はエンジンを混乱させる可能性があります。フラットで均一に照らされたスキャンが最もよく機能します。
  • 白い背景に黒いテキストが理想的。 カラフルな背景と装飾フォントは精度を低下させます。標準の本文フォント(Times、Helvetica、Arial)がOCRに最も簡単です。

よくある質問

OCRとは何で、いつ必要ですか?

OCRはOptical Character Recognition(光学文字認識)を意味します — スキャンされた文書のピクセルを真のテキストに変換します。PDFのテキストをドラッグして選択できず、Ctrl+Fが結果を返さない場合、ファイルはスキャンされた画像で、検索またはコピーする前にOCRが必要です。

ファイルはあなた方のサーバーに送信されますか?

いいえ。OCRはTesseract.js(オープンソースTesseractエンジンのWebAssemblyビルド)のおかげで完全にブラウザ内で動作します。PDFは端末を離れません。ツール実行中にDevToolsの「ネットワーク」タブを開いて自分で確認できます — ファイルアップロードは行われず、認識エンジン自体の単一のダウンロードのみです。

どの言語がサポートされていますか?

現在のバージョンは英語を認識します(数字、句読点、ほとんどの一般的なシンボルを含む)。各追加言語がOCRモデルのダウンロードサイズをほぼ倍増するので、最初のバージョンには英語のみを選択しました。多言語サポートはロードマップにあります。

最大ファイルサイズは?

ツールは50 MBと50ページまでのPDFを受け付けます。OCRはメモリとCPUを集中的に使用し、これらの制限は中位のラップトップと電話で体験を流暢に保ちます。より大きなスキャンの場合、最初に当方の無料PDF分割ツールで文書を分割し、各部分でOCRを実行してください。

どのくらい正確ですか?

300 DPIで標準フォントのクリーンなスキャンの場合、精度は通常95〜99%です。低解像度スキャン(200 DPI未満)、手書き(Tesseractは筆記体用に設計されていない)、非常に歪んだページ、または非常に珍しいフォントでは結果が低下します。スキャン品質が悪い場合、より高いDPIで再スキャンして再試行してください。

PDFを通常通り読んだり印刷したりできますか?

はい — 出力は元と正確に同じに見えます。認識されたテキストを画像の後ろに不可視層として追加するので、ページは同じにレンダリングされますがテキストはマウスで選択可能、Ctrl+F経由で検索可能になります。表示される文書では何も変わりません。

すでにテキストがあるページはどうなりますか?

既存のテキスト層を持つページはデフォルトでそのまま残されます — 再OCRする利点はありません。PDFがスキャンされたページと入力されたページの混合の場合、スキャンされたものだけを処理します。ファイル全体でOCRを強制したい場合、オプションでこれをオーバーライドできます。

初回実行はなぜ長くかかりますか?

PDF OCRを初めて使うとき、ブラウザはTesseractエンジン(約2 MBのWebAssembly)と英語認識モデル(約12 MB)をダウンロードします。これらはブラウザにキャッシュされるので、後続の実行は数秒で開始します。

関連ツール