OCR PDF en ligne — rendez le texte numérisé cherchable
Transformez un PDF numérisé en un véritable document cherchable. Le texte devient sélectionnable et Ctrl+F fonctionne — tout est traité localement dans votre navigateur, rien n'est téléversé.
Comment faire un OCR PDF en ligne
Lancer un OCR avec PDFluna prend un clic et se passe entièrement dans votre navigateur. Rien à installer, aucun compte à créer, et aucun fichier n'est envoyé à un serveur distant. Voici la procédure complète, étape par étape :
- Importez votre PDF numérisé. Glissez-déposez un PDF numérisé sur la zone d'import, ou cliquez sur Choisir un fichier. Les fichiers jusqu'à 50 Mo et 50 pages sont pris en charge.
- PDFluna vérifie chaque page. Nous analysons le fichier localement pour trouver les pages qui ont déjà une couche de texte cherchable par rapport aux pages qui ne sont que des images. Seules les pages images-uniquement nécessitent OCR.
- Lancez OCR dans votre navigateur. Cliquez sur Lancer OCR. L'outil télécharge le moteur OCR Tesseract (environ 14 Mo, mis en cache après la première utilisation) et reconnaît le texte page par page.
- Téléchargez votre PDF cherchable. La sortie ressemble à l'original mais le texte est maintenant sélectionnable, copiable et cherchable avec Ctrl+F. Votre fichier original n'est jamais modifié.
Qu'est-ce que l'OCR et pourquoi est-ce important ?
Quand vous numérisez un document papier ou photographiez un contrat avec votre téléphone, le PDF résultant n'est pas un document au sens habituel — c'est une pile d'images enveloppées dans un conteneur PDF. Il n'y a pas de vrai texte à l'intérieur : si vous essayez de glisser-sélectionner un mot, rien ne se surligne ; si vous cherchez un mot avec Ctrl+F, rien n'est trouvé ; si vous copiez un bloc, vous n'obtenez rien. L'OCR (Reconnaissance Optique de Caractères) corrige cela en regardant chaque page, identifiant les formes des lettres, et réécrivant le texte reconnu dans le fichier comme couche invisible derrière l'image.
La page visible reste exactement la même — même numérisation, même qualité, même mise en page. Mais maintenant le PDF est cherchable, copiable et accessible aux lecteurs d'écran. C'est le format PDF que la plupart des gens veulent vraiment envoyer par e-mail, archiver ou téléverser sur un portail.
Comment PDFluna exécute OCR dans votre navigateur
Sous le capot, PDFluna utilise Tesseract.js, une compilation WebAssembly du moteur Tesseract open source maintenu par Google. Le moteur et son modèle de reconnaissance anglais sont téléchargés depuis un CDN la première fois que vous utilisez l'outil (environ 14 Mo au total) puis mis en cache dans votre navigateur, donc chaque exécution suivante démarre en quelques secondes. Le traitement réel ne touche jamais un serveur :
- Prescan. Nous ouvrons le PDF avec PDF.js et inspectons chaque page pour voir si elle a déjà une vraie couche de texte. Les pages qui en ont sont laissées tranquilles ; aucun bénéfice à les re-OCR.
- Rastérisation. Chaque page nécessitant l'OCR est rendue sur un
OffscreenCanvasà 300 DPI — la résolution sur laquelle Tesseract est entraîné. Trop bas et le petit texte est perdu ; trop haut et le traitement ralentit sans gain de précision. - Reconnaissance. Tesseract identifie chaque mot, retournant son texte, sa confiance et sa boîte englobante en coordonnées pixel.
- Superposition. Nous utilisons pdf-lib pour ajouter une couche de texte invisible sur chaque page, avec chaque mot positionné exactement où il apparaît dans l'image. Le contenu original de la page est préservé octet par octet.
Est-il sûr de faire OCR sur un PDF en ligne ?
Avec PDFluna, oui — parce que rien n'est réellement « en ligne » dans l'étape de reconnaissance. Une fois la page chargée dans votre navigateur, le PDF est lu en mémoire avec l'API File standard et traité avec JavaScript et WebAssembly sur votre propre machine. Nous ne le téléversons jamais, ne le voyons jamais et ne le stockons jamais. Cela fait de PDFluna un choix sûr pour les numérisations confidentielles comme les déclarations fiscales, contrats ou dossiers médicaux. Si vous voulez vérifier, ouvrez les DevTools du navigateur et observez l'onglet Réseau — aucune requête n'est faite pendant l'OCR lui-même (seulement le téléchargement unique du moteur, qui ne charge aucune donnée utilisateur).
Astuces pour une meilleure précision OCR
- Numérisez à 300 DPI. En dessous de 200 DPI, les petits caractères se brouillent ensemble et la précision baisse fortement. 300 DPI est le sweet spot pour vitesse et précision.
- Gardez les pages droites. Les numérisations légèrement inclinées (quelques degrés) sont OK ; les pages fortement pivotées ou déformées non. Pivotez le PDF d'abord si nécessaire.
- Utilisez un éclairage uniforme. Les photos de téléphone de documents avec ombres ou reflets importants peuvent perturber le moteur. Les numérisations plates et uniformément éclairées fonctionnent le mieux.
- Texte noir sur blanc est idéal. Les fonds colorés et polices décoratives réduisent la précision. Les polices de corps standard (Times, Helvetica, Arial) sont les plus faciles pour l'OCR.
Questions fréquentes
Qu'est-ce que l'OCR et quand en ai-je besoin ?
OCR signifie Optical Character Recognition (Reconnaissance Optique de Caractères) — il transforme les pixels d'un document numérisé en véritable texte. Si vous ne pouvez pas sélectionner le texte de votre PDF en glissant dessus, et que Ctrl+F ne renvoie aucun résultat, le fichier est une image numérisée et nécessite l'OCR avant de pouvoir y rechercher ou copier.
Mon fichier est-il téléversé sur vos serveurs ?
Non. L'OCR s'exécute entièrement dans votre navigateur grâce à Tesseract.js (une compilation WebAssembly du moteur Tesseract open source). Votre PDF ne quitte jamais votre appareil. Vous pouvez le vérifier vous-même en ouvrant l'onglet DevTools → Réseau pendant l'exécution de l'outil — aucun téléversement de fichier n'est fait, seulement un téléchargement unique du moteur de reconnaissance lui-même.
Quelles langues sont prises en charge ?
La version actuelle reconnaît l'anglais (y compris les nombres, la ponctuation et la plupart des symboles courants). Nous avons choisi seulement l'anglais pour la première version parce que chaque langue ajoutée double approximativement la taille de téléchargement du modèle OCR. La prise en charge multilingue est dans la feuille de route.
Quelle est la taille maximale de fichier ?
L'outil accepte les PDF jusqu'à 50 Mo et jusqu'à 50 pages. L'OCR est intensif en mémoire et en CPU, et ces limites maintiennent l'expérience fluide sur les ordinateurs portables et téléphones de milieu de gamme. Pour les plus grandes numérisations, divisez d'abord le document avec notre outil gratuit Diviser PDF et faites l'OCR de chaque partie.
Quelle est la précision ?
Sur des numérisations propres à 300 DPI avec des polices standard, la précision est typiquement de 95 à 99 %. Les résultats baissent sur les numérisations basse résolution (sous 200 DPI), l'écriture manuscrite (Tesseract n'est pas conçu pour la cursive), les pages fortement inclinées ou les polices très inhabituelles. Si la qualité de numérisation est mauvaise, re-numérisez à un DPI plus élevé et réessayez.
Puis-je toujours lire et imprimer le PDF normalement ?
Oui — la sortie a exactement le même aspect que l'original. Nous ajoutons le texte reconnu comme couche invisible derrière l'image, donc la page se rend identiquement mais le texte devient sélectionnable à la souris et cherchable via Ctrl+F. Rien dans le document visible ne change.
Que se passe-t-il pour les pages qui ont déjà du texte ?
Les pages avec une couche de texte existante sont laissées intactes par défaut — pas d'intérêt à les re-OCR. Si votre PDF est un mélange de pages numérisées et tapées, nous ne traitons que les numérisées. Vous pouvez surcharger cela avec une option si vous voulez forcer l'OCR sur tout le fichier.
Pourquoi la première exécution prend-elle plus de temps ?
La première fois que vous utilisez OCR PDF, votre navigateur télécharge le moteur Tesseract (environ 2 Mo de WebAssembly) et le modèle de reconnaissance anglais (environ 12 Mo). Ils sont mis en cache dans votre navigateur, donc les exécutions suivantes démarrent en quelques secondes.