Reconnaissance du texte d'un document numérisé

Vous pouvez utiliser Acrobat pour reconnaître le texte d'un document numérisé au préalable et converti au format PDF.

Ouvrez le fichier PDF numérisé.
Choisissez Document > Reconnaissance de texte > Reconnaissance du texte par OCR.
Dans la boîte de dialogue Reconnaissance du texte, sélectionnez une option dans la zone Pages.
(Facultatif) Cliquez sur Modifier pour ouvrir la boîte de dialogue Reconnaissance du texte - Paramètres, puis sélectionnez les options voulues.

Reconnaissance du texte - Paramètres

Le logiciel de reconnaissance de caractère (OCR) vous permet d'indexer, de corriger et de copier le texte d'un document PDF numérisé. Si vous n'appliquez par l'OCR lors de la création d'un PDF à partir d'un document papier numérisé, il est possible de le faire ultérieurement à condition d'avoir défini une résolution de numérisation de 72 ppp ou plus.

Langue d'OCR principale

Détermine la langue que le moteur OCR doit utiliser pour identifier les caractères.

Style de sortie PDF

Détermine le type de fichier PDF à produire. Toutes les options disponibles requièrent une résolution de 72 ppp ou plus (recommandé). Tous les formats appliquent aux images de texte la reconnaissance optique des caractères (OCR), la reconnaissance des polices et celle des pages, puis les convertissent en texte normal.

Image indexable: Rend le texte compatible avec la recherche et sélectionnable. Cette option conserve l'image d'origine, applique un redressement selon les besoins et insère un calque de texte invisible. L'option choisie pour le paramètre Sous-échantillonner les images dans cette même boîte de dialogue indique si l'image est ou non sous-échantillonnée et le niveau de sous-échantillonnage.
Image indexable (exacte): Rend le texte compatible avec la recherche et sélectionnable. Cette option conserve l'image d'origine et insère un calque de texte invisible (recommandée lorsque l'image doit être la plus fidèle possible à l'image d'origine).
Texte formaté et images: Reconstruit la page originale grâce à la reconnaissance du texte, des polices et d'autres éléments graphiques. La précision du résultat dépend de la résolution d'impression, entre autres facteurs. Après numérisation, il peut s'avérer nécessaire de revoir et corriger le texte reconnu par OCR dans la nouvelle page PDF.

La numérisation en noir et blanc à 300 ppp permet d'obtenir la meilleure qualité de texte à convertir. A 150 ppp, la précision d'OCR est légèrement inférieure, avec davantage d'erreurs de reconnaissance des polices. Si vous souhaitez numériser un texte imprimé sur du papier couleur, augmentez la luminosité et le contraste d'environ 10 %. Si le scanner reconnaît le filtrage des couleurs, pensez à utiliser un filtre ou un éclairage qui élimine la couleur d'arrière-plan.

Sous-échantillonner les images

Réduit le nombre de pixels des images couleur, en niveaux de gris et monochromes suite à la reconnaissance de caractères. Choisissez le degré de sous-échantillonnage qui vous convient. Les options les plus élevées produisent un sous-échantillonnage moindre, et donc des fichiers PDF de résolution supérieure.