OCR & Reconnaissance de Formes. Spielberg Solutions GmbH Version 9 Retrieval
Manuel de l’utilisateur
OCR & Reconnaissance de Formes
OCR & Reconnaissance de
Formes
OCR & Reconnaissance de Formes
Page 158
Manuel de l’utilisateur
Introduction
Introduction
L'indexation OCR (Reconnaissance Optique de Caractères) est une option de ScanFile. Elle se compose de deux méthodes distinctes : OCR Plein texte et Reconnaissance de Zones.
La reconnaissance en texte intégral crée une base de données de recherche, permettant de trouver les pages des documents dans lesquels des mots spécifiques apparaissent. Des documents électroniques contenant le texte et des documents COLD peuvent également être lu. Les données
COLD étant déjà basé texte, la lecture de texte intégral est très rapide et fiable.
La reconnaissance de zone permet de lire certaines zones d'un document et d'inscrire les résultats obtenus par l’OCR dans les champs de répertoire.
L'option Reconnaissance de Formes travaille dans la conjonction avec l'option de zone OCR de ScanFile. Son but est de reconnaître une forme au moyen des ident ificateurs définis puis d’indexer des documents avec les données lues dans le contenu des zones qui ont été créées pour chaque forme.
Depuis la version de ScanFile 7.3, l'option Reconnaissance de Formes inclut le support pour les feuilles de séparation de lot. Selon les besoins, veuillez vous reporter au chapitre pour l'information sur la façon de configurer et d’utiliser celles-ci.
Reconnaissance Plein texte
En utilisant cette option, chaque page numérisée d'un répertoire ScanFile est lue puis les mots reconnus sont sauvegardés dans une base de données.
Cette base de données est jointe au répertoire et tout utilisateur ScanFile peut y lancer des recherches.
Vous N'AVEZ PAS besoin du module OCR pour effectuer une Recherche
Plein texte. Vous avez seulement besoin du module OCR pour exécuter à reconnaissance en premier lieu.
Pour exécuter une reconnaissance plein texte, ouvrir le répertoire concerné et cliquez sur le menu OCR -> Reconnaissance plein texte.
Vous pouvez choisir si vous souhaitez lire avec l’OCR toutes les pages dans le dossier ou juste les nouvelles pages
– les pages ajoutées depuis la dernière reconnaissance OCR.
OCR & Reconnaissance de Formes
Page 159
Manuel de l’utilisateur
Reconnaissance Plein texte
Une fois la reconnaissance démarrée, le progrès peut être constaté.
L'information affichée inclut une proportion de reconnaissance, montrant la fiabilité perçue du processus. Évidemment, l'identification OCR aura des problèmes avec des documents de mauvaise qualité, assurez vous toujours que les documents pour être lu par l’OCR sont de qualité convenable. Il est aussi recommandé de les avoir numérisés avec une définition minimum de
300x300dpi pour les meilleurs résultats.
Lecture de Documents ou de Pages sélectionnés
Le processus décrit ci-dessus permet d'effectuer une OCR sur l'ensemble des pages contenues dans un répertoire, ou sur les pages ajoutées à un répertoire depuis la toute dernière lecture OCR plein texte effectuée.
Alternativement, vous pouvez effectuer une lecture OCR sur des pages individuelles ou sélectionnées d'un document, ou sur des documents uniques ou spécifiques d'un répertoire. Pour effectuer une lecture OCR dans des enregistrements ou sur des pages, utilisez OCR du menu Options qui s'affiche lorsque l'on clique avec le bouton droit de la souris sur la fenêtre respective.
Windows Description
Fenêtre de la Liste de Sélections Enregistrements(s) sélectionnée(s)
Fenêtre d’affichage
Page affichée
Fenêtre imagettes/vue globale Page(s) sélectionnée(s)
Page 160
OCR & Reconnaissance de Formes
Manuel de l’utilisateur
Reconnaissance Plein texte
Edition de la liste de mots
Lorsque vous effectuez une lecture OCR Plein texte, il y a toujours certains mots que vous ne souhaitez pas voir figurer dans la recherche et qui ne font qu'occuper de l'espace au sein de la base de données de l’OCR. Ces mots correspondent généralement à des mots tels que "ce", "cet", "cette", "le", "la",
"les", "et", etc. Il est possible de paramétrer la recherche de façon à ce que ces mots soient ignorés, en éditant la liste de mots de l’OCR, avec l’option
Corriger le glossaire du menu OCR. Par défaut cette liste de mots est vide et aucun mot du texte lu n'est filtré.
Comment exécuter une recherche en texte intégral est décrit dans le chapitre Recherche et visualisation des Documents.
OCR & Reconnaissance de Formes
Page 161
Manuel de l’utilisateur
Reconnaissance de Zone
Reconnaissance de Zone
Cette option vous permet de spécifier les parties d'un document qui devront
être lus par l’OCR, ainsi que les résultats qui devront être saisis dans des champs spécifiques à l'intérieur du répertoire. Jusqu'à dix zones différentes peuvent être définies et liées à des champs de la base de données.
Création de zones
Pour définir des zones de reconnaissance, sélectionnez l'option Réglage
des zones figurant dans le menu "OCR". L'écran ci-dessous s'affiche alors, ainsi que la première page du premier document de la liste de recherche active.
Vous pouvez naviguer parmi les documents du répertoire en utilisant les outils mis à votre disposition, jusqu'à ce que la page sur laquelle vous souhaitez définir des zones de reconnaissance s'affiche.
Veuillez noter que l'opération de reconnaissance de zone est toujours effectuée sur la PREMIERE page d'un fichier.
Pour être sûr que lorsque vous délimitez la zone, c'est bien la bonne partie de la page qui est prise en compte, vous pouvez réaliser un zoom et
Page 162
OCR & Reconnaissance de Formes
Manuel de l’utilisateur
Reconnaissance de Zone effectuer des rotations de l'image à l'intérieur de la fenêtre d'affichage. Après avoir affiché la partie de la page sur laquelle vous souhaitez créer une zone de reconnaissance, un click droit sur
Champs d’indexation de OCR sous
Formes non reconnues et sélectionnez Ajouter champ.
Un curseur en forme de fils croisés s'affiche alors dans la fenêtre d'affichage d'image. En déplaçant ce curseur vers le début de la zone et en maintenant le bouton de la souris enfoncé pendant que vous étirez, vous pouvez définir la zone.
L'exemple figurant ci-dessous montre que plusieurs zones ont déjà été créées. Assurez-vous toujours qu'il existe suffisamment d'espace autour de chaque zone pour compenser les petites différences et le biaisement qui apparaissent au cours du processus de numérisation.
La zone a été définie une fois que vous avez relâché le bouton de la souris.
Alors vous pouvez rapprocher la zone d'un champ particulier dans le dossier.
OCR & Reconnaissance de Formes
Page 163
Manuel de l’utilisateur
Reconnaissance de Zone
En plus des champs de Répertoire, une zone peut être associée au Memo pour chaque document. Depuis cette fenêtre, vous pouvez également spécifier les caractères autorisés pour ce champ:
Option
Tout caractère
Nombres & Prix
Description
combinaison de n'importe quel caractère du clavier, y compris les signes de ponctuation etc.… combinaison des nombres et des symboles monétaires comme £ ou $ ou de date.
Nombres Seulement doit être employé si les caractères sont des caractères numériques seulement.
Caractères Seulement Employé si les caractères sont des lettres uniquement.
Majuscules Seulement Employé si les caractères sont des lettres majuscules uniquement.
Minuscules Seulement Employé si les caractères sont des lettres minuscules uniquement.
Code- barre Employé si les caractères sont des Code barres.
Veuillez noter, le format de Code barre doit être sélectionnés à l'avance dans le menu Options->
Sélectionner le code à barres
Pour plus d’informations, voir le chapitre Code à
Barres
Cases à cocher
Elément graphique
Employé pour déterminer un nombre de valeurs avec des cases à cocher comme sur des formulaires d’enquêtes. Des informations complémentaires sont données plus loin dans ce chapitre.
(Uniquement pour l’Identifier) Employé si l’identifier est un graphique ou une image sur la forme. Ceci peut être utilisé si l’identifier est un logo société par exemple.
Le choix des caractères autorisés pour une zone augmente la fiabilité des résultats de la lecture d'OCR. Si vous assignez Nombres uniquement à un
Page 164
OCR & Reconnaissance de Formes
Manuel de l’utilisateur
Reconnaissance de Zone champ, la quantité de caractères possibles est significativement réduite et un zéro ne sera pas pris comme un O.
Les options Code à Barres, Cases à cocher et Elément Graphique sont des fonctions étendues. Elles sont nécessaires pour la lecture des codes à barres et la reconnaissance de formes. La configuration et l’utilisation de la reconnaissance des Codes à barres est décrit dans le chapitre Codes à
Barres. La reconnaissance de forme est décrite plus loin dans ce chapitre.
L’option Reconnaissance Matricielle aidera dans la lecture de documents imprimés effacés ou matriciels.
Après la définition d’une zone, elle peut être éditée à n'importe quel moment en cliquant avec le bouton droit sur le champ d'index correspondant et en choisissant Modifier. Cela vous permet de redimensionner la zone et de changer l'association des champs et les paramètres du contenu.
Les zones peuvent être supprimées en cliquant avec le bouton droit sur le nom des champs dans les champs d'Index et choisissant l'option Effacer.
Assurez que la zone est assez grande pour compenser les différences de taille des pages scannées.
Quand toutes les zones requises ont été créées, la lecture de la Zone OCR peut être démarrée. Comme avec la lecture OCR plein texte la lecture peut
être sélectionnée entre Lire toutes les pages ou Lire les nouvelles pages.
Lire toutes les pages ou les nouvelles pages
Pour exécuter la reconnaissance de zone, ouvrez un répertoire puis depuis le menu OCR, choisissez Reconnaissance de Zone.
L’option Lire toutes les pages effectuera la lecture de toutes les pages dans le répertoire
. L’option Lire les nouvelles pages effectuera la lecture des pages qui ont été ajoutées au répertoire depuis la dernière reconnaissance effectuée.
Lecture de Documents ou de Pages sélectionnés
Vous pouvez effectuer une lecture OCR sur des pages individuelles ou sélectionnées d'un document, ou sur des documents uniques ou spécifiques d'un répertoire. Pour effectuer une lecture OCR dans des enregistrements ou sur des pages, utilisez OCR du menu Options qui s'affiche lorsque l'on clique avec le bouton droit de la souris sur la fenêtre respective.
Veuillez noter que l'opération de reconnaissance de zone est toujours effectuée sur la PREMIERE page d'un fichier.
OCR & Reconnaissance de Formes
Page 165
Manuel de l’utilisateur
Reconnaissance de Formes
Reconnaissance de Formes
Cette option fonctionne en parallèle à l'option de zone OCR de ScanFile. Son but est d'identifier une forme de marque définie puis d’enregistrer l’indexation avec les données lues dans les zones qui ont été créées pour chaque forme.
La Zone OCR normale appliquera la zone définie depuis le container All
unknown Forms pour chaque page. Ce n'est pas un problème si vous avez seulement un type de document par dossier. Mais si vous sauvegardez différents types de documents, vous avez besoin d'un jeu différent de zones par document. Cela peut être réalisé en utilisant l'option ScanFile
Reconnaissance de forme.
La reconnaissance de Formes vous permet de spécifier des identificateurs pour un document, donnant à ScanFile l'occasion d'identifier un document et d’appliquer les zones appartenant à un type de document précis. Les identificateurs sur une forme peuvent être des graphiques ou des images, comme un logo de société par exemple, ou un texte d'identificateur unique.
Configuration d’une Forme
La première partie du processus de reconnaissance de formes consiste à configurer les zones sur les différentes formes qui doivent être identifiées et indexées. Pour le faire vous devez d'abord scanner quelques bons exemples des formes dans un répertoire ScanFile. Puis, commencer la configuration des zones en choisissant Réglage des Zones depuis le menu OCR sur l’écran principal de ScanFile, l'écran de configuration que vous connaissez déjà pour l’avoir utiliser pour le réglage des zones d'OCR sera affiché.
Pour créer une forme vous devez d’abord cliquez avec le bouton droit de la souris sur All unknown Forms, et sélectionner Ajouter une forme. Donner un nom à la nouvelle forme, ce apparaîtra dans l'arborescence d’OCR à droite de la fenêtre d'installation. En outre dans cette arborescence, sous ce nom, apparaîtra trois nouvelles options expliquées ci-dessous.
Champs d’Index
Après la création d'une nouvelle forme, les zones pour les champs d'index peuvent être créées. Les zones sont configurées de la même manière que dans la fenêtre Création de Zone. Pour plus d'information voir plus haut dans ce chapitre.
Page 166
OCR & Reconnaissance de Formes
Manuel de l’utilisateur
Cases à Cocher (OMR)
Identifiant de formes
L’identifiants de Forme est un élément d'une forme qui la distingue des autres formes, de sorte que la Reconnaissance de formes puisse faire la différence entre plusieurs types de documents qui pourraient être numérisés dans un répertoire.
Pour créer un identifiant, cliquez avec le bouton droit de la souris sur
identifiants de formes et sélectionnez Ajouter un identifiant. Identique à la création de zone, une croix apparaîtra à la place du curseur, utiliser cette croix pour dessiner un rectangle autour de l’identification que vous souhaitez employer. Une fois le bouton de la souris relâché une fenêtre apparaît vous demandant quel identifiant vous souhaitez utiliser, la sélection faite ici dépend du type d’identifiant que vous utiliserez pour cette forme.
Si vous sélectionnez l’une de ces options, à l’exceptions des Code à barres,
Case à cocher et Elément graphique, vous devez saisir dans Identifiant
texte le texte qui devra être utilisé comme Identifiant de forme, et le format qui doit être employé. Par exemple si l’identification est un nombre de forme
12345 vous sélectionnez Chiffres seulement et puis saisissez dans 12345 dans la boîte de texte d’identification.
Une fois que les Identifiants ont été installées il est possible de tester la fiabilité de la Reconnaissance de formes en cliquant sur le bouton Tester
la reconnaissance. Ceci fournira un pourcentage de reconnaissance pour cette forme. Il devrait renvoyer un résultat de 100% pour la forme utilisée, toutefois, vous devez trouver des résultats différents pour les autres formes déjà configurées.
Mots- clés
Pour accélérer la recherche il possible d’ajouter des Mots-clés à une forme.
Faire click droit avec la souris sur Mots-clés et sélectionnez Ajouter un
mot-clé. Une liste de Mots-clés apparaîtra, choisissez le Mot-clé que vous souhaitez ajouter puis cliquez sur OK. Répétez ceci pour chaque mot clé que vous souhaitez ajouter.
Veuillez noter qu'une liste de mot-clé doit déjà être utilisée dans le répertoire avant d’essayer de l’utiliser pour la création de formes.
Cases à Cocher (OMR)
Une autre option de la Reconnaissance de formes est la Reconnaissance
des Cases à Cocher, et est employé pour déterminer un certain nombre de valeurs sur des formes utilisant des cases à cocher telles que des enquêtes
OCR & Reconnaissance de Formes
Page 167
Manuel de l’utilisateur
Cases à Cocher (OMR) de satisfaction. Ces valeurs peuvent alors être utilisées comme Index, une fois la Reconnaissance de formes exécutée.
Pour configurer la reconnaissance de Cases à Cocher vous devez d'abord numériser une forme utilisant des cases à cocher afin de préparer les zones de cases à cocher pour la reconnaissance. Une fois que vous avez numérisé la page, sélectionnez OCR-> Réglage des zones. De puis l’arborescence
OCR dans la fenêtre Réglage des Zones, faire un clic droit sur champ d’index et sélectionnez Ajouter champs.
Dessinez un rectangle avec le curseur en forme de croix autour de la case à cocher que vous souhaitez reconnaitre. Une fois le bouton de la souris relâché une fenêtre apparaît vous demandant à quel champ Index du répertoire vous souhaitez relier l'information, sélectionner également Case à
Cocher. Pour ajuster les réglages pour valider comment l'information d'index est entrée, cliquez sur la boîte
'...’. Un certain nombre de choix par défaut pour l'indexation est affiché :
Option
Marquée
Description
détermine l'information d'indexation qui est inscrite si une case à cocher est marquée.
Non Marquée détermine l'information d'indexation qui est inscrite si une case à cocher n'est pas marquée.
Séparateur détermine le séparateur qui est inscrit entre les valeurs d'indexation dans la Liste de Sélections.
Marquée et Non Marquée ont un certain nombre de paramètres qui peuvent
être inscrits comme information d'indexation : Oui et Non, Vrai et Faux, Sur &
Coupé et mots-clés. Il est possible de saisir manuellement le texte que vous voulez utiliser comme Index.
Avec la sélection Séparateur, vous spécifiez le caractère qui séparera des entrées d'index multiples dans un champ d'index. Vous pouvez choisir des caractères prédéterminés, mais vous avez aussi la possibilité d'entrer votre propre séparateur.
Une fois terminé, exécuter une identification de zone depuis le menu OCR et les champs d'index seront remplis.
Page 168
OCR & Reconnaissance de Formes
Manuel de l’utilisateur
Propriétés
Propriétés
Au dessus même de l'arborescence OCR dans la fenêtre Configuration de
zones vous trouverez trois options :
Option
Référence
Description
La référence est le paramètre qui détermine si une forme sera reconnue. Quand vous exécutez le test de reconnaissance le pourcentage obtenu sera comparé à celui inscrit en Référence.
Exemple: Si la référence est placée à 60 toutes les formes dont le pourcentage de reconnaissance est supérieur ou égal seront acceptées les autres rejetées.
Ce paramètre redressera toutes les images scannées pour faciliter l’OCR.
Correction de travers
Elimination des bords
Ce paramètre enlèvera les bordures qui peuvent apparaître sur le document scanné.
Base de données Formes
Les formes avec la configuration des champs d'index appropriés et les identificateurs sont stockées dans une base de données de formes. La base de données de formes par défaut est stockée dans le chemin de l'application
ScanFile comme fichier default.sff. Le fichier est affiché au-dessus de l'arborescence OCR dans la fenêtre Réglage des Zones. Tous les changements à la base de données de formes seront sauvegardés en cliquetant sur OK.
OCR & Reconnaissance de Formes
Page 169

Link público atualizado
O link público para o seu chat foi atualizado.