13 conseils pour relever les défis posés par la dématérialisation cognitive des documents en matière de productivité

December 10, 2019 | By Ryan Bazler

Bienvenue dans le cinquième billet de blog de notre série en six parties consacrée aux nouveautés en matière de capture multicanale des documents et de technologie de reconnaissance optique des caractères (Optical Character Recognition, OCR) intelligente.  Nous étudions comment l’intelligence artificielle (IA) a transformé le champ des possibles en mettant les documents et les données à votre service alors qu’ils étaient auparavant perçus comme une charge.


Dans la 
première partie, nous avons expliqué comment l’automatisation robotisée des processus (Robotic Process Automation, RPA) a marqué un véritable tournant en offrant aux entreprises les moyens de répondre aux problèmes liés aux tâches manuelles centrées sur les données, sans toutefois parvenir à automatiser le traitement des documents de façon rel="noopener noreferrer" efficace. Dans rel="noopener noreferrer" la deuxième partie, nous nous sommes penchés sur l’émergence de la dématérialisation cognitive des documents (Cognitive Document Automation, CDA), qui prend en charge les « tâches intellectuelles » visant à comprendre le sujet abordé, les renseignements fournis rel="noopener noreferrer" et les actions requises. Dans la troisième partie nous avons approfondi le sujet en indiquant les caractéristiques à rechercher dans une solution CDA. (Pour information : une fonction OCR seule ne suffit pas.) Enfin, dans la quatrième partie, nous nous sommes efforcés de répondre à la question suivante : comment évaluer la réussite de la CDA ?

 

Dans la cinquième partie, nous nous penchons sur les défis auxquels les clients de la RPA sont confrontés lors de la mise en œuvre des solutions CDA et de l’optimisation de la productivité des utilisateurs. (Pour rappel, le calcul de la productivité des utilisateurs est basé sur la précision et l’efficacité : consultez la quatrième partie de la série si vous avez besoin de vous rafraîchir la mémoire.)

 

Malgré tous les avantages que vous pouvez tirer des solutions CDA, vous n’êtes pas à l’abri de rencontrer des écueils et de vous confronter aux limites de certaines d’entre elles. Voici les difficultés les plus fréquemment rencontrées et nos conseils pour les surmonter avant de vous lancer. Nous vous recommandons de vous assurer que la solution CDA que vous choisissez répond bien à chacun des défis ci-dessous.

13 conseils pour relever les défis posés par la CDA en matière de productivité :

 

  1. Source des images

    La source a une incidence sur la qualité de l’image, et donc sur le degré de précision des étapes de classification et d’extraction. À titre d’exemple, un fax propose par nature une qualité d’image plus faible qu’un fichier PDF au format d’origine électronique envoyé par e-mail. Les scanners offrent un niveau de qualité variable en fonction du fournisseur et du modèle.

  2. Type de fichier image et résolution

    Certains types de fichier image ont une qualité intrinsèque supérieure aux autres. Les fichiers GIF à 300 ppp sont les plus courants, mais les entreprises n’ont souvent aucun contrôle sur les types de fichier provenant de sources externes. Les images ayant une moins bonne résolution afficheront des taux de précision inférieurs en termes de classification et d’extraction (300 ppp est la résolution idéale).

  3. Qualité d’image

    Les solutions CDA n’échappent pas à la règle : si la qualité d’entrée est mauvaise, la qualité de sortie le sera également. Les images transmises par fax à plusieurs reprises, les images provenant des téléphones mobiles qui présentent un problème d’orientation, d’inclinaison, de netteté, de contraste avec l’arrière-plan ou d’éclairage, les documents monochromes numérisés ou encore les documents portant des cachets, des annotations indéchiffrables et des taches... nuisent évidemment à la précision de classification et d’extraction. Les images acquises par les solutions CDA doivent faire l’objet d’un traitement et d’un perfectionnement avant d’être soumises au processus automatisé de classification et d’extraction, de façon à garantir la meilleure précision possible.

  4. Collecte de documents

    Le nombre d’exemples et le degré de similitude avec les documents réels ont également une incidence sur la précision. En règle générale, il vaut mieux alimenter la solution CDA avec un maximum d’exemples lors de la phase d’apprentissage automatique. Selon le type de document, plusieurs centaines de spécimens peuvent s’avérer nécessaires et ces derniers doivent refléter au mieux la « réalité » observée en environnement de production.

  5. Formulaires structurés

    Les formulaires structurés affichent généralement le meilleur taux de précision lors des étapes de classification et d’extraction et l’apprentissage requiert un nombre minimal d’exemples. Toutefois, la conception du formulaire a une incidence majeure sur la précision : espacement entre les champs, nature des cases, ombrage (le cas échéant). Si vous êtes l’auteur du formulaire, vous pouvez optimiser son agencement pour favoriser son traitement automatisé.

  6. Documents semi-structurés

    Les documents semi-structurés (factures, bons de commande, connaissements) affichent généralement un taux de précision inférieur. Les solutions CDA peuvent adopter différentes approches, plus ou moins fiables, pour localiser les données pertinentes et les extraire avec succès. En outre, ces documents comportent souvent des tableaux intégrés (postes de facturation, par exemple), des tableaux multiples ou des tableaux multiniveaux qui se prêtent moins facilement à l’extraction que les champs classiques.

  7. Documents non structurés

    Les documents non structurés comme les e-mails (le corps du texte), la correspondance et les contrats sont les plus complexes à classer et à extraire automatiquement. Ces dernières années, les technologies IA comme le traitement du langage naturel ont amélioré la précision d’extraction de ce type de contenu.

  8. Type d’écriture

    Le type d’écriture joue aussi sur la précision d’extraction. En général, le texte imprimé offre les meilleurs taux de précision, devant les inscriptions manuscrites en majuscules et les écritures cursives. Dans le cas du texte imprimé, la précision peut varier en fonction du type de police et de l’espacement des caractères. La langue du document est également à prendre en compte. Les moteurs de reconnaissance optique des caractères utilisés par les solutions CDA atteignent généralement les meilleurs taux d’efficacité avec les langues latines.

  9. Codes à barres et cases à cocher

    Les codes à barres et les cases à cocher sont généralement le contenu présentant la meilleure précision d’extraction au sein d’un document. Pour ce type de contenu, il n’est pas rare que les solutions CDA dépassent largement 90 % de précision. Toutefois, les formats de codes à barres sont nombreux (1D, 2D et maintenant 3D, c’est-à-dire 2D couleur) : veillez à ce que la solution CDA prenne en charge les cas les plus fréquents.

  10. Signatures

    L’obligation de signature est l’une des principales raisons pour lesquelles bon nombre d’entreprises ont encore recours au papier. Dans ce cas de figure, la signature physique doit alors être capturée, classée et extraite. Le passage à la signature électronique supprime l’étape de numérisation et optimise ainsi la capacité et la productivité des utilisateurs CDA. Déterminez si la solution doit simplement détecter la présence d’une signature ou si vous avez également besoin de fonctions de vérification de signature et de détection des fraudes.

  11. Bases de données

    L’utilisation de bases de données permet d’améliorer considérablement la précision de classification et d’extraction d’une solution CDA. La mise en correspondance avec le contenu similaire compilé dans des bases de données permet d’ignorer les erreurs mineures de reconnaissance optique des caractères. Résultat ? Moins d’interventions humaines requises pour valider/corriger les résultats dont la fiabilité est mise en doute. Ces bases de données peuvent contenir le nom des clients, les numéros de compte, les données du système ERP comme le numéro de bon de commande ou le nom du fournisseur, un lexique propre à chaque secteur ou un dictionnaire par langue, etc.

  12. Règles

    Les règles offrent également un moyen d’améliorer la précision d’extraction d’un champ. Par exemple, une règle consistant à vérifier que le total est égal à la somme du sous-total et des taxes met facilement en évidence les erreurs, même après la correction manuelle d’une des valeurs des champs concernés. Définir des règles de formatage est aussi une manière simple de garantir un taux élevé de précision (par exemple, le numéro de sécurité sociale doit toujours respecter le format x xx xx xx xxx xxx xx, où x est un chiffre compris entre 0 et 9). Enfin, la vérification des totaux de contrôle améliore elle aussi la précision d’extraction des champs.

  13. Systèmes de destination

Pour que la boucle soit bouclée, les solutions CDA doivent prévoir un moyen facile de transmission des documents et des données vers les systèmes, les processus et les intervenants qui en ont besoin. La productivité des utilisateurs chute drastiquement si ces derniers doivent déplacer manuellement les documents au format image et transférer les données d’un système à l’autre. N’oubliez pas qu’un agent/robot logiciel RPA peut automatiser le processus de transfert et d’agrégation des données entre les systèmes en l’absence de connecteur d’intégration prêt à l’emploi avec le système de destination.

 

Pour en savoir plus sur les caractéristiques à prendre en compte lors de l’évaluation des fonctions CDA, téléchargez le livre blanc « Dématérialisation cognitive des documents :au-delà de la reconnaissance optique des caractères ».

 

Rester informé

Inscrivez-vous à notre flux RSS pour être informé des derniers articles du blog

Souscrire