L’État développe une solution pour exploiter les documents scannés

Publié le 19 09 2022 | Mis à jour le 19 04 2024

©Pixabay

Après avoir conçu un outil pour entraîner les intelligences artificielles à parler français, l’État veut maintenant leur apprendre à mieux lire. Le laboratoire d’IA de la direction interministérielle du numérique veut développer une application capable d’extraire des informations issues de documents divers et variés, et notamment de scans.

Il n’y a sans doute rien de plus frustrant pour un journaliste qu’un document texte dans lequel il est impossible d’effectuer une recherche textuelle ou d’en copier-coller une partie. Ce sentiment qu’ont souvent les journalistes lorsqu’ils ont affaire à un document administratif, un communiqué, une circulaire “incopiable”, d’autres le partagent évidemment. À commencer par les agents publics, par exemple face aux pièces d’identité scannées envoyées par les usagers. Seuls l’œil et le cerveau humains sont aujourd’hui capables de les déchiffrer et d’en extraire les informations utiles, du moins à moindre coût.

Etalab, qui héberge le laboratoire d’intelligence artificielle de la direction interministérielle du numérique – la DSI de l’État – part en guerre contre ces documents non exploitables par une machine et donc par l’ensemble des outils qui permettent de faciliter la navigation ou l’exploitation en masse des données qui y sont distillées. Pour ce faire, l’équipe entend développer un outil de reconnaissance optique de caractères (OCR) permettant de déchiffrer les images et d’en extraire les informations pertinentes. Avec à la clé un gain de temps considérable pour les agents publics chargés d’analyser et de structurer l’information contenue dans ces documents. La technologie n’est pas nouvelle et de nombreuses solutions existent sur le marché (Google, Amazon, Sicara, Mindee…), mais elles sont souvent coûteuses, pas adaptées à tous les contextes et pas toujours fiables du point de vue de la confidentialité des données personnelles.

Lire la suite (Acteurs publics)