Chaque jour, ERDIL traite des milliers de messages clients dans 20 langues différentes pour identifier les thématiques appréciées ou critiquées dans ces messages. Cette activité est une application du TAL (Traitement Automatique des Langues) ou NLP en anglais (Natural Language Processing), domaine qui relève à la fois de la Linguistique, de l’Informatique et de l’Intelligence Artificielle. Le NLP couvre un large éventail de technologies dont l’objectif est la modélisation des langues naturelles. Comment ça marche ? On vous explique tout !
Le Machine Learning
Si je vous dis « Intelligence artificielle » cela vous évoque sans doute le Machine Learning (ML), le Deep Learning ou les réseaux neuronaux qui apprennent à partir de données. Ces intelligences artificielles dites connexionnistes sont à l’honneur dans les médias qui les présentent parfois comme une solution miracle. Il est vrai que les modèles de ML sont très performants dans le sens où on obtient des résultats rapidement. Revers de la médaille, la qualité de ces résultats n’est pas toujours à la hauteur des attentes. On est loin du coup de baguette magique !
De plus, deux aspects du Machine Learning sont souvent critiqués. Le premier est que les systèmes récents comme les réseaux de neurones sont extrêmement gourmands en données et en puissance de calcul, indispensable à l’entraînement. Citons par exemple une étude menée en 2019 à l’Université du Massachusetts qui a montré que le processus de développement d’un réseau neuronal pour le NLP émettait autant de CO2 que cinq voitures pendant toute leur durée de vie, fabrication comprise.
La seconde critique récurrente est le fameux « effet boîte noire ». Si un expert en Deep Learning peut comprendre pour quelle(s) raison(s) un résultat est prédit plutôt qu’un autre, il peut parfois être difficile d’expliquer un résultat, notamment dans le cas des réseaux neuronaux.
Mais l’intelligence artificielle ne se résume pas à l’apprentissage automatique.
L’Intelligence Artificielle Symbolique
Chez ERDIL, la modélisation du langage prend la forme d’un ensemble de règles linguistiques. Ces règles sont développées par des experts linguistes (ingénieurs ou docteurs en TAL) car ce travail requiert une connaissance approfondie des différents niveaux de description linguistique (lexique, syntaxe, sémantique, etc.). Notre technologie fait partie de l’IA symbolique, qui repose sur des représentations symboliques ou lisibles par l’Homme.
Contrairement aux méthodes empiriques présentées précédemment, les résultats obtenus par les méthodes linguistiques sont hautement qualitatifs, mais le développement d’un tel système peut s’avérer coûteux en temps. C’est pourquoi nous insistons sur le fait que la qualité des résultats est optimisée dans le temps. De plus, la technologie d’ERDIL a 15 ans cette année, ce qui lui confère un degré de maturité élevé !
L’IA symbolique présente d’autres avantages. Le premier est sa frugalité car elle ne nécessite ni les grands volumes de données ni la puissance de calcul indispensable à l’apprentissage automatique.
Le second avantage de l’IA symbolique est la traçabilité totale de l’analyse. Un expert linguiste d’ERDIL peut facilement expliquer pour quelle(s) raison(s) le moteur d’analyse fournit tel résultat. Le modèle peut être modifié de façon rapide et précise pour qu’une erreur ne se reproduise pas, sans changer la reproductibilité des autres résultats.
L’explicabilité à tous les niveaux de l’analyse va dans le sens des récentes recommandations de la CNIL pour que les systèmes d’IA soient conformes au RGPD .
L’Intelligence Artificielle Hybride
Les solutions de Machine Learning ne remplacent pas l’expertise linguistique humaine. Pour l’instant, chez ERDIL, elles sont intégrées comme des services à destination des linguistes, qui exploitent ou non les résultats issus du ML pour alimenter le moteur de règles. Cela permet d’optimiser les temps de développement et de maintenance.
Moteur de règles ou apprentissage automatique, intelligence naturelle ou artificielle, les langues sont des systèmes si subtils que leur modélisation est un travail sans fin.
ERDIL a donc choisi d’hybrider sa technologie pour exploiter la performance du Machine Learning tout en conservant la précision obtenue par l’IA symbolique et préserver l’explicabilité des résultats d’analyse. Pour amorcer le développement d’une technologie IA hybride, une équipe de R&D pluridisciplinaire s’est emparée du sujet au sein d’ERDIL.
D’une manière générale, le développement d’une nouvelle génération d’IA hybride constitue un des défis de la recherche en intelligence artificielle. C’est par exemple l’objet du projet HyAIAI mené par l’INRIA. C’est également la spécificité de l’institut ANITI dans le cadre du Programme Investissements d’avenir du plan Villani.
Pour l’analyse des verbatim aussi, le futur, c’est l’hybride !
Date
06 septembre 2022