Dans le troisième article de notre dossier sur la linguistique et la traduction, nous vous proposons de découvrir les différents problèmes rencontrés lors de l’utilisation d’outils de traduction automatique s’appuyant sur des modèles encore trop imprécis, à travers de nombreux exemples parfois particulièrement insolites et drôles…
Quel rapport entre traduction automatique et analyse des verbatim ?
Chez ERDIL, notre méthode d’analyse s’appuie sur les connaissances de la langue et le texte du verbatim. Comme nous l’avons évoqué dans l’article précédent de ce dossier, La traduction automatique : entre idéal, progrès et complexité, les modèles de traduction automatique peuvent éprouver plus de difficultés à disposer de cette connaissance profonde et synchronisée de deux ou plusieurs langues pour transposer précisément le sens d’une phrase dans une autre langue.
Le problème principal de la traduction automatique des verbatim est la déformation du sens : aucune analyse ne pourra « restaurer » l’information si elle est perdue ou modifiée au moment de la traduction.
Les exemples de phrases issues de messages clients ci-dessous illustrent les différents aléas entraînés par l’utilisation des moteurs de traduction automatique et vous pourrez découvrir, dans le dernier article de notre dossier, leurs répercussions sur les analyses.
La différence est flagrante, n’est-ce pas ?
Dans le cas de la traduction automatique, aucun concept (c’est-à-dire thématique associée au verbatim) ne peut être détecté car la traduction est trompeuse et modifie totalement le sens initial alors que dans la version originale et celle avec une traduction correcte, les concepts sont aisément repérés.
Malheureusement l’altération du sens, observable dans les exemples ci-dessus, peut résulter de nombreux facteurs liés à l’imperfection de la conception de modèles de NMT (cf. article précédent).
Dans le premier article de notre dossier, Traduction et linguistique : deux domaines a priori proches mais pourtant bien distincts, nous vous expliquions comment les linguistes de notre équipe construisent leur règles de détection de concepts et de tonalité. La compréhension de ces processus vous permettront de comprendre plus facilement les différents exemples qui viendront compléter petit à petit cet article ; mais aussi le dernier article de notre dossier dans lequel nous détaillerons l’impact des problèmes de traduction automatique sur la qualité des analyses…
1. L’ambiguïté lexicale
Les systèmes de traduction automatique sont en particulier impactés par le problème d’ambiguïté lexicale. Si le moteur de traduction est face à un mot qu’il n’a jamais ou peu rencontré, il va essayer d’en trouver un équivalent parmi ses « connaissances » en fonction de la morphologie ou du lexique de la langue en question.
Le mot turc « far » est polysémique et peut signifier « le phare » mais en même temps « le fard à paupière ». Dans le contexte de la distribution de produits cosmétiques, la première traduction est fausse. Puisqu’un « phare » ne fait pas partie de la liste des produits vendus par un magasin de cosmétique aucun concept ne pourra être détecté dans cette phrase traduite.
En ce qui concerne l’exemple en portugais, « a caixa » peut être traduit en français par « la boîte » et « la caisse ». Malheureusement, il est très peu probable que les vendeurs se cachent dans les boîtes et cette erreur de traduction empêche la détection automatique du concept et de sa tonalité (Personnel en caisse + positive). Cependant, les linguistes n’ont aucune difficulté à comprendre le contexte et peuvent ajouter ce substantif dans leur règle.
Malheureusement, certains mots très importants et très récurrents dans le domaine de la vente, par exemple, sont traduits de façon disparate. Chaque couple de langue de traduction dispose de son « vocabulaire » de référence, acquis à partir des données d’entraînement (qui ne sont pas identiques pour l’une et l’autre des langues). Ci-dessous, nous vous proposons quatre exemples de toute la panoplie des variations du mot « conseiller », «employé», etc.
Des variants d’une même langue ou des dialectes peuvent aussi présenter des différences sémantiques très prononcées.
La traduction a été réalisée sur la base de l’arabe standard, alors que le client en question écrivait en arabe marocain. Cette nuance linguistique a été aisément identifiée par nos linguistes arabophones.
Une compréhension humaine parvient à faire la distinction grâce au contexte. Alors que dans le cas de la traduction automatique on peut supposer que ce modèle n’a pas (assez) « rencontré » de contextes différents.
2. La traduction des expressions figées, proverbes…
Chaque langage possède dans son vocabulaire un certain nombre d’expressions qui n’ont pas d’équivalent dans d’autres langues. Ces éléments de la langue peuvent refléter les particularités culturelles, les réalités de la société voire la façon de penser. Parfois, cette intraduisibilité peut concerner uniquement une combinaison des langues spécifiques.
Dans l’exemple en arabe, la métaphore employée par le client n’a pas d’équivalent exact en français et nécessite d’employer une périphrase ou trouver un équivalent proche.
Tout seul, le mot turc « balık » veut dire « le poisson » et « etli » peut être traduit comme « charnu ». Alors qu’ensemble ces deux mots forment l’expression figée qui est utilisée pour désigner quelqu’un de rondelet, dodu.
De telles expressions peuvent être très rares pour une langue mais très récurrentes pour d’autres. Par exemple, en turc les clients utilisent souvent le mot « arkadaş » qui dans la traduction littérale veut dire « ami ». Lorsque ce mot est utilisé hors contexte « amical » (quand les personnes concernées ne sont pas amies), le mot « arkadaş » permet de désigner une personne spécifique.
Le substantif « ami » obtenu à la suite de la traduction automatique ne peut pas être inclus dans la grammaire utilisé dans nos analyses pour remplacer « employé » puisque dans la langue cible, cela peut prêter à confusion. Alors que dans le cadre d’une analyse de la langue native, cette particularité de la langue turque n’aurait pas échappée aux linguistes. Nous reviendrons d’ailleurs sur les difficultés d’analyse qu’entraînent ces problèmes de traduction automatique dans le dernier article de ce dossier.
Dans ces cas de figure, la traduction humaine dispose de plus de liberté : le traducteur n’est limité que par son imagination et sa créativité pour traduire de tels éléments. Il peut choisir d’utiliser des périphrases, des emprunts, des néologismes ou une simple explication…
3. Les transformations de syntaxe
Parfois, les outils de traduction automatique produisent aussi des séquences qui ne respectent pas la syntaxe de la langue cible (la langue vers laquelle on traduit). Dans ces cas-là, le sens est très souvent mis à mal et ces phrases deviennent inexploitables par les outils d’analyse sémantique.
Par exemple, on observe souvent de telles déformations lorsque la traduction est faite depuis l’allemand et le néerlandais car ces langues ont une syntaxe différente de la langue cible :
4. Les rapprochements morphologiques douteux voire complètement ratés
Les fautes de frappe et modifications mal à-propos du correcteur orthographique sont à l’origine de nombreuses Brèves de Verbatim. Avec la traduction automatique, cela prend encore une autre dimension. Avant d’être traduit, le mot mal orthographié est corrigé (souvent par le mot le plus semblable). Les rapprochements morphologiques ne sont pas toujours très réussis, ce qui offre parfois quelques fous rires dans notre open-space.
Dans l’exemple en néerlandais le client a fait deux fautes de saisie :
- avec les touches « b » et « n » : « biet » au lieu de « niet » l’équivalent de la négation
- avec l’orthographe du mot désignant l’expression « orienté client » : « klientgericht » à la place de « klantgericht ». Même si « klientgericht » n’existe pas en hollandais, d’après ses connaissances le traducteur automatique a trouvé le mot le plus vraisemblable.
Pour l’exemple en suédois, le mot « macka » veut dire « sandwich » alors que « mask » est un équivalent de « masque » en français.
Dans le cas de l’analyse directement depuis la langue native, les linguistes prennent en compte les fautes les plus répandues lors de la création des règles.
5. Les mots non traduits
Il arrive aussi parfois que l’outil de traduction automatique ne soit pas multilingue à la base ou n’arrive pas à distinguer correctement les langues. Dans l’exemple de gauche, l’enquête était diffusée initialement portugais mais le verbatim reçu était en espagnol !
Quant au verbatim en norvégien, il a été collecté via une enquête diffusée en Suède donc le traducteur respectif y a été appliqué. Même si les deux langues se ressemblent au point que le traducteur a été capable de traduire une partie du verbatim (avec des fautes), il a par contre abandonné la traduction en plein milieu de la deuxième phrase.
Les mots non traduits ne résultent pas que d’erreurs provenant de la langue de traduction mais aussi des fautes de saisie et de l’utilisation des emprunts.
Le traducteur automatique n’est pas toujours capable de trouver une approximation du mot inconnu ainsi il va le retranscrire tel quel comme cela est le cas du mot turc « harika » (en français : « génial »).
Dans le cas du verbatim en néerlandais le client a fait un emprunt au français « fond de teint ».
On peut supposer que l’outil a cherché à corriger ces mots qu’il n’est pas censé traduire, ce qui entraîne des problèmes de traduction !
L’utilisation des emprunts est d’autant plus compliquée qu’on a parfois du mal à connaître leur orthographe correcte dans la langue.
Le mot emprunté « tester » a été mal orthographié ce qui l’a rapproché de « testis » qui veut dire « testicule » en turc.
La traduction du mot ou de l’expression transcrite devient encore plus curieuse lorsqu’il y a un changement d’alphabet. Dans le cas du verbatim en arabe, le client a transcrit l’adjectif « sold out » en arabe (les voyelles ne sont pas toujours indiquées). Le traducteur automatique a ensuite essayé de le retranscrire en français. Le « i » a été ajouté par l’outil car cette combinaison de caractères lui a semblé être la plus vraisemblable pour cette transcription.
Lorsque l’on parle des emprunts il faut aussi prendre en compte les noms des marques que les clients peuvent mentionner dans leur message. Ces noms ont un sort assez tragique, ils sont très souvent traduits et/ou déformés !
Date
10 juillet 2023