Google, dis-moi si tu comprends mon accent québécois

Les Québécois sont-ils condamnés à gommer les nuances de la langue d’ici pour cadrer dans l’étroite oreille technologique?
Photo: iStock Les Québécois sont-ils condamnés à gommer les nuances de la langue d’ici pour cadrer dans l’étroite oreille technologique?

C’est peut-être arrivé en appelant votre banque. Le robot-interlocuteur à l’autre bout de la ligne n’a pas compris l’option que vous vouliez sélectionner par la voix. Ou quand un message vocal de votre mère s’est transcrit en un SMS indéchiffrable. Ou encore quand vous rouliez en voiture et avez demandé à votre téléphone intelligent un endroit où vous arrêter : « Allo Google. Tu-peux-tu checkergazer proche ? »

Chaque fois, avant de vous répondre ou d’actionner une commande, le programme informatique devait vous déchiffrer. L’accent québécois a peut-être donné du fil à retordre à la fonction de reconnaissance vocale en jeu dans chacun de ces exemples.

Les Québécois sont-ils condamnés à gommer les nuances de la langue d’ici pour cadrer dans l’étroite oreille technologique ? Pas si vite, disent trois experts : ces logiciels ont récemment fait des bonds de géant grâce à l’intelligence artificielle. Ils sont en voie de comprendre de plus en plus les subtilités du français québécois ou d’autres variations régionales de langues.

Un premier modèle

Des programmes de transcription automatique comme Trint ou SwiftScribe se targuent d’y arriver avec moins de 5 % d’erreur. Cette proportion serait moins élevée que celle des professionnels — humains — de transcription. La transcription automatique de la voix en mots est rendue au point où Daan van Esch, responsable du programme technique Google Speech, croit qu’on pourra bientôt écrire cet article sans les mains et presque les yeux fermés. « Ça prendra plus de patience pour l’édition du texte, par contre, si tu as déjà jeté ton clavier », prévient-il, rieur.

Chez le géant technologique Google, la reconnaissance vocale est également excellente en anglais. Preuve en est que M. van Esch a suggéré, durant notre appel vidéo effectué sur Google Meet, de lancer le sous-titrage en direct et, sous sa fenêtre vidéo, se sont affichés fidèlement les mots que nous énoncions, malgré un très léger accent, puisqu’il est originaire des Pays-Bas. Sous-titrer un interlocuteur en direct, un véritable fantasme pour quiconque a déjà tenté d’apprendre une autre langue.

Si le sous-titrage en direct est déjà disponible en français, l’accent québécois n’est pas tout à fait aussi bien reconnu, selon nos propres essais. Que se passe-t-il donc sous le capot de ces rutilantes technologies ?

Quand on parle, le son produit une onde. À la moindre variation de la forme de cette onde, le programme informatique doit associer une lettre ou un phonème spécifique : « Par exemple, aussitôt qu’on voit un petit pic dans une langue donnée, la machine se dit :“OK, c’est généralement un ‘pe’ ou un ‘ke’” », explique-t-il.

L’approche traditionnelle, encore la plus répandue, c’est donc de nourrir un algorithme d’apprentissage avec une grande base de données. Celle-ci doit rassembler non seulement les enregistrements audio, mais aussi des transcriptions écrites. « C’est une forme d’entraînement par couplage de l’audio et du texte », explique quant à lui Titouan Parcollet, aujourd’hui maître de conférences à l’Université d’Avignon, en France. Il est brièvement passé en 2019 par l’Institut québécois d’intelligence artificielle (MILA) à Montréal et connaît bien plusieurs subtilités de notre parler.

Le nerf de la guerre est donc d’avoir un jeu de données suffisamment grand avec un accent spécifique ou un dialecte particulier. Et c’est là que le fait d’avoir une population d’environ 8,4 millions de Québécois peut jouer, croit le chercheur, car il y a un retour sur l’investissement moins grand pour les entreprises. « Il n’y a rien d’insurmontable à propos du français québécois pour ce programme ou d’explicitement difficile, mais c’est plus difficile d’avoir un grand nombre de données. Ce qui est moins cher à obtenir, c’est toujours l’anglais », dit-il.

Des courtiers vendent certes ces énormes jeux de données, explique M. Parcollet, mais les géants peuvent puiser à même leur panoplie de plateformes. Plus l’enregistrement audio est couplé au texte, plus ces données sont utiles pour entraîner le modèle. « Des géants comme Google ont déjà tout ce que les utilisateurs diffusent eux-mêmes sur YouTube, où tout le monde a fait du sous-titrage à la main. Dans des industries plus petites, on peut penser à récupérer l’audio et la transcription des séances dans les parlements, par exemple », dit-il.

Nouveau modèle : reconnaissance vocale sans transcription

La lourdeur initiale du procédé est précisément ce qui turlupinait Vikrant Tomar, le fondateur et directeur de la technologie de l’entreprise montréalaise Fluent.ai. « On s’est mis à se demander : comment un cerveau humain analyse-t-il le langage ? Il ne le traduit pas en texte avant de comprendre et de répondre. Et on a donc éliminé ces deux étapes », décrit-il.

Son modèle se heurtait aux mêmes limites, mais, motivé par la création d’une version plus légère et en plus de langues, Fluent.ai s’est plutôt mis à utiliser l’apprentissage non supervisé. En intelligence artificielle, cet apprentissage automatique consiste à repérer les structures sous-jacentes à des données sans passer par l’étiquetage de ces données. « Pensez à la manière qu’ont les enfants d’apprendre. Si je regarde une plante, mon cerveau sait automatiquement que c’est une plante, sans avoir besoin de lui attribuer l’étiquette de plante. Et je sais que cette autre chose là-bas, c’est une plante aussi », explique M. Tomar.

C’est ce que Titouan Parcollet appelle le deuxième paradigme en matière de reconnaissance vocale. « On peut dire qu’on ne se soucie plus du langage, des mots précis, on s’intéresse à la parole. Donc, ce modèle est agnostique par rapport à la langue ou à l’accent. »

Les programmes développés par Fluent.ai peuvent aussi rouler sur de petits appareils et sans le secours du Web : « On enlève Internet de l’Internet des objets », dit M. Tomar. Dans ce marché pointu mais très vaste, son entreprise collabore par exemple avec des fabricants de fours à micro-ondes pour les acheteurs du Québec et à une télécommande universelle activée par la voix.

Pour la suite de Babel

Au-delà des accents, le défi est aussi « l’immense variété de voix distinctives », ajoute Daan van Esch. Argot, joual, slang, la langue analysée doit aussi être celle que l’on parle, pas celle figée du dictionnaire. Google a un robot d’indexation (Web crawler), une sorte d’aspirateur tout-puissant récoltant tous les mots disponibles sur le Web et qui met constamment à jour une métaliste de vocabulaires. « Peu importe la langue, il y a constamment de nouveaux mots, du jargon ou des abréviations, comme COVID », illustre-t-il.

Et là aussi, difficile d’avoir une base de données assez diversifiée du « parler naturel et pas contraint », ajoute Vikrant Tomar. Il existe en outre de plus en plus de « fluidité » entre l’usage de plusieurs langues, disent les deux experts. Et pas seulement à Montréal, où les mots anglais s’immiscent dans le français : on peut penser à plusieurs États américains où l’espagnol a pris une place prépondérante, ou encore à des langues comme le tagalog, aux Philippines, qui a absorbé beaucoup de mots espagnols et anglais de ses colonisateurs successifs.

« Je me souviens qu’avec Google Maps, on s’est demandé comment les gens prononçaient certains noms de rue à Montréal, qui sonnent français ou anglais, selon qui parle. Mais aussi comment ils s’attendaient à ce que l’application les prononce », dit M. van Esch, citant la rue Sherbrooke, par exemple.

La reconnaissance vocale n’est que le premier pas, « un petit morceau de ce dont on a besoin pour faire une bonne interface entre l’homme et la machine », rappelle Titouan Parcollet. Il n’a jamais vu la scène digne d’anthologie d’Elvis Gratton dans la comédie du même nom de 1999, quand le personnage de Pierre Falardeau essaie de faire taire sa limousine à grand renfort de sacres. Mais plus de deux décennies plus tard, la technologie n’est pas encore tout à fait rendue là.

À voir en vidéo