De "Eureka" à "Attention is All you need"

Ces deux slogans sont historiquement espacés de près de 2.400 ans mais ils annoncent, l’un dans le domaine de la mécanique des fluides, l’autre dans le domaine du traitement automatique du language naturel ( TALN) une vraie révolution. Le principe d’archimède a permis la construction des bateaux géants (voire des villes flottantes ) que nous voyons de nos jours alors que la théorie de l’attention a permis depuis 2017 de construire des modèles d’intelligence artificielle que l’on dit supérieurs à l’intelligence humaine. Si le principe d’Archimède fait partie des connaissances élémentaires de tout lycéen, la théorie de l’attention reste une énigme pour beaucoup de non spécialistes. De quoi s’agit-il donc ?

Tout d’abord, le slogan "Attention is all you need" est le titre d’un article signé en 2017 par une équipe de chercheurs de Google Brain dirigée par Ashish Vaswani et Noam Shazeer. L’article introduit le concept de « Transformers » qui est une architecture de modèle basé sur les mécanismes d’attention au lieu de l’architecture des réseaux de neurones recurrents (RNN). Pour simplifier, nous dirons que dans une architecture RNN, les sorties sont dépendantes de plusieurs entrées antérieures. Mais comme on peut bien le comprendre, une architecture où la sortie est basée sur plusieurs entrées antérieures reste une architecture séquentielle. Et c’est là où le concept de « Transformers » introduit une rupture dans la mesure où une architecture basée sur les « Transformers » est parallèle et non séquentielle.

Plus concrètement, un modèle basé sur les « Transformers » est capable de traiter simultanément toutes les parties d'une entrée sans se soucier de leur ordre séquentiel. Par exemple, face à la question « quels étaient les enjeux des guerres puniques ? », un système basé sur des réseaux de neurones récurrents (RNN) traiterait la séquence mot par mot, en conservant un état interne à travers les mots « enjeux », « guerres », puis « puniques ». À l'inverse, un modèle basé sur les Transformers traiterait tous les mots à la fois, octroyant une attention (ou un poids) variable à chaque mot de la séquence en fonction de son importance relative et de ses relations avec les autres mots.

Depuis l'introduction des Transformers, de nombreux modèles dérivés ont été développés pour diverses tâches. BERT (Bidirectional Encoder Representations from Transformers) est optimisé pour la compréhension du langage, tandis que GPT (Generative Pre-trained Transformer) est conçu pour la génération de texte.

Les modèles basés sur des Transformers sont utilisés dans une variété d'applications de TALN, notamment la traduction automatique, la réponse aux questions, la classification de texte, la génération de texte, et bien d'autres.


Les bévues de la traduction
De grâce, tuez le General Staff