(voire de linguistes, beurk)

T'as quelque chose contre les linguistes, Kokoyaya ? Non mais dit eh oh hein ! T'ar ta gueule à la récrée !
Bon, voici quelques réflexions jetés sur le papier d’un linguiste, qui ne s’est jamais réellement intéressé à la question de la traduction automatique, ni même à la traduction technique (i.e. pour entreprise, par opposition à la traduction littéraire).
Vous connaissez certainement le principe du « test du Turing », l’un des inventeurs de la cybernétique : un ordinateur sera dit intelligent si un observateur ne peut faire la différence entre lui et un être humain dans un dialogue en aveugle. Depuis 1990, un concours promet une récompense de $ 100.000 (pas mal quand même…) à l’informaticien qui réussira ce défi. Inutile de vous dire que personne n’a encore remporté la palme – aucun ordinateur n’a même tenu plus de dix minutes (et encore, en bottant en touche : l’ordinateur repère un mot clef et répond « le X s’est bien » « j’aime beaucoup le X » « et combien de fois par jour pratiquez-vous le X » etc.) – celui qui tient le plus longtemps remporte quand même $ 2000.
Certains scientifiques trouvent que ce prétendu concours tient plus de l’amusement médiatique que de la science ; et c’est sans doute vrai. Mais l’intérêt du « test de Turing » est d’ordre épistémologique : qu’est-ce qui fait l’intelligence humaine, sinon d’abord une production de sens totalement autonome ; qu’une machine ne peut avoir.
En effet, si un enfant de deux ans qui dit « maman pipi popo» ne dit rien de plus que « auriez-vous l’extrême obligeance de me passer l’objet plastifié circulaire destiné à recevoir mes déjections naturelles » ; cependant :
a) « maman pipi popo » est en dehors de toute norme linguistique : il n’y a qu’un enchaînement d’idées sans syntaxe logique. Elle est pourtant pour son locuteur (le bébé) et pour son auditeur (la maman) un ensemble sémantique clair.
b) il n’existe pas qu’un rapport sémantique entre le signifié et le signifiant de cette « phrase », il existe aussi un rapporte psychologique et en l’occurrence somatique entre cet ensemble et son locuteur. Ce rapport psychologique ou somatique ne peut exister pour une machine, si perfectionnée soit-elle.
Par ailleurs, une machine ne peut prendre en compte que des informations, et poser des égalités entre des données. Pour ne prendre qu’un seul exemple : le découpage des couleurs n’est pas le même selon les langues (pour reprendre le sujet d’un post précédent), une machine peut, mieux que nous, percevoir la position exacte d’une couleur sur le spectre, et décider (en graduant le spectre de 1 à 100 par exemple) : « entre 26,45 et 28,3 c’est du bleu, de 28,3 à x c’est du violet » - mais ce découpage ne correspondra pas à l’impression qu’en ont personnellement (psychologie) ou collectivement (sociologie) les locuteurs.
Un exemple : mettons qu’il faille traduire du grec moderne au français : « les gélules mavroi et le gélultes galanoi » (j’ignore comment on dit « gélules » en g.m.). On ne peut pas faire message plus réduit ni plus technique. Or un logiciel de traduction automatique « pauvre » aura sans doute intégré que
mavros = noir
galanos = bleu clair
donc « des gélules noires et des gélules bleu clair ». En mettant qu’il soit plus puissant, et ait intégré les divisions du spectre lumineux des deux langues, le mot le plus proche de « galanos » qu’il trouvera sera « azur ». Donc « des gélules noires et des gélules azur ».
Du point de vue sémantique, ce n’est pas faux : les gélules sont peut-être effectivement de couleur azurée ; mais du point de vue pragmatique, il ne s’agissait que d’opposer deux couleurs de gélules ; un traducteur humain aurait simplement écrit « les gélules noirs et les gélules bleues », c’est la seule différence qui soit pertinente. La différence « bleu/azur » ne l’est pas. Mais pour décider de cela, le traducteur humain s’est référé à la capacité de compréhension de l’usager (humain) de ces médicaments. Ce qu’une machine ne peut évaluer.
Il peut à la rigueur évaluer celle d’un panel d’humains à qui l’ont aurait fait faire des tests – mais il ne peut supposer in absentia un être humain.
Et c’est là le problème : un ordinateur ne peut juger qu’en présence d’information ; certes il peut en saisir des milliards (contrairement à nous), mais il ne peut supposer celle qui lui sont absentes. Si j’écris :
a) bouclier thermique
b) agitation thermique
c) imprimante thermique
Encore une fois, de termes techniques (ex. tirés de J. Jougin, Parlons Espéranto, l’Harmattan)
Je peux n’avoir jamais vu d’imprimante thermique de ma vie. Mais je suis à même de deviner que c’est une imprimante qui imprime en produisant de la chaleur. L’idée de chaleur et tout ce que je sais de ses effets (la noirceur d’un papier ou d’un bois que l’on brûle) et l’idée d’imprimante et toute mon imagination me permettent de deviner, grosso modo, le principe de fonctionnement. Je raisonne in absentia. Bien sûr, je puis chercher dans un dictionnaire français-espéranto et trouver : thermique = 1) provarma ; 2) kontraùvarma, 3) pervarma. Mais seule la conscience que j’ai de l’objet en question, son appréhension par mon esprit me permet de choisir le troisième (imprimante « par la chaleur ») pour le c et la 2 pour le a.
Car fondamentalement, les données ci-dessus sont une absurdité pour la logique formelle : un mot peut avoir trois sens différents (et même opposés) : A = x OU BIEN A= y OU BIEN A = z ;c’est une violation du principe du tiers exclu. C’est qu’en réalité, il en faut pas considérer A mais (A ; B) : thermique + bouclier, thermique+agitation. A la limite, on peut donc « apprendre » à la machine à différencier la groupe (A ; B) (bouclier + thermique) du groupe (A ; C) (agitation+thermique). Sauf qu’il peut très bien se produire une situation où un « bouclier thermique » ne soit plus un bouclier « contre la chaleur » (kontraùvarma sxildo) mais un bouclier qui en produise (une nouvelle arme de guerre ou une pièce technique). Comment le savoir ?
Par le con-texte au sens propre (le sens général du texte), certes ;qui contrairement à ce qu’on pense pourrait en pure théorie (on en est loin) être saisi par une machine, car ce sont toujours des éléments présents. Le « contexte » d’un mot, ce ne sont jamais que des éléments nouveaux ajoutés à un élément : (A ; w ; x ; y ; z…) Y en eût-il six milliards une machine peut les prendre en compte.
Mais aussi par la situation d’énonciation (je suis en train de parler à un général, nous sommes dans une usine d’armement, etc.) ; or, cela, ce sont des éléments « absents ».
Par conséquent, un linguiste et un technicien peuvent s’accorder sur l’idée de réduire la langue à des construction scientifiques de données : sémantique formelle, quantification, grammaire générative, etc. sont autant de domaines de recherche très compliqués et très poussés et qui ont leurs chercheurs et leurs applications en cybernétique.
Mais la langue n’est jamais seule, elle a autour d’elle :
- la pragmatique : comment la langue produit de l’action. L’exemple typique, c’est « s’il vous plaît » ; pour une machine, c’est une aberration : c’est une information formelle [silvuple] totalement dépourvu d’information sémantique (ça ne veut, en fait, rien dire, surtout pas « si cela vous plait »). Pour un humain, c’est important – nous en savons quelque chose sur ce forum !
- la psycholinguistique : comment un être humain isolé perçoit la langue.
- la sociolinguistique : comment un groupe perçoit la langue
- les sciences cognitives (comment se forme la pensée d’un objet)
- etc.
Toutes ces choses, nous les intégrons dès notre naissance et les réalisons presque inconsciemment lorsque nous produisons de l’écrit – fût-il le plus technique et le plus sec. Et nous les mettons en œuvre, même inconsciemment (deux fois inconsciemment) quand nous traduisons. Or l’idée même de groupe (un enfant, même un bébé, sait qu’il est au milieu de gens ; une machine ne peut que les compter, elle ne le sait pas), ou de psyché sont absurdes pour une machine. Sauf à fabriquer des androïdes de science-fiction, les traducteurs humains seront toujours nécessaires.
[/quote]