Page 1 of 5

Reconnaître les langues

Posted: 14 Aug 2008 14:11
by hectormayor
Bonjour, je sais que ce forum est plein de spécialistes alors je m'adresse à vous. En ce moment j'essaie d'apprendre à reconnaître à l'écrit les langues d'Europe (officielles le plus souvent mais aussi quelques autres) et quelques autres langues indo-européennes. Ça n'a pas un grand intérêt mais c'est assez intéressant. Bien sûr j'essaie d'abord de repérer les lettres, diacritiques et autres signes typographiques qui ne se retrouvent que dans une seule ou un nombre limité de langues. Dans le meilleur des cas c'est un alphabet entier qui est exclusif d'une langue, comme le géorgien, l'arménien ou le grec moderne qu'on reconnaît au 1er coup d'oeil (sans tenir compte des éventuels dialectes ou variantes dans ces langues). Dans d'autres langues il y a des lettres qui ne trompent pas, j'ai fait une liste des lettres exclusives et des particularités, corrigez-moi, je me trompe sûrement pour certaines :

- islandais : la combinaison ð + æ + þ
- suédois : présence du å mais différent du danois et norvégien par les ö et ä
- danois et norvégien : å + æ + ø. Le problème est de différencier les deux langues (je ne parle même pas de différencier le bokmal du nynorsk, j'ai du mal), je pense que la combinaison "sj" est caractéristique du norvégien (surtout bokmal j'ai l'impression, mais je n'y connais rien donc j'attend les confirmations des spécialistes).
- estonien : le õ me semble exclusif de cette langue
- bulgare : le ъ, le bulgare ne pose pas trop de problème
- macédonien : l'alphabet cyrillique + le j + le ѓ
- ukrainien : cyrillique + ï et i
- biélorusse : cyrillique + ў ? (les doubles нн sont fréquents aussi)
- serbe en cyrillique : љ + ћ +ђ ...
- croate : alphabet latin + đ (les différences serbe en alphabet latin/croate/bosniaque etc. sont trop subtiles, d'autant que ce sont des langues ausbau comme disent les spécialistes)
- slovène : lui je le reconnais à 100 m, je ne sais pas pourquoi (les hatcheks plus rares que les autres langues slaves ? pas vraiment de diacritiques sur les voyelles comme en tchèque ou slovaque ?)
- tchèque : le plus dur est de le différencier du slovaque, généralement j'y arrive. J'ai l'impression qu'il n'y a pas de ě en slovaque alors qu'il est fréquent en tchèque.
- slovaque : les terminaisons en -om qui doivent marquer une déclinaison alors que le tchèque montre plus souvent des -em
- polonais : là aussi repérable de loin, les ł, les ą, les points suscrits, les combinaisons szcz etc. Je pense pas qu'il y ait trop de risque de confondre avec le cachoube qui est plus particulier.
- letton : macron très fréquent sur toutes les voyelles, hatcheks, cédilles, terminaisons fréquentes en -as
-lituanien : macron uniquement sur le u, point suscrit...
- différence corse/sarde/sicilien : je veux bien des conseils pour différencier ces 3 langues :)
- albanais : les ë très fréquents (pour la différence guègue/tosque, eventuellement la fréquence des rhotacismes plus importantes en tosque)
- azéri : alphabet cyrillique ou latin + présence du schwa ә + ғ en cyrillique (assez rare quand même)
- kazakh : le schwa aussi + i + Y rayé
- hongrois : le ő assez fréquent est un bon indice + combinaisons de consones "sz", fréquence du y et des accents aigus sur les voyelles
- basque : facile à repérer :lol:
- différence portugais/galicien : le galicien normalisé utilise plutôt le ñ que le nh portugais si j'ai bien compris, je ne vois pas de j dans le galicien écrit
- catalan (plusieurs variétés mais les normes sont plus ou moins les mêmes) : tirets fréquents sur l'enclise, terminaisons en -eu et en -t...
- roumain : facile à répérer par les différents signes et accents
- maltais : idem :)

Bon, voilà pour les principales langues, j'aurais pu continuer mais mon message est déjà assez long, je pense... Vous allez peut-être vous demander l'intérêt de tout ça, je précise que c'est par simple intérêt pour les langues :lol: . N'hésitez pas à me corriger et à faire des précisions sur les langues que vous connaissez, et à donner tous les indices possibles pour indentifier une langue. vous pouvez même parler de langues qui ne figures pas dans liste (par exemple les parlers germaniques, tellement nombreux que je n'ose même pas essayer de les différencier, entre toutes les variétés de romanches, d'alémanique etc.). Merci si vous participez au sujet :hello:

Posted: 14 Aug 2008 14:34
by Maïwenn
C'est plutôt intéressant comme initiative.

pour le breton : c'h (selon les graphies, mais la plus répandue utilise cette combinaison)

Tu dis que le õ semble être exclusivement de l'estonien, mais ensuite tu le notes pour le hongrois.

Posted: 14 Aug 2008 14:43
by Fuokusu
Maïwenn wrote:Tu dis que le õ semble être exclusivement de l'estonien, mais ensuite tu le notes pour le hongrois.
Tu as confondu avec ő. C'est un o avec deux accents aigus. Alors que dans l'estonien, le o est surmonté d'un tilde.

Posted: 14 Aug 2008 14:46
by Maïwenn
Ah oui, j'ai lu trop vite. Ca se ressemble beaucoup quand c'est écrit en gras

Posted: 14 Aug 2008 14:49
by Car0line
- différence corse/sarde/sicilien : je veux bien des conseils pour différencier ces 3 langues
Ce ne sont pas des langues mais des dialectes lesquels n'ont pas d'orthographe ni de grammaire officielle... Bon il y a surement des différences d'écriture de ces dialectes mais je ne les connais pas.

Posted: 14 Aug 2008 15:14
by Isis
Bonjour,

Pour le catalan, tu peux aussi repérer les L géminés, qui s'écrivent comme ça : l·l (deux L séparés par un point à mi-hauteur), comme dans le mot intel·ligent, par exemple.


:hello:

Posted: 14 Aug 2008 15:19
by Guest
Maïwenn wrote:Ah oui, j'ai lu trop vite. Ca se ressemble beaucoup quand c'est écrit en gras
En effet, je croyais moi-même avoir mis un tilde à la place du double accent aigu :)
Merci déjà pour le breton, c'est vrai qu'en général la combinaison c'h ne laisse pas trop de doute :)

Posted: 14 Aug 2008 15:37
by hectormayor
Isis wrote:Bonjour,

Pour le catalan, tu peux aussi repérer les L géminés, qui s'écrivent comme ça : l·l (deux L séparés par un point à mi-hauteur), comme dans le mot intel·ligent, par exemple.


:hello:
Exact, j'avais oublié cette particularité! Merci :)

Je rajoute le turc de Turquie et son ı (le i sans point, dont j'ai oublié le nom). ;)

(le message précédent de Invité est de moi)

Posted: 14 Aug 2008 15:55
by kokoyaya
Si tu t'étais enregistré, tu aurais pu modifier ton premier message au fur et à mesure ;)

Posted: 14 Aug 2008 16:22
by iubito
pour le macédonien, il y a aussi le k avec un accent : Ќ, et plus rare, le dz : Ѕ.
Comme en serbe, il possède : Љ, Њ, Ј et Џ

pour améliorer le moteur de recherche de mon site, qui contient des paroles de chansons en caractères latins et en cyrillique, j'ai fait un programme. Dans l'ordre :
- un convertisseur latin<->cyrillique
- un correcteur des erreurs fréquentes, (par exemple tsigane/tzigane, kopanica/kopanitsa/kopanitza...), donc remplace tous les 'tz' et 'ts' par 'c'....
- j'obtiens alors une liste de mots assez conséquente (par exemple je vais obtenir tsigane -> cigane, parfois c'est beaucoup + complexe) et je recherche les pages contenant au moins un de ces mots... mais comme la liste est longue, la recherche est longue.
- donc j'ai ajouté un truc qui vérifie si le mot peut être une des langues qui m'intéresse. ça m'élimine pas mal de déchets.

Je procède en 2 étapes :
- les lettres sont-elles dans l'alphabet ?
- le mot a-t'il une combinaison de lettres qui n'existe pas ? (par exemple "nnn" en français, "ЛЈ" en macédonien...)

si le mot ressemble à au moins une des langues qui m'intéressent (roumain, turc, bulgare...), alors il est gardé.

J'ai pas ma liste de "combinaisons foireuses" sous la main, mais si tu la souhaites, je te la donnerai

Posted: 14 Aug 2008 16:59
by hectormayor
C'est une excellente idée de programme, effectivement si tu as le temps la liste des combinaisons peut être très intéressante. Mais ça ne presse pas du tout.

Je me souviens par ailleurs que tu m'avais déjà rendu service à propos du bulgare il y a longtemps, merci encore. J'ai quelques restes qui me permettent uniquement de reconnaître du bulgare quand j'en vois (ou que j'en entends) :D

Merci pour cette réponse :hello:

Posted: 14 Aug 2008 17:09
by Maïwenn
j'ai oublié le danois. On y rencontre le "sj" aussi. Pour le différencier du norvégien, je ne sais pas trop comment expliquer. Elie aura sans doute des exemples. Pour l'instant je pense au mot "av" qui n'existe qu'en norvégien il me semble... Et il me semble qu'en norvégien il y a plus de doublement de consonnes, mais ça doit pas être facile à repérer quand on ne connaît aucune des 2 langues.

Posted: 14 Aug 2008 17:58
by flamenco
Maïwenn wrote:j'ai oublié le danois. On y rencontre le "sj" aussi. Pour le différencier du norvégien, je ne sais pas trop comment expliquer. Elie aura sans doute des exemples. Pour l'instant je pense au mot "av" qui n'existe qu'en norvégien il me semble... Et il me semble qu'en norvégien il y a plus de doublement de consonnes, mais ça doit pas être facile à repérer quand on ne connaît aucune des 2 langues.
De mémoire... norvégien/danois

av/af comme a dit Maï
å/ at

J'ai regardé des textes en norvégien (bokmål) sur Internet. Quelque chose qui me saute aux yeux par rapport au danois est aussi les doubles consonnes en fin de mots. Il me semble que le danois n'en a pas.

Tu ne parles pas du néerlandais. La difficulté du néerlandais, c'est que cette langue n'a pas de lettres spéciales. En soit, c'est aussi une spécificité! :lol: Il y a aussi pas mal de voyelles doublées (taal, te koop,...). On peut aussi noter une forte ressemblance avec l'allemand.

Ces voyelles doublées, tu les retrouveras aussi en finnois mais le finnois a des trémas aussi. Et surtout le finnois "ne ressemble pas" à la plupart des autres langues européennes, mais c'est un peu vague comme indication!

Voilà pour l'instant...!
C'est une belle initiative, moi aussi, j'aime essayer de reconnaître les langues quand j'en vois (surtout sur les briques de lait! :lol:)

Posted: 14 Aug 2008 18:07
by Toirdhealbhách
- différence corse/sarde/sicilien : je veux bien des conseils pour différencier ces 3 langues

Ce ne sont pas des langues mais des dialectes lesquels n'ont pas d'orthographe ni de grammaire officielle... Bon il y a surement des différences d'écriture de ces dialectes mais je ne les connais pas.
Là je crois que tu te trompes... Ces trois langues ne sont pas de l'italien. Elles sont suffisamment différentes pour être considérées comme des langues distinctes par tous les linguistes.

Pour la façon de les reconnaître,
Le corse utilise le groupe ghj en début ou milieu de mot.
le sarde a des pluriels en -s (alors qu'en italien c'est surtout en voyelles: i, e, a...)

Je crois que le sicilien a des mots qui commencent par des consonnes géminées: nn, cc...

Une façon simple et rapide de repérer ces caractéristiques et de regarder les wikipédias respectifs.

Au sujet du tchèque et du slovaque, je crois que le tchèque utilise la lettre ř et pas le slovaque.

Le néerlandais utilise les groupes ij, oe, aa, ee, oo, sch...

Le finnois utilise ö, öö, ä, ää, y, yy, ee, ii, et des groupes de voyelles: yö, oa, uo..., il y a souvent des consonnes doubles aussi (mm, kk, tt, pp, ll, ss...), et il y a très peu de g, d, b, pas de z, q, f, w, x à ma connaissance.

L'irlandais est plein de consonnes suivies de h (mh, gh, dh, th...), il y a des suites de voyelles: ua, aoi, ao, uai, et les voyelles longues sont signalées par des accents aigus: á é í ó ú.

Le gaélique d'Ecosse ressemble à l'irlandais, sauf qu'il utilise des accents graves à la place des accents aigus (ou anciennement, on pouvait avoir é, ó mais aussi è, ò, et seulement des accents graves sur les autres voyelles: à, ì, u).

Le gallois utilise beaucoup de y, w, dd, th, ll, nh, ngh, rh, ff, ph, ch. Y et w étant aussi des voyelles, on a des mots comme dwr, drws, cwmwl (qui se prononcent dour, drous, coumoul), mynydd...

Le cornique ressemble au breton mais utilise plus de w, pas de i (dans les orthographes les plus utilisées) mais seulement des y, pas de z, mais il y a des dh et des th.

Posted: 14 Aug 2008 18:10
by kokoyaya
Toirdhealbhách, les différents gaéliques se reconnaissent à partir de 18 consonnes consécutives dans un mot ? ;)