Reconnaître les langues

Bienvenue sur le forum Freelang.com !

Moderators: kokoyaya, Beaumont, Sisyphe

User avatar
Tchiorny
Membre / Member
Posts: 62
Joined: 05 Sep 2008 15:09
Location: Belgique
Contact:

Re: Reconnaître les langues

Post by Tchiorny »

Le hongrois a presque l'exclusivité du double accent aigu, avec les lettres ő et ű. Mais on trouve un ӳ en tchouvache, qui l'a ajouté à l'alphabet cyrillique (API: y). Sinon, en ce qui concerne l'alphabet latin, le a connu un bref usage en slovaque, et le ø est parfois noté ő en féroïen...
User avatar
svernoux
Membre / Member
Posts: 17967
Joined: 09 Jun 2004 09:55
Location: Beaujolais

Re: Reconnaître les langues

Post by svernoux »

Alors mon petit iubi, la contre-indication la plus célèbre du russe, c'est que к ne peut jamais être suivi de ы.

Il y en a d'autres, mais pour te sortir ça de façon juste et systématisée, faudrait que je me replonge dans mes cours... Pas trop le temps ces jours, désolée, mais j'essaie de te le faire un de ces 4... Hésite pas à me le rappeler !
Sonka - Сонька
It's crazy how the time just seems to fly
But for a moment you and I, we caught it
User avatar
iubito
Membre / Member
Posts: 13070
Joined: 22 Dec 2002 20:31
Location: La belle Verte !
Contact:

Re: Reconnaître les langues

Post by iubito »

c'est ajouté :)
A+ les cactus !
A izza i ana sacranou
Askaratni kaasoun kaasoun khalidah
Ana mal' anou bihoubbinn raasikhinn
Lan yatroukani abada...
User avatar
iubito
Membre / Member
Posts: 13070
Joined: 22 Dec 2002 20:31
Location: La belle Verte !
Contact:

Re: Reconnaître les langues

Post by iubito »

dans les nouveautés du soir, à part quelques nouvelles langues, c'est la détection de mots fréquents pour donner un score à une langue.

parce qu'un texte écrit en anglais, donc sans aucune diacritique, peut syntaxiquement être de n'importe quelle langue écrite en alphabet latin (aux exclusions de combinaisons foireuses près), la présence de mots tels que you,he,she,we,who,why,doesn't... augmentent le score et donc l'anglais sort en premier (et en gros).
J'vais pouvoir mettre les détections telles que c'h du breton, les terminaisons, des combinaisons uniques (au milieu d'un mot), des mots courts (pronoms, auxiliaires...).
A+ les cactus !
A izza i ana sacranou
Askaratni kaasoun kaasoun khalidah
Ana mal' anou bihoubbinn raasikhinn
Lan yatroukani abada...
Olivier
Membre / Member
Posts: 3176
Joined: 14 Jun 2002 02:00
Location: Toulouse

Re: Reconnaître les langues

Post by Olivier »

En hongrois, à part les lettres composées caractéristiques (zs, ssz etc.) voilà ce qu'on trouve sur Internet comme liste des mots les plus courants:
a, az, és, is, hogy, nem, egy, meg, el, vagy, csak, de, már, van, kell, ki, még, azt, mint, ha
(mais c'est vrai que ő, ű sont suffisants pour le reconnaître)
-- Olivier
Se nem kicsi, se nem nagy: Ni trop petit(e), ni trop grand(e):
Éppen hozzám való vagy! Tu es juste fait(e) pour moi!
User avatar
iubito
Membre / Member
Posts: 13070
Joined: 22 Dec 2002 20:31
Location: La belle Verte !
Contact:

Re: Reconnaître les langues

Post by iubito »

Merci Olivier, c'est ajouté ;)
A+ les cactus !
A izza i ana sacranou
Askaratni kaasoun kaasoun khalidah
Ana mal' anou bihoubbinn raasikhinn
Lan yatroukani abada...
User avatar
iubito
Membre / Member
Posts: 13070
Joined: 22 Dec 2002 20:31
Location: La belle Verte !
Contact:

Re: Reconnaître les langues

Post by iubito »

Liste des mots les plus utilisés dans quelques langues :
http://www.markup.fr/-Les-mots-les-plus-frequents-
A+ les cactus !
A izza i ana sacranou
Askaratni kaasoun kaasoun khalidah
Ana mal' anou bihoubbinn raasikhinn
Lan yatroukani abada...
User avatar
iubito
Membre / Member
Posts: 13070
Joined: 22 Dec 2002 20:31
Location: La belle Verte !
Contact:

Re: Reconnaître les langues

Post by iubito »

Le script progresse :)

- j'ai ajouté les mots fréquents du site ci-dessus
- les mots communs dans plusieurs langues ("du" en allemand, français, danois...) rapportent moins de points ; ils sont marqués barrés.
- quelques langues ont été ajoutées (danois, suédois, islandais, féroïen...)
- j'ai ajouté des "combinaisons foireuses" du français, lettres doublées en début ou fin de mot (sauf exceptions comme zoo, Mme - abbréviation madame -)


j'm'amuse, quoi :D... et pendant ce temps le bouquin anglais à traduire... euh... :roll:
A+ les cactus !
A izza i ana sacranou
Askaratni kaasoun kaasoun khalidah
Ana mal' anou bihoubbinn raasikhinn
Lan yatroukani abada...
Marino
Guest

Re: Reconnaître les langues

Post by Marino »

Bonjour à tous,

Je suis le webmestre du site markup.fr, dont le lien http://www.markup.fr/-Les-mots-les-plus-frequents- a été cité plus haut.

Juste pour vous dire de ne pas vous fier aux liens vers "les mots les plus fréquent de la langue serbo-croate". Cette langue artificielle n'a ja mais existé (mais vous le saviez sûrement). Je suis en train de me créer des corpus serbes, bosniaques et croates, et je publierai bientôt des pages de mots les plus fréquents sur ces trois langues. J'attends avec impatience qu'Europeana soit de nouveau sur les rails.

J'ajoute ne pas du tout être un linguiste. J'espère que mes pages ne vous aurons pas paru par trop erronnées.

Amitiés à tous,

Marino
http://markup.fr/
User avatar
iubito
Membre / Member
Posts: 13070
Joined: 22 Dec 2002 20:31
Location: La belle Verte !
Contact:

Re: Reconnaître les langues

Post by iubito »

bonjour Marino :hello:

je n'ai même pas regardé la page serbo-croate, ça tombe bien ! :)
parmi les erreurs que j'ai pu voir, je pense que tu as nourris cette base avec des pages web (html), car dans certaines langues, on retrouve "href" dans les mots fréquents, c'est le code pour les liens

Code: Select all

<a href="unepage.html">ici le texte du lien</a>
donc que dire des a, i, b qu'on trouve parfois aussi dans la liste, y a-t'il bien un mot "a" et "i", ou est-ce le "a" du lien et le "i" de italique, et le "b" de bold (gras) ?
Une règle simple, ce serait d'ignorer ce qui est entre < et >, une expression régulière du genre <[^>]+> et remplacer ça par rien, puis ensuite alimenter la base.

Je ne suis pas non plus linguiste, je suis informaticien (ça serait-il remarqué ? :lol: ) mais je m'intéresse à quelques langues, notamment celles des Balkans et environs, j'adore les musiques de là-bas :)
A+ les cactus !
A izza i ana sacranou
Askaratni kaasoun kaasoun khalidah
Ana mal' anou bihoubbinn raasikhinn
Lan yatroukani abada...
Marino
Guest

Re: Reconnaître les langues

Post by Marino »

Ca a été LE gros problème. J'ai créé mes corpus de différentes manières, mais en général d'éditions électroniques d'oeuvres littéraires tombées dans le domains public. Merci Gutenberg.org.

Certaines de ces oeuvres contiennent des entêtes en anglais, ou des licences en anglais, ou un moyen de créer un lien HTML vers le texte en ligne. J'ai essayé de tout nettoyer, mais il y a dû y avoir des fuites.

Pour le français, l'anglais, l'italien, l'espagnol et l'allemand, j'ai vu passer des erreurs... Pour l'ukrainien, le macedonien, le slovaque, le grec... Hum, j'ai beaucoup plus de problèmes. "a" est un mot en anglais, en italien, en anglais, en espagnol. "i" est un mot en anglais et en espagnol, "e" est un mot en espagnol et en italien. Dans les autres langues, je ne sais pas.

Mon programme voit des groupes de lettres séparés par des caractères qui ne sont ni des lettres ni des tirets. Il se sert des mots commençant par une majuscule en milieu de phrase pour retirer des lexique les noms propres, mais certains passent quand même. Et certaines langues comme l'allemand capitalisent les noms communs... De plus, un processus automatique ne peut pas déterminer si un mot est un nom inventé ou pas, si un mot est une abbréviation ou pas, s'il y a une coquille ou pas. Le premier mot de Zazie dans le métro est "Doukipudonctan". Et des mots-valises, on en trouve des tas.

Il y a le problème des césures dans les oeuvres, et des mots composés. De nombreux mots composés anglais existent avec et sans tiret.

L'autre soucis provient des citations et des bibliographies en des langues différentes de celle de l'oeuvre littéraire traitée. J'ai "le Capital" en à peu près toutes les langues, mais j'ai très vite vu que l'oeuvre du grand Karl, comme toutes les oeuvres d'universitaires sont émaillées de citations en toutes les grandes langues européennes. Pour finir, malgré un filtrage algorithmique, le mot "the" apparaît 1600 fois en 100 millions de mots pour le corpus français.

Je suis en train de jeter les base d'un filtrage de second niveau, filtrage qui consistera à conparer les fréquences des mots présents dans différentes langues afin de débusquer les erreurs, mais bon, je ne me fais pas d'illusions, il y aura toujours des erreurs tant il est difficile de "borner" une langue. Trop de mots empruntés d'une langue à l'autre. Dans les pays slaves, certaines langues comportent jusqu'à 30% de mots emprunté à un pays voisin. "résumé", "précis" sont des mots anglais, "jamboree", "diktat", "aggiornamento" sont des mots français.

J'aurais aimé comparer mes lexiques à des lexiques existant, mais les seuls que j'ai trouvés (anglais et français) m'ont paru très fragmentaires. Mon lexique français compte environ 389 milles mots. L'anglais, 497 milles. Les deux avec une taux d'erreur (estimé) de 5%.

Mais comme je le disais, je ne suis pas liguiste. J'avais besoin de lexiques qui me permettent d'identifier la langue utilisée dans un site internet. C'est une logique probabiliste. Il me suffit d'identifier le langage utilisé avec 95% de chances.
Si cela vous intéresse, vous pouvez jeter un coup d'oeil à mon annuaire mondial de sites francophones (http://www.markup.fr/-Annuaire-mondial- ... ncophones-). Mon ambition est de proposer un annuaire similaire pour chacune des langues officielles de l'Europe.
User avatar
iubito
Membre / Member
Posts: 13070
Joined: 22 Dec 2002 20:31
Location: La belle Verte !
Contact:

Re: Reconnaître les langues

Post by iubito »

les mots étrangers, c'est effectivemment ce qui m'embête aussi.... certaines langues n'ont pas Q, W, X, dans leur alphabet... sauf pour les mots étrangers. Alors quand ils sont rares (comme jamboree, c'est pas tous les jours que je l'utilise en français) j'ignore, mais quand ils sont fréquents (taxi, fax...) je les ajoutes, bien obligé !
A+ les cactus !
A izza i ana sacranou
Askaratni kaasoun kaasoun khalidah
Ana mal' anou bihoubbinn raasikhinn
Lan yatroukani abada...
Marino
Guest

Re: Reconnaître les langues

Post by Marino »

Pour ceux que cela intéresse, j'ai compilé depuis la wikipedia les systèmes d'écritures des langues européennes: http://www.markup.fr/Les-alphabets-des- ... uropeennes

Si vous voyez des erreurs, merci d'avance de me les signaler.

Amitiés à tous.

Marino
http://markup.fr/
User avatar
iubito
Membre / Member
Posts: 13070
Joined: 22 Dec 2002 20:31
Location: La belle Verte !
Contact:

Re: Reconnaître les langues

Post by iubito »

pour l'allemand, tu as mis un Ô alors que c'est un Ö (tréma-umlaut au lieu de circonflexe)
A+ les cactus !
A izza i ana sacranou
Askaratni kaasoun kaasoun khalidah
Ana mal' anou bihoubbinn raasikhinn
Lan yatroukani abada...
User avatar
himinn
Membre / Member
Posts: 93
Joined: 15 Dec 2008 20:51

Re: Reconnaître les langues

Post by himinn »

hectormayor wrote:- islandais : la combinaison ð + æ + þ
Cette combinaison est totalement juste mais si on ne veut pas retenir les trois je pense que pour l'islandais, seule la présence du thorn ( þ ) est décisive pour reconnaitre cette langue puisque le féroïen (ou féringien) possède également le ð et le æ mais pas le þ. A ma connaissance (l'islandais ayant très peu changé en quelques centaines d'années) c'est la seule langue a avoir gardé le þ du vieux norrois.
Ceci étant dit, on peut aussi ajouter que l'islandais ne possède pas de C, Q, W, et Z.
Quant au féroïen il a le ø que l'islandais n'a pas donc si vous voyez ð + ø dans le même texte c'est sans doute du féroïen.
Heyrði þú í Hafrsfirði,
hvé hizug barðisk.
Knerrir kómu austan,
kapps of lystir,
með gínöndum höfðum
ok gröfnum tinglum...
Post Reply