Reconnaître les langues
Moderators: kokoyaya, Beaumont, Sisyphe
Re: Reconnaître les langues
Le hongrois a presque l'exclusivité du double accent aigu, avec les lettres ő et ű. Mais on trouve un ӳ en tchouvache, qui l'a ajouté à l'alphabet cyrillique (API: y). Sinon, en ce qui concerne l'alphabet latin, le a̋ a connu un bref usage en slovaque, et le ø est parfois noté ő en féroïen...
Re: Reconnaître les langues
Alors mon petit iubi, la contre-indication la plus célèbre du russe, c'est que к ne peut jamais être suivi de ы.
Il y en a d'autres, mais pour te sortir ça de façon juste et systématisée, faudrait que je me replonge dans mes cours... Pas trop le temps ces jours, désolée, mais j'essaie de te le faire un de ces 4... Hésite pas à me le rappeler !
Il y en a d'autres, mais pour te sortir ça de façon juste et systématisée, faudrait que je me replonge dans mes cours... Pas trop le temps ces jours, désolée, mais j'essaie de te le faire un de ces 4... Hésite pas à me le rappeler !
Sonka - Сонька
It's crazy how the time just seems to fly
But for a moment you and I, we caught it
It's crazy how the time just seems to fly
But for a moment you and I, we caught it
Re: Reconnaître les langues
c'est ajouté 

A+ les cactus !
A izza i ana sacranou
Askaratni kaasoun kaasoun khalidah
Ana mal' anou bihoubbinn raasikhinn
Lan yatroukani abada...
A izza i ana sacranou
Askaratni kaasoun kaasoun khalidah
Ana mal' anou bihoubbinn raasikhinn
Lan yatroukani abada...
Re: Reconnaître les langues
dans les nouveautés du soir, à part quelques nouvelles langues, c'est la détection de mots fréquents pour donner un score à une langue.
parce qu'un texte écrit en anglais, donc sans aucune diacritique, peut syntaxiquement être de n'importe quelle langue écrite en alphabet latin (aux exclusions de combinaisons foireuses près), la présence de mots tels que you,he,she,we,who,why,doesn't... augmentent le score et donc l'anglais sort en premier (et en gros).
J'vais pouvoir mettre les détections telles que c'h du breton, les terminaisons, des combinaisons uniques (au milieu d'un mot), des mots courts (pronoms, auxiliaires...).
parce qu'un texte écrit en anglais, donc sans aucune diacritique, peut syntaxiquement être de n'importe quelle langue écrite en alphabet latin (aux exclusions de combinaisons foireuses près), la présence de mots tels que you,he,she,we,who,why,doesn't... augmentent le score et donc l'anglais sort en premier (et en gros).
J'vais pouvoir mettre les détections telles que c'h du breton, les terminaisons, des combinaisons uniques (au milieu d'un mot), des mots courts (pronoms, auxiliaires...).
A+ les cactus !
A izza i ana sacranou
Askaratni kaasoun kaasoun khalidah
Ana mal' anou bihoubbinn raasikhinn
Lan yatroukani abada...
A izza i ana sacranou
Askaratni kaasoun kaasoun khalidah
Ana mal' anou bihoubbinn raasikhinn
Lan yatroukani abada...
Re: Reconnaître les langues
En hongrois, à part les lettres composées caractéristiques (zs, ssz etc.) voilà ce qu'on trouve sur Internet comme liste des mots les plus courants:
-- Olivier
(mais c'est vrai que ő, ű sont suffisants pour le reconnaître)a, az, és, is, hogy, nem, egy, meg, el, vagy, csak, de, már, van, kell, ki, még, azt, mint, ha
-- Olivier
Se nem kicsi, se nem nagy: Ni trop petit(e), ni trop grand(e):
Éppen hozzám való vagy! Tu es juste fait(e) pour moi!
Éppen hozzám való vagy! Tu es juste fait(e) pour moi!
Re: Reconnaître les langues
Merci Olivier, c'est ajouté 

A+ les cactus !
A izza i ana sacranou
Askaratni kaasoun kaasoun khalidah
Ana mal' anou bihoubbinn raasikhinn
Lan yatroukani abada...
A izza i ana sacranou
Askaratni kaasoun kaasoun khalidah
Ana mal' anou bihoubbinn raasikhinn
Lan yatroukani abada...
Re: Reconnaître les langues
Liste des mots les plus utilisés dans quelques langues :
http://www.markup.fr/-Les-mots-les-plus-frequents-
http://www.markup.fr/-Les-mots-les-plus-frequents-
A+ les cactus !
A izza i ana sacranou
Askaratni kaasoun kaasoun khalidah
Ana mal' anou bihoubbinn raasikhinn
Lan yatroukani abada...
A izza i ana sacranou
Askaratni kaasoun kaasoun khalidah
Ana mal' anou bihoubbinn raasikhinn
Lan yatroukani abada...
Re: Reconnaître les langues
Le script progresse 
- j'ai ajouté les mots fréquents du site ci-dessus
- les mots communs dans plusieurs langues ("du" en allemand, français, danois...) rapportent moins de points ; ils sont marqués barrés.
- quelques langues ont été ajoutées (danois, suédois, islandais, féroïen...)
- j'ai ajouté des "combinaisons foireuses" du français, lettres doublées en début ou fin de mot (sauf exceptions comme zoo, Mme - abbréviation madame -)
j'm'amuse, quoi
... et pendant ce temps le bouquin anglais à traduire... euh... 

- j'ai ajouté les mots fréquents du site ci-dessus
- les mots communs dans plusieurs langues ("du" en allemand, français, danois...) rapportent moins de points ; ils sont marqués barrés.
- quelques langues ont été ajoutées (danois, suédois, islandais, féroïen...)
- j'ai ajouté des "combinaisons foireuses" du français, lettres doublées en début ou fin de mot (sauf exceptions comme zoo, Mme - abbréviation madame -)
j'm'amuse, quoi


A+ les cactus !
A izza i ana sacranou
Askaratni kaasoun kaasoun khalidah
Ana mal' anou bihoubbinn raasikhinn
Lan yatroukani abada...
A izza i ana sacranou
Askaratni kaasoun kaasoun khalidah
Ana mal' anou bihoubbinn raasikhinn
Lan yatroukani abada...
-
- Guest
Re: Reconnaître les langues
Bonjour à tous,
Je suis le webmestre du site markup.fr, dont le lien http://www.markup.fr/-Les-mots-les-plus-frequents- a été cité plus haut.
Juste pour vous dire de ne pas vous fier aux liens vers "les mots les plus fréquent de la langue serbo-croate". Cette langue artificielle n'a ja mais existé (mais vous le saviez sûrement). Je suis en train de me créer des corpus serbes, bosniaques et croates, et je publierai bientôt des pages de mots les plus fréquents sur ces trois langues. J'attends avec impatience qu'Europeana soit de nouveau sur les rails.
J'ajoute ne pas du tout être un linguiste. J'espère que mes pages ne vous aurons pas paru par trop erronnées.
Amitiés à tous,
Marino
http://markup.fr/
Je suis le webmestre du site markup.fr, dont le lien http://www.markup.fr/-Les-mots-les-plus-frequents- a été cité plus haut.
Juste pour vous dire de ne pas vous fier aux liens vers "les mots les plus fréquent de la langue serbo-croate". Cette langue artificielle n'a ja mais existé (mais vous le saviez sûrement). Je suis en train de me créer des corpus serbes, bosniaques et croates, et je publierai bientôt des pages de mots les plus fréquents sur ces trois langues. J'attends avec impatience qu'Europeana soit de nouveau sur les rails.
J'ajoute ne pas du tout être un linguiste. J'espère que mes pages ne vous aurons pas paru par trop erronnées.
Amitiés à tous,
Marino
http://markup.fr/
Re: Reconnaître les langues
bonjour Marino 
je n'ai même pas regardé la page serbo-croate, ça tombe bien !
parmi les erreurs que j'ai pu voir, je pense que tu as nourris cette base avec des pages web (html), car dans certaines langues, on retrouve "href" dans les mots fréquents, c'est le code pour les liens
donc que dire des a, i, b qu'on trouve parfois aussi dans la liste, y a-t'il bien un mot "a" et "i", ou est-ce le "a" du lien et le "i" de italique, et le "b" de bold (gras) ?
Une règle simple, ce serait d'ignorer ce qui est entre < et >, une expression régulière du genre <[^>]+> et remplacer ça par rien, puis ensuite alimenter la base.
Je ne suis pas non plus linguiste, je suis informaticien (ça serait-il remarqué ?
) mais je m'intéresse à quelques langues, notamment celles des Balkans et environs, j'adore les musiques de là-bas 

je n'ai même pas regardé la page serbo-croate, ça tombe bien !

parmi les erreurs que j'ai pu voir, je pense que tu as nourris cette base avec des pages web (html), car dans certaines langues, on retrouve "href" dans les mots fréquents, c'est le code pour les liens
Code: Select all
<a href="unepage.html">ici le texte du lien</a>
Une règle simple, ce serait d'ignorer ce qui est entre < et >, une expression régulière du genre <[^>]+> et remplacer ça par rien, puis ensuite alimenter la base.
Je ne suis pas non plus linguiste, je suis informaticien (ça serait-il remarqué ?


A+ les cactus !
A izza i ana sacranou
Askaratni kaasoun kaasoun khalidah
Ana mal' anou bihoubbinn raasikhinn
Lan yatroukani abada...
A izza i ana sacranou
Askaratni kaasoun kaasoun khalidah
Ana mal' anou bihoubbinn raasikhinn
Lan yatroukani abada...
-
- Guest
Re: Reconnaître les langues
Ca a été LE gros problème. J'ai créé mes corpus de différentes manières, mais en général d'éditions électroniques d'oeuvres littéraires tombées dans le domains public. Merci Gutenberg.org.
Certaines de ces oeuvres contiennent des entêtes en anglais, ou des licences en anglais, ou un moyen de créer un lien HTML vers le texte en ligne. J'ai essayé de tout nettoyer, mais il y a dû y avoir des fuites.
Pour le français, l'anglais, l'italien, l'espagnol et l'allemand, j'ai vu passer des erreurs... Pour l'ukrainien, le macedonien, le slovaque, le grec... Hum, j'ai beaucoup plus de problèmes. "a" est un mot en anglais, en italien, en anglais, en espagnol. "i" est un mot en anglais et en espagnol, "e" est un mot en espagnol et en italien. Dans les autres langues, je ne sais pas.
Mon programme voit des groupes de lettres séparés par des caractères qui ne sont ni des lettres ni des tirets. Il se sert des mots commençant par une majuscule en milieu de phrase pour retirer des lexique les noms propres, mais certains passent quand même. Et certaines langues comme l'allemand capitalisent les noms communs... De plus, un processus automatique ne peut pas déterminer si un mot est un nom inventé ou pas, si un mot est une abbréviation ou pas, s'il y a une coquille ou pas. Le premier mot de Zazie dans le métro est "Doukipudonctan". Et des mots-valises, on en trouve des tas.
Il y a le problème des césures dans les oeuvres, et des mots composés. De nombreux mots composés anglais existent avec et sans tiret.
L'autre soucis provient des citations et des bibliographies en des langues différentes de celle de l'oeuvre littéraire traitée. J'ai "le Capital" en à peu près toutes les langues, mais j'ai très vite vu que l'oeuvre du grand Karl, comme toutes les oeuvres d'universitaires sont émaillées de citations en toutes les grandes langues européennes. Pour finir, malgré un filtrage algorithmique, le mot "the" apparaît 1600 fois en 100 millions de mots pour le corpus français.
Je suis en train de jeter les base d'un filtrage de second niveau, filtrage qui consistera à conparer les fréquences des mots présents dans différentes langues afin de débusquer les erreurs, mais bon, je ne me fais pas d'illusions, il y aura toujours des erreurs tant il est difficile de "borner" une langue. Trop de mots empruntés d'une langue à l'autre. Dans les pays slaves, certaines langues comportent jusqu'à 30% de mots emprunté à un pays voisin. "résumé", "précis" sont des mots anglais, "jamboree", "diktat", "aggiornamento" sont des mots français.
J'aurais aimé comparer mes lexiques à des lexiques existant, mais les seuls que j'ai trouvés (anglais et français) m'ont paru très fragmentaires. Mon lexique français compte environ 389 milles mots. L'anglais, 497 milles. Les deux avec une taux d'erreur (estimé) de 5%.
Mais comme je le disais, je ne suis pas liguiste. J'avais besoin de lexiques qui me permettent d'identifier la langue utilisée dans un site internet. C'est une logique probabiliste. Il me suffit d'identifier le langage utilisé avec 95% de chances.
Si cela vous intéresse, vous pouvez jeter un coup d'oeil à mon annuaire mondial de sites francophones (http://www.markup.fr/-Annuaire-mondial- ... ncophones-). Mon ambition est de proposer un annuaire similaire pour chacune des langues officielles de l'Europe.
Certaines de ces oeuvres contiennent des entêtes en anglais, ou des licences en anglais, ou un moyen de créer un lien HTML vers le texte en ligne. J'ai essayé de tout nettoyer, mais il y a dû y avoir des fuites.
Pour le français, l'anglais, l'italien, l'espagnol et l'allemand, j'ai vu passer des erreurs... Pour l'ukrainien, le macedonien, le slovaque, le grec... Hum, j'ai beaucoup plus de problèmes. "a" est un mot en anglais, en italien, en anglais, en espagnol. "i" est un mot en anglais et en espagnol, "e" est un mot en espagnol et en italien. Dans les autres langues, je ne sais pas.
Mon programme voit des groupes de lettres séparés par des caractères qui ne sont ni des lettres ni des tirets. Il se sert des mots commençant par une majuscule en milieu de phrase pour retirer des lexique les noms propres, mais certains passent quand même. Et certaines langues comme l'allemand capitalisent les noms communs... De plus, un processus automatique ne peut pas déterminer si un mot est un nom inventé ou pas, si un mot est une abbréviation ou pas, s'il y a une coquille ou pas. Le premier mot de Zazie dans le métro est "Doukipudonctan". Et des mots-valises, on en trouve des tas.
Il y a le problème des césures dans les oeuvres, et des mots composés. De nombreux mots composés anglais existent avec et sans tiret.
L'autre soucis provient des citations et des bibliographies en des langues différentes de celle de l'oeuvre littéraire traitée. J'ai "le Capital" en à peu près toutes les langues, mais j'ai très vite vu que l'oeuvre du grand Karl, comme toutes les oeuvres d'universitaires sont émaillées de citations en toutes les grandes langues européennes. Pour finir, malgré un filtrage algorithmique, le mot "the" apparaît 1600 fois en 100 millions de mots pour le corpus français.
Je suis en train de jeter les base d'un filtrage de second niveau, filtrage qui consistera à conparer les fréquences des mots présents dans différentes langues afin de débusquer les erreurs, mais bon, je ne me fais pas d'illusions, il y aura toujours des erreurs tant il est difficile de "borner" une langue. Trop de mots empruntés d'une langue à l'autre. Dans les pays slaves, certaines langues comportent jusqu'à 30% de mots emprunté à un pays voisin. "résumé", "précis" sont des mots anglais, "jamboree", "diktat", "aggiornamento" sont des mots français.
J'aurais aimé comparer mes lexiques à des lexiques existant, mais les seuls que j'ai trouvés (anglais et français) m'ont paru très fragmentaires. Mon lexique français compte environ 389 milles mots. L'anglais, 497 milles. Les deux avec une taux d'erreur (estimé) de 5%.
Mais comme je le disais, je ne suis pas liguiste. J'avais besoin de lexiques qui me permettent d'identifier la langue utilisée dans un site internet. C'est une logique probabiliste. Il me suffit d'identifier le langage utilisé avec 95% de chances.
Si cela vous intéresse, vous pouvez jeter un coup d'oeil à mon annuaire mondial de sites francophones (http://www.markup.fr/-Annuaire-mondial- ... ncophones-). Mon ambition est de proposer un annuaire similaire pour chacune des langues officielles de l'Europe.
Re: Reconnaître les langues
les mots étrangers, c'est effectivemment ce qui m'embête aussi.... certaines langues n'ont pas Q, W, X, dans leur alphabet... sauf pour les mots étrangers. Alors quand ils sont rares (comme jamboree, c'est pas tous les jours que je l'utilise en français) j'ignore, mais quand ils sont fréquents (taxi, fax...) je les ajoutes, bien obligé !
A+ les cactus !
A izza i ana sacranou
Askaratni kaasoun kaasoun khalidah
Ana mal' anou bihoubbinn raasikhinn
Lan yatroukani abada...
A izza i ana sacranou
Askaratni kaasoun kaasoun khalidah
Ana mal' anou bihoubbinn raasikhinn
Lan yatroukani abada...
-
- Guest
Re: Reconnaître les langues
Pour ceux que cela intéresse, j'ai compilé depuis la wikipedia les systèmes d'écritures des langues européennes: http://www.markup.fr/Les-alphabets-des- ... uropeennes
Si vous voyez des erreurs, merci d'avance de me les signaler.
Amitiés à tous.
Marino
http://markup.fr/
Si vous voyez des erreurs, merci d'avance de me les signaler.
Amitiés à tous.
Marino
http://markup.fr/
Re: Reconnaître les langues
pour l'allemand, tu as mis un Ô alors que c'est un Ö (tréma-umlaut au lieu de circonflexe)
A+ les cactus !
A izza i ana sacranou
Askaratni kaasoun kaasoun khalidah
Ana mal' anou bihoubbinn raasikhinn
Lan yatroukani abada...
A izza i ana sacranou
Askaratni kaasoun kaasoun khalidah
Ana mal' anou bihoubbinn raasikhinn
Lan yatroukani abada...
Re: Reconnaître les langues
Cette combinaison est totalement juste mais si on ne veut pas retenir les trois je pense que pour l'islandais, seule la présence du thorn ( þ ) est décisive pour reconnaitre cette langue puisque le féroïen (ou féringien) possède également le ð et le æ mais pas le þ. A ma connaissance (l'islandais ayant très peu changé en quelques centaines d'années) c'est la seule langue a avoir gardé le þ du vieux norrois.hectormayor wrote:- islandais : la combinaison ð + æ + þ
Ceci étant dit, on peut aussi ajouter que l'islandais ne possède pas de C, Q, W, et Z.
Quant au féroïen il a le ø que l'islandais n'a pas donc si vous voyez ð + ø dans le même texte c'est sans doute du féroïen.
Heyrði þú í Hafrsfirði,
hvé hizug barðisk.
Knerrir kómu austan,
kapps of lystir,
með gínöndum höfðum
ok gröfnum tinglum...
hvé hizug barðisk.
Knerrir kómu austan,
kapps of lystir,
með gínöndum höfðum
ok gröfnum tinglum...