Reconnaître les langues

Tchiorny · Post by **Tchiorny** » 08 Dec 2008 09:40

Le hongrois a presque l'exclusivité du double accent aigu, avec les lettres ő et ű. Mais on trouve un ӳ en tchouvache, qui l'a ajouté à l'alphabet cyrillique (API: y). Sinon, en ce qui concerne l'alphabet latin, le a̋ a connu un bref usage en slovaque, et le ø est parfois noté ő en féroïen...

svernoux · Post by **svernoux** » 08 Dec 2008 18:13

Alors mon petit iubi, la contre-indication la plus célèbre du russe, c'est que к ne peut jamais être suivi de ы.

Il y en a d'autres, mais pour te sortir ça de façon juste et systématisée, faudrait que je me replonge dans mes cours... Pas trop le temps ces jours, désolée, mais j'essaie de te le faire un de ces 4... Hésite pas à me le rappeler !

iubito · Post by **iubito** » 08 Dec 2008 18:58

c'est ajouté

iubito · Post by **iubito** » 09 Dec 2008 00:44

dans les nouveautés du soir, à part quelques nouvelles langues, c'est la détection de mots fréquents pour donner un score à une langue.

parce qu'un texte écrit en anglais, donc sans aucune diacritique, peut syntaxiquement être de n'importe quelle langue écrite en alphabet latin (aux exclusions de combinaisons foireuses près), la présence de mots tels que you,he,she,we,who,why,doesn't... augmentent le score et donc l'anglais sort en premier (et en gros).
J'vais pouvoir mettre les détections telles que c'h du breton, les terminaisons, des combinaisons uniques (au milieu d'un mot), des mots courts (pronoms, auxiliaires...).

Olivier · Post by **Olivier** » 09 Dec 2008 08:24

En hongrois, à part les lettres composées caractéristiques (zs, ssz etc.) voilà ce qu'on trouve sur Internet comme liste des mots les plus courants:

a, az, és, is, hogy, nem, egy, meg, el, vagy, csak, de, már, van, kell, ki, még, azt, mint, ha

(mais c'est vrai que ő, ű sont suffisants pour le reconnaître)
-- Olivier

iubito · Post by **iubito** » 09 Dec 2008 18:17

Merci Olivier, c'est ajouté

iubito · Post by **iubito** » 09 Dec 2008 20:22

Liste des mots les plus utilisés dans quelques langues :
http://www.markup.fr/-Les-mots-les-plus-frequents-

iubito · Post by **iubito** » 13 Dec 2008 16:09

Le script progresse

- j'ai ajouté les mots fréquents du site ci-dessus
- les mots communs dans plusieurs langues ("du" en allemand, français, danois...) rapportent moins de points ; ils sont marqués barrés.
- quelques langues ont été ajoutées (danois, suédois, islandais, féroïen...)
- j'ai ajouté des "combinaisons foireuses" du français, lettres doublées en début ou fin de mot (sauf exceptions comme zoo, Mme - abbréviation madame -)

j'm'amuse, quoi

... et pendant ce temps le bouquin anglais à traduire... euh...

Marino · Post by **Marino** » 14 Dec 2008 00:49

Bonjour à tous,

Je suis le webmestre du site markup.fr, dont le lien http://www.markup.fr/-Les-mots-les-plus-frequents- a été cité plus haut.

Juste pour vous dire de ne pas vous fier aux liens vers "les mots les plus fréquent de la langue serbo-croate". Cette langue artificielle n'a ja mais existé (mais vous le saviez sûrement). Je suis en train de me créer des corpus serbes, bosniaques et croates, et je publierai bientôt des pages de mots les plus fréquents sur ces trois langues. J'attends avec impatience qu'Europeana soit de nouveau sur les rails.

J'ajoute ne pas du tout être un linguiste. J'espère que mes pages ne vous aurons pas paru par trop erronnées.

Amitiés à tous,

Marino
http://markup.fr/

iubito · Post by **iubito** » 14 Dec 2008 07:24

bonjour Marino

je n'ai même pas regardé la page serbo-croate, ça tombe bien !

parmi les erreurs que j'ai pu voir, je pense que tu as nourris cette base avec des pages web (html), car dans certaines langues, on retrouve "href" dans les mots fréquents, c'est le code pour les liens

Code: Select all

<a href="unepage.html">ici le texte du lien</a>

donc que dire des a, i, b qu'on trouve parfois aussi dans la liste, y a-t'il bien un mot "a" et "i", ou est-ce le "a" du lien et le "i" de italique, et le "b" de bold (gras) ?
Une règle simple, ce serait d'ignorer ce qui est entre < et >, une expression régulière du genre <[^>]+> et remplacer ça par rien, puis ensuite alimenter la base.

Je ne suis pas non plus linguiste, je suis informaticien (ça serait-il remarqué ?

) mais je m'intéresse à quelques langues, notamment celles des Balkans et environs, j'adore les musiques de là-bas

Marino · Post by **Marino** » 14 Dec 2008 18:31

Ca a été LE gros problème. J'ai créé mes corpus de différentes manières, mais en général d'éditions électroniques d'oeuvres littéraires tombées dans le domains public. Merci Gutenberg.org.

Certaines de ces oeuvres contiennent des entêtes en anglais, ou des licences en anglais, ou un moyen de créer un lien HTML vers le texte en ligne. J'ai essayé de tout nettoyer, mais il y a dû y avoir des fuites.

Pour le français, l'anglais, l'italien, l'espagnol et l'allemand, j'ai vu passer des erreurs... Pour l'ukrainien, le macedonien, le slovaque, le grec... Hum, j'ai beaucoup plus de problèmes. "a" est un mot en anglais, en italien, en anglais, en espagnol. "i" est un mot en anglais et en espagnol, "e" est un mot en espagnol et en italien. Dans les autres langues, je ne sais pas.

Mon programme voit des groupes de lettres séparés par des caractères qui ne sont ni des lettres ni des tirets. Il se sert des mots commençant par une majuscule en milieu de phrase pour retirer des lexique les noms propres, mais certains passent quand même. Et certaines langues comme l'allemand capitalisent les noms communs... De plus, un processus automatique ne peut pas déterminer si un mot est un nom inventé ou pas, si un mot est une abbréviation ou pas, s'il y a une coquille ou pas. Le premier mot de Zazie dans le métro est "Doukipudonctan". Et des mots-valises, on en trouve des tas.

Il y a le problème des césures dans les oeuvres, et des mots composés. De nombreux mots composés anglais existent avec et sans tiret.

L'autre soucis provient des citations et des bibliographies en des langues différentes de celle de l'oeuvre littéraire traitée. J'ai "le Capital" en à peu près toutes les langues, mais j'ai très vite vu que l'oeuvre du grand Karl, comme toutes les oeuvres d'universitaires sont émaillées de citations en toutes les grandes langues européennes. Pour finir, malgré un filtrage algorithmique, le mot "the" apparaît 1600 fois en 100 millions de mots pour le corpus français.

Je suis en train de jeter les base d'un filtrage de second niveau, filtrage qui consistera à conparer les fréquences des mots présents dans différentes langues afin de débusquer les erreurs, mais bon, je ne me fais pas d'illusions, il y aura toujours des erreurs tant il est difficile de "borner" une langue. Trop de mots empruntés d'une langue à l'autre. Dans les pays slaves, certaines langues comportent jusqu'à 30% de mots emprunté à un pays voisin. "résumé", "précis" sont des mots anglais, "jamboree", "diktat", "aggiornamento" sont des mots français.

J'aurais aimé comparer mes lexiques à des lexiques existant, mais les seuls que j'ai trouvés (anglais et français) m'ont paru très fragmentaires. Mon lexique français compte environ 389 milles mots. L'anglais, 497 milles. Les deux avec une taux d'erreur (estimé) de 5%.

Mais comme je le disais, je ne suis pas liguiste. J'avais besoin de lexiques qui me permettent d'identifier la langue utilisée dans un site internet. C'est une logique probabiliste. Il me suffit d'identifier le langage utilisé avec 95% de chances.
Si cela vous intéresse, vous pouvez jeter un coup d'oeil à mon annuaire mondial de sites francophones (http://www.markup.fr/-Annuaire-mondial- ... ncophones-). Mon ambition est de proposer un annuaire similaire pour chacune des langues officielles de l'Europe.

iubito · Post by **iubito** » 14 Dec 2008 18:48

les mots étrangers, c'est effectivemment ce qui m'embête aussi.... certaines langues n'ont pas Q, W, X, dans leur alphabet... sauf pour les mots étrangers. Alors quand ils sont rares (comme jamboree, c'est pas tous les jours que je l'utilise en français) j'ignore, mais quand ils sont fréquents (taxi, fax...) je les ajoutes, bien obligé !

Marino · Post by **Marino** » 16 Dec 2008 14:45

Pour ceux que cela intéresse, j'ai compilé depuis la wikipedia les systèmes d'écritures des langues européennes: http://www.markup.fr/Les-alphabets-des- ... uropeennes

Si vous voyez des erreurs, merci d'avance de me les signaler.

Amitiés à tous.

Marino
http://markup.fr/

iubito · Post by **iubito** » 16 Dec 2008 14:57

pour l'allemand, tu as mis un Ô alors que c'est un Ö (tréma-umlaut au lieu de circonflexe)

himinn · Post by **himinn** » 17 Dec 2008 23:51

hectormayor wrote:- islandais : la combinaison ð + æ + þ

Cette combinaison est totalement juste mais si on ne veut pas retenir les trois je pense que pour l'islandais, seule la présence du thorn ( þ ) est décisive pour reconnaitre cette langue puisque le féroïen (ou féringien) possède également le ð et le æ mais pas le þ. A ma connaissance (l'islandais ayant très peu changé en quelques centaines d'années) c'est la seule langue a avoir gardé le þ du vieux norrois.
Ceci étant dit, on peut aussi ajouter que l'islandais ne possède pas de C, Q, W, et Z.
Quant au féroïen il a le ø que l'islandais n'a pas donc si vous voyez ð + ø dans le même texte c'est sans doute du féroïen.

LokaNova et Freelang

Reconnaître les langues

Re: Reconnaître les langues

Re: Reconnaître les langues

Re: Reconnaître les langues

Re: Reconnaître les langues

Re: Reconnaître les langues

Re: Reconnaître les langues

Re: Reconnaître les langues

Re: Reconnaître les langues

Re: Reconnaître les langues

Re: Reconnaître les langues

Re: Reconnaître les langues

Re: Reconnaître les langues

Re: Reconnaître les langues

Re: Reconnaître les langues

Re: Reconnaître les langues