Ca a été LE gros problème. J'ai créé mes corpus de différentes manières, mais en général d'éditions électroniques d'oeuvres littéraires tombées dans le domains public. Merci Gutenberg.org.
Certaines de ces oeuvres contiennent des entêtes en anglais, ou des licences en anglais, ou un moyen de créer un lien HTML vers le texte en ligne. J'ai essayé de tout nettoyer, mais il y a dû y avoir des fuites.
Pour le français, l'anglais, l'italien, l'espagnol et l'allemand, j'ai vu passer des erreurs... Pour l'ukrainien, le macedonien, le slovaque, le grec... Hum, j'ai beaucoup plus de problèmes. "a" est un mot en anglais, en italien, en anglais, en espagnol. "i" est un mot en anglais et en espagnol, "e" est un mot en espagnol et en italien. Dans les autres langues, je ne sais pas.
Mon programme voit des groupes de lettres séparés par des caractères qui ne sont ni des lettres ni des tirets. Il se sert des mots commençant par une majuscule en milieu de phrase pour retirer des lexique les noms propres, mais certains passent quand même. Et certaines langues comme l'allemand capitalisent les noms communs... De plus, un processus automatique ne peut pas déterminer si un mot est un nom inventé ou pas, si un mot est une abbréviation ou pas, s'il y a une coquille ou pas. Le premier mot de Zazie dans le métro est "Doukipudonctan". Et des mots-valises, on en trouve des tas.
Il y a le problème des césures dans les oeuvres, et des mots composés. De nombreux mots composés anglais existent avec et sans tiret.
L'autre soucis provient des citations et des bibliographies en des langues différentes de celle de l'oeuvre littéraire traitée. J'ai "le Capital" en à peu près toutes les langues, mais j'ai très vite vu que l'oeuvre du grand Karl, comme toutes les oeuvres d'universitaires sont émaillées de citations en toutes les grandes langues européennes. Pour finir, malgré un filtrage algorithmique, le mot "the" apparaît 1600 fois en 100 millions de mots pour le corpus français.
Je suis en train de jeter les base d'un filtrage de second niveau, filtrage qui consistera à conparer les fréquences des mots présents dans différentes langues afin de débusquer les erreurs, mais bon, je ne me fais pas d'illusions, il y aura toujours des erreurs tant il est difficile de "borner" une langue. Trop de mots empruntés d'une langue à l'autre. Dans les pays slaves, certaines langues comportent jusqu'à 30% de mots emprunté à un pays voisin. "résumé", "précis" sont des mots anglais, "jamboree", "diktat", "aggiornamento" sont des mots français.
J'aurais aimé comparer mes lexiques à des lexiques existant, mais les seuls que j'ai trouvés (anglais et français) m'ont paru très fragmentaires. Mon lexique français compte environ 389 milles mots. L'anglais, 497 milles. Les deux avec une taux d'erreur (estimé) de 5%.
Mais comme je le disais, je ne suis pas liguiste. J'avais besoin de lexiques qui me permettent d'identifier la langue utilisée dans un site internet. C'est une logique probabiliste. Il me suffit d'identifier le langage utilisé avec 95% de chances.
Si cela vous intéresse, vous pouvez jeter un coup d'oeil à mon annuaire mondial de sites francophones (
http://www.markup.fr/-Annuaire-mondial- ... ncophones-). Mon ambition est de proposer un annuaire similaire pour chacune des langues officielles de l'Europe.