Après le grec, le cyrillique, l'hindi, je m'attaque à l'alphabet arabe moderne, pour avoir une transcription informatique, fût-elle grossière, d'un mot ou d'une phrase.
Or en arabe, comme en hébreu et steno, les voyelles peuvent être omises.
Comment les restituer avec une proba >50 % sans être locuteur ni accéder à une base dico ?
Un exemple:
المغرب
al maghrib le Maroc
or une transcription stricte donnera a l m gh r b = almghrb
La première idée serait d'associer une voyelle à chaque consonne non pourvue (al).
almagharaba
1) tout d'abord, hormis une petite liste de mots, puis je considérer 'al' en début de mot comme article ?
2) ghr forme ici un seul phonème. Quels sont les autres regroupements classiques (en français, bl br cl cr ch chl chr dr fl fr gl gn gr kl kn kr pl pn pr ps pt sc scr sl sm sn sp tr ts vl vr + cc ll mm nn pp rr ss tt) ?
3) a est-elle la voyelle la plus fréquente quel que soit la consonne ? maghrib et non maghrab
4) ici le b est final. Peut on le savoir ( idem qtr = qatar ou mr = umar (Omar))
Les problèmes doivent être similaires en hébreu contemporain... ?
Transcription arabe/hébreu et voyelles absentes
Moderators: kokoyaya, Beaumont, Sisyphe
Transcription arabe/hébreu et voyelles absentes
Last edited by fricot on 18 Dec 2011 16:10, edited 1 time in total.
80% des termes scientifiques sont multi-lingues (à 12,43% près)
Re: Transcription arabe/hébreu et voyelles absentest
Bonjour,
Il existe des règles permettant de prévoir les voyelles courtes dans une certaine mesure, mais elles ne sont pas valables dans tous les cas
1/Non, car il existe toute une série de verbes qui commencent par "il" (par exemple iltahama التهم, qui veut dire "dévorer") qui s'écrit pareil. D'ailleurs, en fonction du contexte, le même mot non-vocalisé pourrait se lire al-tuham, qui signifierait alors "les accusations" (tuham étant le pluriel de tuhma, accusation).
2/Il n'y a pas de regroupements-types en arabe, à ma connaissance. Ce n'est pas la piste à suivre au vu de votre objectif. Il faudrait plutôt que vous vous intéressiez aux schèmes nominaux et verbaux, mais bon courage car ils se dénombrent par dizaines, voire même par centaines.
Par exemple, ici maghrib donne lieu à un regroupement ghr simplement parce que ce mot correspond au schème m-a-C-0-C-i-C (j'ai mis 0 pour noter l'absence de voyelle courte, donc succession directe des deux consonnes) où l'on remplace les trois consonnes par la racine du mot (ici gh-r-b).
Maghrib signifie ouest.
Pour "est", on a le même schème, mais cette fois avec la racine SH-R-Q, ce qui donne mashriq.
Mais même si vous réussissiez à intégrer tous les schèmes existants dans un modèle, vous vous heurteriez à l'omniprésence des possibilités de lecture multiples qui ne sont déterminées que par le contexte.
Ainsi la distinction voix active, voix passive :
قتل شرطي أمس (qutila shurTy ams) on sait que c'est une voix passive puisqu'il n'y a pas de COD, donc le verbe q-t-l se lit qutila, puisque CuCiCa est le schème de la voix passive au passé pour les verbes trilitères
قتل شرطي شخصا (qatala shurty shaKhSan) on sait que c'est une voix active puisqu'il y a un COD.
De même pour la vocalisation de la plupart des verbes trilitères au présent pour la deuxième consonne, puisqu'elle peut être aussi bien yaCCaCu que yaCCuCu que yaCCiCu, sans véritable possibilité de prédiction.
Il existe des règles permettant de prévoir les voyelles courtes dans une certaine mesure, mais elles ne sont pas valables dans tous les cas
1/Non, car il existe toute une série de verbes qui commencent par "il" (par exemple iltahama التهم, qui veut dire "dévorer") qui s'écrit pareil. D'ailleurs, en fonction du contexte, le même mot non-vocalisé pourrait se lire al-tuham, qui signifierait alors "les accusations" (tuham étant le pluriel de tuhma, accusation).
2/Il n'y a pas de regroupements-types en arabe, à ma connaissance. Ce n'est pas la piste à suivre au vu de votre objectif. Il faudrait plutôt que vous vous intéressiez aux schèmes nominaux et verbaux, mais bon courage car ils se dénombrent par dizaines, voire même par centaines.
Par exemple, ici maghrib donne lieu à un regroupement ghr simplement parce que ce mot correspond au schème m-a-C-0-C-i-C (j'ai mis 0 pour noter l'absence de voyelle courte, donc succession directe des deux consonnes) où l'on remplace les trois consonnes par la racine du mot (ici gh-r-b).
Maghrib signifie ouest.
Pour "est", on a le même schème, mais cette fois avec la racine SH-R-Q, ce qui donne mashriq.
Mais même si vous réussissiez à intégrer tous les schèmes existants dans un modèle, vous vous heurteriez à l'omniprésence des possibilités de lecture multiples qui ne sont déterminées que par le contexte.
Ainsi la distinction voix active, voix passive :
قتل شرطي أمس (qutila shurTy ams) on sait que c'est une voix passive puisqu'il n'y a pas de COD, donc le verbe q-t-l se lit qutila, puisque CuCiCa est le schème de la voix passive au passé pour les verbes trilitères
قتل شرطي شخصا (qatala shurty shaKhSan) on sait que c'est une voix active puisqu'il y a un COD.
De même pour la vocalisation de la plupart des verbes trilitères au présent pour la deuxième consonne, puisqu'elle peut être aussi bien yaCCaCu que yaCCuCu que yaCCiCu, sans véritable possibilité de prédiction.
Re: Transcription arabe/hébreu et voyelles absentes
Merci,
Il me semblait bien que c'était rappé, et c'était un ultime questionnement avant renoncement.
Je me contenterai donc de transcrire almghrb, compréhensible seulement si on lit et donc parle déjà arabe, donc peu utile !!!!!
Pour lire, on doit connaitre par avance tous les mots du texte ?
Un enfant ne peu ânonner en lisant un texte qu'il ne comprend pas ?
Il me semblait bien que c'était rappé, et c'était un ultime questionnement avant renoncement.
Je me contenterai donc de transcrire almghrb, compréhensible seulement si on lit et donc parle déjà arabe, donc peu utile !!!!!
Pour lire, on doit connaitre par avance tous les mots du texte ?
Un enfant ne peu ânonner en lisant un texte qu'il ne comprend pas ?
80% des termes scientifiques sont multi-lingues (à 12,43% près)
Re: Transcription arabe/hébreu et voyelles absentes
Pour lire sans faute, oui.Pour lire, on doit connaitre par avance tous les mots du texte ?
Après, certains schèmes sont très fiables, notamment beaucoup de formes plurielles qui sont très régulières en dépit de leur grande variété, et les formes verbales qui elles sont très rigides et dont les voyelles ne sont pas laissées au hasard (sauf cette fameuse deuxième voyelle au présent des verbes trilitères), puisque ce sont elles qui indiquent la voix, le mode et la personne. La difficulté se retrouve plutôt au niveau des noms et des adjectifs qui peuvent être tout à fait imprévisibles.
L'ânonner sans se tromper de voyelle, non, c'est impossible. Même les adultes se trompent régulièrement...Un enfant ne peu ânonner en lisant un texte qu'il ne comprend pas ?
En guise d'illustration, je vous invite à visiter le site suivant : http://lexanalysis.com/araflex/araflex.html
Il propose une analyse morphologique (très efficace et en soi très impressionnante) de toute suite de lettres arabes.
Si vous tapez par exemples les lettres Alif-Qaf-Fa-Lam (اقفل), il vous affichera toutes les possibilités de lecture (dans cette exemple il en donne 6, mais il m'est arrivé d'en trouver plus de 10 sur certaines recherches), parmi lesquelles le choix correct ne peut s'opérer qu'en fonction du contexte et d'une bonne connaissance de la grammaire. Or pour comprendre le contexte, il est nécessaire de comprendre l'arabe...
Re: Transcription arabe/hébreu et voyelles absentes
Super !En guise d'illustration, je vous invite à visiter le site suivant : http://lexanalysis.com/araflex/araflex.html
On ne peut se débrouiller sans base de connaissance (ici informatique) trapue.
80% des termes scientifiques sont multi-lingues (à 12,43% près)
Re: Transcription arabe/hébreu et voyelles absentes
Bonjour,
Il y a aussi un outil très utile pour analyse morphologique, dans le lien suivant:
http://quest.ms.mff.cuni.cz/cgi-bin/elixir/index.fcgi
Ça nous a aidé beaucoup pour restituer des voyelles et voir les flexions de noms et verbes.
Il y a aussi un outil très utile pour analyse morphologique, dans le lien suivant:
http://quest.ms.mff.cuni.cz/cgi-bin/elixir/index.fcgi
Ça nous a aidé beaucoup pour restituer des voyelles et voir les flexions de noms et verbes.
Merci de corriger notre français si nécessaire.
Paulo Marcos -- & -- Claudio Marcos
Brasil/Brazil/Brésil
Paulo Marcos -- & -- Claudio Marcos
Brasil/Brazil/Brésil