Memoire 3

‫و ا ا‬ ‫ ا‬ ‫وزارة ا‬
BADJI MOKHTAR-ANNABA UNIVERSITY

UNIVERSITE BADJI MOKHTAR-ANNABA
- ‫ ر‬
Faculté des sciences de l’ingénieur Année : 2011
Département d’informatique
MEMOIRE
Présenté en vue de l’obtention du diplôme de MAGISTER
Evaluation Automatique de la Prononciation en

Apprentissage de Langues
Option
TIC & Ingénierie du document
Par
Mme Aouidi Samira
DIRECTEUR DE MEMOIRE : Halima ABIDET-BAHI MC Université de Annaba
DEVANT LE JURY
PRESIDENTE : Habiba BELLILI MC Université de Annaba
EXAMINATRICES: Hassina SERIDI MC Université de Annaba

Yamina MOHAMED BENALI MC Université de Annaba
‫ ـ ـ ـ ‬
‫ "ر ا اآ ة ا ‪ .‬وه ‪ &%‬ة ‪$ %‬ت )) ا ‬ ‫ ا ت ة ا ب ه‬
‫ا" ‪ ،‬ا‪, -‬ء‪ ،(...،‬و ا‪ 12 %‬ا ‪ 0‬اي و ‪ 0‬و أ ‪ ،‬ه ا"‪ 34‬و‪ 5 6 78‬ا"‪ .34‬و & ذ‪=> :‬ن ها‬
‫ا‪G ,D H5 12 %‬ف "‪ %‬ت آ‪E‬ة ‪D‬ا اض و ذ‪ ? 6 1 :‬ا ‪ @A B‬ا‪ I & . D ?5‬ا‪ "5‬ت‬
‫ا ‪ L2 H‬اف ا‪ H O‬ا‪,‬م ‪ ،‬ا‪ ?L2M‬ا‪ > ?7K‬ر‪ J‬ا"‪ 34‬أن > ‪, Q‬ت ودة ‪:‬‬
‫ت اة >‬ ‫"‪ ? S" T‬أآ‪ E‬وا)? ‪ ،‬و > ا‬ ‫ا ‪ 48 DQ‬ب ا و‪ 1%‬و>‪، : 5‬‬
‫ا )‪ U‬ا‪ 342 ? 2 H 35‬ا‪ .‬آ‪W%‬ء " ‪ ،‬اي ‪ > IE‬و‪ L2 &V‬م ‪ 5‬ا‪ 34" O‬ا ت ا?‬
‫ا‪W‬و? ‪ Y2 > ،‬ا? ا‪ H ?5‬ا‪ > ،‬إ‪ G‬ر ا ت ة ا ب و‪ 6 78‬ا? ا?‪ .‬ا‪5‬‬
‫> ا"‪ L‬م ا‪5‬ح ‪ H‬ى ا? ‪ ،‬و ‪ 5‬م ‪ H‬أ اف ا‪ H O‬ا‪,‬م‪.‬‬
‫‪ 5‬م ‪ H‬أ س ‪ : 5 5G‬ا‪M‬و‪ H H‬أ س ‪ 2‬ذج رآ ف ا‪) ?QK‬اش ^م ^م( ا أ‪DB‬وا‬ ‫‪ 5‬ا‪L2 28‬‬
‫‪ 5‬آا > ها ا‪ %‬ل ‪ ،‬وا‪ H ?2 E‬أ س ا ل ا‪4‬ق ا"‪ ?54‬ا`? و ذ‪ 34 :‬ا‪ ?"5‬ا ة )>(‬
‫‪،‬وه ‪ ?"5‬آ‪E‬ة ا‪ $‬ل‪ H ،‬ا"‪ 34‬ا‪ ، D‬واوف آ‪ Q‬ء‪ D‬و ‪. D2‬‬
‫‪ ?5G‬ا‪ 5‬ا‪ 0 > IE ?05‬ب ا` ‪ S‬ا? و ا" ذج‪ ،‬وا ‪ c‬ا‪ 0‬ل ا` ‪ " S‬ا‪K‬ام‬
‫" ا‪K‬ام )>(‪ d0 .‬ه‬ ‫‪ 2‬ذج رآ ف ا‪) ?QK‬اش ^م ^م( ‪ ،‬و‪ 0 > H%‬ب ا >? ا? وا" ذج‬
‫‪ 5‬ر‪ 5G TA 2 ?2‬ا‪ 5‬و ‪ &c‬ا"‪ ?%‬ا‪. Q"7 H M‬‬
‫آ ت ا ‪ :‬ا ت ‪،‬ر‪ J‬ا"‪ ، 34‬اف ‪ H‬ا‪,‬م ‪ 2 ،‬ذج رآ ف ا‪ ، ?QK‬ا‪.5‬‬
‫‪i‬‬
ABSTRACT
Computer Assisted Language Learning (CALL) is a discipline which comes from teaching
intelligently computer-assisted. It brings together several areas (grammar, orthography ...), but
one aspect that seems crucial is the pronunciation, and particularly the assessment of this
pronunciation. However, this aspect is neglected by many products intended for this purpose,
and those facing the difficulty of the attached tasks. With the integration of techniques that are
based on automatic speech recognition (ASR).Systems for teaching pronunciation can provide
limited interactions: the computer understands speech of the learner, and responds
accordingly, what results a learning process more realistic, providing feedbacks on real-time
measuring the quality of the pronunciation of the learner. As part of our work, which involves
developing a system for automatic evaluation pronunciation, of Arabic isolated words, on
speaker-independent mode, in the context of Computer-Assisted Language Learning, and
particularly the Arabic language. The assessment in the proposed system is made at a word
level, and it’s based on the principle of speech recognition.
We chose a system based on two evaluation methods: one based on hidden Markov Models
(HMM), who have shown considerable progress in the domain, and a second based on
techniques of fuzzy logic, applying the algorithm of Fuzzy C-Means (FCM ). A very popular
algorithm based on fuzzy logic, known for its efficiency and robustness.
The proposed assessment is to calculate the similarity between the word test and its model,
which is translated as a likelihood probability using the HMMs, and in terms of distance
between the word and its prototype using FCM. The results of both methods are compared
and the highest rating score is returned to the learner.
KEYWORDS: language learning, teaching pronunciation, speech recognition, Hidden

Markov models, FCM, evaluation.
ii
RESUME
L’apprentissage des langues assisté par ordinateur (CALL pour Computer Assisted Language
Learning) est une discipline issue de l’enseignement intelligemment assisté par ordinateur
(EIAO). Elle regroupe plusieurs axes (grammaire, orthographe, …), mais l’un des aspects qui
semble primordial est la prononciation et particulièrement l’évaluation de cette prononciation.
Toutefois, cet aspect reste délaissé par les nombreux produits destinés à cette fin, et ceux en
regard de la difficulté des tâches afférentes. Avec l’intégration des techniques qui sont basées
sur la reconnaissance automatique de la parole (RAP), les systèmes d’enseignement de la
prononciation peuvent fournir des interactions limitées : l’ordinateur comprend la parole de
l’apprenant, et réagit en conséquence, ce qui en résulte un processus d’apprentissage plus
réaliste, en fournissant des feedbacks en temps réel sur la qualité de la prononciation de
l’apprenant. Dans le cadre de notre travail, qui consiste à développer un système d’évaluation
automatique de la prononciation de mots arabes isolés, en mode indépendant du locuteur,
dans le contexte de l’apprentissage de langues assisté par ordinateur et particulièrement de la
langue arabe. L’évaluation dans le système proposé est faite au niveau d’un mot et se base sur
le principe de la reconnaissance de la parole.
Notre choix s’est porté sur un système qui se base sur deux méthodes d’évaluation : une
première basée sur les modèles de Markov cachés HMM (pour Hidden Markov Model) qui
ont montrés des progrès considérables dans le domaine, et une deuxième basée sur les
techniques de la logique floue, en appliquant l’algorithme de C-Moyennes Flous (FCM-
Fuzzy C-Means). Un algorithme très populaire, basé sur la logique floue, connu pour son
efficacité et sa robustesse.
L’évaluation proposée consiste à calculer la similarité entre le mot test et son modèle, qui est
traduite sous forme de probabilité de vraisemblance en utilisant les HMMs, et en terme de
distance entre le mot et son prototype en appliquant FCM. Les résultats des deux méthodes
sont comparés, et la meilleure note d’évaluation est retournée à l’apprenant.
MOTS-CLÉS : apprentissage des langues, enseignement de la prononciation, reconnaissance

de la parole, modèles de Markov cachés, FCM, évaluation.
iii
DEDICACES
A mon mari Fares, pour son soutien moral, son aide, sa présence qui est toujours une
lumière qui me guide. Que Dieu me le garde !
A mon petit ange adoré Zeid Mouhib….
A ceux qui me sont chers…
iv
REMERCIEMENTS
Au terme de ce travail je voudrais tout d’abord exprimer ma profonde gratitude envers DIEU
tout puissant qui, grâce à son aide, j’ai pu finir ce travail.
Après Dieu, je tiens à exprimer toute ma reconnaissance et mon profond respect à mon
encadreur madame H.Bahi, maître de conférences à l’université d’Annaba, d’avoir accepté
de diriger mon travail, de m’avoir fait confiance et de m’avoir encouragée, je lui serai
toujours reconnaissante d’avoir guidé mes premiers pas de recherche.
Je voudrais remercier Madame Bellili Habiba, maître de conférence à l’Université de

Annaba de m’avoir fait l’honneur de présider mon jury.
Je souhaite également exprimer toute ma gratitude à Madame Seridi Hassina et à Madame

Mohamed Benali Yamina, maîtres de conférences à l’université de Annaba qui ont eu la
grande gentillesse de mettre leur savoir au service de mon travail en acceptant d'en être les
rapporteurs.
Ma gratitude s’adresse aussi à tous les enseignants qui ont assuré ma formation du primaire
jusqu’à l’université.
Je réserve mes derniers remerciements à toute ma famille, ma belle famille, particulièrement

à mes parents, pour leur dévouement et leurs sacrifices, mes soeurs pour leur encouragement
et leur aide.
Merci à tous ceux qui ont contribué de près ou de loin à l’élaboration de ce travail.
v
Liste des Tableaux
Tableau 1.1. Comparaison des performances d'un système de RAP anglaise entre la
parole native et non-native (les taux d'erreurs sont exprimés en %)…………………….....31
Tableau 3.1. Vocabulaire utilisé………………………………………………………….... 71
Tableau 3.2. Comparaison entre DHMM et CHMM……………………………………… 77
Tableau 3.3. Estimation de la qualité de prononciation selon P et N…………………….. 88
Tableau 3.4. Performance du système d’évaluation en utilisant HMM…………………… 90
Tableau 3.5. Performance du système d’évaluation en utilisant FCM……………………. 91
vi
Liste des Figures
Figure 1.1. Phase d’apprentissage……………….……………………………………….. 17
Figure 1.2. Phase de Test…………..……………………………………………............... 19
Figure 1.3. Procédure générale pour la reconnaissance de la parole basé HMM……...… 21
Figure 1.4. Paramètrisation MFCC………………………………………………………. 21
Figure 1.5. Exemple de modèle HMM à topologie « gauche-droite »………………….…. 24
Figure 2.1. Diagramme schématique d'un système de RAP [NER 07]……………..……... 46
Figure 2.2. Exemple de représentation graphique proposée dans le logiciel SARP…...….. 59
Figure 2.3. Proposition de feedback par affichage de l’oscillogramme………………..…. 60
Figure 2.4. Proposition de feedback par affichage de la courbe d'amplitude……….…… 61
Figure 2.5. Exemple de feedback visuel du logiciel Winpitch LTL…………...…………… 62
Figure 2.6. Architecture d’IELS…….……………………………………………………... 63
Figure 2.7. Les composants du système HAFFS……………...…………………………… 63
Figure 2.8. Les composants du système CHELSEA………………………….……………. 64
Figure 3.1. Architecture générale du système proposé…………………………….……... 69
Figure 3.2. Analyse de la parole…………………………………………………………... 70
Figure 3.3. Prétraitements généralement réalisés en traitement de la parole…………….. 72
Figure 3.4. Extraction de paramètres dans le cadre du traitement de la parole………..… 72
Figure 3.5. Procédé d’extraction de coefficients MFCC……………………….…………. 74
Figure 3.6. HMM ergodique……………….………………………………………………. 78
Figure 3.7. Exemple de HMM de Bakis……..…………………………………………….. 78
Figure 3.8. Modèle HMM du mot « MAKTAB »………………………………………… 79
Figure 3.9. L’algorithme de Viterbi………………………………………………............. 80
Figure 3.10. L’algorithme Baum-Welch………..…………………………………………. 81
Figure 3.11. Procédure d’apprentissage d’un modèle HMM dans le système proposé….... 83
Figure 3.12. Algorithme FCM………………….………………………………………….. 85
Figure 3.13. Validation de performance du système propos……………………………… 87
Figure 3.14.Signal du mot [1‫ ……………………………………………………………]آ‬92
Figure 3.15. Paramètrisation du fichier son [1‫ …………………………………………]آ‬93
vii
Table des matières
e‫ـ‬K‫ ــ‬......................................................................................................................................... i
ABSTRACT ............................................................................................................................... ii
DEDICACES ............................................................................................................................ iv
REMERCIEMENTS .................................................................................................................. v
Liste des Tableaux ..................................................................................................................... vi
Liste des Figures....................................................................................................................... vii
Table des matières ................................................................................................................... viii
Introduction générale.................................................................................................................. 1
Chapitre 1: Reconnaissance Automatique de la Parole(RAP). ........................................ 7
1.1. Introduction ..................................................................................................................... 8
1.2. Définitions ....................................................................................................................... 9
1.2.1. Parole ........................................................................................................................ 9
1.2.2. Signal de la parole ................................................................................................... 10
1.2.3. Reconnaissance automatique de la parole............................................................... 10
1.3. Historique ...................................................................................................................... 12
1.4. Dates clés ...................................................................................................................... 15
1.5. Traitement de la parole .................................................................................................. 16
1.5.1. Méthodes temporelles ............................................................................................. 16
1.5.2. Méthodes fréquentielles .......................................................................................... 16
1.6. Architecture d’un système de reconnaissance automatique de la parole....................... 17
1.6.1. La Numérisation..................................................................................................... 17
1.6.2. L’analyse Acoustique............................................................................................. 18
1.6.3. L’apprentissage ....................................................................................................... 18
1.6.4. La Reconnaissance ................................................................................................ 19
1.7. Méthodes de Reconnaissance ........................................................................................ 20
1.8. Reconnaissance analytique de la parole ........................................................................ 20
1.8.1. Paramétrisation ....................................................................................................... 21
1.8.2. Modèles de langage statistiques .............................................................................. 22
1.8.3. Modèle de prononciation ........................................................................................ 23
viii
1.8.4. Modèles acoustiques ............................................................................................... 23
1.8.5. Décodage avec l'algorithme de Viterbi ................................................................... 24
1.9. Les principes de fonctionnement de la RAP ................................................................. 25
1.9.1. Niveaux de complexité ........................................................................................... 25
1.9.2. Les types de systèmes de RAP.............................................................................. 27
1.9.3. Fonctionnement....................................................................................................... 28
1.10. Reconnaissance de la parole non-native ...................................................................... 30
1.10.1. Définition .............................................................................................................. 30
1.10.2. Spécificités de la parole non-native ...................................................................... 30
1.10.3. Impacts de la parole non-native sur les performances de la reconnaissance
automatique ....................................................................................................................... 31
1.10.4. Notions de confusions phonétiques ...................................................................... 32
1.10.5. Modélisation acoustique de l'accent non-natif ...................................................... 32
1.10.6. Modélisation de la prononciation non-native ....................................................... 34
1.11. Conclusion ................................................................................................................... 36
Chapitre 2: Apprentissage de la Prononciation basé RAP. ......................................... 37
2.1. Introduction .................................................................................................................. 38
2.2. L’enseignement de la prononciation assistée par ordinateur (EPAO) ........................... 39
2.2.1. Qu’est ce que la prononciation? .............................................................................. 39
2.2.2. Prononciation «Correcte» ....................................................................................... 39
2.2.3. Les Composants de la prononciation ...................................................................... 40
2.2.4. Aspects d'enseignement de la prononciation .......................................................... 41
2.2.5. Objectifs de l’enseignement de la prononciation .................................................... 42
2.2.6. Les systèmes d’enseignement de la prononciation assistés par ordinateur (EPAO)
........................................................................................................................................... 42
2.2.7. Les Inputs et outputs des systèmes d’EPAO.......................................................... 43
2.2.8. Les défis de l’enseignement de prononciation assisté par ordinateur ..................... 44
2.3. Pourquoi utiliser la reconnaissance automatique de la parole (RAP) dans l’EPAO ..... 45
2.4. Le fonctionnement des systèmes CAPT basés sur la RAP ........................................... 45
2.4.1. Comment fonctionne la RAP ................................................................................. 46
2.4.2. Comment fonctionne la technologie d'EPAO basé-RAP ........................................ 46
2.5. Comment utiliser efficacement la RAP dans l’enseignement de prononciation d’une
seconde langue (L2).............................................................................................................. 48
ix
1) la reconnaissance de la parole non-native, ....................................................................... 48
2) l'évaluation de la prononciation ....................................................................................... 48
3) le feedback........................................................................................................................ 48
2.5.1. La reconnaissance de la parole non-native ............................................................. 48
2.5.2. Les modèles acoustiques ......................................................................................... 49
2.5.3. Le Lexicon ............................................................................................................. 49
2.5.4. Le modèle de langue ............................................................................................... 50
2.6. L'évaluation de la prononciation ................................................................................... 50
2.7. Le feedback.................................................................................................................... 51
2.7.1. L’affichage visuel .................................................................................................. 52
2.7.2. L’évaluation automatique ....................................................................................... 53
2.8. L'efficacité des systèmes EPAO basés sur la RAP ........................................................ 55
2.9. L’évolution de logiciels en apprentissage des langues .................................................. 56
2.9.1. Introduction ............................................................................................................. 56
2.9.2. Historique sommaire de l’évolution de logiciels en apprentissage des langues ..... 57
2.10. Conclusion ................................................................................................................... 64
Chapitre 3: Proposition. .............................................................................................. 66
3.1. Introduction ................................................................................................................... 67
3.2. Evaluation de la prononciation ...................................................................................... 67
3.3. Système d’évaluation automatique de la prononciation proposé .................................. 68
3.4. Architecture générale du système proposé .................................................................... 69
3.5. Etape 1 : Paramétrisation du signal vocal ...................................................................... 69
3.5.1. Analyse du signal .................................................................................................... 70
3.5.2. Le corpus utilisé ...................................................................................................... 70
3.5.3. Prétraitements ......................................................................................................... 71
3.5.4. Extraction de caractéristiques ................................................................................. 72
3.5.5. Extraction de caractéristiques utilisée dans le système proposé ............................. 73
3.6. Etape 2 : Apprentissage ................................................................................................. 74
3.6.1. Apprentissage en utilisant les Modèles de Markov Cachés (HMM) ...................... 75
3.6.2. Apprentissage en utilisant la méthode C-Moyenne Floue (FCM) .......................... 84
3.7. Etape 3 : Evaluation ....................................................................................................... 86
3.7.1. Evaluation en utilisant HMM.................................................................................. 87
x
3.7.2. Evaluation en utilisant FCM ................................................................................... 89
3.8. Expériences et résultats ................................................................................................. 89
3.8.1. Résultats du système d’évaluation basé HMM........................................................... 90
3.8.2. Résultats du système d’évaluation basé FCM ............................................................ 90
3.8.3. Discussion des résultats .............................................................................................. 91
3.9. Exemple illustratif ......................................................................................................... 91
3.10. Conclusion ................................................................................................................... 94
Conclusion Générale et Perspectives. ...................................................................................... 95
1. Conclusion générale ............................................................................................................. 96
2. Perspectives .......................................................................................................................... 97
Références bibliographiques. ................................................................................................... 98
xi
Introduction
générale.
Introduction générale
1. Contexte et problématique
Le développement de la coopération socio-écono-culturelle entre des pays pousse

l’accroissement de la communication interindividuelle face à face. On constate en fait une
augmentation de l’exigence de la qualité de l’expression. Dans la communication orale, il
faut, parallèlement avec un bon choix des éléments lexico-syntaxiques, la maîtrise de la forme
sonore des énoncés. Cela explique en partie la réintégration de la composante phonétique dans
l’enseignement/ apprentissage des langues. D’une part, les nombreuses recherches sur les
relations entre perception et production montrent le rôle primordial que jouent les faits
prosodiques dans la cohérence d’un discours. De l’autre, la parole naturelle est produite et
perçue comme un tout, intégrant les deux dimensions segmentale et suprasegmentale.
L’enseignement des langues étrangères est devenu indis pensable dans les pays multilingues
comme la France, le Canada, la Suisse …etc. Ce qui a nécessité l’enseignement de ces
langues même dans les écoles primaires. C’est pour ça, il y eu des différentes initiatives visant
à introduire des programmes d’enseignement précoce de langues : quelques unes de ces
initiatives étaient basées sur la pédagogie tandis que d’autres étaient motivées par l’hypothèse
de l’âge optimale, par la recherche ou par la politique comme par exemple le programme
d’échange d’éducateurs/éducatrices de jardins d’enfants entre l’Allemagne et la France. [EDE
06]
L’ingénierie de la langue a également fait de gros progrès, notamment grâce à la montée en

puissance des ordinateurs. Aujourd’hui, dans de nombreuses applications, on trouve des
analyseurs syntaxiques, des outils de synthèse et de reconnaissance de la parole, des
traducteurs automatiques etc. Le résultat n’est pas toujours probant, mais la technique a atteint
une fiabilité acceptable.
Malgré les efforts de recherche considérables qui ont été investis dans le développement de
systèmes d’enseignement de langues étrangères assisté par ordinateur, peu d'attention a été
accordée à l'enseignement de la prononciation. Cette composante de l'enseignement des
langues a l'inconvénient que ce n'est pas possible de traiter et d'évaluer toute réponse orale
d'un élève en utilisant les moyens standards d'interaction, tels que le clavier et la souris. En
outre, contrairement aux exercices de grammaire ou de vocabulaire où il existe clairement de
bonnes ou de mauvaises réponses définies, dans les exercices de prononciation il n'existe pas
de bonne ou de mauvaise réponse claire. Un grand nombre de différents facteurs contribuent à
2
la qualité globale de prononciation et ils sont également difficiles à mesurer. Ainsi, la

transition de la mauvaise vers la bonne prononciation est progressive, et toute évaluation doit
être également présentée sur une échelle graduée.
Cependant même à la présence de différents programmes et méthodes, le résultat n’est pas
toujours satisfaisant pour tous les apprenants, cela est due à plusieurs facteurs tel que la vie
sociale (exposition de la langue, implication de la famille), les facteurs personnels (âge et les
origines) et le facteur scolaire (continuité de l’enseignement). [WIT 97]
Certains chercheurs maintenant pensent que le facteur clef pour aider les apprenants à être
conscients de leurs erreurs durant l’apprentissage d’une seconde langue (L2) est un feedback
correctif externe, une information sur la qualité de production d’un apprenant. Le feedback
correctif fourni par des enseignants ou par des parleurs natifs (ceux qui parlent leur langue
maternelle) pour aider les apprenants à remarquer les divergences entre leur production et la
prononciation correcte.
Cependant, les contextes d’enseignement en classe traditionnelle permettent rarement à

l’enseignant de rencontrer ces exigences : les enseignants peuvent ne pas toujours vouloir
corriger la même erreur, avec la même fréquence, pour chaque apprenant individuel. Ils
peuvent ne pas vouloir toujours interrompre le courant de parole d’un apprenant pour lui
indiquer ses erreurs de prononciation. En effet, les enseignants parfois préfèrent ne pas
corriger ces erreurs de prononciation, dans le but de ne pas décourager les apprenants pour
parler la seconde langue. Mais le problème le plus important est probablement que les
enseignants n’ont pas généralement assez de temps pour corriger aux apprenants, ni pour les
laisser reformuler leurs prononciations défectueuses.
Les chercheurs, éducateurs, et apprenants sont ainsi devenus intéressés par les programmes
de l’« enseignement de prononciation assisté par ordinateur » (EPAO) fournissant un
feedback automatique sur la qualité de la prononciation. Ces programmes offrent un
environnement privé et sans stress, dans lequel les apprenants peuvent s’entrainer dans leurs
places préférées et reçoivent un feedback immédiat et individualisé [NER 07]. Mais même
avec tous les avantages des systèmes d’EPAO, ces derniers avaient encore quelques autres
problèmes concernant l’accent du parler de l’étudiant, qui peut influencer la prononciation de
certains mots, et les empêcher d’être intelligibles par rapport aux parleurs natifs, en plus les
feedbacks fournis par ces systèmes peuvent être complexes, et parfois difficiles à interpréter
3
par l’étudiant ou son enseignant. Donc, les recherches ont été dirigées vers l’utilisation de la
reconnaissance automatique de la parole (RAP) pour aider les systèmes d’EPAO à fournir des
feedbacks plus efficaces.
Aidée par les avancées technologiques, la reconnaissance automatique de la parole est de plus
en plus performante. Elle consiste à interpréter le langage parlé humain par une machine. Les
applications de cette technologie sont vastes et variées. La RAP peut servir à dicter un texte à un
ordinateur, commander vocalement un équipement automatique, utiliser des services
d'informations ou de réservations par téléphone, permettre à des personnes handicapées d'utiliser
un ordinateur ou tout autre appareillage ... Le traitement automatique de la parole est au
carrefour de plusieurs disciplines dont l'informatique, la linguistique, la phonétique et la
psychologie. Avec l'augmentation des performances de la reconnaissance de la parole, ces
dernières années, l'évaluation automatique de la prononciation est maintenant possible.
2. Contribution
Notre travail s’intéresse à la conception et au développement d’un système d’évaluation
automatique de la prononciation de mots arabes isolés, en mode indépendant du locuteur,
langue arabe. L’évaluation dans le système proposé se fait au niveau d’un mot et se base sur
le principe de la reconnaissance automatique de la parole.
Le système proposé se compose de trois étapes : extraction de caractéristiques, apprentissage
des mots pour déduire les modèles, qui seront utilisés dans la troisième étape d’évaluation.
Le système proposé s’intéresse à l’évaluation de mots arabes isolés, pour ce faire il utilise
deux paradigmes : les modèles de Markov cachées (HMM), qui sont capables de modéliser
simultanément les caractéristiques fréquentielles et temporelles du signal vocal, et qui
présentent à l’heure actuelle des progrès énormes. Et une deuxième évaluation basée sur les
techniques de la logique floue, en appliquant l’algorithme de C-moyennes Flous (FCM-
Fuzzy C-Means). Un algorithme très populaire, basé sur la logique floue, connu pour son
efficacité et sa robustesse.
Ce travail décrit les techniques que nous avons développées pour construire un système
d’évaluation automatique de la prononciation en apprentissage des langues.
Ce système implémente tous les niveaux du traitement, à partir de l’extraction des
caractéristiques du signal de la parole du mot prononcé, l’évaluation automatique de cette
4
prononciation en utilisant les deux méthodes décrites précédemment, et jusqu’à l’obtention

d’une note accompagnée d’une appréciation mesurant la qualité de la prononciation de
l’apprenant. Pour se faire, différents traitements au niveau de la mise en forme du signal d’un
mot sont développés: prétraitements, extraction de caractéristiques, ainsi que les algorithmes
d’apprentissage et d’évaluation utilisés à savoir Baum Welch , Viterbi et FCM.
3. Organisation du mémoire
Ce mémoire est organisé autour de quatre chapitres, dans ce qui suit nous donnons une brève
description de leurs contenus respectifs.
Chapitre 1 : La Reconnaissance Automatique de la Parole (RAP)
Ce chapitre présente l’état de l’art dans le domaine de la reconnaissance automatique de la

parole où nous décrivons les étapes nécessaire au développement d’un système de
reconnaissance vocale. Une revue de littérature sur les différentes méthodes de
reconnaissance est élaborée, ainsi que les techniques d’analyse du signal vocal afin d’extraire
des paramètres pertinents qui nous servirons de données pour la reconnaissance. Enfin nous
aborderons les spécificités de la parole non native, sa modélisation acoustique ainsi que son
impact sur les performances du système de reconnaissance automatique de la parole.
Chapitre 2 : L’enseignement de la Prononciation basé sur la RAP
Dans ce chapitre on va discuter le principe des systèmes d’enseignement de la prononciation

assistés par ordinateur (EPAO), Les aspects et objectifs de l’enseignement de la
prononciation, ainsi que les limitations qu’ils peuvent rencontrer. Nous expliquerons ensuite
la raison pour laquelle on a besoin d’implémenter la technologie de la RAP dans les systèmes
d’EPAO, et comment peut-on faire cette implémentation. On présentera brièvement
comment fonctionnent les systèmes d’EPAO basés sur la RAP, en décrivant leur efficacité et
on finira par un état de l’art dans le domaine de l’enseignement de la prononciation assisté par
ordinateur, en représentant quelques modèles de ces systèmes.
5
Chapitre 3 : Proposition
Dans ce chapitre, nous détaillons la méthodologie adoptée pour la conception d’un système
d’évaluation automatique de la prononciation en apprentissage des langues. Nous décrivons
dans un premier lieu en détail les différentes phases intervenantes dans le système, ainsi que
les algorithmes utilisés lors de l’apprentissage et l’évaluation selon la modélisation choisie.
Dans la dernière section, nous présentons les résultats obtenus ainsi que les discussions de ces
résultats, dans le but d’évaluer les performances du système proposé
Nous achèverons ce mémoire par une conclusion et quelques perspectives.
6
Chapitre 1
Reconnaissance
Automatique de la
Parole(RAP).
Chapitre 1-Reconnaissance Automatique de la Parole
1.1. Introduction
La reconnaissance automatique de la parole(RAP) est un domaine de la science ayant toujours

eu un grand attrait auprès des chercheurs comme auprès du grand public. En effet, qui n’a
jamais rêvé de pouvoir parler avec une machine ou, du moins, piloter un appareil ou un
ordinateur par la voix. Ne plus avoir à se lever pour allumer ou éteindre tel ou tel appareil
électrique, ne plus avoir à taper pendant des heures sur un clavier pour rédiger un rapport (par
exemple). L’homme étant par nature paresseux, une telle technologie a toujours suscité chez
lui une part d’envie et d’intérêt, ce que peu d’autres technologies ont réussi à faire. [ALL 03]
La reconnaissance automatique de la parole est une branche de la reconnaissance des formes.
Grâce à cette technologie, on peut communiquer oralement avec la machine au lieu d’utiliser
les gestes ou les commandes des automatismes, ce qui facilite considérablement l’interaction
homme/ machine.
La reconnaissance automatique de la parole (RAP) consiste à reconnaître la suite de mots qui

a été prononcée dans un enregistrement de parole par un dispositif automatique. Les
recherches conduites ces deux dernières décennies ont permis l'essor de la RAP, et de plus en
plus de technologies intègrent la RAP comme une interface alternative aux claviers et autres
dispositifs de contrôle. La dictée de textes sur ordinateur, les services de billetteries et de
réservations par téléphone, les serveurs vocaux en sont des exemples courants, la commande
vocale d'appareillages, l'indexation de documents audio et le sous-titrage d'enregistrements
vidéo en sont des exemples courants. [BOU 08]
Le traitement automatique de la parole est un vaste domaine de recherche très complexe qui
nécessite la collaboration des spécialistes dans de nombreux domaines : traitement du signal,
théorie de l’information, linguistique, phonétique, acoustique, biologique, etc. Le signal vocal
véhicule des informations de différentes natures (phonèmes, mots, langue, accent, identité du
locuteur, etc.) et présente une grande variabilité. Pour extraire les différentes informations à
partir d’un signal de parole, le traitement du signal reste un outil fondamental et
indispensable. Il existe des théories et des techniques très sophistiquées et complexes en
traitement du signal mais la spécificité de la parole exige des traitements bien adaptés à sa
nature et aux objectifs visés. En fait, au cours des dernières années, beaucoup de recherche
ont été faites afin d'améliorer les performances des systèmes de reconnaissance de la parole.
[ELA 09]
8
Toutefois, les systèmes de RAP souffrent d'une chute de performances importante face à la
parole non-native. La parole non-native est la parole de locuteurs ne s'exprimant pas dans leur
langue maternelle. La parole non-native peut différer de la parole native sur plusieurs points.
Selon leurs maîtrise de la langue qu'ils parlent (langue cible), les locuteurs non-natifs peuvent
formuler des constructions grammaticales incohérentes, mal utiliser des connecteurs lexicaux,
commettre des erreurs d'accord en genre et en nombre des articles et adjectifs. Les locuteurs
non-natifs peuvent également utiliser des mots inexistants dans la langue cible, ou mal utiliser
des mots par manque de maîtrise de la langue cible. Par ailleurs, l'accent des locuteurs non-
natifs peut être influencé par les mécanismes de prononciation de leur langue maternelle.
Ainsi, ces locuteurs peuvent prononcer les phonèmes d'une manière similaire à leur langue
maternelle. Ils peuvent également prononcer d'une même manière des phonèmes différents
dans la langue cible, ou encore remplacer des phonèmes par d'autres phonèmes de leur langue
d'origine. Ces erreurs de prononciation nuisent fortement à la précision des modèles
statistiques utilisés dans la RAP, et il en résulte la chute de performance des systèmes de RAP
face à la parole non-native. [BOU 08]
1.2. Définitions
1.2.1. Parole
Le signal de parole appartient à la classe des signaux acoustiques produits par des vibrations
des couches d’air. Les variations de ce signal reflètent les fluctuations de la pression de l’air.
La parole est une suite de sons produits soit par des vibrations des cordes vocales (source
quasi périodique de voisement), soit par une turbulence créée par l’air s’écoulant dans le
conduit vocal, lors du relâchement d’une occlusion ou d’une forte constriction de ce conduit
(sources de bruit non voisées). La durée d’un son est de l’ordre de 60 à 100 ms.
La parole est formée de phonèmes et de transitions entre ces phonèmes. Plusieurs types de
phonèmes existent : les voyelles, les consonnes fricatives, les consonnes plosives, les nasales
et les liquides. Les transitions acoustiques correspondent à des transitions dans l’appareil de
production de l’état correspondant au premier phonème à l’état correspondant au suivant.
Les voyelles, sons voisés par excellence, sont les « piliers » de la parole ; leur présence est
révélée fréquentiellement par les formants qui correspondent aux fréquences de résonance du
9
conduit vocal. La fréquence d’apparition des voyelles correspond au rythme syllabique. [OZE
03]
1.2.2. Signal de la parole
C’est un phénomène physique de nature acoustique porteur d’un message. Il est caractérisé
par la fréquence fondamentale, l’intensité et le timbre.
Sa structure est un signal réel, continu d’énergie finie, non stationnaire dans le temps (tantôt
périodique pour les sons voisés, tantôt aléatoire pour les sons non voisés, tantôt impulsionnel
pour les plosives).
Le signal de parole est caractérisé par trois paramètres : [KUN 80]
1.2.2.1. L'intensité
Elle correspond à l’amplitude des vibrations sonores. Elle est exprimée en (db). Notons aussi,
que l’intensité de la voix peut atteindre des valeurs difficilement tolérables par l’oreille (de
l’ordre de 100 db).
1.2.2.2. La hauteur
Elle est dite aussi « fréquence fondamentale » ou pitch. Elle correspond à la fréquence des
sons, elle est liée aux caractéristiques des cordes vocales. Cette fréquence peut varier suivant
l’âge et le sexe du locuteur
- Chez l’homme : de 80 à 200Hz.

- Chez la femme : de 150 à 450 Hz.
- Chez l’enfant : de 200 à 600 Hz.
1.2.3.3. Le timbre
C’est la qualité qui distingue un son parmi d’autres de même intensité et de même hauteur. Il
représente la résultante de la transformation du son laryngé par les cavités de résonance.
1.2.3. Reconnaissance automatique de la parole
La reconnaissance automatique de la parole est l’un des deux domaines du traitement

automatique de la parole, l’autre étant la synthèse vocale. La reconnaissance automatique de
la parole permet à la machine de comprendre et de traiter des informations fournies oralement
par un utilisateur humain. Elle consiste à employer des techniques d'appariement afin de
10
comparer une onde sonore à un ensemble d'échantillons, composés généralement de mots

mais aussi, plus récemment, de phonèmes (unité sonore minimale). En revanche, le système
de synthèse de la parole permet de reproduire d’une manière sonore un texte qui lui est
soumis, comme un humain le ferait. Ces deux domaines et notamment la reconnaissance
vocale, font appel aux connaissances de plusieurs sciences : l'anatomie (les fonctions de
l'appareil phonatoire et de l'oreille), les signaux émis par la parole, la phonétique, le traitement
du signal, la linguistique, l'informatique, l'intelligence artificielle et les statistiques. Il faut
bien distinguer ces deux mondes : un système de synthèse vocale peut très bien fonctionner
sans qu’un module de reconnaissance n’y soit rattaché. Evidemment le contraire est
également tout à fait possible. Par contre, dans certains domaines bien précis, l’un ne va pas
sans l’autre. [ALL 03]
Les systèmes de RAP sont basés sur des paradigmes statistiques permettant de modéliser les
différents aspects du langage humain. D'une manière générale, ces systèmes de RAP sont
composés de trois parties principales. La première partie est le modèle de langage, ou
grammaire, dont la finalité est de représenter la structure des phrases d'une langue
particulière. La grammaire est un modèle statistique contenant les suites de mots qui peuvent
être prononcées dans la langue. Ce modèle est entraîné à l'aide de corpus textuels, tels que des
archives de journaux. La deuxième partie composant les systèmes de RAP est le modèle de
prononciation qui détermine la manière dont les mots de la langue sont prononcés. A chaque
mot est associée une ou plusieurs suites de sons, phonèmes, définissant chacune une manière
de prononciation de ce mot. Le modèle de prononciation peut être construit manuellement ou
d'une manière automatique basée sur les propriétés phono-morphologiques de la langue.
Enfin, l'ensemble des modèles acoustiques représente la troisième partie dont se compose les
systèmes de RAP. Les modèles acoustiques sont des modèles stochastiques (généralement des
modèles de Markov cachés, Hidden Markov Model - HMM) représentant les différents sons
de la langue. Ces modèles sont entraînés à l'aide de corpus audio. Ces différents modèles sont
utilisés par le moteur de reconnaissance afin de déterminer la suite de mots la plus probable
correspondant à un enregistrement de parole. [BOU 08]
La technologie de RAP est de plus en plus fiable à mesure que les systèmes informatiques sur
lesquels elle repose évoluent. Le développement de la puissance de calcul et des capacités de
stockage des ordinateurs actuels ont été des facteurs déterminants pour le développement de la
RAP. Ces capacités accrues permettent la gestion de corpus textuels et de parole de grande
11
taille. De plus, la puissance des équipements informatiques actuels autorisent l'utilisation de

modèles acoustiques et de langage de plus en plus complexes et précis. Les performances des
systèmes de RAP s'en trouvent consolidées et les taux d'erreurs réduits. [BOU 08]
1.3. Historique
La conception d'une machine capable de mimer la capacité humaine à communiquer par le

biais de la parole a attiré l'attention des scientifiques et chercheurs depuis quelques siècles.
L'une des premières tentatives concernait la production de la parole avec les travaux du
professeur en psychologie Ch. G Kratzenstein en 1782.
Kratzenstein a réussi à approximer le fonctionnement du conduit vocal humain en utilisant
des tubes métalliques interconnectés. [KRA 1782] Le procédé de Kratzenstein reproduit des
sons vocalises : des voyelles. Différentes machines de production de sons ont été développées
à la fin du 19eme siècle, notamment grâce aux travaux de Wolfgang Von Kempelen et Charles
Wheatstone [DUD 50]. Le développement de ces inventions mécaniques repose sur la
compréhension des mécanismes de production de la parole chez l'homme, et notamment les
résonances ayant lieu dans différentes parties du conduit vocal.
L'une des premières tentatives d'enregistrement et reproduction de la voix humaine date de

1881 avec les travaux d'Alexandre Graham Bell et ses collaborateurs [THO 02]. Ils ont
inventé une machine capable d'enregistrer la voix humaine sur un cylindre de cire et de la
restituer ultérieurement. En 1888, l'entreprise Volta Graphophone, fondée par Bell et al.,
commercialise cette machine qui sera nommée « Dictaphone » en 1907. Le dictaphone a été
concurrencé par une version de Thomas Edison, appelée "phonographK''.
Dans les années 1920, le physicien américain Harvey Fletcher ainsi que d'autres chercheurs
de Bell Labs., étudient les caractéristiques de la parole humaine. Fletcher étudie en outre la
relation entre le spectre fréquentiel d'un signal de parole et les caractéristiques du son ainsi
que la perception de l'oreille humaine et l'intelligibilité de la parole [FLE 22]. Les travaux de
Fletcher ont influencé l'ingénieur Homer Dudley, travaillant au sein de Bell Labs.. Dans les
années 1930, Dudley développe le VODER {Voice Operating Demonstrator) [DUD 39] qui
est un dispositif électronique permettant la synthèse de parole continue.
12
Les travaux de Fletcher et Dudley ont été précurseurs pour la reconnaissance automatique de
la parole , dans le sens où ils ont établi le lien entre la composition fréquentielle de la parole
(spectre) et les caractéristiques des sons et leur perception. Les premiers travaux concernant la
RAP datent du début des années 1950 avec un premier dispositif électronique permettant de
reconnaître des chiffres isolés. Ce dispositif, développé par Bell Labs [DAV 52], est basé sur
l'analyse des deux premiers formants de la voix. Les formants sont définis comme les
fréquences de résonance du conduit vocal. Durant les années 1950, divers appareillages
électroniques on été développés pour la reconnaissance de syllabes, chiffres et lettres isolés.
Ce n'est qu'aux alentours de 1960 que les premières tentatives d'utilisation de méthodes
numériques pour la reconnaissance de la parole ont vu le jour. A la fin des années 1960, Atal
et Itakura ont formalisé le codage linéaire prédictif (LPC, Linear Prédictive Coding) [ATA
71], [ITA 70].
Alternativement aux approches analytiques précédentes, la reconnaissance de la parole "par

l'exemple" a pris un nouvel essort avec l'introduction de l'alignement avec la programmation
dynamique (DTW, Dynamic Time Warping), a été développé par Tom Martin [MAR 64] et
Vintsyuk [VIN 68]. Il s'agit de comparer le signal de parole à des signaux de paroles
préenregistrés pour des mots ou des phrases donnés. L'alignement avec échelle de temps non-
uniforme. Différentes méthodes basées sur le concept de la programmation dynamique ont été
développées à la fin des années 1960. Ces méthodes de reconnaissances donnent des
précisions très élevées pour des vocabulaires de taille réduite (moins de 100 mots). Parmi ces
méthodes, l'algorithme de décodage de Viterbi a constitué une grande avancée pour la
reconnaissance de la parole [VIT 71]. Cet algorithme a trouvé son utilité dans diverses
applications de reconnaissance de suites temporelles et est aujourd'hui au cœur de la plupart
des systèmes de reconnaissance.
Les premiers travaux concernant la modélisation du langage ont été développés dans les
laboratoires d’IBM avec une machine à écrire basée sur la dictée vocale [JEL 75]. Le système
de reconnaissance, appelée Tangora, est un système mono-utilisateur nécessitant un
apprentissage de la voix à reconnaître. Ce système utilise un ensemble de règles syntaxiques
qui permettent d'évaluer, a priori, la probabilité d'observer toute suite de mots. Plusieurs
variantes de la modélisation de langage précédente ont été développées. La plus répandue de
ces variantes est la structure appelée n-gram qui modélise la probabilité des suites de n mots.
13
La représentation des règles syntaxiques d'un langage par une structure n-gram est aujourd'hui
la plus répandue des méthodes de modélisation linguistique dans les systèmes de
reconnaissance de la parole.
Au début des années 1980, les recherches des laboratoires AT&T se sont concentrés sur le
développement de services téléphoniques basées sur des procédés automatiques et destinés au
grand public. La difficulté majeure était le caractère mono-locuteur des systèmes de
reconnaissance vocale. Les laboratoires AT&T se sont focalisés sur le développement de
méthodes permettant aux systèmes de reconnaissances de gérer plusieurs locuteurs, accents
régionaux et manières d'élocution. Les travaux des laboratoires AT&T ont conduit à plusieurs
approches de classification et de regroupement pour des mots et des enregistrements de
référence dans le cadre de la reconnaissance de parole "par l'exemple". Une seconde voie de
recherche entreprise par AT&T a conduit à l'utilisation de modèles statistiques pour la
représentation d'une grande variété de prononciations. [JUA 85], [JUA 86]
Durant la décennie 1975-1985, les travaux entrepris par les laboratoires de AT&T et IBM ont
contribué à des avancements considérables dans le domaine de la reconnaissance automatique
de la parole. L'utilisation des modélisations statistiques pour représenter les règles syntaxiques
de la langue ainsi que pour modéliser la variabilité acoustique constitue un tournant pour la
reconnaissance vocale. La modélisation statistique (du langage ou du signal acoustique) offre
une plus grande robustesse pour la représentation des phénomènes considérés. En particulier,
les chaînes de Markov sont un procédé doublement stochastique dans le sens où il permet de
gérer la succession dans le temps de suites d'observations et donne également une estimation
de la probabilité que ces observations correspondent à un modèle particulier (un mot ou un
phonème). La formalisation des méthodes d'apprentissage des modèles de Markov a été
établie par Léonard E. Baum et Lloyd R. Welch qui ont développé l'algorithme portant leurs
noms (algorithme d'apprentissage Baum-Welch) [BAU 72]. Ces approches de modélisation
stochastique sont aujourd'hui les plus utilisées dans le domaine de la reconnaissance vocale, et
ce grâce aux améliorations continues dont elles ont bénéficié ces deux dernières décennies.
Il est intéressant de noter que d'autres méthodes de classification ont été utilisées dans le
domaine de la reconnaissance automatique de la parole. Dans les années 1940, les premiers
travaux utilisant les réseaux de neurones pour la reconnaissance de la parole n'ont pas abouti à
14
des résultats concluant [MCC 43]. A la fin des années 1980, les réseaux de neurones
artificiels ont été utilisés avec succès pour la reconnaissance de phonèmes et de mots isolés
[LIP 90]. Toutefois, les réseaux de neurones classiques ne sont pas adaptés à la
reconnaissance de la parole puisqu'ils ne permettent pas de gérer l'aspect temporel de la voix.
1.4. Dates clés
On peut résumer en quelques dates les grandes étapes de la reconnaissance de la parole [ALL
03] :
• 1952 : reconnaissance des 10 chiffres, par un dispositif électronique câblé, pour mono-
locuteur.
• 1960 : utilisation des méthodes numériques.
• 1965 : reconnaissance de phonèmes en parole continue.
• 1968 : reconnaissance de mots isolés par des systèmes implantés sur gros ordinateurs
(jusqu'à 500 mots).
• 1969 : utilisation d'informations linguistiques.
• 1971 : lancement du projet ARPA aux USA (15 millions de dollars) pour tester la
faisabilité de la compréhension automatique de la parole continue avec des contraintes
raisonnables.
• 1972 : premier appareil commercialisé de reconnaissance de mots.
• 1976 : fin du projet ARPA ; les systèmes opérationnels sont HARPY, HEARSAY I et
II et HWIM.
• 1978 : commercialisation d'un système de reconnaissance à microprocesseurs sur une
carte de circuits imprimés.
• 1981 : utilisation de circuits intégrés VLSI (Very Large Scale Integration spécifiques
du traitement de la parole.
• 1981 : système de reconnaissance de mots sur un circuit VLSI.
• 1983 : première mondiale de commande vocale à bord d'un avion de chasse en France.
• 1985 : commercialisation des premiers systèmes de reconnaissance de plusieurs
milliers de mots
• 1986 : lancement du projet japonais ATR de téléphone avec traduction automatique en
temps réel.
• 1988 : apparition des premières machines à dicter par mots isolés.
15
• 1989 : recrudescence des modèles connexionnistes neuromimétiques.

• 1990 : premières véritables applications de dialogue oral homme/machine.
• 1994 : IBM lance son premier système de reconnaissance vocale sur PC.
• 1997 : lancement de la dictée vocale en continu par IBM.
1.5. Traitement de la parole
On entend par traitement de la parole, le traitement de l’information contenue dans le signal

vocal. L’analyse représente une opération de paramétrisation de la parole. Elle consiste à
minimiser l’information nécessaire à la distinction des éléments constitutifs du vocabulaire
considérer dans un système de synthèse ou de reconnaissance de la parole. Elle permet ainsi
d’estimer les paramètres du modèle de production.
Il existe différentes techniques d’analyse vocale, chacune d’elle est basée sur une forme
particulière du signal vocal. Elles peuvent être classées en deux grandes catégories :
• L’analyse temporelle.
• L’analyse fréquentielle
1.5.1. Méthodes temporelles
Les méthodes de type temporel, permettent d’extraire des informations du signal issu
directement du microphone. Parmi les techniques utilisées pour l’aspect temporel du signal
vocal afin de déduire ces paramètres, nous distinguons les méthodes suivantes : [CAL 89]
• Analyse par prédiction linéaire (LPC).

• Analyse par passage par zéros du signal.
• Analyse par la fonction d’autocorrélation.
1.5.2. Méthodes fréquentielles
Il est intéressant d’étudier le signal vocal dans le domaine fréquentiel car l’étude dans ce
domaine permet de détecter les différentes zones formantiques des phonèmes qui sont
difficiles à observer dans le domaine temporel. Parmi les différentes techniques d’analyse
fréquentielle on peut citer: [BOI 87]
16
• Traitement par banc de filtres.

• Analyse par transformée de fourrier court terme.
• Analyse cepstrale.
1.6. Architecture d’un système de reconnaissance automatique de la

parole
Un système de RAP est construit en deux phases :
- L’Apprentissage
- Le Test
Modèle
acoustique
Numérisation Analyse Apprentissage
Acoustique
Modèle de
langage et
lexicaux
Figure 1.1. Phase d’apprentissage
1.6.1. La Numérisation
Pour être utilisable par un ordinateur, un signal doit tout d'abord être numérisé. Cette
opération tend à transformer un phénomène temporel analogique. La numérisation sonore
repose sur deux paramètres : la quantification et la fréquence d'échantillonnage.
La quantification définit le nombre de bits sur lesquels on veut réaliser la numérisation. Elle
permet de mesurer l'amplitude de l'onde sonore à chaque pas de L'échantillonnage. De plus,
cette quantification peut suivre une échelle linéaire ou logarithmique, cette dernière
privilégiant la résolution de la quantification pour les niveaux faibles au détriment des
niveaux forts.
Le choix de la fréquence d'échantillonnage est aussi déterminant pour la définition de la bande

passante représentée dans le signal numérisé. Le théorème de Shannon nous indique que la
fréquence maximale fmax présente dans un signal échantillonné à une fréquence fe est égale à
17
la moitié de fe. Un signal échantillonné à 16000 Hertz contient donc une bande de fréquences
allant de 0 à 8000 Hertz.
1.6.2. L’analyse Acoustique
Ce module permet d’extraire les paramètres pertinents pour la reconnaissance de la parole.

Cette extraction d’indices du signal de parole (signal électrique issu du microphone) a pour
objectif de minimiser l’information du signal vocal en quantité et en redondance tout en
augmentant la discrimination nécessaire à la séparation des éléments du vocabulaire. En
sortie, le signal est représenté par un ensemble de vecteurs coefficients.
Ainsi, à partir d'un signal numérisé, nous devons extraire un nombre limité de paramètres
décrivant le signal, et qui conviennent au traitement automatique de la parole. Ces paramètres
peuvent être :
• Coefficients de prédiction linéaire (LPC) (de 8 à 14 coefficients suivant l’ordre du modèle)
• Energies dans différentes bandes de fréquence (de 8 à 32 canaux allant de 100 à 7000 Hz)
• Coefficients cepstraux obtenus à partir d’une distribution spectrale de l’énergie sur une
échelle Mel, les MFCCs Mel Frequency Cepstral Coefficients (de 6 à 12 coefficients), ces
coefficients procurent de bonnes performance dans des conditions propres mais pas dans des
conditions de bruits.
1.6.3. L’apprentissage
Dans cette étape, il est nécessaire de faire l’entrainement à partir de la base de données
enregistré en procédant au préalable à la réalisation de :
• Modèles acoustiques, qui sont des modèles statistiques (selon le modèle choisi: HMM,
RNA, DTW, etc. exemple des HMMs de Phonèmes ou mots). Ces modèles sont entraînées
à partir d'une grande quantité de données de parole (par exemple, enregistrement de
nombreuses phrases) contenant plusieurs fois les différentes unités de parole dans plusieurs
contextes phonétiques différentes.
Les techniques stochastiques sont actuellement les plus utilisées pour la modélisation
acoustique de la parole. En effet, ce sont celles qui ont permis d'obtenir les meilleurs
18
résultats en reconnaissance de mots isolés, mots enchaînés et parole continue dans des
conditions de laboratoire ou en environnement non bruité. En revanche, dans des
conditions réelles de traitement de la parole (milieu bruité, parole spontanée,
prononciations diverses et variées ...), les performances obtenues par ces techniques sont
fortement dégradées.
• Modèles lexicaux, qui sont des modèles des mots de la langue. Les modèles les plus
simples sont fournis par un dictionnaire phonétique; les plus complexes sont des véritables
automates probabilistes, capables d'associer une probabilité à chaque prononciation
possible d'un mot. Ces modèles possèdent toutes les prononciations possibles de chaque
mot du dictionnaire.
• Un modèle de langage, qui associe une probabilité à toute suite de mots présents dans le
lexique. Ce modèle est entraîné sur une base de texte.
1.6.4. La Reconnaissance
Dans cette phase l’objectif est de décoder le signal de test et de déterminer les unités lexicales
prononcées, mots, phrase ou autres correspondant le mieux à la phrase prononcée parmi
toutes les phrases possibles, de ce fait elle devra faire appel au modèle acoustique et de
langage et des modèles lexicaux afin de prendre une décision. Par exemple dans le cas de la
modélisation avec les HMMs, la reconnaissance se fait en faisant appel à l’algorithme de
Viterbi qui donne pendant la phase de reconnaissance le chemin le plus probable des états et
donc les classes sonores à chaque instant.
Modèle de langage Modèle

et Lexicaux acoustique
Numérisation Analyse Reconnaissance

Acoustique Séquence de
mots reconnus
Figure 1.2. Phase de Test
Ainsi la méthode d’estimation des performances de reconnaissance consiste à comparer la

phrase reconnue à la phrase de référence sachant que :
19
I : nombre d’insertion.
D : nombre de suppression.
S : nombre de substitutions.
H : le nombre de mot correctement reconnus.
N : le nombre de mot total dans la phrase.
La Précision de Reconnaissance pour cette phrase = (N- S – I –D) / N
Qui est moyenné sur toutes les phrases testées.
Les performances d’un système de reconnaissance de la parole est exprimé en terme de Taux
d’erreur de mots (word error rate, E), définie comme:

1.7. Méthodes de Reconnaissance
On distingue usuellement en reconnaissance de la parole l’approche analytique et l’approche

globale. La première approche cherche à traiter la parole continue en décomposant le
problème, le plus souvent en procédant à un décodage acoustico- phonétique exploité par des
modules de niveau linguistique. La seconde consiste à identifier globalement un mot ou une
phrase en le comparant avec des références enregistrées. La distinction entre globale et
analytique a perdu de sa pertinence avec l’introduction des méthodes statistiques à base de
modèles de Markov pour la reconnaissance de la parole continue et le traitement de grand
vocabulaire ; il s’agit de méthodes globales qui peuvent exploiter des unités acoustiques sub-
lexicales.
1.8. Reconnaissance analytique de la parole
A la fin des années 1980, les structures des systèmes de RAP convergent vers une conception
utilisant les modèles de langages statistiques (n-gram), les modèles acoustiques stochastiques
(HMM) et le décodage par l'algorithme de Viterbi. Cette structure perdurera durant les deux
20
dernières décennies notamment grâce à son efficacité, sa simplicité d'utilisation et au

développement des fondements mathématiques sur lesquelles elle repose.
La procédure générale pour la reconnaissance de parole avec un système de RAP basé sur des
modèles HMM est illustrée dans la figure1.3. La première étape dans cette procédure est la
paramètrisation du signal de parole qui consiste à extraire des paramètres pertinents. La
seconde étape est la reconnaissance proprement dite : le décodage par l'algorithme de Viterbi.
Les modèles acoustiques, de prononciation et de langage sont utilisés dans cette deuxième
étape. [BOU 08]
Figure 1.3. Procédure générale pour la reconnaissance de la parole basée HMM
1.8.1. Paramétrisation
La paramétrisation consiste à transformer le signal acoustique du domaine temporel vers le

domaine spectral (fréquentiel) afin d'en extraire les informations pertinentes pour la RAP. La
paramètrisation la plus utilisée est la transformation en coefficients MFCC {Mel Frequency
Cepstrum Coefficients). L'échelle Mel, utilisée dans la paramètrisation MFCC, prend en
compte la perception des changements de fréquences sonores par l'oreille humaine. En effet,
l'oreille humaine est plus sensible aux changements de fréquences sonores dans les basses
fréquences que dans les hautes fréquences.
Le signal de parole (échantillonné) est découpé en fenêtres recouvrantes. Sur chacune de ces
fenêtres, la paramètrisation MFCC est effectuée en quatre étapes principales, comme
21
illustrées par la figure 1.4. La première étape consiste à appliquer une transformation de
Fourrier discrète, transposant le signal du domaine temporel vers le domaine spectral [BRA
99]. Un filtrage est ensuite appliqué sur le spectre en utilisant un banc de filtres avec une
échelle de Mel. L'étape suivante consiste à appliquer la fonction logarithme aux coefficients
en sortie du banc de filtres. Enfin, on applique une transformation en cosinus discrète (DCT,
Discrète Cosine Transform).
Figure 1.4. Paramètrisation MFCC
La paramètrisation permet donc de transformer le signal de parole discrétisé en une suite de

vecteurs d'observations acoustiques de dimension N. On obtient 100 vecteurs acoustiques par
seconde. Les dérivées premières et secondes sont généralement ajoutées afin de prendre en
compte les changements des paramètres acoustiques au cours du temps.
1.8.2. Modèles de langage statistiques
Dans un système de RAP, le rôle du modèle de langage est de coder les règles syntaxiques du
langage parlé de manière statistique. Plus généralement, le modèle de langage définit les
phrases, ou suites de mots, que le système de RAP peut reconnaître. De plus, il incombe au
modèle de langage d'estimer la probabilité d'apparition de toute une suite de mots
(w1,w2,…wm) présents dans le vocabulaire V (lexique). Plus précisément, le modèle de
langage estime la probabilité d'un mot wm connaissant tous les mots qui le précèdent
(w1,w2,…wm-1). La probabilité d'apparition de la suite de mots (w1,w2,…wm) est estimée selon
l'équation (1.1).
P(w1,w2,…,wm) =∏ .. (wi\w1,w2,…,w i-1) (1.1)
Les modèles de langage les plus utilisés sont les modèles dit n-gram. Dans cette catégorie de
modèles de langage, l'historique pris en compte dans les probabilités conditionnelles
d'apparition des mots est restreint à n-1. Ces modèles estiment la probabilité d'apparition d'un
mot wn connaissant les n-1 mots qui le précèdent (w1,w2,…wn-1), i.e. P(wn\w1,w2,…,wn-1).
22
La probabilité d'apparition d'une suite de mots (w1,w2,…wm) est approximée selon l'équation
(1.2). La restriction du nombre de mots dans les conditions des probabilités conditionnelles
permet de réduire considérablement la complexité du modèle de langage.
P (w1, w2,…,wm) ∏ .. (wi\wi-n+1,wi-n+2,…,wi-1) (1.2)
Les modèles n-gram sont appris sur un large corpus textuel représentatif du langage de
l'application cible. Les probabilités d'apparition des mots sont estimées au maximum de
vraisemblance selon l'équation 1.3. Il existe des procédés plus complexes d'élagage et de prise
en compte d'événements n'apparaissant pas dans le corpus d'apprentissage.
,,…,
P (wn\w1,…,wn-1)= (1.3)
,…,
Où C(x) dénote le nombre d'occurrence de la suite de mots x dans le corpus

textuel d'apprentissage.
1.8.3. Modèle de prononciation
Le modèle de prononciation, ou encore dictionnaire phonétique, contient les différentes

prononciations de chaque mot du vocabulaire V, et ce en termes de phonèmes. Généralement,
une prononciation d'un mot est représentée par la suite des phonèmes qui le composent. De
plus, il est possible de considérer plusieurs prononciations pour mot. La table suivante illustre
deux entrées dans le dictionnaire phonétique du CMU(www.speech.es.cmu.edu/cgi-
bin/cmudict) pour le mot anglais commensurately (proportionnellement) [BOU 08]
1.8.4. Modèles acoustiques
Un HMM est un automate stochastique qui modélise un processus Markovien à temps discret.
Un processus Markovien est un système qui émet des observations au cours du temps et qui
possède un ensemble dénombrable S= {s1, s2…..sn} états internes. A l'instant t =0 : un
processus de Markov se trouve à l'état interne Si avec une probabilité πi. L'ensemble des
probabilités initiales est noté ∏ π1,..πn, il vérifie ∑ .. 1. L'émission d'une
observation Ot à l'instant t, par un processus Markovien suit une loi de probabilité
23
bi (ot)= P(ot\Xt=si) qui ne dépend que de l'état Xt dans lequel il se trouve à cet instant. Après
avoir émis une observation, un processus de Markov change d'état avec une probabilité
P (Xt+1= si\X1,X2,…,Xt). Afin de simplifier la modélisation et les mécanismes d'apprentissage,
on utilise des processus de Markov d'ordre 1 où l'état interne à l'instant suivant ne dépend que
de l'état interne qui le précède P (Xt+1=s\X1,X2,…,Xt) ≈ P(Xt+1=s\Xt) . Si les transitions entre
les états du processus de Markov ne dépendent pas du temps, le processus est dit homogène et
on peut définir une matrice de transition A de dimension n2, dont les éléments sont
aii=P (Xt+1 = si \Xt = si). Le modèle HMM est alors défini par l'ensemble de paramètres
(S, A, bi(.), П).
Dans les systèmes de RAP analytiques, les phonèmes sont modélisés par des HMM à
topologie "gauche droite", comme l'illustre la figure 1.5. Généralement, les lois de probabilité
d'émission d'observations par un état s d'un processus de Markov sont modélisées par des
mélanges de lois gaussiennes. La probabilité d'émission d'un état de HMM modélisé par un
GMM est donnée en équation (1.4).
Où ds est le nombre de gaussiennes dans le GMM de l'état s ; et wsi, µ si et∑si sont

respectivement le poids, la moyenne et la matrice de covariance de la gaussienne i (du même
GMM).
Figure 1.5. Exemple d’un modèle HMM à topologie « gauche-droite »
1.8.5. Décodage avec l'algorithme de Viterbi
Dans un système, la phase de reconnaissance est effectuée par l'algorithme de Viterbi. Etant
donné une séquence de vecteurs d'observations acoustiques O = {o1, o2,…, oT} et les modèles
acoustiques, de prononciation et de langage, il s'agit de retrouver la suite de mots W* qui
maximise la probabilité P (W/O) selon l'équation (1.5). Par la règle de Bayes, cette probabilité
se réécrit en (1.6). Dans cette équation, la probabilité de la séquence O ne dépend pas de la
24
séquence W, et la maximisation de (1.6) est effectuée uniquement sur le numérateur

P(O/W)P(W) selon l'équation (1.7).
où P(W/O) est la probabilité de la séquence de mots W sachant la séquence d'observations O,

P(O/W) est la probabilité que la séquence O ait été émise par la séquence de mots W (donnée
par les modèles acoustiques), P(W) est la probabilité de la séquence de mots W et P(O) est la
probabilité d'observer la séquence O.
En termes de complexité algorithmique, on peut démontrer que la recherche de la séquence

optimale W* dans l'équation (1.7) est un problème Exptime. En effet, dans le cas extrême où
chaque mot de W génère une observation unique, l'ensemble de séquences de mots candidates
est VCard(O) où V est le vocabulaire. Le nombre de séquences à explorer est donc
Card(V)Card(O). A cet égard, l'algorithme de décodage de Viterbi constitue un atout
considérable puisqu'il permet de réduire la complexité algorithmique de la recherche de W* à
une valeur linéaire en fonction du nombre des observations.
1.9. Les principes de fonctionnement de la RAP
1.9.1. Niveaux de complexité
La RAP est sujette à plusieurs problèmes, il est nécessaire de cerner et de comprendre les
différents niveaux de complexités et les différents facteurs qui en font un problème difficile.
1.9.1.1. Le problème de la variabilité inter-locuteurs
La variabilité inter-locuteur est un phénomène majeur en reconnaissance de la parole. Un

locuteur reste identifiable par le timbre de sa voix malgré une variabilité qui peut parfois être
importante. La contrepartie de cette possibilité d’identification à la voix d’un individu est
l’obligation de donner aux différents sons de la parole une définition assez souple pour établir
une classification phonétique commune à plusieurs personnes. Les variabilités inter-locuteurs
25
proviennent des différences physiologiques (différences dimensionnelles du conduit vocal,

fréquence d’oscillation des cordes vocales) et de différences de style de prononciation
(p.ex. accent, niveau social). Certaines de ces différences qui influencent la représentation de
chaque locuteur, nous permettent de les séparer.
La cause principale des différences inter-locuteurs est de nature physiologique. La parole est
principalement produite grâce aux cordes vocales qui génèrent un son à une fréquence de
base. Cette fréquence de base sera différente d’un individu à l’autre et plus généralement d’un
genre à l’autre, une voix d’homme étant plus grave qu’une voix de femme, la fréquence du
fondamental étant plus faible. Ce son est ensuite transformé par l’intermédiaire du conduit
vocal, délimité à ses extrémités par le larynx et les lèvres. Cette transformation, par
convolution, permet de générer des sons différents qui sont regroupés selon des classes. Or le
conduit vocal est de forme et de longueur variables selon les individus et, plus généralement,
selon le genre et l’âge. Ainsi, le conduit vocal féminin adulte est, en moyenne, d’une longueur
inférieure de 15% à celui d’un conduit vocal masculin adulte. Le conduit vocal d’un enfant en
bas âge est bien sûr inférieur en longueur à celui d’un adulte. Un même phonème pourra avoir
des réalisations acoustiques très différentes.
La variabilité inter-locuteur trouve également son origine dans les différences de

prononciations qui existent au sein d’une même langue et qui constituent les accents
régionaux. Ces différences s’observeront d’autant plus facilement qu’une communauté de
langue occupera un espace géographique très vaste.
Le système est-il dépendant du locuteur c’est à dire optimisé pour un locuteur bien
particulier ou pouvant reconnaître n'importe quel utilisateur (Indépendant du locuteur)?
Mais la variabilité inter-locuteur, malgré son importance évidente, n’est pas encore la
variabilité la plus importante car les différences au sein des classes phonétiques sont en
nombre restreint. L’environnement du locuteur est porteur d’une variabilité beaucoup plus
importante.
La variabilité liée à l’environnement peut, parfois, être considérée comme une variabilité
intra-locuteur mais les distorsions provoquées dans le signal de parole sont communes à toute
personne soumise à des conditions particulières. La variabilité due à l’environnement peut
26
également provoquer une dégradation du signal de parole sans que le locuteur ait modifié son
mode d’élocution. Cette variation est considérée comme du bruit.
Le bruit ambiant peut ainsi provoquer une déformation du signal de parole en obligeant le
locuteur à accentuer son effort vocal. Les moyens de transport peuvent également entraîner
d’autres déformations du signal, d’origine psychologique. Enfin, le stress et l’angoisse que
certaines personnes finissent par éprouver lors de longs voyages peuvent également être mis
au rang des contraintes environnementales susceptibles de modifier le mode d’élocution.
1.9.1.2. La variabilité intra –locuteurs
Un locuteur même entraîné ne peut prononcer plusieurs fois une même séquence vocale avec
exactement le même rythme et la même durée. Les échelles temporelles de deux occurrences
d’un même mot ne coïncident donc pas, et les formes acoustiques ne peuvent être comparés
point à point.
Evidemment, les systèmes dépendants du locuteur sont caractérisés par de meilleurs taux de
reconnaissance que les systèmes indépendants du locuteur étant donné que la variabilité du
signal de parole est plus limitée. Cette dépendance au locuteur est cependant acquise au prix
d'un apprentissage spécifique à chaque utilisateur.
Dans les systèmes indépendants du locuteur la base de données est obtenue par l'acquisition
de nombreux locuteurs qui sont utilisés simultanément pour l'entraînement de modèles
susceptibles d'en extraire toutes les caractéristiques majeures. Par exemple, dans le cas
d'applications téléphoniques, il est évident que les systèmes doivent donc être indépendants
du locuteur pour pouvoir être utilisés par n'importe qui.
1.9.2. Les types de systèmes de RAP
1.9.2.1. Reconnaissance de mots isolés vs parole continue
Le locuteur marque explicitement une pose entre chaque mot pour permettre une
identification aisée des frontières de mots.
Des mots isolés bien séparés par des périodes de silence sont plus simples à reconnaître que
des séquences de mots constituant une phrase. En effet, Dans ce dernier cas, non seulement la
frontière entre mots n'est plus connue mais, de plus, les mots deviennent fortement articulés
(ce qui veut dire que la prononciation de chaque mot est affectée par le mot qui précède ainsi
27
que par celui qui suit un exemple simple et bien connu étant les liaisons du français) ou
également le cas en arabe.
1.9.2.2. Reconnaissance de la parole spontanée
Le niveau de complexité varie également selon qu'il s'agisse de texte lu, de texte parlé ou,
beaucoup plus difficile, de langage naturel avec ses hésitations, phrases grammaticalement
incorrectes, faux départs, etc. le cas du langage naturel étant le plus difficile.
Un autre problème qui concerne la reconnaissance de mots clés en parole libre. Dans ce cas,
le vocabulaire à reconnaître est relativement petit et bien défini mais le locuteur n'est pas
contraint de parler en mots isolés. Par exemple, si un utilisateur est invité à répondre par « oui
» ou « non », il peut répondre « oui, merci ».
1.9.2.3. La taille du vocabulaire
Les petits vocabulaires sont évidemment plus faciles à reconnaître que les grands
vocabulaires, étant donné que dans ce dernier cas, les possibilités de confusion augmentent.
Certains petits vocabulaires peuvent cependant s'avérer particulièrement difficiles à traiter;
ceci est le cas, par exemple des mots très courts et acoustiquement proches comme les lettres
de l'alphabet.
1.9.3. Fonctionnement
Le problème de la reconnaissance automatique de la parole consiste à extraire l'information

contenue dans un signal de parole, typiquement par échantillonnage du signal électrique
obtenu à la sortie d’un microphone, afin qu’il puisse être comparé à des modèles sous forme
numérique. Parmi plusieurs techniques de reconnaissance, il y en a deux qui sont
majoritairement utilisées afin de parvenir à résoudre ce problème : la comparaison à des
exemples et la comparaison d’unités de parole.
1.9.3.1. Reconnaissance par comparaison à des exemples
Les premiers succès en reconnaissance vocale ont été obtenus dans les années 70 à l’aide d’un
paradigme de reconnaissance de mots «par l’exemple». L’idée, est très simple dans son
principe, elle consiste à faire prononcer un ou plusieurs exemples de chacun des mots
susceptibles d’être reconnus, et à les enregistrer sous forme de vecteurs acoustiques
(représentation numérique du signal sonore). L’étape de reconnaissance proprement dite
28
consiste alors à analyser le signal inconnu sous la forme d’une suite de vecteurs acoustiques
similaires, et à comparer la suite inconnue à chacune des suites des exemples préalablement
enregistrés. Le mot «reconnu» sera alors celui dont la suite de vecteurs acoustiques (le
«spectrogramme») colle le mieux à celle du mot inconnu. Il s’agit en quelque sorte de voir
dans quelle mesure les spectrogrammes se superposent.
Ce principe de base n’est cependant pas implémentable directement : un même mot peut en
effet être prononcé d’une infinité de façons différentes, en changeant le rythme de l’élocution.
Il en résulte des spectrogrammes plus ou moins distordus dans le temps. La superposition du
spectrogramme inconnu aux spectrogrammes de base doit dès lors se faire en acceptant une
certaine «élasticité» sur les spectrogrammes candidats. Cette notion d’élasticité est formalisée
mathématiquement par un algorithme nommé : l’algorithme DTW (Dynamic Time Warping
ou déformation dynamique temporelle).
On comprend donc qu’une telle technique soit limitée par la taille du vocabulaire à
reconnaître (une centaine de mots tout au plus) et qu’elle soit plus propice à la reconnaissance
mono-locuteur (une reconnaissance multi-locuteur imposerait d’enregistrer, de stocker, et
surtout d’utiliser pour la comparaison de nombreux exemples pour chaque mot).
Les résultats obtenus, dans le contexte mono-locuteur/petit vocabulaire, sont aujourd’hui
excellents (proches de 100%) mais ne correspondent pas aux attentes actuelles en matière de
reconnaissance vocale.
1.9.3.2. Reconnaissance par modélisation d’unités de parole
La plupart des systèmes de reconnaissance de la parole sont de nos jours basés sur ce mode là.
Dés que l’on cherche à concevoir un système réellement multi-locuteur, à plus grand
vocabulaire et s’adaptant facilement à une application, il devient nécessaire de mener la
reconnaissance sur base d’unités de parole de plus petite taille, que l’on appelle phonèmes. En
effet, la parole est constituée d'une suite de sons élémentaires : «a», «é», «ss». Ils sont
produits par la vibration des cordes vocales. Ces sons mis bout à bout composent des mots.
On ne se contente plus alors d’exemples de ces unités, mais on cherche plutôt à en déduire un
modèle (un modèle par unité), qui sera applicable pour n’importe quelle voix.
Les systèmes de RAP sont généralement conçus pour la RAP de la langue cible canonique.
Les accents des locuteurs non-natifs ne sont généralement pas pris en compte. Les
performances des systèmes de RAP chutent grandement face à ces accents étrangers.
29
1.10. Reconnaissance de la parole non-native
1.10.1. Définition
La "parole non-native" est définie comme étant la parole d'un locuteur parlant dans une
langue qui n'est pas sa langue maternelle. Dans la définition précédente, on dit que le locuteur
est un "locuteur non-natif ". La langue dans laquelle s'exprime un locuteur non-natif est dite
"langue parlée", "langue étrangère" ou encore "langue cible". La langue d'origine d'un
locuteur non-natif est dite "langue maternelle".
1.10.2. Spécificités de la parole non-native
Comme décrit dans [COM 01], chaque langue humaine utilise un petit nombre de sons
(phonèmes) parmi les sons que l'appareil articulatoire humain est capable de produire. Chaque
langue possède "un répertoire de sons" répartis dans des régions de l'espace acoustique. Ce
répertoire de sons peut différer d'une langue à l'autre, et certains sons peuvent apparaître dans
une langue et être absents dans une autre.
Les travaux de [GIR 07] montrent que les cortex cérébraux auditif (décodage et production de
sons) et moteurs (mouvements des articulateurs) sont fortement liés. Les locuteurs humains
sont habitués à produire et à reconnaître les sons de leur langue maternelle. Leurs appareils
articulatoires sont entraînés à vocaliser les sons du répertoire de leur langue maternelle. D'un
point de vue perceptif, leurs appareils auditifs sont capables de discerner les fines variations
sonores qui sont pertinentes dans leur langue d'origine.
Toutefois, certains locuteurs peuvent percevoir des sons acoustiquement éloignés d'une
langue étrangère comme étant identiques car la différenciation de ces sons n'est pas pertinente
dans leur langue maternelle. De la même manière, en parlant une langue étrangère, certains
locuteurs peuvent produire des sons identiques pour des phonèmes acoustiquement éloignés.
Les locuteurs non-natifs remplacent parfois des sons difficiles à prononcer par d'autres sons
de leur langue maternelle qu'ils considèrent proches. Ces substitutions de phonèmes
apparaissent le plus souvent dans le cas où les phonèmes à prononcer n'existent pas dans la
langue d'origine des locuteurs. D'une manière générale, les erreurs de prononciations
produites par les locuteurs non-natifs dépendent du couple (langue maternelle, langue parlée)
et du niveau de maîtrise de la langue cible.
30
D'autre part, les locuteurs non-natifs peuvent commettre des erreurs au niveau syntaxique et
grammatical. Les phrases non-natives peuvent contenir des erreurs d'accord en genre et en
nombre des verbes et adjectifs. Des mots connecteurs ainsi que les conjonctions de
coordinations peuvent être mal utilisés. De plus, la parole non-native peut contenir des mots
n'appartenant pas à la langue cible, tels que des mots empruntés à la langue maternelle.
1.10.3. Impacts de la parole non-native sur les performances de la

reconnaissance automatique
La parole non-native diffère de la parole native (canonique) par le fait qu'elle peut contenir des
erreurs de prononciation.
Les locuteurs non-natifs ont tendance à prononcer les phonèmes d'une manière similaire à leur
langue maternelle. Ces erreurs de prononciation ont un impact négatif sur les performances
des systèmes de reconnaissance automatique de la parole. Cette chute de performances est un
problème bien connu dans la littérature. Le tableau 1.1 illustre cette chute de performance pour
un système de RAP anglaise. Il s'agit ici de reconnaître des phrases en langue anglaise
prononcées par différents locuteurs. Les locuteurs dont l'anglais est la langue maternelle sont
d'origine Anglaise et Canadienne. Les locuteurs non-natifs sont d'origine Française, Italienne,
Grecque et Espagnole. Nous pouvons observer dans ce tableau que le taux d'erreurs du
système augmente fortement avec la parole non-native.
Locuteurs dont l'anglais Locuteurs d'origine Augmentation

est la langue maternelle non anglaise de l'erreur
Erreurs en mots 2.1 7.2 +242%
Erreurs en phrases 5.7 14.6 +156%
Tableau 1.1. Comparaison des performances d'un système de RAP anglaise entre la parole native et non-
native (les taux d'erreurs sont exprimés en %)
Le type de ces erreurs ainsi que leur fréquence dépendent de la langue maternelle des
locuteurs ainsi que de leur capacité à reproduire l'accent et les tonalités de la langue cible.
31
Les variations de prononciation dans la parole non-native sont plus marquées que dans la
parole canonique,
1.10.4. Notions de confusions phonétiques
Comme nous l'avons décrit précédemment, les locuteurs non-natifs ont tendance à prononcer
les phonèmes de la langue cible d'une manière similaire à celle de leur langue maternelle.
D'autre part, certains phonèmes de la langue cible sont remplacés par des phonèmes de la
langue maternelle. Plusieurs travaux dans le domaine de la reconnaissance de la parole non-
native se basent sur la détection et la prise en compte de ces erreurs de prononciation des
phonèmes ([YOO 06], [TOM 01], [SCH 03], [LIV 00], [WAN 03], [MOR 04]). Une " matrice
de confusions phonétiques" est une structure associant à chaque phonème de la langue cible,
une ou plusieurs réalisations non-natives possibles affectées d'une probabilité. Les "matrices
de confusions phonétiques" peuvent être classifiées selon la manière dont elles sont
construites, les ensembles de phonèmes qu'elles utilisent et la manière dont les réalisations
non-natives sont exprimées.
1.10.5. Modélisation acoustique de l'accent non-natif
La modélisation acoustique de l'accent non-natif consiste à prendre en compte les

variations des propriétés des phonèmes au sein des modèles acoustiques. Il s'agit de ré-
estimer ou apprendre les paramètres des modèles acoustiques de façon à ce qu'ils
représentent l'accent et l'intonation non-natifs. La modélisation acoustique de l'accent
non-natif peut être réalisée en différentes étapes de la construction des modèles
acoustiques. Dans les paragraphes suivants, nous allons décrire certaines des approches
ayant été développées pour la modélisation acoustique de l'accent étranger.
1.10.5.1. Apprentissage de modèles acoustiques non-natifs
Pour la RAP non-native, le cas idéal serait de disposer d'un corpus de parole non-native
pour chaque couple de langues parlée/maternelle. Il serait ainsi possible d'entraîner des
modèles acoustiques spécifiques et appropriés pour la reconnaissance de la parole non-
native pour chacun de ces couples de langue. Malheureusement, l'acquisition de tels
corpus pourrait s'avérer impossible étant donné le coût financier et le temps que cela
nécessiterait. Dans [TOM 01], les auteurs utilisent un corpus contenant de la parole
32
canonique de la langue cible ainsi que de la parole non-native afin d'entrainer des modèles
non-natifs. Ces modèles sont susceptibles de gérer l'accent canonique de la langue cible
et l'accent étranger des locuteurs non-natifs. Les auteurs ont observé une amélioration
de la performance de reconnaissance pour les locuteurs non-natifs avec cette approche, en
comparaison avec les modèles acoustiques canoniques de la langue cible. Cette approche
a l'avantage d'utiliser un corpus de parole non-native de petite taille. Toutefois, pour
prendre un compte un nouvel accent non-natif, il est nécessaire de recommencer le
processus d'entraînement des modèles acoustiques depuis le début.
1.10.5.2. Ré-estimation de modèles acoustiques
L'apprentissage de modèles acoustiques non-natifs nécessiterait la disposition d'un

grand corpus de parole non-native, et ce afin que les modèles obtenus soient
généralisables et robustes aux changements d'accents et de locuteurs. Toutefois, un
corpus de parole non-native de petite taille pourrait-être utilisé afin de ré-estimer les
paramètres d'un ensemble de modèles acoustiques canoniques pré-entrainés. Il s'agit,
comme décrit dans [TOM 01], d'effectuer des itérations d'apprentissage supplémentaires
pour les modèles canoniques de la langue cible en utilisant le corpus de parole non-
native. La robustesse des modèles canoniques de la langue cible, appris sur un large
corpus de parole, assure le bon déroulement des itérations de ré-estimation et évite la
dégénérescence des paramètres acoustiques (souvent observée lorsque le corpus
d'apprentissage est de petite taille).
La ré-estimation de modèles acoustiques pour l'accent non-natif a l'avantage d'utiliser

un corpus de parole non-native de petite taille. De plus, contrairement à l'approche du
paragraphe précédent, l'approche de ré-estimation de modèles acoustiques ne nécessite
pas l'entraînement complet de nouveaux modèles acoustiques afin de prendre en compte
un nouvel accent non-natif. En effet, il suffit d'effectuer des itérations de ré-estimation
pour des modèles acoustiques pré-entrainés. Toutefois, cette approche éloigne les
modèles acoustiques de l'accent canonique de la langue cible, et causerait ainsi la
dégradation de la précision de ces modèles pour la parole canonique de la langue cible.
33
1.10.5.3. Approches classiques : MLLR et MAP
Les méthodes d'adaptation acoustiques MLLR {Maximum Likelihood Linear

Régression) [GAL 96], [GAL 98] et MAP (Maximum a Posteriori) [LEE 93] sont des
méthodes classiques pour l'adaptation acoustique de modèles HMMs aux spécificités du
signal de parole. Ces méthodes sont destinées à rapprocher les modèles acoustiques des
caractéristiques du signal en cours de traitement, telles que le niveau de bruit ambiant, le
canal d'enregistrement (microphone, téléphone, ...) et la voix du locuteur (grave, aiguë,
...). En réduisant la distance entre les modèles acoustiques (i.e. les caractéristiques qu'ils
représentent) et les caractéristiques de la parole à traiter, les approches classiques
d'adaptation acoustique permettent de réduire les taux d'erreurs des systèmes de RAP.
Les procédés de ces méthodes classiques sont similaires dans le sens où l'on utilise un
certain nombre d'enregistrements sonores afin de modifier (ré-estimer) les paramètres des
modèles acoustiques pré-entrainés.
Dans le cas de l'adaptation MLLR, l'ensemble des gaussiennes constituant les modèles
acoustiques sont préalablement classifiées en un ensemble de groupes selon un critère de
proximité prédéfini. A la phase d'adaptation, une transformation différente est calculée
pour chaque groupe de gaussiennes. Ces transformations sont calculées à travers
l'algorithme EM (Expectation Maxi-misation) et visent à maximiser la probabilité
d'émission des échantillons d'adaptation par les modèles acoustiques concernés.
1.10.6. Modélisation de la prononciation non-native
La modélisation de la prononciation non-native consiste à prendre en compte différentes

manières de prononcer les phonèmes dans le système de RAP. La modélisation de
prononciation vise à combiner différents modèles acoustiques (i.e. prononciation de
phonèmes) de façon à ce qu'ils représentent, d'une manière concurrente, la même entité
phonétique dans le système de RAP. Autrement dit, il s'agit de répertorier les différentes
prononciations non-natives pour chaque phonème de la langue cible, et de les inclure dans
le système de RAP de façon à pouvoir reconnaître l'une des différentes prononciations
considérées pour chaque phonème.
Contrairement aux approches de modélisation acoustique, la modélisation de

prononciation non-native ne modifient ni les paramètres des modèles acoustiques ni les
34
régions de l'espace acoustique modélisées par les phonèmes. La modélisation de

prononciation vise plutôt à ce que les différents modèles acoustiques représentant chacun
une prononciation non-native possible d'un phonème de la langue cible soient reconnus par
le système de RAP comme étant les variantes de ce même phonème. Soit l'exemple
suivant :
- un premier ensemble de modèles (représentant l'accent canonique) :

{[a1], [b1], [c1],...}
- un deuxième ensemble de modèles (représentant l'accent non-natif :
{[a2], [b2], [c2],…}
- une matrice de confusions phonétiques contenant les associations suivantes :
{[a1] → [a2], [b1] → [b2], [c1] → [c2],…}
- un mot w de la langue cible, phonétisé de la manière suivante : « w : /a/ /b/ /c/ »
Il s'agit, dans cet exemple, de permettre au système de RAP de reconnaître

indifféremment les réalisations sonores [a1] et [a2] pour le même phonème /a/, de
même pour les couples de phonèmes ([b1], [b2]) et ([c 1 ], [c2])- De même, le système
devrait reconnaître les combinaisons de prononciations possibles de chaque mot
considéré. Pour le mot w, cité dans l'exemple, les phonétisations suivantes devraient
être prise en compte par le système de RAP :
Les variantes de prononciation non-native peuvent être déduites de manière automatique

(en construisant une matrice confusion phonétique) ou manuellement (en se basant sur des
connaissances humaines).
35
1.11. Conclusion
La parole est la faculté naturelle de s’exprimer et de communiquer la pensée, les idées et les
émotions par un système de sons articulés ; c’est le moyen de communication privilégié entre
les humains qui sont les seuls à utiliser un tel système structuré.
Dans ce chapitre nous avons présenté un bref historique de la reconnaissance automatique de

la parole ainsi qu’une description de la structure d’un système de RAP analytique ainsi que
les difficultés induites par la parole non native.
36
Chapitre 2
Enseignement de la
Prononciation basé
RAP.
Chapitre 2- Enseignement de la prononciation basé RAP
2.1. Introduction
L’apprentissage des langues assisté par ordinateur s’impose comme une nécessité dans un
monde où les distances ont été réduites par les ouvertures économiques. Toutefois, plus que
l’aspect classique de cet apprentissage qui est plus lié aux activités du TALN (grammaire,
orthographe, …) c’est l’expression orale et en premier lieu l’apprentissage de la prononciation
qui est le plus requis dans l’apprentissage des langues.
Dans ce contexte, les avancées réalisées dans le domaine de la reconnaissance

automatique de la parole (RAP) ont énormément contribuées à la promotion de
l’apprentissage automatique de la prononciation (CAPT pour Computer Assisted
Pronunciation Teaching ).
En effet, l’état de l’art des systèmes d’apprentissage de la prononciation basés sur la RAP
montre que ces systèmes empruntent la technologie des modèles de Markov cachés aux
systèmes de la RAP, pour construire le système de reconnaissance. Le résultat produit par le
système de reconnaissance est ensuite utilisé pour évaluer la prononciation de l’apprenant.
L’enseignement de la prononciation assisté par ordinateur offre à l’apprenant un temps

d’apprentissage additionnel où il peut pratiquer dans des conditions qui lui conviennent
(quand il veut et à son rythme). Ce type de système automatisé doit son avènement puis son
expansion aux avancées de la RAP. Lorsque nous construisons un système d’enseignement de
la prononciation basé sur la RAP, deux étapes clés sont à considérer : la reconnaissance
de ce que l’apprenant a prononcé et ensuite l’évaluation de cette prononciation [NER
03]. Mais si ce type d’application peut sembler simple comparé aux défis classiques
rencontrés dans le cadre de la reconnaissance de la parole continue et spontanée, la
difficulté majeure dans cette tâche est la qualité et la pertinence de l’appréciation
retournée à l’apprenant. [BAH 07]
38
2.2. L’enseignement de la prononciation assistée par ordinateur

(EPAO)
2.2.1. Qu’est ce que la prononciation?
Avant de commencer à dériver des méthodes statistiques d'évaluation de la prononciation et

de correction basée sur la technologie de la parole, il est nécessaire d'obtenir une
compréhension de base des principaux aspects et composantes de l'enseignement de la
prononciation. Cela exige à la fois la discussion de ce qui est compris par prononciation et
prononciation "correcte" dans le contenu de l'enseignement de prononciation et la définition
de toutes les composantes de la prononciation. En plus, il est important de comprendre la
pédagogie de la façon d'enseigner la prononciation. Dans le Larousse de Poche 2001, on
trouve les entrées suivantes : Prononciation : Action, manière de prononcer. (p.629)
Prononcer :
1. Articuler : prononcer les mots.
2. Dire, débiter : prononcer un discours.
3. Déclarer avec autorité : prononcer un arrêt. (p. 629)
On voit bien ici que Prononcer, dans un de ses sens, semble synonyme de Articuler.
Articuler :
1. Faire entendre distinctement des sons, les syllabes des mots, à l’aide des organes
de la parole. (p. 49)
Apparaît alors ici le pendant audio-acoustique de la prononciation, puisqu’il s’agit de « faire
entendre distinctement ». La structure « faire entendre » implique bien un «entendant » : celui
qui articule, ou bien une autre personne, son interlocuteur.
2.2.2. Prononciation «Correcte»
Il n'existe pas une prononciation tout à fait « correcte». Une grande variété de prononciations
peut être acceptée par des locuteurs natifs comme étant correcte, par exemple, envisager la
multitude de dialectes au sein de la plupart des langues.
De même, la façon dont l'accent est perçu dépend d'une situation donnée et de l'exposition
antérieure des auditeurs pour les personnes avec un accent. Un large champ d'expériences
39
psycholinguistiques a été exécutée afin d'étudier comment les auditeurs perçoivent des
accents étrangers.
Bien que la prononciation puisse varier considérablement au sein d'une langue et chaque
variante de prononciation est acceptée comme «native», l'enseignement des langues devrait
être limité à un seul type de prononciation, par exemple Standard Southern British English,
L’Arabe Standard…etc, de sorte qu'un étudiant en langue apprendra à parler d'une manière
compatible. L'enseignement d'une seule variante d'une langue est justifié, parce que les
locuteurs natifs ne parlent généralement aussi qu’une variante d'une langue, et dans la plupart
des cas, ils peuvent toujours communiquer avec d'autres locuteurs de la même langue
maternelle. [WIT 99]
2.2.3. Les Composants de la prononciation
L’exactitude de la prononciation est déterminée par les deux caractéristiques segmentales et

suprasegmentales. Les caractéristiques segmentales sont concernés par les unités sonores
distingues de parole, c.-à-d phonèmes. Un phonème est également défini comme étant « la
plus petite unité qui peut faire une différence de sens». L'ensemble des phonèmes d'une
langue peuvent être arrangés en large sous-classes phonétiques, par exemple, une
classification plus générale consiste à séparer les voyelles et les consonnes. Les
caractéristiques suprasegmentales de la parole comprennent l'intonation, ton, rythme et stress
et nécessitent une approche pédagogique différente de l'enseignement de la phonétique d'une
langue étrangère. [WIT 99]
Chaque langue est caractérisée par un ensemble distinct de phonèmes. Lors de l'apprentissage
d'une nouvelle langue, les étudiants étrangers peuvent diviser les phonèmes de la langue cible
en deux groupes. Le premier groupe contient les phonèmes qui sont similaires à ceux de
sa/son langue source. Le second groupe contient les phonèmes qui n'existent pas dans la
langue source. L'enseignement de la prononciation des caractéristiques segmentales signifie
donc l'enseignement de la prononciation correcte des phonèmes de la langue cible, à la fois
dans l'isolement et dans le contexte des autres phonèmes, c'est à dire dans les mots ou les
phrases. Même si un phonème isolé est reconnu, de nouvelles langues contiennent souvent
des groupes de phonèmes qui n'existent pas dans la langue source, de sorte que la
prononciation de ces groupements peut ainsi exiger une formation.
40
2.2.4. Aspects d'enseignement de la prononciation
Avant que les méthodes d'enseignement de prononciation assisté par ordinateur puissent être
imaginées, il est important de reconnaître les difficultés spécifiques rencontrées dans
l'enseignement de la prononciation:
• L’enseignement de la prononciation explicite requiert l'attention exclusive de

l'enseignant à un seul élève ; ce qui pose un problème dans un environnement de
classe;
• L’apprentissage de la prononciation peut impliquer une grande quantité de répétitions
monotones, ce qui nécessite beaucoup de patience et du temps de l'enseignant;
• La prononciation étant une action psycho-motrice, ce n'est pas seulement une tâche
mentale, mais exige également la coordination et le contrôle de nombreux muscles.
Compte tenu des implications sociales de l'acte de parler peut aussi signifier que les
étudiants craignent de se représenter (parler) dans la présence des autres;
• Dans les tests de langue, la composante orale est coûteuse (en temps), fastidieuse et
subjective, donc une méthode automatique d'évaluation de la prononciation est
extrêmement souhaitable;
• En outre, tous les arguments pour l'utilité des systèmes d’apprentissage de langues
assisté par ordinateur (CALL pour Computer Assisted Language Learning)
s'appliquent bien ici, comme étant disponibles à tout moment et être moins chers.
Toutes ces raisons indiquent que l’enseignement de la prononciation assisté par ordinateur
n'est pas seulement souhaitable pour des produits d’auto-enseignement, mais aussi pour les
produits qui viendrait compléter les outils pédagogiques d’aide disponibles pour un professeur
de langue. [WIT 97]
Après avoir établi le besoin d'outils automatiques d’enseignement de la prononciation, la

prochaine étape est de déterminer quels composants de la prononciation à aborder. La qualité
de la prononciation est définie par ses caractéristiques phonétiques et prosodiques. Pour les
débutants, les caractéristiques phonétiques ont plus d’importance parce qu’ils provoquent les
erreurs de prononciation. Avec l'augmentation de la maîtrise l'accent devrait être mis sur
l'enseignement de la prosodie, i.e. l’intonation, le stress et le rythme.
41
2.2.5. Objectifs de l’enseignement de la prononciation
Selon la raison pour lequel quelqu'un étudie une langue étrangère, les objectifs
d'apprentissage peuvent varier considérablement. Quelqu'un pourrait vouloir apprendre les
notions basiques d'une langue afin d'être en mesure de communiquer pendant des vacances
dans un pays étranger. Quelqu'un d'autre pourrait vouloir apprendre une langue pour être en
mesure de négocier des affaires d'entreprise.
En totalité, le niveau souhaité de maîtrise peut varier dans une large mesure entre la
communication dénudée et la maîtrise comme étant natifs. Cependant, comme il est bien
connu au sein de la communauté psycholinguistique que la réalisation de la prononciation
comme les natifs nécessite d'énormes efforts d'apprentissage des apprenants adultes, un
objectif commun à la plupart des apprenants d'une langue étrangère est de parvenir de manière
intelligible et confortable.
Un autre objectif devrait également être envisagé est d'enseigner une version de la langue
cible qui est socialement acceptable pour les étudiants. Par exemple, dans les pays où l'anglais
est une langue d’affaires et d'administration, l'objectif serait d'enseigner une variante locale de
l'anglais et non pas l’anglais selon la norme Southern British English par exemple. Enfin, un
but d'enseignement de la prononciation doit être affiné pour les besoins individuels de l'élève.
2.2.6. Les systèmes d’enseignement de la prononciation assistés par

ordinateur (EPAO)
L’un des principaux problèmes dans l’apprentissage des langues est d’apprendre la bonne
prononciation, et dans le but de simplifier ça, il y avait beaucoup d’efforts pour informatiser
les méthodes d’enseignement en tenant compte aux recommandations pédagogiques
nécessaires pour l’entrainement de la prononciation d’une seconde langue. Les systèmes
d’EPAO étaient le résultat de cet effort là, ils s’agissent de logiciels interactifs désignés pour
aider les étudiants de L2 à améliorer leur prononciation dans leur propre environnement selon
leurs propres rythmes.
D’après certaines études [MUR 99], l’intimité offerte par ces environnements peut aider à
réduire l’inquiétude de la langue étrangère, ce qui est un phénomène fortement lié aux
facteurs de jugement social [YOU 90], et ainsi ils favorisent indirectement l’apprentissage.
42
De plus, les profiles des étudiants peuvent être sauvegardés par les systèmes dans un fichier
pour qu’ils puissent contrôler les problèmes et superviser les améliorations, l’enseignant aussi
peut consulter ces fichiers et suggérer les étapes de réparation appropriées. [NER 07]
2.2.7. Les Inputs et outputs des systèmes d’EPAO
Les systèmes CAPT qui sont disponibles aujourd’hui fournissent généralement des inputs
oraux abondants. Certains systèmes –vraisemblablement essayent d’économiser l’espace
disque et de compresser le package dans un seul CD-ROM, et d’utiliser le reste pour
accompagner l’information fournie oralement ou dans des nuages de texte [ILT 97], [AUR
00]. Plusieurs systèmes fournissent aussi des informations sur comment la parole désirée doit
être produites, en expliquant comment les articulateurs doivent être positionnées. Ceci peut
être fait à l’aide d’une représentation 3D d’une bouche produisant la parole, accompagnée des
fois par des explications écrites [AUR 00], [GLE 01], ou par les vidéos des parleurs natifs
prononçant les mots désirés [GLE 01], [NIE 02], [EUR 02]. Mais les animations et les vidéos
restent toujours les plus préférés : quand les animations de la bouche fournissent des signaux
visuels précis et réalistes des sons simples, les fragments du film vont inclure aussi des
informations sur les expressions faciales et les gestes qui accompagnent les actes de la parole
de la L2, et elles fournissent aussi une information sur la fonction pragmatique. De plus, la
recherche à indiquer que l’utilisation des matériels multimédia digitale peut servir
l’apprentissage des langues, car ils semblent authentiques et séduisants. Mais un système qui
fournit seulement l’input et entraine seulement les capacités réceptives sera considéré limité
d’après la perspective de l’apprentissage des langues.
C’est pour ça, la plupart des systèmes d’EPAO courants ont été désignés pour stimuler
l’utilisateur à produire une parole qui peut être enregistrée par la suite et on peut la relire.
C.à.d. l’étudiant peut examiner son propre output et essayer de l’améliorer après l’avoir
comparer avec un modèle de parole préenregistré. Le problème principal pour de tels
systèmes et que la plupart des étudiants ont des difficultés pour évaluer leurs propres
prononciations, et donc ils auront besoin d’un feedback externe.
D’autre part, les systèmes qui nécessitent un enseignant pour écouter aux enregistrements et
de les évaluer souffrent des rapports enseignant-étudiant défavorables, comme dans les
classes des langues dans les écoles et les universités (ex. Nieuwe Buren 2002). De plus les
43
fonctionnalités offertes par ces systèmes ne sont pas innovantes si on les compare à ceux
employées dans les labos des langues traditionnels.
Finalement, il y a des systèmes d’apprentissage à distance et à base de feedback externe. Ces

systèmes demandent aux étudiants d’entrainer d’abord et d’enregistrer leurs paroles, puis de
transférer les fichiers audio à une page web ou de les envoyer par e-mail à des entraineurs
autorisés qui vont les évaluer et les noter, et enfin ils renvoient les résultats à chaque étudiant
[FER 00], [ROS 01]. Mais le problème ici est dû à ce que l’étudiant doit communiquer à une
troisième partie, et que le feedback arrive dans des délais considérables. En comptant sur ces
défauts, on va considérer les systèmes qui fournissent l’input, comme une occasion pour
l’output de l’étudiant et le feedback automatique que l’étudiant peut retrouver et étudier quand
il/elle désire. [NER 07]
2.2.8. Les défis de l’enseignement de prononciation assisté par ordinateur
d'un élève en utilisant les moyens standards d'interaction tels que le clavier et la souris. En
transition de la pauvre vers la bonne prononciation est progressive, et toute évaluation doit
Avec l'augmentation des performances de la reconnaissance de la parole, ces dernières

années, l'évaluation automatique de la prononciation est maintenant possible. Toutefois, les
systèmes de reconnaissance indépendants du locuteur existants ont tendance à produire de
mauvais résultats lors de reconnaissance de parole non native. Ainsi, en appliquant la
technologie de reconnaissance de la parole à la tâche de l'apprentissage interactive des
langues nécessitent l'introduction de nouveaux algorithmes axés sur les besoins spécifiques de
la reconnaissance de la parole non native. [WIT 97]
44
2.3. Pourquoi utiliser la reconnaissance automatique de la parole

(RAP) dans l’EPAO
Dans la fin des années 90, l'enseignement de la prononciation assisté par ordinateur en
utilisant la RAP est devenu un domaine d'une grande importance. En 1999, un programme de
CAL1CO appelé « Tutors that listen » est apparu, et qui a été basé sur « la RAP discrète »,
i.e. la reconnaissance de mots individuels prononcés avec des pauses entre eux. Depuis cela,
des plus grandes expectations ont été attendues par les chercheurs et les enseignants des
langues. Le bonus majeur de ces systèmes était : la provision d'un feedback individuel,
instantané et automatique de la prononciation.
Les experts de ce domaine voient les feedbacks automatiques comme cruciaux pour aider les
apprenants à être plus conscient de leurs erreurs de prononciation, tandis que les enseignants
sont considérés comme des moyens limités en temps.
Dans les systèmes CAPT (Computer Assisted Pronunciation Training) basés sur la RAP, le
feedback est fourni à chaque étudiant en temps réel par la machine en utilisant à travers des
écouteurs et une information visuelle affichée sur l'écran et ainsi, il éliminera le problème de
la contrainte de temps et le jugement social trouvé dans les classes classiques. [NER 07]
Les systèmes CAPT peuvent bénéficier de la technologie de la RAP de plusieurs manières,

par exemple, en incluant les systèmes de dictée où la RAP est utilisée pour convertir la parole
de l'homme en mots qui seront affichés sur l'écran, cette technique peut être utilisée pour
fournir un feedback visuel sur la prononciation de l'étudiant pour l’aider à savoir où il s’est
trempé exactement. Cette technique peut aussi faire des erreurs, mais leurs correction est très
facile et ne prend pas beaucoup de temps. [HEL 06]
2.4. Le fonctionnement des systèmes CAPT basés sur la RAP
Pour bien comprendre les capacités et les limitations des systèmes CAPT basés-RAP, il faut
comprendre comment ces deux systèmes fonctionnent.
D'abord, on va revenir brièvement le fonctionnement de la RAP, donc on va faire une petite

description sur le reconnaisseur de la parole continue (RPC), ce programme est plus souvent
45
implémenté dans les systèmes de dictée pour convertir la parole en une chaine de mots
présentés orthographiquement, et il peut être considéré comme une version simplifiée de la
technologie trouvée dans les systèmes CAPT basés-RAP. [NER 07]
2.4.1. Comment fonctionne la RAP
Un RCP est constitué des modules suivants :

a. Modèle acoustique
b. Lexicon
c. Modèle de langue
d. Décodeur
Figure 2.1. Diagramme schématique d'un système de RAP [NER 07]
2.4.2. Comment fonctionne la technologie d'EPAO basé-RAP
Comme on a déjà vu, le but d'un RPC est de convertir un signal acoustique en une chaine de
mots. Le fonctionnement d'un système CAPT basé-RAP est représenté schématiquement par
les quatre étapes suivantes :
2.4.2.1. La reconnaissance de la parole

C'est la phase qui nécessite l'inclusion du RPC avec ses quatre composants. Mais pour les
systèmes CAPT, un RPC spécial est utilisé qui peut compenser pour les problèmes qui
46
peuvent arriver dans le cas de la parole non-native.

Ces problèmes concernent le fait que les parleurs non-natifs :
Utilisent souvent des mots et des ordres différents,
Prononcent quelques sons différemment,
Et, prononcent les mots comme une séquence de phonèmes différents par
rapport aux parleurs natifs.
Ces différences affectent essentiellement tous les composants du RPC, tant que la parole non-
native est caractérisée par un débit de parole plus bas et par une haute fréquence d'immaîtrise,
qui peut aussi affecter la performance. [NER 07]
2.4.2.2. La segmentation ou l'alignement

Contrairement aux systèmes de dictée, qui consistent à reconnaître la parole prononcée et la
traduire en une séquence de mots, dans les systèmes CAPT, une fois la parole prononcée est
reconnue, des taches additionnelles doivent être prises en charge. Ces dernières, servent à
obtenir l'information nécessaire pour fournir une évaluation sur la qualité de la prononciation.
La dernière tache consiste à segmenter la parole en une séquence de phonèmes. Cette tache
est exécutée par un algorithme qui utilise les modèles acoustiques et la parole reconnue pour
segmenter le signal de la parole en phénomène et pour les fournir avec des marques de temps.
La validité d'alignement du signal de la parole avec la prononciation reconnue est importante
pour fournir un feedback correct. Cependant, il est difficile de fournir un alignement 100%
correct avec la parole non-native, puisque cette dernière est souvent caractérisée par la
présence de déviations de la parole native, des immaîtrises, des insertions de sons, etc. [NER
07]
2.4.2.3. L'analyse de la qualité de la prononciation

L'information sur les sons de la parole de l'apprenant peut être maintenant comparée à celle
des sons de la parole native. Cette analyse est faite généralement par un algorithme qui fournit
une mesure sur la distance entre les deux types de la parole. Cette information peut être
utilisée pour fournir une évaluation sur la qualité de la prononciation aux phonèmes, aux
mots, ou aux phrases. La validité de la sortie de cette phase dépend de celle de la phase
précédente, et aussi de la validité des modèles sauvegardés des paroles natives ou non-natives,
ou de la validité des conditions (seuils) prédéfinies pour accepter ou rejeter la réalisation de
l'étudiant d'une parole native. [NER 07]
47
2.4.2.4. Le feedback
L'information mentionnée jusqu'à maintenant est d'une forme numérique, donc pour qu'elle
soit compréhensible pour l'apprenant et ainsi pédagogiquement utile, cette information doit
être traduite en quelque sorte d'un feedback intuitif. Bien que la présentation d'un feedback
n'est pas le sujet de la technologie de la RAP, elle est très importante pour le design de
l'interface d'utilisateur, ce qui aidera à augmenter l'efficacité des systèmes CAPT basés-RAP.
2.5. Comment utiliser efficacement la RAP dans l’enseignement de

prononciation d’une seconde langue (L2)
Parmi les avantages qu'un système CAPT basé-RAP peut fournir est : la capacité de
reconnaître correctement une prononciation non-native, de détecter des erreurs de
prononciations individuelles, et de fournir un feedback immédiat. Ce type de systèmes peut
aussi offrir plus de temps et de matériel d'apprentissage, et la possibilité d'entrainer
individuellement dans un environnement sans stress. De plus, ces systèmes peuvent inclure un
apprentissage basé-tache utilisant la stimulation d'activités à travers les jeux de rôles et les
dialogues interactifs. [NER 07]
Dans cette section, on va présenter comment la technologie de la RAP peut être employée
dans l'EPAO d'une façon utile. Pour faire ça, on va essayer de formuler des recommandations
concernant trois aspects importants des applications d'EPAO basé-RAP :
1) la reconnaissance de la parole non-native,
2) l'évaluation de la prononciation
3) le feedback.
2.5.1. La reconnaissance de la parole non-native
Comme on a dit précédemment, pour assurer une performance de reconnaissance satisfaisante

dans les applications d'EPAO basé-RAP, il faut utiliser une tache de RAP spéciale dotée à la
parole non-native. Dans ce qui suit, on va expliquer comment peut-on améliorer la
performance de la RAP non-native, à travers ses trois composants adaptables. L'utilisation
experte de ces techniques donne des systèmes d'EPAO ayant une performance de
48
reconnaissance satisfaisante, et aux étudiants le sens qu'ils peuvent interagir avec le système
d'une façon très utile. [NER 07]
2.5.2. Les modèles acoustiques
Les recherches concernant l’amélioration des performances de la RAP non-native ont

concentré principalement sur les modèles acoustiques. Depuis qu'il a été trouvé que les
modèles acoustiques de la parole native ne produisent pas une performance de reconnaissance
satisfaisante pour les non-natifs, d'autres approches ont été ainsi adoptées, tel que «la
combinaison de modèles » et « les modèles parallèles ».
Dans la « combinaison de modèles », un mélange de matériel de parole native et non-native
est utilisé pour entraîner les modèles. La proportion des paroles natives et non-natives peut se
varier pour régler les modèles à la parole à reconnaître. Dans l'approche des « modèles
parallèles », les modèles acoustiques des deux langues (Ll et L2) sont sauvegardés, et pendant
le décodage, le reconnaisseur détermine quelles sont les modèles qui s'adaptent mieux aux
données.
Cependant, ces approches peuvent être utilisées seulement avec des paires de Ll-L2 fixes,
c.à.d. les systèmes utilisant ces approches peuvent être utilisés que par les apprenants ayant la
Ll comme une langue mère. De plus, dans le but d'entrainer les modèles acoustiques dans ces
systèmes, il faut avoir des grandes quantités de paroles non-natives (produites par les parleurs
de la Ll désirée) qui ne sont pas toujours disponibles.
2.5.3. Le Lexicon
L'autre méthode adoptée pour améliorer la performance de la RAP est d'assurer que les
parleurs prononcent des mots existants dans le lexicon. Il y a plusieurs techniques pour faire
ça, par exemple : poser des questions à réponses fermées (quel est l'opposé du mot « bien » ?),
avoir des parleurs qui lisent les phrases à haute voix, ou désigner des dialogues de réponses
fermées avec le système, dans lesquelles l'étudiant peut choisir une réponse parmi un nombre
limité d'alternatives qui sont phonétiquement différentes.
Une autre manière pour assurer une meilleur performance de reconnaissance en jouant sur le
lexicon, et qui peut être spécialement importante pour la parole non-native, c'est d'inclure
pour un nombre d'entrées, des variantes de prononciation qui reflètent des mal prononciations
possibles des mots de la L2 : construire des règles décrivant des erreurs possibles faites par
des parleurs d'une première langue dans la L2, et ces règles seront sous-séquentiellement
49
appliquées sur le lexicon.

D'autre part, les systèmes utilisant cette approche ne peuvent pas prédire les erreurs
idiosyncratiques et imprévisibles. De plus, cette approche ne peut pas être utilisée si la Ll de
l'utilisateur n'est pas connue, ou si une connaissance sur des erreurs typiques n’est pas
disponible. Dans ce cas, il faut choisir une approche générique de Ll, dans laquelle il n’y a
aucune prédiction d'erreurs. Cette approche peut causer moins de validité dans la
reconnaissance et l'identification des erreurs, mais plus d'efficacité dans l'utilisation du
système par plus d'utilisateurs. [NER 07].
2.5.4. Le modèle de langue
L'autre méthode d'amélioration de la validité de la reconnaissance est de diviser les activités

d'apprentissage en taches multiples séparées pour le reconnaisseur. Ceci est généralement fait
en combinaison avec un lexicon limité avec lequel est une définition de tache simple, il est
possible de convaincre le modèle de langue comme des petites séries de modèles de langue
incorporées, et ainsi on aura moins de perplexité, i.e. il y a moins d'options à choisir, ce qui va
diminuer l'espace de la recherche pour le décodeur, et augmenter la vitesse et la validité de la
reconnaissance.
Tant que l'output de l'étudiant se change selon la tache en main, il est possible d'activer un
modèle de langue spécifique contenant que les paroles qui sont attendues dans le contexte de
cette tache. Donc, la performance de la reconnaissance peut encore être maximisée sans
affecter la validité de l'application, et les étudiants vont sentir qu'ils interagissent avec le
système et qu'ils contrôlent la conversation.
D'autre part, des modèles de langue plus « stricts » peut être aussi utilisés pour simplifier la
tache de la reconnaissance, par exemple : des modèles de langue qui décrivent exactement
quelles sont les paroles qui sont admises comme entrées pour le RPC, Mais le problème est
que ces modèles ne sont pas flexibles et ne peuvent pas supporter la parole contenant des
hésitations comme des pauses, répétitions, insertions ou suppressions. [NER 07]
2.6. L'évaluation de la prononciation
Dans cette phase, des modèles acoustiques natifs (qui sont moins tolérants) sont utilisés au
lieu de ceux adaptés, pour obtenir une indication sur le degré de similarité entre les
réalisations de l'étudiant en L2 dans la parole reconnue et les phonèmes désirés. En d'autres
50
mots, le système va comparer entre la parole prononcée et les modèles natifs utilisés comme
une référence.
Cette tache a été décrite par les différents auteurs par des divers termes tel que : le scoring de
la prononciation, le classement de la prononciation, la détection des erreurs, localisation des
erreurs, etc. mais citée dans la plupart des études dans l'EPAO par l'estimation automatique de
la prononciation, ces termes sont utilisés inter-changeablement, mais parfois, ils peuvent
référer à différentes taches. Par exemple, pour « la détection des erreurs » et « le classement
de prononciation » : en général, la détection des erreurs (ou localisation) indique la procédure,
par laquelle un score de niveau local est calculé, mais le classement (ou le scoring) de la
prononciation indique la procédure suivie pour calculer un score global au niveau de la
parole.
Donc, un système d'EPAO peut fournir un feedback automatique plus utile sur la qualité des
paroles individuelles en se basant sur la similarité entre les modèles enregistrés et les paroles
prononcées, sachant que plus le domaine de calcul est grand, plus le nombre de points
d'observation est grand, et ainsi une plus grande fiabilité de mesures. D'autre part, il faut noter
que plus le feedback est détaillé à l'apprenant, plus le risque de faire des fautes par le système
et de fournir des feedbacks erronés augmente. [NER 07]
2.7. Le feedback
La notion exacte d’un feedback externe correctif est très loin d’être claire. Dans l’acquisition
de la L2, le terme concerne généralement l’information fournie par des parleurs natifs ou des
enseignants sur une expression non-ciblée appelé souvent « negative evidence » (preuve
négative), mais une définition plus détaillée manque, comme c’est le cas pour la classification
des différents types de feedback et leurs efficacités respective pour l’apprentissage. Dans les
systèmes CALL, le terme est principalement utilisé pour référer aux informations sur les
erreurs ou sur la performance d’une tache en général, et peut inclure même des scores comme
une forme d’estimation de succès, et il est parfois utilisé pour fournir des instructions,
explications ou des indices.
L'opération de fournir un feedback est cruciale dans l'apprentissage de la prononciation de la

L2, tant que les apprenants de la L2 parfois échouent à remarquer les déviations entre leur
prononciation et la prononciation désirée, et comme on a vu, la technologie de l'EPAO basé-
RAP permet d'obtenir l'information nécessaire pour cette tache automatiquement (sans
51
l'intervention de l'enseignant). Pour choisir la méthode optimale pour fournir le feedback, on

peut distinguer entre « le contenu » et « la forme » du feedback, essentiellement l'information
à fournir et la façon pour la présenter.
Pour le « contenu », l'information sur les erreurs de prononciation à fournir doit respecter
quelques recommandations. Au début, il faut faire une sélection pour minimiser le nombre
d'erreurs sur lesquelles le feedback sera fourni. Cette sélection peut être faite aléatoirement,
mais il y a aussi d'autres critères spécifiques qui peuvent être définis pour maximiser encore
l'efficacité pédagogique de l'apprentissage, tel que la persistance de l'erreur (il y a des erreurs
qui disparaissent après l'exposition à la L2), la fréquence de l'erreur, la robustesse de la
détection des erreurs (il faut choisir les erreurs de prononciation qui sont détectées plus
fiablement).
D'autre part, à propos de la forme (ou la présentation) du feedback, ce dernier doit être
présenté d'une manière simple et claire à l'apprenant, tel que la coloration des erreurs en
rouge), au lieu d'utiliser des affichages complexes (spectogrammes, waveforms) ou des
symboles phonétiques. [NER 07]
Dans ce qui suit on va discuter quelques approches de feedback :
2.7.1. L’affichage visuel
Certains systèmes d’EPAO fournissent des feedback instantanés sous forme d’affichage
graphique comme les spectrogrammes et les waveforms qui sont accompagnés d’un affichage
d’une expression modèle enregistrés précédemment et prononcé par l’enseignant ou par un
parleur natif. Donc, ici on va étudier les différentes formes d’affichage et les avantages et
inconvénients de chacune, et aussi leurs efficacités dans l’amélioration des compétences des
étudiants.
La recherche sur la prononciation a généralement montré que ces types d’affichage visuel,
s’ils sont couplés à des feedback auditoires, peuvent contribuer à améliorer la prononciation,
surtout en respectant l’intonation [DEB 83], [AND 92], [AKA 98]. L’efficacité de ces types
d’affichage est néanmoins discutable pour un certain nombre de raison. D’abord, pendant
l’attestation de l’utilité de l’affichage visuel, certaines recherches ont montré que les
améliorations remarquées après l’entrainement avec ce type de système pouvaient être le
résultat du fait que l’étudiant a consacré plus de temps pour s’exercer. Deuxièmement, ces
systèmes font une analyse pour le signal de la parole entrant sans reconnaître la sortie
52
(output). Et ça implique qu’il n’y a aucune garantie que la prononciation de l’étudiant

correspond vraiment à celle désirée. Troisièmement, le fait que le système comprend
l’expression modèle, veut dire que l’entrainement de la prononciation doit permettre à
produire une expression dont le spectrogramme ou le waveform correspond strictement à cette
expression modèle. En effet, tous ça n’est pas nécessaire du tout, car on peut avoir deux
expressions avec le même contenu et la même bonne prononciation, mais elles peuvent encore
donner deux spectrogrammes différents, ces types d’affichages ne sont pas facilement
interprétables pour les étudiants. En fait, ils représentent des données brutes qui nécessitent
la présence d’un enseignant pour les interpréter.
D’autre part, il y a des systèmes comme « talk to me » [TTM 02] et un autre plus complet
« Tell me more » [AUR 00], qui n’utilise pas les waveforms exclusivement comme feedback.
Ces systèmes fournissent un score global et marquent les mots mal-prononcés par une couleur
différente, et les waveforms sont justes utilisés pour impressionner les utilisateurs par leur
apparence attirante.
Un autre système plus développé, appelé « WinPitchLTL » (Germain) [RUT 00], [WIN 02],
a été développé par deux phonéticiens qui travaillaient sur la technologie et la pédagogie de
la parole. Ce système est capable d’analyser les paroles enregistrées par les courbes (sous
forme de waveform ou d’un spectrogramme). L’avantage principal de ce système est que
l’enseignant peut segmenter le signal pertinent par différentes couleurs dans la courbe
mélodique du spectrogramme, ce que rend les informations importantes facilement visibles et
accessibles pour les étudiants, mais le problème qui se pose ici est que le système ne peut pas
exécuter toutes les opérations automatiquement, comme sa technologie ne peut pas segmenter
un signal de parole complexe. En plus, l’efficacité d’un tel système est totalement liée à
l’enseignant : ce dernier doit être toujours disponible et doit avoir reçu précédemment un
entrainement suffisant dans la phonétique et l’acoustique et qui doit être capable de passer
cette information aux étudiant par l’édition du signal de la parole. [NER 07]
2.7.2. L’évaluation automatique
Les systèmes décris ci-dessus ont en commun que l’ordinateur produit une représentation
visuelle directe des signaux de la parole, mais toute interprétation ou manipulation est laissée
pour l’étudiant et/ou l’enseignant. Maintenant, on passe à d’autre types de systèmes qui ne
nécessitent pas une supervision continue par l’enseignant et qui laissent à l’ordinateur la tâche
53
de comparer l’expression de l’étudiant avec le modèle de référence dans le but de produire un

bon score de la qualité de prononciation. Dans ce cas, le feedback consiste souvent en un
score numérique ou symbolique, par exemple : donner une icône de smiley, un commentaire
oral disant par exemple « très bien ! », ou une barre de classement qui indique le degré de la
« nativité » de l’expression prononcée. Donc, le score automatique permet de donner à
l’étudiant une information immédiate et compréhensible sur la qualité de sa prononciation.
Cependant, le grand défit dans le développement de tels systèmes et de définir les mesures
appropriées que l’ordinateur doit calculer, ça veut dire que les mesures doivent être fortement
corrélées avec les considérations humaines sur la qualité de prononciation, parce que
l’étudiant doit parler éventuellement avec d’autre personnes, et pas avec des machines. Donc,
la qualité de la prononciation doit être déterminée par rapport à ce que les humains
considèrent acceptable.
Vue cette limitation, les chercheurs ont eux besoin d’intégrer plus d’information et de détails
sur la performance orale de l’étudiant. Parmi les systèmes d’EPAO qui fournissent un type
de feedback similaire, même plus implicite et plus réaliste, sont les séries « Tell me more » et
« Talk to me » par Auralog [AUR 00], [TTM 02] qui permettent aux étudiants d’entrainer
leurs compétences communicatives à l’aide d’un nombre de dialogues interactifs avec
l’ordinateur. L’étudiant doit écouter une question orale qui est simultanément affichées sur
l’écran et choisir la bonne réponse parmi les trois propositions écrites qui sont
phonétiquement différentes. L’ordinateur doit reconnaître la prononciation de l’étudiant à
l’aide des techniques de la reconnaissance automatique de la parole, et passer à la
conversation suivante, et si l’ordinateur ne comprend pas l’étudiant, il lui demande de répéter
la réponse.
Le Microworld de « Military Language Trainer » (MILT, la version utilisée par l’académie

militaire des Etats Unies) est un autre système qui simule le monde réel, où l’étudiant
demande oralement l’ordinateur de faire une action simple dans un monde simulé avec
plusieurs objets, par exemple : dire « mettre le livre sur table », et si l’ordinateur comprend la
parole de l’étudiant il va accomplir la demande.
Le type de feedback fourni par un tel système semble être très efficace pour renforcer le
comportement de la prononciation correcte, comme il ressemble d’une façon réaliste au type
d’interaction fournit dans le cas d’un interlocuteur humain. Il encourage aussi l’inclusion le
54
type d’interaction fournit dans les jeux d’apprentissage. Cependant, tous ces systèmes ne
peuvent rien faire si l’étudiant ne peut pas être intelligible quand il/elle ne peut pas prononcer
un certain son correctement, comme c’est le cas dans la prononciation de certaines voyelles en
Anglais.
Les chercheurs ont déclaré que seulement 25% des erreurs sont détectées par le système, et
que 5% des sons corrects sont incorrectement classés comme erreurs. Avec une telle
performance, les feedback qui seront erronés vont décourager les étudiants au lieu de leurs
donner des diagnostiques utiles [MEN 00]. Donc, les systèmes d’EPAO futurs qui utilisent la
reconnaissance automatique de la parole (RAP) pour détecter les erreurs de la prononciation
doivent concentrer sur les erreurs qui peuvent être détectées avec un grand degré de
robustesse, et aider à rendre disponible des paroles non –natives transcrites en différentes L2.
Néanmoins, même si la performance d’un système de RAP est optimisée, elle ne sera jamais
considérée comme parfaite, et ainsi les feedbacks erronés seront encore fournis de temps en
temps. [NER 07]
2.8. L'efficacité des systèmes EPAO basés sur la RAP
L'efficacité d'un système d'EPAO basé-RAP ne peut être prouvée qu'après son évaluation.
Dans ce qui suit, on va présenter quelques études pour mesurer l'efficacité de quelques
systèmes d'EPAO. Ces études se différent l'une de l'autre selon le type de système d'EAPO
considéré et l'architecture expérimentale adoptée, ce qui rend difficile de faire une décision
globale sur l'efficacité de l'approche EPAO basé-RAP.
En 2000, Mayfield Tomokyio, Wang et Eskenazi ont examiné l'amélioration faite par 16
étudiants universitaires avec différentes langues natives, pour apprendre la prononciation des
fricatives interdentales voisées non voisées /õ/ et /θ/.Tous les étudiants ont reçu deux heures
d'entrainement pour une période de deux ou trois semaines dans une situation d'immersion.
Un groupe de huit ont utilisé le système « Fluency », qui identifie les erreurs
automatiquement et offre des suggestions pour prononcer les phonèmes désirés correctement.
Le groupe de contrôle a reçu le même type d'entrainement par un enseignant. Après
l'évaluation des phonèmes, les résultats ont indiqués une réduction d'erreurs considérable pour
les fricatives dans les différents contextes phonétiques. Donc le type d'apprentissage offert par
Fluency est efficace et il peut être appliqué avec succès pour les autres phonèmes aussi.
L'efficacité du système « Talk to me » de Auralog a été évalué par Hincks (2003, 2005). Le
55
feedback fourni par ce logiciel est constitué d'un score à 7 points sur la qualité de la
prononciation, une portion problématique de la parole prononcée colorée en rouge, et des
affichages représentant les courbes de la parole de l'apprenant. Mais les résultats n'étaient pas
satisfaisants, Hincks a expliqué que ces résultats négatifs sont dues à l'ambiguïté des
affichages (courbes).
Une autre étude plus récente faite sur PLASER (Pronunciation Learning via Automatic
Speech Récognition), qui est un système d'EPAO basé-RAP désigné pour des apprenants
Chinois d'Anglais, qui concentre sur la prononciation des phonèmes confondus. Le système
offre 20 leçons incluant des exercices d'écoute et de parole avec des instructions sur comment
articuler des phonèmes spécifiques. Et après l'avoir essayé par 900 étudiants pendant deux à
trois mois, les résultats ont été très satisfaisants.
Lorsqu’on tombe dans le cas où il n'y a aucune amélioration dans la prononciation comme
dans l'exemple de Hincks, beaucoup de questions se posent, tel que : y avait-il des problèmes
dans la procédure d'apprentissage ? Etc… il est clair que ce coté nécessite encore plus de
recherches, et qu’on ne peut pas répondre à ces questions dans un seul projet de recherche.
[NER 07]
2.9. L’évolution de logiciels en apprentissage des langues
2.9.1. Introduction
Dans cette recherche, nous constatons en premier lieu, que parmi les logiciels de langues, la
tendance majeure est de se focaliser sur l’apprentissage de la grammaire, la conjugaison, la
syntaxe ou encore du vocabulaire, alors que la prononciation reste bien souvent « hors jeu ».
Cela peut s’expliquer certainement par le fait que, dès le début de la création de logiciels, ce
sont les « matières scientifiques » telles que les mathématiques, la physique ou la chimie qui
étaient concernées, car en tant que sciences exactes, il était relativement pratique et facile de
les transposer à cet outil. De ce point de vue là, il n’est donc finalement pas étonnant si,
concernant le domaine des langues, les premières applications concernaient les composantes
les plus aisées à systématiser et automatiser. Dès lors, il a fallu attendre la fin des années 90
pour voir la naissance de logiciels d'apprentissage de langues incluant l’apprentissage de la
prononciation.
56
2.9.2. Historique sommaire de l’évolution de logiciels en apprentissage des

langues
L’apprentissage des éléments prosodiques a été pendant longtemps négligé au profit des
éléments segmentaux. C’est à partir des années 60 que certains travaux ont donné lieu à de
nouvelles technologies basées sur le travail de l'intonation. La démarche réside en la
représentation graphique par une visualisation de l'onde sonore sous la forme
d'oscillogrammes voire parfois de spectrogrammes.
Ainsi, [VAR 64] et [LAN 65] développent des méthodes qui consistent à visualiser la courbe
intonative lors de répétition de phrases données. Des expériences ont été menées pour chacun
des visualiseurs mais aucune n'a montré de résultats pertinents dans les progrès réalisés par les
apprenants. En effet, soit ces méthodes ne comprenaient pas de feedback visuel adapté
(utilisation de l'oscillogramme et des courbes d'amplitude ininterprétables), soit elles n'étaient
pas suffisamment exploitées pour être efficaces.
C'est entre les années 70 et 80 que les progrès techniques et les recherches en sciences du
langage sur l'acoustique, en parole de synthèse, et en reconnaissance de parole ouvrent la voie
vers des technologies permettant la visualisation de la courbe mélodique par des types de
représentations beaucoup plus encourageants. Les recherches de [LEO 71] ont abouti à la
mise au point d'un analyseur, montrant sur un écran d'ordinateur la phrase modèle de
l'enseignant et la reproduction de l'apprenant. L'idée de logiciels permettant de visualiser les
courbes intonatives est alors approfondie et renforcée par l'apparition d'un feedback visuel.
L'apprenant peut alors comparer sa production avec celle du modèle et repérer les différences
majeures de production, en particulier par la durée et la forme de la courbe mélodique. Le
principe du feedback visuel prend alors toute son importance.
Cette avancée technologique va permettre également à [JAM 72], [JAM 76], [JAM 77] de
mener des expériences confirmant qu'un feedback visuel d'apprenants anglophones représente
un élément important dans l'acquisition des schémas intonatifs de la langue cible, ici le
français. Plus particulièrement, il remarque qu'une visualisation comparée est plus efficace
qu'une simple visualisation de la courbe modèle. [DEB 83] montre dans une étude qu'une
meilleure imitation du modèle était plus rapidement atteinte lorsqu’il y avait un feedback
visuel et qu'un facteur de motivation entrait en jeu. Malgré les progrès apportés par
57
l'intégration d'un visualiseur de mélodie, le feedback semble être insuffisant et ne permet pas
de différencier les variations prosodiques pertinentes des variantes individuelles possibles.
Une décennie plus tard, les techniques d'analyse du signal et d'extraction de la fréquence
fondamentale ainsi que de reconnaissance de la parole deviennent plus fiables et plus
accessibles. Divers logiciels sont développés. Leur utilisation première est plutôt destinée aux
chercheurs ou enseignants-chercheurs, mais il nous semble qu'une utilisation détournée de ces
produits est tout à fait envisageable dans l'apprentissage d'une seconde langue (L2). Parmi
eux :
PRAAT : développé par [BOE 09] est un logiciel en libre accès, en constante l’évolution, qui
présente plusieurs fonctions telles que l'analyse, la manipulation de la parole, la
synthétisation. Ce programme informatique, d'une apparente complexité, pourrait s'intégrer
dans un cursus de formation pour des étudiants de niveau avancé (masters), pour qui le
logiciel PRAAT constituerait un outil intéressant pour mener une auto-évaluation prosodique
et/ou segmentale de leur propre production. En effet, PRAAT permet de s'enregistrer, ce qui
permettrait aux étudiants de visualiser leurs énoncés et de les analyser au travers des
différentes fonctions proposées par le logiciel (courbes, durées, etc.).
Speech Analyzer : proposé par le SIL (Summer Institute of Linguistics) se voit développé par
l'ajout d'extensions telles que SARP (Speech Analyzer Rapid Plot) créées par [NIK 07].
SARP est une extension de Speech Analyzer, version 3. Il permet de manipuler la
représentation graphique de données acoustiques, en créant un diagramme des voyelles
(propre à chaque production). Plusieurs fonctions sont à disposition des utilisateurs, telles
que:
• L'étude des propriétés acoustico-phonétiques des voyelles, par élaboration d'un
diagramme avec représentation graphique des valeurs moyennes,
• La possibilité de mener des analyses comparatives des voyelles par superposition
graphique,
• la possibilité d'utiliser le logiciel comme un outil d'aide à la compréhension orale.
De la même manière que PRAAT peut être utilisé par des « non experts » (suite à une
formation), SARP peut aussi constituer un outil intéressant pour les apprenants. Après une
58
formation pour une prise en main du logiciel, l'apprenant pourrait tout à fait auto-évaluer les
voyelles de ses productions.
Figure 2.2. Exemple de représentation graphique proposée dans le logiciel SARP
C'est ainsi qu'à partir des années 1990, on peut constater l'émergence de nombreux logiciels,
qu'ils soient outils d'analyse (comme vu précédemment) ou bien encore, logiciels
d'apprentissage multimédia. Cependant, beaucoup de ces outils ne traitent encore que des
aspects grammaticaux et lexicaux de la langue, ou bien ciblent uniquement l'apprentissage des
éléments segmentaux.
WebGrader : proposé par [NEU 98], est un outil basé sur la reconnaissance de parole, conçu
pour la pratique de la prononciation d’une seconde langue, au travers de différentes leçons
regroupées par thème, telles que « repas au restaurant », ou encore « les transports en
commun ». Pour chaque leçon, un ensemble de phrases est proposé ; l’utilisateur peut écouter
les phrases prononcées par un natif et peut s’enregistrer, afin d’obtenir un score sur ses
réalisations.
PLASER : présenté par [MAK 03] est un logiciel destiné à l’enseignement de la

prononciation de l’anglais pour des apprenants chinois. Utilisant la reconnaissance de parole,
cet outil donne un feedback immédiat aux utilisateurs qui pratiquent deux types d’exercices, à
savoir la prononciation, soit par le biais de paires minimales, soit par l’utilisation de mots.
59
Parmi les logiciels existants sur le marché, deux types de regroupements (listes non
exhaustives) peuvent être établis.
Le premier groupe concerne les logiciels proposant un feedback, basé sur la visualisation d'un
spectrogramme ou oscillogramme (illustré par la figure 2.3) :
• SoundForge(1991)
Sonicfoundry&RealNetworks: http://www.Sonicfoundry.com
• Tell me more (1998)
Auralog: http://www.auralog.fr
• VOICEbook (1998)
Englishear system (Paris): http://www.voicebook.com
• LAVAC (1999)
(Laboratoire Vidéo Actif Comparatif) / Tony Toma : http://www.alizes.fr/cp3i.
• Speaker (version 4.0-1999) Neuroconcept: http://www.neuroconcept.com
Figure 2.3. Proposition de feedback par affichage de l’oscillogramme (Voicebook, 1998)
Le deuxième groupe proposé, utilise la courbe d’amplitude ou encore la courbe de fréquence

fondamentale non lissée afin de représenter les courbes intonatives des productions.
• Speaker (version 3.0- 1997)-Neuroconcept (cf.above)
• Wincecil(1997)
SIL: http://www.jaars.org/itcs/software/cecil/wincecil/we22.zip
• Talk to me (1998)
Auralog: http://www.auralog.fr
60
Figure 2.4. Proposition de feedback par affichage de la courbe d'amplitude (Wincecil, 1997)
Winpitch LTL: (Language Teaching Learning) a été récemment conçu au Canada par [GER
00]. Il est basé sur le fruit d'une collaboration entre un phonéticien-ingénieur et une
enseignante phonéticienne spécialisée en didactique des langues. Winpitch LTL semble être
un des logiciels les plus développés actuellement proposant diverses fonctions comme
l'analyse en temps réel, la visualisation de la courbe f0, l'écoute ralentie. Son originalité réside
dans l'annotation des commentaires et segments pertinents intégrés sur l'affichage. Des
segments de courbes mélodiques peuvent être surlignées en couleur et du texte peut être
facilement ajouté sur l'écran, pour mettre en relief des propriétés mélodiques ou rythmiques
particulièrement pertinentes pour l'apprenant (figure2.5), afin de localiser les différences entre
la L1 et la L2. Cela requiert la présence d'un enseignant spécialisé, en mesure de commenter
les visualisations proposées. Sans ces commentaires, Winpitch LTL retombe dans une
configuration de feedback, améliorée certes, mais traditionnelle.
61
Figure 2.5. Exemple de feedback visuel du logiciel Winpitch LTL
Malgré l'attention portée sur la pédagogie proposée, la conception de Winpitch LTL, tout
comme Winpitch Light et Winpitch Pro, reste celle d'un outil de recherche avant tout, et ne
peut se placer en didacticiel. Notons pas ailleurs, que les logiciels Winpitch ne sont pas
téléchargeables gratuitement et que Winpitch Pro est un logiciel payant.
Le système IELS : proposé par [JIN 10]. IELS qui est l’acronyme de Interactive English
Learning System est un système d’apprentissage de la prononciation assisté par ordinateur,
destiné à apprendre la langue Anglaise pour les apprenants chinois dont la langue maternelle
est le Mandarin. Le système fournit des feedbacks concernant les mauvaises prononciations
des phonèmes, mots, stress lexical, et un score sur la qualité globale de la prononciation de
l’apprenant.
Le système se base sur une architecture client/serveur au niveau de laquelle le client fournit
une interface pour l’utilisateur et des fonctions d’entrés/sorties audio. Quant au serveur, il
prend en charge le traitement de la parole, y compris la reconnaissance de la parole basée sur
les HMMs, la détection du stress (stress détection) basée sur les SVMs, et l’association d’un
score à la prononciation. L’architecture générale du système IELS est montrée par la figure
2.6
62
Figure 2.6. Architecture d’IELS
Le système HAFFS: proposé par [SHE

[ 06],
], le système HAFSS est un logiciel commercial
utilisé pour enseigner la prononciation arabique aux locuteurs non natifs. L’objectif principal
de ce système est d’enseigner la récitation correcte du Coran, évaluer la qualité de la
récitation des apprenants, et produire des feedbacks afin d’aider les apprenants de localiser
les lettres mal prononcés et éventuellement les évités. La Figure 2.7 illustre les différentes
composantes du système HAFSS.
Figure 2.7. Les composants du système HAFFS
63
Le système CHELSEA: proposé par [WAI 10], étudie l’utilisation d’un model statistique de
durée de phone pour permettre la séparation des énoncés corrects de ceux qui sont erronés
dans un système CAPT. Le système proposé (CHELSEA) effectue un alignement forcé entre
l’énoncé en entrée et la transcription canonique du texte que l’apprenant est invité à
prononcer. Cette transcription est obtenue grâce à un dictionnaire de recherche (lookup
dictionnary). Les énoncés corrects contiennent un contenu parlé qui correspond au texte à
prononcer. Pour ces énoncés, le système proposé effectue une analyse phonétique détaillée
d’alignement et génère des feedbacks correctifs pour mettre en valeur l’occurrence des erreurs
phonétiques. Selon [WAI 10], généralement les énoncés erronés proviennent de la non-
non
maitrise, des enregistrements tronqués, ou d’un contenu parlé qui ne correspond pas au texte à
prononcer. Pour ces raisons le feedback approprié est d’inviter l’apprenant de refaire
l’enregistrement encore une fois. Un mécanisme de filtrage pour les énoncés corrects en
entrée est développé par le biais d’une modélisation
modélisation de durée de phone. La figure 2.8 illustre
l’architecture du CHELSEA un système basé CAPT proposé par [WAI 10].
Figure 2.8. Architecture de CHELSEA
2.10. Conclusion
Dans ce chapitre on a discuté les systèmes d’enseignement de prononciation assistés par

ordinateur qui utilise la RAP dans le but de fournir une évaluation automatique (feedback)
immédiate de la qualité de prononciation .En décrivant leurs principes, leurs aspects et
objectifs ainsi que les limitations qu’ils peuvent rencontrer .On a expliqé ensuite la raison
64
pour laquelle on a besoin d’implémenter la technologie de la RAP dans les systèmes

d’EPAO, et comment peut-on faire cette implémentation. On présentera brièvement
comment fonctionnent les systèmes d’EPAO basés sur la RAP, en montrant leur efficacité, on
finira par un état de l’art dans le domaine de l’enseignement de la prononciation en
représentant quelques modèles de ces systèmes.
65
Chapitre 3
Proposition.
Chapitre 3- Proposition
3.1. Introduction
d'un élève en utilisant les moyens standards d'interaction tels que le clavier et la souris. En
transition de la mauvaise vers la bonne prononciation est progressive, et toute évaluation doit
3.2. Evaluation de la prononciation
L’évaluation de la prononciation dans un environnement d’apprentissage de langues assistée

par ordinateur a évolué depuis l’apparition de systèmes automatiques d’enseignement de la
prononciation d’un simple affichage visuel -sous forme de courbes d'intonation ou des
spectrogrammes- jusqu’à l’apparition des systèmes qui offrent une évaluation automatique
sous formes de feedbacks intuitifs, les types d’affichage visuel ne sont pas facilement
interprétables pour les étudiants, ils représentent des données brutes qui nécessitent la
présence d’un enseignant pour les interpréter. Contrairement à l’évaluation automatique qui
fournit un feedback qui consiste souvent en un score numérique ou symbolique, et qui sont
faciles à interpréter par l’apprenant.
L’enseignement de la prononciation assisté par ordinateur offre à l’apprenant un temps

d’apprentissage additionnel où il peut pratiquer dans des conditions qui lui conviennent
(quand il veut et à son rythme). Ce type de système automatisé doit son avènement puis son
expansion aux avancées de la RAP.
Avec l’intégration des techniques qui sont fondées sur la reconnaissance automatique de la
parole, les systèmes d’enseignement de la prononciation peuvent fournir des interactions
limitées : l’ordinateur comprend la parole de l’apprenant, et réagit en conséquence, il en
67
résulte un processus d’apprentissage plus réaliste, en fournissant des feedbacks en temps réel
sur la qualité de la prononciation de l’apprenant.
L’état de l’art des systèmes d’apprentissage de la prononciation basés sur la RAP montre que
ces systèmes empruntent la technologie des modèles de Markov cachés aux systèmes de la
RAP, pour construire le système de reconnaissance. Le résultat produit par le système de
reconnaissance est ensuite utilisé pour évaluer la prononciation de l’apprenant.
Notre travail s’intéresse à la conception et au développement d’un système d’évaluation

automatique de la prononciation de mots arabes isolés en mode indépendant du locuteur,
langue arabe. L’évaluation dans le système proposé est faite au niveau d’un mot et se base sur
le principe de la reconnaissance de la parole.
3.3. Système d’évaluation automatique de la prononciation proposé
L’approche proposée consiste à développer un système d’évaluation de la prononciation de

mots arabes isolés en mode indépendant du locuteur, dans le contexte de l’apprentissage de
langues assisté par ordinateur et particulièrement de la langue arabe. L’évaluation dans le
système proposé est faite au niveau d’un mot en se basant sur le principe de la reconnaissance
automatique de la parole.
première basée sur les modèles de Markov cachés HMM (pour Hidden Markov Model) qui
sont capables de modéliser simultanément les caractéristiques temporelles et fréquentielles du
signal vocal [RAB 89]. Cette technologie offre des algorithmes performants pour
l’apprentissage et la reconnaissance, grâce auxquels les HMMs sont avérés les mieux adaptés
aux problèmes de la reconnaissance de la parole et une deuxième basée sur les techniques de
la logique floue, en appliquant l’algorithme de C-Moyennes Flous (FCM- Fuzzy C-Means).
Un algorithme très populaire, basé sur la logique floue, connu pour son efficacité et sa
robustesse.
Le but d’utilisation de ces deux méthodes pour le développement du système d’évaluation
proposé, est de comparer les performances retenues par une approche par rapport à l’autre, en
ce qui concerne la note de prononciation retournée à l’apprenant.
68
3.4. Architecture générale du système proposé
L’objectif que nous nous sommes assignés s’articule autour du développement d’un système
d’évaluation de la prononciation des mots arabes isolés, en se fondant sur deux approches
pour l’apprentissage des mots dans le but de déduire les modèles de référence sur lesquels va
se baser l’évaluation de la prononciation de l’apprenant.
Dans ce qui suit nous allons présenter les différentes phases de construction de notre système
d’évaluation automatique de la prononciation ainsi qu’une brève description des paradigmes
utilisés, à savoir les modèles de Markov cachés (HMM) et le C-Moyennes Flous
(FCM).l’architecture générale du système proposé est illustré par la figure3.1.
Figure 3.1. Architecture générale du système proposé
3.5. Etape 1 : Paramétrisation du signal vocal
La première étape du système d’évaluation automatique de la prononciation proposé qui est

commune pour les deux approches utilisées pour évaluer la production de l’apprenant,
69
consiste à la mise en forme du signal vocal mais aussi l’extraction de paramètres nécessaires
pour les prochaines étapes à savoir l’apprentissage (pour dégager les modèles) et l’évaluation.
3.5.1. Analyse du signal
Un des objectifs de cette analyse est d’obtenir une représentation compacte et informative du
signal. Le signal de parole est un signal redondant et non stationnaire mais il peut être
considéré comme localement stationnaire. L’analyse du signal de parole se fait pendant ces
périodes stationnaires dont la durée varie de 10 à 30ms, cette durée correspond aussi à la
durée de stabilité du modèle de production.
L’analyse de la parole (figure 3.2) consiste à effectuer des prétraitements, nécessaires pour la
mise en forme du signal, tels que le découpage en fenêtres, l’extraction de caractéristiques.
Figure 3.2. Analyse de la parole
3.5.2. Le corpus utilisé
Il est nécessaire d’avoir une base de données afin d’effectuer tous les traitements. Plusieurs
bases de données ont été construites pour différentes langues (BRIEF-120 et BDSONS pour
la langue française, TIMIT pour la langue anglaise,…etc), mais pour la langue arabe on
remarque une absence presque totale et c’est le grand problème posé lors du développement
des systèmes qui traitent la parole arabe.
Dans notre processus d’évaluation automatique de prononciation, les expériences seront

effectuées sur une partie de la base de [MAO 07], Les 30 mots de la base ont été sélectionnés
par des linguistes de l’institut de la langue Arabe de l’université de Constantine, de sorte que
toutes les caractéristiques phonétiques de l’Arabe seront prises en considération [MAO 07].
La base contient 30 mots prononcés en Arabe par 6 locuteurs (3 femmes et 3 hommes),

chaque mot est répété 3 fois par chaque locuteur, on obtient donc, 18 occurrences pour chaque
70
mot, ce qui implique 30*18 = 540 fichiers sons. La base servira pour l’apprentissage à 70% et
30% pour les tests.
Le tableau 3.1 représente le vocabulaire utilisé dans le système proposé :
Tableau 3.1.Vocabulaire utilisé
3.5.3. Prétraitements
Les prétraitements débutent par un échantillonnage des signaux (figure3.4), suivi d’une
préaccentuation. Le signal s(n) est divisé en fenêtres de longueur N (10-20ms). Le signal final
x(n) est obtenu par une multiplication du signal s(n) par une fonction, ou encore fenêtre, de
pondération non nulle w(n) :
x(n) = s(n) w(n)
La préaccentuation est un exemple d’utilisation de connaissances sur la perception humaine.

Elle consiste en un filtrage du signal de parole par le filtre suivant :
Le filtre passe-haut a pour effet de rehausser les composantes spectrales de haute fréquence.
C’est un filtre de compensation des effets de filtrage des procédés d’acquisition qui sont
assimilables à des filtres passe-bas [GOL 00]. L’effet obtenu est une égalisation des graves et
des aigus. D’autres prétraitements, ayant pour but d’augmenter la robustesse, sont parfois mis
en œuvre comme par exemple la normalisation des signaux ou bien la soustraction spectrale
qui a pour effet d’éliminer les bruits additifs.
71
Le choix de la fenêtre est très important. Parmi les fenêtres utilisées, on peut citer les fenêtres
de Hamming, Hanning, Blackman ou de Kaiser. Le choix se fait le plus souvent en fonction
de l’application car les fenêtres présentent différentes atténuations à des fréquences bien
précises. Cependant, il faut noter que la plupart des systèmes sont directement conçus sur des
fenêtres de Hamming. Les efforts de conception sont plutôt consacrés aux étages de plus haut-
niveau comme l’extraction de caractéristiques ou la classification.
Figure 3.3. Prétraitements généralement réalisés en traitement de la parole
3.5.4. Extraction de caractéristiques
L’extraction de paramètres est l’objet principal de l’analyse de la parole et c’est le passage

obligé de toutes les applications en traitement de la parole (figure 3.5)
Figure 3.4. Extraction de paramètres dans le cadre du traitement de la parole
Ce module permet d’extraire les paramètres pertinents pour la reconnaissance de la parole.

Cette extraction d’indices du signal de parole (signal électrique issu du microphone) a pour
objectif de minimiser l’information du signal vocal en quantité et en redondance tout en
augmentant la discrimination nécessaire à la séparation des éléments du vocabulaire. Cette
analyse permet de transformer le signal brut en paramètres plus robustes et plus
discriminants et réduire le flux d’informations à traiter. En sortie, le signal est représenté
par un ensemble de vecteurs coefficients.
72
Il existe de nombreux algorithmes pour calculer des vecteurs acoustiques mais ils visent tous
à obtenir des vecteurs acoustiques représentatifs de l’information linguistique contenue dans
le signal de parole et aussi insensibles que possible aux causes non-linguistiques de variabilité
tels que l’identité de locuteur, l’environnement acoustique (par exemple, le bruit d’ambiance)
ou le canal de transmission (par exemple, la distorsion induite par une ligne téléphonique ou
un microphone inadapté).Parmi les algorithmes d’extraction de caractéristiques existants on
peut citer :
• Le codage linéaire prédictif (LPC)

• Le codage MFCC (Mel Frequency Cepstral Coefficients)
• Le codage LPCC (Linear Predictive Cepstral Coefficients)
• Le codage PLP (Perceptual Linear Predictive)
3.5.5. Extraction de caractéristiques utilisés dans le système proposé
Notre choix s’est porté sur l’utilisation de l’algorithme MFCC afin d’extraire les
caractéristiques du signal vocal pour les raisons suivantes :
• Le codage MFCC est sûrement la technique de codage la plus utilisée en traitement de

la parole. C’est une représentation que l’on retrouve dans des applications très
diverses comme la reconnaissance de la parole, du locuteur ou bien de la langue ou
encore dans la discrimination parole/musique. [EZZ 02]
• Le codage MFCC intègre deux notions importantes. La première est la notion de bancs
de filtres qui modélisent la membrane basilaire. Ces bancs de filtres sont déployés non
pas sur une échelle en Hertz mais sur une échelle non linéaire : l’échelle Mel. Cette
échelle est issue de connaissances sur la perception humaine. La résolution perceptive
des fréquences diffère selon que l’on écoute des sons de basses ou hautes fréquences.
• Les coefficients cepstraux issue d’une analyse par transformée de Fourier caractérisent
bien la forme du spectre et permettent de séparer la forme de la source de celle du
conduit vocal. Le cepstre du signal de parole peut être défini comme la transformé de
Fourier inverse caractérise bien la forme du spectre et permettent de séparer
l’influence de la source de celle du conduit vocal. Le cepstre du signal de parole est
défini comme la transformé de Fourier inverse du logarithme de la densité spectrale de
puissance.
73
Le principe de calcul de ces coefficients MFCC est représenté par la figure 3.5
Figure 3.5. Procédé d’extraction de coefficients MFCC
L’ensemble de nos travaux est basé sur l’utilisation des vecteurs acoustiques de type MFCC.
Chaque segment de parole est représenté donc par les 13 premiers coefficients, l’extraction
des caractéristiques dans le système proposé se fait selon les étapes suivantes :
• Un filtre de préaccentuation de fonction de transfert H(z) = 1 - 0,95z-1, est appliqué

sur le signal numérisé (sur 16 bits, avec Fe = 44100 Hz).
• Appliquer une fenêtre de Hamming sur des tranches de signal de longueur 256
échantillons et un recouvrement entre deux tranches successives de moitié (128
échantillons).
• Une transformée de Fourier rapide est appliquée sur chaque tranche, pour obtenir le
spectre.
• Utiliser un banc de filtres triangulaires, pour passer à l’échelle de Mel.
• Appliquer une transformée discrète en cosinus (DCT) sur le spectre logarithmique du
Mel, pour obtenir le cepstre.
• Les vecteurs d’un même mot sont représentés par une matrice de taille (nb_coef) x
(nb_vect) représentant le cepstre du mot.
Les vecteurs de caractéristiques obtenus sont ensuite utilisés dans la phase d’apprentissage et
d’évaluation.
3.6. Etape 2 : Apprentissage
Avant de commencer le processus d’évaluation automatique de prononciation, une étape très

importante doit être élaborée par le système, cette étape consiste à la construction des modèles
des mots à évaluer (les modèles de référence), en utilisant deux méthodes de
74
modélisation ;une première basée sur les HMM, et une deuxième basée sur les techniques de
la logique floue, en appliquant l’algorithme de C-Moyennes Flous.
Les modèles de mots déduits après l’étape d’apprentissage seront retenus et enregistrés, afin
d’être utilisés ensuite à l’étape d’évaluation de la prononciation de l’apprenant, pour lui
attribuer une note qui mesure la qualité de sa production par rapport au celle du modèle de
référence préenregistré.
Dans ce qui suit ; nous allons présenter brièvement les deux méthodes utilisées dans l’étape
de l’apprentissage pour en déduire les modèles des mots.
3.6.1. Apprentissage en utilisant les Modèles de Markov Cachés (HMM)
Depuis leur introduction en traitement de la parole [BAK 75] ; [JEL 76], les modèles de
Markov cachés ont pris une importance considérable, au point quasi-totalité des systèmes de
RAP utilise cette modélisation. Les modèles de Markov cachés supposent que le phénomène
modélisé est un processus aléatoire et inobservable qui se manifeste par des émissions elles-
mêmes aléatoires. Ces deux niveaux donnent à l'approche markovienne une flexibilité qui est
séduisante pour modéliser un phénomène aussi complexe que la production de la parole. De
nombreuses présentations théoriques des HMM existent dans la littérature ; nous reprenons en
partie les notations de L.Rabiner. [RAB 89]
3.6.1.1. Définition
Un HMM peut être vu comme un ensemble discret d'états et de transitions entre ces états.
Formellement, il peut être défini par l'ensemble des paramètres λ [RAB 89] :
! , ", #, $
Où :
- N est le nombre de nœuds ou d'états du modèle.
- A= {aij} = {P (qj\qi)} est une matrice de taille N*N. Elle contient les probabilités de
transition sur l'ensemble des états du modèle. La probabilité de transition est la probabilité de
choisir la transition aij pour accéder à l'état qj en partant de l'état qi.
Pour un HMM d'ordre 1, cette probabilité ne dépend que de l'état précédent :
75
P (qt = j\qt-1= i , qt-2 =k,…) = P(qt =j\ qt-1=i)
Elle dépend des deux états précédents dans le cas d'un HMM d'ordre deux :
P (qt = j\qt-1= i , qt-2 =k,…) = P(qt =j\ qt-1=i, qt-2 = k)
En d'autres termes, l'évolution du système entre deux instants t - 1 et t ne dépend que de l'état
de ce système au temps t-1 (ordre un) ou des deux instants précédents t -1et t -2 (ordre deux).
- B = {bj(ot)}= {P(ot\qj)} , où j є [1, N], est l'ensemble des probabilités d'émission de

l'observation ot sachant qu'on est dans l'état qj. La forme que prend cette distribution
détermine le type du HMM. C'est ainsi qu'on parle de HMM discrets, semi-continus, continus,
etc. Pour plus d'informations sur les différents types de HMM, le lecteur pourra consulter
[RAB 89].
- π est la distribution initiale des états, πj = P (q0=j), %& ' (1, )*
q0 représente l'état initial du modèle HMM. Il ne peut émettre de vecteurs acoustiques. Les
modèles de Markov cachés suppose que la séquence de vecteurs acoustiques représentative du
signal de parole soit une succession de segments stationnaires. Ainsi la parole est modélisée
par une succession d’états, avec des transitions instantanées possibles entre ces états P (qj /qk).
Chaque observation est supposée être une fonction probabiliste de l’état.
Pour conclure, les HMMs et leurs caractéristiques représentent donc deux processus
stochastiques distincts imbriqués:
- le premier est la suite d'observations produites O=O1 O2…OT,
- le second est la suite d'états parcourus Q=q1 q2. …qT .
Les modèles de Markov sont dits cachés parce que la suite d'états parcourus pour générer la
séquence O, n'est pas directement observable.
3.6.1.2 Densités de probabilités

Selon le type de densité de probabilité d’observations, discrète ou continue, il est possible de
construire deux types de modèles de HMM: soit un HMM discret soit un HMM continu [RAB
89].
76
- HMM discret «Discret Hidden Markov Models (DHMM) » : les observations en général
sont continues puisqu’elles proviennent de phénomènes physiques continus. Dans le cas d’un
HMM discret, les observations continues sont quantifiées à l’aide d’un dictionnaire
(l’alphabet d’observations dénombrables).
- HMM continu « Continuous Hidden Markov Models (CHMM) » : bien qu’il soit possible
de quantifier les observations continues, il peut y avoir une sérieuse dégradation
d’information associée à cette quantification. Il sera, alors, avantageux de choisir une fonction
de densité de probabilités d’observations continues, conditionnée par les états du processus.
Voici un tableau comparatif de ces deux modèles :
Tableau 3.2. Comparaison entre DHMM et CHMM
3.6.1.3. Les types des HMMs

Selon sa topologie, un HMM peut être l’un des deux types, ergodique ou gauche-droite
• HMM ergodique
Dans ce type, tout état est directement atteignable depuis tout autre état. Il est plus général et
intéressant lorsque le modèle représente un processus dont on veut suivre les évolutions des
états. Formellement, on peut écrire : πi + 0, aij+ 0,%, &
77
Figure 3.6. HMM ergodique
• HMM gauche-droite
La parole est un phénomène dont la dimension temporelle ne peut être ignorée. Les HMMs
utilisés pour la représenter sont, dans la plupart du temps, des modèles "gauche-droit" qui ne
permettent pas de "retour en arrière", c’est-à-dire que l’automate probabiliste d’états finis
définissant la chaîne de Markov associée ne contient pas de transition aij entre les états i et j si
i>j (i.e. aij=0).
Dans ce cadre, R.Bakis a proposé un modèle type pour représenter un mot qui permet le
bouclage sur l'état courant (progression acoustique stationnaire), le passage de l'état suivant
(progression acoustique standard) ou le saut d'un état (progression acoustique rapide). Ce
type de modèle est devenu générique dans le domaine de la RAP (figure 3.7). Il a été utilisé
dans plusieurs applications de reconnaissance de la parole.
Figure 3.7. Exemple de HMM de Bakis
• Type d’HMM utilisé dans le système proposé

Nous nous plaçons dans le cadre de l’apprentissage d'unités acoustiques isolées (les mots), où
chaque mot du vocabulaire étant représenté par un HMM distinct de type gauche-droit
d’ordre 1, ce type d’HMM est utilisé du fait de l’aspect séquentiel du signal de la parole, en
78
plus de la prise en compte des variations d’élocution, par bouclage sur un état pour modéliser
la parole lente (ex : durée), et un saut d’état pour modéliser la parole rapide.
Chaque HMM contient autant d’états qu’il y a de phonèmes comme choix initial mais il est
important de signaler que le nombre d’état par phonème influencera grandement la qualité
des modèles construits, c’est pourquoi il est nécessaire de vérifier ce nombre lors de la phase
de test par des essais et de décider à partir des résultats fournis quel est le nombre le plus
approprié. . De plus même l’état silence ou pause doit être modélisé. La figure suivante
représente un HMM d’un mot du vocabulaire.
m a k t a b
Figure 3.8. Modèle HMM du mot « MAKTAB »
3.6.1.4. Les problèmes posés lors d’une modélisation Markovienne

L’utilisation des HMMs nécessite la résolution des trois problèmes fondamentaux suivants :
problème d’évaluation.
problème de reconnaissance.
problème d’apprentissage.
Dans les sections suivantes on va détailler ces problèmes et présenter les algorithmes les plus
utilisés pour les résoudre.
Problème d’évaluation
Etant donnés une suite d’observations O= {o1,o2,…om} et un modèle λ, comment peut on
calculer efficacement la probabilité (vraisemblance) que la suite d’observations O soit
produite par λ , c’est-à-dire P (O\ λ). Il existe deux procédures récurrentes de calcul de la
vraisemblance:
- l’algorithme Forward-Backward, qui fournit une solution exacte à ce problème faisant

intervenir tous les chemins dans le modèle HMM.
79
- l’algorithme Viterbi, fournissant une solution approximative faisant intervenir uniquement le

meilleur chemin dans le modèle HMM.
Problème de reconnaissance
Etant donnés un HMM λ et une séquence observée O, comment connaitre la séquence des
états cachés du λ qui a la plus probablement générée O?
Pour résoudre ce problème la procédure de Viterbi est utilisée. Elle est basée sur les
techniques de programmation dynamique. C’est un algorithme récursif qui permet de trouver
à partir d’une suite d’observations, une solution optimale au problème d’estimation de la suite
d’états. La procédure complète de l’algorithme de Viterbi pour trouver la meilleure séquence
d’états est comme suit:
Figure 3.9. L’algorithme de Viterbi
Problème d’apprentissage
Etant donnés un HMM λ = {π, A, B} et une séquence observée O, Comment peut-on ajuster
les paramètres du modèle λ pour maximiser la vraisemblance P (O\ λ)?
Les approches les plus utilisées sont basées sur des adaptations de l’algorithme EM
(Expectation-Maximisation) appelée:
80
- Entrainement Baum-Welch : P (O\ λ) est estimée en tenant compte de tous les chemins
possibles (implémentation de l’algorithme Expectation-maximisation (EM)).
- Entrainement Viterbi : P (O\ λ) est estimée en tenant compte du meilleur chemin

uniquement (approximation de l’algorithme EM).
a- Algorithme de Baum-Welch [BAU 70] [BAU 72]

L’algorithme de Baum-Welch est basé sur le théorème de Baum qui garantit l'atteinte d'un
maximum local de la fonction de vraisemblance par ré-estimation des paramètres
A, B, λ. Cette méthode de Maximum de Vraisemblance est la plus utilisée dans les

applications. Cet algorithme peut être représenté sous la forme itérative suivante :
Figure 3.10. L’algorithme Baum-Welch
Le test d’arrêt est généralement un nombre d’itérations qui est fixé empiriquement.
Le choix d’un modèle initial influe sur les résultats : toutes les valeurs nulles de A et de B au
départ, restent à zéro à la fin de l’apprentissage. Il est à noter que l’algorithme converge vers
des valeurs de paramètres qui forment un point critique de P (O\ λ). Donc, nous obtenons un
maximum local ou un point d’inflexion. D’où la nécessité de bien choisir le modèle initial.
Pour avoir une estimation convenable du modèle, les ré-estimations se font sur un ensemble
de plusieurs suites d’observations appelées corpus d’apprentissage. Donc la taille du corpus
81
d’apprentissage influe, elle aussi, sur les résultats. Il est souhaitable que celle-ci soit
importante.
b- Algorithme de Viterbi [VIT 67]
Les paramètres sont optimisés de façon à maximiser la vraisemblance du meilleur chemin.

Comme pour l’algorithme EM classique, on part d’un ensemble de paramètres initiaux λ0 et
les paramètres optimaux λ sont obtenus de manière itérative. Le processus d’entraînement est
composé d’une étape d’estimation E qui sert à trouver la segmentation qui maximise la
vraisemblance à partir des paramètres, et d’une étape de maximisation M, qui effectue une
mise à jour des paramètres étant donnés une segmentation. L’ensemble des paramètres
initiaux λ0 peut être estimé à partir de modèles déjà entraînés par un corpus ou par exemple
par l’intermédiaire d’un corpus déjà segmenté. Il est ensuite possible à partir de segmentation
optimale trouvée de calculer les paramètres des fonctions de vraisemblance en considérant
tous les vecteurs associés à chacune des classes. Ce processus de réalignement des données
acoustiques à l’aide d’un modèle et de réentraînement d’un nouveau modèle est effectué
jusqu’à ce qu’une certaine convergence soit atteinte (la segmentation ne varie plus ou
l’accroissement relatif de la vraisemblance pour l’ensemble des données d’entraînement est
inférieur à un seuil fixé).
3.6.1.5 Algorithme d’apprentissage appliqué dans le système proposé

La puissance de l'approche markovienne réside dans l'automatisation de l'apprentissage des
paramètres λ = {π, A, B} qui se réalise à l'aide des algorithmes de Baum-Welch ou de Viterbi
comme vu précédemment.
Nous avons utilisé le critère de Baum-Welch à la base de l’algorithme d’apprentissage car cet
algorithme fournit une solution exacte en faisant intervenir tous les chemins dans le modèle
HMM, tandis que l’algorithme de Viterbi offre une solution approximative en faisant
intervenir uniquement le meilleur chemin dans le modèle HMM.
L'apprentissage des paramètres acoustiques optimaux des modèles de Markov est une étape
essentielle dans la construction du système d’évaluation de la prononciation proposé. C'est la
qualité de cette modélisation qui constitue en grande partie les résultats de l’évaluation,
d’après [Wit 97] ; un modèle HMM construit lors de l’apprentissage d’un mot représente une
82
prononciation parfaite, vu que le système a été formé sur une base d’apprentissage des mots
bien prononcés.
La procédure d’apprentissage des paramètres des modèles de Markov des mots utilisés dans le
système d’évaluation de la prononciation proposé est réalisée selon l’organigramme de la
figure (3.11)
Figure 3.11. Procédure d’apprentissage d’un modèle HMM dans le système proposé
Comme on a déjà vu que chaque mot du vocabulaire est modélisé par un HMM gauche-droite,
le nombre d’états d’un HMM correspond au nombre de phonèmes qui composent le mot
modélisé par cet HMM (comme choix initial). Nous avons associé à chaque état i du modèle
HMM, une fonction de densités de probabilité de mélange de gaussienne où les probabilités
d’émission sont totalement définies par le vecteur moyenne et la matrice de covariance. On
obtient donc 30 modèles au total.
Ces modèles seront enregistrés pour être utilisés dans la prochaine étape qui est l’évaluation,
elle se fait par l’algorithme de Viterbi, où on cherche le meilleur chemin (séquence d’états
cachés) correspond à la séquence d’observations (mot à évaluer) au sens du maximum de
vraisemblance.
83
3.6.2. Apprentissage en utilisant la méthode C-Moyenne Floue (FCM)
Une des caractéristiques du raisonnement humain est qu'il est basé sur des données imprécises
ou/et incomplètes, le raisonnement de l’ordinateur est basé sur des données exactes d'où la
nécessité de développer une nouvelle logique dite la logique floue ; cette dernière est une
extension de la logique booléenne dans laquelle les niveaux de vérités, au lieu d'être vrais ou
faux peuvent prendre des valeurs entre 0 et 1.
Il n’y a en fait pas de domaine où l’on ne puisse appliquer les raisonnements propres à la
Logique Floue car elle a été conçue pour s’adapter aux techniques de pensée humaine. Nous
présentons dans la suite une description de la méthode floue de Fuzzy C-Means « FCM ».
La méthode C-moyenne floue est une méthode de classification itérative qui permet de
classifier les individus selon C classes [CHU 00], [GUI 01]. Elle calcule à chaque fois les
centres des classes et génère la matrice d'appartenance U des individus à ces classes.
Soient Vt le centroïde ou le prototype de la classe i, U la matrice des coefficients µ ik et Xc

celle des coordonnées des centres. Etant donné le nombre de classe C, le nombre d'individus n
et l'exposant flou m (m>1), l'objectif de la méthode est de trouver U qui minimise la fonction
coût donnée par la relation suivante :
Dki Est une métrique choisie au sens d’une norme. Généralement, il s’agit de la norme
euclidienne. Ainsi Dki=||Xk-Vi|| : distance entre le vecteur Xk et le prototype Vi.
L’algorithme FCM se déroule comme suit:
84
Figure 3.12. Algorithme FCM
3.6.2.1. Avantages de la méthode FCM
Du fait que l’algorithme FCM est parmi les algorithmes les plus appropriés de la logique
floue, il a dans ce cas pour principal mérite de pouvoir exprimer les connaissances vagues et
imprécises (cas des vecteurs acoustiques), en introduisant la notion de gradualité dans
l’appartenance d’un élément à un ensemble. Par rapport à la logique booléenne, la logique
floue d’une façon générale, permet de mieux illustrer la notion de raisonnement approximatif,
qui est naturellement induite par le cerveau humain, et la prise en compte de variables
85
linguistiques de nature symbolique qui réalise une meilleure correspondance par rapport aux
informations généralement donnés par les experts humains. Les connaissances qui sont
généralement exprimés sous forme de règles explicites et des modalités d’inférences floues,
permettent d’engendrer des décisions en utilisant des opérateurs de conjonction et de
disjonction. Les systèmes flous possèdent aussi une particularité intéressante, celle de
pouvoir approximer toute fonction continue sur un ensemble compact de Rⁿ vers Rp, ce qui
leur confère le statut d’approximateur universel.
3.6.2.2. Construction de prototypes de mots en appliquant l’algorithme FCM

Les vecteurs caractéristiques qui représentent les mots du vocabulaire, sont assemblés dans
une même structure de données, qui sera l’entrée de l’algorithme FCM, qui effectue à son tour
des regroupements de C classes (C=30 puisqu’on a 30mots), en appliquant l’algorithme
présenté dans la section (3.6.2), jusqu’à l’obtention d’un prototype pour chaque mot.
Une fois cette étape d’apprentissage est terminée, les modèles de mots, ou prototypes déduits
seront enregistré, pour être utilisés dans la prochaine étape d’évaluation.
3.7. Etape 3 : Evaluation
première basé sur les modèles de Markov cachés, qui ont montré des progrès considérables
dans le domaine, et une deuxième basée sur les techniques de la logique floue, en appliquant
l’algorithme de C-Moyennes Flous. Un algorithme très populaire, basé sur la logique floue,
connu pour son efficacité et sa robustesse.
L’évaluation proposée consiste à calculer la similarité entre le mot test et son modèle, qui est
traduite sous forme de probabilité de vraisemblance en utilisant les HMMs, et en terme de
distance entre le mot et son prototype en se appliquant FCM. Les résultats des deux méthodes
sont comparés, et la meilleure note d’évaluation est retournée à l’apprenant. (Figure 3.13)
86
Evaluation de
prononciation
HMM FCM
(Calcul de probabilité) (Calcul de distance)
Comparaison de
performance
Décision:
Meilleure méthode pour

l’évaluation
Meilleure note retournée à

l’apprenant
Figure 3.13. Validation de performance du système proposé
3.7.1. Evaluation en utilisant HMM
D’après [Wit 97] : un modèle HMM construit lors de l’apprentissage d’un mot, représente une
prononciation parfaite, vu que le système a été formé sur une base d’apprentissage des mots
bien prononcés. Donc la note de prononciation attribuée à l’apprenant se base sur ce modèle.
Les HMMs peuvent êtres considérés comme un modèle stochastique de prononciation [Wit
97], de sorte que les probabilités de vraisemblance faibles (calculées pendant l’évaluation)
représentent une mauvaise prononciation, alors que les probabilités élevées interprètent une
bonne prononciation.
Le système d’évaluation automatique de la prononciation des mots arabes isolés proposé

évalue la prononciation au niveau mot, le système utilise les modèles HMMs et plus
particulièrement l’algorithme de Viterbi pour l’évaluation des mots, la sortie est une mesure
87
de vraisemblance entre le mot prononcé et le modèle correspondant. Ceci suppose évidement

que le mot à prononcer est connu par le système.
Le système basé sur les HMMs se déroule comme suit :
Le mot à évaluer est d’abord paramétrisé en utilisant le module d’extraction des

caractéristiques pour donner son cepstre, en utilisant l’analyse MFCC (Mel Frequency
Cepstral Coefficients).
Le mot test est ensuite comparé au modèle correspondant, calculé et enregistré dans l’étape
précédente d’apprentissage, en appliquant l’algorithme de Viterbi, qui consiste à calculer la
similarité entre le mot et son modèle. Le résultat est une mesure de vraisemblance entre les
deux, traduite sous forme de probabilité qui est comprise entre 0et 1.
L’évaluation de la qualité (la justesse) de la prononciation est ensuite effectuée, en multipliant

la probabilité de vraisemblance (p) produite par le système basé HMM, par 10, on obtient
ainsi une note sur 10 mesurant la qualité de prononciation par rapport au modèle de référence
selon l’équation suivante :
Note = P Calculée * 10
L'information mentionnée par le système est d'une forme numérique, donc pour qu'elle soit
compréhensible pour l'apprenant et ainsi pédagogiquement utile, cette information doit être
traduite en quelque sorte sous forme d'un feedback intuitif, d’où l’appréciation ajoutée à la
note fournie par le système, qui est présentée par le tableau 3.3.
Probabilité fournie par le Note sur 10 Appréciation

système
0 ≤ p ≤ 0,4 0 ≤ N ≤ 4/10 Mal prononcé
0,5 ≤ p ≤ 0,7 5/10 ≤ N ≤ 7/10 Assez Bien prononcé
0,8 ≤ p ≤ 1 8/10≤ N ≤ 10/10 Bien prononcé
Tableau 3.3 Estimation de la qualité de prononciation selon P et N
88
3.7.2. Evaluation en utilisant FCM
Après avoir construit les prototypes des mots du vocabulaire dans l’étape d’apprentissage, en
appliquant l’algorithme de C-moyennes flous, ces derniers seront utilisés dans l’étape
d’évaluation de la prononciation de l’apprenant, et qui consiste aussi à appliquer l’algorithme
FCM, en calculant la distance entre le mot à évaluer, et le prototype qui représente ce mot.
Cette distance consiste en la norme euclidienne.
La distance calculée exprime la similitude entre le mot et son prototype, elle se traduit comme
suit :
• Si la distance est grande (supérieur à une valeur déduite lors des expérimentations),
cela signifie une dissimilarité entre le mot et le modèle, et donc le mot test est
considéré mal prononcé.
• Si la distance est petite (inférieur à une valeur déduite lors des expérimentations), cela
traduit une grande similarité entre le mot et le modèle, et donc le mot est considéré
bien prononcé.
• Si la distance calculée est entre les deux valeurs, cela signifie une similarité moyenne
entre le mot et le modèle, et donc le mot est jugé assez bien prononcé.
3.8. Expériences et résultats
Dans notre processus d’évaluation automatique de la prononciation, nous avons effectué les
expériences sur une base de données, constituée de 30 mots prononcés en arabe
(.... ‫ ف‬،1‫ آ‬،‫)وزن‬, chaque mot est prononcé 3 fois par 6 locuteurs de sexe masculin et
féminin, de différents âges pour la phase d’apprentissage, on obtient donc, 18 occurrences
pour chaque mot, ce qui implique 30*18 = 540 mots.
Pour la base de test, on a les 30 mots prononcés une fois par 4 locuteurs (2 hommes et 2
femmes), ce qui implique 4 occurrences pour chaque mot, donc on obtient 120 mots pour
effectuer les tests. La base a été échantillonnée à 44100 HZ.
La base de données utilisée pour tester les performances du système d’évaluation automatique
de la prononciation proposé, est constituée de mots bien prononcés (puisqu’on ne dispose pas
d’une base de mots mal prononcés), donc on va tester la puissance et la capacité du système à
évaluer ces mots, cette puissance est traduite sous forme d’un taux de succès où le système est
capable d’évaluer les mots étant bien prononcés.
89
Dans ce qui suit, nous exposons les différents résultats obtenus, et nous discutons ces
résultats.
3.8.1. Résultats du système d’évaluation basé HMM
Comme on a vu précédemment (section 3.7.1), l’évaluation de la prononciation en utilisant les

HMMs est effectuée à l’aide de l’algorithme de Viterbi, qui est implémenté en utilisant HMM
toolbox du langage Matlab version 7.7.0, l’algorithme se base sur la probabilité de
vraisemblance qui se calcule à chaque fois, entre le mot test et son modèle. Les résultats
d’évaluation de la prononciation obtenus sont représentés dans le tableau 3.4.
Evaluation en utilisant Nombre de mots évalués

HMM /total Taux d’évaluation
Mots mal prononcés 16/120 13.33%
Mots assez bien prononcés 24/120 20%
Mots bien prononcés 80/120 66.67%
Tableau 3.4. Performance du système d’évaluation en utilisant HMM
Ces résultats montrent que le système est capable d’évaluer 80 mots parmi les 120 de la base
test étant considérés bien prononcés, et donc un taux de succès du système pour plus de 66%,
20% étant assez bien prononcés et 13.33% sont considérés mal prononcés.
3.8.2. Résultats du système d’évaluation basé FCM
L’algorithme utilisé pour évaluer la prononciation est le FCM qui est implémenté en utilisant
Fuzzy Logic Toolbox de la même version du langage Matlab , il consiste à calculer la
distance euclidienne entre le mot son prototype. Les résultats d’évaluation de la prononciation
obtenus sont représentés dans le tableau 3.5.
90
Evaluation en utilisant Nombre de mots évalués

/total Taux d’évaluation
FCM
Mots mal prononcés 35/120 29.17%
Mots assez bien prononcés 20/120 16.67%
Mots bien prononcés 65/120 54.17%
Tableau 3.5. Performance du système d’évaluation en utilisant FCM
3.8.3. Discussion des résultats
Les résultats représentés dans les deux tableaux précédents (tableau3.4 et 3.5), montrent que
l’évaluation basée sur les modèles de Markov cachées est plus performante que celle basée sur
l’algorithme FCM (en terme de nombre de mots évalués correctement), cela se traduit par la
capacité et la robustesse de l’approche markovienne, qui résident essentiellement dans les
algorithmes performants qu’elle offre pour l’apprentissage, tel que l’algorithme de Baum
Welch utilisé dans le système d’évaluation proposé. Un algorithme itératif qui converge d’un
modèle-après ré-estimation des paramètres- à partir des données d’apprentissage selon le
critère du maximum de vraisemblance.
Contrairement à l’algorithme FCM basé sur le principe de la logique floue, qui construit les
prototypes des mots d’une manière aléatoire, selon le critère de degré d’appartenance d’un mot
à une classe (section 3.6.2), en plus de l’impuissance constatée de cet algorithme face aux
bases de données réduites (il nécessite beaucoup de données d’apprentissage).
3.9. Exemple illustratif
Considérons une session d’apprentissage dans laquelle le mot [1‫ ]آ‬est proposé à l’apprenant.
Dans ce qui suit, nous allons présenter les différentes étapes par lesquelles passera le système
d’évaluation automatique de prononciation proposé, de la paramétrisation du signal vocal
jusqu’à l’évaluation.
Extraction des caractéristiques
Le signal correspondant à la prononciation du mot produit par l’apprenant (figure 3.14) est
analysé, et les vecteurs caractéristiques sont extraits à l’aide de l’algorithme MFCC
91
implémenté en utilisant Voicebox toolbox du langage Matlab version 7.7.0. La figure 3.15
illustre les 10 premiers vecteurs acoustiques obtenus pour le signal du mot [1‫]آ‬.
Figure 3.14. Signal du mot [% ‫]آ‬
92
-4,682114568 -4,482066469 -5,017901865 -5,531111627 -4,449750259
-4,038300267 -3,685908577 -2,247305612 -2,391239821 -3,481157044
-2,060422683 -2,629806975 1,248524161 0,30348735 0,550923078
-0,954874657 -0,754572036 -0,083197907 -1,324260204 -1,008575168
2,896780557 2,365385487 2,044115894 1,479397662 0,596928079
-1,277827589 -4,33556784 -3,327817818 -2,320563951 -4,012901429
-0,851568331 -3,129467506 -3,133784437 -0,824553107 -2,495519411
0,214407557 -0,932686252 0,436714884 -0,878999319 -0,560187502
0,087582201 1,074441073 2,12106471 0,816662382 -0,239156867
-0,283974591 -0,416166525 -0,368233197 1,905814833 -0,831101143
-0,262715138 -1,233722633 -0,313306403 0,173949481 -0,803424711
0,086019731 -0,351734069 -0,293351558 -0,008023252 -0,216135016
0,018831299 -0,044457694 0,141911867 0,078392662 0,3655771
-4,427992017 -5,034256955 -3,15394596 -0,726943364 -0,386049129
-1,286083251 -3,524202314 1,672581737 0,933945343 -1,513002529
-1,114799317 2,447867589 5,763274869 4,516740037 4,812298041
-1,365243657 1,867371065 2,202908713 -0,304532945 2,475712458
3,058202843 6,573674688 5,279620046 6,089448902 4,818130219
-0,394506307 1,799765058 -4,458961592 -4,360125467 -4,469566486
-2,120805262 -0,507668176 -3,366221328 -2,142353621 -5,593586017
-1,719933542 0,937798892 0,053160049 -0,012952137 -2,469230244
-0,916682934 0,544339282 1,793332957 0,733609062 1,845413789
-0,038694272 -0,429828523 -0,307470907 0,165743276 0,940232722
0,464352495 -0,556123559 -1,107685748 -0,460791125 0,223780075
-0,518448895 -1,159854212 -0,701415951 -0,618341896 -0,477686828
0,029948055 -0,300784001 0,042651408 -0,068844708 0,01630612
Figure 3.15. Paramétrisation du fichier son [% ‫]آ‬
Evaluation du mot [% ‫]آ‬
L’évaluation de la prononciation du mot en question en utilisant la modélisation markovienne,

consiste à calculer la probabilité de vraisemblance entre le mot [1‫]آ‬, et le modèle HMM
93
correspondant - construit et enregistré dans l’étape d’apprentissage de modèles- en appliquant

l’algorithme de Viterbi. La probabilité calculée est entre 0.8 et 1, donc le système estime que
le mot [1‫ ]آ‬est bien prononcé.
Tandis que l’évaluation basée sur l’algorithme FCM du même mot, fait appel au centre
(prototype) de l’ensemble qui représente le mot [1‫ ]آ‬- construit et enregistré dans l’étape
d’apprentissage de modèles- en calculant la distance euclidienne entre les deux, le système
basé FCM estime que le mot est assez bien prononcé et ce d’après la valeur de distance
calculée.
En fin, le système compare les deux évaluations du mot [1‫ ]آ‬et la meilleure appréciation est
retournée à l’apprenant.
3.10. Conclusion
Dans ce chapitre, nous avons présenté un système permettant l’évaluation automatique de

mots arabes isolés, dans le contexte de l’apprentissage des langues.
Nous avons détaillé la méthodologie adoptée pour la conception du système, en décrivant en

détail les différentes phases intervenant dans le système, ainsi que les algorithmes utilisés lors
de l’apprentissage et l’évaluation selon la modélisation choisie.
Nous avons constaté que le feedback est un élément essentiel qui contribue à la stabilité des
systèmes d’évaluation automatique de la prononciation, fournir des feedbacks significatifs
signifie : fournir des feedbacks qui peuvent être facilement interprétables par l’apprenant.
Cela implique que toutes les informations (calculs, forme du signal...etc) obtenues dans les
premières phases du système d’évaluation automatique proposé, ne doivent pas être présentés
à l’apprenant, et c’est l’intérêt du système proposé, qui consiste à fournir un feedback d’une
façon claire, sans ambigüité, et compréhensible par l’apprenant.
94
Conclusion Générale
et Perspectives.
Conclusion et perspectives
1. Conclusion générale
Comme nous l’avons vu en introduction de ce mémoire, l’apprentissage des langues assistées
par ordinateur est un domaine en grande expansion, promouvoir l’enseignement de la
prononciation devient alors une opportunité, en particulier car les méthodes actuelles en
apprentissage et surtout en évaluation manque de pertinence et d’explicabilité.
Le problème majeur dans l’apprentissage de la prononciation assisté par ordinateur, consiste

en la qualité du feedback retournée à l’apprenant à partir de sa prononciation, qui reste encore
controversable et difficile à mettre en œuvre.
Et c’est le but du travail réalisé dans ce mémoire, qui s’inscrit dans la démarche d’évaluation
automatique de la prononciation en apprentissage de mots arabes isolés, en mode indépendant
du locuteur, qui se base sur le principe de la reconnaissance automatique de la parole, en vue
de fournir un feedback explicatif et compréhensible par les apprenants.
Pour ce faire, notre choix conceptuel s’est porté sur deux paradigmes pour évaluer la
prononciation ; les modèles de Markov cachés (HMM), qui offrent des algorithmes
performants pour l’apprentissage et l’évaluation, et qui ont montré des progrès considérables
dans le domaine. Et une modélisation basée sur la logique floue, en utilisant l’algorithme C-
Moyennes Flous (FCM- Fuzzy C-Means), qui est connu pour son efficacité et sa robustesse.
Le système proposé se compose de trois étapes : extraction de caractéristiques (en utilisant la

méthode MFCC), apprentissage des mots pour déduire les modèles (en utilisant l’algorithme
de Baum Welch et le FCM), qui seront utilisés dans la troisième étape d’évaluation, cette
dernière consiste à calculer la similarité entre le mot test et son modèle, qui est traduite sous
forme de probabilité de vraisemblance en utilisant les HMMs, et en terme de distance entre le
mot et son prototype en appliquant FCM. Les résultats des deux méthodes sont comparés, et
la meilleure note d’évaluation est retournée à l’apprenant, qui mesure le degré de justesse de
sa prononciation. Afin d’évaluer les performances de notre système, nous avons effectué
plusieurs expérimentations et tests visant à calculer à chaque fois le nombre de mots évalué
correctement, par les deux méthodes d’évaluation utilisées. Les résultats obtenus sont à notre
avis encourageants, si on considère les problèmes liés au traitement de la parole qui n’est pas
facile à appréhender.
96
Conclusion et perspectives
2. Perspectives
Comme tous les travaux de recherche, plusieurs extensions sont envisageables pour améliorer
le système proposé dans ce mémoire :
• Proposer une évaluation de prononciation au niveau phonème, en utilisant une des

méthodes automatiques tel que le GOP (Goodness of Pronunciation), qui est capable de
fournir un score pour chaque phonème prononcé.
• Proposer un feedback plus performant et plus explicatif ; localiser les éventuelles erreurs
de prononciation détectées (au niveau phonémique), diagnostiquer ces erreurs et proposer
à l’apprenant la bonne prononciation.
• Pour modéliser un système d’évaluation automatique de prononciation de langues non-
native basé sur la RAP (dans le contexte d’un environnement réel d’apprentissage de
langues), on a besoin de deux ensembles de modèles acoustiques ; un ensemble qui
représente l’accent canonique, et un deuxième qui représente l’accent étrangère. A
chaque phonème du premier ensemble sont associées une ou plusieurs prononciations
étrangères, ce qui n’est pas disponible.
• Donner l’occasion à l’apprenant de s’auto-évaluer, en lui assurant un environnement
d’apprentissage, dans lequel il peut comparer sa production avec celle du système.
• Tester le système avec une base de données réelle, construite par des apprenants qui sont
en mesure d’apprendre la langue arabe, pour évaluer les performances du système
proposé.
• Utiliser d’autres méthodes de L’IA, comme les réseaux de neurones, les systèmes
experts, les algorithmes génétiques. Afin d’obtenir de meilleur résultats.
97
Références
bibliographiques.
Références bibliographiques
[ALL 03] J. Allerge, « Approche de la reconnaissance automatique de la parole », Rapport

cycle probatoire, CNAM, 07 Avril 2003.
[AKA 98] Y. Akahane, E. McDermott, T. Adachi, H. Kawahara, J.S. Pruitt, « Computer-

based second language production ». Proceedings of the 5th International Conference on
Spoken Language Processing, Sydney, Australia, [CD-Rom] Paper 0429.1998.
[AND 92] J. Anderson-Hsieh, R. Johnson, K. Koehler, « The relationship between native

speaker judgements of nonnative pronunciation and deviance in segmentals, prosody and
syllable structure », Language Learning, volume 42,pp. 529-555.1992.
[ATA 71] B.S. Atal, and S.L. Hanauer, « Speech analysis and synthesis by linear
prediction of the speech wave ». The Journal of the Acoustical Society of America,
volume 50 (2), pp. 637-655. 1971.
[AUR 00] Auralog . « Tell me More, User’s Manual », Montigny-le-Bretonneux, France.2000

[BAH 07] H. Bahi, « NESSR, un système neuro-expert pour la reconnaissance de la parole
», Revue traitement du signal, volume 24, N°1, pp. 59-67. 2007.
[BAH 09] H. Bahi, « Application de NESSR à l’apprentissage de la prononciation ».

Environnements Informatiques pour l’Apprentissage Humain, Le Mans 2009.
[BAK 75] R. Bakis, « Continuous speech word recognition via centisecond acoustic states ».
In91st Meeting of the Acoustical Society of America, 1975.
[BAU 70] L.E. Baum, T. Pétrie, G. Soûles, and N. Weiss, « A maximization technique
occurring in the statistical analysis of probabilistic functions of Markov chains ». Ann.
Math. Stat. volume 41(1), pp. 164-171, 1970.
[BAU 72] L.E. Baum, « An inequality and associated maximization technique in

statistical estimation for probabilistic functions of markov processes ». Inequatilities,
volume 3, Academic Press, pp. 1-8.1972.
[BOE 09] P. Boersma and D. Weenick, « Praat: a system for doing phonetics by computer »,
version 5.1.04. Téléchargeable à partir de www.praat.org. 2009.
[BOI 87] R. Boite, M. Kunt, « Traitement de la Parole, complément traité d’électricité »,

Presses Polytechniques Romandes, Lausanne, Paris, 1987.
[BOU 08] G. Bouselmi, « Contributions à la reconnaissance automatique de la parole non-

native », Thèse de doctorat de l’université Henri Poincaré, Nancy 1, 12 Novembre 2008.
99
[BRA 99] R.N. Bracewell, « The Fourier Transform and Its Applications ». McGraw-Hill
Science/Engineering/Math, Boston, 3 édition.1999.
[CAL 89] Calliope, « La parole et son traitement automatique », Masson, Paris, France, 1989.
[CHU 00] S. Chuai-Aree, C. Lursinsap, P. Sophatsathit and S. Siripant, « Fuzzy C-Mean: A

statistical feature classification of text and image segmentation method », Proc. of Intern.
Conf. on Intelligent Technology 2000, December 13-15, Assumption University Bangkok,
Thailand, pp. 279-284, 2000.
[COM 01] D.V. Compernolle, « Recognizing speech of goats, wolves, sheep and ... non-
natives ». Speech Communication, volume 35(1-2), pp. 71-79.2001.
[DAV 52] K.Davis, H. Biddulph, and S.Balashek, «Automatic recognition of spoken

digits ». The Journal of the Acoustical Society of America, volume 24(6), pp. 637-642.
1952.
[DEB 83] K. DEBOT, « Visual feedback of intonation I: Effectiveness and induced practice
Behavior », Language and Speech, volume 26, pp. 331-350.1983.
[DUD 39] H. Dudley, R. Riesz, and S.S. Watkins, « A synthetic speaker ». The Bell
System Technical Journal, volume 227, pp. 739-764. (1939).
[DUD 50] H. DUDLEY, and T.H.TARNOCZY, « The speaking machine of wolfgang von
kempelen ». The Journal of the Acoustical Society of America, volume 22(2), pp. 151-
166.1950.
[EDE 06] P. EDELENBOS, R. JOHNSTONE, A. KUBANK, « Les grands principes

pédagogiques sur lesquels se fonde l’enseignement des langues aux très jeunes apprenants »,
les langues pour les enfants en Europe, rapport final de l’étude du lot 1 d’EAC 89/04,
Commission Européenne, Octobre 2006.
[ELA 09] N. ELABED, Z. SAKKA, M. SAMET et A. Kachouri, « Approche multi-bandes

pour la reconnaissance automatisque des mots isolés et phonèmes arabes», Laboratoire
d’électronique et de la technologie d’information (LETI), Ecole nationale d’ingénieurs de
Sfax, SETIT March 22-26, 2009 – TUNISIA.
[ESK 96] M. Eskenazi, « Détection of foreign speakers pronunciation errors for second
language training, preliminary results ». In ICSLP '96. Philadelpliia, PA, USA, Oct. 1996.
[EUR 02] Eurotalk . http://www.eurotalk.co.uk/ETWebPages/Products/DVDF.html. Last

consulted 27/02/2002.
100
[EZZ 02] H. Ezzaidi, « Discrimination Parole/Musique et étude de nouveaux paramètres et

modèles pour un système d’identification du locuteur dans le contexte de conférences
téléphoniques ». PHD thesis, Université du Québec, 2002.
[FLE 22] H. Fletcher, « The nature of speech and its interpretations ». The Bell
System Technical Journal, volume 1, pp. 129-144. 1922.
[FER 00] L. Ferrier, L. Reid, « Accent modification training in The Internet Way® »,
Proceedings of InSTILL, Dundee, Scotland, pp. 69-72. 2000.
[GAL 96] M. J. F. Gales, and P.C. Woodl, « Mean and variance adaptation within the mllr
framework ». Computer Speech and Language, volume 10. 1996.
[GAL 98] M. J. F. Gales, « Maximum likelihood linear transformations for hmm-based

speech recognition ». Computer Speech and Language, volume 12. 1998.
[GER 00] A. Germain, P. Martin, « Présentation d'un logiciel de visualisation pour

l'apprentissage de l'oral en langue seconde », Alsic, volume 3 (1), pp.61-76.2000.
[GIR 07] A.L. Giraud, A. Kleinschmidt, D. Poeppel, T. E. Lund, R.S.J. Frackowiak, and
H. Laufs, (2007). « Endogenous cortical rhythms determine cerebral specialization for
speech perception and production ». In Neuron, volume 56, pages 1127-1134.2007
[GLE 01] Glearner (2001). www.glearner.com. Last consulted 10/05/2001.
[GUI 01] S. Guillaume, « Induction de règles floues interprétables », Thèse de Doctorat

Laboratoire d’analyse et d'architecture des systèmes du CNRS Toulouse – Novembre 2001.
[HEL 06] S. Helmer « COMPUTER-BASED LEARNING: WHAT AUTOMATIC SPEECH

RECOGNITION HAS TO OFFER », CLST, Radboud University-Nijmegen.
[HIL 93] S. Hiller, E. Rooney, J. Laver, M. Jack, « SPELL: An automated system for
computer-aided pronunciation teaching », Speech Communication, volume 13, pp.463-
473.1993.
[ILT 97] ILT, « Interactive Language Tour, München: Digital Publishing »1997.
[ITA 70] F. Itakura, and S. Saito, « A statistical method for estimation of speech
spectral density and formant frequencies ». In Electronics and Communications in
Japan, volume 53A, pp. 36-43.1970.
[JAM 72] E. James, « L’acquisition des faits prosodiques à l’aide d’un visualiseur de
mélodie », Thèse de 3ème cycle, Université de Provence.1972.
101
[JAM 76] E. James, « The Acquisition of Prosodic Features of Speech Using a Speech
Visualizer », International Review of Applied Linguistics in Language Teaching, volume 14
(3), pp. 227-243.1976.
[JAM 77] E. James, « The Acquisition of a Second-Language intonation Using a visualizer »,

Canadian Modern Language Review, volume 33 (4), pp. 503-506.1977.
[JEL 75] F. Jelinek, , L.R. Bahl, , and R.L. Mercer, « Design of a linguistic statistical
decoder for the recognition of continuous speech ». In IEEE Trans. on Information
Theory, volume 21, pp. 250-256.1975.
[JEL 76] F. Jelinek, « Continuous speech recognition by statistical methods ». Proceeding of

IEEE, volume 64(4), pp. 532.556, 1976.
[JIN 10] Chen Jinyu, Lan Wang, Chongguo Li, Jin Ru et Sheng Li, « IELS: A Computer
Assisted Pronunciation Training System for Undergraduate Students », 2nd International
Conforence on Education Technology and Computer (ICETC), IEEE 2010.
[JUA 85] G.H. Juang, « Maximum likelihood estimation for multivariate stochastic
observations of markov chains ». AT&T Tech. Journal, volume 64(6), pp. 1235-
1249.1985.
[JUA 86] G.H. Juang, S.E. Levinson, and M.M. Sondhi, « Maximum likelihood
estimation for multivariate mixture observations of markov chains ». In IEEE Trans. on
Information Theory, volume 32, pp. 307-309.1986.
[KRA 1782] C. G. Kratzenstein, « Sur la formation et la naissance des voyelles ». Journal

de Physique, volume 21, pp. 358-380.1782.
[KUN 80] M. Kunt, « Traitement numérique des signaux », traité d’électricité EPFL, vol. XX,
Georgi, 1980.
[LAN 65] H. Lane, R. Buiten, « A preliminary manual for the speech auto-instructional
device », Behavior Analysis Laboratory, Progress Report n°5, nov. 1, University of Michigan,
1965.
[LEE 93] C.H. Lee, and J.L. Gauvain, « Speaker adaptation based on map estimation
of hmm parameters ». In IEEE International Conférence on Acoustics, Speech, and
Signal Processing, ICASSP, volume 2, pp. 558-561.
[LEO 71] P. Léon & P. Martin, « Linguistique appliquée et enseignement de l’intonation »,

Etudes de Linguistique appliquée, volume 3, pp. 36-45.1971.
102
[LEV 97] Levy, « Computer-assisted language learning: context and conceptualization »,

Oxford University Press.
[LIP 90] R.P. Lippmann, « Review of neural networks for speech recognition ». Readings
in Speech Recognition, volume 5, pp. 374-392.1990
[LIV 00] K. Livescu, and J. Glass, « Lexical modeling of non-native speech for automatic
speech recognition ». In Proc. of the IEEE Int. Conf. on Acoustic, Speech and Signal
Processing, Istanbul, Turkey.2000.
[MAK 03] B. Mak, M. Siu, M.Nig , Y. Tam, Y. Chan , K. Chan , K. Leung , S. Ho , F.Chong
, J. Wong, J. Lo, « PLASER: pronunciation learning via automatic speech recognition »,
Proceedings of the HLT-NAACL 03 workshop on Building educational applications using
natural language processing - Tome1, pp. 23 -29.2003.
[MAO 07] F. Maouche, « La reconnaissance automatique de la parole, approche

évolutionniste, cas de l’Arabe », mémoire de magister, CU Oum el Bouaghi, 2007.
[MAR 64] T.B. Martin, A.L. Nelson, and H.J. Zadell, « Speech recognition by feature
abstraction techniques ». In Tech. Report AL-TDR, pp. 64-176, Air FOrce Avionics
Lab.1964.
[MCC 43] W.S. McCullough, and W.H. Pitts, « A logical calculus of ideas immanent in
nervous activity ». In Bull Math Biophysics, volume 5, pp. 115-133. 1943.
[MEN 00] W. Menzel, D. Herron, P. Bonaventura & R. Morton, « Automatic detection and
correction of non-native English pronunciations ». Proceedings of InSTiL, Dundee, Scotland,
pp. 49-56.2000.
[MOR 04] J. Morgan, « Making a speech recognizer tolerate non-native speech

through gaussian mixture merging ». In Proc. of InSTIL/ICALL, Venice, Italy.2004.
[MUR 99] G.L. Murray, «Autonomy in language learning in a simulated environment ».

System (An International Journal of Educational Technology and Applied Linguistics),
volume 27, pp. 295-308.1999.
[NER 03] A. Neri, C. Cucchiarini, W. Strik, « Automatic Speech Recognition for second
language learning: How and why it actually works », 15th ICPhS Barcelona, pp.1157-1160,
2003.
[NER 07] A. Neri, « The pedagogical effectiveness of ASR-based computer assisted

pronunciation training ». Thèse de doctorat, Radboud university –Nijmegen, juin 2007.
103
[NEU 96] L. Neumeyer, H. Franco, M. Weintraub, P. Price, « Pronunciation Scoring of

Foreign Language Student Speech », In ICSLP’96, Philadelphia, USA.1996.
[NEU 98] L. Neumeyer, H. Franco, V. Abrash, L. Julia, O. Ronen, H. Bratt, J. Bing,

V.Digalakis, M. Rypa, « Webgrader (TM): a multilingual pronunciation practice tool », In
STiLL Speech Technology in Language Learning, pp. 61-64.1998.
[NGU 02] Thi Ngan Ha. NGUYEN., « Technologie de la parole et enseignement/

apprentissage de la phonétique du français langue étrangère ». Séminaire régional de
recherche en didactique du FLE, décembre 2002 à Phnom Penh – Cambodge.
[NIE 02] Buren Nieuwe (2002). Nieuwe Buren, http://www.nieuweburen.nl. Last consulted
26/02/2002.
[NIK 07] R. Nikolov, J.Y. Dommergues, et E. Ryst. « SARP : un outil de représentations

graphiques multi-points et multi-séries des formants vocaliques », Scientific Works, vol. 45,
Book 1, Philology, Plovdiv University "Païssii Hilendarski", Bulgaria.2007.
[OZE 03] ALEXY OZEROV, « Master Représentation robuste pour la RAP »,stage de DESS
CSA, Mars- Septembre, 2003.
[RAB 89] L. Rabiner et B. H. Juang, « A tutorial on hidden markov models and

selected application in speech recognition ». Proceeding of IEEE, volume 77(2), pp. 257.285,
1989.
[ROS 01] K. Ross, « Teaching languages with asynchronous voice over the Internet », Paper
presented at InSTILL, EuroCALL, Nijmegen, The Netherlands.2001.
[RUT 00]A. Germain-Rutherford, P. Martin, « Présentation d’un logiciel de visualisation

pour l’apprentissage de l’oral en langue seconde », ALSIC 3, pp. 61-76. Available online at
http://alsic.u-strasbg.fr/Menus/frameder. htm. 2000.
[SCH 03] S. Schaden, « Generating non-native pronunciation lexicons by phonological

rules ». In 15th International Congress of Phonetic Sciences, Barcelona, Spain.2003
[SHE 06] Sherif Mahdy Abdou, Salah Eldeen Hamid , Mohsen Rashwan, Abdurrahman
Samir, Ossama Abd-Elhamid, Mostafa Shahin, Waleed Nazih, « Computer Aided
Pronunciation Learning System Using Speech Recognition Techniques », INTERSPEECH –
ICSLP. 2006.
[THO 02] R. Thomas, R.F. Moore, and P.A. Wheeler, « The Science of Sound ».
Addison Wesley, San Francisco, 3 ème édition.2002.
104
[TOM 01] M. Tomokiyo, and A. Waibel, « Adaptation methods for non-native speech ».
In Multilinguality in Spoken Language Processing, Aalborg, Denmark.2001.
[TTM 02] TTM, Talk to Me, the Conversation Method,

http://www.auralog.com/en/talktome.html. Last consulted 26/02/2002.
[VAR 64] R.M. Vardanian, « Teaching English through oscilloscope displays »,

LanguageLearning, volume 3/4, pp. 109-117.1964.
[VIN 68] T.K. Vintsyuk, « Speech discrimination by dynamic programming ». In

Kibernetika, volume 4(2), pp. 81-88.1968.
[VIT 67] A.J. Viterbi , « Error bounds for convolutional codes and an asymptotically
optimum decoding algorithm ». IEEE Transactions on Information Theory, volume.13, no.2,
pp. 260–269. 1967.
[VIT 71] A.J. Viterbi, « Error bounds for convolutional codes and asymptotically
optimum decoding algorithm ». In IEEE Trans on Information Theory, volume 13, pp.
260-269.1971
[WIN 02] WinPitch (2002). Pitch Instruments Inc, http://www.winpitch.com. Last consulted
26/02/2002.
[WAI 10] Lo Wai-Kit, M. Alissa, Harrison and Helen Meng, « Statistical Phone Duration
Modeling To Filter For Intact Utterances In A Computer-Assisted Pronunciation Training
System », 978-1-pp.4244-4296-6/10/, IEEE, ICASSP 2010.
[WAN 03] Z. Wang, T. Schultz, and A. Waibel, « Comparison of acoustic model
adaptation techniques on non-native speech ». In Proc. of the IEEE Int. Conf. on
Acoustic, Speech and Signal Processing, pp. 540-543, Hong-Kong. 2003.
[WIT 97] S. Witt, S. Young , « Computer-assisted Pronunciation Teaching based
on Automatic Speech Recognition ». Cambridge University Engineering
Department Trumpington Street Cambridge CB2 1PZ England April 28, 1997.
[WIT 99] S.M. Witt, « Use of speech recognition in computer-assisted language learning ».
Thèse de Doctorat , Newnham College, November 1999.
[YOO 06] Y.R. Yoon, and H.K. Kim, « Acoustic model adaptation based on
pronunciation variability analysis for non-native speech recognition ». In Proc. of the
IEEE Int. Conf. on Acoustic, Speech and Signal Processing, pp.137-140, Toulouse,
France.2006.
[YOU 90] D.J. Young, « An investigation of students’ perspectives on anxiety and

speaking». Foreign Language Annals, volume 23, pp. 539-553.1990.
105

Memoire 3

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Memoire 3

Uploaded by

Copyright:

Available Formats

 ‫و ا  ا‬  ‫ ا‬ ‫وزارة ا‬

BADJI MOKHTAR-ANNABA UNIVERSITY

Faculté des sciences de l’ingénieur Année : 2011

Présenté en vue de l’obtention du diplôme de MAGISTER

Evaluation Automatique de la Prononciation en

TIC & Ingénierie du document

Mme Aouidi Samira

DIRECTEUR DE MEMOIRE : Halima ABIDET-BAHI MC Université de Annaba

PRESIDENTE : Habiba BELLILI MC Université de Annaba

EXAMINATRICES: Hassina SERIDI MC Université de Annaba

KEYWORDS: language learning, teaching pronunciation, speech recognition, Hidden

MOTS-CLÉS : apprentissage des langues, enseignement de la prononciation, reconnaissance

A mon petit ange adoré Zeid Mouhib….

A ceux qui me sont chers…

Je voudrais remercier Madame Bellili Habiba, maître de conférence à l’Université de

Je souhaite également exprimer toute ma gratitude à Madame Seridi Hassina et à Madame

Je réserve mes derniers remerciements à toute ma famille, ma belle famille, particulièrement

Tableau 3.1. Vocabulaire utilisé………………………………………………………….... 71

Tableau 3.2. Comparaison entre DHMM et CHMM……………………………………… 77

Tableau 3.3. Estimation de la qualité de prononciation selon P et N…………………….. 88

Tableau 3.4. Performance du système d’évaluation en utilisant HMM…………………… 90

Tableau 3.5. Performance du système d’évaluation en utilisant FCM……………………. 91

Le développement de la coopération socio-écono-culturelle entre des pays pousse

L’ingénierie de la langue a également fait de gros progrès, notamment grâce à la montée en

la qualité globale de prononciation et ils sont également difficiles à mesurer. Ainsi, la

Cependant, les contextes d’enseignement en classe traditionnelle permettent rarement à

prononciation en utilisant les deux méthodes décrites précédemment, et jusqu’à l’obtention

Chapitre 1 : La Reconnaissance Automatique de la Parole (RAP)

Ce chapitre présente l’état de l’art dans le domaine de la reconnaissance automatique de la

Chapitre 2 : L’enseignement de la Prononciation basé sur la RAP

Dans ce chapitre on va discuter le principe des systèmes d’enseignement de la prononciation

Nous achèverons ce mémoire par une conclusion et quelques perspectives.

La reconnaissance automatique de la parole(RAP) est un domaine de la science ayant toujours

La reconnaissance automatique de la parole (RAP) consiste à reconnaître la suite de mots qui

1.2.2. Signal de la parole

Le signal de parole est caractérisé par trois paramètres : [KUN 80]

- Chez l’homme : de 80 à 200Hz.

1.2.3. Reconnaissance automatique de la parole

La reconnaissance automatique de la parole est l’un des deux domaines du traitement

comparer une onde sonore à un ensemble d'échantillons, composés généralement de mots

taille. De plus, la puissance des équipements informatiques actuels autorisent l'utilisation de

La conception d'une machine capable de mimer la capacité humaine à communiquer par le

L'une des premières tentatives d'enregistrement et reproduction de la voix humaine date de

Alternativement aux approches analytiques précédentes, la reconnaissance de la parole "par

1.4. Dates clés

• 1989 : recrudescence des modèles connexionnistes neuromimétiques.

1.5. Traitement de la parole

On entend par traitement de la parole, le traitement de l’information contenue dans le signal

1.5.1. Méthodes temporelles

• Analyse par prédiction linéaire (LPC).

1.5.2. Méthodes fréquentielles

• Traitement par banc de filtres.

1.6. Architecture d’un système de reconnaissance automatique de la

Un système de RAP est construit en deux phases :

Figure 1.1. Phase d’apprentissage

Le choix de la fréquence d'échantillonnage est aussi déterminant pour la définition de la bande

1.6.2. L’analyse Acoustique

Ce module permet d’extraire les paramètres pertinents pour la reconnaissance de la parole.

• Coefficients de prédiction linéaire (LPC) (de 8 à 14 coefficients suivant l’ordre du modèle)

Modèle de langage Modèle

Numérisation Analyse Reconnaissance

Figure 1.2. Phase de Test

Ainsi la méthode d’estimation des performances de reconnaissance consiste à comparer la

‫و ا ا‬ ‫ ا‬ ‫وزارة ا‬

P(w1,w2,…,wm) =∏ .. (wi\w1,w2,…,w i-1) (1.1)

P (w1, w2,…,wm) ∏ .. (wi\wi-n+1,wi-n+2,…,wi-1) (1.2)