Professional Documents
Culture Documents
Memoire 3
Memoire 3
Département d’informatique
MEMOIRE
Option
Par
DEVANT LE JURY
5م Hأ س : 5 5GاMو H Hأ س 2ذج رآ ف ا) ?QKاش ^م ^م( ا أDBوا 5اL2 28
5آا > ها ا %ل ،وا H ?2 Eأ س ا ل ا4ق ا" ?54ا`? و ذ 34 :ا ?"5ا ة )>(
،وه ?"5آEة ا $ل H ،ا" 34ا ، Dواوف آ Qء Dو . D2
?5Gا 5ا 0 > IE ?05ب ا` Sا? و ا" ذج ،وا cا 0ل ا` " SاKام
" اKام )>( d0 .ه 2ذج رآ ف ا) ?QKاش ^م ^م( ،و 0 > H%ب ا >? ا? وا" ذج
5ر 5G TA 2 ?2ا 5و &cا" ?%ا. Q"7 H M
آ ت ا :ا ت ،ر Jا" ، 34اف Hا,م 2 ،ذج رآ ف ا ، ?QKا.5
i
ABSTRACT
Computer Assisted Language Learning (CALL) is a discipline which comes from teaching
intelligently computer-assisted. It brings together several areas (grammar, orthography ...), but
one aspect that seems crucial is the pronunciation, and particularly the assessment of this
pronunciation. However, this aspect is neglected by many products intended for this purpose,
and those facing the difficulty of the attached tasks. With the integration of techniques that are
based on automatic speech recognition (ASR).Systems for teaching pronunciation can provide
limited interactions: the computer understands speech of the learner, and responds
accordingly, what results a learning process more realistic, providing feedbacks on real-time
measuring the quality of the pronunciation of the learner. As part of our work, which involves
developing a system for automatic evaluation pronunciation, of Arabic isolated words, on
speaker-independent mode, in the context of Computer-Assisted Language Learning, and
particularly the Arabic language. The assessment in the proposed system is made at a word
level, and it’s based on the principle of speech recognition.
We chose a system based on two evaluation methods: one based on hidden Markov Models
(HMM), who have shown considerable progress in the domain, and a second based on
techniques of fuzzy logic, applying the algorithm of Fuzzy C-Means (FCM ). A very popular
algorithm based on fuzzy logic, known for its efficiency and robustness.
The proposed assessment is to calculate the similarity between the word test and its model,
which is translated as a likelihood probability using the HMMs, and in terms of distance
between the word and its prototype using FCM. The results of both methods are compared
and the highest rating score is returned to the learner.
ii
RESUME
L’apprentissage des langues assisté par ordinateur (CALL pour Computer Assisted Language
Learning) est une discipline issue de l’enseignement intelligemment assisté par ordinateur
(EIAO). Elle regroupe plusieurs axes (grammaire, orthographe, …), mais l’un des aspects qui
semble primordial est la prononciation et particulièrement l’évaluation de cette prononciation.
Toutefois, cet aspect reste délaissé par les nombreux produits destinés à cette fin, et ceux en
regard de la difficulté des tâches afférentes. Avec l’intégration des techniques qui sont basées
sur la reconnaissance automatique de la parole (RAP), les systèmes d’enseignement de la
prononciation peuvent fournir des interactions limitées : l’ordinateur comprend la parole de
l’apprenant, et réagit en conséquence, ce qui en résulte un processus d’apprentissage plus
réaliste, en fournissant des feedbacks en temps réel sur la qualité de la prononciation de
l’apprenant. Dans le cadre de notre travail, qui consiste à développer un système d’évaluation
automatique de la prononciation de mots arabes isolés, en mode indépendant du locuteur,
dans le contexte de l’apprentissage de langues assisté par ordinateur et particulièrement de la
langue arabe. L’évaluation dans le système proposé est faite au niveau d’un mot et se base sur
le principe de la reconnaissance de la parole.
Notre choix s’est porté sur un système qui se base sur deux méthodes d’évaluation : une
première basée sur les modèles de Markov cachés HMM (pour Hidden Markov Model) qui
ont montrés des progrès considérables dans le domaine, et une deuxième basée sur les
techniques de la logique floue, en appliquant l’algorithme de C-Moyennes Flous (FCM-
Fuzzy C-Means). Un algorithme très populaire, basé sur la logique floue, connu pour son
efficacité et sa robustesse.
L’évaluation proposée consiste à calculer la similarité entre le mot test et son modèle, qui est
traduite sous forme de probabilité de vraisemblance en utilisant les HMMs, et en terme de
distance entre le mot et son prototype en appliquant FCM. Les résultats des deux méthodes
sont comparés, et la meilleure note d’évaluation est retournée à l’apprenant.
iii
DEDICACES
A mon mari Fares, pour son soutien moral, son aide, sa présence qui est toujours une
lumière qui me guide. Que Dieu me le garde !
iv
REMERCIEMENTS
Au terme de ce travail je voudrais tout d’abord exprimer ma profonde gratitude envers DIEU
tout puissant qui, grâce à son aide, j’ai pu finir ce travail.
Après Dieu, je tiens à exprimer toute ma reconnaissance et mon profond respect à mon
encadreur madame H.Bahi, maître de conférences à l’université d’Annaba, d’avoir accepté
de diriger mon travail, de m’avoir fait confiance et de m’avoir encouragée, je lui serai
toujours reconnaissante d’avoir guidé mes premiers pas de recherche.
Ma gratitude s’adresse aussi à tous les enseignants qui ont assuré ma formation du primaire
jusqu’à l’université.
Merci à tous ceux qui ont contribué de près ou de loin à l’élaboration de ce travail.
v
Liste des Tableaux
Tableau 1.1. Comparaison des performances d'un système de RAP anglaise entre la
parole native et non-native (les taux d'erreurs sont exprimés en %)…………………….....31
vi
Liste des Figures
Figure 1.1. Phase d’apprentissage……………….……………………………………….. 17
Figure 1.2. Phase de Test…………..……………………………………………............... 19
Figure 1.3. Procédure générale pour la reconnaissance de la parole basé HMM……...… 21
Figure 1.4. Paramètrisation MFCC………………………………………………………. 21
Figure 1.5. Exemple de modèle HMM à topologie « gauche-droite »………………….…. 24
Figure 2.1. Diagramme schématique d'un système de RAP [NER 07]……………..……... 46
Figure 2.2. Exemple de représentation graphique proposée dans le logiciel SARP…...….. 59
Figure 2.3. Proposition de feedback par affichage de l’oscillogramme………………..…. 60
Figure 2.4. Proposition de feedback par affichage de la courbe d'amplitude……….…… 61
Figure 2.5. Exemple de feedback visuel du logiciel Winpitch LTL…………...…………… 62
Figure 2.6. Architecture d’IELS…….……………………………………………………... 63
Figure 2.7. Les composants du système HAFFS……………...…………………………… 63
Figure 2.8. Les composants du système CHELSEA………………………….……………. 64
Figure 3.1. Architecture générale du système proposé…………………………….……... 69
Figure 3.2. Analyse de la parole…………………………………………………………... 70
Figure 3.3. Prétraitements généralement réalisés en traitement de la parole…………….. 72
Figure 3.4. Extraction de paramètres dans le cadre du traitement de la parole………..… 72
Figure 3.5. Procédé d’extraction de coefficients MFCC……………………….…………. 74
Figure 3.6. HMM ergodique……………….………………………………………………. 78
Figure 3.7. Exemple de HMM de Bakis……..…………………………………………….. 78
Figure 3.8. Modèle HMM du mot « MAKTAB »………………………………………… 79
Figure 3.9. L’algorithme de Viterbi………………………………………………............. 80
Figure 3.10. L’algorithme Baum-Welch………..…………………………………………. 81
Figure 3.11. Procédure d’apprentissage d’un modèle HMM dans le système proposé….... 83
Figure 3.12. Algorithme FCM………………….………………………………………….. 85
Figure 3.13. Validation de performance du système propos……………………………… 87
Figure 3.14.Signal du mot [1 ……………………………………………………………]آ92
Figure 3.15. Paramètrisation du fichier son [1 …………………………………………]آ93
vii
Table des matières
eـK ــ......................................................................................................................................... i
ABSTRACT ............................................................................................................................... ii
DEDICACES ............................................................................................................................ iv
REMERCIEMENTS .................................................................................................................. v
Liste des Tableaux ..................................................................................................................... vi
Liste des Figures....................................................................................................................... vii
Table des matières ................................................................................................................... viii
Introduction générale.................................................................................................................. 1
Chapitre 1: Reconnaissance Automatique de la Parole(RAP). ........................................ 7
1.1. Introduction ..................................................................................................................... 8
1.2. Définitions ....................................................................................................................... 9
1.2.1. Parole ........................................................................................................................ 9
1.2.2. Signal de la parole ................................................................................................... 10
1.2.3. Reconnaissance automatique de la parole............................................................... 10
1.3. Historique ...................................................................................................................... 12
1.4. Dates clés ...................................................................................................................... 15
1.5. Traitement de la parole .................................................................................................. 16
1.5.1. Méthodes temporelles ............................................................................................. 16
1.5.2. Méthodes fréquentielles .......................................................................................... 16
1.6. Architecture d’un système de reconnaissance automatique de la parole....................... 17
1.6.1. La Numérisation..................................................................................................... 17
1.6.2. L’analyse Acoustique............................................................................................. 18
1.6.3. L’apprentissage ....................................................................................................... 18
1.6.4. La Reconnaissance ................................................................................................ 19
1.7. Méthodes de Reconnaissance ........................................................................................ 20
1.8. Reconnaissance analytique de la parole ........................................................................ 20
1.8.1. Paramétrisation ....................................................................................................... 21
1.8.2. Modèles de langage statistiques .............................................................................. 22
1.8.3. Modèle de prononciation ........................................................................................ 23
viii
1.8.4. Modèles acoustiques ............................................................................................... 23
1.8.5. Décodage avec l'algorithme de Viterbi ................................................................... 24
1.9. Les principes de fonctionnement de la RAP ................................................................. 25
1.9.1. Niveaux de complexité ........................................................................................... 25
1.9.2. Les types de systèmes de RAP.............................................................................. 27
1.9.3. Fonctionnement....................................................................................................... 28
1.10. Reconnaissance de la parole non-native ...................................................................... 30
1.10.1. Définition .............................................................................................................. 30
1.10.2. Spécificités de la parole non-native ...................................................................... 30
1.10.3. Impacts de la parole non-native sur les performances de la reconnaissance
automatique ....................................................................................................................... 31
1.10.4. Notions de confusions phonétiques ...................................................................... 32
1.10.5. Modélisation acoustique de l'accent non-natif ...................................................... 32
1.10.6. Modélisation de la prononciation non-native ....................................................... 34
1.11. Conclusion ................................................................................................................... 36
Chapitre 2: Apprentissage de la Prononciation basé RAP. ......................................... 37
2.1. Introduction .................................................................................................................. 38
2.2. L’enseignement de la prononciation assistée par ordinateur (EPAO) ........................... 39
2.2.1. Qu’est ce que la prononciation? .............................................................................. 39
2.2.2. Prononciation «Correcte» ....................................................................................... 39
2.2.3. Les Composants de la prononciation ...................................................................... 40
2.2.4. Aspects d'enseignement de la prononciation .......................................................... 41
2.2.5. Objectifs de l’enseignement de la prononciation .................................................... 42
2.2.6. Les systèmes d’enseignement de la prononciation assistés par ordinateur (EPAO)
........................................................................................................................................... 42
2.2.7. Les Inputs et outputs des systèmes d’EPAO.......................................................... 43
2.2.8. Les défis de l’enseignement de prononciation assisté par ordinateur ..................... 44
2.3. Pourquoi utiliser la reconnaissance automatique de la parole (RAP) dans l’EPAO ..... 45
2.4. Le fonctionnement des systèmes CAPT basés sur la RAP ........................................... 45
2.4.1. Comment fonctionne la RAP ................................................................................. 46
2.4.2. Comment fonctionne la technologie d'EPAO basé-RAP ........................................ 46
2.5. Comment utiliser efficacement la RAP dans l’enseignement de prononciation d’une
seconde langue (L2).............................................................................................................. 48
ix
1) la reconnaissance de la parole non-native, ....................................................................... 48
2) l'évaluation de la prononciation ....................................................................................... 48
3) le feedback........................................................................................................................ 48
2.5.1. La reconnaissance de la parole non-native ............................................................. 48
2.5.2. Les modèles acoustiques ......................................................................................... 49
2.5.3. Le Lexicon ............................................................................................................. 49
2.5.4. Le modèle de langue ............................................................................................... 50
2.6. L'évaluation de la prononciation ................................................................................... 50
2.7. Le feedback.................................................................................................................... 51
2.7.1. L’affichage visuel .................................................................................................. 52
2.7.2. L’évaluation automatique ....................................................................................... 53
2.8. L'efficacité des systèmes EPAO basés sur la RAP ........................................................ 55
2.9. L’évolution de logiciels en apprentissage des langues .................................................. 56
2.9.1. Introduction ............................................................................................................. 56
2.9.2. Historique sommaire de l’évolution de logiciels en apprentissage des langues ..... 57
2.10. Conclusion ................................................................................................................... 64
Chapitre 3: Proposition. .............................................................................................. 66
3.1. Introduction ................................................................................................................... 67
3.2. Evaluation de la prononciation ...................................................................................... 67
3.3. Système d’évaluation automatique de la prononciation proposé .................................. 68
3.4. Architecture générale du système proposé .................................................................... 69
3.5. Etape 1 : Paramétrisation du signal vocal ...................................................................... 69
3.5.1. Analyse du signal .................................................................................................... 70
3.5.2. Le corpus utilisé ...................................................................................................... 70
3.5.3. Prétraitements ......................................................................................................... 71
3.5.4. Extraction de caractéristiques ................................................................................. 72
3.5.5. Extraction de caractéristiques utilisée dans le système proposé ............................. 73
3.6. Etape 2 : Apprentissage ................................................................................................. 74
3.6.1. Apprentissage en utilisant les Modèles de Markov Cachés (HMM) ...................... 75
3.6.2. Apprentissage en utilisant la méthode C-Moyenne Floue (FCM) .......................... 84
3.7. Etape 3 : Evaluation ....................................................................................................... 86
3.7.1. Evaluation en utilisant HMM.................................................................................. 87
x
3.7.2. Evaluation en utilisant FCM ................................................................................... 89
3.8. Expériences et résultats ................................................................................................. 89
3.8.1. Résultats du système d’évaluation basé HMM........................................................... 90
3.8.2. Résultats du système d’évaluation basé FCM ............................................................ 90
3.8.3. Discussion des résultats .............................................................................................. 91
3.9. Exemple illustratif ......................................................................................................... 91
3.10. Conclusion ................................................................................................................... 94
Conclusion Générale et Perspectives. ...................................................................................... 95
1. Conclusion générale ............................................................................................................. 96
2. Perspectives .......................................................................................................................... 97
Références bibliographiques. ................................................................................................... 98
xi
Introduction
générale.
Introduction générale
1. Contexte et problématique
L’enseignement des langues étrangères est devenu indis pensable dans les pays multilingues
comme la France, le Canada, la Suisse …etc. Ce qui a nécessité l’enseignement de ces
langues même dans les écoles primaires. C’est pour ça, il y eu des différentes initiatives visant
à introduire des programmes d’enseignement précoce de langues : quelques unes de ces
initiatives étaient basées sur la pédagogie tandis que d’autres étaient motivées par l’hypothèse
de l’âge optimale, par la recherche ou par la politique comme par exemple le programme
d’échange d’éducateurs/éducatrices de jardins d’enfants entre l’Allemagne et la France. [EDE
06]
2
Introduction générale
Certains chercheurs maintenant pensent que le facteur clef pour aider les apprenants à être
conscients de leurs erreurs durant l’apprentissage d’une seconde langue (L2) est un feedback
correctif externe, une information sur la qualité de production d’un apprenant. Le feedback
correctif fourni par des enseignants ou par des parleurs natifs (ceux qui parlent leur langue
maternelle) pour aider les apprenants à remarquer les divergences entre leur production et la
prononciation correcte.
Les chercheurs, éducateurs, et apprenants sont ainsi devenus intéressés par les programmes
de l’« enseignement de prononciation assisté par ordinateur » (EPAO) fournissant un
feedback automatique sur la qualité de la prononciation. Ces programmes offrent un
environnement privé et sans stress, dans lequel les apprenants peuvent s’entrainer dans leurs
places préférées et reçoivent un feedback immédiat et individualisé [NER 07]. Mais même
avec tous les avantages des systèmes d’EPAO, ces derniers avaient encore quelques autres
problèmes concernant l’accent du parler de l’étudiant, qui peut influencer la prononciation de
certains mots, et les empêcher d’être intelligibles par rapport aux parleurs natifs, en plus les
feedbacks fournis par ces systèmes peuvent être complexes, et parfois difficiles à interpréter
3
Introduction générale
par l’étudiant ou son enseignant. Donc, les recherches ont été dirigées vers l’utilisation de la
reconnaissance automatique de la parole (RAP) pour aider les systèmes d’EPAO à fournir des
feedbacks plus efficaces.
Aidée par les avancées technologiques, la reconnaissance automatique de la parole est de plus
en plus performante. Elle consiste à interpréter le langage parlé humain par une machine. Les
applications de cette technologie sont vastes et variées. La RAP peut servir à dicter un texte à un
ordinateur, commander vocalement un équipement automatique, utiliser des services
d'informations ou de réservations par téléphone, permettre à des personnes handicapées d'utiliser
un ordinateur ou tout autre appareillage ... Le traitement automatique de la parole est au
carrefour de plusieurs disciplines dont l'informatique, la linguistique, la phonétique et la
psychologie. Avec l'augmentation des performances de la reconnaissance de la parole, ces
dernières années, l'évaluation automatique de la prononciation est maintenant possible.
2. Contribution
Notre travail s’intéresse à la conception et au développement d’un système d’évaluation
automatique de la prononciation de mots arabes isolés, en mode indépendant du locuteur,
dans le contexte de l’apprentissage de langues assisté par ordinateur et particulièrement de la
langue arabe. L’évaluation dans le système proposé se fait au niveau d’un mot et se base sur
le principe de la reconnaissance automatique de la parole.
Le système proposé se compose de trois étapes : extraction de caractéristiques, apprentissage
des mots pour déduire les modèles, qui seront utilisés dans la troisième étape d’évaluation.
Le système proposé s’intéresse à l’évaluation de mots arabes isolés, pour ce faire il utilise
deux paradigmes : les modèles de Markov cachées (HMM), qui sont capables de modéliser
simultanément les caractéristiques fréquentielles et temporelles du signal vocal, et qui
présentent à l’heure actuelle des progrès énormes. Et une deuxième évaluation basée sur les
techniques de la logique floue, en appliquant l’algorithme de C-moyennes Flous (FCM-
Fuzzy C-Means). Un algorithme très populaire, basé sur la logique floue, connu pour son
efficacité et sa robustesse.
Ce travail décrit les techniques que nous avons développées pour construire un système
d’évaluation automatique de la prononciation en apprentissage des langues.
Ce système implémente tous les niveaux du traitement, à partir de l’extraction des
caractéristiques du signal de la parole du mot prononcé, l’évaluation automatique de cette
4
Introduction générale
3. Organisation du mémoire
Ce mémoire est organisé autour de quatre chapitres, dans ce qui suit nous donnons une brève
description de leurs contenus respectifs.
5
Introduction générale
Chapitre 3 : Proposition
Dans ce chapitre, nous détaillons la méthodologie adoptée pour la conception d’un système
d’évaluation automatique de la prononciation en apprentissage des langues. Nous décrivons
dans un premier lieu en détail les différentes phases intervenantes dans le système, ainsi que
les algorithmes utilisés lors de l’apprentissage et l’évaluation selon la modélisation choisie.
Dans la dernière section, nous présentons les résultats obtenus ainsi que les discussions de ces
résultats, dans le but d’évaluer les performances du système proposé
6
Chapitre 1
Reconnaissance
Automatique de la
Parole(RAP).
Chapitre 1-Reconnaissance Automatique de la Parole
1.1. Introduction
8
Chapitre 1-Reconnaissance Automatique de la Parole
Toutefois, les systèmes de RAP souffrent d'une chute de performances importante face à la
parole non-native. La parole non-native est la parole de locuteurs ne s'exprimant pas dans leur
langue maternelle. La parole non-native peut différer de la parole native sur plusieurs points.
Selon leurs maîtrise de la langue qu'ils parlent (langue cible), les locuteurs non-natifs peuvent
formuler des constructions grammaticales incohérentes, mal utiliser des connecteurs lexicaux,
commettre des erreurs d'accord en genre et en nombre des articles et adjectifs. Les locuteurs
non-natifs peuvent également utiliser des mots inexistants dans la langue cible, ou mal utiliser
des mots par manque de maîtrise de la langue cible. Par ailleurs, l'accent des locuteurs non-
natifs peut être influencé par les mécanismes de prononciation de leur langue maternelle.
Ainsi, ces locuteurs peuvent prononcer les phonèmes d'une manière similaire à leur langue
maternelle. Ils peuvent également prononcer d'une même manière des phonèmes différents
dans la langue cible, ou encore remplacer des phonèmes par d'autres phonèmes de leur langue
d'origine. Ces erreurs de prononciation nuisent fortement à la précision des modèles
statistiques utilisés dans la RAP, et il en résulte la chute de performance des systèmes de RAP
face à la parole non-native. [BOU 08]
1.2. Définitions
1.2.1. Parole
Le signal de parole appartient à la classe des signaux acoustiques produits par des vibrations
des couches d’air. Les variations de ce signal reflètent les fluctuations de la pression de l’air.
La parole est une suite de sons produits soit par des vibrations des cordes vocales (source
quasi périodique de voisement), soit par une turbulence créée par l’air s’écoulant dans le
conduit vocal, lors du relâchement d’une occlusion ou d’une forte constriction de ce conduit
(sources de bruit non voisées). La durée d’un son est de l’ordre de 60 à 100 ms.
La parole est formée de phonèmes et de transitions entre ces phonèmes. Plusieurs types de
phonèmes existent : les voyelles, les consonnes fricatives, les consonnes plosives, les nasales
et les liquides. Les transitions acoustiques correspondent à des transitions dans l’appareil de
production de l’état correspondant au premier phonème à l’état correspondant au suivant.
Les voyelles, sons voisés par excellence, sont les « piliers » de la parole ; leur présence est
révélée fréquentiellement par les formants qui correspondent aux fréquences de résonance du
9
Chapitre 1-Reconnaissance Automatique de la Parole
conduit vocal. La fréquence d’apparition des voyelles correspond au rythme syllabique. [OZE
03]
C’est un phénomène physique de nature acoustique porteur d’un message. Il est caractérisé
par la fréquence fondamentale, l’intensité et le timbre.
Sa structure est un signal réel, continu d’énergie finie, non stationnaire dans le temps (tantôt
périodique pour les sons voisés, tantôt aléatoire pour les sons non voisés, tantôt impulsionnel
pour les plosives).
1.2.2.1. L'intensité
Elle correspond à l’amplitude des vibrations sonores. Elle est exprimée en (db). Notons aussi,
que l’intensité de la voix peut atteindre des valeurs difficilement tolérables par l’oreille (de
l’ordre de 100 db).
1.2.2.2. La hauteur
Elle est dite aussi « fréquence fondamentale » ou pitch. Elle correspond à la fréquence des
sons, elle est liée aux caractéristiques des cordes vocales. Cette fréquence peut varier suivant
l’âge et le sexe du locuteur
1.2.3.3. Le timbre
C’est la qualité qui distingue un son parmi d’autres de même intensité et de même hauteur. Il
représente la résultante de la transformation du son laryngé par les cavités de résonance.
10
Chapitre 1-Reconnaissance Automatique de la Parole
11
Chapitre 1-Reconnaissance Automatique de la Parole
1.3. Historique
Dans les années 1920, le physicien américain Harvey Fletcher ainsi que d'autres chercheurs
de Bell Labs., étudient les caractéristiques de la parole humaine. Fletcher étudie en outre la
relation entre le spectre fréquentiel d'un signal de parole et les caractéristiques du son ainsi
que la perception de l'oreille humaine et l'intelligibilité de la parole [FLE 22]. Les travaux de
Fletcher ont influencé l'ingénieur Homer Dudley, travaillant au sein de Bell Labs.. Dans les
années 1930, Dudley développe le VODER {Voice Operating Demonstrator) [DUD 39] qui
est un dispositif électronique permettant la synthèse de parole continue.
12
Chapitre 1-Reconnaissance Automatique de la Parole
Les travaux de Fletcher et Dudley ont été précurseurs pour la reconnaissance automatique de
la parole , dans le sens où ils ont établi le lien entre la composition fréquentielle de la parole
(spectre) et les caractéristiques des sons et leur perception. Les premiers travaux concernant la
RAP datent du début des années 1950 avec un premier dispositif électronique permettant de
reconnaître des chiffres isolés. Ce dispositif, développé par Bell Labs [DAV 52], est basé sur
l'analyse des deux premiers formants de la voix. Les formants sont définis comme les
fréquences de résonance du conduit vocal. Durant les années 1950, divers appareillages
électroniques on été développés pour la reconnaissance de syllabes, chiffres et lettres isolés.
Ce n'est qu'aux alentours de 1960 que les premières tentatives d'utilisation de méthodes
numériques pour la reconnaissance de la parole ont vu le jour. A la fin des années 1960, Atal
et Itakura ont formalisé le codage linéaire prédictif (LPC, Linear Prédictive Coding) [ATA
71], [ITA 70].
Les premiers travaux concernant la modélisation du langage ont été développés dans les
laboratoires d’IBM avec une machine à écrire basée sur la dictée vocale [JEL 75]. Le système
de reconnaissance, appelée Tangora, est un système mono-utilisateur nécessitant un
apprentissage de la voix à reconnaître. Ce système utilise un ensemble de règles syntaxiques
qui permettent d'évaluer, a priori, la probabilité d'observer toute suite de mots. Plusieurs
variantes de la modélisation de langage précédente ont été développées. La plus répandue de
ces variantes est la structure appelée n-gram qui modélise la probabilité des suites de n mots.
13
Chapitre 1-Reconnaissance Automatique de la Parole
La représentation des règles syntaxiques d'un langage par une structure n-gram est aujourd'hui
la plus répandue des méthodes de modélisation linguistique dans les systèmes de
reconnaissance de la parole.
Au début des années 1980, les recherches des laboratoires AT&T se sont concentrés sur le
développement de services téléphoniques basées sur des procédés automatiques et destinés au
grand public. La difficulté majeure était le caractère mono-locuteur des systèmes de
reconnaissance vocale. Les laboratoires AT&T se sont focalisés sur le développement de
méthodes permettant aux systèmes de reconnaissances de gérer plusieurs locuteurs, accents
régionaux et manières d'élocution. Les travaux des laboratoires AT&T ont conduit à plusieurs
approches de classification et de regroupement pour des mots et des enregistrements de
référence dans le cadre de la reconnaissance de parole "par l'exemple". Une seconde voie de
recherche entreprise par AT&T a conduit à l'utilisation de modèles statistiques pour la
représentation d'une grande variété de prononciations. [JUA 85], [JUA 86]
Durant la décennie 1975-1985, les travaux entrepris par les laboratoires de AT&T et IBM ont
contribué à des avancements considérables dans le domaine de la reconnaissance automatique
de la parole. L'utilisation des modélisations statistiques pour représenter les règles syntaxiques
de la langue ainsi que pour modéliser la variabilité acoustique constitue un tournant pour la
reconnaissance vocale. La modélisation statistique (du langage ou du signal acoustique) offre
une plus grande robustesse pour la représentation des phénomènes considérés. En particulier,
les chaînes de Markov sont un procédé doublement stochastique dans le sens où il permet de
gérer la succession dans le temps de suites d'observations et donne également une estimation
de la probabilité que ces observations correspondent à un modèle particulier (un mot ou un
phonème). La formalisation des méthodes d'apprentissage des modèles de Markov a été
établie par Léonard E. Baum et Lloyd R. Welch qui ont développé l'algorithme portant leurs
noms (algorithme d'apprentissage Baum-Welch) [BAU 72]. Ces approches de modélisation
stochastique sont aujourd'hui les plus utilisées dans le domaine de la reconnaissance vocale, et
ce grâce aux améliorations continues dont elles ont bénéficié ces deux dernières décennies.
Il est intéressant de noter que d'autres méthodes de classification ont été utilisées dans le
domaine de la reconnaissance automatique de la parole. Dans les années 1940, les premiers
travaux utilisant les réseaux de neurones pour la reconnaissance de la parole n'ont pas abouti à
14
Chapitre 1-Reconnaissance Automatique de la Parole
des résultats concluant [MCC 43]. A la fin des années 1980, les réseaux de neurones
artificiels ont été utilisés avec succès pour la reconnaissance de phonèmes et de mots isolés
[LIP 90]. Toutefois, les réseaux de neurones classiques ne sont pas adaptés à la
reconnaissance de la parole puisqu'ils ne permettent pas de gérer l'aspect temporel de la voix.
On peut résumer en quelques dates les grandes étapes de la reconnaissance de la parole [ALL
03] :
• 1952 : reconnaissance des 10 chiffres, par un dispositif électronique câblé, pour mono-
locuteur.
• 1960 : utilisation des méthodes numériques.
• 1965 : reconnaissance de phonèmes en parole continue.
• 1968 : reconnaissance de mots isolés par des systèmes implantés sur gros ordinateurs
(jusqu'à 500 mots).
• 1969 : utilisation d'informations linguistiques.
• 1971 : lancement du projet ARPA aux USA (15 millions de dollars) pour tester la
faisabilité de la compréhension automatique de la parole continue avec des contraintes
raisonnables.
• 1972 : premier appareil commercialisé de reconnaissance de mots.
• 1976 : fin du projet ARPA ; les systèmes opérationnels sont HARPY, HEARSAY I et
II et HWIM.
• 1978 : commercialisation d'un système de reconnaissance à microprocesseurs sur une
carte de circuits imprimés.
• 1981 : utilisation de circuits intégrés VLSI (Very Large Scale Integration spécifiques
du traitement de la parole.
• 1981 : système de reconnaissance de mots sur un circuit VLSI.
• 1983 : première mondiale de commande vocale à bord d'un avion de chasse en France.
• 1985 : commercialisation des premiers systèmes de reconnaissance de plusieurs
milliers de mots
• 1986 : lancement du projet japonais ATR de téléphone avec traduction automatique en
temps réel.
• 1988 : apparition des premières machines à dicter par mots isolés.
15
Chapitre 1-Reconnaissance Automatique de la Parole
Il existe différentes techniques d’analyse vocale, chacune d’elle est basée sur une forme
particulière du signal vocal. Elles peuvent être classées en deux grandes catégories :
• L’analyse temporelle.
• L’analyse fréquentielle
Les méthodes de type temporel, permettent d’extraire des informations du signal issu
directement du microphone. Parmi les techniques utilisées pour l’aspect temporel du signal
vocal afin de déduire ces paramètres, nous distinguons les méthodes suivantes : [CAL 89]
Il est intéressant d’étudier le signal vocal dans le domaine fréquentiel car l’étude dans ce
domaine permet de détecter les différentes zones formantiques des phonèmes qui sont
difficiles à observer dans le domaine temporel. Parmi les différentes techniques d’analyse
fréquentielle on peut citer: [BOI 87]
16
Chapitre 1-Reconnaissance Automatique de la Parole
- L’Apprentissage
- Le Test
Modèle
acoustique
Numérisation Analyse Apprentissage
Acoustique
Modèle de
langage et
lexicaux
1.6.1. La Numérisation
Pour être utilisable par un ordinateur, un signal doit tout d'abord être numérisé. Cette
opération tend à transformer un phénomène temporel analogique. La numérisation sonore
repose sur deux paramètres : la quantification et la fréquence d'échantillonnage.
La quantification définit le nombre de bits sur lesquels on veut réaliser la numérisation. Elle
permet de mesurer l'amplitude de l'onde sonore à chaque pas de L'échantillonnage. De plus,
cette quantification peut suivre une échelle linéaire ou logarithmique, cette dernière
privilégiant la résolution de la quantification pour les niveaux faibles au détriment des
niveaux forts.
17
Chapitre 1-Reconnaissance Automatique de la Parole
la moitié de fe. Un signal échantillonné à 16000 Hertz contient donc une bande de fréquences
allant de 0 à 8000 Hertz.
Ainsi, à partir d'un signal numérisé, nous devons extraire un nombre limité de paramètres
décrivant le signal, et qui conviennent au traitement automatique de la parole. Ces paramètres
peuvent être :
• Energies dans différentes bandes de fréquence (de 8 à 32 canaux allant de 100 à 7000 Hz)
• Coefficients cepstraux obtenus à partir d’une distribution spectrale de l’énergie sur une
échelle Mel, les MFCCs Mel Frequency Cepstral Coefficients (de 6 à 12 coefficients), ces
coefficients procurent de bonnes performance dans des conditions propres mais pas dans des
conditions de bruits.
1.6.3. L’apprentissage
Dans cette étape, il est nécessaire de faire l’entrainement à partir de la base de données
enregistré en procédant au préalable à la réalisation de :
• Modèles acoustiques, qui sont des modèles statistiques (selon le modèle choisi: HMM,
RNA, DTW, etc. exemple des HMMs de Phonèmes ou mots). Ces modèles sont entraînées
à partir d'une grande quantité de données de parole (par exemple, enregistrement de
nombreuses phrases) contenant plusieurs fois les différentes unités de parole dans plusieurs
contextes phonétiques différentes.
Les techniques stochastiques sont actuellement les plus utilisées pour la modélisation
acoustique de la parole. En effet, ce sont celles qui ont permis d'obtenir les meilleurs
18
Chapitre 1-Reconnaissance Automatique de la Parole
résultats en reconnaissance de mots isolés, mots enchaînés et parole continue dans des
conditions de laboratoire ou en environnement non bruité. En revanche, dans des
conditions réelles de traitement de la parole (milieu bruité, parole spontanée,
prononciations diverses et variées ...), les performances obtenues par ces techniques sont
fortement dégradées.
• Modèles lexicaux, qui sont des modèles des mots de la langue. Les modèles les plus
simples sont fournis par un dictionnaire phonétique; les plus complexes sont des véritables
automates probabilistes, capables d'associer une probabilité à chaque prononciation
possible d'un mot. Ces modèles possèdent toutes les prononciations possibles de chaque
mot du dictionnaire.
• Un modèle de langage, qui associe une probabilité à toute suite de mots présents dans le
lexique. Ce modèle est entraîné sur une base de texte.
1.6.4. La Reconnaissance
Dans cette phase l’objectif est de décoder le signal de test et de déterminer les unités lexicales
prononcées, mots, phrase ou autres correspondant le mieux à la phrase prononcée parmi
toutes les phrases possibles, de ce fait elle devra faire appel au modèle acoustique et de
langage et des modèles lexicaux afin de prendre une décision. Par exemple dans le cas de la
modélisation avec les HMMs, la reconnaissance se fait en faisant appel à l’algorithme de
Viterbi qui donne pendant la phase de reconnaissance le chemin le plus probable des états et
donc les classes sonores à chaque instant.
19
Chapitre 1-Reconnaissance Automatique de la Parole
I : nombre d’insertion.
D : nombre de suppression.
S : nombre de substitutions.
Les performances d’un système de reconnaissance de la parole est exprimé en terme de Taux
d’erreur de mots (word error rate, E), définie comme:
A la fin des années 1980, les structures des systèmes de RAP convergent vers une conception
utilisant les modèles de langages statistiques (n-gram), les modèles acoustiques stochastiques
(HMM) et le décodage par l'algorithme de Viterbi. Cette structure perdurera durant les deux
20
Chapitre 1-Reconnaissance Automatique de la Parole
La procédure générale pour la reconnaissance de parole avec un système de RAP basé sur des
modèles HMM est illustrée dans la figure1.3. La première étape dans cette procédure est la
paramètrisation du signal de parole qui consiste à extraire des paramètres pertinents. La
seconde étape est la reconnaissance proprement dite : le décodage par l'algorithme de Viterbi.
Les modèles acoustiques, de prononciation et de langage sont utilisés dans cette deuxième
étape. [BOU 08]
1.8.1. Paramétrisation
Le signal de parole (échantillonné) est découpé en fenêtres recouvrantes. Sur chacune de ces
fenêtres, la paramètrisation MFCC est effectuée en quatre étapes principales, comme
21
Chapitre 1-Reconnaissance Automatique de la Parole
illustrées par la figure 1.4. La première étape consiste à appliquer une transformation de
Fourrier discrète, transposant le signal du domaine temporel vers le domaine spectral [BRA
99]. Un filtrage est ensuite appliqué sur le spectre en utilisant un banc de filtres avec une
échelle de Mel. L'étape suivante consiste à appliquer la fonction logarithme aux coefficients
en sortie du banc de filtres. Enfin, on applique une transformation en cosinus discrète (DCT,
Discrète Cosine Transform).
Dans un système de RAP, le rôle du modèle de langage est de coder les règles syntaxiques du
langage parlé de manière statistique. Plus généralement, le modèle de langage définit les
phrases, ou suites de mots, que le système de RAP peut reconnaître. De plus, il incombe au
modèle de langage d'estimer la probabilité d'apparition de toute une suite de mots
(w1,w2,…wm) présents dans le vocabulaire V (lexique). Plus précisément, le modèle de
langage estime la probabilité d'un mot wm connaissant tous les mots qui le précèdent
(w1,w2,…wm-1). La probabilité d'apparition de la suite de mots (w1,w2,…wm) est estimée selon
l'équation (1.1).
Les modèles de langage les plus utilisés sont les modèles dit n-gram. Dans cette catégorie de
modèles de langage, l'historique pris en compte dans les probabilités conditionnelles
d'apparition des mots est restreint à n-1. Ces modèles estiment la probabilité d'apparition d'un
mot wn connaissant les n-1 mots qui le précèdent (w1,w2,…wn-1), i.e. P(wn\w1,w2,…,wn-1).
22
Chapitre 1-Reconnaissance Automatique de la Parole
La probabilité d'apparition d'une suite de mots (w1,w2,…wm) est approximée selon l'équation
(1.2). La restriction du nombre de mots dans les conditions des probabilités conditionnelles
permet de réduire considérablement la complexité du modèle de langage.
Les modèles n-gram sont appris sur un large corpus textuel représentatif du langage de
l'application cible. Les probabilités d'apparition des mots sont estimées au maximum de
vraisemblance selon l'équation 1.3. Il existe des procédés plus complexes d'élagage et de prise
en compte d'événements n'apparaissant pas dans le corpus d'apprentissage.
,,…,
P (wn\w1,…,wn-1)= (1.3)
,…,
Un HMM est un automate stochastique qui modélise un processus Markovien à temps discret.
Un processus Markovien est un système qui émet des observations au cours du temps et qui
possède un ensemble dénombrable S= {s1, s2…..sn} états internes. A l'instant t =0 : un
processus de Markov se trouve à l'état interne Si avec une probabilité πi. L'ensemble des
probabilités initiales est noté ∏ π1,..πn, il vérifie ∑ .. 1. L'émission d'une
observation Ot à l'instant t, par un processus Markovien suit une loi de probabilité
23
Chapitre 1-Reconnaissance Automatique de la Parole
bi (ot)= P(ot\Xt=si) qui ne dépend que de l'état Xt dans lequel il se trouve à cet instant. Après
avoir émis une observation, un processus de Markov change d'état avec une probabilité
P (Xt+1= si\X1,X2,…,Xt). Afin de simplifier la modélisation et les mécanismes d'apprentissage,
on utilise des processus de Markov d'ordre 1 où l'état interne à l'instant suivant ne dépend que
de l'état interne qui le précède P (Xt+1=s\X1,X2,…,Xt) ≈ P(Xt+1=s\Xt) . Si les transitions entre
les états du processus de Markov ne dépendent pas du temps, le processus est dit homogène et
on peut définir une matrice de transition A de dimension n2, dont les éléments sont
aii=P (Xt+1 = si \Xt = si). Le modèle HMM est alors défini par l'ensemble de paramètres
(S, A, bi(.), П).
Dans les systèmes de RAP analytiques, les phonèmes sont modélisés par des HMM à
topologie "gauche droite", comme l'illustre la figure 1.5. Généralement, les lois de probabilité
d'émission d'observations par un état s d'un processus de Markov sont modélisées par des
mélanges de lois gaussiennes. La probabilité d'émission d'un état de HMM modélisé par un
GMM est donnée en équation (1.4).
Dans un système, la phase de reconnaissance est effectuée par l'algorithme de Viterbi. Etant
donné une séquence de vecteurs d'observations acoustiques O = {o1, o2,…, oT} et les modèles
acoustiques, de prononciation et de langage, il s'agit de retrouver la suite de mots W* qui
maximise la probabilité P (W/O) selon l'équation (1.5). Par la règle de Bayes, cette probabilité
se réécrit en (1.6). Dans cette équation, la probabilité de la séquence O ne dépend pas de la
24
Chapitre 1-Reconnaissance Automatique de la Parole
La RAP est sujette à plusieurs problèmes, il est nécessaire de cerner et de comprendre les
différents niveaux de complexités et les différents facteurs qui en font un problème difficile.
25
Chapitre 1-Reconnaissance Automatique de la Parole
La cause principale des différences inter-locuteurs est de nature physiologique. La parole est
principalement produite grâce aux cordes vocales qui génèrent un son à une fréquence de
base. Cette fréquence de base sera différente d’un individu à l’autre et plus généralement d’un
genre à l’autre, une voix d’homme étant plus grave qu’une voix de femme, la fréquence du
fondamental étant plus faible. Ce son est ensuite transformé par l’intermédiaire du conduit
vocal, délimité à ses extrémités par le larynx et les lèvres. Cette transformation, par
convolution, permet de générer des sons différents qui sont regroupés selon des classes. Or le
conduit vocal est de forme et de longueur variables selon les individus et, plus généralement,
selon le genre et l’âge. Ainsi, le conduit vocal féminin adulte est, en moyenne, d’une longueur
inférieure de 15% à celui d’un conduit vocal masculin adulte. Le conduit vocal d’un enfant en
bas âge est bien sûr inférieur en longueur à celui d’un adulte. Un même phonème pourra avoir
des réalisations acoustiques très différentes.
Le système est-il dépendant du locuteur c’est à dire optimisé pour un locuteur bien
particulier ou pouvant reconnaître n'importe quel utilisateur (Indépendant du locuteur)?
Mais la variabilité inter-locuteur, malgré son importance évidente, n’est pas encore la
variabilité la plus importante car les différences au sein des classes phonétiques sont en
nombre restreint. L’environnement du locuteur est porteur d’une variabilité beaucoup plus
importante.
La variabilité liée à l’environnement peut, parfois, être considérée comme une variabilité
intra-locuteur mais les distorsions provoquées dans le signal de parole sont communes à toute
personne soumise à des conditions particulières. La variabilité due à l’environnement peut
26
Chapitre 1-Reconnaissance Automatique de la Parole
également provoquer une dégradation du signal de parole sans que le locuteur ait modifié son
mode d’élocution. Cette variation est considérée comme du bruit.
Le bruit ambiant peut ainsi provoquer une déformation du signal de parole en obligeant le
locuteur à accentuer son effort vocal. Les moyens de transport peuvent également entraîner
d’autres déformations du signal, d’origine psychologique. Enfin, le stress et l’angoisse que
certaines personnes finissent par éprouver lors de longs voyages peuvent également être mis
au rang des contraintes environnementales susceptibles de modifier le mode d’élocution.
Un locuteur même entraîné ne peut prononcer plusieurs fois une même séquence vocale avec
exactement le même rythme et la même durée. Les échelles temporelles de deux occurrences
d’un même mot ne coïncident donc pas, et les formes acoustiques ne peuvent être comparés
point à point.
Evidemment, les systèmes dépendants du locuteur sont caractérisés par de meilleurs taux de
reconnaissance que les systèmes indépendants du locuteur étant donné que la variabilité du
signal de parole est plus limitée. Cette dépendance au locuteur est cependant acquise au prix
d'un apprentissage spécifique à chaque utilisateur.
Dans les systèmes indépendants du locuteur la base de données est obtenue par l'acquisition
de nombreux locuteurs qui sont utilisés simultanément pour l'entraînement de modèles
susceptibles d'en extraire toutes les caractéristiques majeures. Par exemple, dans le cas
d'applications téléphoniques, il est évident que les systèmes doivent donc être indépendants
du locuteur pour pouvoir être utilisés par n'importe qui.
Le locuteur marque explicitement une pose entre chaque mot pour permettre une
identification aisée des frontières de mots.
Des mots isolés bien séparés par des périodes de silence sont plus simples à reconnaître que
des séquences de mots constituant une phrase. En effet, Dans ce dernier cas, non seulement la
frontière entre mots n'est plus connue mais, de plus, les mots deviennent fortement articulés
(ce qui veut dire que la prononciation de chaque mot est affectée par le mot qui précède ainsi
27
Chapitre 1-Reconnaissance Automatique de la Parole
que par celui qui suit un exemple simple et bien connu étant les liaisons du français) ou
également le cas en arabe.
Le niveau de complexité varie également selon qu'il s'agisse de texte lu, de texte parlé ou,
beaucoup plus difficile, de langage naturel avec ses hésitations, phrases grammaticalement
incorrectes, faux départs, etc. le cas du langage naturel étant le plus difficile.
Un autre problème qui concerne la reconnaissance de mots clés en parole libre. Dans ce cas,
le vocabulaire à reconnaître est relativement petit et bien défini mais le locuteur n'est pas
contraint de parler en mots isolés. Par exemple, si un utilisateur est invité à répondre par « oui
» ou « non », il peut répondre « oui, merci ».
Les petits vocabulaires sont évidemment plus faciles à reconnaître que les grands
vocabulaires, étant donné que dans ce dernier cas, les possibilités de confusion augmentent.
Certains petits vocabulaires peuvent cependant s'avérer particulièrement difficiles à traiter;
ceci est le cas, par exemple des mots très courts et acoustiquement proches comme les lettres
de l'alphabet.
1.9.3. Fonctionnement
Les premiers succès en reconnaissance vocale ont été obtenus dans les années 70 à l’aide d’un
paradigme de reconnaissance de mots «par l’exemple». L’idée, est très simple dans son
principe, elle consiste à faire prononcer un ou plusieurs exemples de chacun des mots
susceptibles d’être reconnus, et à les enregistrer sous forme de vecteurs acoustiques
(représentation numérique du signal sonore). L’étape de reconnaissance proprement dite
28
Chapitre 1-Reconnaissance Automatique de la Parole
consiste alors à analyser le signal inconnu sous la forme d’une suite de vecteurs acoustiques
similaires, et à comparer la suite inconnue à chacune des suites des exemples préalablement
enregistrés. Le mot «reconnu» sera alors celui dont la suite de vecteurs acoustiques (le
«spectrogramme») colle le mieux à celle du mot inconnu. Il s’agit en quelque sorte de voir
dans quelle mesure les spectrogrammes se superposent.
Ce principe de base n’est cependant pas implémentable directement : un même mot peut en
effet être prononcé d’une infinité de façons différentes, en changeant le rythme de l’élocution.
Il en résulte des spectrogrammes plus ou moins distordus dans le temps. La superposition du
spectrogramme inconnu aux spectrogrammes de base doit dès lors se faire en acceptant une
certaine «élasticité» sur les spectrogrammes candidats. Cette notion d’élasticité est formalisée
mathématiquement par un algorithme nommé : l’algorithme DTW (Dynamic Time Warping
ou déformation dynamique temporelle).
On comprend donc qu’une telle technique soit limitée par la taille du vocabulaire à
reconnaître (une centaine de mots tout au plus) et qu’elle soit plus propice à la reconnaissance
mono-locuteur (une reconnaissance multi-locuteur imposerait d’enregistrer, de stocker, et
surtout d’utiliser pour la comparaison de nombreux exemples pour chaque mot).
Les résultats obtenus, dans le contexte mono-locuteur/petit vocabulaire, sont aujourd’hui
excellents (proches de 100%) mais ne correspondent pas aux attentes actuelles en matière de
reconnaissance vocale.
La plupart des systèmes de reconnaissance de la parole sont de nos jours basés sur ce mode là.
Dés que l’on cherche à concevoir un système réellement multi-locuteur, à plus grand
vocabulaire et s’adaptant facilement à une application, il devient nécessaire de mener la
reconnaissance sur base d’unités de parole de plus petite taille, que l’on appelle phonèmes. En
effet, la parole est constituée d'une suite de sons élémentaires : «a», «é», «ss». Ils sont
produits par la vibration des cordes vocales. Ces sons mis bout à bout composent des mots.
On ne se contente plus alors d’exemples de ces unités, mais on cherche plutôt à en déduire un
modèle (un modèle par unité), qui sera applicable pour n’importe quelle voix.
Les systèmes de RAP sont généralement conçus pour la RAP de la langue cible canonique.
Les accents des locuteurs non-natifs ne sont généralement pas pris en compte. Les
performances des systèmes de RAP chutent grandement face à ces accents étrangers.
29
Chapitre 1-Reconnaissance Automatique de la Parole
1.10.1. Définition
La "parole non-native" est définie comme étant la parole d'un locuteur parlant dans une
langue qui n'est pas sa langue maternelle. Dans la définition précédente, on dit que le locuteur
est un "locuteur non-natif ". La langue dans laquelle s'exprime un locuteur non-natif est dite
"langue parlée", "langue étrangère" ou encore "langue cible". La langue d'origine d'un
locuteur non-natif est dite "langue maternelle".
Comme décrit dans [COM 01], chaque langue humaine utilise un petit nombre de sons
(phonèmes) parmi les sons que l'appareil articulatoire humain est capable de produire. Chaque
langue possède "un répertoire de sons" répartis dans des régions de l'espace acoustique. Ce
répertoire de sons peut différer d'une langue à l'autre, et certains sons peuvent apparaître dans
une langue et être absents dans une autre.
Les travaux de [GIR 07] montrent que les cortex cérébraux auditif (décodage et production de
sons) et moteurs (mouvements des articulateurs) sont fortement liés. Les locuteurs humains
sont habitués à produire et à reconnaître les sons de leur langue maternelle. Leurs appareils
articulatoires sont entraînés à vocaliser les sons du répertoire de leur langue maternelle. D'un
point de vue perceptif, leurs appareils auditifs sont capables de discerner les fines variations
sonores qui sont pertinentes dans leur langue d'origine.
Toutefois, certains locuteurs peuvent percevoir des sons acoustiquement éloignés d'une
langue étrangère comme étant identiques car la différenciation de ces sons n'est pas pertinente
dans leur langue maternelle. De la même manière, en parlant une langue étrangère, certains
locuteurs peuvent produire des sons identiques pour des phonèmes acoustiquement éloignés.
Les locuteurs non-natifs remplacent parfois des sons difficiles à prononcer par d'autres sons
de leur langue maternelle qu'ils considèrent proches. Ces substitutions de phonèmes
apparaissent le plus souvent dans le cas où les phonèmes à prononcer n'existent pas dans la
langue d'origine des locuteurs. D'une manière générale, les erreurs de prononciations
produites par les locuteurs non-natifs dépendent du couple (langue maternelle, langue parlée)
et du niveau de maîtrise de la langue cible.
30
Chapitre 1-Reconnaissance Automatique de la Parole
D'autre part, les locuteurs non-natifs peuvent commettre des erreurs au niveau syntaxique et
grammatical. Les phrases non-natives peuvent contenir des erreurs d'accord en genre et en
nombre des verbes et adjectifs. Des mots connecteurs ainsi que les conjonctions de
coordinations peuvent être mal utilisés. De plus, la parole non-native peut contenir des mots
n'appartenant pas à la langue cible, tels que des mots empruntés à la langue maternelle.
La parole non-native diffère de la parole native (canonique) par le fait qu'elle peut contenir des
erreurs de prononciation.
Les locuteurs non-natifs ont tendance à prononcer les phonèmes d'une manière similaire à leur
langue maternelle. Ces erreurs de prononciation ont un impact négatif sur les performances
des systèmes de reconnaissance automatique de la parole. Cette chute de performances est un
problème bien connu dans la littérature. Le tableau 1.1 illustre cette chute de performance pour
un système de RAP anglaise. Il s'agit ici de reconnaître des phrases en langue anglaise
prononcées par différents locuteurs. Les locuteurs dont l'anglais est la langue maternelle sont
d'origine Anglaise et Canadienne. Les locuteurs non-natifs sont d'origine Française, Italienne,
Grecque et Espagnole. Nous pouvons observer dans ce tableau que le taux d'erreurs du
système augmente fortement avec la parole non-native.
Tableau 1.1. Comparaison des performances d'un système de RAP anglaise entre la parole native et non-
native (les taux d'erreurs sont exprimés en %)
Le type de ces erreurs ainsi que leur fréquence dépendent de la langue maternelle des
locuteurs ainsi que de leur capacité à reproduire l'accent et les tonalités de la langue cible.
31
Chapitre 1-Reconnaissance Automatique de la Parole
Les variations de prononciation dans la parole non-native sont plus marquées que dans la
parole canonique,
Comme nous l'avons décrit précédemment, les locuteurs non-natifs ont tendance à prononcer
les phonèmes de la langue cible d'une manière similaire à celle de leur langue maternelle.
D'autre part, certains phonèmes de la langue cible sont remplacés par des phonèmes de la
langue maternelle. Plusieurs travaux dans le domaine de la reconnaissance de la parole non-
native se basent sur la détection et la prise en compte de ces erreurs de prononciation des
phonèmes ([YOO 06], [TOM 01], [SCH 03], [LIV 00], [WAN 03], [MOR 04]). Une " matrice
de confusions phonétiques" est une structure associant à chaque phonème de la langue cible,
une ou plusieurs réalisations non-natives possibles affectées d'une probabilité. Les "matrices
de confusions phonétiques" peuvent être classifiées selon la manière dont elles sont
construites, les ensembles de phonèmes qu'elles utilisent et la manière dont les réalisations
non-natives sont exprimées.
Pour la RAP non-native, le cas idéal serait de disposer d'un corpus de parole non-native
pour chaque couple de langues parlée/maternelle. Il serait ainsi possible d'entraîner des
modèles acoustiques spécifiques et appropriés pour la reconnaissance de la parole non-
native pour chacun de ces couples de langue. Malheureusement, l'acquisition de tels
corpus pourrait s'avérer impossible étant donné le coût financier et le temps que cela
nécessiterait. Dans [TOM 01], les auteurs utilisent un corpus contenant de la parole
32
Chapitre 1-Reconnaissance Automatique de la Parole
canonique de la langue cible ainsi que de la parole non-native afin d'entrainer des modèles
non-natifs. Ces modèles sont susceptibles de gérer l'accent canonique de la langue cible
et l'accent étranger des locuteurs non-natifs. Les auteurs ont observé une amélioration
de la performance de reconnaissance pour les locuteurs non-natifs avec cette approche, en
comparaison avec les modèles acoustiques canoniques de la langue cible. Cette approche
a l'avantage d'utiliser un corpus de parole non-native de petite taille. Toutefois, pour
prendre un compte un nouvel accent non-natif, il est nécessaire de recommencer le
processus d'entraînement des modèles acoustiques depuis le début.
33
Chapitre 1-Reconnaissance Automatique de la Parole
Les procédés de ces méthodes classiques sont similaires dans le sens où l'on utilise un
certain nombre d'enregistrements sonores afin de modifier (ré-estimer) les paramètres des
modèles acoustiques pré-entrainés.
Dans le cas de l'adaptation MLLR, l'ensemble des gaussiennes constituant les modèles
acoustiques sont préalablement classifiées en un ensemble de groupes selon un critère de
proximité prédéfini. A la phase d'adaptation, une transformation différente est calculée
pour chaque groupe de gaussiennes. Ces transformations sont calculées à travers
l'algorithme EM (Expectation Maxi-misation) et visent à maximiser la probabilité
d'émission des échantillons d'adaptation par les modèles acoustiques concernés.
34
Chapitre 1-Reconnaissance Automatique de la Parole
35
Chapitre 1-Reconnaissance Automatique de la Parole
1.11. Conclusion
La parole est la faculté naturelle de s’exprimer et de communiquer la pensée, les idées et les
émotions par un système de sons articulés ; c’est le moyen de communication privilégié entre
les humains qui sont les seuls à utiliser un tel système structuré.
36
Chapitre 2
Enseignement de la
Prononciation basé
RAP.
Chapitre 2- Enseignement de la prononciation basé RAP
2.1. Introduction
L’apprentissage des langues assisté par ordinateur s’impose comme une nécessité dans un
monde où les distances ont été réduites par les ouvertures économiques. Toutefois, plus que
l’aspect classique de cet apprentissage qui est plus lié aux activités du TALN (grammaire,
orthographe, …) c’est l’expression orale et en premier lieu l’apprentissage de la prononciation
qui est le plus requis dans l’apprentissage des langues.
En effet, l’état de l’art des systèmes d’apprentissage de la prononciation basés sur la RAP
montre que ces systèmes empruntent la technologie des modèles de Markov cachés aux
systèmes de la RAP, pour construire le système de reconnaissance. Le résultat produit par le
système de reconnaissance est ensuite utilisé pour évaluer la prononciation de l’apprenant.
38
Chapitre 2- Enseignement de la prononciation basé RAP
Prononcer :
1. Articuler : prononcer les mots.
2. Dire, débiter : prononcer un discours.
3. Déclarer avec autorité : prononcer un arrêt. (p. 629)
On voit bien ici que Prononcer, dans un de ses sens, semble synonyme de Articuler.
Articuler :
1. Faire entendre distinctement des sons, les syllabes des mots, à l’aide des organes
de la parole. (p. 49)
Apparaît alors ici le pendant audio-acoustique de la prononciation, puisqu’il s’agit de « faire
entendre distinctement ». La structure « faire entendre » implique bien un «entendant » : celui
qui articule, ou bien une autre personne, son interlocuteur.
Il n'existe pas une prononciation tout à fait « correcte». Une grande variété de prononciations
peut être acceptée par des locuteurs natifs comme étant correcte, par exemple, envisager la
multitude de dialectes au sein de la plupart des langues.
De même, la façon dont l'accent est perçu dépend d'une situation donnée et de l'exposition
antérieure des auditeurs pour les personnes avec un accent. Un large champ d'expériences
39
Chapitre 2- Enseignement de la prononciation basé RAP
psycholinguistiques a été exécutée afin d'étudier comment les auditeurs perçoivent des
accents étrangers.
Bien que la prononciation puisse varier considérablement au sein d'une langue et chaque
variante de prononciation est acceptée comme «native», l'enseignement des langues devrait
être limité à un seul type de prononciation, par exemple Standard Southern British English,
L’Arabe Standard…etc, de sorte qu'un étudiant en langue apprendra à parler d'une manière
compatible. L'enseignement d'une seule variante d'une langue est justifié, parce que les
locuteurs natifs ne parlent généralement aussi qu’une variante d'une langue, et dans la plupart
des cas, ils peuvent toujours communiquer avec d'autres locuteurs de la même langue
maternelle. [WIT 99]
Chaque langue est caractérisée par un ensemble distinct de phonèmes. Lors de l'apprentissage
d'une nouvelle langue, les étudiants étrangers peuvent diviser les phonèmes de la langue cible
en deux groupes. Le premier groupe contient les phonèmes qui sont similaires à ceux de
sa/son langue source. Le second groupe contient les phonèmes qui n'existent pas dans la
langue source. L'enseignement de la prononciation des caractéristiques segmentales signifie
donc l'enseignement de la prononciation correcte des phonèmes de la langue cible, à la fois
dans l'isolement et dans le contexte des autres phonèmes, c'est à dire dans les mots ou les
phrases. Même si un phonème isolé est reconnu, de nouvelles langues contiennent souvent
des groupes de phonèmes qui n'existent pas dans la langue source, de sorte que la
prononciation de ces groupements peut ainsi exiger une formation.
40
Chapitre 2- Enseignement de la prononciation basé RAP
Avant que les méthodes d'enseignement de prononciation assisté par ordinateur puissent être
imaginées, il est important de reconnaître les difficultés spécifiques rencontrées dans
l'enseignement de la prononciation:
Toutes ces raisons indiquent que l’enseignement de la prononciation assisté par ordinateur
n'est pas seulement souhaitable pour des produits d’auto-enseignement, mais aussi pour les
produits qui viendrait compléter les outils pédagogiques d’aide disponibles pour un professeur
de langue. [WIT 97]
41
Chapitre 2- Enseignement de la prononciation basé RAP
Selon la raison pour lequel quelqu'un étudie une langue étrangère, les objectifs
d'apprentissage peuvent varier considérablement. Quelqu'un pourrait vouloir apprendre les
notions basiques d'une langue afin d'être en mesure de communiquer pendant des vacances
dans un pays étranger. Quelqu'un d'autre pourrait vouloir apprendre une langue pour être en
mesure de négocier des affaires d'entreprise.
En totalité, le niveau souhaité de maîtrise peut varier dans une large mesure entre la
communication dénudée et la maîtrise comme étant natifs. Cependant, comme il est bien
connu au sein de la communauté psycholinguistique que la réalisation de la prononciation
comme les natifs nécessite d'énormes efforts d'apprentissage des apprenants adultes, un
objectif commun à la plupart des apprenants d'une langue étrangère est de parvenir de manière
intelligible et confortable.
Un autre objectif devrait également être envisagé est d'enseigner une version de la langue
cible qui est socialement acceptable pour les étudiants. Par exemple, dans les pays où l'anglais
est une langue d’affaires et d'administration, l'objectif serait d'enseigner une variante locale de
l'anglais et non pas l’anglais selon la norme Southern British English par exemple. Enfin, un
but d'enseignement de la prononciation doit être affiné pour les besoins individuels de l'élève.
L’un des principaux problèmes dans l’apprentissage des langues est d’apprendre la bonne
prononciation, et dans le but de simplifier ça, il y avait beaucoup d’efforts pour informatiser
les méthodes d’enseignement en tenant compte aux recommandations pédagogiques
nécessaires pour l’entrainement de la prononciation d’une seconde langue. Les systèmes
d’EPAO étaient le résultat de cet effort là, ils s’agissent de logiciels interactifs désignés pour
aider les étudiants de L2 à améliorer leur prononciation dans leur propre environnement selon
leurs propres rythmes.
D’après certaines études [MUR 99], l’intimité offerte par ces environnements peut aider à
réduire l’inquiétude de la langue étrangère, ce qui est un phénomène fortement lié aux
facteurs de jugement social [YOU 90], et ainsi ils favorisent indirectement l’apprentissage.
42
Chapitre 2- Enseignement de la prononciation basé RAP
De plus, les profiles des étudiants peuvent être sauvegardés par les systèmes dans un fichier
pour qu’ils puissent contrôler les problèmes et superviser les améliorations, l’enseignant aussi
peut consulter ces fichiers et suggérer les étapes de réparation appropriées. [NER 07]
Les systèmes CAPT qui sont disponibles aujourd’hui fournissent généralement des inputs
oraux abondants. Certains systèmes –vraisemblablement essayent d’économiser l’espace
disque et de compresser le package dans un seul CD-ROM, et d’utiliser le reste pour
accompagner l’information fournie oralement ou dans des nuages de texte [ILT 97], [AUR
00]. Plusieurs systèmes fournissent aussi des informations sur comment la parole désirée doit
être produites, en expliquant comment les articulateurs doivent être positionnées. Ceci peut
être fait à l’aide d’une représentation 3D d’une bouche produisant la parole, accompagnée des
fois par des explications écrites [AUR 00], [GLE 01], ou par les vidéos des parleurs natifs
prononçant les mots désirés [GLE 01], [NIE 02], [EUR 02]. Mais les animations et les vidéos
restent toujours les plus préférés : quand les animations de la bouche fournissent des signaux
visuels précis et réalistes des sons simples, les fragments du film vont inclure aussi des
informations sur les expressions faciales et les gestes qui accompagnent les actes de la parole
de la L2, et elles fournissent aussi une information sur la fonction pragmatique. De plus, la
recherche à indiquer que l’utilisation des matériels multimédia digitale peut servir
l’apprentissage des langues, car ils semblent authentiques et séduisants. Mais un système qui
fournit seulement l’input et entraine seulement les capacités réceptives sera considéré limité
d’après la perspective de l’apprentissage des langues.
C’est pour ça, la plupart des systèmes d’EPAO courants ont été désignés pour stimuler
l’utilisateur à produire une parole qui peut être enregistrée par la suite et on peut la relire.
C.à.d. l’étudiant peut examiner son propre output et essayer de l’améliorer après l’avoir
comparer avec un modèle de parole préenregistré. Le problème principal pour de tels
systèmes et que la plupart des étudiants ont des difficultés pour évaluer leurs propres
prononciations, et donc ils auront besoin d’un feedback externe.
D’autre part, les systèmes qui nécessitent un enseignant pour écouter aux enregistrements et
de les évaluer souffrent des rapports enseignant-étudiant défavorables, comme dans les
classes des langues dans les écoles et les universités (ex. Nieuwe Buren 2002). De plus les
43
Chapitre 2- Enseignement de la prononciation basé RAP
fonctionnalités offertes par ces systèmes ne sont pas innovantes si on les compare à ceux
employées dans les labos des langues traditionnels.
Malgré les efforts de recherche considérables qui ont été investis dans le développement de
systèmes d’enseignement de langues étrangères assisté par ordinateur, peu d'attention a été
accordée à l'enseignement de la prononciation. Cette composante de l'enseignement des
langues a l'inconvénient que ce n'est pas possible de traiter et d'évaluer toute réponse orale
d'un élève en utilisant les moyens standards d'interaction tels que le clavier et la souris. En
outre, contrairement aux exercices de grammaire ou de vocabulaire où il existe clairement de
bonnes ou de mauvaises réponses définies, dans les exercices de prononciation il n'existe pas
de bonne ou de mauvaise réponse claire. Un grand nombre de différents facteurs contribuent à
la qualité globale de prononciation et ils sont également difficiles à mesurer. Ainsi, la
transition de la pauvre vers la bonne prononciation est progressive, et toute évaluation doit
être également présentée sur une échelle graduée.
44
Chapitre 2- Enseignement de la prononciation basé RAP
Dans la fin des années 90, l'enseignement de la prononciation assisté par ordinateur en
utilisant la RAP est devenu un domaine d'une grande importance. En 1999, un programme de
CAL1CO appelé « Tutors that listen » est apparu, et qui a été basé sur « la RAP discrète »,
i.e. la reconnaissance de mots individuels prononcés avec des pauses entre eux. Depuis cela,
des plus grandes expectations ont été attendues par les chercheurs et les enseignants des
langues. Le bonus majeur de ces systèmes était : la provision d'un feedback individuel,
instantané et automatique de la prononciation.
Les experts de ce domaine voient les feedbacks automatiques comme cruciaux pour aider les
apprenants à être plus conscient de leurs erreurs de prononciation, tandis que les enseignants
sont considérés comme des moyens limités en temps.
Dans les systèmes CAPT (Computer Assisted Pronunciation Training) basés sur la RAP, le
feedback est fourni à chaque étudiant en temps réel par la machine en utilisant à travers des
écouteurs et une information visuelle affichée sur l'écran et ainsi, il éliminera le problème de
la contrainte de temps et le jugement social trouvé dans les classes classiques. [NER 07]
Pour bien comprendre les capacités et les limitations des systèmes CAPT basés-RAP, il faut
comprendre comment ces deux systèmes fonctionnent.
45
Chapitre 2- Enseignement de la prononciation basé RAP
implémenté dans les systèmes de dictée pour convertir la parole en une chaine de mots
présentés orthographiquement, et il peut être considéré comme une version simplifiée de la
technologie trouvée dans les systèmes CAPT basés-RAP. [NER 07]
Comme on a déjà vu, le but d'un RPC est de convertir un signal acoustique en une chaine de
mots. Le fonctionnement d'un système CAPT basé-RAP est représenté schématiquement par
les quatre étapes suivantes :
46
Chapitre 2- Enseignement de la prononciation basé RAP
47
Chapitre 2- Enseignement de la prononciation basé RAP
2.4.2.4. Le feedback
L'information mentionnée jusqu'à maintenant est d'une forme numérique, donc pour qu'elle
soit compréhensible pour l'apprenant et ainsi pédagogiquement utile, cette information doit
être traduite en quelque sorte d'un feedback intuitif. Bien que la présentation d'un feedback
n'est pas le sujet de la technologie de la RAP, elle est très importante pour le design de
l'interface d'utilisateur, ce qui aidera à augmenter l'efficacité des systèmes CAPT basés-RAP.
Parmi les avantages qu'un système CAPT basé-RAP peut fournir est : la capacité de
reconnaître correctement une prononciation non-native, de détecter des erreurs de
prononciations individuelles, et de fournir un feedback immédiat. Ce type de systèmes peut
aussi offrir plus de temps et de matériel d'apprentissage, et la possibilité d'entrainer
individuellement dans un environnement sans stress. De plus, ces systèmes peuvent inclure un
apprentissage basé-tache utilisant la stimulation d'activités à travers les jeux de rôles et les
dialogues interactifs. [NER 07]
Dans cette section, on va présenter comment la technologie de la RAP peut être employée
dans l'EPAO d'une façon utile. Pour faire ça, on va essayer de formuler des recommandations
concernant trois aspects importants des applications d'EPAO basé-RAP :
2) l'évaluation de la prononciation
3) le feedback.
48
Chapitre 2- Enseignement de la prononciation basé RAP
reconnaissance satisfaisante, et aux étudiants le sens qu'ils peuvent interagir avec le système
d'une façon très utile. [NER 07]
2.5.3. Le Lexicon
L'autre méthode adoptée pour améliorer la performance de la RAP est d'assurer que les
parleurs prononcent des mots existants dans le lexicon. Il y a plusieurs techniques pour faire
ça, par exemple : poser des questions à réponses fermées (quel est l'opposé du mot « bien » ?),
avoir des parleurs qui lisent les phrases à haute voix, ou désigner des dialogues de réponses
fermées avec le système, dans lesquelles l'étudiant peut choisir une réponse parmi un nombre
limité d'alternatives qui sont phonétiquement différentes.
Une autre manière pour assurer une meilleur performance de reconnaissance en jouant sur le
lexicon, et qui peut être spécialement importante pour la parole non-native, c'est d'inclure
pour un nombre d'entrées, des variantes de prononciation qui reflètent des mal prononciations
possibles des mots de la L2 : construire des règles décrivant des erreurs possibles faites par
des parleurs d'une première langue dans la L2, et ces règles seront sous-séquentiellement
49
Chapitre 2- Enseignement de la prononciation basé RAP
Dans cette phase, des modèles acoustiques natifs (qui sont moins tolérants) sont utilisés au
lieu de ceux adaptés, pour obtenir une indication sur le degré de similarité entre les
réalisations de l'étudiant en L2 dans la parole reconnue et les phonèmes désirés. En d'autres
50
Chapitre 2- Enseignement de la prononciation basé RAP
mots, le système va comparer entre la parole prononcée et les modèles natifs utilisés comme
une référence.
Cette tache a été décrite par les différents auteurs par des divers termes tel que : le scoring de
la prononciation, le classement de la prononciation, la détection des erreurs, localisation des
erreurs, etc. mais citée dans la plupart des études dans l'EPAO par l'estimation automatique de
la prononciation, ces termes sont utilisés inter-changeablement, mais parfois, ils peuvent
référer à différentes taches. Par exemple, pour « la détection des erreurs » et « le classement
de prononciation » : en général, la détection des erreurs (ou localisation) indique la procédure,
par laquelle un score de niveau local est calculé, mais le classement (ou le scoring) de la
prononciation indique la procédure suivie pour calculer un score global au niveau de la
parole.
Donc, un système d'EPAO peut fournir un feedback automatique plus utile sur la qualité des
paroles individuelles en se basant sur la similarité entre les modèles enregistrés et les paroles
prononcées, sachant que plus le domaine de calcul est grand, plus le nombre de points
d'observation est grand, et ainsi une plus grande fiabilité de mesures. D'autre part, il faut noter
que plus le feedback est détaillé à l'apprenant, plus le risque de faire des fautes par le système
et de fournir des feedbacks erronés augmente. [NER 07]
2.7. Le feedback
La notion exacte d’un feedback externe correctif est très loin d’être claire. Dans l’acquisition
de la L2, le terme concerne généralement l’information fournie par des parleurs natifs ou des
enseignants sur une expression non-ciblée appelé souvent « negative evidence » (preuve
négative), mais une définition plus détaillée manque, comme c’est le cas pour la classification
des différents types de feedback et leurs efficacités respective pour l’apprentissage. Dans les
systèmes CALL, le terme est principalement utilisé pour référer aux informations sur les
erreurs ou sur la performance d’une tache en général, et peut inclure même des scores comme
une forme d’estimation de succès, et il est parfois utilisé pour fournir des instructions,
explications ou des indices.
51
Chapitre 2- Enseignement de la prononciation basé RAP
Pour le « contenu », l'information sur les erreurs de prononciation à fournir doit respecter
quelques recommandations. Au début, il faut faire une sélection pour minimiser le nombre
d'erreurs sur lesquelles le feedback sera fourni. Cette sélection peut être faite aléatoirement,
mais il y a aussi d'autres critères spécifiques qui peuvent être définis pour maximiser encore
l'efficacité pédagogique de l'apprentissage, tel que la persistance de l'erreur (il y a des erreurs
qui disparaissent après l'exposition à la L2), la fréquence de l'erreur, la robustesse de la
détection des erreurs (il faut choisir les erreurs de prononciation qui sont détectées plus
fiablement).
D'autre part, à propos de la forme (ou la présentation) du feedback, ce dernier doit être
présenté d'une manière simple et claire à l'apprenant, tel que la coloration des erreurs en
rouge), au lieu d'utiliser des affichages complexes (spectogrammes, waveforms) ou des
symboles phonétiques. [NER 07]
Dans ce qui suit on va discuter quelques approches de feedback :
Certains systèmes d’EPAO fournissent des feedback instantanés sous forme d’affichage
graphique comme les spectrogrammes et les waveforms qui sont accompagnés d’un affichage
d’une expression modèle enregistrés précédemment et prononcé par l’enseignant ou par un
parleur natif. Donc, ici on va étudier les différentes formes d’affichage et les avantages et
inconvénients de chacune, et aussi leurs efficacités dans l’amélioration des compétences des
étudiants.
La recherche sur la prononciation a généralement montré que ces types d’affichage visuel,
s’ils sont couplés à des feedback auditoires, peuvent contribuer à améliorer la prononciation,
surtout en respectant l’intonation [DEB 83], [AND 92], [AKA 98]. L’efficacité de ces types
d’affichage est néanmoins discutable pour un certain nombre de raison. D’abord, pendant
l’attestation de l’utilité de l’affichage visuel, certaines recherches ont montré que les
améliorations remarquées après l’entrainement avec ce type de système pouvaient être le
résultat du fait que l’étudiant a consacré plus de temps pour s’exercer. Deuxièmement, ces
systèmes font une analyse pour le signal de la parole entrant sans reconnaître la sortie
52
Chapitre 2- Enseignement de la prononciation basé RAP
D’autre part, il y a des systèmes comme « talk to me » [TTM 02] et un autre plus complet
« Tell me more » [AUR 00], qui n’utilise pas les waveforms exclusivement comme feedback.
Ces systèmes fournissent un score global et marquent les mots mal-prononcés par une couleur
différente, et les waveforms sont justes utilisés pour impressionner les utilisateurs par leur
apparence attirante.
Un autre système plus développé, appelé « WinPitchLTL » (Germain) [RUT 00], [WIN 02],
a été développé par deux phonéticiens qui travaillaient sur la technologie et la pédagogie de
la parole. Ce système est capable d’analyser les paroles enregistrées par les courbes (sous
forme de waveform ou d’un spectrogramme). L’avantage principal de ce système est que
l’enseignant peut segmenter le signal pertinent par différentes couleurs dans la courbe
mélodique du spectrogramme, ce que rend les informations importantes facilement visibles et
accessibles pour les étudiants, mais le problème qui se pose ici est que le système ne peut pas
exécuter toutes les opérations automatiquement, comme sa technologie ne peut pas segmenter
un signal de parole complexe. En plus, l’efficacité d’un tel système est totalement liée à
l’enseignant : ce dernier doit être toujours disponible et doit avoir reçu précédemment un
entrainement suffisant dans la phonétique et l’acoustique et qui doit être capable de passer
cette information aux étudiant par l’édition du signal de la parole. [NER 07]
Les systèmes décris ci-dessus ont en commun que l’ordinateur produit une représentation
visuelle directe des signaux de la parole, mais toute interprétation ou manipulation est laissée
pour l’étudiant et/ou l’enseignant. Maintenant, on passe à d’autre types de systèmes qui ne
nécessitent pas une supervision continue par l’enseignant et qui laissent à l’ordinateur la tâche
53
Chapitre 2- Enseignement de la prononciation basé RAP
Vue cette limitation, les chercheurs ont eux besoin d’intégrer plus d’information et de détails
sur la performance orale de l’étudiant. Parmi les systèmes d’EPAO qui fournissent un type
de feedback similaire, même plus implicite et plus réaliste, sont les séries « Tell me more » et
« Talk to me » par Auralog [AUR 00], [TTM 02] qui permettent aux étudiants d’entrainer
leurs compétences communicatives à l’aide d’un nombre de dialogues interactifs avec
l’ordinateur. L’étudiant doit écouter une question orale qui est simultanément affichées sur
l’écran et choisir la bonne réponse parmi les trois propositions écrites qui sont
phonétiquement différentes. L’ordinateur doit reconnaître la prononciation de l’étudiant à
l’aide des techniques de la reconnaissance automatique de la parole, et passer à la
conversation suivante, et si l’ordinateur ne comprend pas l’étudiant, il lui demande de répéter
la réponse.
Le type de feedback fourni par un tel système semble être très efficace pour renforcer le
comportement de la prononciation correcte, comme il ressemble d’une façon réaliste au type
d’interaction fournit dans le cas d’un interlocuteur humain. Il encourage aussi l’inclusion le
54
Chapitre 2- Enseignement de la prononciation basé RAP
type d’interaction fournit dans les jeux d’apprentissage. Cependant, tous ces systèmes ne
peuvent rien faire si l’étudiant ne peut pas être intelligible quand il/elle ne peut pas prononcer
un certain son correctement, comme c’est le cas dans la prononciation de certaines voyelles en
Anglais.
Les chercheurs ont déclaré que seulement 25% des erreurs sont détectées par le système, et
que 5% des sons corrects sont incorrectement classés comme erreurs. Avec une telle
performance, les feedback qui seront erronés vont décourager les étudiants au lieu de leurs
donner des diagnostiques utiles [MEN 00]. Donc, les systèmes d’EPAO futurs qui utilisent la
reconnaissance automatique de la parole (RAP) pour détecter les erreurs de la prononciation
doivent concentrer sur les erreurs qui peuvent être détectées avec un grand degré de
robustesse, et aider à rendre disponible des paroles non –natives transcrites en différentes L2.
Néanmoins, même si la performance d’un système de RAP est optimisée, elle ne sera jamais
considérée comme parfaite, et ainsi les feedbacks erronés seront encore fournis de temps en
temps. [NER 07]
L'efficacité d'un système d'EPAO basé-RAP ne peut être prouvée qu'après son évaluation.
Dans ce qui suit, on va présenter quelques études pour mesurer l'efficacité de quelques
systèmes d'EPAO. Ces études se différent l'une de l'autre selon le type de système d'EAPO
considéré et l'architecture expérimentale adoptée, ce qui rend difficile de faire une décision
globale sur l'efficacité de l'approche EPAO basé-RAP.
En 2000, Mayfield Tomokyio, Wang et Eskenazi ont examiné l'amélioration faite par 16
étudiants universitaires avec différentes langues natives, pour apprendre la prononciation des
fricatives interdentales voisées non voisées /õ/ et /θ/.Tous les étudiants ont reçu deux heures
d'entrainement pour une période de deux ou trois semaines dans une situation d'immersion.
Un groupe de huit ont utilisé le système « Fluency », qui identifie les erreurs
automatiquement et offre des suggestions pour prononcer les phonèmes désirés correctement.
Le groupe de contrôle a reçu le même type d'entrainement par un enseignant. Après
l'évaluation des phonèmes, les résultats ont indiqués une réduction d'erreurs considérable pour
les fricatives dans les différents contextes phonétiques. Donc le type d'apprentissage offert par
Fluency est efficace et il peut être appliqué avec succès pour les autres phonèmes aussi.
L'efficacité du système « Talk to me » de Auralog a été évalué par Hincks (2003, 2005). Le
55
Chapitre 2- Enseignement de la prononciation basé RAP
feedback fourni par ce logiciel est constitué d'un score à 7 points sur la qualité de la
prononciation, une portion problématique de la parole prononcée colorée en rouge, et des
affichages représentant les courbes de la parole de l'apprenant. Mais les résultats n'étaient pas
satisfaisants, Hincks a expliqué que ces résultats négatifs sont dues à l'ambiguïté des
affichages (courbes).
Une autre étude plus récente faite sur PLASER (Pronunciation Learning via Automatic
Speech Récognition), qui est un système d'EPAO basé-RAP désigné pour des apprenants
Chinois d'Anglais, qui concentre sur la prononciation des phonèmes confondus. Le système
offre 20 leçons incluant des exercices d'écoute et de parole avec des instructions sur comment
articuler des phonèmes spécifiques. Et après l'avoir essayé par 900 étudiants pendant deux à
trois mois, les résultats ont été très satisfaisants.
Lorsqu’on tombe dans le cas où il n'y a aucune amélioration dans la prononciation comme
dans l'exemple de Hincks, beaucoup de questions se posent, tel que : y avait-il des problèmes
dans la procédure d'apprentissage ? Etc… il est clair que ce coté nécessite encore plus de
recherches, et qu’on ne peut pas répondre à ces questions dans un seul projet de recherche.
[NER 07]
2.9.1. Introduction
Dans cette recherche, nous constatons en premier lieu, que parmi les logiciels de langues, la
tendance majeure est de se focaliser sur l’apprentissage de la grammaire, la conjugaison, la
syntaxe ou encore du vocabulaire, alors que la prononciation reste bien souvent « hors jeu ».
Cela peut s’expliquer certainement par le fait que, dès le début de la création de logiciels, ce
sont les « matières scientifiques » telles que les mathématiques, la physique ou la chimie qui
étaient concernées, car en tant que sciences exactes, il était relativement pratique et facile de
les transposer à cet outil. De ce point de vue là, il n’est donc finalement pas étonnant si,
concernant le domaine des langues, les premières applications concernaient les composantes
les plus aisées à systématiser et automatiser. Dès lors, il a fallu attendre la fin des années 90
pour voir la naissance de logiciels d'apprentissage de langues incluant l’apprentissage de la
prononciation.
56
Chapitre 2- Enseignement de la prononciation basé RAP
L’apprentissage des éléments prosodiques a été pendant longtemps négligé au profit des
éléments segmentaux. C’est à partir des années 60 que certains travaux ont donné lieu à de
nouvelles technologies basées sur le travail de l'intonation. La démarche réside en la
représentation graphique par une visualisation de l'onde sonore sous la forme
d'oscillogrammes voire parfois de spectrogrammes.
Ainsi, [VAR 64] et [LAN 65] développent des méthodes qui consistent à visualiser la courbe
intonative lors de répétition de phrases données. Des expériences ont été menées pour chacun
des visualiseurs mais aucune n'a montré de résultats pertinents dans les progrès réalisés par les
apprenants. En effet, soit ces méthodes ne comprenaient pas de feedback visuel adapté
(utilisation de l'oscillogramme et des courbes d'amplitude ininterprétables), soit elles n'étaient
pas suffisamment exploitées pour être efficaces.
C'est entre les années 70 et 80 que les progrès techniques et les recherches en sciences du
langage sur l'acoustique, en parole de synthèse, et en reconnaissance de parole ouvrent la voie
vers des technologies permettant la visualisation de la courbe mélodique par des types de
représentations beaucoup plus encourageants. Les recherches de [LEO 71] ont abouti à la
mise au point d'un analyseur, montrant sur un écran d'ordinateur la phrase modèle de
l'enseignant et la reproduction de l'apprenant. L'idée de logiciels permettant de visualiser les
courbes intonatives est alors approfondie et renforcée par l'apparition d'un feedback visuel.
L'apprenant peut alors comparer sa production avec celle du modèle et repérer les différences
majeures de production, en particulier par la durée et la forme de la courbe mélodique. Le
principe du feedback visuel prend alors toute son importance.
Cette avancée technologique va permettre également à [JAM 72], [JAM 76], [JAM 77] de
mener des expériences confirmant qu'un feedback visuel d'apprenants anglophones représente
un élément important dans l'acquisition des schémas intonatifs de la langue cible, ici le
français. Plus particulièrement, il remarque qu'une visualisation comparée est plus efficace
qu'une simple visualisation de la courbe modèle. [DEB 83] montre dans une étude qu'une
meilleure imitation du modèle était plus rapidement atteinte lorsqu’il y avait un feedback
visuel et qu'un facteur de motivation entrait en jeu. Malgré les progrès apportés par
57
Chapitre 2- Enseignement de la prononciation basé RAP
l'intégration d'un visualiseur de mélodie, le feedback semble être insuffisant et ne permet pas
de différencier les variations prosodiques pertinentes des variantes individuelles possibles.
Une décennie plus tard, les techniques d'analyse du signal et d'extraction de la fréquence
fondamentale ainsi que de reconnaissance de la parole deviennent plus fiables et plus
accessibles. Divers logiciels sont développés. Leur utilisation première est plutôt destinée aux
chercheurs ou enseignants-chercheurs, mais il nous semble qu'une utilisation détournée de ces
produits est tout à fait envisageable dans l'apprentissage d'une seconde langue (L2). Parmi
eux :
PRAAT : développé par [BOE 09] est un logiciel en libre accès, en constante l’évolution, qui
présente plusieurs fonctions telles que l'analyse, la manipulation de la parole, la
synthétisation. Ce programme informatique, d'une apparente complexité, pourrait s'intégrer
dans un cursus de formation pour des étudiants de niveau avancé (masters), pour qui le
logiciel PRAAT constituerait un outil intéressant pour mener une auto-évaluation prosodique
et/ou segmentale de leur propre production. En effet, PRAAT permet de s'enregistrer, ce qui
permettrait aux étudiants de visualiser leurs énoncés et de les analyser au travers des
différentes fonctions proposées par le logiciel (courbes, durées, etc.).
Speech Analyzer : proposé par le SIL (Summer Institute of Linguistics) se voit développé par
l'ajout d'extensions telles que SARP (Speech Analyzer Rapid Plot) créées par [NIK 07].
SARP est une extension de Speech Analyzer, version 3. Il permet de manipuler la
représentation graphique de données acoustiques, en créant un diagramme des voyelles
(propre à chaque production). Plusieurs fonctions sont à disposition des utilisateurs, telles
que:
• L'étude des propriétés acoustico-phonétiques des voyelles, par élaboration d'un
diagramme avec représentation graphique des valeurs moyennes,
• La possibilité de mener des analyses comparatives des voyelles par superposition
graphique,
• la possibilité d'utiliser le logiciel comme un outil d'aide à la compréhension orale.
De la même manière que PRAAT peut être utilisé par des « non experts » (suite à une
formation), SARP peut aussi constituer un outil intéressant pour les apprenants. Après une
58
Chapitre 2- Enseignement de la prononciation basé RAP
formation pour une prise en main du logiciel, l'apprenant pourrait tout à fait auto-évaluer les
voyelles de ses productions.
C'est ainsi qu'à partir des années 1990, on peut constater l'émergence de nombreux logiciels,
qu'ils soient outils d'analyse (comme vu précédemment) ou bien encore, logiciels
d'apprentissage multimédia. Cependant, beaucoup de ces outils ne traitent encore que des
aspects grammaticaux et lexicaux de la langue, ou bien ciblent uniquement l'apprentissage des
éléments segmentaux.
WebGrader : proposé par [NEU 98], est un outil basé sur la reconnaissance de parole, conçu
pour la pratique de la prononciation d’une seconde langue, au travers de différentes leçons
regroupées par thème, telles que « repas au restaurant », ou encore « les transports en
commun ». Pour chaque leçon, un ensemble de phrases est proposé ; l’utilisateur peut écouter
les phrases prononcées par un natif et peut s’enregistrer, afin d’obtenir un score sur ses
réalisations.
59
Chapitre 2- Enseignement de la prononciation basé RAP
Parmi les logiciels existants sur le marché, deux types de regroupements (listes non
exhaustives) peuvent être établis.
Le premier groupe concerne les logiciels proposant un feedback, basé sur la visualisation d'un
spectrogramme ou oscillogramme (illustré par la figure 2.3) :
• SoundForge(1991)
Sonicfoundry&RealNetworks: http://www.Sonicfoundry.com
• Tell me more (1998)
Auralog: http://www.auralog.fr
• VOICEbook (1998)
Englishear system (Paris): http://www.voicebook.com
• LAVAC (1999)
(Laboratoire Vidéo Actif Comparatif) / Tony Toma : http://www.alizes.fr/cp3i.
• Speaker (version 4.0-1999) Neuroconcept: http://www.neuroconcept.com
60
Chapitre 2- Enseignement de la prononciation basé RAP
Figure 2.4. Proposition de feedback par affichage de la courbe d'amplitude (Wincecil, 1997)
Winpitch LTL: (Language Teaching Learning) a été récemment conçu au Canada par [GER
00]. Il est basé sur le fruit d'une collaboration entre un phonéticien-ingénieur et une
enseignante phonéticienne spécialisée en didactique des langues. Winpitch LTL semble être
un des logiciels les plus développés actuellement proposant diverses fonctions comme
l'analyse en temps réel, la visualisation de la courbe f0, l'écoute ralentie. Son originalité réside
dans l'annotation des commentaires et segments pertinents intégrés sur l'affichage. Des
segments de courbes mélodiques peuvent être surlignées en couleur et du texte peut être
facilement ajouté sur l'écran, pour mettre en relief des propriétés mélodiques ou rythmiques
particulièrement pertinentes pour l'apprenant (figure2.5), afin de localiser les différences entre
la L1 et la L2. Cela requiert la présence d'un enseignant spécialisé, en mesure de commenter
les visualisations proposées. Sans ces commentaires, Winpitch LTL retombe dans une
configuration de feedback, améliorée certes, mais traditionnelle.
61
Chapitre 2- Enseignement de la prononciation basé RAP
Malgré l'attention portée sur la pédagogie proposée, la conception de Winpitch LTL, tout
comme Winpitch Light et Winpitch Pro, reste celle d'un outil de recherche avant tout, et ne
peut se placer en didacticiel. Notons pas ailleurs, que les logiciels Winpitch ne sont pas
téléchargeables gratuitement et que Winpitch Pro est un logiciel payant.
Le système IELS : proposé par [JIN 10]. IELS qui est l’acronyme de Interactive English
Learning System est un système d’apprentissage de la prononciation assisté par ordinateur,
destiné à apprendre la langue Anglaise pour les apprenants chinois dont la langue maternelle
est le Mandarin. Le système fournit des feedbacks concernant les mauvaises prononciations
des phonèmes, mots, stress lexical, et un score sur la qualité globale de la prononciation de
l’apprenant.
Le système se base sur une architecture client/serveur au niveau de laquelle le client fournit
une interface pour l’utilisateur et des fonctions d’entrés/sorties audio. Quant au serveur, il
prend en charge le traitement de la parole, y compris la reconnaissance de la parole basée sur
les HMMs, la détection du stress (stress détection) basée sur les SVMs, et l’association d’un
score à la prononciation. L’architecture générale du système IELS est montrée par la figure
2.6
62
Chapitre 2- Enseignement de la prononciation basé RAP
63
Chapitre 2- Enseignement de la prononciation basé RAP
Le système CHELSEA: proposé par [WAI 10], étudie l’utilisation d’un model statistique de
durée de phone pour permettre la séparation des énoncés corrects de ceux qui sont erronés
dans un système CAPT. Le système proposé (CHELSEA) effectue un alignement forcé entre
l’énoncé en entrée et la transcription canonique du texte que l’apprenant est invité à
prononcer. Cette transcription est obtenue grâce à un dictionnaire de recherche (lookup
dictionnary). Les énoncés corrects contiennent un contenu parlé qui correspond au texte à
prononcer. Pour ces énoncés, le système proposé effectue une analyse phonétique détaillée
d’alignement et génère des feedbacks correctifs pour mettre en valeur l’occurrence des erreurs
phonétiques. Selon [WAI 10], généralement les énoncés erronés proviennent de la non-
non
maitrise, des enregistrements tronqués, ou d’un contenu parlé qui ne correspond pas au texte à
prononcer. Pour ces raisons le feedback approprié est d’inviter l’apprenant de refaire
l’enregistrement encore une fois. Un mécanisme de filtrage pour les énoncés corrects en
entrée est développé par le biais d’une modélisation
modélisation de durée de phone. La figure 2.8 illustre
l’architecture du CHELSEA un système basé CAPT proposé par [WAI 10].
2.10. Conclusion
64
Chapitre 2- Enseignement de la prononciation basé RAP
65
Chapitre 3
Proposition.
Chapitre 3- Proposition
3.1. Introduction
Malgré les efforts de recherche considérables qui ont été investis dans le développement de
systèmes d’enseignement de langues étrangères assisté par ordinateur, peu d'attention a été
accordée à l'enseignement de la prononciation. Cette composante de l'enseignement des
langues a l'inconvénient que ce n'est pas possible de traiter et d'évaluer toute réponse orale
d'un élève en utilisant les moyens standards d'interaction tels que le clavier et la souris. En
outre, contrairement aux exercices de grammaire ou de vocabulaire où il existe clairement de
bonnes ou de mauvaises réponses définies, dans les exercices de prononciation il n'existe pas
de bonne ou de mauvaise réponse claire. Un grand nombre de différents facteurs contribuent à
la qualité globale de prononciation et ils sont également difficiles à mesurer. Ainsi, la
transition de la mauvaise vers la bonne prononciation est progressive, et toute évaluation doit
être également présentée sur une échelle graduée.
Avec l’intégration des techniques qui sont fondées sur la reconnaissance automatique de la
parole, les systèmes d’enseignement de la prononciation peuvent fournir des interactions
limitées : l’ordinateur comprend la parole de l’apprenant, et réagit en conséquence, il en
67
Chapitre 3- Proposition
résulte un processus d’apprentissage plus réaliste, en fournissant des feedbacks en temps réel
sur la qualité de la prononciation de l’apprenant.
L’état de l’art des systèmes d’apprentissage de la prononciation basés sur la RAP montre que
ces systèmes empruntent la technologie des modèles de Markov cachés aux systèmes de la
RAP, pour construire le système de reconnaissance. Le résultat produit par le système de
reconnaissance est ensuite utilisé pour évaluer la prononciation de l’apprenant.
Notre choix s’est porté sur un système qui se base sur deux méthodes d’évaluation : une
première basée sur les modèles de Markov cachés HMM (pour Hidden Markov Model) qui
sont capables de modéliser simultanément les caractéristiques temporelles et fréquentielles du
signal vocal [RAB 89]. Cette technologie offre des algorithmes performants pour
l’apprentissage et la reconnaissance, grâce auxquels les HMMs sont avérés les mieux adaptés
aux problèmes de la reconnaissance de la parole et une deuxième basée sur les techniques de
la logique floue, en appliquant l’algorithme de C-Moyennes Flous (FCM- Fuzzy C-Means).
Un algorithme très populaire, basé sur la logique floue, connu pour son efficacité et sa
robustesse.
Le but d’utilisation de ces deux méthodes pour le développement du système d’évaluation
proposé, est de comparer les performances retenues par une approche par rapport à l’autre, en
ce qui concerne la note de prononciation retournée à l’apprenant.
68
Chapitre 3- Proposition
L’objectif que nous nous sommes assignés s’articule autour du développement d’un système
d’évaluation de la prononciation des mots arabes isolés, en se fondant sur deux approches
pour l’apprentissage des mots dans le but de déduire les modèles de référence sur lesquels va
se baser l’évaluation de la prononciation de l’apprenant.
Dans ce qui suit nous allons présenter les différentes phases de construction de notre système
d’évaluation automatique de la prononciation ainsi qu’une brève description des paradigmes
utilisés, à savoir les modèles de Markov cachés (HMM) et le C-Moyennes Flous
(FCM).l’architecture générale du système proposé est illustré par la figure3.1.
69
Chapitre 3- Proposition
consiste à la mise en forme du signal vocal mais aussi l’extraction de paramètres nécessaires
pour les prochaines étapes à savoir l’apprentissage (pour dégager les modèles) et l’évaluation.
Un des objectifs de cette analyse est d’obtenir une représentation compacte et informative du
signal. Le signal de parole est un signal redondant et non stationnaire mais il peut être
considéré comme localement stationnaire. L’analyse du signal de parole se fait pendant ces
périodes stationnaires dont la durée varie de 10 à 30ms, cette durée correspond aussi à la
durée de stabilité du modèle de production.
L’analyse de la parole (figure 3.2) consiste à effectuer des prétraitements, nécessaires pour la
mise en forme du signal, tels que le découpage en fenêtres, l’extraction de caractéristiques.
Il est nécessaire d’avoir une base de données afin d’effectuer tous les traitements. Plusieurs
bases de données ont été construites pour différentes langues (BRIEF-120 et BDSONS pour
la langue française, TIMIT pour la langue anglaise,…etc), mais pour la langue arabe on
remarque une absence presque totale et c’est le grand problème posé lors du développement
des systèmes qui traitent la parole arabe.
70
Chapitre 3- Proposition
mot, ce qui implique 30*18 = 540 fichiers sons. La base servira pour l’apprentissage à 70% et
30% pour les tests.
3.5.3. Prétraitements
Les prétraitements débutent par un échantillonnage des signaux (figure3.4), suivi d’une
préaccentuation. Le signal s(n) est divisé en fenêtres de longueur N (10-20ms). Le signal final
x(n) est obtenu par une multiplication du signal s(n) par une fonction, ou encore fenêtre, de
pondération non nulle w(n) :
Le filtre passe-haut a pour effet de rehausser les composantes spectrales de haute fréquence.
C’est un filtre de compensation des effets de filtrage des procédés d’acquisition qui sont
assimilables à des filtres passe-bas [GOL 00]. L’effet obtenu est une égalisation des graves et
des aigus. D’autres prétraitements, ayant pour but d’augmenter la robustesse, sont parfois mis
en œuvre comme par exemple la normalisation des signaux ou bien la soustraction spectrale
qui a pour effet d’éliminer les bruits additifs.
71
Chapitre 3- Proposition
Le choix de la fenêtre est très important. Parmi les fenêtres utilisées, on peut citer les fenêtres
de Hamming, Hanning, Blackman ou de Kaiser. Le choix se fait le plus souvent en fonction
de l’application car les fenêtres présentent différentes atténuations à des fréquences bien
précises. Cependant, il faut noter que la plupart des systèmes sont directement conçus sur des
fenêtres de Hamming. Les efforts de conception sont plutôt consacrés aux étages de plus haut-
niveau comme l’extraction de caractéristiques ou la classification.
72
Chapitre 3- Proposition
Il existe de nombreux algorithmes pour calculer des vecteurs acoustiques mais ils visent tous
à obtenir des vecteurs acoustiques représentatifs de l’information linguistique contenue dans
le signal de parole et aussi insensibles que possible aux causes non-linguistiques de variabilité
tels que l’identité de locuteur, l’environnement acoustique (par exemple, le bruit d’ambiance)
ou le canal de transmission (par exemple, la distorsion induite par une ligne téléphonique ou
un microphone inadapté).Parmi les algorithmes d’extraction de caractéristiques existants on
peut citer :
Notre choix s’est porté sur l’utilisation de l’algorithme MFCC afin d’extraire les
caractéristiques du signal vocal pour les raisons suivantes :
73
Chapitre 3- Proposition
Le principe de calcul de ces coefficients MFCC est représenté par la figure 3.5
L’ensemble de nos travaux est basé sur l’utilisation des vecteurs acoustiques de type MFCC.
Chaque segment de parole est représenté donc par les 13 premiers coefficients, l’extraction
des caractéristiques dans le système proposé se fait selon les étapes suivantes :
Les vecteurs de caractéristiques obtenus sont ensuite utilisés dans la phase d’apprentissage et
d’évaluation.
74
Chapitre 3- Proposition
modélisation ;une première basée sur les HMM, et une deuxième basée sur les techniques de
la logique floue, en appliquant l’algorithme de C-Moyennes Flous.
Les modèles de mots déduits après l’étape d’apprentissage seront retenus et enregistrés, afin
d’être utilisés ensuite à l’étape d’évaluation de la prononciation de l’apprenant, pour lui
attribuer une note qui mesure la qualité de sa production par rapport au celle du modèle de
référence préenregistré.
Dans ce qui suit ; nous allons présenter brièvement les deux méthodes utilisées dans l’étape
de l’apprentissage pour en déduire les modèles des mots.
Depuis leur introduction en traitement de la parole [BAK 75] ; [JEL 76], les modèles de
Markov cachés ont pris une importance considérable, au point quasi-totalité des systèmes de
RAP utilise cette modélisation. Les modèles de Markov cachés supposent que le phénomène
modélisé est un processus aléatoire et inobservable qui se manifeste par des émissions elles-
mêmes aléatoires. Ces deux niveaux donnent à l'approche markovienne une flexibilité qui est
séduisante pour modéliser un phénomène aussi complexe que la production de la parole. De
nombreuses présentations théoriques des HMM existent dans la littérature ; nous reprenons en
partie les notations de L.Rabiner. [RAB 89]
3.6.1.1. Définition
Un HMM peut être vu comme un ensemble discret d'états et de transitions entre ces états.
Formellement, il peut être défini par l'ensemble des paramètres λ [RAB 89] :
! , ", #, $
Où :
- A= {aij} = {P (qj\qi)} est une matrice de taille N*N. Elle contient les probabilités de
transition sur l'ensemble des états du modèle. La probabilité de transition est la probabilité de
choisir la transition aij pour accéder à l'état qj en partant de l'état qi.
75
Chapitre 3- Proposition
Elle dépend des deux états précédents dans le cas d'un HMM d'ordre deux :
En d'autres termes, l'évolution du système entre deux instants t - 1 et t ne dépend que de l'état
de ce système au temps t-1 (ordre un) ou des deux instants précédents t -1et t -2 (ordre deux).
q0 représente l'état initial du modèle HMM. Il ne peut émettre de vecteurs acoustiques. Les
modèles de Markov cachés suppose que la séquence de vecteurs acoustiques représentative du
signal de parole soit une succession de segments stationnaires. Ainsi la parole est modélisée
par une succession d’états, avec des transitions instantanées possibles entre ces états P (qj /qk).
Chaque observation est supposée être une fonction probabiliste de l’état.
Pour conclure, les HMMs et leurs caractéristiques représentent donc deux processus
stochastiques distincts imbriqués:
Les modèles de Markov sont dits cachés parce que la suite d'états parcourus pour générer la
séquence O, n'est pas directement observable.
76
Chapitre 3- Proposition
- HMM discret «Discret Hidden Markov Models (DHMM) » : les observations en général
sont continues puisqu’elles proviennent de phénomènes physiques continus. Dans le cas d’un
HMM discret, les observations continues sont quantifiées à l’aide d’un dictionnaire
(l’alphabet d’observations dénombrables).
- HMM continu « Continuous Hidden Markov Models (CHMM) » : bien qu’il soit possible
de quantifier les observations continues, il peut y avoir une sérieuse dégradation
d’information associée à cette quantification. Il sera, alors, avantageux de choisir une fonction
de densité de probabilités d’observations continues, conditionnée par les états du processus.
• HMM ergodique
Dans ce type, tout état est directement atteignable depuis tout autre état. Il est plus général et
intéressant lorsque le modèle représente un processus dont on veut suivre les évolutions des
états. Formellement, on peut écrire : πi + 0, aij+ 0,%, &
77
Chapitre 3- Proposition
• HMM gauche-droite
La parole est un phénomène dont la dimension temporelle ne peut être ignorée. Les HMMs
utilisés pour la représenter sont, dans la plupart du temps, des modèles "gauche-droit" qui ne
permettent pas de "retour en arrière", c’est-à-dire que l’automate probabiliste d’états finis
définissant la chaîne de Markov associée ne contient pas de transition aij entre les états i et j si
i>j (i.e. aij=0).
Dans ce cadre, R.Bakis a proposé un modèle type pour représenter un mot qui permet le
bouclage sur l'état courant (progression acoustique stationnaire), le passage de l'état suivant
(progression acoustique standard) ou le saut d'un état (progression acoustique rapide). Ce
type de modèle est devenu générique dans le domaine de la RAP (figure 3.7). Il a été utilisé
dans plusieurs applications de reconnaissance de la parole.
78
Chapitre 3- Proposition
plus de la prise en compte des variations d’élocution, par bouclage sur un état pour modéliser
la parole lente (ex : durée), et un saut d’état pour modéliser la parole rapide.
Chaque HMM contient autant d’états qu’il y a de phonèmes comme choix initial mais il est
important de signaler que le nombre d’état par phonème influencera grandement la qualité
des modèles construits, c’est pourquoi il est nécessaire de vérifier ce nombre lors de la phase
de test par des essais et de décider à partir des résultats fournis quel est le nombre le plus
approprié. . De plus même l’état silence ou pause doit être modélisé. La figure suivante
représente un HMM d’un mot du vocabulaire.
m a k t a b
problème d’évaluation.
problème de reconnaissance.
problème d’apprentissage.
Dans les sections suivantes on va détailler ces problèmes et présenter les algorithmes les plus
utilisés pour les résoudre.
Problème d’évaluation
Etant donnés une suite d’observations O= {o1,o2,…om} et un modèle λ, comment peut on
calculer efficacement la probabilité (vraisemblance) que la suite d’observations O soit
produite par λ , c’est-à-dire P (O\ λ). Il existe deux procédures récurrentes de calcul de la
vraisemblance:
79
Chapitre 3- Proposition
Problème de reconnaissance
Etant donnés un HMM λ et une séquence observée O, comment connaitre la séquence des
états cachés du λ qui a la plus probablement générée O?
Pour résoudre ce problème la procédure de Viterbi est utilisée. Elle est basée sur les
techniques de programmation dynamique. C’est un algorithme récursif qui permet de trouver
à partir d’une suite d’observations, une solution optimale au problème d’estimation de la suite
d’états. La procédure complète de l’algorithme de Viterbi pour trouver la meilleure séquence
d’états est comme suit:
Problème d’apprentissage
Etant donnés un HMM λ = {π, A, B} et une séquence observée O, Comment peut-on ajuster
les paramètres du modèle λ pour maximiser la vraisemblance P (O\ λ)?
Les approches les plus utilisées sont basées sur des adaptations de l’algorithme EM
(Expectation-Maximisation) appelée:
80
Chapitre 3- Proposition
- Entrainement Baum-Welch : P (O\ λ) est estimée en tenant compte de tous les chemins
possibles (implémentation de l’algorithme Expectation-maximisation (EM)).
Le test d’arrêt est généralement un nombre d’itérations qui est fixé empiriquement.
Le choix d’un modèle initial influe sur les résultats : toutes les valeurs nulles de A et de B au
départ, restent à zéro à la fin de l’apprentissage. Il est à noter que l’algorithme converge vers
des valeurs de paramètres qui forment un point critique de P (O\ λ). Donc, nous obtenons un
maximum local ou un point d’inflexion. D’où la nécessité de bien choisir le modèle initial.
Pour avoir une estimation convenable du modèle, les ré-estimations se font sur un ensemble
de plusieurs suites d’observations appelées corpus d’apprentissage. Donc la taille du corpus
81
Chapitre 3- Proposition
d’apprentissage influe, elle aussi, sur les résultats. Il est souhaitable que celle-ci soit
importante.
Nous avons utilisé le critère de Baum-Welch à la base de l’algorithme d’apprentissage car cet
algorithme fournit une solution exacte en faisant intervenir tous les chemins dans le modèle
HMM, tandis que l’algorithme de Viterbi offre une solution approximative en faisant
intervenir uniquement le meilleur chemin dans le modèle HMM.
L'apprentissage des paramètres acoustiques optimaux des modèles de Markov est une étape
essentielle dans la construction du système d’évaluation de la prononciation proposé. C'est la
qualité de cette modélisation qui constitue en grande partie les résultats de l’évaluation,
d’après [Wit 97] ; un modèle HMM construit lors de l’apprentissage d’un mot représente une
82
Chapitre 3- Proposition
prononciation parfaite, vu que le système a été formé sur une base d’apprentissage des mots
bien prononcés.
La procédure d’apprentissage des paramètres des modèles de Markov des mots utilisés dans le
système d’évaluation de la prononciation proposé est réalisée selon l’organigramme de la
figure (3.11)
Figure 3.11. Procédure d’apprentissage d’un modèle HMM dans le système proposé
Comme on a déjà vu que chaque mot du vocabulaire est modélisé par un HMM gauche-droite,
le nombre d’états d’un HMM correspond au nombre de phonèmes qui composent le mot
modélisé par cet HMM (comme choix initial). Nous avons associé à chaque état i du modèle
HMM, une fonction de densités de probabilité de mélange de gaussienne où les probabilités
d’émission sont totalement définies par le vecteur moyenne et la matrice de covariance. On
obtient donc 30 modèles au total.
Ces modèles seront enregistrés pour être utilisés dans la prochaine étape qui est l’évaluation,
elle se fait par l’algorithme de Viterbi, où on cherche le meilleur chemin (séquence d’états
cachés) correspond à la séquence d’observations (mot à évaluer) au sens du maximum de
vraisemblance.
83
Chapitre 3- Proposition
Une des caractéristiques du raisonnement humain est qu'il est basé sur des données imprécises
ou/et incomplètes, le raisonnement de l’ordinateur est basé sur des données exactes d'où la
nécessité de développer une nouvelle logique dite la logique floue ; cette dernière est une
extension de la logique booléenne dans laquelle les niveaux de vérités, au lieu d'être vrais ou
faux peuvent prendre des valeurs entre 0 et 1.
Il n’y a en fait pas de domaine où l’on ne puisse appliquer les raisonnements propres à la
Logique Floue car elle a été conçue pour s’adapter aux techniques de pensée humaine. Nous
présentons dans la suite une description de la méthode floue de Fuzzy C-Means « FCM ».
La méthode C-moyenne floue est une méthode de classification itérative qui permet de
classifier les individus selon C classes [CHU 00], [GUI 01]. Elle calcule à chaque fois les
centres des classes et génère la matrice d'appartenance U des individus à ces classes.
Dki Est une métrique choisie au sens d’une norme. Généralement, il s’agit de la norme
euclidienne. Ainsi Dki=||Xk-Vi|| : distance entre le vecteur Xk et le prototype Vi.
84
Chapitre 3- Proposition
Du fait que l’algorithme FCM est parmi les algorithmes les plus appropriés de la logique
floue, il a dans ce cas pour principal mérite de pouvoir exprimer les connaissances vagues et
imprécises (cas des vecteurs acoustiques), en introduisant la notion de gradualité dans
l’appartenance d’un élément à un ensemble. Par rapport à la logique booléenne, la logique
floue d’une façon générale, permet de mieux illustrer la notion de raisonnement approximatif,
qui est naturellement induite par le cerveau humain, et la prise en compte de variables
85
Chapitre 3- Proposition
linguistiques de nature symbolique qui réalise une meilleure correspondance par rapport aux
informations généralement donnés par les experts humains. Les connaissances qui sont
généralement exprimés sous forme de règles explicites et des modalités d’inférences floues,
permettent d’engendrer des décisions en utilisant des opérateurs de conjonction et de
disjonction. Les systèmes flous possèdent aussi une particularité intéressante, celle de
pouvoir approximer toute fonction continue sur un ensemble compact de Rⁿ vers Rp, ce qui
leur confère le statut d’approximateur universel.
Une fois cette étape d’apprentissage est terminée, les modèles de mots, ou prototypes déduits
seront enregistré, pour être utilisés dans la prochaine étape d’évaluation.
Notre choix s’est porté sur un système qui se base sur deux méthodes d’évaluation : une
première basé sur les modèles de Markov cachés, qui ont montré des progrès considérables
dans le domaine, et une deuxième basée sur les techniques de la logique floue, en appliquant
l’algorithme de C-Moyennes Flous. Un algorithme très populaire, basé sur la logique floue,
connu pour son efficacité et sa robustesse.
L’évaluation proposée consiste à calculer la similarité entre le mot test et son modèle, qui est
traduite sous forme de probabilité de vraisemblance en utilisant les HMMs, et en terme de
distance entre le mot et son prototype en se appliquant FCM. Les résultats des deux méthodes
sont comparés, et la meilleure note d’évaluation est retournée à l’apprenant. (Figure 3.13)
86
Chapitre 3- Proposition
Evaluation de
prononciation
HMM FCM
(Calcul de probabilité) (Calcul de distance)
Comparaison de
performance
Décision:
D’après [Wit 97] : un modèle HMM construit lors de l’apprentissage d’un mot, représente une
prononciation parfaite, vu que le système a été formé sur une base d’apprentissage des mots
bien prononcés. Donc la note de prononciation attribuée à l’apprenant se base sur ce modèle.
Les HMMs peuvent êtres considérés comme un modèle stochastique de prononciation [Wit
97], de sorte que les probabilités de vraisemblance faibles (calculées pendant l’évaluation)
représentent une mauvaise prononciation, alors que les probabilités élevées interprètent une
bonne prononciation.
87
Chapitre 3- Proposition
Le mot test est ensuite comparé au modèle correspondant, calculé et enregistré dans l’étape
précédente d’apprentissage, en appliquant l’algorithme de Viterbi, qui consiste à calculer la
similarité entre le mot et son modèle. Le résultat est une mesure de vraisemblance entre les
deux, traduite sous forme de probabilité qui est comprise entre 0et 1.
Note = P Calculée * 10
L'information mentionnée par le système est d'une forme numérique, donc pour qu'elle soit
compréhensible pour l'apprenant et ainsi pédagogiquement utile, cette information doit être
traduite en quelque sorte sous forme d'un feedback intuitif, d’où l’appréciation ajoutée à la
note fournie par le système, qui est présentée par le tableau 3.3.
88
Chapitre 3- Proposition
Après avoir construit les prototypes des mots du vocabulaire dans l’étape d’apprentissage, en
appliquant l’algorithme de C-moyennes flous, ces derniers seront utilisés dans l’étape
d’évaluation de la prononciation de l’apprenant, et qui consiste aussi à appliquer l’algorithme
FCM, en calculant la distance entre le mot à évaluer, et le prototype qui représente ce mot.
Cette distance consiste en la norme euclidienne.
La distance calculée exprime la similitude entre le mot et son prototype, elle se traduit comme
suit :
• Si la distance est grande (supérieur à une valeur déduite lors des expérimentations),
cela signifie une dissimilarité entre le mot et le modèle, et donc le mot test est
considéré mal prononcé.
• Si la distance est petite (inférieur à une valeur déduite lors des expérimentations), cela
traduit une grande similarité entre le mot et le modèle, et donc le mot est considéré
bien prononcé.
• Si la distance calculée est entre les deux valeurs, cela signifie une similarité moyenne
entre le mot et le modèle, et donc le mot est jugé assez bien prononcé.
Dans notre processus d’évaluation automatique de la prononciation, nous avons effectué les
expériences sur une base de données, constituée de 30 mots prononcés en arabe
(.... ف،1 آ،)وزن, chaque mot est prononcé 3 fois par 6 locuteurs de sexe masculin et
féminin, de différents âges pour la phase d’apprentissage, on obtient donc, 18 occurrences
pour chaque mot, ce qui implique 30*18 = 540 mots.
Pour la base de test, on a les 30 mots prononcés une fois par 4 locuteurs (2 hommes et 2
femmes), ce qui implique 4 occurrences pour chaque mot, donc on obtient 120 mots pour
effectuer les tests. La base a été échantillonnée à 44100 HZ.
La base de données utilisée pour tester les performances du système d’évaluation automatique
de la prononciation proposé, est constituée de mots bien prononcés (puisqu’on ne dispose pas
d’une base de mots mal prononcés), donc on va tester la puissance et la capacité du système à
évaluer ces mots, cette puissance est traduite sous forme d’un taux de succès où le système est
capable d’évaluer les mots étant bien prononcés.
89
Chapitre 3- Proposition
Dans ce qui suit, nous exposons les différents résultats obtenus, et nous discutons ces
résultats.
Ces résultats montrent que le système est capable d’évaluer 80 mots parmi les 120 de la base
test étant considérés bien prononcés, et donc un taux de succès du système pour plus de 66%,
20% étant assez bien prononcés et 13.33% sont considérés mal prononcés.
L’algorithme utilisé pour évaluer la prononciation est le FCM qui est implémenté en utilisant
Fuzzy Logic Toolbox de la même version du langage Matlab , il consiste à calculer la
distance euclidienne entre le mot son prototype. Les résultats d’évaluation de la prononciation
obtenus sont représentés dans le tableau 3.5.
90
Chapitre 3- Proposition
Les résultats représentés dans les deux tableaux précédents (tableau3.4 et 3.5), montrent que
l’évaluation basée sur les modèles de Markov cachées est plus performante que celle basée sur
l’algorithme FCM (en terme de nombre de mots évalués correctement), cela se traduit par la
capacité et la robustesse de l’approche markovienne, qui résident essentiellement dans les
algorithmes performants qu’elle offre pour l’apprentissage, tel que l’algorithme de Baum
Welch utilisé dans le système d’évaluation proposé. Un algorithme itératif qui converge d’un
modèle-après ré-estimation des paramètres- à partir des données d’apprentissage selon le
critère du maximum de vraisemblance.
Contrairement à l’algorithme FCM basé sur le principe de la logique floue, qui construit les
prototypes des mots d’une manière aléatoire, selon le critère de degré d’appartenance d’un mot
à une classe (section 3.6.2), en plus de l’impuissance constatée de cet algorithme face aux
bases de données réduites (il nécessite beaucoup de données d’apprentissage).
Considérons une session d’apprentissage dans laquelle le mot [1 ]آest proposé à l’apprenant.
Dans ce qui suit, nous allons présenter les différentes étapes par lesquelles passera le système
d’évaluation automatique de prononciation proposé, de la paramétrisation du signal vocal
jusqu’à l’évaluation.
Le signal correspondant à la prononciation du mot produit par l’apprenant (figure 3.14) est
analysé, et les vecteurs caractéristiques sont extraits à l’aide de l’algorithme MFCC
91
Chapitre 3- Proposition
implémenté en utilisant Voicebox toolbox du langage Matlab version 7.7.0. La figure 3.15
illustre les 10 premiers vecteurs acoustiques obtenus pour le signal du mot [1]آ.
92
Chapitre 3- Proposition
93
Chapitre 3- Proposition
Tandis que l’évaluation basée sur l’algorithme FCM du même mot, fait appel au centre
(prototype) de l’ensemble qui représente le mot [1 ]آ- construit et enregistré dans l’étape
d’apprentissage de modèles- en calculant la distance euclidienne entre les deux, le système
basé FCM estime que le mot est assez bien prononcé et ce d’après la valeur de distance
calculée.
En fin, le système compare les deux évaluations du mot [1 ]آet la meilleure appréciation est
retournée à l’apprenant.
3.10. Conclusion
Nous avons constaté que le feedback est un élément essentiel qui contribue à la stabilité des
systèmes d’évaluation automatique de la prononciation, fournir des feedbacks significatifs
signifie : fournir des feedbacks qui peuvent être facilement interprétables par l’apprenant.
Cela implique que toutes les informations (calculs, forme du signal...etc) obtenues dans les
premières phases du système d’évaluation automatique proposé, ne doivent pas être présentés
à l’apprenant, et c’est l’intérêt du système proposé, qui consiste à fournir un feedback d’une
façon claire, sans ambigüité, et compréhensible par l’apprenant.
94
Conclusion Générale
et Perspectives.
Conclusion et perspectives
1. Conclusion générale
Comme nous l’avons vu en introduction de ce mémoire, l’apprentissage des langues assistées
par ordinateur est un domaine en grande expansion, promouvoir l’enseignement de la
prononciation devient alors une opportunité, en particulier car les méthodes actuelles en
apprentissage et surtout en évaluation manque de pertinence et d’explicabilité.
96
Conclusion et perspectives
2. Perspectives
Comme tous les travaux de recherche, plusieurs extensions sont envisageables pour améliorer
le système proposé dans ce mémoire :
97
Références
bibliographiques.
Références bibliographiques
[ATA 71] B.S. Atal, and S.L. Hanauer, « Speech analysis and synthesis by linear
prediction of the speech wave ». The Journal of the Acoustical Society of America,
volume 50 (2), pp. 637-655. 1971.
[BAK 75] R. Bakis, « Continuous speech word recognition via centisecond acoustic states ».
In91st Meeting of the Acoustical Society of America, 1975.
[BAU 70] L.E. Baum, T. Pétrie, G. Soûles, and N. Weiss, « A maximization technique
occurring in the statistical analysis of probabilistic functions of Markov chains ». Ann.
Math. Stat. volume 41(1), pp. 164-171, 1970.
[BOE 09] P. Boersma and D. Weenick, « Praat: a system for doing phonetics by computer »,
version 5.1.04. Téléchargeable à partir de www.praat.org. 2009.
99
Références bibliographiques
[BRA 99] R.N. Bracewell, « The Fourier Transform and Its Applications ». McGraw-Hill
Science/Engineering/Math, Boston, 3 édition.1999.
[CAL 89] Calliope, « La parole et son traitement automatique », Masson, Paris, France, 1989.
[COM 01] D.V. Compernolle, « Recognizing speech of goats, wolves, sheep and ... non-
natives ». Speech Communication, volume 35(1-2), pp. 71-79.2001.
[DEB 83] K. DEBOT, « Visual feedback of intonation I: Effectiveness and induced practice
Behavior », Language and Speech, volume 26, pp. 331-350.1983.
[DUD 39] H. Dudley, R. Riesz, and S.S. Watkins, « A synthetic speaker ». The Bell
System Technical Journal, volume 227, pp. 739-764. (1939).
[DUD 50] H. DUDLEY, and T.H.TARNOCZY, « The speaking machine of wolfgang von
kempelen ». The Journal of the Acoustical Society of America, volume 22(2), pp. 151-
166.1950.
[ESK 96] M. Eskenazi, « Détection of foreign speakers pronunciation errors for second
language training, preliminary results ». In ICSLP '96. Philadelpliia, PA, USA, Oct. 1996.
100
Références bibliographiques
[FLE 22] H. Fletcher, « The nature of speech and its interpretations ». The Bell
System Technical Journal, volume 1, pp. 129-144. 1922.
[FER 00] L. Ferrier, L. Reid, « Accent modification training in The Internet Way® »,
Proceedings of InSTILL, Dundee, Scotland, pp. 69-72. 2000.
[GAL 96] M. J. F. Gales, and P.C. Woodl, « Mean and variance adaptation within the mllr
framework ». Computer Speech and Language, volume 10. 1996.
[GIR 07] A.L. Giraud, A. Kleinschmidt, D. Poeppel, T. E. Lund, R.S.J. Frackowiak, and
H. Laufs, (2007). « Endogenous cortical rhythms determine cerebral specialization for
speech perception and production ». In Neuron, volume 56, pages 1127-1134.2007
[HIL 93] S. Hiller, E. Rooney, J. Laver, M. Jack, « SPELL: An automated system for
computer-aided pronunciation teaching », Speech Communication, volume 13, pp.463-
473.1993.
[ILT 97] ILT, « Interactive Language Tour, München: Digital Publishing »1997.
[ITA 70] F. Itakura, and S. Saito, « A statistical method for estimation of speech
spectral density and formant frequencies ». In Electronics and Communications in
Japan, volume 53A, pp. 36-43.1970.
[JAM 72] E. James, « L’acquisition des faits prosodiques à l’aide d’un visualiseur de
mélodie », Thèse de 3ème cycle, Université de Provence.1972.
101
Références bibliographiques
[JAM 76] E. James, « The Acquisition of Prosodic Features of Speech Using a Speech
Visualizer », International Review of Applied Linguistics in Language Teaching, volume 14
(3), pp. 227-243.1976.
[JEL 75] F. Jelinek, , L.R. Bahl, , and R.L. Mercer, « Design of a linguistic statistical
decoder for the recognition of continuous speech ». In IEEE Trans. on Information
Theory, volume 21, pp. 250-256.1975.
[JIN 10] Chen Jinyu, Lan Wang, Chongguo Li, Jin Ru et Sheng Li, « IELS: A Computer
Assisted Pronunciation Training System for Undergraduate Students », 2nd International
Conforence on Education Technology and Computer (ICETC), IEEE 2010.
[JUA 85] G.H. Juang, « Maximum likelihood estimation for multivariate stochastic
observations of markov chains ». AT&T Tech. Journal, volume 64(6), pp. 1235-
1249.1985.
[JUA 86] G.H. Juang, S.E. Levinson, and M.M. Sondhi, « Maximum likelihood
estimation for multivariate mixture observations of markov chains ». In IEEE Trans. on
Information Theory, volume 32, pp. 307-309.1986.
[KUN 80] M. Kunt, « Traitement numérique des signaux », traité d’électricité EPFL, vol. XX,
Georgi, 1980.
[LAN 65] H. Lane, R. Buiten, « A preliminary manual for the speech auto-instructional
device », Behavior Analysis Laboratory, Progress Report n°5, nov. 1, University of Michigan,
1965.
[LEE 93] C.H. Lee, and J.L. Gauvain, « Speaker adaptation based on map estimation
of hmm parameters ». In IEEE International Conférence on Acoustics, Speech, and
Signal Processing, ICASSP, volume 2, pp. 558-561.
102
Références bibliographiques
[LIP 90] R.P. Lippmann, « Review of neural networks for speech recognition ». Readings
in Speech Recognition, volume 5, pp. 374-392.1990
[LIV 00] K. Livescu, and J. Glass, « Lexical modeling of non-native speech for automatic
speech recognition ». In Proc. of the IEEE Int. Conf. on Acoustic, Speech and Signal
Processing, Istanbul, Turkey.2000.
[MAK 03] B. Mak, M. Siu, M.Nig , Y. Tam, Y. Chan , K. Chan , K. Leung , S. Ho , F.Chong
, J. Wong, J. Lo, « PLASER: pronunciation learning via automatic speech recognition »,
Proceedings of the HLT-NAACL 03 workshop on Building educational applications using
natural language processing - Tome1, pp. 23 -29.2003.
[MAR 64] T.B. Martin, A.L. Nelson, and H.J. Zadell, « Speech recognition by feature
abstraction techniques ». In Tech. Report AL-TDR, pp. 64-176, Air FOrce Avionics
Lab.1964.
[MCC 43] W.S. McCullough, and W.H. Pitts, « A logical calculus of ideas immanent in
nervous activity ». In Bull Math Biophysics, volume 5, pp. 115-133. 1943.
[MEN 00] W. Menzel, D. Herron, P. Bonaventura & R. Morton, « Automatic detection and
correction of non-native English pronunciations ». Proceedings of InSTiL, Dundee, Scotland,
pp. 49-56.2000.
[NER 03] A. Neri, C. Cucchiarini, W. Strik, « Automatic Speech Recognition for second
language learning: How and why it actually works », 15th ICPhS Barcelona, pp.1157-1160,
2003.
103
Références bibliographiques
[NIE 02] Buren Nieuwe (2002). Nieuwe Buren, http://www.nieuweburen.nl. Last consulted
26/02/2002.
[OZE 03] ALEXY OZEROV, « Master Représentation robuste pour la RAP »,stage de DESS
CSA, Mars- Septembre, 2003.
[ROS 01] K. Ross, « Teaching languages with asynchronous voice over the Internet », Paper
presented at InSTILL, EuroCALL, Nijmegen, The Netherlands.2001.
[SHE 06] Sherif Mahdy Abdou, Salah Eldeen Hamid , Mohsen Rashwan, Abdurrahman
Samir, Ossama Abd-Elhamid, Mostafa Shahin, Waleed Nazih, « Computer Aided
Pronunciation Learning System Using Speech Recognition Techniques », INTERSPEECH –
ICSLP. 2006.
[THO 02] R. Thomas, R.F. Moore, and P.A. Wheeler, « The Science of Sound ».
Addison Wesley, San Francisco, 3 ème édition.2002.
104
Références bibliographiques
[TOM 01] M. Tomokiyo, and A. Waibel, « Adaptation methods for non-native speech ».
In Multilinguality in Spoken Language Processing, Aalborg, Denmark.2001.
[VIT 67] A.J. Viterbi , « Error bounds for convolutional codes and an asymptotically
optimum decoding algorithm ». IEEE Transactions on Information Theory, volume.13, no.2,
pp. 260–269. 1967.
[VIT 71] A.J. Viterbi, « Error bounds for convolutional codes and asymptotically
optimum decoding algorithm ». In IEEE Trans on Information Theory, volume 13, pp.
260-269.1971
[WIN 02] WinPitch (2002). Pitch Instruments Inc, http://www.winpitch.com. Last consulted
26/02/2002.
[WAI 10] Lo Wai-Kit, M. Alissa, Harrison and Helen Meng, « Statistical Phone Duration
Modeling To Filter For Intact Utterances In A Computer-Assisted Pronunciation Training
System », 978-1-pp.4244-4296-6/10/, IEEE, ICASSP 2010.
[WAN 03] Z. Wang, T. Schultz, and A. Waibel, « Comparison of acoustic model
adaptation techniques on non-native speech ». In Proc. of the IEEE Int. Conf. on
Acoustic, Speech and Signal Processing, pp. 540-543, Hong-Kong. 2003.
[WIT 97] S. Witt, S. Young , « Computer-assisted Pronunciation Teaching based
on Automatic Speech Recognition ». Cambridge University Engineering
Department Trumpington Street Cambridge CB2 1PZ England April 28, 1997.
[WIT 99] S.M. Witt, « Use of speech recognition in computer-assisted language learning ».
Thèse de Doctorat , Newnham College, November 1999.
[YOO 06] Y.R. Yoon, and H.K. Kim, « Acoustic model adaptation based on
pronunciation variability analysis for non-native speech recognition ». In Proc. of the
IEEE Int. Conf. on Acoustic, Speech and Signal Processing, pp.137-140, Toulouse,
France.2006.
105