Vous consultez : Le Typhlophile / L'accès à l'information parlée chez l'aveugle - CHAPITRE 4 : La PAROLE COMPRIMÉE ET L'ÉCOUTE RAPIDE - Section I
Accès au contenu | Accès au au menu | Touches d'accès rapide du site

L'accès à l'information parlée chez l'aveugle

Quatre cannes blanches.

Lundi 11 décembre 2017 à 17:39:48 HnE

Tournois d'échecs pour déficients visuels

Chercher sur le site

Interroger Google

Logo de Google.


Photographie d'une machine unimanuelle à écrire le Braille.
Principalement utilisée pour la re-transcription braille. Pendant qu'une main procède à la lecture, de l'autre, il est possible d'écrire. La Perkins Brailler a été inventée par un Américain Frank H. Hall à la fin du XIXe siècle. Un clavier de 9 touches permet de reproduire les 64 symboles braille et d'effectuer toutes les tâches requises pour l'écriture. De construction robuste, elle n'a à peu près pas connu de transformation majeure et elle est toujours en usage malgré l'avènement des systèmes informatisés.





Typhlophile écrit en braille.
Une vitrine virtuelle à l'attention des AMIS DES AVEUGLES

Le Typhlophile / L'accès à l'information parlée chez l'aveugle - CHAPITRE 4 : La PAROLE COMPRIMÉE ET L'ÉCOUTE RAPIDE - Section I

Présentation d'une Thèse de doctorat soutenue le 8 juin 1990

Auteure :

(Une reproduction autorisée par l'auteure. Un gros merci de nous en faire profiter.)


CHAPITRE 4 : La PAROLE COMPRIMÉE ET L'ÉCOUTE RAPIDE

SECTION 1 : ÉTUDE THÉORIQUE

Le matériel verbal sous sa forme écrite fut une source d'étude particulièrement riche pour les psychologues s'intéressant à la perception du langage. Avant l'avènement de nouvelles technologies de production et d'enregistrement de la parole, le caractère séquentiel et éphémère du matériel verbal sous sa forme parlée présentait des difficultés de manipulation et d'analyse qui en limitaient l'étude. Aussi les travaux sur la parole comprimée sont-ils relativement récents. Ils coïncident d'ailleurs avec l'apparition des nouvelles technologies liées à la synthèse et au traitement de la parole.

La parole comprimée permet d'entendre dans un temps donné une plus grande quantité d'informations que ne le permet la parole normale. Les premières études ont commencé aux États-Unis dans les années 50 : il est classique de citer à ce propos le premier système de compression de Fairbanks et al. (1954). Le développement de nouvelles techniques de compression de la parole dans les années 60 et 70 a contribué à améliorer la qualité de la parole comprimée. Les chercheurs ont alors pu tester avec une plus grande précision un mode d'accès à l'information prometteur : "l'écoute rapide" (par analogie avec la lecture rapide).

Pour prolonger la comparaison entre un texte écrit et parlé, les phrases écrites peuvent être lues à une vitesse choisie par le lecteur en fonction de ses intérêts ou de ses objectifs. La variation du taux de lecture peut occuper une marge importante : de quelques mots à 600 mots par minute pour les plus doués. Dans l'écoute, la modalité auditive n'autorise pas une telle variation de débit de paroles. De plus, l'auditeur a peu ou pas de contrôle sur le débit de la parole du locuteur qui peut varier approximativement entre 125 et 175 mots par minute. Aussi l'accès à l'information par l'écoute est-il peu efficace comparé à l'accès par la lecture visuelle et cela d'autant plus que le sujet ne peut utiliser ce dernier mode d'apprentissage : personne aveugle ou ne pouvant lire des caractères imprimés.

L'homme peut traiter l'information à un débit plus élevé que celui du langage parlé (Nichols 1955, cité par Leroy 1982). L'augmentation du débit d'un énoncé pourrait être un moyen d'accélérer l'accès à l'information par la modalité auditive. Les techniques de compression de la parole et la mise au point d'un nouveau système appelé compresseur de paroles (speech compressor) permettent de faire varier le débit d'un discours enregistré, sans distorsion excessive du message. L'évolution des recherches tant sur un plan pratique que théorique a donné naissance à un nouveau concept : "speed listening" que nous avons traduit par "l'écoute rapide". Il s'agit d'une technique utilisée par un auditeur pour déterminer de façon volontaire le taux d'écoute d'un discours enregistré, en accord avec ses objectifs plutôt qu'avec ceux du locuteur dont la voix est enregistrée (Leroy 1982).

Dans cette revue, nous proposons :

  • de rappeler l'évolution historique des techniques de compression de la parole,
  • d'exposer les problèmes méthodologiques et procéduraux liés à l'étude de la parole comprimée,
  • de recenser les facteurs susceptibles de modifier l'intelligibilité des mots et la compréhension d'un discours comprimé,
  • de résumer les applications relatives à la parole comprimée et à l'écoute rapide.

I-PAROLE NORMALE ET PAROLE COMPRIMEE

1-Le signal vocal

La parole est un signal vocal complexe, continu et redondant, composé de segments périodiques (formant des voyelles) et apériodiques, variable pour un même locuteur à des instants différents, et très variable selon les locuteurs. Contrairement à l'écrit, la parole est une suite de segments continue (phonèmes) dont le débit varie entre 120 et 150 mots par minute environ selon les conditions d'émission et les objectifs recherchés.

2-Le niveau périphérique du traitement de la parole

L'expérimentation en physiologie et en psycho-physiologie a permis de décrire l'information qui circule sur le nerf auditif à partir de l'émission d'un signal vocal.Au niveau périphérique, les mécanismes de la perception auditive ont pu être étudiés : l'onde vocale peut être définie par sa fréquence, son amplitude, sa durée. Dans l'oreille, elle subit des phénomènes de décomposition spectrale permettant de discriminer la fréquence fondamentale et les harmoniques d'une voyelle par exemple. La hauteur perçue est liée à la fréquence fondamentale, l'intensité à la notion d'énergie (amplitude, pression acoustique). Une unité de puissance acoustique a été définie permettant de déterminer une unité relative de niveau d'intensité sonore en décibels. L'oreille perçoit des sons dont la fréquence varie entre 20 et 20000 Hertz (jusqu'à 10000 HZ dans la pratique). Des seuils d'audibilité et de douleur sont déterminés pour différentes fréquences (courbes d'audibilité et de douleur) La sensibilité de l'oreille est maximum pour les sons de 1000 Hertz. L'oreille est peu sensible à la variation d'intensité d'un son (supérieur à 10%), mais elle est très sensible à sa variation de fréquence (entre 0,1 et 0,3% en moyenne). L'oreille interne transforme le signal acoustique en un signal nerveux et le codage à ce niveau est tel qu'il produit déjà une bonne analyse acoustique du signal d'entrée. L'amplitude de l'onde sonore est codée par l'amplitude de la réponse nerveuse. Pour l'analyse de la fréquence du son, deux types de codage sont effectués au niveau périphérique : un codage temporel pour une fibre nerveuse et un codage spatial et synchronisé de plusieurs fibres nerveuses suivant la localisation des cellules réceptrices : définissant une sorte de cartographie fonctionnelle au niveau de la cochlée (oreille interne).

3-Le niveau central du traitement de la parole

Au niveau central, l'énoncé en cours de traitement fait appel à diverses sources de connaissances : phonologiques, morphologiques, lexicales, syntaxiques et pragmatiques. Plusieurs modèles rendent compte des mécanismes centraux. Plusieurs types de modèles ont essayé de décrire le déroulement des processus cognitifs dans le traitement de l'information parlée. Des phénomènes d'interaction multiples compliquent beaucoup cette tâche : phénomènes de coarticulation au niveau des segments et multiples interactions dans les différentes étapes de l'analyse.

En psychologie cognitive, plusieurs modèles ont été proposés pour expliquer le traitement de l'information perceptive, du langage parlé et écrit.

"Lorsque nous écoutons quelqu'un parler, nous percevons des entités significatives, des mots, et non pas une suite confuse de sons qui doivent être traduits d'une façon ou d'une autre afin d'avoir un sens" (Lindsay et Norman 1981). Ces auteurs ont décrit deux systèmes de traitement, l'un "dirigé par données", l'autre "par concepts". Dans un système de traitement dirigé par données, le traitement commence avec l'arrivée des données. Chaque étape de l'analyse effectue son travail recevant des données d'entrée de l'étape précédente. Les données de sortie sont les données d'entrée qui déclenchent l'étape suivante. Mais il est plus facile d'entendre, quand on sait ce qu'il faut entendre. Quand il y a connaissance d'une interprétation possible ou conceptualisation d'un stimulus pour aider à sa perception, le traitement est dirigé par concept. Les mécanismes de ces deux systèmes de traitement s'effectueraient presque toujours simultanément, chaque mode contribuant à l'analyse globale.

Les auteurs montrent l'interaction entre les données informatives qui arrivent au sujet et les données acquises qu'il a classées et organisées dans sa propre base de connaissance. Mais dans toute acquisition, les processus cognitifs liés à l'attention et à la mémoire sont présents.

En effet lorsqu'un auditeur écoute un locuteur, il perçoit et décode les derniers éléments d'une phrase alors qu'il a déjà intègré en mémoire et compris les premiers éléments. Pour Spérandio (1986) , la mémoire à court terme permet de gérer les interprétations partielles d'une phrase élémentaire de dialogue et contient les résultats de l'analyse du dernier énoncé du locuteur au niveau acoustique, phonétique, lexical, sémantique. Dans la mesure où le débit moyen d'un locuteur varie entre 120 et 180 mots par minute, la vitesse de traitement de l'information parlée de l'auditeur doit suivre ce rythme.

4-La parole comprimée

Dans un discours, le locuteur qui accélère la parole augmente le débit des mots prononcés. L'augmentation du taux des mots émis réduit le temps de communication d'un message donné. Aussi la parole accélérée se réfère souvent à la parole comprimée dans le temps que nous nommerons plus simplement : la parole comprimée.

Les méthodes et techniques utilisées pour modifier le taux d'émission des mots d'un discours parlé (paroles d'entrée ou input) influencent la nature du vocabulaire employé pour caractériser le discours final (paroles de sortie ou output). Les articles abordant ce thème de recherche contiennent une grande variété d'expressions. Citons quelques exemples :

  • rapide speech (parole rapide),
  • accelerated speech (parole accélérée),
  • rate controled recording (enregistrement à taux contrôlé),
  • compressed speech (parole comprimée).

Ces termes relevant en général de la technique employée pour modifier le débit de paroles seront expliqués en même temps que nous exposerons l'évolution des méthodes de compression temporelle.

5-Implications théoriques

Le décodage de l'information auditive est régi par des mécanismes de reconnaissance de formes et de perception. Ces mécanismes effectuent l'analyse des caractéristiques sensorielles du signal vocal et font intervenir les indices contextuels et les attentes du sujet. L'analyse des caractéristiques est limitée par des seuils de discrimination (intensité, fréquence et de durée). Les processus cognitifs impliquent le fonctionnement de l'attention, de la boucle articulatoire, de la mémoire. Le traitement d'un message parlé passerait par une étape articulatoire : après le décodage phonétique par feed-back articulatoire, tandis qu'il procède au traitement syntaxique et sémantique, le sujet effectue "une verbalisation" de l'information reçue. L'auditeur se répète mentalement ce qu'il entend (Baddeley 1986). Ainsi pour Baddeley, le dispositif de boucle articulatoire alimenterait le stock phonologique et pour que les "traces" ne s'estompent pas une révision du matériel (répétition mentale) s'impose. Ce codage est central et ne dépend pas obligatoirement des mécanisme moteur du système phonatoire. D'autre part, la mémoire de travail "maintient en disponibilité immédiate les informations reçues de la mémoire à court terme ou retrouvées de la mémoire à long terme". Le nombre des éléments stockés en mémoire à court terme est limité. Il est classique de citer Miller (1956) qui évalue la capacité de la mémoire à court terme à 7 plus ou moins 2 éléments. Par ailleurs, il semblerait que sa limitation temporelle soit environ 2 secondes (Reuchlin 1981). Plusieurs auteurs ont situé la capacité temporelle de la mémoire de travail entre 1,5 et 2 secondes (Baddeley 1986, Hulme et al. 1984, Schweickert et Boruff 1986 ). Selon ces auteurs, cette durée d'environ 2 secondes serait l'intervalle de temps pendant lequel la trace mnésique peut être récupérée. Le stockage en mémoire de travail maximum pendant ces deux secondes ne dépendrait pas seulement du nombre des éléments ou "shunk" mais plutôt d'un autre facteur : la vitesse de la parole. L'empan mnésique serait fonction linéaire du taux de prononciation du sujet (Baddeley 1986, Hulme et al. 1984, Schweickert et Boruff 1986 ).

La parole comprimée pourrait être un matériel d'étude intéressant pour contrôler et affiner ces résultats. Par exemple pour un débit normal de paroles (120 mots par minute), les 4 premiers mots d'une phrase seront parfaitement répétés dès la fin de leur émission (après 2 secondes), mais qu'en est-il des 8 premiers mots pour un débit de 240 mots/minute ou des 10 premiers mots pour un débit de 300 mots/minute ? Le sujet qui articule vite traiterait-il mieux la parole rapide ? Existe-t-il un seuil d'intelligibilité de la parole associé à son débit ?

6-Applications

La parole occupe une place essentielle dans la communication humaine et c'est aussi un support de l'information non négligeable dans l'enseignement. Compte tenu des difficultés et de la lenteur de l'accès à l'information tactile, de nombreux éducateurs anglo-saxons jugent le mode de présentation auditif très favorable pour l'accès à l'information et l'apprentissage des jeunes aveugles. D'autre part le développement des nouvelles technologies : machines à lire (scanner), calculatrices parlantes, synthèses vocales permettant la sortie vocale des données d'un micro-ordinateur et l'utilisation de nombreux logiciels rendent nécessaire l'éducation de l'écoute. Comment peut-on transmettre une information visuelle distribuée de façon spatiale sur une feuille ou un écran via une modalité sonore impliquant des caractéristiques temporelles et séquentielles ? La mémoire à court terme, la mémoire de travail, l'attention n'imposent-elles pas leurs lois de fonctionnement ? Et comment distribuer l'information parlée pour favoriser la compréhension et réduire la charge mentale

II-ETUDE HISTORIQUE DES TECHNIQUES DE COMPRESSION DE La PAROLE

1-Un critère de référence : la parole normale

Le débit des mots parlés varie sensiblement d'un locuteur à un autre, mais aussi pour une même personne d'un moment à l'autre de son énoncé(Richaume 1988). Les variations inter-sujets peuvent être influencées par des facteurs d'ordre constitutionnel, physiologique, des facteurs de personnalité, de niveau social et culturel. Les différences intra-sujets peuvent être influencées par des variables liées :

  • aux conditions d'émission des paroles (conversation libre, lecture d'un texte);
  • aux objectifs du locuteur (ordre, explication, démonstration...).

Les variations les plus importantes sont observées dans les comparaisons entre le taux des mots émis lors d'une conversation spontanée et le taux des mots prononcés lors d'une lecture orale. Nichols et Stevens (1957) ont trouvé que le débit des paroles conversationnelles était de 125 mots par minute en moyenne. Johnson et al. (1963, p.220) ont trouvé un taux moyen de lecture orale de 176,5 mots par minute. Foulke (1967) a observé un taux moyen de lecture orale de 174 mots par minute.

Lors des enregistrements des cours de psychologie, des échantillons de différents professeurs et différents cours ont montré des variations de taux de mots s'échelonnant entre 90 et 150 mots par minute avec des moyennes approximatives de 110-120 mots par minute.

Par conséquent, afin de pouvoir situer le taux des mots d'un discours "accéléré" et d'un discours "comprimé" par rapport au taux des paroles normales, deux taux sont à retenir : 125 mots par minute pour la parole conversationnelle et 175 mots par minute pour la lecture orale.

Dans un discours, le locuteur qui accélère la parole augmente le débit des mots prononcés. L'augmentation du taux des mots émis réduit le temps de communication d'un message donné. Aussi la parole accélérée se réfère souvent à la parole comprimée dans le temps que nous nommerons plus simplement : la parole comprimée.

Les méthodes et techniques utilisées pour modifier le taux d'émission des mots d'un discours parlé (paroles d'entrée ou input) influencent la nature du vocabulaire employé pour caractériser le discours final (paroles de sortie ou output). Les articles abordant ce thème de recherche contiennent une grande variété d'expressions.

2-La parole rapide :

En l'absence de technique et de matériel approprié,les premières recherches ont fait appel aux seules capacités du locuteur à pouvoir faire varier son débit de paroles. Toutefois même bien entraînés, les sujets se heurtent rapidement à des limites insurmontables. En effet, les premières études (Goldstein 1940, Nelson 1948, Hardwood 1955, cités par Foulke 1969 et Leroy 1982) ont fait appel à des locuteurs bien entraînés à qui il était demandé d'essayer d'accroître leur débit de paroles jusqu'à 300 mots/minute. Ce score est très difficile à atteindre et son approche provoque des distorsions dans l'inflexion et l'intensité vocale, la durée relative des voyelles, consonnes et pauses. Outre ces modifications, des difficultés d'articulation rendaient le plus souvent ces énoncés rapides peu compréhensibles (Calearo et Lazzaroni, 1957).

Dequiros (1964), Miron et Brown (1968) ont ainsi observé que des locuteurs entraînés ne peuvent soutenir un taux d'élocution supérieur à 225 mots par minute pendant une longue période lors d'un énoncé continu. Le taux de la parole "rapide" ne peut donc excéder de beaucoup celui de la parole normale approchant 175 mots/minutes dans les meilleures conditions de lecture à voix haute.

Bien que peu concluants, les premiers travaux sur la parole rapide ont eu le mérite d'encourager la mise au point de techniques ou de systèmes capables de produire une parole accélérée de meilleure qualité (Leroy 1982).

3-Parole accélérée ou à taux modifié

Avec l'introduction des techniques d'enregistrement et l'utilisation du magnétophone, les expérimentateurs étaient désormais capables d'accélérer la vitesse de déroulement de la bande magnétique. La vitesse d'écoute d'un enregistrement pouvait alors être supérieure et même être double de celle du discours d'origine enregistré. Toutefois, l'augmentation de la vitesse de déroulement de la bande magnétique entraînait des modifications des caractéristiques du signal sonore non négligeables. Ainsi, par exemple, dans le cas d'une vitesse double, la fréquence de tous les composants du signal vocal étant doublée, le ton de la voix enregistrée est nettement modifié et s'élève d'une octave (voix plus aiguë). Ces distorsions sont considérées comme insupportables par une majorité d'auditeurs. Seul un accroissement de vitesse de l'enregistrement de 25 pour cent est tolérable (Latz 1967). Actuellement de nombreux modèles de magnétophone à cassettes ou à bandes magnétiques possèdent ce système d'accroissement de vitesse de déroulement et permettent de réduire de 25 à 30 pour cent le temps d'écoute. Il est à noter que les voix masculines sont transformées en voix féminines avec ce système. Les voix les plus graves restent les plus audibles après augmentation de la vitesse de déroulement.

4-Méthode d'échantillonnage et appareil de Fairbanks (cut and spliced speech)

En 1950, Miller et Licklider de l'université de Harvard, ont mis en évidence la redondance du signal vocal. Ils ont effacé de très petites portions d'enregistrement (quelques millisecondes, 10 fois par seconde). Bien qu'amputés de nombreux fragments, les mots restent intelligibles. L'intelligibilité des mots monosyllabiques ne descend pas en dessous de 90% jusqu'à 50% d'interruption. Il semblerait donc qu'une bonne portion d'un énoncé puisse être éliminée sans modification sensible d'intelligibilité. Mais il n'est pas encore possible de parler de compression : le temps d'écoute de ce discours parsemé de multiples petits effacements, reste toujours le même.Garvey(1953) a eu l'idée de rapprocher les portions de paroles restantes après ces brefs effacements d'enregistrement, le résultat fut alors une parole comprimée dans le temps, intelligible, sans modification de ton, sans distorsion excessive de la parole. Fairbanks, Everitt et Jaeger (1954) ont mis au point un appareil électro-mécanique capable d'effectuer la fonction d'échantillonnage proposée par Miller et Licklider.

Le système de Fairbanks et al. produisait de façon aléatoire des coupures de très faibles durées dans l'enregistrement, de sorte que la portion éliminée ne puisse contenir un son entier.

a partir de la technique de Fairbanks et al. (1954) deux compresseurs de paroles furent commercialisés aux Etats-Unis : le "Eltro Information Rate Changer" et le "Whirling Dervish". Ces compresseurs étaient relativement chers à l'achat (3 à 5000 dollars).

5-Methode d'échantillonnage et informatique

Le système de Fairbanks ne permet pas de sélectionner les portions à éliminer de l'enregistrement . Avec l'évolution des techniques informatiques, cette sélection est désormais possible. En effet, un programme informatique peut permettre un échantillonnage sélectif des portions à éliminer d'un signal redondant (Ball 1961, Scott 1965, Qureshi 1974, Seo 1974). Cette sélection peut s'appliquer également à des pauses trop longues ou aux voyelles (Miron et Brown 1968). Les techniques de compression faisant appel à l'informatique sont les plus satisfaisantes, mais elles sont complexes et trop coûteuses pour justifier leur emploi dans toutes les recherches (Leroy 1982).

6-Méthode d'échantillonnage et synthèse vocale

L'utilisation d'un synthétiseur de voix permet de générer une compression de qualité (Canpanella 1967, Canpanella et Coldberg 1973). Avec cette technique, le signal d'entrée est analysé en termes de "caractéristiques standardisées de paroles" et digitalisé. Après échantillonnage, le signal de sortie est synthétisé pour ressembler au mieux à la voix d'origine, mais sous forme comprimée.

Breuel et Levens (1974) ont montré que la parole peut être comprimée au moyen d'un compresseur harmonique : un diviseur de fréquence permet d'obtenir un débit de parole deux fois supérieur au taux d'origine. Toutefois, le compresseur harmonique ne peut effectuer qu'une seule compression : deux fois le taux d'origine; aussi, a-t-il peu de valeur pratique.

Les différentes techniques décrites précédemment sont à l'origine de l'élaboration d'un bon nombre de prototypes, puis à la commercialisation de compresseurs :

  • le "Varispeech I" et le "Varispeech II" produits par Lexicon Inc.
  • variable speech control copycorder model CC-103 produit par Magnetic Video Corporation.
  • Vocom-I et Vocom-II produit par PKM Corporation, et plus tard le modèle A7 commercialisé par la Variable Speech Control Company (VSCC) .

III-LES PROBLEMES METHODOLOGIQUES ET PROCEDURAUX

1-La compression de la parole

Selon le système utilisé, l'accélération et la compression de la parole peuvent être obtenues par différentes méthodes. La parole accélérée est produite le plus souvent par accélération de la vitesse de déroulement de la bande magnétique sur laquelle est enregistré le texte parlé. La parole comprimée peut être produite par de nombreuses techniques, mais la méthode la plus couramment utilisée est la méthode dite d'échantillonnage. Selon son principe, des petits segments d'enregistrement, de très courtes durée (10 à 80 millisecondes) sont supprimés à des intervalles réguliers. Les portions restantes sont ensuite mises bout à bout.

Le résultat obtenu, est une parole dite comprimée qui réduit le temps d'écoute, de la version d'origine, mais sans les distorsions de qualité et de hauteur produites par l'augmentation de la vitesse de déroulement d'un enregistrement (parole accélérée).

Ainsi, avec la technique de compression temporelle, la réduction d'un discours s'effectue de la manière suivante :

  1. des interruptions temporelles périodiques sont effectuées sur le message enregistré par extinction et allumage instantanés du signal. Les périodes "off" peuvent être variables : 20 ou 30 millisecondes par exemple, parfois davantage.
  2. les périodes "on" restantes sont rapprochées pour former un signal ou message continu.
  3. le taux de compression est déterminé par la longueur et la fréquence des périodes "off".
  4. le débit de la parole du message comprimé qui peut être défini par le nombre de mots émis par minute, dépend :
    • de la longueur et de la fréquence des périodes "off";
    • du débit de la parole du message initial.

Exemple : un message comprimé de 250 mots par minute peut être produit par 50 pour 100 de compression d'un message enregistré à 125 mots par minute ou par une compression de 33 pour 100 d'un message enregistré à 188 mots par minute.

L'intelligibilité et la compréhension d'un message comprimé pourront donc dépendre :

  • du nombre de mots par minute émis lors de l'enregistrement du message d'origine.
  • de la longueur des interruptions (périodes "off") ; - de la fréquence des périodes "off" ;
  • de l'intensité en décibels des sons émis.
2-Le degré de compression

La diversité des méthodes de production de la parole comprimée engendre des compressions différentes tant sur le plan quantitatif (degré de compression) que sur le plan qualitatif. Bien que les études expérimentales se soient multipliées depuis les années 60, l'absence de pratique commune, de vocabulaire précis et bien défini pose des problèmes non négligeables quand il s'agit de rassembler les résultats de plusieurs études. En effet, ce défaut d'unicité dans les termes employés peut conduire à une confusion ou une interprétation erronée quand les résultats de différentes expérimentations sont comparés.

Dans les multiples études que nous avons consultées, le degré de compression est exprimé de diverses façons. Le montant de la compression peut être défini par le pourcentage du temps de l'enregistrement d'origine qui est conservé quand le message parlé est reproduit à un taux plus élevé. Dans ce cas, par exemple une compression de 40 % signifie que le temps d'écoute de la version comprimée représente 40 % du temps de production de la version originale. Ainsi, un enregistrement de 60 minutes pourrait être écouté en 24 minutes dans cet exemple.

Le degré de compression est aussi défini très souvent comme étant le pourcentage du temps économisé par l'écoute de la version comprimée. Dans notre exemple 40 % de compression signifie que le temps d'écoute de la version comprimée est réduit de 40 % , c'est-à-dire qu'un enregistrement de 60 minutes pourra être entendu en 36 minutes.

Le degré de compression peut également être défini en termes de coefficient d'accélération du taux des mots dans l'énoncé comprimé par rapport au taux des mots dans l'énoncé d'origine. Par exemple, un indice de 1,5 signifie que le taux des mots après compression est 1,5 fois le taux des mots avant la compression. Lorsque ces deux indices (pourcentage de compression et augmentation du taux des mots) sont comparés, il convient de rappeler que la relation entre eux n'est pas linéaire. Ainsi, pour un coefficient d'accélération s'élevant de 1,1 à 1,2 correspond une augmentation de pourcentage de compression de 9% à 17% ; alors que pour un coefficient d'accélération s'élevant de 1,9 à 2 correspond une modification de compression variant de 47% à 50% (Foulke 1969). En outre, ces deux indices, pourcentage de compression et coefficient d'accélération du taux des mots, n'indiquent pas directement le taux des mots de l'énoncé comprimé.

3-Le taux des mots

Le débit des paroles d'un discours parlé peut être défini comme étant le nombre de mots émis par minute. Le taux des paroles comprimées ou accélérées dépend avant tout du taux des paroles de l'énoncé d'origine et cela quel que soit le mode de compression utilisé.

Dans un paragraphe précédent, nous avons signalé que le taux des mots émis par un locuteur dépend de nombreux facteurs et qu'il varie en moyenne entre 125 (paroles conversationnelles) et 175 (lecture à voix haute) mots par minute. Or, cet indice (nombre de mots par minute)n'est pas un indice fidèle du débit de la parole d'un orateur qui peut dépendre de la nature du discours prononcé. En effet, selon le thème développé et le vocabulaire utilisé, un texte peut être plus ou moins dense et contenir des mots plus ou moins longs. Un indice plus précis pourrait être le nombre de syllabes émises par minute plutôt que le nombre de mots (Carroll 1967, cité par Foulke 1969).

Le taux de lecture orale dépend de la nature du texte lu, mais aussi du style du lecteur. Ce taux varie considérablement d'un lecteur à un autre et même d'un passage de lecture à un autre pour un lecteur donné (Foulke 1967). Le débit de la parole reflèterait "le niveau d'éveil" d'un sujet. Dans une revue, Johnson et al. (1963) concluent que la perception d'un taux de paroles donné pour un sujet est lié à son taux de lecture orale : un sujet perçoit d'autant mieux les paroles rapides que sa vitesse de lecture est élevée. On pourrait donc s'attendre à de grandes variations inter et même intra sujets dans les études concernant l'intelligibilité et la compréhension des paroles comprimées.

Dans la plupart des études sur la parole comprimée, la compression est faite sur un texte lu à voix haute et enregistré. Seul le taux des mots d'un texte énoncé par un synthétiseur de voix sera régulier et invariable pendant toute la durée de l'émission.

Il convient de remarquer que dans les expériences sur l'intelligibilité de la parole comprimée utilisant une présentation de mots individuels, l'indice de compression ne peut être exprimé en taux de mots. L'indice de compression peut s'exprimer dans ce cas par un taux ou un coefficient de compression.

IV-INTELLIGIBILITE ET COMPREHENSION DE La PAROLE COMPRIMEE :

1-Définitions:

L'intelligibilité est " l'état ou le caractère de ce qui peut être entendu distinctement " : c'est une reconnaissance phonétique. Elle dépend du niveau périphérique du traitement de la parole. qui analyse les caractéristiques propres à la structure d'un message parlé (phonétiques, phonologiques et prosodiques).

L'intelligibilité peut être considérée comme une propriété de la communication parlée impliquant la reconnaissance des sons et faisant essentiellement appel à la perception auditive (Foulke et Stitch 1969, Lehiste et Peterson 1959), tout comme la lisibilité dépend d'abord des propriétés physiques d'un message écrit.

Par contre la compréhension est une reconnaissance sémantique, c'est-à-dire la saisie du sens d'un message (parlé ou écrit), ce qui implique la prise en compte du contexte. Un mot isolé, hors contexte peut avoir de multiples significations ou "ne rien vouloir dire". La compréhension par l'écoute implique la présentation d'un énoncé continu. La compréhension est définie comme étant la faculté de concevoir, de pénétrer le sens de ce que dit quelqu'un, de ses explications ..etc., de se faire d'une chose une juste idée, une idée conforme à sa nature".

Dans la mesure où les premières étapes de l'analyse et du traitement du signal vocal retentissent sur la compréhension du message, , l'intelligibilité d'un discours comprimé ou non retentit de façon évidente sur sa compréhension. Toutefois selon Lindsay et Norman (1981), toute prise d'information est le résultat de l'interaction de deux mécanismes, l'un dirigé par données, l'autre dirigé par concepts. Il sera donc très difficile, en présence d'un discours continu de dissocier l'influence des facteurs liés à l'intelligibilité de ceux liés à la compréhension dans l'analyse des résultats d'un sujet.

2-Les indices de mesure :

La mesure de l'intelligibilité de la parole comprimée dans le temps est définie par la mesure de la capacité à répéter de façon exacte un mot, une phrase ou quelques lignes.Une procédure classique dans ce domaine consiste à faire subir une compression temporelle à plusieurs phrases selon un même procédé, puis les mots sont distribués individuellement à l'auditeur dont la tâche est de reproduire oralement ou par écrit le mot entendu. Le score du sujet qui traduit l'indice d'intelligibilité des mots perçus est défini par le pourcentage des mots identifiés correctement.

Un autre indice d'intelligibilité est le temps de réaction du sujet. Quand un stimulus est difficile à discriminer le temps de réaction de choix est allongé. Cet indice serait plus sensible dans la mesure où un changement dans le taux de compression pourrait produire une même réponse exacte, mais un temps de réaction de choix plus élevé. Cet allongement du temps de réaction donnerait donc une information supplémentaire sur l'intelligibilité des paroles comprimées (Foulke et Stitch 1969).

Un seuil d'intelligibilité de la parole comprimée peut également être défini par le minimum d'intensité nécessaire pour qu'un certain pourcentage (habituellement 50 %) des mots d'une liste soit correctement identifiés (Calearo et Lazzaroni 1957, DeHaan et al. 1978, 1980).

La compréhension est plus difficile à objectiver. Différents tests sont proposés.

Pour évaluer la compréhension de jeunes enfants par exemple Woods (1965, cité par Foulke 1969), utilise des ordres que les enfants doivent exécuter : s'asseoir, se lever, lever un bras, faire l'abeille etc.

Belamy (1966) a utilisé un questionnaire à choix multiple, puis un entretien (interview) pour compléter l'analyse. D'autres auteurs ont employé des questionnaires nécessitant des réponses précises, mais très courtes (Friedman et al. 1966, Myers 1978).

3-Les facteurs influençant l'intelligibilité de la parole comprimée dans le temps :
a-Les caractéristiques du signal :

L'intelligibilité de la parole comprimée est influencée par la méthode utilisée pour effectuer la compression temporelle. Le signal vocal est plus altéré et rapidement moins intelligible par la méthode d'accélération de la vitesse que par la méthode d'échantillonnage (Nixon et al. 1968, Nixon et Sommer 1968, cités par Foulke 1969).

Un message comprimé par la méthode d'échantillonnage peut être conçu comme étant une succession de segments temporels, appelés périodes d'échantillonnage. C'est la fraction restante des échantillons qui détermine le taux de compression. Si 10 ms (milliseconde) d'une période de 20 ms ou 30 ms d'une période de 60 ms sont restantes, le montant de la compression est le même soit 50%. L'intelligibilité de la parole comprimée dépend de la longueur de la portion éliminée et de la fréquence de ces coupures. Quand la durée de la fraction éliminée dépasse 80 ms, l'intelligibilité diminue de façon significative (Fairbanks et al., 1957). Pour Gerber et al. (1977), l'intelligibilité des mots décline rapidement quand l'intervalle d'interruption excède 60 millisecondes.

Retarder le signal de 7,5 ms dans un écouteur améliore l'intelligibilité, ce retard provoquant une redondance binaurale (Cramer 1965, cité par Foulke 1969). Scott (1965) utilise un écouteur pour faire entendre les échantillons restants de la paroles comprimées et l'autre écouteur pour faire entendre en même temps les échantillons supprimés. Il obtient ainsi un résultat favorable avec cette écoute dichotique.

Considérons deux messages identiques : dans l'un de courtes portions sont effacée mais non enlevées, le message est "interrompu", dans l'autre les périodes "on" sont seules gardées, les périodes "off" étant éliminées, le message est alors comprimé. Tant que le montant des portions "off" ne dépasse pas 50%, il n'y a pas de différence entre le message interrompu et le message comprimé, mais au-delà les mots interrompus sont plus intelligibles que les mots comprimés (expériences citées par Foulke 1969).

b-Les facteurs linguistiques :

la méthode d'accélération de vitesse dégraderait davantage les sons contenant des voyelles que ceux contenant des consonnes, alors que la méthode d'échantillonnage modifierait davantage les consonnes que les voyelles (Garvey 1953 Tarte et al. 1982).

Dans une expérience dans laquelle le nombre des phonèmes par mot peut varier de 3 à 9, l'augmentation du nombre des phonèmes améliore l'intelligibilité des mots ayant subi une compression temporelle par la méthode d'échantillonnage (Henry 1966). Des phrases courtes entendues à vitesse accélérée sont plus intelligibles que des mots isolés (Lump et Webster 1961). Les mots longs ou les phrases courtes apportent davantage d'information auditive et sémantique que les mots courts et isolés. En outre, quelques mots ou une phrase permettent d'orienter l'attention et de prédire avec plus ou moins d'exactitude ce qui peut suivre : ces indices contribuent à améliorer l'intelligibilité d'un discours continu comprimé dans le temps. mais une question peut égale ment se poser : la perte d'information provoquée par la compression temporelle d'un discours continu ne pourrait -elle engendrer une diminution croissante et cumulative du nombre des indices au fur et à mesure du déroulement de l'énoncé ?

c-Les facteurs liés à l'auditeur :

Une exposition répétée à la parole comprimée améliore son intelligibilité (Gade et al. 1984). l'entraînement du sujet, la familiarité et la nature concrète ou abstraite du texte écouté sont des facteurs qui influencent l'intelligibilité de la parole comprimée (Foulke et Stitch 1969).

4-Les facteurs influençant la compréhension de la parole comprimée :
a-Les facteurs liés au signal sonore :

Trois études citées par Foulke (1969) montrent que l'augmentation du taux des mots au-delà du taux normal provoque d'abord une diminution modérée de la compréhension,mais au-delà de 275 mots par minute, le déclin de la compréhension est brutal et s'accélère. L'efficacité de l'apprentissage définie par Myers (1978) par un indice qui exprime la quantité d'information comprise et retenue pour un temps d'écoute donné s'accroit jusqu'à ce que le débit de la parole ne dépasse pas 280 mots-minute.

b-Compréhension et méthodes de compression :

Des sujets peu habitués à écouter des textes enregistrés et n'ayant jamais entendu de paroles comprimées, comprennent mieux un discours enregistré à un taux de 275 mots/minute par la méthode d'échantillonnage qu'un même texte enregistré au même taux avec la méthode d'accélération de vitesse (McMaine 1962, Foulke 1962). Toutefois des collégiens aveugles habitués à écouter des énoncés enregistrés, ne présentent pas de différences dans la compréhension de discours comprimés avec les deux méthodes (Foulke 1966 a,).

Selon les auteurs (Foulke 1969, Leroy 1982), l'intelligibilité des paroles comprimées serait plus sensible à la méthode de compression temporelle que la compréhension.

Pour évaluer l'intelligibilité d'un message parlé, les expérimentateurs utilisent des mots isolés, des ordres ou de très courtes phrases. L'auditeur ne peut s'appuyer sur le contexte pour prédire les paroles à venir comme il le ferait dans un énoncé continu utilisé pour tester la compréhension.Ce résultat pourrait être expliqué par le fait que la compréhension de la parole comprimée est influencée par des processus de traitement perceptifs et cognitifs de l'auditeur.

c-La nature du matériel comprimé :

En s'appuyant sur les réponses à un questionnaire à choix multiple, Foulke et al. ( 1962) évaluent la compréhension d'un texte littéraire et d'un texte scientifique quand ils sont entendus à taux normal. Ils trouvent que la compréhension du thème scientifique est plus difficile que celle du thème littéraire, mais quand le taux des mots augmente la compréhension de l'énoncé scientifique ne diminue pas aussi rapidement que celle de l'énoncé littéraire.

Pour Fairbanks et al. (1957), l'effet du taux de compression sur la compréhension d'un discours ne dépend pas de la complexité de son contenu.

Les difficultés d'un texte écouté ne sont pas les mêmes que celles d'un texte lu. Les différences qui existent entre un matériel oral et un matériel écrit oblige l'auditeur et le lecteur à traiter l'information de manière différente. Une page imprimée est un matériel spatial, le langage parlé, séquentiel est traité dans une dimension temporelle. Contrairement au lecteur devant une page, l'auditeur a recours essentiellement à sa mémoire et ne peut exercer aucun contrôle sur l'ordre dans lequel il rencontre les composants syntaxiques et sémantiques d'une phrase. Selon Foulke (1969), il n'est pas possible d'utiliser les mêmes tests pour évaluer la difficulté d'un texte lu et celle d'un texte écouté.

Newman (1982) a trouvé que la compression temporelle diminue davantage la perception des items et phrases comprimés non prévisibles que celle des phrases prévisibles.

Pour cet auteur, sous une condition de stress temporel, des sujets normaux traitent plus difficilement l'information phonémique et sémantique contenue dans des phrases réelles mais non prévisibles. Selon lui,dans ces conditions , les sujets relient l'information linguistique et sémantique contenue dans les phrases. Les auditeurs déficients dans le traitement linguistique seraient donc incapables de tirer avantage des données distribuées selon un débit trop élevé.

d-La compréhension et les variables liées à l'orateur :

Les caractéristiques de la voix humaine varient considérablement selon les sujets. Le timbre, la tonalité, la fréquence et l'intensité d'une voix, le rythme des paroles diffèrent d'une personne à l'autre et pour un même orateur ces caractéristiques peuvent varier selon l'état d'éveil du sujet, ses objectifs, la nature du discours ... Chaque orateur a un style de lecture particulier. .

Une expérience de Foulke (1964) a montré que l'effet de l'orateur sur la compréhension des auditeurs ne dépend pas du taux des mots auquel le discours est présenté.

Les pauses et l'intonation sont des facteurs de compréhension de la parole comprimée (Buttet 1980, Wingfield 1980). Miron et Brown (1968) constatent que la meilleure méthode de compression est celle qui conserve les temps de pause proportionnellement au taux de compression et qui maintient une bonne distribution des pauses même si celles-ci sont réduites. Pour Friedman et Johnson (1969), l'insertion de pauses entre les principaux segments d'une phrase permet un meilleur rappel qu'une insertion de pause entre les phrases. Selon Goldman-Eisler (1964) et Youngsoo (1984), les pauses donnent un temps de codage et de décodage de l'information. Tantiblarphol et al. (1984) ont observé 144 lycéens écoutant individuellement une histoire de 20 phrases à 225 m/mn ou 300 m/mn. De façon significative, ils notent un meilleur rappel à 300 m/mn pour une condition d'insertion d'un temps de pause entre les phrases.

e-La compréhension et les facteurs liés à l'auditeur :

Les caractéristiques liées à l'auditeur peuvent influencer sa compréhension de la parole comprimée dans le temps. Plusieurs études ont analysé l'influence du sexe de l'auditeur. En dépit des contradictions dans les résultats, il semblerait que le sexe ait peu d'influence sur la compréhension d'un discours comprimé (Foulke et Stitch 1967, et Friedman 1964).

L'âge et le niveau scolaire d'un enfant influencent sa capacité à comprendre des paroles comprimées (Fergen 1955,Wood 1965). Beasley et al. (1976) montrent que la discrimination de mots monosyllabiques (présentation comprimée) s'améliore avec l'âge . Freeman et Beasley (1978) ont répliqué cette expérience. Veasley et Flaherty-Rintelmann (1976) et Beasley et al. (1980) ont trouvé les mêmes résultats avec des phrases comprimées. Tous ces auteurs sont cités par May (1984) qui étudie l'influence de l'âge sur la discrimination de phrases comprimées à 50 %. Quatre groupes d'âge sont étudiés : 6, 8, 10 et 21 ans. L'auteur conclut que les capacités de discrimination de la parole comprimée s'améliorent avec la maturité et que les capacités de traitement auditif maximales atteignent une asymptote vers 11 ou 12 ans. Selon May (1984), le temps de traitement phonémique est équivalent à celui des adultes vers l'âge de 12 ans et l'évolution ontogénétique de l'efficacité du traitement auditif atteint un stade optimal au début de la deuxième décade de la vie.

Plusieurs auteurs signalent une relation positive entre l'intelligence de l'auditeur et sa performance dans la compréhension d'un énoncé comprimé en fonction de l'augmentation du taux des mots (Fairbanks et al. 1957, Godstein 1940, Nelson 1948). Teach (1979) a mis en relation le facteur quotient intellectuel du sujet avec le débit des mots :le quotient intellectuel n'aurait pas d'influence sur l'intelligibilité des paroles ayant subi une compression temporelle, mais l'auteur a observé une influence de ce facteur sur la compréhension.

La compréhension d'un discours comprimé pourrait être améliorée par l'entraînement à l'écoute de la parole comprimée. Plusieurs études illustrant cet effet de pratique sont citées par Leroy (1982). Pour Stitch (1970) les sujets non entraînés feraient d'abord attention aux "éléments mots" du message. Après entraînement, ces mêmes sujets s'intéressent davantage aux concepts présentés.

Les sujets "indépendants à l'égard du champ", capables d'effectuer rapidement une analyse sémantique pourraient comprendre la parole rapide avec ou sans expérience (Leroy 1982). Alcala (1984) a utilisé deux taux de compression (225 m/mn et 300 m/mn) et deux modes de présentation : présentation orale seule et présentation orale associée à des images et observe les effets sur la compréhension des sujets de style cognitif différent (dépendants et indépendants à l'égard du champ). Les résultats mettent en évidence une interaction double entre les variables image, taux de compression et style cognitif. Les sujets indépendants à l'égard du champ sont capables de traiter des discours comprimés sans avoir recours à une redondance iconique. Olson (1984) a observé 80 étudiants, dépendants et indépendants à l'égard du champ, écoutant un discours selon les débits suivants : 90 m/mn, 120 m/mn, 150 m/mn et 250 m/mn. Les sujets indépendants sont plus performants pour les débits élevés que les sujets dépendants à l'égard du champ. Alcala en 1985 a obtenu les mêmes résultats.

Les traitements perceptifs et cognitifs responsables des différences interindividuelles dans la vitesse de lecture d'une page écrite, pourraient également contribuer aux différences interindividuelles dans les capacités à comprendre la parole comprimée. Ainsi, les lecteurs rapides pourraient être capables de comprendre la parole comprimée à un taux plus élevé que les lecteurs lents. Cette hypothèse étudiée par Goldstein (1940) et par Orr et al. (1965) a conduit à deux expériences (citées par Foulke 1969) dans lesquelles il existe une corrélation positive entre la vitesse de lecture d'un sujet et sa capacité à comprendre la parole rapide. De plus il est démontré également que la pratique de l'écoute d'une parole rapide conduit à améliorer la vitesse de lecture.

Un autre facteur pourrait influencer la compréhension de la parole rapide : la préférence de l'auditeur (Lass et al. 1974, Gade 1979, Gade et al. 1980). Dans une étude concernant la préférence d'écoute d'auditeurs adultes, Cain et Lass (1974) ont testé 9 taux de mots s'échelonnant de 100 m/m, (mots par minute) à 300 m/mn. Le taux préféré est de 175 m/mn. Dans une expérience de Orr (1968) dans laquelle les participants peuvent faire varier eux-mêmes le taux de présentation orale, le taux choisi est environ 1,5 fois le taux normal. Dans les mêmes conditions, pour Foulke et Stitch (1966), le taux préféré de lycéens est de 207 m/mn. Pour Nath et al. (1981), dans un cours de formation continue pour adulte âgés de 22 à 55 ans, les sujets ont bien accepté un débit de 250 mots/minute correspondant à une compression de 50%. Leeper et Thomas (1978) ont testé le taux de mots préféré par des enfants de 7 à 9 ans en utilisant un paradigme de comparaison par paires et neuf taux de mots variant de 100 à 300 m/mn avec des intervalles de 25 m/mn. Les enfants préfèrent le débit de 200 m/mn et n'apprécient pas le taux de 100 m/mn.

Pour Lambert et al. (1980), la compréhension de la parole comprimée serait fonction de l'entraînement du sujet.

5-La rétention de la parole comprimée :

La plupart des expériences citées par Leroy (1982) ne concluent pas à une moins bonne rétention d'un texte entendu avec un débit de paroles élevé (Foulke 1966, Friedman et al.1967). George (1970) n'a pas observé une moins bonne rétention d'un discours écouté à vitesse rapide s'il a été compris. Arrasjid (1973) a présenté un test de rétention à des lycéens, une semaine après l'écoute d'un enregistrement comprimé et d'un enregistrement à taux normal. L'auteur n'a pas observé de différences en ce qui concerne la rétention des informations présentées sous ces deux formes.

V-APPLICATIONS POTENTIELLES DE La PAROLE COMPRIMEE ET DE L'ECOUTE RAPIDE

Nous suggérons ici quelques pistes d'études pour des applications potentielles. Toutes les expériences exposées ont été effectuées avec la langue anglaise. Il est bien entendu que des recherches approfondies avec la langue française sont nécessaires pour proposer des applications effectives.

1-Les applications pédagogiques :

La plupart des recherches relatées ici ont été effectuées aux Etats-Unis et associent une écoute rapide à d'autres formes de présentation de l'information (Leroy 1982).

a-Ecoute rapide et informations visuelles :

La parole comprimée est présentée en même temps que des schémas ou des images filmées. Dunathan et al. 1975 ont présenté à des lycéens un film vidéo et un enregistrement audio au même taux de compression (50%, 33%, 25% et 0%). Les sujets avaient pour objectif la construction d'un bateau. a 50 % de compression, les deux présentations simultanées auditives et visuelles ont conduit à la même performance motrice (construction d'un bateau) qu'avec les taux de compression plus faibles (0 %, 25 %, 33 %). Ludrick (1974) a utilisé un vidéo enregistrement à deux taux de présentation (150 et 211 m/mn). Les étudiants pour qui le taux de présentation était le plus élevé ont obtenu le meilleur résultat. Clements (1985) a utilisé des schémas associés à l'audition de paroles comprimées par des collégiens.

b-La présentation orale :

Un groupe de 29 étudiants écoutent un cours de biologie à un taux normal (entre 113 et 138m/mn) tandis qu'un autre groupe de 28 sujets écoute le même cours enregistré et comprimé (193 à 238 m/mn) par suppression des pauses (Sarenpa 1971). Aucune différence significative ne fut observée entre les connaissances des étudiants utilisant les enregistrements à taux normal et les connaissances des étudiants utilisant les enregistrements à taux comprimé ; toutefois ce dernier groupe gagne du temps dans l'apprentissage. Lass (1974) compare les performances des étudiants placés dans deux conditions d'étude. D'une part ils écoutent des enregistrements comprimés à 50 % par la méthode d'élimination des pauses, d'autre part, ils sont placés en condition de lecture libre. Lors d'un examen final, la performance des étudiants est meilleure pour les réponses aux questions concernant les enregistrements comprimés que sur les réponses aux questions concernant les lectures libres. Sur les 150 étudiants interrogés, 82 % préfèrent associer l'écoute d'enregistrements comprimés à des discussions plutôt que la lecture libre.

D'autre auteurs ont mis en évidence l'utilité et l'efficacité de l'écoute d'enregistrements comprimés (Challies 1973,Primerose 1973, Shore 1975). En général les résultats sont favorables à la parole comprimée tant que la compression ne dépasse pas 50 % et une grande majorité d'étudiants préfèrent "l'écoute rapide". Les groupes d'étudiants qui utilisent un compresseur gagnent un temps appréciable. Au-delà de 50 % de compression ou au-delà de 280 m/mn, la compression est mal acceptée par les auditeurs et entraîne une diminution de la compréhension pouvant retentir sur la performance (Leroy 1982).

c-La parole comprimée et la lecture :

Plusieurs chercheurs ont proposé d'étudier l'apport de la compression temporelle dans l'augmentation de la vitesse de lecture. L'audition d'un enregistrement dont le débit augmente progressivement, associée à la lecture silencieuse du même texte pourrait améliorer la vitesse de lecture (Orr 1964, Bradtmueller 1978 et 1979, Freeman et Beasley 1978, Leroy 1983). Toutefois, les résultats sont contradictoires dans ce domaine. (Reland 1966, Leroy 1982). Cependant, l'effet bénéfique ou non de la compression temporelle d'un enregistrement sur la lecture pourrait dépendre de l'âge du sujet et de son développement cognitif. Pierce (1978) a mis en évidence l'importance du facteur développemental : pour cet auteur, l'effet bénéfique de la compression sur l'augmentation de la vitesse de lecture pourrait être observé chez les lycéens.

d-Apprentissage d'une langue étrangère :

Les méthodes d'expansion et de compression temporelle sont utiles pour développer les capacités d'écoute et de compréhension et pour favoriser l'apprentissage d'une langue étrangère (Flahorty 1979, Harvey 1984, Vernick, 1985).

e-Formation continue et études supérieures :

Une autre application de la compression temporelle fut proposée pour accélérer l'acquisition d'une grande quantité d'informations chez les étudiants à l'université et chez les professionnels en formation continue (Rippey 1975). Nath et al.en 1981, ont utilisé la technique de compression temporelle dans le cadre d'une formation continue de pharmaciens et Drake en 1981 pour la formation continue des enseignants.

Short (1978) utilise la compression temporelle pour l'enseignement et l'auto-formation des étudiants à l'université de Syracuse. Beatty et al. (1980), Miner et al. (1980), Olson (1986) notent une plus grande efficacité de l'apprentissage dans l'enseignement supérieur grâce à l'utilisation de la compression temporelle.

2-Education spécialisée :
a-Handicap visuel :

Une application proposée et étudiée par un bon nombre d'expérimentateurs se situe dans le domaine de l'acquisition des connaissances chez les sujets aveugles (Bischoff 1979). En effet, la lecture braille est relativement lente comparée à la lecture visuelle silencieuse (Myers 1978, Colleen 1980). En moyenne, un bon lecteur en braille lit avec les doigts 100 à 120 m/mn alors qu'un lecteur voyant lit avec les yeux plus de 300 m/mn ( Myers 1978). Foulke à Louisville fut le premier à s'intéresser à cette application dans les années 60; de nombreux auteurs ont poursuivi les recherches dans ce domaine (Myers 1978, Bancroft 1981 et Bendinelli 1982).

b-Retard scolaire :

Des applications de la compression temporelle de la parole ont été proposées par différents auteurs pour favoriser l'éducation des enfants en difficultés scolaires à l'école primaire (Zucker et D'Alonzo 1981) et au lycée (D'Alonzo et Zucker 1981).

3-Tests et diagnostic des pathologies auditives :

Riensche et al. (1983) ont proposé des données normatives sur l'intelligibilité de la parole comprimée chez 40 auditeurs normaux âgés de 18 à 26 ans. Ils ont proposé aux sujets 5 séquences de rimes extraites du test de Fairbanks (1958), présentées de façon monaurale à l'aide d'écouteurs à 40 décibels. Les sujets doivent répéter les phonèmes initiaux dans l'ordre entendu. Les séquences sont présentées à débit normal ou comprimées à 60%, associées à un masquage multivoix ou non. Les auteurs considèrent que leurs données normatives permettront une application dans la détection des problèmes auditifs. Ils ont prolongé cette étude avec 72 enfants droitiers distribués en trois groupes d'âges différents : 7- 8, 9-10 et 11-12 ans. Beasley et al. (1980) ont établi des données pour 96 jeunes adultes sans problèmes d'audition avec des compressions de 40, 50, 60 et 70% et deux degrés d'intensité (24 et 40 décibels).

4-Marketting et publicité :

Schlinger et al. (1983) ont étudié une application originale de la compression de paroles dans le domaine du marketting et de la publicité. Selon leurs observations, les consommateurs apprécieraient davantage la parole rapide plus dynamisante et optimiste. Les personnes qui parlent vite sont mieux considérées par les auditeurs (Mc Lachlan 1982).

VI-CONCLUSION

Les recherches des acousticiens (Vicard 1987, Wang 1987) et des informaticiens (Pierrel 1987) qui ont pour objectif la synthèse et la reconnaissance de la parole, utilisent les résultats des phonéticiens, des phonologistes, des linguistes, des psychologues, mais en contre partie vérifient ces résultats :

  • la parole est redondante et reste intelligible après élimination de petits segments du signal vocal,
  • la durée d'un phonème varie entre 30 millisecondes à quelques centaines de millisecondes,
  • des "silences" sont indispensables pour la reconnaissance de certaines consonnes et l'intelligibilité de la parole,
  • les pauses et la prosodie jouent un rôle important dans la compréhension des informations parlées,
  • la coarticulation et les interactions entre les différentes étapes du traitement rendent ces études très complexes,
  • la schématisation des mécanismes et des processus mis en jeu est toujours réductionniste, même si elle permet d'affiner les résultats et d'améliorer la qualité des synthèses vocales, des progrès sont encore attendus dans la reconnaissance de la parole,
  • l'attention et la mémoire sont importantes dans l'analyse, la compréhension et l'interprétation d'un message parlé.

Étudiées sur un plan théorique et pratique surtout à partir des années 60, les techniques de compression temporelle de paroles ont conduit à différentes applications. Des revues de questions de Foulke (1969) et Leroy (1982), ainsi que des différentes expérimentations effectuées dans les années 80, plusieurs idées générales peuvent se dégager.

À un niveau théorique, deux catégories d'études sont à envisager :

1-Les expériences qui analysent les relations entre le taux des mots d'un discours et l'intelligibilité de cet énoncé. La compression temporelle produite par la méthode d'échantillonnage, permet une intelligibilité relativement correcte avec des taux de compression relativement élevé (50 et 60 %) et avec une élimination de signal sonore assez importante (jusqu'à 60 millisecondes). Toutefois, il semblerait que les durées des segments éliminés, pour lesquelles l'intelligibilité reste optimale, soient comprises entre 10 et 30 millisecondes.

Pour l'intelligibilité associée à un niveau périphérique du traitement du signal vocal, tous les paramètres n'ont pas la même importance. Par exemple les deux ou trois premiers formants d'une voyelle sont suffisants pour la discriminer. D'autre part, l'oreille humaine ne peut percevoir des durée de signal sonore inférieures à 30 millisecondes. Pour la discrimination de certaines consonnes, la présence de "silence" étant indispensable, l'élimination d'une trop grande portion de signal pourrait affecter l'intelligibilité du message. C'est pourquoi nous pensons que des périodes "off" comprises entre 10 et 30 millisecondes sont préférables.

2-Les études qui évaluent la compréhension liée à l'écoute par rapport à différents taux de mots. La compréhension décroît modérément en fonction de l'augmentation du taux des mots jusqu'à une certaine limite qui est de 275 mots par minute. La compréhension d'un discours diminue brusquement et très rapidement pour un débit de parole dépassant 275 mots/minute.

L'augmentation du taux de compression a un effet différent sur la compréhension liée à l'écoute et sur l'intelligibilité des mots.

Enfin il convient de signaler que l'intelligibilité et la compréhension d'un discours accéléré par la méthode d'accélération de la vitesse de déroulement d'une bande magnétique, sont fortement diminuées au-delà de 30 %.

Ces résultats montrent que l'intelligibilité des mots ne suffit pas à prédire le taux de compréhension du discours. La compréhension du langage parlé implique l'enregistrement continu (codage et stockage) des informations parlées. Elle nécessite un traitement de l'information et par conséquent un minimum de temps. Quand le taux des mots est trop élevé, ceux- ci ne peuvent être traités aussi rapidement qu'ils sont reçus. En conséquence, des informations sont perdues.

La présentation séquentielle d'un énoncé parlé, le temps nécessaire au traitement perceptif et cognitif d'un signal auditif expliqueraient ce seuil de 275 mots/minute. L'étude de la compréhension d'un discours implique l'écoute d'une parole continue et de nombreux facteurs peuvent alors être influencés par la compression temporelle : la coarticulation, la prosodie, l'accès au lexique, l'intégration syntaxique, la mémoire à court terme (Chodorow 1979). Les premières expériences que nous avons effectuées avec des étudiants (Richaume 1987, 1988) ont mis en évidence une variabilité interindividuelle assez prononcée dans l'intelligibilité et la compréhension de la parole comprimée. En reprenant le point de vue de Baddeley (1986) le rôle de la mémoire à court terme et de la vitesse d'articulation du sujet sont probablement des facteurs importants. Quand le sujet doit maintenir une information en mémoire à court terme, il procède à une auto-répétition de maintenance. L'auto-répétition mentale dépendrait de la vitesse d'articulation ou du moins de sa vitesse de répétition intérieure. Plus le sujet articule vite, plus le nombre de mots répétés est élevé. Nous pensons que le traitement et la mémorisation de L'information auditive sont favorisés par une articulation rapide : les sujets qui articulent vite et qui lisent vite comprendraient mieux la parole comprimée.

Au niveau pratique, l'évolution des techniques électroniques, a pu rendre possible l'insertion de processeurs dans un magnétophone de petite taille et différents modèles sont en vente actuellement (France, Etats-Unis ect...). Des compresseurs de paroles plus sophistiqués et des logiciels existent également à des prix plus élevés.

Le taux de mots correspondant au seuil d'efficacité d'écoute d'un discours comprimé est environ deux fois le débit normal d'émission des paroles. De plus ce seuil pour les énoncés familiers, déjà entendus et compris semblerait être plus élevé. Ainsi, l'intérêt de gagner du temps sans perte dans la compréhension et l'apprentissage, semble alors évident. La compression temporelle d'un signal auditif pourrait donc avoir des applications très appréciables tant dans le domaine de l'enseignement et de l'apprentissage que dans celui de la réhabilitation des personnes handicapés.

Toutefois, le premier obstacle à cette innovation pédagogique, pourrait être la non acceptation de cette nouvelle méthode par les utilisateurs potentiels. Les premières expériences dans ce domaine ont mis en évidence un effet de pratique et les effets de différents facteurs tels que l'âge, le niveau mental, le stade du développement cognitif du sujet. Des études théoriques et expérimentales sont nécessaires pour préciser l'intérêt de la compression et pour déterminer à quelle population elle s'adresserait de façon préférentielle.

[Suite à la section II]


 


Au sommaire de la thèse

  1. Présentation de la thèse
  2. CHAPITRE 1 : LENTEUR DANS L'ACQUISITION DES CONNAISSANCES CHEZ L'AVEUGLE
  3. CHAPITRE 2 : L'ÉCOUTE ET LE TRAITEMENT DE L'INFORMATION PARLÉE
  4. CHAPITRE 3 : LA PRISE DE NOTES
  5. CHAPITRE 4 : LA PAROLE COMPRIMÉE ET L'ÉCOUTE RAPIDE
  6. CHAPITRE 4 : LA PAROLE COMPRIMÉE ET L'ÉCOUTE RAPIDE - Section II
  7. CHAPITRE 4 : LA PAROLE COMPRIMÉE ET L'ÉCOUTE RAPIDE - Section III
  8. CHAPITRE 5 : LA SYNTHÈSE VOCALE DANS LES NOUVELLES TECHNOLOGIES

Fac ut videam (Faites que je vois)
Le mot latin Fac écrit en braille. 
Le mot latin Ut écrit en braille. 
Le mot latin Videam écrit en braille.

Éphéméride du jour

En ce 11 décembre de l'an de grâce 2004. France une première : une personne handicapée visuelle obtient le brevet national de moniteur des premiers secours. (BNMPS).

Saviez-vous que :

Louis Braille naquit le 4 janvier 1809 à Coupvray, petit village agricole de la banlieue Est de Paris. Il mourut à Paris, à l'âge de 43 ans, le 6 janvier 1852. C'est vers 1825 qu'il mit au point l'alphabeth qui, déshormais, porte son nom. Aujourd'hui encore, il est utilisé comme système de lecture et d'écriture par les aveugles du monde entier.

TyphloPensée

« On n'a jamais vu un aveugle dans un camp de nudistes. »

Woody Allen

Étymologie

Typhlophile tire sa racine de « typhlo » d'origine grecque et qui veut dire « cécité »; et « phile » veut dire ami, sympathisant, etc. Donc, Typhlophile veut dire l'ami des aveugles.

Un clin d'œil vers :

Haut de la page.

Politique d'accessibilité du site
[Certifier Bobby Approved (v 3.2). | Description]
[Validation HTML/XHTML du W3Québec | Valide CSS! | Ce document rencontre les conformités Valid XHTML 1.0 Strict]
DERNIÈRE MISE À JOUR DU SITE 20 janvier 2012
© 1996/2017; Le Typhlophile - Longueuil, Québec (Canada)

Pour vos commentaires et suggestions.