Téva Merlin
Also published as: Teva Merlin
2023
HATS : Un jeu de données intégrant la perception humaine appliquée à l’évaluation des métriques de transcription de la parole
Thibault Bañeras-Roux
|
Jane Wottawa
|
Mickael Rouvier
|
Teva Merlin
|
Richard Dufour
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 4 : articles déjà soumis ou acceptés en conférence internationale
Traditionnellement, les systèmes de reconnaissance automatique de la parole (RAP) sont évalués sur leur capacité à reconnaître correctement chaque mot contenu dans un signal vocal. Dans ce contexte, la mesure du taux d’erreur-mot est la référence pour évaluer les transcriptions vocales. Plusieurs études ont montré que cette mesure est trop limitée pour évaluer correctement un système de RAP, ce qui a conduit à la proposition d’autres variantes et d’autres métriques. Cependant, toutes ces métriques restent orientées “système” alors même que les transcriptions sont destinées à des humains. Dans cet article, nous proposons un jeu de données original annoté manuellement en termes de perception humaine des erreurs de transcription produites par divers systèmes de RAP. Plus de 120 humains ont été invités à choisir la meilleure transcription automatique entre deux hypothèses. Nous étudions la relation entre les préférences humaines et diverses mesures d’évaluation pour les systèmes de RAP, y compris les mesures lexicales et celles fondées sur les plongements de mots.
2008
Combined Systems for Automatic Phonetic Transcription of Proper Nouns
Antoine Laurent
|
Téva Merlin
|
Sylvain Meignier
|
Yannick Estève
|
Paul Deléglise
Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)
Large vocabulary automatic speech recognition (ASR) technologies perform well in known, controlled contexts. However recognition of proper nouns is commonly considered as a difficult task. Accurate phonetic transcription of a proper noun is difficult to obtain, although it can be one of the most important resources for a recognition system. In this article, we propose methods of automatic phonetic transcription applied to proper nouns. The methods are based on combinations of the rule-based phonetic transcription generator LIA_PHON and an acoustic-phonetic decoding system. On the ESTER corpus, we observed that the combined systems obtain better results than our reference system (LIA_PHON). The WER (Word Error Rate) decreased on segments of speech containing proper nouns, without affecting negatively the results on the rest of the corpus. On the same corpus, the Proper Noun Error Rate (PNER, which is a WER computed on proper nouns only), decreased with our new system.
Search
Co-authors
- Thibault Bañeras-Roux 1
- Jane Wottawa 1
- Mickaël Rouvier 1
- Richard Dufour 1
- Antoine Laurent 1
- show all...