Création d’un corpus parallèle de styles de parole en mandarin via l’auto-transcription et l’alignement forcé

Jingyi Sun, Yaru Wu, Nicolas Audibert, Martine Adda-Decker


Abstract
La technologie ASR excelle dans la transcription précise des discours lus préparés, mais elle rencontre encore des défis lorsqu’il s’agit de conversations spontanées. Cela est en partie dû au fait que ces dernières relèvent d’un registre de langage informel, avec disfluences et réductions de parole. Afin de mieux comprendre les différences de production en fonction des styles de parole, nous présentons la création d’un corpus de parole conversationnelle, dont des extraits sont ensuite lus par leurs auteurs. Le corpus comprend 36 heures de parole en chinois mandarin avec leur transcription, réparties entre conversations spontanées et lecture. Nous avons utilisé WHISPER pour la transcription automatique de la parole et le Montreal Forced Aligner pour l’alignement forcé, résultant dans un corpus de parole transcrit avec annotations multi-niveaux incluant phonèmes, caractères/syllabes et mots. De telles productions de parole parallèles (en modes spontané et lu) seront particulièrement intéressantes pour l’étude des réductions temporelles.
Anthology ID:
2024.jeptalnrecital-jep.30
Volume:
Actes des 35èmes Journées d'Études sur la Parole
Month:
7
Year:
2024
Address:
Toulouse, France
Editors:
Mathieu Balaguer, Nihed Bendahman, Lydia-Mai Ho-dac, Julie Mauclair, Jose G Moreno, Julien Pinquier
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA and AFPC
Note:
Pages:
291–300
Language:
French
URL:
https://aclanthology.org/2024.jeptalnrecital-jep.30/
DOI:
Bibkey:
Cite (ACL):
Jingyi Sun, Yaru Wu, Nicolas Audibert, and Martine Adda-Decker. 2024. Création d’un corpus parallèle de styles de parole en mandarin via l’auto-transcription et l’alignement forcé. In Actes des 35èmes Journées d'Études sur la Parole, pages 291–300, Toulouse, France. ATALA and AFPC.
Cite (Informal):
Création d’un corpus parallèle de styles de parole en mandarin via l’auto-transcription et l’alignement forcé (Sun et al., JEP/TALN/RECITAL 2024)
Copy Citation:
PDF:
https://aclanthology.org/2024.jeptalnrecital-jep.30.pdf