@inproceedings{block-medin-etal-2024-adaptation,
title = "Adaptation de mod{\`e}les auto-supervis{\'e}s pour la reconnaissance de phon{\`e}mes dans la parole d`enfant",
author = "Block Medin, Lucas and
Gelin, Lucile and
Pellegrini, Thomas",
editor = "Balaguer, Mathieu and
Bendahman, Nihed and
Ho-dac, Lydia-Mai and
Mauclair, Julie and
G Moreno, Jose and
Pinquier, Julien",
booktitle = "Actes des 35{\`e}mes Journ{\'e}es d'{\'E}tudes sur la Parole",
month = "7",
year = "2024",
address = "Toulouse, France",
publisher = "ATALA and AFPC",
url = "https://aclanthology.org/2024.jeptalnrecital-jep.24/",
pages = "231--241",
language = "fra",
abstract = "La reconnaissance de parole d`enfant est un domaine de recherche encore peu d{\'e}velopp{\'e} en raison du manque de donn{\'e}es et des difficult{\'e}s caract{\'e}ristiques de cette t{\^a}che. Apr{\`e}s avoir explor{\'e} diverses architectures pour la RAP d`enfant dans de pr{\'e}c{\'e}dents travaux, nous nous attaquons dans cet article aux nouveaux mod{\`e}les auto-supervis{\'e}s. Nous comparons d`abord plusieurs mod{\`e}les Wav2vec2, HuBERT et WavLM adapt{\'e}s superficiellement {\`a} la reconnaissance de phon{\`e}mes sur parole d`enfant, et poursuivons nos exp{\'e}riences avec le meilleur d`entre eux, un WavLM base+. Il est ensuite adapt{\'e} plus profond{\'e}ment en d{\'e}gelant ses blocs transformer lors de l`entra{\^i}nement sur parole d`enfant, ce qui am{\'e}liore grandement ses performances et le fait surpasser significativement notre mod{\`e}le de base, un Transformer+CTC. Enfin, nous {\'e}tudions en d{\'e}tail les comportements de ces deux mod{\`e}les en conditions r{\'e}elles de notre application, et montrons que WavLM base+ est plus robuste {\`a} diverses t{\^a}ches de lecture et niveaux de bruit."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="block-medin-etal-2024-adaptation">
<titleInfo>
<title>Adaptation de modèles auto-supervisés pour la reconnaissance de phonèmes dans la parole d‘enfant</title>
</titleInfo>
<name type="personal">
<namePart type="given">Lucas</namePart>
<namePart type="family">Block Medin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Lucile</namePart>
<namePart type="family">Gelin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Thomas</namePart>
<namePart type="family">Pellegrini</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2024-07</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes des 35èmes Journées d’Études sur la Parole</title>
</titleInfo>
<name type="personal">
<namePart type="given">Mathieu</namePart>
<namePart type="family">Balaguer</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Nihed</namePart>
<namePart type="family">Bendahman</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Lydia-Mai</namePart>
<namePart type="family">Ho-dac</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julie</namePart>
<namePart type="family">Mauclair</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jose</namePart>
<namePart type="family">G Moreno</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julien</namePart>
<namePart type="family">Pinquier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA and AFPC</publisher>
<place>
<placeTerm type="text">Toulouse, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>La reconnaissance de parole d‘enfant est un domaine de recherche encore peu développé en raison du manque de données et des difficultés caractéristiques de cette tâche. Après avoir exploré diverses architectures pour la RAP d‘enfant dans de précédents travaux, nous nous attaquons dans cet article aux nouveaux modèles auto-supervisés. Nous comparons d‘abord plusieurs modèles Wav2vec2, HuBERT et WavLM adaptés superficiellement à la reconnaissance de phonèmes sur parole d‘enfant, et poursuivons nos expériences avec le meilleur d‘entre eux, un WavLM base+. Il est ensuite adapté plus profondément en dégelant ses blocs transformer lors de l‘entraînement sur parole d‘enfant, ce qui améliore grandement ses performances et le fait surpasser significativement notre modèle de base, un Transformer+CTC. Enfin, nous étudions en détail les comportements de ces deux modèles en conditions réelles de notre application, et montrons que WavLM base+ est plus robuste à diverses tâches de lecture et niveaux de bruit.</abstract>
<identifier type="citekey">block-medin-etal-2024-adaptation</identifier>
<location>
<url>https://aclanthology.org/2024.jeptalnrecital-jep.24/</url>
</location>
<part>
<date>2024-7</date>
<extent unit="page">
<start>231</start>
<end>241</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Adaptation de modèles auto-supervisés pour la reconnaissance de phonèmes dans la parole d‘enfant
%A Block Medin, Lucas
%A Gelin, Lucile
%A Pellegrini, Thomas
%Y Balaguer, Mathieu
%Y Bendahman, Nihed
%Y Ho-dac, Lydia-Mai
%Y Mauclair, Julie
%Y G Moreno, Jose
%Y Pinquier, Julien
%S Actes des 35èmes Journées d’Études sur la Parole
%D 2024
%8 July
%I ATALA and AFPC
%C Toulouse, France
%G fra
%F block-medin-etal-2024-adaptation
%X La reconnaissance de parole d‘enfant est un domaine de recherche encore peu développé en raison du manque de données et des difficultés caractéristiques de cette tâche. Après avoir exploré diverses architectures pour la RAP d‘enfant dans de précédents travaux, nous nous attaquons dans cet article aux nouveaux modèles auto-supervisés. Nous comparons d‘abord plusieurs modèles Wav2vec2, HuBERT et WavLM adaptés superficiellement à la reconnaissance de phonèmes sur parole d‘enfant, et poursuivons nos expériences avec le meilleur d‘entre eux, un WavLM base+. Il est ensuite adapté plus profondément en dégelant ses blocs transformer lors de l‘entraînement sur parole d‘enfant, ce qui améliore grandement ses performances et le fait surpasser significativement notre modèle de base, un Transformer+CTC. Enfin, nous étudions en détail les comportements de ces deux modèles en conditions réelles de notre application, et montrons que WavLM base+ est plus robuste à diverses tâches de lecture et niveaux de bruit.
%U https://aclanthology.org/2024.jeptalnrecital-jep.24/
%P 231-241
Markdown (Informal)
[Adaptation de modèles auto-supervisés pour la reconnaissance de phonèmes dans la parole d’enfant](https://aclanthology.org/2024.jeptalnrecital-jep.24/) (Block Medin et al., JEP/TALN/RECITAL 2024)
ACL