@inproceedings{kim-gendrot-2024-utilisation,
title = "Utilisation de wav2vec 2.0 pour des t{\^a}ches de classifications phon{\'e}tiques : aspects m{\'e}thodologiques",
author = "Kim, Lila and
Gendrot, Cedric",
editor = "Balaguer, Mathieu and
Bendahman, Nihed and
Ho-dac, Lydia-Mai and
Mauclair, Julie and
G Moreno, Jose and
Pinquier, Julien",
booktitle = "Actes des 35{\`e}mes Journ{\'e}es d'{\'E}tudes sur la Parole",
month = "7",
year = "2024",
address = "Toulouse, France",
publisher = "ATALA and AFPC",
url = "https://aclanthology.org/2024.jeptalnrecital-jep.23/",
pages = "219--229",
language = "fra",
abstract = "L`apprentissage auto-supervis{\'e}, particuli{\`e}rement dans le contexte de la parole, a d{\'e}montr{\'e} son efficacit{\'e} dans diverses t{\^a}ches telles que la reconnaissance du locuteur et la reconnaissance de la parole. Notre question de recherche se concentre sur l`efficacit{\'e} des repr{\'e}sentations vectorielles - extraites de phon{\`e}mes - plus courtes par rapport {\`a} des s{\'e}quences plus longues dans la d{\'e}tection de la nasalit{\'e}. Deux approches distinctes ont {\'e}t{\'e} {\'e}tudi{\'e}es : extraire des vecteurs sur la dur{\'e}e du phon{\`e}me et prendre des s{\'e}quences plus longues avec une seconde ajout{\'e}e de chaque c{\^o}t{\'e} du phon{\`e}me, puis r{\'e}cup{\'e}rer la partie centrale a posteriori. Les r{\'e}sultats r{\'e}v{\`e}lent que les mod{\`e}les r{\'e}agissent diff{\'e}remment selon les phones et les locuteurs, avec une variabilit{\'e} observ{\'e}e {\`a} ces niveaux. Le mod{\`e}le {\`a} s{\'e}quences longues surpasse le mod{\`e}le {\`a} s{\'e}quences courtes en assurant une corr{\'e}lation plus robuste avec le d{\'e}bit d`air nasal."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="kim-gendrot-2024-utilisation">
<titleInfo>
<title>Utilisation de wav2vec 2.0 pour des tâches de classifications phonétiques : aspects méthodologiques</title>
</titleInfo>
<name type="personal">
<namePart type="given">Lila</namePart>
<namePart type="family">Kim</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Cedric</namePart>
<namePart type="family">Gendrot</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2024-07</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes des 35èmes Journées d’Études sur la Parole</title>
</titleInfo>
<name type="personal">
<namePart type="given">Mathieu</namePart>
<namePart type="family">Balaguer</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Nihed</namePart>
<namePart type="family">Bendahman</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Lydia-Mai</namePart>
<namePart type="family">Ho-dac</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julie</namePart>
<namePart type="family">Mauclair</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jose</namePart>
<namePart type="family">G Moreno</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julien</namePart>
<namePart type="family">Pinquier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA and AFPC</publisher>
<place>
<placeTerm type="text">Toulouse, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>L‘apprentissage auto-supervisé, particulièrement dans le contexte de la parole, a démontré son efficacité dans diverses tâches telles que la reconnaissance du locuteur et la reconnaissance de la parole. Notre question de recherche se concentre sur l‘efficacité des représentations vectorielles - extraites de phonèmes - plus courtes par rapport à des séquences plus longues dans la détection de la nasalité. Deux approches distinctes ont été étudiées : extraire des vecteurs sur la durée du phonème et prendre des séquences plus longues avec une seconde ajoutée de chaque côté du phonème, puis récupérer la partie centrale a posteriori. Les résultats révèlent que les modèles réagissent différemment selon les phones et les locuteurs, avec une variabilité observée à ces niveaux. Le modèle à séquences longues surpasse le modèle à séquences courtes en assurant une corrélation plus robuste avec le débit d‘air nasal.</abstract>
<identifier type="citekey">kim-gendrot-2024-utilisation</identifier>
<location>
<url>https://aclanthology.org/2024.jeptalnrecital-jep.23/</url>
</location>
<part>
<date>2024-7</date>
<extent unit="page">
<start>219</start>
<end>229</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Utilisation de wav2vec 2.0 pour des tâches de classifications phonétiques : aspects méthodologiques
%A Kim, Lila
%A Gendrot, Cedric
%Y Balaguer, Mathieu
%Y Bendahman, Nihed
%Y Ho-dac, Lydia-Mai
%Y Mauclair, Julie
%Y G Moreno, Jose
%Y Pinquier, Julien
%S Actes des 35èmes Journées d’Études sur la Parole
%D 2024
%8 July
%I ATALA and AFPC
%C Toulouse, France
%G fra
%F kim-gendrot-2024-utilisation
%X L‘apprentissage auto-supervisé, particulièrement dans le contexte de la parole, a démontré son efficacité dans diverses tâches telles que la reconnaissance du locuteur et la reconnaissance de la parole. Notre question de recherche se concentre sur l‘efficacité des représentations vectorielles - extraites de phonèmes - plus courtes par rapport à des séquences plus longues dans la détection de la nasalité. Deux approches distinctes ont été étudiées : extraire des vecteurs sur la durée du phonème et prendre des séquences plus longues avec une seconde ajoutée de chaque côté du phonème, puis récupérer la partie centrale a posteriori. Les résultats révèlent que les modèles réagissent différemment selon les phones et les locuteurs, avec une variabilité observée à ces niveaux. Le modèle à séquences longues surpasse le modèle à séquences courtes en assurant une corrélation plus robuste avec le débit d‘air nasal.
%U https://aclanthology.org/2024.jeptalnrecital-jep.23/
%P 219-229
Markdown (Informal)
[Utilisation de wav2vec 2.0 pour des tâches de classifications phonétiques : aspects méthodologiques](https://aclanthology.org/2024.jeptalnrecital-jep.23/) (Kim & Gendrot, JEP/TALN/RECITAL 2024)
ACL