@inproceedings{n-havard-etal-2024-technologies,
title = {Technologies de la parole et donn{\'e}es de terrain : le cas du cr{\'e}ole ha{\"i}tien},
author = "N. Havard, William and
Govain, Renauld and
Gon{\c{c}}alves Teixeira, Daphne and
Lecouteux, Benjamin and
Schang, Emmanuel",
editor = "Balaguer, Mathieu and
Bendahman, Nihed and
Ho-dac, Lydia-Mai and
Mauclair, Julie and
G Moreno, Jose and
Pinquier, Julien",
booktitle = "Actes de la 31{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position",
month = "7",
year = "2024",
address = "Toulouse, France",
publisher = "ATALA and AFPC",
url = "https://aclanthology.org/2024.jeptalnrecital-taln.45/",
pages = "686--694",
language = "fra",
abstract = {Nous utilisons des donn{\'e}es de terrain en cr{\'e}ole ha{\"i}tien, r{\'e}colt{\'e}es il y a {\$}40{\$} ans sur cassettes puis num{\'e}ris{\'e}es, pour entra{\^i}ner un mod{\`e}le natif d`apprentissage auto-supervis{\'e} (SSL) de la parole (Wav2Vec2) en ha{\"i}tien. Nous utilisons une approche de pr{\'e}-entra{\^i}nement continu (CPT) sur des mod{\`e}les SSL pr{\'e}-entra{\^i}n{\'e}s de deux langues {\'e}trang{\`e}res : la langue lexificatrice {--} le fran{\c{c}}ais {--} et une langue non apparent{\'e}e {--} l`anglais. Nous comparons les performances de ces trois mod{\`e}les SSL, et de deux autres mod{\`e}les SSL {\'e}trangers directement affin{\'e}s, sur une t{\^a}che de reconnaissance de la parole. Nos r{\'e}sultats montrent que le mod{\`e}le le plus performant est celui qui a {\'e}t{\'e} entra{\^i}n{\'e} en utilisant une approche CPT sur la langue lexificatrice, suivi par le mod{\`e}le natif. Nous concluons que l`approche de {\textquotedblright}mobilisation des archives{\textquotedblright} pr{\'e}conis{\'e}e par (Bird, 2020) est une voie prometteuse pour concevoir des technologies vocales pour de nouvelles langues.}
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="n-havard-etal-2024-technologies">
<titleInfo>
<title>Technologies de la parole et données de terrain : le cas du créole haïtien</title>
</titleInfo>
<name type="personal">
<namePart type="given">William</namePart>
<namePart type="family">N. Havard</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Renauld</namePart>
<namePart type="family">Govain</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Daphne</namePart>
<namePart type="family">Gonçalves Teixeira</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benjamin</namePart>
<namePart type="family">Lecouteux</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Emmanuel</namePart>
<namePart type="family">Schang</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2024-07</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position</title>
</titleInfo>
<name type="personal">
<namePart type="given">Mathieu</namePart>
<namePart type="family">Balaguer</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Nihed</namePart>
<namePart type="family">Bendahman</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Lydia-Mai</namePart>
<namePart type="family">Ho-dac</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julie</namePart>
<namePart type="family">Mauclair</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jose</namePart>
<namePart type="family">G Moreno</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julien</namePart>
<namePart type="family">Pinquier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA and AFPC</publisher>
<place>
<placeTerm type="text">Toulouse, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Nous utilisons des données de terrain en créole haïtien, récoltées il y a $40$ ans sur cassettes puis numérisées, pour entraîner un modèle natif d‘apprentissage auto-supervisé (SSL) de la parole (Wav2Vec2) en haïtien. Nous utilisons une approche de pré-entraînement continu (CPT) sur des modèles SSL pré-entraînés de deux langues étrangères : la langue lexificatrice – le français – et une langue non apparentée – l‘anglais. Nous comparons les performances de ces trois modèles SSL, et de deux autres modèles SSL étrangers directement affinés, sur une tâche de reconnaissance de la parole. Nos résultats montrent que le modèle le plus performant est celui qui a été entraîné en utilisant une approche CPT sur la langue lexificatrice, suivi par le modèle natif. Nous concluons que l‘approche de ”mobilisation des archives” préconisée par (Bird, 2020) est une voie prometteuse pour concevoir des technologies vocales pour de nouvelles langues.</abstract>
<identifier type="citekey">n-havard-etal-2024-technologies</identifier>
<location>
<url>https://aclanthology.org/2024.jeptalnrecital-taln.45/</url>
</location>
<part>
<date>2024-7</date>
<extent unit="page">
<start>686</start>
<end>694</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Technologies de la parole et données de terrain : le cas du créole haïtien
%A N. Havard, William
%A Govain, Renauld
%A Gonçalves Teixeira, Daphne
%A Lecouteux, Benjamin
%A Schang, Emmanuel
%Y Balaguer, Mathieu
%Y Bendahman, Nihed
%Y Ho-dac, Lydia-Mai
%Y Mauclair, Julie
%Y G Moreno, Jose
%Y Pinquier, Julien
%S Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position
%D 2024
%8 July
%I ATALA and AFPC
%C Toulouse, France
%G fra
%F n-havard-etal-2024-technologies
%X Nous utilisons des données de terrain en créole haïtien, récoltées il y a $40$ ans sur cassettes puis numérisées, pour entraîner un modèle natif d‘apprentissage auto-supervisé (SSL) de la parole (Wav2Vec2) en haïtien. Nous utilisons une approche de pré-entraînement continu (CPT) sur des modèles SSL pré-entraînés de deux langues étrangères : la langue lexificatrice – le français – et une langue non apparentée – l‘anglais. Nous comparons les performances de ces trois modèles SSL, et de deux autres modèles SSL étrangers directement affinés, sur une tâche de reconnaissance de la parole. Nos résultats montrent que le modèle le plus performant est celui qui a été entraîné en utilisant une approche CPT sur la langue lexificatrice, suivi par le modèle natif. Nous concluons que l‘approche de ”mobilisation des archives” préconisée par (Bird, 2020) est une voie prometteuse pour concevoir des technologies vocales pour de nouvelles langues.
%U https://aclanthology.org/2024.jeptalnrecital-taln.45/
%P 686-694
Markdown (Informal)
[Technologies de la parole et données de terrain : le cas du créole haïtien](https://aclanthology.org/2024.jeptalnrecital-taln.45/) (N. Havard et al., JEP/TALN/RECITAL 2024)
ACL