@inproceedings{felice-etal-2024-audiocite-arrivee,
title = "Audiocite.net un grand corpus d{'}enregistrements vocaux de lecture en fran{\c{c}}ais",
author = "Felice, Soline and
Evain, Sol{\`e}ne and
Rossato, Solange and
Portet, Fran{\c{c}}ois",
editor = "Balaguer, Mathieu and
Bendahman, Nihed and
Ho-dac, Lydia-Mai and
Mauclair, Julie and
G Moreno, Jose and
Pinquier, Julien",
booktitle = "Actes des 35{\`e}mes Journ{\'e}es d'{\'E}tudes sur la Parole",
month = "7",
year = "2024",
address = "Toulouse, France",
publisher = "ATALA and AFPC",
url = "https://aclanthology.org/2024.jeptalnrecital-jep.28",
pages = "271--280",
abstract = "L{'}arriv{\'e}e de l{'}apprentissage auto-supervis{\'e} dans le domaine du traitement automatique de la parole a permis l{'}utilisation de grands corpus non {\'e}tiquet{\'e}s pour obtenir des mod{\`e}les pr{\'e}-appris utilis{\'e}s comme encodeurs des signaux de parole pour de nombreuses t{\^a}ches. Toutefois, l{'}application de ces m{\'e}thodes de SSL sur des langues telles que le fran{\c{c}}ais s{'}est montr{\'e}e difficile due {\`a} la quantit{\'e} limit{\'e}e de corpus de parole du fran{\c{c}}ais publiquement accessible. C{'}est dans cet objectif que nous pr{\'e}sentons le corpus Audiocite.net comprenant 6682 heures d{'}enregistrements de lecture par 130 locuteurs et locutrices. Ce corpus est construit {\`a} partir de livres audio provenant du site audiocite.net. En plus de d{\'e}crire le processus de cr{\'e}ation et les statistiques obtenues, nous montrons {\'e}galement l{'}impact de ce corpus sur les mod{\`e}les du projet LeBenchmark dans leurs versions 14k pour des t{\^a}ches de traitement automatique de la parole.",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="felice-etal-2024-audiocite-arrivee">
<titleInfo>
<title>Audiocite.net un grand corpus d’enregistrements vocaux de lecture en français</title>
</titleInfo>
<name type="personal">
<namePart type="given">Soline</namePart>
<namePart type="family">Felice</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Solène</namePart>
<namePart type="family">Evain</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Solange</namePart>
<namePart type="family">Rossato</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">François</namePart>
<namePart type="family">Portet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2024-07</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<relatedItem type="host">
<titleInfo>
<title>Actes des 35èmes Journées d’Études sur la Parole</title>
</titleInfo>
<name type="personal">
<namePart type="given">Mathieu</namePart>
<namePart type="family">Balaguer</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Nihed</namePart>
<namePart type="family">Bendahman</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Lydia-Mai</namePart>
<namePart type="family">Ho-dac</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julie</namePart>
<namePart type="family">Mauclair</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jose</namePart>
<namePart type="family">G Moreno</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julien</namePart>
<namePart type="family">Pinquier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA and AFPC</publisher>
<place>
<placeTerm type="text">Toulouse, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>L’arrivée de l’apprentissage auto-supervisé dans le domaine du traitement automatique de la parole a permis l’utilisation de grands corpus non étiquetés pour obtenir des modèles pré-appris utilisés comme encodeurs des signaux de parole pour de nombreuses tâches. Toutefois, l’application de ces méthodes de SSL sur des langues telles que le français s’est montrée difficile due à la quantité limitée de corpus de parole du français publiquement accessible. C’est dans cet objectif que nous présentons le corpus Audiocite.net comprenant 6682 heures d’enregistrements de lecture par 130 locuteurs et locutrices. Ce corpus est construit à partir de livres audio provenant du site audiocite.net. En plus de décrire le processus de création et les statistiques obtenues, nous montrons également l’impact de ce corpus sur les modèles du projet LeBenchmark dans leurs versions 14k pour des tâches de traitement automatique de la parole.</abstract>
<identifier type="citekey">felice-etal-2024-audiocite-arrivee</identifier>
<location>
<url>https://aclanthology.org/2024.jeptalnrecital-jep.28</url>
</location>
<part>
<date>2024-7</date>
<extent unit="page">
<start>271</start>
<end>280</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Audiocite.net un grand corpus d’enregistrements vocaux de lecture en français
%A Felice, Soline
%A Evain, Solène
%A Rossato, Solange
%A Portet, François
%Y Balaguer, Mathieu
%Y Bendahman, Nihed
%Y Ho-dac, Lydia-Mai
%Y Mauclair, Julie
%Y G Moreno, Jose
%Y Pinquier, Julien
%S Actes des 35èmes Journées d’Études sur la Parole
%D 2024
%8 July
%I ATALA and AFPC
%C Toulouse, France
%F felice-etal-2024-audiocite-arrivee
%X L’arrivée de l’apprentissage auto-supervisé dans le domaine du traitement automatique de la parole a permis l’utilisation de grands corpus non étiquetés pour obtenir des modèles pré-appris utilisés comme encodeurs des signaux de parole pour de nombreuses tâches. Toutefois, l’application de ces méthodes de SSL sur des langues telles que le français s’est montrée difficile due à la quantité limitée de corpus de parole du français publiquement accessible. C’est dans cet objectif que nous présentons le corpus Audiocite.net comprenant 6682 heures d’enregistrements de lecture par 130 locuteurs et locutrices. Ce corpus est construit à partir de livres audio provenant du site audiocite.net. En plus de décrire le processus de création et les statistiques obtenues, nous montrons également l’impact de ce corpus sur les modèles du projet LeBenchmark dans leurs versions 14k pour des tâches de traitement automatique de la parole.
%U https://aclanthology.org/2024.jeptalnrecital-jep.28
%P 271-280
Markdown (Informal)
[Audiocite.net un grand corpus d’enregistrements vocaux de lecture en français](https://aclanthology.org/2024.jeptalnrecital-jep.28) (Felice et al., JEP/TALN/RECITAL 2024)
ACL