@inproceedings{lavigne-etal-2024-optimisation,
title = "Optimisation des performances d`un syst{\`e}me de reconnaissance automatique de la parole pour les commentaires sportifs: fine-tuning de Whisper",
author = "Lavigne, Camille and
Stasica, Alex and
Kupsc, Anna",
editor = "Balaguer, Mathieu and
Bendahman, Nihed and
Ho-dac, Lydia-Mai and
Mauclair, Julie and
G Moreno, Jose and
Pinquier, Julien",
booktitle = "Actes de la 31{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position",
month = "7",
year = "2024",
address = "Toulouse, France",
publisher = "ATALA and AFPC",
url = "https://aclanthology.org/2024.jeptalnrecital-taln.38/",
pages = "567--581",
language = "fra",
abstract = "Malgr{\'e} les performances {\'e}lev{\'e}es des syst{\`e}mes automatiques de reconnaissance de la parole (Automatic Speech Recognition ; ASR) sur des corpus g{\'e}n{\'e}raux, leur efficacit{\'e} est consid{\'e}rablement r{\'e}duite lorsqu`ils sont confront{\'e}s {\`a} des corpus sp{\'e}cialis{\'e}s. Ces corpus peuvent notamment contenir du lexique propre {\`a} des domaines sp{\'e}cifiques, des accents ou du bruit de fond rendant la transcription ardue. Cette {\'e}tude vise {\`a} {\'e}valuer les avantages de l`optimisation d`une transcription automatique, par opposition {\`a} manuelle, apr{\`e}s fine-tuning d`un mod{\`e}le d`ASR de derni{\`e}re g{\'e}n{\'e}ration, Whisper (Radford et al., 2023), sur un corpus sp{\'e}cialis{\'e} de commentaires sportifs de petite taille. Nos analyses quantitatives et qualitatives indiquent que Whisper est capable d`apprendre les particularit{\'e}s d`un corpus de sp{\'e}cialit{\'e}, atteignant des performances {\'e}gales o{\`u} sup{\'e}rieures aux transcripteurs humains, avec cette quantit{\'e} de donn{\'e}es limit{\'e}e. Cette recherche met en lumi{\`e}re le r{\^o}le que l`intelligence artificielle, notamment les larges mod{\`e}les de langage, peut jouer pour faciliter la cr{\'e}ation de corpus sp{\'e}cialis{\'e}s."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="lavigne-etal-2024-optimisation">
<titleInfo>
<title>Optimisation des performances d‘un système de reconnaissance automatique de la parole pour les commentaires sportifs: fine-tuning de Whisper</title>
</titleInfo>
<name type="personal">
<namePart type="given">Camille</namePart>
<namePart type="family">Lavigne</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Alex</namePart>
<namePart type="family">Stasica</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Anna</namePart>
<namePart type="family">Kupsc</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2024-07</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position</title>
</titleInfo>
<name type="personal">
<namePart type="given">Mathieu</namePart>
<namePart type="family">Balaguer</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Nihed</namePart>
<namePart type="family">Bendahman</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Lydia-Mai</namePart>
<namePart type="family">Ho-dac</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julie</namePart>
<namePart type="family">Mauclair</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jose</namePart>
<namePart type="family">G Moreno</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julien</namePart>
<namePart type="family">Pinquier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA and AFPC</publisher>
<place>
<placeTerm type="text">Toulouse, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Malgré les performances élevées des systèmes automatiques de reconnaissance de la parole (Automatic Speech Recognition ; ASR) sur des corpus généraux, leur efficacité est considérablement réduite lorsqu‘ils sont confrontés à des corpus spécialisés. Ces corpus peuvent notamment contenir du lexique propre à des domaines spécifiques, des accents ou du bruit de fond rendant la transcription ardue. Cette étude vise à évaluer les avantages de l‘optimisation d‘une transcription automatique, par opposition à manuelle, après fine-tuning d‘un modèle d‘ASR de dernière génération, Whisper (Radford et al., 2023), sur un corpus spécialisé de commentaires sportifs de petite taille. Nos analyses quantitatives et qualitatives indiquent que Whisper est capable d‘apprendre les particularités d‘un corpus de spécialité, atteignant des performances égales où supérieures aux transcripteurs humains, avec cette quantité de données limitée. Cette recherche met en lumière le rôle que l‘intelligence artificielle, notamment les larges modèles de langage, peut jouer pour faciliter la création de corpus spécialisés.</abstract>
<identifier type="citekey">lavigne-etal-2024-optimisation</identifier>
<location>
<url>https://aclanthology.org/2024.jeptalnrecital-taln.38/</url>
</location>
<part>
<date>2024-7</date>
<extent unit="page">
<start>567</start>
<end>581</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Optimisation des performances d‘un système de reconnaissance automatique de la parole pour les commentaires sportifs: fine-tuning de Whisper
%A Lavigne, Camille
%A Stasica, Alex
%A Kupsc, Anna
%Y Balaguer, Mathieu
%Y Bendahman, Nihed
%Y Ho-dac, Lydia-Mai
%Y Mauclair, Julie
%Y G Moreno, Jose
%Y Pinquier, Julien
%S Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position
%D 2024
%8 July
%I ATALA and AFPC
%C Toulouse, France
%G fra
%F lavigne-etal-2024-optimisation
%X Malgré les performances élevées des systèmes automatiques de reconnaissance de la parole (Automatic Speech Recognition ; ASR) sur des corpus généraux, leur efficacité est considérablement réduite lorsqu‘ils sont confrontés à des corpus spécialisés. Ces corpus peuvent notamment contenir du lexique propre à des domaines spécifiques, des accents ou du bruit de fond rendant la transcription ardue. Cette étude vise à évaluer les avantages de l‘optimisation d‘une transcription automatique, par opposition à manuelle, après fine-tuning d‘un modèle d‘ASR de dernière génération, Whisper (Radford et al., 2023), sur un corpus spécialisé de commentaires sportifs de petite taille. Nos analyses quantitatives et qualitatives indiquent que Whisper est capable d‘apprendre les particularités d‘un corpus de spécialité, atteignant des performances égales où supérieures aux transcripteurs humains, avec cette quantité de données limitée. Cette recherche met en lumière le rôle que l‘intelligence artificielle, notamment les larges modèles de langage, peut jouer pour faciliter la création de corpus spécialisés.
%U https://aclanthology.org/2024.jeptalnrecital-taln.38/
%P 567-581
Markdown (Informal)
[Optimisation des performances d’un système de reconnaissance automatique de la parole pour les commentaires sportifs: fine-tuning de Whisper](https://aclanthology.org/2024.jeptalnrecital-taln.38/) (Lavigne et al., JEP/TALN/RECITAL 2024)
ACL