@inproceedings{segonne-etal-2024-jargon-modeles,
title = "Jargon : Une suite de mod{\`e}les de langues et de r{\'e}f{\'e}rentiels d{'}{\'e}valuation pour les domaines sp{\'e}cialis{\'e}s du fran{\c{c}}ais",
author = "Segonne, Vincent and
Mannion, Aidan and
Alonzo-Canul, Laura and
Alexandre, Audibert and
Liu, Xingyu and
Macaire, C{\'e}cile and
Pupier, Adrien and
Zhou, Yongxin and
Aguiar, Mathilde and
Herron, Felix and
Norr{\'e}, Magali and
Amini, Massih-Reza and
Bouillon, Pierrette and
Eshkol Taravella, Iris and
Esparan{\c{c}}a-Rodier, Emmanuelle and
Fran{\c{c}}ois, Thomas and
Goeuriot, Lorraine and
Goulian, J{\'e}r{\^o}me and
Lafourcade, Mathieu and
Lecouteux, Benjamin and
Portet, Fran{\c{c}}ois and
Ringeval, Fabien and
Vandeghinste, Vincent and
Coavoux, Maximin and
Dinarelli, Marco and
Schwab, Didier",
editor = "Balaguer, Mathieu and
Bendahman, Nihed and
Ho-dac, Lydia-Mai and
Mauclair, Julie and
G Moreno, Jose and
Pinquier, Julien",
booktitle = "Actes de la 31{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles, volume 2 : traductions d'articles publi{\`e}s",
month = "7",
year = "2024",
address = "Toulouse, France",
publisher = "ATALA and AFPC",
url = "https://aclanthology.org/2024.jeptalnrecital-trad.6",
pages = "9--10",
abstract = "Les mod{\`e}les de langue pr{\'e}entra{\^\i}n{\'e}s (PLM) constituent aujourd{'}hui de facto l{'}{\'e}pine dorsale de la plupart des syst{\`e}mes de traitement automatique des langues. Dans cet article, nous pr{\'e}sentons Jargon, une famille de PLMs pour des domaines sp{\'e}cialis{\'e}s du fran{\c{c}}ais, en nous focalisant sur trois domaines : la parole transcrite, le domaine clinique / biom{\'e}dical, et le domaine juridique. Nous utilisons une architecture de transformeur bas{\'e}e sur des m{\'e}thodes computationnellement efficaces(LinFormer) puisque ces domaines impliquent souvent le traitement de longs documents. Nous {\'e}valuons et comparons nos mod{\`e}les {\`a} des mod{\`e}les de l{'}{\'e}tat de l{'}art sur un ensemble vari{\'e} de t{\^a}ches et de corpus d{'}{\'e}valuation, dont certains sont introduits dans notre article. Nous rassemblons les jeux de donn{\'e}es dans un nouveau r{\'e}f{\'e}rentiel d{'}{\'e}valuation en langue fran{\c{c}}aise pour ces trois domaines. Nous comparons {\'e}galement diverses configurations d{'}entra{\^\i}nement : pr{\'e}entra{\^\i}nement prolong{\'e} en apprentissage autosupervis{\'e} sur les donn{\'e}es sp{\'e}cialis{\'e}es, pr{\'e}entra{\^\i}nement {\`a} partir de z{\'e}ro, ainsi que pr{\'e}entra{\^\i}nement mono et multi-domaines. Nos exp{\'e}rimentations approfondies dans des domaines sp{\'e}cialis{\'e}s montrent qu{'}il est possible d{'}atteindre des performances comp{\'e}titives en aval, m{\^e}me lors d{'}un pr{\'e}entra{\^\i}nement avec le m{\'e}canisme d{'}attention approximatif de LinFormer. Pour une reproductibilit{\'e} totale, nous publions les mod{\`e}les et les donn{\'e}es de pr{\'e}entra{\^\i}nement, ainsi que les corpus utilis{\'e}s.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="segonne-etal-2024-jargon-modeles">
<titleInfo>
<title>Jargon : Une suite de modèles de langues et de référentiels d’évaluation pour les domaines spécialisés du français</title>
</titleInfo>
<name type="personal">
<namePart type="given">Vincent</namePart>
<namePart type="family">Segonne</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Aidan</namePart>
<namePart type="family">Mannion</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Laura</namePart>
<namePart type="family">Alonzo-Canul</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Audibert</namePart>
<namePart type="family">Alexandre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Xingyu</namePart>
<namePart type="family">Liu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Cécile</namePart>
<namePart type="family">Macaire</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrien</namePart>
<namePart type="family">Pupier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Yongxin</namePart>
<namePart type="family">Zhou</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Mathilde</namePart>
<namePart type="family">Aguiar</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Felix</namePart>
<namePart type="family">Herron</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Magali</namePart>
<namePart type="family">Norré</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Massih-Reza</namePart>
<namePart type="family">Amini</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Pierrette</namePart>
<namePart type="family">Bouillon</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Iris</namePart>
<namePart type="family">Eshkol Taravella</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Emmanuelle</namePart>
<namePart type="family">Esparança-Rodier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Thomas</namePart>
<namePart type="family">François</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Lorraine</namePart>
<namePart type="family">Goeuriot</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jérôme</namePart>
<namePart type="family">Goulian</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Mathieu</namePart>
<namePart type="family">Lafourcade</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benjamin</namePart>
<namePart type="family">Lecouteux</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">François</namePart>
<namePart type="family">Portet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Fabien</namePart>
<namePart type="family">Ringeval</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Vincent</namePart>
<namePart type="family">Vandeghinste</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Maximin</namePart>
<namePart type="family">Coavoux</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Marco</namePart>
<namePart type="family">Dinarelli</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Didier</namePart>
<namePart type="family">Schwab</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2024-07</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 2 : traductions d’articles publiès</title>
</titleInfo>
<name type="personal">
<namePart type="given">Mathieu</namePart>
<namePart type="family">Balaguer</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Nihed</namePart>
<namePart type="family">Bendahman</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Lydia-Mai</namePart>
<namePart type="family">Ho-dac</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julie</namePart>
<namePart type="family">Mauclair</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jose</namePart>
<namePart type="family">G Moreno</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julien</namePart>
<namePart type="family">Pinquier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA and AFPC</publisher>
<place>
<placeTerm type="text">Toulouse, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Les modèles de langue préentraînés (PLM) constituent aujourd’hui de facto l’épine dorsale de la plupart des systèmes de traitement automatique des langues. Dans cet article, nous présentons Jargon, une famille de PLMs pour des domaines spécialisés du français, en nous focalisant sur trois domaines : la parole transcrite, le domaine clinique / biomédical, et le domaine juridique. Nous utilisons une architecture de transformeur basée sur des méthodes computationnellement efficaces(LinFormer) puisque ces domaines impliquent souvent le traitement de longs documents. Nous évaluons et comparons nos modèles à des modèles de l’état de l’art sur un ensemble varié de tâches et de corpus d’évaluation, dont certains sont introduits dans notre article. Nous rassemblons les jeux de données dans un nouveau référentiel d’évaluation en langue française pour ces trois domaines. Nous comparons également diverses configurations d’entraînement : préentraînement prolongé en apprentissage autosupervisé sur les données spécialisées, préentraînement à partir de zéro, ainsi que préentraînement mono et multi-domaines. Nos expérimentations approfondies dans des domaines spécialisés montrent qu’il est possible d’atteindre des performances compétitives en aval, même lors d’un préentraînement avec le mécanisme d’attention approximatif de LinFormer. Pour une reproductibilité totale, nous publions les modèles et les données de préentraînement, ainsi que les corpus utilisés.</abstract>
<identifier type="citekey">segonne-etal-2024-jargon-modeles</identifier>
<location>
<url>https://aclanthology.org/2024.jeptalnrecital-trad.6</url>
</location>
<part>
<date>2024-7</date>
<extent unit="page">
<start>9</start>
<end>10</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Jargon : Une suite de modèles de langues et de référentiels d’évaluation pour les domaines spécialisés du français
%A Segonne, Vincent
%A Mannion, Aidan
%A Alonzo-Canul, Laura
%A Alexandre, Audibert
%A Liu, Xingyu
%A Macaire, Cécile
%A Pupier, Adrien
%A Zhou, Yongxin
%A Aguiar, Mathilde
%A Herron, Felix
%A Norré, Magali
%A Amini, Massih-Reza
%A Bouillon, Pierrette
%A Eshkol Taravella, Iris
%A Esparança-Rodier, Emmanuelle
%A François, Thomas
%A Goeuriot, Lorraine
%A Goulian, Jérôme
%A Lafourcade, Mathieu
%A Lecouteux, Benjamin
%A Portet, François
%A Ringeval, Fabien
%A Vandeghinste, Vincent
%A Coavoux, Maximin
%A Dinarelli, Marco
%A Schwab, Didier
%Y Balaguer, Mathieu
%Y Bendahman, Nihed
%Y Ho-dac, Lydia-Mai
%Y Mauclair, Julie
%Y G Moreno, Jose
%Y Pinquier, Julien
%S Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 2 : traductions d’articles publiès
%D 2024
%8 July
%I ATALA and AFPC
%C Toulouse, France
%G French
%F segonne-etal-2024-jargon-modeles
%X Les modèles de langue préentraînés (PLM) constituent aujourd’hui de facto l’épine dorsale de la plupart des systèmes de traitement automatique des langues. Dans cet article, nous présentons Jargon, une famille de PLMs pour des domaines spécialisés du français, en nous focalisant sur trois domaines : la parole transcrite, le domaine clinique / biomédical, et le domaine juridique. Nous utilisons une architecture de transformeur basée sur des méthodes computationnellement efficaces(LinFormer) puisque ces domaines impliquent souvent le traitement de longs documents. Nous évaluons et comparons nos modèles à des modèles de l’état de l’art sur un ensemble varié de tâches et de corpus d’évaluation, dont certains sont introduits dans notre article. Nous rassemblons les jeux de données dans un nouveau référentiel d’évaluation en langue française pour ces trois domaines. Nous comparons également diverses configurations d’entraînement : préentraînement prolongé en apprentissage autosupervisé sur les données spécialisées, préentraînement à partir de zéro, ainsi que préentraînement mono et multi-domaines. Nos expérimentations approfondies dans des domaines spécialisés montrent qu’il est possible d’atteindre des performances compétitives en aval, même lors d’un préentraînement avec le mécanisme d’attention approximatif de LinFormer. Pour une reproductibilité totale, nous publions les modèles et les données de préentraînement, ainsi que les corpus utilisés.
%U https://aclanthology.org/2024.jeptalnrecital-trad.6
%P 9-10
Markdown (Informal)
[Jargon : Une suite de modèles de langues et de référentiels d’évaluation pour les domaines spécialisés du français](https://aclanthology.org/2024.jeptalnrecital-trad.6) (Segonne et al., JEP/TALN/RECITAL 2024)
ACL
- Vincent Segonne, Aidan Mannion, Laura Alonzo-Canul, Audibert Alexandre, Xingyu Liu, Cécile Macaire, Adrien Pupier, Yongxin Zhou, Mathilde Aguiar, Felix Herron, Magali Norré, Massih-Reza Amini, Pierrette Bouillon, Iris Eshkol Taravella, Emmanuelle Esparança-Rodier, Thomas François, Lorraine Goeuriot, Jérôme Goulian, Mathieu Lafourcade, et al.. 2024. Jargon : Une suite de modèles de langues et de référentiels d’évaluation pour les domaines spécialisés du français. In Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 2 : traductions d'articles publiès, pages 9–10, Toulouse, France. ATALA and AFPC.