@inproceedings{claveau-etal-2021-la,
title = "La g{\'e}n{\'e}ration de textes artificiels en substitution ou en compl{\'e}ment de donn{\'e}es d{'}apprentissage (Generating artificial texts as substitution or complement of training data )",
author = "Claveau, Vincent and
Chaffin, Antoine and
Kijak, Ewa",
editor = "Denis, Pascal and
Grabar, Natalia and
Fraisse, Amel and
Cardon, R{\'e}mi and
Jacquemin, Bernard and
Kergosien, Eric and
Balvet, Antonio",
booktitle = "Actes de la 28e Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conf{\'e}rence principale",
month = "6",
year = "2021",
address = "Lille, France",
publisher = "ATALA",
url = "https://aclanthology.org/2021.jeptalnrecital-taln.4",
pages = "37--49",
abstract = "La qualit{\'e} des textes g{\'e}n{\'e}r{\'e}s artificiellement s{'}est consid{\'e}rablement am{\'e}lior{\'e}e avec l{'}apparition des transformers. La question d{'}utiliser ces mod{\`e}les pour augmenter les donn{\'e}es d{'}apprentissage pour des t{\^a}ches d{'}apprentissage supervis{\'e} se pose naturellement. Dans cet article, cette question est explor{\'e}e sous 3 aspects : (i) les donn{\'e}es artificielles sont-elles un compl{\'e}ment efficace ? (ii) peuvent-elles remplacer les donn{\'e}es d{'}origines quand ces derni{\`e}res ne peuvent pas {\^e}tre distribu{\'e}es, par exemple pour des raisons de confidentialit{\'e} ? (iii) peuvent-elles am{\'e}liorer l{'}explicabilit{\'e} des classifieurs ? Diff{\'e}rentes exp{\'e}riences sont men{\'e}es sur une t{\^a}che de classification en utilisant des donn{\'e}es g{\'e}n{\'e}r{\'e}es artificiellement en adaptant des mod{\`e}les GPT-2. Les r{\'e}sultats montrent que les donn{\'e}es artificielles ne sont pas encore suffisamment bonnes et n{\'e}cessitent un pr{\'e}-traitement pour am{\'e}liorer significativement les performances. Nous montrons que les approches sac-de-mots b{\'e}n{\'e}ficient le plus de telles augmentations de donn{\'e}es.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="claveau-etal-2021-la">
<titleInfo>
<title>La génération de textes artificiels en substitution ou en complément de données d’apprentissage (Generating artificial texts as substitution or complement of training data )</title>
</titleInfo>
<name type="personal">
<namePart type="given">Vincent</namePart>
<namePart type="family">Claveau</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Antoine</namePart>
<namePart type="family">Chaffin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Ewa</namePart>
<namePart type="family">Kijak</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2021-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale</title>
</titleInfo>
<name type="personal">
<namePart type="given">Pascal</namePart>
<namePart type="family">Denis</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Natalia</namePart>
<namePart type="family">Grabar</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Amel</namePart>
<namePart type="family">Fraisse</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Rémi</namePart>
<namePart type="family">Cardon</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Bernard</namePart>
<namePart type="family">Jacquemin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eric</namePart>
<namePart type="family">Kergosien</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Antonio</namePart>
<namePart type="family">Balvet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Lille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>La qualité des textes générés artificiellement s’est considérablement améliorée avec l’apparition des transformers. La question d’utiliser ces modèles pour augmenter les données d’apprentissage pour des tâches d’apprentissage supervisé se pose naturellement. Dans cet article, cette question est explorée sous 3 aspects : (i) les données artificielles sont-elles un complément efficace ? (ii) peuvent-elles remplacer les données d’origines quand ces dernières ne peuvent pas être distribuées, par exemple pour des raisons de confidentialité ? (iii) peuvent-elles améliorer l’explicabilité des classifieurs ? Différentes expériences sont menées sur une tâche de classification en utilisant des données générées artificiellement en adaptant des modèles GPT-2. Les résultats montrent que les données artificielles ne sont pas encore suffisamment bonnes et nécessitent un pré-traitement pour améliorer significativement les performances. Nous montrons que les approches sac-de-mots bénéficient le plus de telles augmentations de données.</abstract>
<identifier type="citekey">claveau-etal-2021-la</identifier>
<location>
<url>https://aclanthology.org/2021.jeptalnrecital-taln.4</url>
</location>
<part>
<date>2021-6</date>
<extent unit="page">
<start>37</start>
<end>49</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T La génération de textes artificiels en substitution ou en complément de données d’apprentissage (Generating artificial texts as substitution or complement of training data )
%A Claveau, Vincent
%A Chaffin, Antoine
%A Kijak, Ewa
%Y Denis, Pascal
%Y Grabar, Natalia
%Y Fraisse, Amel
%Y Cardon, Rémi
%Y Jacquemin, Bernard
%Y Kergosien, Eric
%Y Balvet, Antonio
%S Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale
%D 2021
%8 June
%I ATALA
%C Lille, France
%G French
%F claveau-etal-2021-la
%X La qualité des textes générés artificiellement s’est considérablement améliorée avec l’apparition des transformers. La question d’utiliser ces modèles pour augmenter les données d’apprentissage pour des tâches d’apprentissage supervisé se pose naturellement. Dans cet article, cette question est explorée sous 3 aspects : (i) les données artificielles sont-elles un complément efficace ? (ii) peuvent-elles remplacer les données d’origines quand ces dernières ne peuvent pas être distribuées, par exemple pour des raisons de confidentialité ? (iii) peuvent-elles améliorer l’explicabilité des classifieurs ? Différentes expériences sont menées sur une tâche de classification en utilisant des données générées artificiellement en adaptant des modèles GPT-2. Les résultats montrent que les données artificielles ne sont pas encore suffisamment bonnes et nécessitent un pré-traitement pour améliorer significativement les performances. Nous montrons que les approches sac-de-mots bénéficient le plus de telles augmentations de données.
%U https://aclanthology.org/2021.jeptalnrecital-taln.4
%P 37-49
Markdown (Informal)
[La génération de textes artificiels en substitution ou en complément de données d’apprentissage (Generating artificial texts as substitution or complement of training data )](https://aclanthology.org/2021.jeptalnrecital-taln.4) (Claveau et al., JEP/TALN/RECITAL 2021)
ACL