@inproceedings{caillaut-etal-2024-ameliorer,
title = "Am{\'e}liorer la traduction au niveau du document gr{\^a}ce au sur-echantillage n{\'e}gatif et au masquage cibl{\'e}",
author = {Caillaut, Ga{\"e}tan and
Nakhl{\'e}, Mariam and
Liu, Jingshu and
Qader, Raheel},
editor = "Balaguer, Mathieu and
Bendahman, Nihed and
Ho-dac, Lydia-Mai and
Mauclair, Julie and
G Moreno, Jose and
Pinquier, Julien",
booktitle = "Actes de la 31{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position",
month = "7",
year = "2024",
address = "Toulouse, France",
publisher = "ATALA and AFPC",
url = "https://aclanthology.org/2024.jeptalnrecital-taln.20/",
pages = "295--306",
language = "fra",
abstract = "Ces travaux visent {\`a} am{\'e}liorer les capacit{\'e}s des syst{\`e}mes de traduction automatique {\`a} tenir compte du contexte dans lequel se trouve la phrase source, et donc, ultimement, {\`a} am{\'e}liorer les performances globales des syst{\`e}mes de traduction automatique. L`approche que nous proposons repose uniquement sur les donn{\'e}es et la mani{\`e}re dont elles sont fournies au mod{\`e}le durant l`entra{\^i}nement et est compl{\`e}tement agnostique de l`architecture du mod{\`e}le. Nous montrons que les performances des mod{\`e}les de traduction, sur la paire en-fr, peuvent {\^e}tre am{\'e}lior{\'e}es simplement en fournissant des donn{\'e}es plus pertinentes vis-{\`a}-vis de la t{\^a}che cible, et ce sans modifier ni complexifier les architectures existantes, en particulier l`architecture Transformer couramment utilis{\'e}e par les syst{\`e}mes de TAL modernes. Pour ce faire, nous pr{\'e}sentons deux strat{\'e}gies d`augmentation de donn{\'e}es (sur-{\'e}chantillonnage n{\'e}gatif et masquage cibl{\'e}) con{\c{c}}ues pour inciter le mod{\`e}le {\`a} s`appuyer sur le contexte. Nous montrons, au travers de m{\'e}triques appropri{\'e}es, que ces m{\'e}thodes permettent d`am{\'e}liorer les performances des syst{\`e}mes de traduction sans pour autant modifier ni l`architecture du mod{\`e}le, ni le processus d`entra{\^i}nement."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="caillaut-etal-2024-ameliorer">
<titleInfo>
<title>Améliorer la traduction au niveau du document grâce au sur-echantillage négatif et au masquage ciblé</title>
</titleInfo>
<name type="personal">
<namePart type="given">Gaëtan</namePart>
<namePart type="family">Caillaut</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Mariam</namePart>
<namePart type="family">Nakhlé</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jingshu</namePart>
<namePart type="family">Liu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Raheel</namePart>
<namePart type="family">Qader</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2024-07</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position</title>
</titleInfo>
<name type="personal">
<namePart type="given">Mathieu</namePart>
<namePart type="family">Balaguer</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Nihed</namePart>
<namePart type="family">Bendahman</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Lydia-Mai</namePart>
<namePart type="family">Ho-dac</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julie</namePart>
<namePart type="family">Mauclair</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jose</namePart>
<namePart type="family">G Moreno</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julien</namePart>
<namePart type="family">Pinquier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA and AFPC</publisher>
<place>
<placeTerm type="text">Toulouse, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Ces travaux visent à améliorer les capacités des systèmes de traduction automatique à tenir compte du contexte dans lequel se trouve la phrase source, et donc, ultimement, à améliorer les performances globales des systèmes de traduction automatique. L‘approche que nous proposons repose uniquement sur les données et la manière dont elles sont fournies au modèle durant l‘entraînement et est complètement agnostique de l‘architecture du modèle. Nous montrons que les performances des modèles de traduction, sur la paire en-fr, peuvent être améliorées simplement en fournissant des données plus pertinentes vis-à-vis de la tâche cible, et ce sans modifier ni complexifier les architectures existantes, en particulier l‘architecture Transformer couramment utilisée par les systèmes de TAL modernes. Pour ce faire, nous présentons deux stratégies d‘augmentation de données (sur-échantillonnage négatif et masquage ciblé) conçues pour inciter le modèle à s‘appuyer sur le contexte. Nous montrons, au travers de métriques appropriées, que ces méthodes permettent d‘améliorer les performances des systèmes de traduction sans pour autant modifier ni l‘architecture du modèle, ni le processus d‘entraînement.</abstract>
<identifier type="citekey">caillaut-etal-2024-ameliorer</identifier>
<location>
<url>https://aclanthology.org/2024.jeptalnrecital-taln.20/</url>
</location>
<part>
<date>2024-7</date>
<extent unit="page">
<start>295</start>
<end>306</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Améliorer la traduction au niveau du document grâce au sur-echantillage négatif et au masquage ciblé
%A Caillaut, Gaëtan
%A Nakhlé, Mariam
%A Liu, Jingshu
%A Qader, Raheel
%Y Balaguer, Mathieu
%Y Bendahman, Nihed
%Y Ho-dac, Lydia-Mai
%Y Mauclair, Julie
%Y G Moreno, Jose
%Y Pinquier, Julien
%S Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position
%D 2024
%8 July
%I ATALA and AFPC
%C Toulouse, France
%G fra
%F caillaut-etal-2024-ameliorer
%X Ces travaux visent à améliorer les capacités des systèmes de traduction automatique à tenir compte du contexte dans lequel se trouve la phrase source, et donc, ultimement, à améliorer les performances globales des systèmes de traduction automatique. L‘approche que nous proposons repose uniquement sur les données et la manière dont elles sont fournies au modèle durant l‘entraînement et est complètement agnostique de l‘architecture du modèle. Nous montrons que les performances des modèles de traduction, sur la paire en-fr, peuvent être améliorées simplement en fournissant des données plus pertinentes vis-à-vis de la tâche cible, et ce sans modifier ni complexifier les architectures existantes, en particulier l‘architecture Transformer couramment utilisée par les systèmes de TAL modernes. Pour ce faire, nous présentons deux stratégies d‘augmentation de données (sur-échantillonnage négatif et masquage ciblé) conçues pour inciter le modèle à s‘appuyer sur le contexte. Nous montrons, au travers de métriques appropriées, que ces méthodes permettent d‘améliorer les performances des systèmes de traduction sans pour autant modifier ni l‘architecture du modèle, ni le processus d‘entraînement.
%U https://aclanthology.org/2024.jeptalnrecital-taln.20/
%P 295-306
Markdown (Informal)
[Améliorer la traduction au niveau du document grâce au sur-echantillage négatif et au masquage ciblé](https://aclanthology.org/2024.jeptalnrecital-taln.20/) (Caillaut et al., JEP/TALN/RECITAL 2024)
ACL