@inproceedings{adam-cuvillier-etal-2024-les,
title = "Les repr{\'e}sentations contextuelles st{\'e}r{\'e}otyp{\'e}es dans les mod{\`e}les de langue fran{\c{c}}ais : mieux les identifier pour ne pas les reproduire",
author = "Adam-Cuvillier, L{\'e}andre and
Larpin, Pierre-Jean and
Simoulin, Antoine",
editor = "Balaguer, Mathieu and
Bendahman, Nihed and
Ho-dac, Lydia-Mai and
Mauclair, Julie and
G Moreno, Jose and
Pinquier, Julien",
booktitle = "Actes de la 31{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position",
month = "7",
year = "2024",
address = "Toulouse, France",
publisher = "ATALA and AFPC",
url = "https://aclanthology.org/2024.jeptalnrecital-taln.9/",
pages = "130--143",
language = "fra",
abstract = "Nous pr{\'e}sentons une {\'e}tude pour mieux identifier comment les st{\'e}r{\'e}otypes se refl{\`e}tent dans les mod{\`e}les de langue fran{\c{c}}ais. Nous adaptons le jeu de donn{\'e}es StereoSet {\`a} la langue fran{\c{c}}aise et suivons le m{\^e}me protocole exp{\'e}rimental que celui utilis{\'e} pour l`anglais. Alors que les st{\'e}r{\'e}otypes sont connus pour {\'e}voluer en fonction des contextes culturels et temporels, notre {\'e}tude identifie des similitudes avec les r{\'e}sultats observ{\'e}s pour l`anglais, notamment en ce qui concerne la corr{\'e}lation entre les capacit{\'e}s linguistiques des mod{\`e}les et la pr{\'e}sence de biais mesurables. Nous {\'e}tendons notre {\'e}tude en examinant des architectures de r{\'e}seaux neuronaux similaires pr{\'e}-entra{\^i}n{\'e}es sur des corpus linguistiques diff{\'e}rents. Nos r{\'e}sultats mettent en {\'e}vidence l`impact crucial des donn{\'e}es de pr{\'e}-entra{\^i}nement sur les biais constat{\'e}s dans les mod{\`e}les fran{\c{c}}ais. De plus, nous observons que l`utilisation de corpus multilingues pour le pr{\'e}-entra{\^i}nement peut avoir un effet positif sur l`att{\'e}nuation des biais."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="adam-cuvillier-etal-2024-les">
<titleInfo>
<title>Les représentations contextuelles stéréotypées dans les modèles de langue français : mieux les identifier pour ne pas les reproduire</title>
</titleInfo>
<name type="personal">
<namePart type="given">Léandre</namePart>
<namePart type="family">Adam-Cuvillier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Pierre-Jean</namePart>
<namePart type="family">Larpin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Antoine</namePart>
<namePart type="family">Simoulin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2024-07</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position</title>
</titleInfo>
<name type="personal">
<namePart type="given">Mathieu</namePart>
<namePart type="family">Balaguer</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Nihed</namePart>
<namePart type="family">Bendahman</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Lydia-Mai</namePart>
<namePart type="family">Ho-dac</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julie</namePart>
<namePart type="family">Mauclair</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jose</namePart>
<namePart type="family">G Moreno</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julien</namePart>
<namePart type="family">Pinquier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA and AFPC</publisher>
<place>
<placeTerm type="text">Toulouse, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Nous présentons une étude pour mieux identifier comment les stéréotypes se reflètent dans les modèles de langue français. Nous adaptons le jeu de données StereoSet à la langue française et suivons le même protocole expérimental que celui utilisé pour l‘anglais. Alors que les stéréotypes sont connus pour évoluer en fonction des contextes culturels et temporels, notre étude identifie des similitudes avec les résultats observés pour l‘anglais, notamment en ce qui concerne la corrélation entre les capacités linguistiques des modèles et la présence de biais mesurables. Nous étendons notre étude en examinant des architectures de réseaux neuronaux similaires pré-entraînées sur des corpus linguistiques différents. Nos résultats mettent en évidence l‘impact crucial des données de pré-entraînement sur les biais constatés dans les modèles français. De plus, nous observons que l‘utilisation de corpus multilingues pour le pré-entraînement peut avoir un effet positif sur l‘atténuation des biais.</abstract>
<identifier type="citekey">adam-cuvillier-etal-2024-les</identifier>
<location>
<url>https://aclanthology.org/2024.jeptalnrecital-taln.9/</url>
</location>
<part>
<date>2024-7</date>
<extent unit="page">
<start>130</start>
<end>143</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Les représentations contextuelles stéréotypées dans les modèles de langue français : mieux les identifier pour ne pas les reproduire
%A Adam-Cuvillier, Léandre
%A Larpin, Pierre-Jean
%A Simoulin, Antoine
%Y Balaguer, Mathieu
%Y Bendahman, Nihed
%Y Ho-dac, Lydia-Mai
%Y Mauclair, Julie
%Y G Moreno, Jose
%Y Pinquier, Julien
%S Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position
%D 2024
%8 July
%I ATALA and AFPC
%C Toulouse, France
%G fra
%F adam-cuvillier-etal-2024-les
%X Nous présentons une étude pour mieux identifier comment les stéréotypes se reflètent dans les modèles de langue français. Nous adaptons le jeu de données StereoSet à la langue française et suivons le même protocole expérimental que celui utilisé pour l‘anglais. Alors que les stéréotypes sont connus pour évoluer en fonction des contextes culturels et temporels, notre étude identifie des similitudes avec les résultats observés pour l‘anglais, notamment en ce qui concerne la corrélation entre les capacités linguistiques des modèles et la présence de biais mesurables. Nous étendons notre étude en examinant des architectures de réseaux neuronaux similaires pré-entraînées sur des corpus linguistiques différents. Nos résultats mettent en évidence l‘impact crucial des données de pré-entraînement sur les biais constatés dans les modèles français. De plus, nous observons que l‘utilisation de corpus multilingues pour le pré-entraînement peut avoir un effet positif sur l‘atténuation des biais.
%U https://aclanthology.org/2024.jeptalnrecital-taln.9/
%P 130-143
Markdown (Informal)
[Les représentations contextuelles stéréotypées dans les modèles de langue français : mieux les identifier pour ne pas les reproduire](https://aclanthology.org/2024.jeptalnrecital-taln.9/) (Adam-Cuvillier et al., JEP/TALN/RECITAL 2024)
ACL