@inproceedings{escouflaire-etal-2024-la,
title = "La subjectivit{\'e} dans le journalisme qu{\'e}b{\'e}cois et belge : transfert de connaissance inter-m{\'e}dias et inter-cultures",
author = "Escouflaire, Louis and
Descampe, Antonin and
Venant, Antoine and
Fairon, C{\'e}drick",
editor = "Balaguer, Mathieu and
Bendahman, Nihed and
Ho-dac, Lydia-Mai and
Mauclair, Julie and
G Moreno, Jose and
Pinquier, Julien",
booktitle = "Actes de la 31{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles, volume 2 : traductions d`articles publi{\`e}s",
month = "7",
year = "2024",
address = "Toulouse, France",
publisher = "ATALA and AFPC",
url = "https://aclanthology.org/2024.jeptalnrecital-trad.8/",
pages = "12--13",
language = "fra",
abstract = "Cet article s`int{\'e}resse {\`a} la capacit{\'e} de transfert des mod{\`e}les de classification de texte dans le domaine journalistique, en particulier pour distinguer les articles d`opinion des articles d`information. A l'{\`e}re du num{\'e}rique et des r{\'e}seaux sociaux, les distinctions entre ces genres deviennent de plus en plus floues, augmentant l`importance de cette t{\^a}che de classification. Un corpus de 80 000 articles de presse provenant de huit m{\'e}dias, quatre qu{\'e}b{\'e}cois et quatre belges francophones, a {\'e}t{\'e} constitu{\'e}. Pour identifier les th{\`e}mes des articles, une clusterisation a {\'e}t{\'e} appliqu{\'e}e sur les 10 000 articles issus de chaque m{\'e}dia, assurant une distribution {\'e}quilibr{\'e}e des th{\`e}mes entre les deux genres opinion et information. Les donn{\'e}es ont ensuite {\'e}t{\'e} utilis{\'e}es pour entra{\^i}ner (ou peaufiner) et {\'e}valuer deux types de mod{\`e}les : CamemBERT (Martin et al., 2019), un mod{\`e}le neuronal pr{\'e}-entra{\^i}n{\'e}, et un mod{\`e}le de r{\'e}gression logistique bas{\'e} sur des traits textuels. Dix versions diff{\'e}rentes de chaque mod{\`e}le sont entra{\^i}n{\'e}es : 8 versions mono-m{\'e}dias', chacune peaufin{\'e}e sur l`ensemble d`entra{\^i}nement du sous-corpus correspondant {\`a} un m{\'e}dia, et deux versions multi-m{\'e}dias', l`une peaufin{\'e}e sur 8000 articles qu{\'e}b{\'e}cois, l`autre sur les articles belges. Les r{\'e}sultats montrent que les mod{\`e}les CamemBERT surpassent significativement les mod{\`e}lesstatistiques en termes de capacit{\'e} de transfert (voir Figures 1 et 2). Les mod{\`e}les CamemBERT montrent une plus grande exactitude, notamment sur les ensembles de test du m{\^e}me m{\'e}dia que celui utilis{\'e} pour l`entra{\^i}nement. Cependant, les mod{\`e}les entra{\^i}n{\'e}s sur Le Journal de Montr{\'e}al(JDM) sont particuli{\`e}rement performants m{\^e}me sur d`autres ensembles de test, sugg{\'e}rant une distinction plus claire entre les genres journalistiques dans ce m{\'e}dia. Les mod{\`e}les CamemBERT multi-m{\'e}dias affichent {\'e}galement de bonnes performances. Le mod{\`e}le qu{\'e}b{\'e}cois notamment obtient les meilleurs r{\'e}sultats en moyenne, indiquant qu`une diversit{\'e} de sources am{\'e}liore la g{\'e}n{\'e}ricit{\'e} du mod{\`e}le. Les mod{\`e}les statistiques (mono- et multi-m{\'e}dias) montrent des performances globalement inf{\'e}rieures, avec des variations significatives selon les m{\'e}dias. Les textes qu{\'e}b{\'e}cois sont plus difficiles {\`a} classer pour ces mod{\`e}les, sugg{\'e}rant des diff{\'e}rences culturelles dans les pratiques journalistiques entre le Qu{\'e}bec et la Belgique. L`analyse des traits r{\'e}v{\`e}le que l`importance de certains {\'e}l{\'e}ments textuels, comme les points d`exclamation et les marqueurs de temps relatifs, varient consid{\'e}rablement entre les mod{\`e}les entra{\^i}n{\'e}s sur diff{\'e}rents m{\'e}dias. Par exemple, les {\'e}ditoriaux du JDM utilisent fr{\'e}quemment des points d`exclamation, refl{\'e}tant un style plus affirm{\'e} et polarisant. En revanche, les articles de La Presse pr{\'e}sentent des particularit{\'e}s qui compliquent la g{\'e}n{\'e}ralisation de la t{\^a}che. En sommme, cette {\'e}tude d{\'e}montre la sup{\'e}riorit{\'e} des mod{\`e}les neuronaux comme CamemBERT pour la classification de textes journalistiques, notamment gr{\^a}ce {\`a} leur capacit{\'e} de transfert, bien que les mod{\`e}les bas{\'e}s sur des traits se distinguent par la transparence de leur raisonnement'. Elle met {\'e}galement en lumi{\`e}re des diff{\'e}rences significatives entre les cultures journalistiques qu{\'e}b{\'e}coises et belges."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="escouflaire-etal-2024-la">
<titleInfo>
<title>La subjectivité dans le journalisme québécois et belge : transfert de connaissance inter-médias et inter-cultures</title>
</titleInfo>
<name type="personal">
<namePart type="given">Louis</namePart>
<namePart type="family">Escouflaire</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Antonin</namePart>
<namePart type="family">Descampe</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Antoine</namePart>
<namePart type="family">Venant</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Cédrick</namePart>
<namePart type="family">Fairon</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2024-07</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 2 : traductions d‘articles publiès</title>
</titleInfo>
<name type="personal">
<namePart type="given">Mathieu</namePart>
<namePart type="family">Balaguer</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Nihed</namePart>
<namePart type="family">Bendahman</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Lydia-Mai</namePart>
<namePart type="family">Ho-dac</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julie</namePart>
<namePart type="family">Mauclair</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jose</namePart>
<namePart type="family">G Moreno</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julien</namePart>
<namePart type="family">Pinquier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA and AFPC</publisher>
<place>
<placeTerm type="text">Toulouse, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Cet article s‘intéresse à la capacité de transfert des modèles de classification de texte dans le domaine journalistique, en particulier pour distinguer les articles d‘opinion des articles d‘information. A l’ère du numérique et des réseaux sociaux, les distinctions entre ces genres deviennent de plus en plus floues, augmentant l‘importance de cette tâche de classification. Un corpus de 80 000 articles de presse provenant de huit médias, quatre québécois et quatre belges francophones, a été constitué. Pour identifier les thèmes des articles, une clusterisation a été appliquée sur les 10 000 articles issus de chaque média, assurant une distribution équilibrée des thèmes entre les deux genres opinion et information. Les données ont ensuite été utilisées pour entraîner (ou peaufiner) et évaluer deux types de modèles : CamemBERT (Martin et al., 2019), un modèle neuronal pré-entraîné, et un modèle de régression logistique basé sur des traits textuels. Dix versions différentes de chaque modèle sont entraînées : 8 versions mono-médias’, chacune peaufinée sur l‘ensemble d‘entraînement du sous-corpus correspondant à un média, et deux versions multi-médias’, l‘une peaufinée sur 8000 articles québécois, l‘autre sur les articles belges. Les résultats montrent que les modèles CamemBERT surpassent significativement les modèlesstatistiques en termes de capacité de transfert (voir Figures 1 et 2). Les modèles CamemBERT montrent une plus grande exactitude, notamment sur les ensembles de test du même média que celui utilisé pour l‘entraînement. Cependant, les modèles entraînés sur Le Journal de Montréal(JDM) sont particulièrement performants même sur d‘autres ensembles de test, suggérant une distinction plus claire entre les genres journalistiques dans ce média. Les modèles CamemBERT multi-médias affichent également de bonnes performances. Le modèle québécois notamment obtient les meilleurs résultats en moyenne, indiquant qu‘une diversité de sources améliore la généricité du modèle. Les modèles statistiques (mono- et multi-médias) montrent des performances globalement inférieures, avec des variations significatives selon les médias. Les textes québécois sont plus difficiles à classer pour ces modèles, suggérant des différences culturelles dans les pratiques journalistiques entre le Québec et la Belgique. L‘analyse des traits révèle que l‘importance de certains éléments textuels, comme les points d‘exclamation et les marqueurs de temps relatifs, varient considérablement entre les modèles entraînés sur différents médias. Par exemple, les éditoriaux du JDM utilisent fréquemment des points d‘exclamation, reflétant un style plus affirmé et polarisant. En revanche, les articles de La Presse présentent des particularités qui compliquent la généralisation de la tâche. En sommme, cette étude démontre la supériorité des modèles neuronaux comme CamemBERT pour la classification de textes journalistiques, notamment grâce à leur capacité de transfert, bien que les modèles basés sur des traits se distinguent par la transparence de leur raisonnement’. Elle met également en lumière des différences significatives entre les cultures journalistiques québécoises et belges.</abstract>
<identifier type="citekey">escouflaire-etal-2024-la</identifier>
<location>
<url>https://aclanthology.org/2024.jeptalnrecital-trad.8/</url>
</location>
<part>
<date>2024-7</date>
<extent unit="page">
<start>12</start>
<end>13</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T La subjectivité dans le journalisme québécois et belge : transfert de connaissance inter-médias et inter-cultures
%A Escouflaire, Louis
%A Descampe, Antonin
%A Venant, Antoine
%A Fairon, Cédrick
%Y Balaguer, Mathieu
%Y Bendahman, Nihed
%Y Ho-dac, Lydia-Mai
%Y Mauclair, Julie
%Y G Moreno, Jose
%Y Pinquier, Julien
%S Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 2 : traductions d‘articles publiès
%D 2024
%8 July
%I ATALA and AFPC
%C Toulouse, France
%G fra
%F escouflaire-etal-2024-la
%X Cet article s‘intéresse à la capacité de transfert des modèles de classification de texte dans le domaine journalistique, en particulier pour distinguer les articles d‘opinion des articles d‘information. A l’ère du numérique et des réseaux sociaux, les distinctions entre ces genres deviennent de plus en plus floues, augmentant l‘importance de cette tâche de classification. Un corpus de 80 000 articles de presse provenant de huit médias, quatre québécois et quatre belges francophones, a été constitué. Pour identifier les thèmes des articles, une clusterisation a été appliquée sur les 10 000 articles issus de chaque média, assurant une distribution équilibrée des thèmes entre les deux genres opinion et information. Les données ont ensuite été utilisées pour entraîner (ou peaufiner) et évaluer deux types de modèles : CamemBERT (Martin et al., 2019), un modèle neuronal pré-entraîné, et un modèle de régression logistique basé sur des traits textuels. Dix versions différentes de chaque modèle sont entraînées : 8 versions mono-médias’, chacune peaufinée sur l‘ensemble d‘entraînement du sous-corpus correspondant à un média, et deux versions multi-médias’, l‘une peaufinée sur 8000 articles québécois, l‘autre sur les articles belges. Les résultats montrent que les modèles CamemBERT surpassent significativement les modèlesstatistiques en termes de capacité de transfert (voir Figures 1 et 2). Les modèles CamemBERT montrent une plus grande exactitude, notamment sur les ensembles de test du même média que celui utilisé pour l‘entraînement. Cependant, les modèles entraînés sur Le Journal de Montréal(JDM) sont particulièrement performants même sur d‘autres ensembles de test, suggérant une distinction plus claire entre les genres journalistiques dans ce média. Les modèles CamemBERT multi-médias affichent également de bonnes performances. Le modèle québécois notamment obtient les meilleurs résultats en moyenne, indiquant qu‘une diversité de sources améliore la généricité du modèle. Les modèles statistiques (mono- et multi-médias) montrent des performances globalement inférieures, avec des variations significatives selon les médias. Les textes québécois sont plus difficiles à classer pour ces modèles, suggérant des différences culturelles dans les pratiques journalistiques entre le Québec et la Belgique. L‘analyse des traits révèle que l‘importance de certains éléments textuels, comme les points d‘exclamation et les marqueurs de temps relatifs, varient considérablement entre les modèles entraînés sur différents médias. Par exemple, les éditoriaux du JDM utilisent fréquemment des points d‘exclamation, reflétant un style plus affirmé et polarisant. En revanche, les articles de La Presse présentent des particularités qui compliquent la généralisation de la tâche. En sommme, cette étude démontre la supériorité des modèles neuronaux comme CamemBERT pour la classification de textes journalistiques, notamment grâce à leur capacité de transfert, bien que les modèles basés sur des traits se distinguent par la transparence de leur raisonnement’. Elle met également en lumière des différences significatives entre les cultures journalistiques québécoises et belges.
%U https://aclanthology.org/2024.jeptalnrecital-trad.8/
%P 12-13
Markdown (Informal)
[La subjectivité dans le journalisme québécois et belge : transfert de connaissance inter-médias et inter-cultures](https://aclanthology.org/2024.jeptalnrecital-trad.8/) (Escouflaire et al., JEP/TALN/RECITAL 2024)
ACL