@inproceedings{cardon-grabar-2019-detection,
title = "D{\'e}tection automatique de phrases parall{\`e}les dans un corpus biom{\'e}dical comparable technique / simplifi{\'e} (Automatic detection of parallel sentences in comparable biomedical corpora)",
author = "Cardon, Remi and
Grabar, Natalia",
editor = "Morin, Emmanuel and
Rosset, Sophie and
Zweigenbaum, Pierre",
booktitle = "Actes de la Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume II : Articles courts",
month = "7",
year = "2019",
address = "Toulouse, France",
publisher = "ATALA",
url = "https://aclanthology.org/2019.jeptalnrecital-court.11/",
pages = "255--264",
language = "fra",
abstract = "Les phrases parall{\`e}les contiennent des informations identiques ou tr{\`e}s proches s{\'e}mantiquement et offrent des indications importantes sur le fonctionnement de la langue. Lorsque les phrases sont diff{\'e}renci{\'e}es par leur registre (comme expert vs. non-expert), elles peuvent {\^e}tre exploit{\'e}es pour la simplification automatique de textes. Le but de la simplification automatique est d`am{\'e}liorer la compr{\'e}hension de textes. Par exemple, dans le domaine biom{\'e}dical, la simplification peut permettre aux patients de mieux comprendre les textes relatifs {\`a} leur sant{\'e}. Il existe cependant tr{\`e}s peu de ressources pour la simplification en fran{\c{c}}ais. Nous proposons donc d`exploiter des corpus comparables, diff{\'e}renci{\'e}s par leur technicit{\'e}, pour y d{\'e}tecter des phrases parall{\`e}les et les aligner. Les donn{\'e}es de r{\'e}f{\'e}rence sont cr{\'e}{\'e}es manuellement et montrent un accord inter-annotateur de 0,76. Nous exp{\'e}rimentons sur des donn{\'e}es {\'e}quilibr{\'e}es et d{\'e}s{\'e}quilibr{\'e}es. La F-mesure sur les donn{\'e}es {\'e}quilibr{\'e}es atteint jusqu'{\`a} 0,94. Sur les donn{\'e}es d{\'e}s{\'e}quilibr{\'e}es, les r{\'e}sultats sont plus faibles (jusqu'{\`a} 0,92 de F-mesure) mais restent comp{\'e}titifs lorsque les mod{\`e}les sont entra{\^i}n{\'e}s sur les donn{\'e}es {\'e}quilibr{\'e}es."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="cardon-grabar-2019-detection">
<titleInfo>
<title>Détection automatique de phrases parallèles dans un corpus biomédical comparable technique / simplifié (Automatic detection of parallel sentences in comparable biomedical corpora)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Remi</namePart>
<namePart type="family">Cardon</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Natalia</namePart>
<namePart type="family">Grabar</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2019-07</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume II : Articles courts</title>
</titleInfo>
<name type="personal">
<namePart type="given">Emmanuel</namePart>
<namePart type="family">Morin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Sophie</namePart>
<namePart type="family">Rosset</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Pierre</namePart>
<namePart type="family">Zweigenbaum</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Toulouse, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Les phrases parallèles contiennent des informations identiques ou très proches sémantiquement et offrent des indications importantes sur le fonctionnement de la langue. Lorsque les phrases sont différenciées par leur registre (comme expert vs. non-expert), elles peuvent être exploitées pour la simplification automatique de textes. Le but de la simplification automatique est d‘améliorer la compréhension de textes. Par exemple, dans le domaine biomédical, la simplification peut permettre aux patients de mieux comprendre les textes relatifs à leur santé. Il existe cependant très peu de ressources pour la simplification en français. Nous proposons donc d‘exploiter des corpus comparables, différenciés par leur technicité, pour y détecter des phrases parallèles et les aligner. Les données de référence sont créées manuellement et montrent un accord inter-annotateur de 0,76. Nous expérimentons sur des données équilibrées et déséquilibrées. La F-mesure sur les données équilibrées atteint jusqu’à 0,94. Sur les données déséquilibrées, les résultats sont plus faibles (jusqu’à 0,92 de F-mesure) mais restent compétitifs lorsque les modèles sont entraînés sur les données équilibrées.</abstract>
<identifier type="citekey">cardon-grabar-2019-detection</identifier>
<location>
<url>https://aclanthology.org/2019.jeptalnrecital-court.11/</url>
</location>
<part>
<date>2019-7</date>
<extent unit="page">
<start>255</start>
<end>264</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Détection automatique de phrases parallèles dans un corpus biomédical comparable technique / simplifié (Automatic detection of parallel sentences in comparable biomedical corpora)
%A Cardon, Remi
%A Grabar, Natalia
%Y Morin, Emmanuel
%Y Rosset, Sophie
%Y Zweigenbaum, Pierre
%S Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume II : Articles courts
%D 2019
%8 July
%I ATALA
%C Toulouse, France
%G fra
%F cardon-grabar-2019-detection
%X Les phrases parallèles contiennent des informations identiques ou très proches sémantiquement et offrent des indications importantes sur le fonctionnement de la langue. Lorsque les phrases sont différenciées par leur registre (comme expert vs. non-expert), elles peuvent être exploitées pour la simplification automatique de textes. Le but de la simplification automatique est d‘améliorer la compréhension de textes. Par exemple, dans le domaine biomédical, la simplification peut permettre aux patients de mieux comprendre les textes relatifs à leur santé. Il existe cependant très peu de ressources pour la simplification en français. Nous proposons donc d‘exploiter des corpus comparables, différenciés par leur technicité, pour y détecter des phrases parallèles et les aligner. Les données de référence sont créées manuellement et montrent un accord inter-annotateur de 0,76. Nous expérimentons sur des données équilibrées et déséquilibrées. La F-mesure sur les données équilibrées atteint jusqu’à 0,94. Sur les données déséquilibrées, les résultats sont plus faibles (jusqu’à 0,92 de F-mesure) mais restent compétitifs lorsque les modèles sont entraînés sur les données équilibrées.
%U https://aclanthology.org/2019.jeptalnrecital-court.11/
%P 255-264
Markdown (Informal)
[Détection automatique de phrases parallèles dans un corpus biomédical comparable technique / simplifié (Automatic detection of parallel sentences in comparable biomedical corpora)](https://aclanthology.org/2019.jeptalnrecital-court.11/) (Cardon & Grabar, JEP/TALN/RECITAL 2019)
ACL