@inproceedings{mensonides-etal-2019-defi,
title = "{D{\'E}}fi Fouille de Textes 2019 : indexation par extraction et appariement textuel ({DEFT} 2019 : extraction-based document indexing and textual document similarity matching )",
author = "Mensonides, Jean-Christophe and
Jean, Pierre-Antoine and
Tchechmedjiev, Andon and
Harispe, S{\'e}bastien",
editor = "Morin, Emmanuel and
Rosset, Sophie and
Zweigenbaum, Pierre",
booktitle = "Actes de la Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. D{\'e}fi Fouille de Textes (atelier TALN-RECITAL)",
month = "7",
year = "2019",
address = "Toulouse, France",
publisher = "ATALA",
url = "https://aclanthology.org/2019.jeptalnrecital-deft.4",
pages = "35--48",
abstract = "Cet article pr{\'e}sente la contribution de l{'}{\'e}quipe du Laboratoire de G{\'e}nie Informatique et d{'}Ing{\'e}nierie de Production (LGI2P) d{'}IMT Mines Al{\`e}s au D{\'E}fi Fouille de Textes (DEFT) 2019. Il d{\'e}taille en particulier deux approches propos{\'e}es pour les t{\^a}ches li{\'e}es {\`a} (1) l{'}indexation et {\`a} (2) la similarit{\'e} de documents. Ces m{\'e}thodes reposent sur des techniques robustes et {\'e}prouv{\'e}es du domaine de la Recherche d{'}Information et du Traitement Automatique du Langage Naturel, qui ont {\'e}t{\'e} adapt{\'e}es {\`a} la nature sp{\'e}cifique du corpus (biom{\'e}dical/clinique) et coupl{\'e}es {\`a} des m{\'e}canismes d{\'e}velopp{\'e}s pour r{\'e}pondre aux sp{\'e}cificit{\'e}s des t{\^a}ches trait{\'e}es. Pour la t{\^a}che 1, nous proposons une m{\'e}thode d{'}indexation par extraction appliqu{\'e}e sur une version normalis{\'e}e du corpus (MAP de 0,48 {\`a} l{'}{\'e}valuation) ; les sp{\'e}cificit{\'e}s de la phase de normalisation seront en particulier d{\'e}taill{\'e}es. Pour la t{\^a}che 2, au-del{\`a} de la pr{\'e}sentation de l{'}approche propos{\'e}e bas{\'e}e sur l{'}{\'e}valuation de similarit{\'e}s sur des repr{\'e}sentations de documents (score de 0,91 {\`a} l{'}{\'e}valuation), nous proposons une {\'e}tude comparative de l{'}impact des choix de la distance et de la mani{\`e}re de repr{\'e}senter les textes sur la performance de l{'}approche.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="mensonides-etal-2019-defi">
<titleInfo>
<title>DÉfi Fouille de Textes 2019 : indexation par extraction et appariement textuel (DEFT 2019 : extraction-based document indexing and textual document similarity matching )</title>
</titleInfo>
<name type="personal">
<namePart type="given">Jean-Christophe</namePart>
<namePart type="family">Mensonides</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Pierre-Antoine</namePart>
<namePart type="family">Jean</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Andon</namePart>
<namePart type="family">Tchechmedjiev</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Sébastien</namePart>
<namePart type="family">Harispe</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2019-07</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Défi Fouille de Textes (atelier TALN-RECITAL)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Emmanuel</namePart>
<namePart type="family">Morin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Sophie</namePart>
<namePart type="family">Rosset</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Pierre</namePart>
<namePart type="family">Zweigenbaum</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Toulouse, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Cet article présente la contribution de l’équipe du Laboratoire de Génie Informatique et d’Ingénierie de Production (LGI2P) d’IMT Mines Alès au DÉfi Fouille de Textes (DEFT) 2019. Il détaille en particulier deux approches proposées pour les tâches liées à (1) l’indexation et à (2) la similarité de documents. Ces méthodes reposent sur des techniques robustes et éprouvées du domaine de la Recherche d’Information et du Traitement Automatique du Langage Naturel, qui ont été adaptées à la nature spécifique du corpus (biomédical/clinique) et couplées à des mécanismes développés pour répondre aux spécificités des tâches traitées. Pour la tâche 1, nous proposons une méthode d’indexation par extraction appliquée sur une version normalisée du corpus (MAP de 0,48 à l’évaluation) ; les spécificités de la phase de normalisation seront en particulier détaillées. Pour la tâche 2, au-delà de la présentation de l’approche proposée basée sur l’évaluation de similarités sur des représentations de documents (score de 0,91 à l’évaluation), nous proposons une étude comparative de l’impact des choix de la distance et de la manière de représenter les textes sur la performance de l’approche.</abstract>
<identifier type="citekey">mensonides-etal-2019-defi</identifier>
<location>
<url>https://aclanthology.org/2019.jeptalnrecital-deft.4</url>
</location>
<part>
<date>2019-7</date>
<extent unit="page">
<start>35</start>
<end>48</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T DÉfi Fouille de Textes 2019 : indexation par extraction et appariement textuel (DEFT 2019 : extraction-based document indexing and textual document similarity matching )
%A Mensonides, Jean-Christophe
%A Jean, Pierre-Antoine
%A Tchechmedjiev, Andon
%A Harispe, Sébastien
%Y Morin, Emmanuel
%Y Rosset, Sophie
%Y Zweigenbaum, Pierre
%S Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Défi Fouille de Textes (atelier TALN-RECITAL)
%D 2019
%8 July
%I ATALA
%C Toulouse, France
%G French
%F mensonides-etal-2019-defi
%X Cet article présente la contribution de l’équipe du Laboratoire de Génie Informatique et d’Ingénierie de Production (LGI2P) d’IMT Mines Alès au DÉfi Fouille de Textes (DEFT) 2019. Il détaille en particulier deux approches proposées pour les tâches liées à (1) l’indexation et à (2) la similarité de documents. Ces méthodes reposent sur des techniques robustes et éprouvées du domaine de la Recherche d’Information et du Traitement Automatique du Langage Naturel, qui ont été adaptées à la nature spécifique du corpus (biomédical/clinique) et couplées à des mécanismes développés pour répondre aux spécificités des tâches traitées. Pour la tâche 1, nous proposons une méthode d’indexation par extraction appliquée sur une version normalisée du corpus (MAP de 0,48 à l’évaluation) ; les spécificités de la phase de normalisation seront en particulier détaillées. Pour la tâche 2, au-delà de la présentation de l’approche proposée basée sur l’évaluation de similarités sur des représentations de documents (score de 0,91 à l’évaluation), nous proposons une étude comparative de l’impact des choix de la distance et de la manière de représenter les textes sur la performance de l’approche.
%U https://aclanthology.org/2019.jeptalnrecital-deft.4
%P 35-48
Markdown (Informal)
[DÉfi Fouille de Textes 2019 : indexation par extraction et appariement textuel (DEFT 2019 : extraction-based document indexing and textual document similarity matching )](https://aclanthology.org/2019.jeptalnrecital-deft.4) (Mensonides et al., JEP/TALN/RECITAL 2019)
ACL