@inproceedings{pelloin-prouteau-2020-apprentissage,
title = "Apprentissage de plongements de mots sur des corpus en langue de sp{\'e}cialit{\'e} : une {\'e}tude d{'}impact (Learning word embeddings on domain specific corpora : an impact study )",
author = "Pelloin, Valentin and
Prouteau, Thibault",
editor = "Benzitoun, Christophe and
Braud, Chlo{\'e} and
Huber, Laurine and
Langlois, David and
Ouni, Slim and
Pogodalla, Sylvain and
Schneider, St{\'e}phane",
booktitle = "Actes de la 6e conf{\'e}rence conjointe Journ{\'e}es d'{\'E}tudes sur la Parole (JEP, 33e {\'e}dition), Traitement Automatique des Langues Naturelles (TALN, 27e {\'e}dition), Rencontre des {\'E}tudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (R{\'E}CITAL, 22e {\'e}dition). Volume 3 : Rencontre des {\'E}tudiants Chercheurs en Informatique pour le TAL",
month = "6",
year = "2020",
address = "Nancy, France",
publisher = "ATALA et AFCP",
url = "https://aclanthology.org/2020.jeptalnrecital-recital.13",
pages = "164--178",
abstract = "Les m{\'e}thodes d{'}apprentissage de plongements lexicaux constituent d{\'e}sormais l{'}{\'e}tat de l{'}art pour la repr{\'e}sentation du vocabulaire et des documents sous forme de vecteurs dans de nombreuses t{\^a}ches de Traitement Automatique du Langage Naturel (TALN). Dans ce travail, nous consid{\'e}rons l{'}apprentissage et l{'}usage de plongements lexicaux dans le cadre de corpus en langue de sp{\'e}cialit{\'e} de petite taille. En particulier, nous souhaitons savoir si dans ce cadre, il est pr{\'e}f{\'e}rable d{'}utiliser des plongements pr{\'e}appris sur des corpus tr{\`e}s volumineux tels Wikip{\'e}dia ou bien s{'}il est pr{\'e}f{\'e}rable d{'}apprendre des plongements sur ces corpus en langue de sp{\'e}cialit{\'e}. Pour r{\'e}pondre {\`a} cette question, nous consid{\'e}rons deux corpus en langue de sp{\'e}cialit{\'e} : O HSUMED issu du domaine m{\'e}dical, et un corpus de documentation technique, propri{\'e}t{\'e} de SNCF. Apr{\`e}s avoir introduit ces corpus et {\'e}valu{\'e} leur sp{\'e}cificit{\'e}, nous d{\'e}finissons une t{\^a}che de classification. Pour cette t{\^a}che, nous choisissons d{'}utiliser en entr{\'e}e d{'}un classifieur neuronal des repr{\'e}sentations des documents qui sont soit bas{\'e}es sur des plongements appris sur les corpus de sp{\'e}cialit{\'e}, soit sur des plongements appris sur Wikip{\'e}dia. Notre analyse montre que les plongements appris sur Wikip{\'e}dia fournissent de tr{\`e}s bons r{\'e}sultats. Ceux-ci peuvent {\^e}tre utilis{\'e}s comme une r{\'e}f{\'e}rence fiable, m{\^e}me si dans le cas d{'}O HSUMED, il vaut mieux apprendre des plongements sur ce m{\^e}me corpus. La discussion des r{\'e}sultats se fait en interrogeant les sp{\'e}cificit{\'e}s des deux corpus, mais ne permet pas d{'}{\'e}tablir clairement dans quels cas apprendre des plongements sp{\'e}cifiques au corpus.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="pelloin-prouteau-2020-apprentissage">
<titleInfo>
<title>Apprentissage de plongements de mots sur des corpus en langue de spécialité : une étude d’impact (Learning word embeddings on domain specific corpora : an impact study )</title>
</titleInfo>
<name type="personal">
<namePart type="given">Valentin</namePart>
<namePart type="family">Pelloin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Thibault</namePart>
<namePart type="family">Prouteau</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2020-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 6e conférence conjointe Journées d’Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 3 : Rencontre des Étudiants Chercheurs en Informatique pour le TAL</title>
</titleInfo>
<name type="personal">
<namePart type="given">Christophe</namePart>
<namePart type="family">Benzitoun</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Chloé</namePart>
<namePart type="family">Braud</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Laurine</namePart>
<namePart type="family">Huber</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">David</namePart>
<namePart type="family">Langlois</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Slim</namePart>
<namePart type="family">Ouni</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Sylvain</namePart>
<namePart type="family">Pogodalla</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Stéphane</namePart>
<namePart type="family">Schneider</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA et AFCP</publisher>
<place>
<placeTerm type="text">Nancy, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Les méthodes d’apprentissage de plongements lexicaux constituent désormais l’état de l’art pour la représentation du vocabulaire et des documents sous forme de vecteurs dans de nombreuses tâches de Traitement Automatique du Langage Naturel (TALN). Dans ce travail, nous considérons l’apprentissage et l’usage de plongements lexicaux dans le cadre de corpus en langue de spécialité de petite taille. En particulier, nous souhaitons savoir si dans ce cadre, il est préférable d’utiliser des plongements préappris sur des corpus très volumineux tels Wikipédia ou bien s’il est préférable d’apprendre des plongements sur ces corpus en langue de spécialité. Pour répondre à cette question, nous considérons deux corpus en langue de spécialité : O HSUMED issu du domaine médical, et un corpus de documentation technique, propriété de SNCF. Après avoir introduit ces corpus et évalué leur spécificité, nous définissons une tâche de classification. Pour cette tâche, nous choisissons d’utiliser en entrée d’un classifieur neuronal des représentations des documents qui sont soit basées sur des plongements appris sur les corpus de spécialité, soit sur des plongements appris sur Wikipédia. Notre analyse montre que les plongements appris sur Wikipédia fournissent de très bons résultats. Ceux-ci peuvent être utilisés comme une référence fiable, même si dans le cas d’O HSUMED, il vaut mieux apprendre des plongements sur ce même corpus. La discussion des résultats se fait en interrogeant les spécificités des deux corpus, mais ne permet pas d’établir clairement dans quels cas apprendre des plongements spécifiques au corpus.</abstract>
<identifier type="citekey">pelloin-prouteau-2020-apprentissage</identifier>
<location>
<url>https://aclanthology.org/2020.jeptalnrecital-recital.13</url>
</location>
<part>
<date>2020-6</date>
<extent unit="page">
<start>164</start>
<end>178</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Apprentissage de plongements de mots sur des corpus en langue de spécialité : une étude d’impact (Learning word embeddings on domain specific corpora : an impact study )
%A Pelloin, Valentin
%A Prouteau, Thibault
%Y Benzitoun, Christophe
%Y Braud, Chloé
%Y Huber, Laurine
%Y Langlois, David
%Y Ouni, Slim
%Y Pogodalla, Sylvain
%Y Schneider, Stéphane
%S Actes de la 6e conférence conjointe Journées d’Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 3 : Rencontre des Étudiants Chercheurs en Informatique pour le TAL
%D 2020
%8 June
%I ATALA et AFCP
%C Nancy, France
%G French
%F pelloin-prouteau-2020-apprentissage
%X Les méthodes d’apprentissage de plongements lexicaux constituent désormais l’état de l’art pour la représentation du vocabulaire et des documents sous forme de vecteurs dans de nombreuses tâches de Traitement Automatique du Langage Naturel (TALN). Dans ce travail, nous considérons l’apprentissage et l’usage de plongements lexicaux dans le cadre de corpus en langue de spécialité de petite taille. En particulier, nous souhaitons savoir si dans ce cadre, il est préférable d’utiliser des plongements préappris sur des corpus très volumineux tels Wikipédia ou bien s’il est préférable d’apprendre des plongements sur ces corpus en langue de spécialité. Pour répondre à cette question, nous considérons deux corpus en langue de spécialité : O HSUMED issu du domaine médical, et un corpus de documentation technique, propriété de SNCF. Après avoir introduit ces corpus et évalué leur spécificité, nous définissons une tâche de classification. Pour cette tâche, nous choisissons d’utiliser en entrée d’un classifieur neuronal des représentations des documents qui sont soit basées sur des plongements appris sur les corpus de spécialité, soit sur des plongements appris sur Wikipédia. Notre analyse montre que les plongements appris sur Wikipédia fournissent de très bons résultats. Ceux-ci peuvent être utilisés comme une référence fiable, même si dans le cas d’O HSUMED, il vaut mieux apprendre des plongements sur ce même corpus. La discussion des résultats se fait en interrogeant les spécificités des deux corpus, mais ne permet pas d’établir clairement dans quels cas apprendre des plongements spécifiques au corpus.
%U https://aclanthology.org/2020.jeptalnrecital-recital.13
%P 164-178
Markdown (Informal)
[Apprentissage de plongements de mots sur des corpus en langue de spécialité : une étude d’impact (Learning word embeddings on domain specific corpora : an impact study )](https://aclanthology.org/2020.jeptalnrecital-recital.13) (Pelloin & Prouteau, JEP/TALN/RECITAL 2020)
ACL