@inproceedings{labrak-etal-2023-drbert-un,
title = "{D}r{BERT}: Un mod{\`e}le robuste pr{\'e}-entra{\^\i}n{\'e} en fran{\c{c}}ais pour les domaines biom{\'e}dical et clinique",
author = "Labrak, Yanis and
Bazoge, Adrien and
Dufour, Richard and
Rouvier, Mickael and
Morin, Emmanuel and
Daille, B{\'e}atrice and
Gourraud, Pierre-Antoine",
editor = "Servan, Christophe and
Vilnat, Anne",
booktitle = "Actes de CORIA-TALN 2023. Actes de la 30e Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 4 : articles d{\'e}j{\`a} soumis ou accept{\'e}s en conf{\'e}rence internationale",
month = "6",
year = "2023",
address = "Paris, France",
publisher = "ATALA",
url = "https://aclanthology.org/2023.jeptalnrecital-international.13",
pages = "109--120",
abstract = "Ces derni{\`e}res ann{\'e}es, les mod{\`e}les de langage pr{\'e}-entra{\^\i}n{\'e}s ont obtenu les meilleures performances sur un large {\'e}ventail de t{\^a}ches de traitement automatique du langage naturel (TALN). Alors que les premiers mod{\`e}les ont {\'e}t{\'e} entra{\^\i}n{\'e}s sur des donn{\'e}es issues de domaines g{\'e}n{\'e}raux, des mod{\`e}les sp{\'e}cialis{\'e}s sont apparus pour traiter plus efficacement des domaines sp{\'e}cifiques. Dans cet article, nous proposons une {\'e}tude originale de mod{\`e}les de langue dans le domaine m{\'e}dical en fran{\c{c}}ais. Nous comparons pour la premi{\`e}re fois les performances de mod{\`e}les entra{\^\i}n{\'e}s sur des donn{\'e}es publiques issues du web et sur des donn{\'e}es priv{\'e}es issues d{'}{\'e}tablissements de sant{\'e}. Nous {\'e}valuons {\'e}galement diff{\'e}rentes strat{\'e}gies d{'}apprentissage sur un ensemble de t{\^a}ches biom{\'e}dicales. Enfin, nous publions les premiers mod{\`e}les sp{\'e}cialis{\'e}s pour le domaine biom{\'e}dical en fran{\c{c}}ais, appel{\'e}s DrBERT, ainsi que le plus grand corpus de donn{\'e}es m{\'e}dicales sous licence libre sur lequel ces mod{\`e}les sont entra{\^\i}n{\'e}s.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="labrak-etal-2023-drbert-un">
<titleInfo>
<title>DrBERT: Un modèle robuste pré-entraîné en français pour les domaines biomédical et clinique</title>
</titleInfo>
<name type="personal">
<namePart type="given">Yanis</namePart>
<namePart type="family">Labrak</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrien</namePart>
<namePart type="family">Bazoge</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Richard</namePart>
<namePart type="family">Dufour</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Mickael</namePart>
<namePart type="family">Rouvier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Emmanuel</namePart>
<namePart type="family">Morin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Béatrice</namePart>
<namePart type="family">Daille</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Pierre-Antoine</namePart>
<namePart type="family">Gourraud</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2023-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 4 : articles déjà soumis ou acceptés en conférence internationale</title>
</titleInfo>
<name type="personal">
<namePart type="given">Christophe</namePart>
<namePart type="family">Servan</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Anne</namePart>
<namePart type="family">Vilnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Paris, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Ces dernières années, les modèles de langage pré-entraînés ont obtenu les meilleures performances sur un large éventail de tâches de traitement automatique du langage naturel (TALN). Alors que les premiers modèles ont été entraînés sur des données issues de domaines généraux, des modèles spécialisés sont apparus pour traiter plus efficacement des domaines spécifiques. Dans cet article, nous proposons une étude originale de modèles de langue dans le domaine médical en français. Nous comparons pour la première fois les performances de modèles entraînés sur des données publiques issues du web et sur des données privées issues d’établissements de santé. Nous évaluons également différentes stratégies d’apprentissage sur un ensemble de tâches biomédicales. Enfin, nous publions les premiers modèles spécialisés pour le domaine biomédical en français, appelés DrBERT, ainsi que le plus grand corpus de données médicales sous licence libre sur lequel ces modèles sont entraînés.</abstract>
<identifier type="citekey">labrak-etal-2023-drbert-un</identifier>
<location>
<url>https://aclanthology.org/2023.jeptalnrecital-international.13</url>
</location>
<part>
<date>2023-6</date>
<extent unit="page">
<start>109</start>
<end>120</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T DrBERT: Un modèle robuste pré-entraîné en français pour les domaines biomédical et clinique
%A Labrak, Yanis
%A Bazoge, Adrien
%A Dufour, Richard
%A Rouvier, Mickael
%A Morin, Emmanuel
%A Daille, Béatrice
%A Gourraud, Pierre-Antoine
%Y Servan, Christophe
%Y Vilnat, Anne
%S Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 4 : articles déjà soumis ou acceptés en conférence internationale
%D 2023
%8 June
%I ATALA
%C Paris, France
%G French
%F labrak-etal-2023-drbert-un
%X Ces dernières années, les modèles de langage pré-entraînés ont obtenu les meilleures performances sur un large éventail de tâches de traitement automatique du langage naturel (TALN). Alors que les premiers modèles ont été entraînés sur des données issues de domaines généraux, des modèles spécialisés sont apparus pour traiter plus efficacement des domaines spécifiques. Dans cet article, nous proposons une étude originale de modèles de langue dans le domaine médical en français. Nous comparons pour la première fois les performances de modèles entraînés sur des données publiques issues du web et sur des données privées issues d’établissements de santé. Nous évaluons également différentes stratégies d’apprentissage sur un ensemble de tâches biomédicales. Enfin, nous publions les premiers modèles spécialisés pour le domaine biomédical en français, appelés DrBERT, ainsi que le plus grand corpus de données médicales sous licence libre sur lequel ces modèles sont entraînés.
%U https://aclanthology.org/2023.jeptalnrecital-international.13
%P 109-120
Markdown (Informal)
[DrBERT: Un modèle robuste pré-entraîné en français pour les domaines biomédical et clinique](https://aclanthology.org/2023.jeptalnrecital-international.13) (Labrak et al., JEP/TALN/RECITAL 2023)
ACL
- Yanis Labrak, Adrien Bazoge, Richard Dufour, Mickael Rouvier, Emmanuel Morin, Béatrice Daille, and Pierre-Antoine Gourraud. 2023. DrBERT: Un modèle robuste pré-entraîné en français pour les domaines biomédical et clinique. In Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 4 : articles déjà soumis ou acceptés en conférence internationale, pages 109–120, Paris, France. ATALA.