@inproceedings{koudoro-parfait-etal-2022-reconnaissance,
title = {Reconnaissance d`entit{\'e}s nomm{\'e}es sur des sorties {OCR} bruit{\'e}es : des pistes pour la d{\'e}sambigu{\"i}sation morphologique automatique (Resolution of entity linking issues on noisy {OCR} output : automatic disambiguation tracks)},
author = {Koudoro-Parfait, Caroline and
Lejeune, Ga{\"e}l and
Buth, Richy},
editor = "Moncla, Ludovic and
Brando, Carmen",
booktitle = "Actes de la 29e Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles. Atelier TAL et Humanit{\'e}s Num{\'e}riques (TAL-HN)",
month = "6",
year = "2022",
address = "Avignon, France",
publisher = "ATALA",
url = "https://aclanthology.org/2022.jeptalnrecital-humanum.6/",
pages = "45--55",
language = "fra",
abstract = {La variation dans les donn{\'e}es textuelles, en particulier le bruit, est un facteur limitant la performance des syst{\`e}mes de Reconnaissance d`Entit{\'e}s Nomm{\'e}es (REN). Les syst{\`e}mes de REN sont en effet g{\'e}n{\'e}ralement entra{\^i}n{\'e}s sur des donn{\'e}es {\guillemotleft} propres {\guillemotright}, non-bruit{\'e}es, ce qui n`est pas le cas des donn{\'e}es des humanit{\'e}s num{\'e}riques obtenues par reconnaissance optique de caract{\`e}res (OCR). De fait, la qualit{\'e} des transcriptions OCR est souvent per{\c{c}}ue comme la source principale des erreurs faites par les outils de REN. Cependant, des r{\'e}sultats obtenus avec diff{\'e}rents syst{\`e}mes REN sur des transcriptions OCR d`un corpus du 19{\`e}me si{\`e}cle (ELTeC) tendent {\`a} montrer une certaine robustesse, modulo la pr{\'e}sence de formes bruit{\'e}es, parfois dites {\guillemotleft} contamin{\'e}es {\guillemotright}. La difficult{\'e}, est alors de lier ces formes contamin{\'e}es avec leur forme de r{\'e}f{\'e}rence, par exemple, pour rapprocher la cha{\^i}ne {\guillemotleft} Parisl {\guillemotright}et la cha{\^i}ne {\guillemotleft} Paris {\guillemotright}. Il s`agit de mod{\'e}liser le fait que diff{\'e}rentes variations se rapprochent du m{\^e}me terme. Des questions quant {\`a} l`automatisation de cette t{\^a}che et sa g{\'e}n{\'e}ralisation {\`a} toutes les variations d`un m{\^e}me terme restent ouvertes. Nous montrons dans cet article diff{\'e}rentes exp{\'e}riences visant {\`a} traiter ce probl{\`e}me sous l{\textquoteleft}angle de la d{\'e}sambigu{\"i}sation morphologique des entit{\'e}s nomm{\'e}es (EN) en aval de la cha{\^i}ne de traitement, plut{\^o}t que par la correction en amont des donn{\'e}es de l`OCR.}
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="koudoro-parfait-etal-2022-reconnaissance">
<titleInfo>
<title>Reconnaissance d‘entités nommées sur des sorties OCR bruitées : des pistes pour la désambiguïsation morphologique automatique (Resolution of entity linking issues on noisy OCR output : automatic disambiguation tracks)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Caroline</namePart>
<namePart type="family">Koudoro-Parfait</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Gaël</namePart>
<namePart type="family">Lejeune</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Richy</namePart>
<namePart type="family">Buth</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2022-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier TAL et Humanités Numériques (TAL-HN)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Ludovic</namePart>
<namePart type="family">Moncla</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Carmen</namePart>
<namePart type="family">Brando</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Avignon, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>La variation dans les données textuelles, en particulier le bruit, est un facteur limitant la performance des systèmes de Reconnaissance d‘Entités Nommées (REN). Les systèmes de REN sont en effet généralement entraînés sur des données \guillemotleft propres \guillemotright, non-bruitées, ce qui n‘est pas le cas des données des humanités numériques obtenues par reconnaissance optique de caractères (OCR). De fait, la qualité des transcriptions OCR est souvent perçue comme la source principale des erreurs faites par les outils de REN. Cependant, des résultats obtenus avec différents systèmes REN sur des transcriptions OCR d‘un corpus du 19ème siècle (ELTeC) tendent à montrer une certaine robustesse, modulo la présence de formes bruitées, parfois dites \guillemotleft contaminées \guillemotright. La difficulté, est alors de lier ces formes contaminées avec leur forme de référence, par exemple, pour rapprocher la chaîne \guillemotleft Parisl \guillemotrightet la chaîne \guillemotleft Paris \guillemotright. Il s‘agit de modéliser le fait que différentes variations se rapprochent du même terme. Des questions quant à l‘automatisation de cette tâche et sa généralisation à toutes les variations d‘un même terme restent ouvertes. Nous montrons dans cet article différentes expériences visant à traiter ce problème sous l‘angle de la désambiguïsation morphologique des entités nommées (EN) en aval de la chaîne de traitement, plutôt que par la correction en amont des données de l‘OCR.</abstract>
<identifier type="citekey">koudoro-parfait-etal-2022-reconnaissance</identifier>
<location>
<url>https://aclanthology.org/2022.jeptalnrecital-humanum.6/</url>
</location>
<part>
<date>2022-6</date>
<extent unit="page">
<start>45</start>
<end>55</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Reconnaissance d‘entités nommées sur des sorties OCR bruitées : des pistes pour la désambiguïsation morphologique automatique (Resolution of entity linking issues on noisy OCR output : automatic disambiguation tracks)
%A Koudoro-Parfait, Caroline
%A Lejeune, Gaël
%A Buth, Richy
%Y Moncla, Ludovic
%Y Brando, Carmen
%S Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier TAL et Humanités Numériques (TAL-HN)
%D 2022
%8 June
%I ATALA
%C Avignon, France
%G fra
%F koudoro-parfait-etal-2022-reconnaissance
%X La variation dans les données textuelles, en particulier le bruit, est un facteur limitant la performance des systèmes de Reconnaissance d‘Entités Nommées (REN). Les systèmes de REN sont en effet généralement entraînés sur des données \guillemotleft propres \guillemotright, non-bruitées, ce qui n‘est pas le cas des données des humanités numériques obtenues par reconnaissance optique de caractères (OCR). De fait, la qualité des transcriptions OCR est souvent perçue comme la source principale des erreurs faites par les outils de REN. Cependant, des résultats obtenus avec différents systèmes REN sur des transcriptions OCR d‘un corpus du 19ème siècle (ELTeC) tendent à montrer une certaine robustesse, modulo la présence de formes bruitées, parfois dites \guillemotleft contaminées \guillemotright. La difficulté, est alors de lier ces formes contaminées avec leur forme de référence, par exemple, pour rapprocher la chaîne \guillemotleft Parisl \guillemotrightet la chaîne \guillemotleft Paris \guillemotright. Il s‘agit de modéliser le fait que différentes variations se rapprochent du même terme. Des questions quant à l‘automatisation de cette tâche et sa généralisation à toutes les variations d‘un même terme restent ouvertes. Nous montrons dans cet article différentes expériences visant à traiter ce problème sous l‘angle de la désambiguïsation morphologique des entités nommées (EN) en aval de la chaîne de traitement, plutôt que par la correction en amont des données de l‘OCR.
%U https://aclanthology.org/2022.jeptalnrecital-humanum.6/
%P 45-55
Markdown (Informal)
[Reconnaissance d’entités nommées sur des sorties OCR bruitées : des pistes pour la désambiguïsation morphologique automatique (Resolution of entity linking issues on noisy OCR output : automatic disambiguation tracks)](https://aclanthology.org/2022.jeptalnrecital-humanum.6/) (Koudoro-Parfait et al., JEP/TALN/RECITAL 2022)
ACL