@inproceedings{blouin-etal-2022-simulation,
title = "Simulation d`erreurs d'{OCR} dans les syst{\`e}mes de {TAL} pour le traitement de donn{\'e}es anachroniques (Simulation of {OCR} errors in {NLP} systems for processing anachronistic data)",
author = "Blouin, Baptiste and
Favre, Benoit and
Auguste, Jeremy",
editor = "Moncla, Ludovic and
Brando, Carmen",
booktitle = "Actes de la 29e Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles. Atelier TAL et Humanit{\'e}s Num{\'e}riques (TAL-HN)",
month = "6",
year = "2022",
address = "Avignon, France",
publisher = "ATALA",
url = "https://aclanthology.org/2022.jeptalnrecital-humanum.9/",
pages = "78--87",
language = "fra",
abstract = "L`extraction d`information offre de nouvelles perspectives au sein des recherches historiques. Cependant, la majorit{\'e} des recherches li{\'e}es {\`a} ce domaine s`effectue sur des donn{\'e}es contemporaines. Malgr{\'e} l'{\'e}volution constante des syst{\`e}mes d`OCR, les textes historiques r{\'e}sultant de ce proc{\'e}d{\'e} contiennent toujours de multiples erreurs. Du fait d`un manque de ressources historiques d{\'e}di{\'e}es au TAL, le traitement de ce domaine reste d{\'e}pendant de l`utilisation de ressources contemporaines. De nombreuses {\'e}tudes ont d{\'e}montr{\'e} l`impact n{\'e}gatif que pouvaient avoir les erreurs d`OCR sur les syst{\`e}mes pr{\^e}ts {\`a} l`emploi contemporains. Mais l'{\'e}valuation des nouvelles architectures, proposant des r{\'e}sultats prometteurs sur des donn{\'e}es r{\'e}centes, face {\`a} ce probl{\`e}me reste encore tr{\`e}s minime. Dans cette {\'e}tude, nous quantifions l`impact des erreurs d`OCR sur trois t{\^a}ches d`extraction d`information en utilisant plusieurs architectures de type Transformers. Au vu de ces r{\'e}sultats, nous proposons une approche permettant de r{\'e}duire de plus de 50{\%} cet impact sans avoir recours {\`a} des ressources historiques sp{\'e}cialis{\'e}es."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="blouin-etal-2022-simulation">
<titleInfo>
<title>Simulation d‘erreurs d’OCR dans les systèmes de TAL pour le traitement de données anachroniques (Simulation of OCR errors in NLP systems for processing anachronistic data)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Baptiste</namePart>
<namePart type="family">Blouin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jeremy</namePart>
<namePart type="family">Auguste</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2022-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier TAL et Humanités Numériques (TAL-HN)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Ludovic</namePart>
<namePart type="family">Moncla</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Carmen</namePart>
<namePart type="family">Brando</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Avignon, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>L‘extraction d‘information offre de nouvelles perspectives au sein des recherches historiques. Cependant, la majorité des recherches liées à ce domaine s‘effectue sur des données contemporaines. Malgré l’évolution constante des systèmes d‘OCR, les textes historiques résultant de ce procédé contiennent toujours de multiples erreurs. Du fait d‘un manque de ressources historiques dédiées au TAL, le traitement de ce domaine reste dépendant de l‘utilisation de ressources contemporaines. De nombreuses études ont démontré l‘impact négatif que pouvaient avoir les erreurs d‘OCR sur les systèmes prêts à l‘emploi contemporains. Mais l’évaluation des nouvelles architectures, proposant des résultats prometteurs sur des données récentes, face à ce problème reste encore très minime. Dans cette étude, nous quantifions l‘impact des erreurs d‘OCR sur trois tâches d‘extraction d‘information en utilisant plusieurs architectures de type Transformers. Au vu de ces résultats, nous proposons une approche permettant de réduire de plus de 50% cet impact sans avoir recours à des ressources historiques spécialisées.</abstract>
<identifier type="citekey">blouin-etal-2022-simulation</identifier>
<location>
<url>https://aclanthology.org/2022.jeptalnrecital-humanum.9/</url>
</location>
<part>
<date>2022-6</date>
<extent unit="page">
<start>78</start>
<end>87</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Simulation d‘erreurs d’OCR dans les systèmes de TAL pour le traitement de données anachroniques (Simulation of OCR errors in NLP systems for processing anachronistic data)
%A Blouin, Baptiste
%A Favre, Benoit
%A Auguste, Jeremy
%Y Moncla, Ludovic
%Y Brando, Carmen
%S Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier TAL et Humanités Numériques (TAL-HN)
%D 2022
%8 June
%I ATALA
%C Avignon, France
%G fra
%F blouin-etal-2022-simulation
%X L‘extraction d‘information offre de nouvelles perspectives au sein des recherches historiques. Cependant, la majorité des recherches liées à ce domaine s‘effectue sur des données contemporaines. Malgré l’évolution constante des systèmes d‘OCR, les textes historiques résultant de ce procédé contiennent toujours de multiples erreurs. Du fait d‘un manque de ressources historiques dédiées au TAL, le traitement de ce domaine reste dépendant de l‘utilisation de ressources contemporaines. De nombreuses études ont démontré l‘impact négatif que pouvaient avoir les erreurs d‘OCR sur les systèmes prêts à l‘emploi contemporains. Mais l’évaluation des nouvelles architectures, proposant des résultats prometteurs sur des données récentes, face à ce problème reste encore très minime. Dans cette étude, nous quantifions l‘impact des erreurs d‘OCR sur trois tâches d‘extraction d‘information en utilisant plusieurs architectures de type Transformers. Au vu de ces résultats, nous proposons une approche permettant de réduire de plus de 50% cet impact sans avoir recours à des ressources historiques spécialisées.
%U https://aclanthology.org/2022.jeptalnrecital-humanum.9/
%P 78-87
Markdown (Informal)
[Simulation d’erreurs d’OCR dans les systèmes de TAL pour le traitement de données anachroniques (Simulation of OCR errors in NLP systems for processing anachronistic data)](https://aclanthology.org/2022.jeptalnrecital-humanum.9/) (Blouin et al., JEP/TALN/RECITAL 2022)
ACL