@inproceedings{tanguy-2020-exploiter,
title = "Exploiter des mod{\`e}les de langue pour {\'e}valuer des sorties de logiciels d{'}{OCR} pour des documents fran{\c{c}}ais du {XVII}e si{\`e}cle ()",
author = "Tanguy, Jean-Baptiste",
editor = "Benzitoun, Christophe and
Braud, Chlo{\'e} and
Huber, Laurine and
Langlois, David and
Ouni, Slim and
Pogodalla, Sylvain and
Schneider, St{\'e}phane",
booktitle = "Actes de la 6e conf{\'e}rence conjointe Journ{\'e}es d'{\'E}tudes sur la Parole (JEP, 33e {\'e}dition), Traitement Automatique des Langues Naturelles (TALN, 27e {\'e}dition), Rencontre des {\'E}tudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (R{\'E}CITAL, 22e {\'e}dition). Volume 3 : Rencontre des {\'E}tudiants Chercheurs en Informatique pour le TAL",
month = "6",
year = "2020",
address = "Nancy, France",
publisher = "ATALA et AFCP",
url = "https://aclanthology.org/2020.jeptalnrecital-recital.16",
pages = "205--217",
abstract = "Pour comparer deux sorties de logiciels d{'}OCR, le Character Error Rate (ou, CER) est fr{\'e}quemment utilis{\'e}. Moyennant l{'}existence d{'}une transcription de r{\'e}f{\'e}rence de qualit{\'e} pour certains documents du corpus, le CER calcule le taux d{'}erreurs de ces pi{\`e}ces et permet ensuite de s{\'e}lectionner le logiciel d{'}OCR le plus adapt{\'e}. Toutefois, ces transcriptions sont tr{\`e}s co{\^u}teuses {\`a} produire et peuvent freiner certaines {\'e}tudes, m{\^e}me prospectives. Nous explorons l{'}exploitation des mod{\`e}les de langue en agr{\'e}geant selon diff{\'e}rentes m{\'e}thodes les probabilit{\'e}s offertes par ceux-ci pour estimer la qualit{\'e} d{'}une sortie d{'}OCR. L{'}indice de corr{\'e}lation Pearson est ici utilis{\'e} pour comprendre dans quelle mesure ces estimations issues de mod{\`e}les de langue co-varient avec le CER, mesure de r{\'e}f{\'e}rence.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="tanguy-2020-exploiter">
<titleInfo>
<title>Exploiter des modèles de langue pour évaluer des sorties de logiciels d’OCR pour des documents français du XVIIe siècle ()</title>
</titleInfo>
<name type="personal">
<namePart type="given">Jean-Baptiste</namePart>
<namePart type="family">Tanguy</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2020-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 6e conférence conjointe Journées d’Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 3 : Rencontre des Étudiants Chercheurs en Informatique pour le TAL</title>
</titleInfo>
<name type="personal">
<namePart type="given">Christophe</namePart>
<namePart type="family">Benzitoun</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Chloé</namePart>
<namePart type="family">Braud</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Laurine</namePart>
<namePart type="family">Huber</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">David</namePart>
<namePart type="family">Langlois</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Slim</namePart>
<namePart type="family">Ouni</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Sylvain</namePart>
<namePart type="family">Pogodalla</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Stéphane</namePart>
<namePart type="family">Schneider</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA et AFCP</publisher>
<place>
<placeTerm type="text">Nancy, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Pour comparer deux sorties de logiciels d’OCR, le Character Error Rate (ou, CER) est fréquemment utilisé. Moyennant l’existence d’une transcription de référence de qualité pour certains documents du corpus, le CER calcule le taux d’erreurs de ces pièces et permet ensuite de sélectionner le logiciel d’OCR le plus adapté. Toutefois, ces transcriptions sont très coûteuses à produire et peuvent freiner certaines études, même prospectives. Nous explorons l’exploitation des modèles de langue en agrégeant selon différentes méthodes les probabilités offertes par ceux-ci pour estimer la qualité d’une sortie d’OCR. L’indice de corrélation Pearson est ici utilisé pour comprendre dans quelle mesure ces estimations issues de modèles de langue co-varient avec le CER, mesure de référence.</abstract>
<identifier type="citekey">tanguy-2020-exploiter</identifier>
<location>
<url>https://aclanthology.org/2020.jeptalnrecital-recital.16</url>
</location>
<part>
<date>2020-6</date>
<extent unit="page">
<start>205</start>
<end>217</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Exploiter des modèles de langue pour évaluer des sorties de logiciels d’OCR pour des documents français du XVIIe siècle ()
%A Tanguy, Jean-Baptiste
%Y Benzitoun, Christophe
%Y Braud, Chloé
%Y Huber, Laurine
%Y Langlois, David
%Y Ouni, Slim
%Y Pogodalla, Sylvain
%Y Schneider, Stéphane
%S Actes de la 6e conférence conjointe Journées d’Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 3 : Rencontre des Étudiants Chercheurs en Informatique pour le TAL
%D 2020
%8 June
%I ATALA et AFCP
%C Nancy, France
%G French
%F tanguy-2020-exploiter
%X Pour comparer deux sorties de logiciels d’OCR, le Character Error Rate (ou, CER) est fréquemment utilisé. Moyennant l’existence d’une transcription de référence de qualité pour certains documents du corpus, le CER calcule le taux d’erreurs de ces pièces et permet ensuite de sélectionner le logiciel d’OCR le plus adapté. Toutefois, ces transcriptions sont très coûteuses à produire et peuvent freiner certaines études, même prospectives. Nous explorons l’exploitation des modèles de langue en agrégeant selon différentes méthodes les probabilités offertes par ceux-ci pour estimer la qualité d’une sortie d’OCR. L’indice de corrélation Pearson est ici utilisé pour comprendre dans quelle mesure ces estimations issues de modèles de langue co-varient avec le CER, mesure de référence.
%U https://aclanthology.org/2020.jeptalnrecital-recital.16
%P 205-217
Markdown (Informal)
[Exploiter des modèles de langue pour évaluer des sorties de logiciels d’OCR pour des documents français du XVIIe siècle ()](https://aclanthology.org/2020.jeptalnrecital-recital.16) (Tanguy, JEP/TALN/RECITAL 2020)
ACL