@inproceedings{li-etal-2023-power,
title = "The Power of Selecting Key Blocks with Local Pre-ranking for Long Document Information Retrieval",
author = "Li, Minghan and
Popa, Diana Nicoleta and
Chagnon, Johan and
Cinar, Yagmur Gizem and
Gaussier, Eric",
editor = {Zargayouna, Ha{\"\i}fa},
booktitle = "Actes de CORIA-TALN 2023. Actes de la 18e Conf{\'e}rence en Recherche d'Information et Applications (CORIA)",
month = "6",
year = "2023",
address = "Paris, France",
publisher = "ATALA",
url = "https://aclanthology.org/2023.jeptalnrecital-coria.17",
pages = "213--213",
abstract = "Les r{\'e}seaux neuronaux profonds et les mod{\`e}les fond{\'e}s sur les transformeurs comme BERT ont envahi le domaine de la recherche d{'}informations (RI) ces derni{\`e}res ann{\'e}es. Leur succ{\`e}s est li{\'e} au m{\'e}canisme d{'}auto-attention qui permet de capturer les d{\'e}pendances entre les mots ind{\'e}pendamment de leur distance. Cependant, en raison de sa complexit{\'e} quadratique dans le nombre de mots, ce m{\'e}canisme ne peut {\^e}tre directement utilis{\'e} sur de longues s{\'e}quences, ce qui ne permet pas de d{\'e}ployer enti{\`e}rement les mod{\`e}les neuronaux sur des documents longs pouvant contenir des milliers de mots. Trois strat{\'e}gies standard ont {\'e}t{\'e} adopt{\'e}es pour contourner ce probl{\`e}me. La premi{\`e}re consiste {\`a} tronquer les documents longs, la deuxi{\`e}me {\`a} segmenter les documents longs en passages plus courts et la derni{\`e}re {\`a} remplacer le module d{'}auto-attention par des modules d{'}attention parcimonieux. Dans le premier cas, des informations importantes peuvent {\^e}tre perdues et le jugement de pertinence n{'}est fond{\'e} que sur une partie de l{'}information contenue dans le document. Dans le deuxi{\`e}me cas, une architecture hi{\'e}rarchique peut {\^e}tre adopt{\'e}e pour construire une repr{\'e}sentation du document sur la base des repr{\'e}sentations de chaque passage. Cela dit, malgr{\'e} ses r{\'e}sultats prometteurs, cette strat{\'e}gie reste co{\^u}teuse en temps, en m{\'e}moire et en {\'e}nergie. Dans le troisi{\`e}me cas, les contraintes de parcimonie peuvent conduire {\`a} manquer des d{\'e}pendances importantes et, in fine, {\`a} des r{\'e}sultats sous-optimaux. L{'}approche que nous proposons est l{\'e}g{\`e}rement diff{\'e}rente de ces strat{\'e}gies et vise {\`a} capturer, dans les documents longs, les blocs les plus importants permettant de d{\'e}cider du statut, pertinent ou non, de l{'}ensemble du document. Elle repose sur trois {\'e}tapes principales : (a) la s{\'e}lection de blocs cl{\'e}s (c{'}est-{\`a}-dire susceptibles d{'}{\^e}tre pertinents) avec un pr{\'e}-classement local en utilisant soit des mod{\`e}les de RI classiques, soit un module d{'}apprentissage, (b) l{'}apprentissage d{'}une repr{\'e}sentation conjointe des requ{\^e}tes et des blocs cl{\'e}s {\`a} l{'}aide d{'}un mod{\`e}le BERT standard, et (c) le calcul d{'}un score de pertinence final qui peut {\^e}tre consid{\'e}r{\'e} comme une agr{\'e}gation d{'}informations de pertinence locale. Dans cet article, nous menons tout d{'}abord une analyse qui r{\'e}v{\`e}le que les signaux de pertinence peuvent appara{\^\i}tre {\`a} diff{\'e}rents endroits dans les documents et que de tels signaux sont mieux captur{\'e}s par des relations s{\'e}mantiques que par des correspondances exactes. Nous examinons ensuite plusieurs m{\'e}thodes pour s{\'e}lectionner les blocs pertinents et montrons comment int{\'e}grer ces m{\'e}thodes dans les mod{\`e}les r{\'e}cents de RI.",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="li-etal-2023-power">
<titleInfo>
<title>The Power of Selecting Key Blocks with Local Pre-ranking for Long Document Information Retrieval</title>
</titleInfo>
<name type="personal">
<namePart type="given">Minghan</namePart>
<namePart type="family">Li</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="given">Nicoleta</namePart>
<namePart type="family">Popa</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Johan</namePart>
<namePart type="family">Chagnon</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Yagmur</namePart>
<namePart type="given">Gizem</namePart>
<namePart type="family">Cinar</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eric</namePart>
<namePart type="family">Gaussier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2023-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<relatedItem type="host">
<titleInfo>
<title>Actes de CORIA-TALN 2023. Actes de la 18e Conférence en Recherche d’Information et Applications (CORIA)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Haïfa</namePart>
<namePart type="family">Zargayouna</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Paris, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Les réseaux neuronaux profonds et les modèles fondés sur les transformeurs comme BERT ont envahi le domaine de la recherche d’informations (RI) ces dernières années. Leur succès est lié au mécanisme d’auto-attention qui permet de capturer les dépendances entre les mots indépendamment de leur distance. Cependant, en raison de sa complexité quadratique dans le nombre de mots, ce mécanisme ne peut être directement utilisé sur de longues séquences, ce qui ne permet pas de déployer entièrement les modèles neuronaux sur des documents longs pouvant contenir des milliers de mots. Trois stratégies standard ont été adoptées pour contourner ce problème. La première consiste à tronquer les documents longs, la deuxième à segmenter les documents longs en passages plus courts et la dernière à remplacer le module d’auto-attention par des modules d’attention parcimonieux. Dans le premier cas, des informations importantes peuvent être perdues et le jugement de pertinence n’est fondé que sur une partie de l’information contenue dans le document. Dans le deuxième cas, une architecture hiérarchique peut être adoptée pour construire une représentation du document sur la base des représentations de chaque passage. Cela dit, malgré ses résultats prometteurs, cette stratégie reste coûteuse en temps, en mémoire et en énergie. Dans le troisième cas, les contraintes de parcimonie peuvent conduire à manquer des dépendances importantes et, in fine, à des résultats sous-optimaux. L’approche que nous proposons est légèrement différente de ces stratégies et vise à capturer, dans les documents longs, les blocs les plus importants permettant de décider du statut, pertinent ou non, de l’ensemble du document. Elle repose sur trois étapes principales : (a) la sélection de blocs clés (c’est-à-dire susceptibles d’être pertinents) avec un pré-classement local en utilisant soit des modèles de RI classiques, soit un module d’apprentissage, (b) l’apprentissage d’une représentation conjointe des requêtes et des blocs clés à l’aide d’un modèle BERT standard, et (c) le calcul d’un score de pertinence final qui peut être considéré comme une agrégation d’informations de pertinence locale. Dans cet article, nous menons tout d’abord une analyse qui révèle que les signaux de pertinence peuvent apparaître à différents endroits dans les documents et que de tels signaux sont mieux capturés par des relations sémantiques que par des correspondances exactes. Nous examinons ensuite plusieurs méthodes pour sélectionner les blocs pertinents et montrons comment intégrer ces méthodes dans les modèles récents de RI.</abstract>
<identifier type="citekey">li-etal-2023-power</identifier>
<location>
<url>https://aclanthology.org/2023.jeptalnrecital-coria.17</url>
</location>
<part>
<date>2023-6</date>
<extent unit="page">
<start>213</start>
<end>213</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T The Power of Selecting Key Blocks with Local Pre-ranking for Long Document Information Retrieval
%A Li, Minghan
%A Popa, Diana Nicoleta
%A Chagnon, Johan
%A Cinar, Yagmur Gizem
%A Gaussier, Eric
%Y Zargayouna, Haïfa
%S Actes de CORIA-TALN 2023. Actes de la 18e Conférence en Recherche d’Information et Applications (CORIA)
%D 2023
%8 June
%I ATALA
%C Paris, France
%F li-etal-2023-power
%X Les réseaux neuronaux profonds et les modèles fondés sur les transformeurs comme BERT ont envahi le domaine de la recherche d’informations (RI) ces dernières années. Leur succès est lié au mécanisme d’auto-attention qui permet de capturer les dépendances entre les mots indépendamment de leur distance. Cependant, en raison de sa complexité quadratique dans le nombre de mots, ce mécanisme ne peut être directement utilisé sur de longues séquences, ce qui ne permet pas de déployer entièrement les modèles neuronaux sur des documents longs pouvant contenir des milliers de mots. Trois stratégies standard ont été adoptées pour contourner ce problème. La première consiste à tronquer les documents longs, la deuxième à segmenter les documents longs en passages plus courts et la dernière à remplacer le module d’auto-attention par des modules d’attention parcimonieux. Dans le premier cas, des informations importantes peuvent être perdues et le jugement de pertinence n’est fondé que sur une partie de l’information contenue dans le document. Dans le deuxième cas, une architecture hiérarchique peut être adoptée pour construire une représentation du document sur la base des représentations de chaque passage. Cela dit, malgré ses résultats prometteurs, cette stratégie reste coûteuse en temps, en mémoire et en énergie. Dans le troisième cas, les contraintes de parcimonie peuvent conduire à manquer des dépendances importantes et, in fine, à des résultats sous-optimaux. L’approche que nous proposons est légèrement différente de ces stratégies et vise à capturer, dans les documents longs, les blocs les plus importants permettant de décider du statut, pertinent ou non, de l’ensemble du document. Elle repose sur trois étapes principales : (a) la sélection de blocs clés (c’est-à-dire susceptibles d’être pertinents) avec un pré-classement local en utilisant soit des modèles de RI classiques, soit un module d’apprentissage, (b) l’apprentissage d’une représentation conjointe des requêtes et des blocs clés à l’aide d’un modèle BERT standard, et (c) le calcul d’un score de pertinence final qui peut être considéré comme une agrégation d’informations de pertinence locale. Dans cet article, nous menons tout d’abord une analyse qui révèle que les signaux de pertinence peuvent apparaître à différents endroits dans les documents et que de tels signaux sont mieux capturés par des relations sémantiques que par des correspondances exactes. Nous examinons ensuite plusieurs méthodes pour sélectionner les blocs pertinents et montrons comment intégrer ces méthodes dans les modèles récents de RI.
%U https://aclanthology.org/2023.jeptalnrecital-coria.17
%P 213-213
Markdown (Informal)
[The Power of Selecting Key Blocks with Local Pre-ranking for Long Document Information Retrieval](https://aclanthology.org/2023.jeptalnrecital-coria.17) (Li et al., JEP/TALN/RECITAL 2023)
ACL