Utilisation d’une approche basée sur la recherche cross-lingue d’information pour l’alignement de phrases à partir de textes bilingues Arabe-Français

Nasredine Semmar, Christian Fluhr


Abstract
L’alignement de phrases à partir de textes bilingues consiste à reconnaître les phrases qui sont traductions les unes des autres. Cet article présente une nouvelle approche pour aligner les phrases d’un corpus parallèle. Cette approche est basée sur la recherche crosslingue d’information et consiste à construire une base de données des phrases du texte cible et considérer chaque phrase du texte source comme une requête à cette base. La recherche crosslingue utilise un analyseur linguistique et un moteur de recherche. L’analyseur linguistique traite aussi bien les documents à indexer que les requêtes et produit un ensemble de lemmes normalisés, un ensemble d’entités nommées et un ensemble de mots composés avec leurs étiquettes morpho-syntaxiques. Le moteur de recherche construit les fichiers inversés des documents en se basant sur leur analyse linguistique et retrouve les documents pertinents à partir de leur indexes. L’aligneur de phrases a été évalué sur un corpus parallèle Arabe-Français et les résultats obtenus montrent que 97% des phrases ont été correctement alignées.
Anthology ID:
2007.jeptalnrecital-long.38
Volume:
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:
June
Year:
2007
Address:
Toulouse, France
Editors:
Nabil Hathout, Philippe Muller
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
385–394
Language:
French
URL:
https://aclanthology.org/2007.jeptalnrecital-long.38
DOI:
Bibkey:
Cite (ACL):
Nasredine Semmar and Christian Fluhr. 2007. Utilisation d’une approche basée sur la recherche cross-lingue d’information pour l’alignement de phrases à partir de textes bilingues Arabe-Français. In Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs, pages 385–394, Toulouse, France. ATALA.
Cite (Informal):
Utilisation d’une approche basée sur la recherche cross-lingue d’information pour l’alignement de phrases à partir de textes bilingues Arabe-Français (Semmar & Fluhr, JEP/TALN/RECITAL 2007)
Copy Citation:
PDF:
https://aclanthology.org/2007.jeptalnrecital-long.38.pdf