Cette démonstration présente les avancées d’ACCOLÉ (Annotation Collaborative d’erreurs de traduction pour COrpus aLignÉs), qui en plus de proposer une gestion simplifiée des corpus et des typologies d’erreurs, l’annotation d’erreurs pour des corpus de traduction bilingues alignés, la collaboration et/ou supervision lors de l’annotation, la recherche de modèle d’erreurs dans les annotations, permet désormais d’annoter les Expressions Polylexicales (EPL) dans des textes monolingues en français, et d’accéder à l’annotation d’erreurs pour des corpus de traduction multicibles. Dans cet article, après un bref rappel des fonctionnalités d’ACCOLÉ, nous explicitons les fonctionnalités de chaque nouveauté.
We conduct in this work an evaluation study comparing offline and online neural machine translation architectures. Two sequence-to-sequence models: convolutional Pervasive Attention (Elbayad et al. 2018) and attention-based Transformer (Vaswani et al. 2017) are considered. We investigate, for both architectures, the impact of online decoding constraints on the translation quality through a carefully designed human evaluation on English-German and German-English language pairs, the latter being particularly sensitive to latency constraints. The evaluation results allow us to identify the strengths and shortcomings of each model when we shift to the online setup.
La plateforme ACCOLÉ (Annotation Collaborative d’erreurs de traduction pour COrpus aLignÉs) propose une palette de services innovants permettant de répondre aux besoins modernes d’analyse d’erreurs de traduction : gestion simplifiée des corpus et des typologies d’erreurs, annotation d’erreurs efficace, collaboration et/ou supervision lors de l’annotation, recherche de modèle d’erreurs dans les annotations.
Dans cette démonstration, nous présentons le prototype d’un environnement open-source pour l’édition de corpus de dépendances. Cet environnement, nommé ACOLAD (Annotation de COrpus Linguistique pour l’Analyse de dépendances), propose des services manuels de segmentation et d’annotation multi-niveaux (segmentation en mots et en syntagmes minimaux (chunks), annotation morphosyntaxique des mots, annotation syntaxique des chunks et annotation syntaxique des dépendances entre mots ou entre chunks).
Cet article présente l’utilisation de « Jibiki » (la plateforme de développement du serveur Web Papillon) dans le cadre du projet LexALP1. Le but de ce projet est d’harmoniser la terminologie des quatre langues (français, allemand, italien et slovène) de la Convention Alpine2 de sorte que les états membres puissent coopérer efficacement. Pour cela, le projet utilise la plateforme Jibiki afin de construire une banque terminologique permettant de comparer la terminologie spécialisée de sept systèmes légaux dans quatre langues, et de l’harmoniser, optimisant ainsi la compréhension entre les états alpins sur des questions environnementales au niveau supranational. Dans cet article, nous présentons comment peut être employée la plateforme générique Jibiki afin de gérer un dictionnaire particulier.
L’objectif de cet article est de présenter nos travaux concernant la combinaison d’analyseurs syntaxiques pour produire un analyseur plus robuste. Nous avons créé une plate-forme nous permettant de comparer des analyseurs syntaxiques pour une langue donnée en découpant leurs résultats en informations élémentaires, en les normalisant, et en les comparant aux résultats de référence. Cette même plate-forme est utilisée pour combiner plusieurs analyseurs pour produire un analyseur de dépendance plus couvrant et plus robuste. À long terme, il sera possible de “compiler” les connaissances extraites de plusieurs analyseurs dans un analyseur de dépendance autonome.
L’objectif de cet article est de présenter nos travaux sur l’analyse d’un énoncé vers une structure de dépendance. Cette structure décrit les relations entre mots, des relations syntaxiques mais également des relations sémantiques de surface de l’énoncé de départ dans un certain contexte. L’idée est de créer une plateforme d’analyse capable d’intégrer des analyseurs linguistiques existants (syntaxiques ou de dépendance) et de fusionner leurs résultats dans le but d’obtenir une analyse de dépendance pour des énoncés quelconques.
Les progrès réalisés ces dernières années dans le domaine du traitement automatique des langues naturelles (TALN) ouvrent la voie à des traitements encore plus sophistiqués dans lesquels la sémantique devrait tenir une place centrale. Notre objectif, à long terme, est de réaliser un analyseur texte vers sens s’appuyant sur la théorie Sens-Texte d’Igor Mel’cuk. Cette analyse viserait une compréhension plus approfondie du texte, permettant donc d’atteindre une représentation de niveau sémantique, et une grande robustesse face à des entrées plus ou moins bien formées telles que celles issues de dialogues oraux. Mais renverser la théorie Sens-Texte passe par la définition et la mise en oeuvre de structures de données et d’algorithmes spécifiques pour la représentation et la manipulation automatique des informations linguistiques, notamment des entrées lexicales. Pour cela, nous proposons l’utilisation du paradigme de programmation par contraintes qui offre un moyen efficace d’atteindre nos objectifs.