2016
pdf
bib
abs
Auto-encodeurs pour la compréhension de documents parlés (Auto-encoders for Spoken Document Understanding)
Killian Janod
|
Mohamed Morchid
|
Richard Dufour
|
Georges Linarès
|
Renato De Mori
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP
Les représentations de documents au moyen d’approches à base de réseaux de neurones ont montré des améliorations significatives dans de nombreuses tâches du traitement du langage naturel. Dans le cadre d’applications réelles, où des conditions d’enregistrement difficiles peuvent être rencontrées, la transcription automatique de documents parlés peut générer un nombre de mots mal transcrits important. Cet article propose une représentation des documents parlés très bruités utilisant des caractéristiques apprises par un auto-encodeur profond supervisé. La méthode proposée s’appuie à la fois sur les documents bruités et leur équivalent propre annoté manuellement pour estimer une représentation plus robuste des documents bruités. Cette représentation est évaluée sur le corpus DECODA sur une tâche de classification thématique de conversations téléphoniques atteignant une précision de 83% avec un gain d’environ 6%.
pdf
bib
abs
Un Sous-espace Thématique Latent pour la Compréhension du Langage Parlé (A Latent Topic-based Subspace for Spoken Language Understanding)
Mohamed Bouaziz
|
Mohamed Morchid
|
Pierre-Michel Bousquet
|
Richard Dufour
|
Killian Janod
|
Waad Ben Kheder
|
Georges Linarès
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP
Les applications de compréhension du langage parlé sont moins performantes si les documents transcrits automatiquement contiennent un taux d’erreur-mot élevé. Des solutions récentes proposent de projeter ces transcriptions dans un espace de thèmes, comme par exemple l’allocation latente de Dirichlet (LDA), la LDA supervisée ainsi que le modèle author-topic (AT). Une représentation compacte originale, appelée c-vector, a été récemment introduite afin de surmonter la difficulté liée au choix de la taille de ces espaces thématiques. Cette représentation améliore la robustesse aux erreurs de transcription, en compactant les différentes représentations LDA d’un document parlé dans un espace réduit. Le défaut majeur de cette méthode est le nombre élevé de sous-tâches nécessaires à la construction de l’espace c-vector. Cet article propose de corriger ce défaut en utilisant un cadre original fondé sur un espace de caractéristiques robustes de faible dimension provenant d’un ensemble de modèles AT considérant à la fois le contenu du dialogue parlé (les mots) et la classe du document. Les expérimentations, conduites sur le corpus DECODA, montrent que la représentation proposée permet un gain de plus de 2.5 points en termes de conversations correctement classifiées.
2015
pdf
bib
abs
Apport de l’information temporelle des contextes pour la représentation vectorielle continue des mots
Killian Janod
|
Mohamed Morchid
|
Richard Dufour
|
Georges Linares
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Les représentations vectorielles continues des mots sont en plein essor et ont déjà été appliquées avec succès à de nombreuses tâches en traitement automatique de la langue (TAL). Dans cet article, nous proposons d’intégrer l’information temporelle issue du contexte des mots au sein des architectures fondées sur les sacs-de-mots continus (continuous bag-of-words ou CBOW) ou sur les Skip-Grams. Ces approches sont manipulées au travers d’un réseau de neurones, l’architecture CBOW cherchant alors à prédire un mot sachant son contexte, alors que l’architecture Skip-Gram prédit un contexte sachant un mot. Cependant, ces modèles, au travers du réseau de neurones, s’appuient sur des représentations en sac-de-mots et ne tiennent pas compte, explicitement, de l’ordre des mots. En conséquence, chaque mot a potentiellement la même influence dans le réseau de neurones. Nous proposons alors une méthode originale qui intègre l’information temporelle des contextes des mots en utilisant leur position relative. Cette méthode s’inspire des modèles contextuels continus. L’information temporelle est traitée comme coefficient de pondération, en entrée du réseau de neurones par le CBOW et dans la couche de sortie par le Skip-Gram. Les premières expériences ont été réalisées en utilisant un corpus de test mesurant la qualité de la relation sémantique-syntactique des mots. Les résultats préliminaires obtenus montrent l’apport du contexte des mots, avec des gains de 7 et 7,7 points respectivement avec l’architecture Skip-Gram et l’architecture CBOW.