@inproceedings{seng-etal-2009-segmentation,
title = "Segmentation multiple d`un flux de donn{\'e}es textuelles pour la mod{\'e}lisation statistique du langage",
author = "Seng, Sopheap and
Besacier, Laurent and
Bigi, Brigitte and
Castelli, Eric",
editor = "Nazarenko, Adeline and
Poibeau, Thierry",
booktitle = "Actes de la 16{\`e}me conf{\'e}rence sur le Traitement Automatique des Langues Naturelles. Articles courts",
month = jun,
year = "2009",
address = "Senlis, France",
publisher = "ATALA",
url = "https://aclanthology.org/2009.jeptalnrecital-court.37/",
pages = "337--346",
language = "fra",
abstract = "Dans cet article, nous traitons du probl{\`e}me de la mod{\'e}lisation statistique du langage pour les langues peu dot{\'e}es et sans segmentation entre les mots. Tandis que le manque de donn{\'e}es textuelles a un impact sur la performance des mod{\`e}les, les erreurs introduites par la segmentation automatique peuvent rendre ces donn{\'e}es encore moins exploitables. Pour exploiter au mieux les donn{\'e}es textuelles, nous proposons une m{\'e}thode qui effectue des segmentations multiples sur le corpus d`apprentissage au lieu d`une segmentation unique. Cette m{\'e}thode bas{\'e}e sur les automates d'{\'e}tat finis permet de retrouver les n-grammes non trouv{\'e}s par la segmentation unique et de g{\'e}n{\'e}rer des nouveaux n-grammes pour l`apprentissage de mod{\`e}le du langage. L`application de cette approche pour l`apprentissage des mod{\`e}les de langage pour les syst{\`e}mes de reconnaissance automatique de la parole en langue khm{\`e}re et vietnamienne s`est montr{\'e}e plus performante que la m{\'e}thode par segmentation unique, {\`a} base de r{\`e}gles."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="seng-etal-2009-segmentation">
<titleInfo>
<title>Segmentation multiple d‘un flux de données textuelles pour la modélisation statistique du langage</title>
</titleInfo>
<name type="personal">
<namePart type="given">Sopheap</namePart>
<namePart type="family">Seng</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Laurent</namePart>
<namePart type="family">Besacier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Brigitte</namePart>
<namePart type="family">Bigi</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eric</namePart>
<namePart type="family">Castelli</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2009-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts</title>
</titleInfo>
<name type="personal">
<namePart type="given">Adeline</namePart>
<namePart type="family">Nazarenko</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Thierry</namePart>
<namePart type="family">Poibeau</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Senlis, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Dans cet article, nous traitons du problème de la modélisation statistique du langage pour les langues peu dotées et sans segmentation entre les mots. Tandis que le manque de données textuelles a un impact sur la performance des modèles, les erreurs introduites par la segmentation automatique peuvent rendre ces données encore moins exploitables. Pour exploiter au mieux les données textuelles, nous proposons une méthode qui effectue des segmentations multiples sur le corpus d‘apprentissage au lieu d‘une segmentation unique. Cette méthode basée sur les automates d’état finis permet de retrouver les n-grammes non trouvés par la segmentation unique et de générer des nouveaux n-grammes pour l‘apprentissage de modèle du langage. L‘application de cette approche pour l‘apprentissage des modèles de langage pour les systèmes de reconnaissance automatique de la parole en langue khmère et vietnamienne s‘est montrée plus performante que la méthode par segmentation unique, à base de règles.</abstract>
<identifier type="citekey">seng-etal-2009-segmentation</identifier>
<location>
<url>https://aclanthology.org/2009.jeptalnrecital-court.37/</url>
</location>
<part>
<date>2009-06</date>
<extent unit="page">
<start>337</start>
<end>346</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Segmentation multiple d‘un flux de données textuelles pour la modélisation statistique du langage
%A Seng, Sopheap
%A Besacier, Laurent
%A Bigi, Brigitte
%A Castelli, Eric
%Y Nazarenko, Adeline
%Y Poibeau, Thierry
%S Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
%D 2009
%8 June
%I ATALA
%C Senlis, France
%G fra
%F seng-etal-2009-segmentation
%X Dans cet article, nous traitons du problème de la modélisation statistique du langage pour les langues peu dotées et sans segmentation entre les mots. Tandis que le manque de données textuelles a un impact sur la performance des modèles, les erreurs introduites par la segmentation automatique peuvent rendre ces données encore moins exploitables. Pour exploiter au mieux les données textuelles, nous proposons une méthode qui effectue des segmentations multiples sur le corpus d‘apprentissage au lieu d‘une segmentation unique. Cette méthode basée sur les automates d’état finis permet de retrouver les n-grammes non trouvés par la segmentation unique et de générer des nouveaux n-grammes pour l‘apprentissage de modèle du langage. L‘application de cette approche pour l‘apprentissage des modèles de langage pour les systèmes de reconnaissance automatique de la parole en langue khmère et vietnamienne s‘est montrée plus performante que la méthode par segmentation unique, à base de règles.
%U https://aclanthology.org/2009.jeptalnrecital-court.37/
%P 337-346
Markdown (Informal)
[Segmentation multiple d’un flux de données textuelles pour la modélisation statistique du langage](https://aclanthology.org/2009.jeptalnrecital-court.37/) (Seng et al., JEP/TALN/RECITAL 2009)
ACL