@inproceedings{magistry-sagot-2011-segmentation,
title = "Segmentation et induction de lexique non-supervis{\'e}es du mandarin (Unsupervised segmentation and induction of mandarin lexicon)",
author = "Magistry, Pierre and
Sagot, Beno{\^i}t",
editor = "Lafourcade, Mathieu and
Prince, Violaine",
booktitle = "Actes de la 18e conf{\'e}rence sur le Traitement Automatique des Langues Naturelles. Articles longs",
month = jun,
year = "2011",
address = "Montpellier, France",
publisher = "ATALA",
url = "https://aclanthology.org/2011.jeptalnrecital-long.23/",
pages = "258--269",
language = "fra",
abstract = "Pour la plupart des langues utilisant l`alphabet latin, le d{\'e}coupage d`un texte selon les espaces et les symboles de ponctuation est une bonne approximation d`un d{\'e}coupage en unit{\'e}s lexicales. Bien que cette approximation cache de nombreuses difficult{\'e}s, elles sont sans comparaison avec celles que l`on rencontre lorsque l`on veut traiter des langues qui, comme le chinois mandarin, n`utilisent pas l`espace. Un grand nombre de syst{\`e}mes de segmentation ont {\'e}t{\'e} propos{\'e}s parmi lesquels certains adoptent une approche non-supervis{\'e}e motiv{\'e}e linguistiquement. Cependant les m{\'e}thodes d'{\'e}valuation commun{\'e}ment utilis{\'e}es ne rendent pas compte de toutes les propri{\'e}t{\'e}s de tels syst{\`e}mes. Dans cet article, nous montrons qu`un mod{\`e}le simple qui repose sur une reformulation en termes d`entropie d`une hypoth{\`e}se ind{\'e}pendante de la langue {\'e}nonc{\'e}e par Harris (1955), permet de segmenter un corpus et d`en extraire un lexique. Test{\'e} sur le corpus de l`Academia Sinica, notre syst{\`e}me permet l`induction d`une segmentation et d`un lexique qui ont de bonnes propri{\'e}t{\'e}s intrins{\`e}ques et dont les caract{\'e}ristiques sont similaires {\`a} celles du lexique sous-jacent au corpus segment{\'e} manuellement. De plus, on constate une certaine corr{\'e}lation entre les r{\'e}sultats du mod{\`e}le de segmentation et les structures syntaxiques fournies par une sous-partie arbor{\'e}e corpus."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="magistry-sagot-2011-segmentation">
<titleInfo>
<title>Segmentation et induction de lexique non-supervisées du mandarin (Unsupervised segmentation and induction of mandarin lexicon)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Pierre</namePart>
<namePart type="family">Magistry</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoît</namePart>
<namePart type="family">Sagot</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2011-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs</title>
</titleInfo>
<name type="personal">
<namePart type="given">Mathieu</namePart>
<namePart type="family">Lafourcade</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Violaine</namePart>
<namePart type="family">Prince</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Montpellier, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Pour la plupart des langues utilisant l‘alphabet latin, le découpage d‘un texte selon les espaces et les symboles de ponctuation est une bonne approximation d‘un découpage en unités lexicales. Bien que cette approximation cache de nombreuses difficultés, elles sont sans comparaison avec celles que l‘on rencontre lorsque l‘on veut traiter des langues qui, comme le chinois mandarin, n‘utilisent pas l‘espace. Un grand nombre de systèmes de segmentation ont été proposés parmi lesquels certains adoptent une approche non-supervisée motivée linguistiquement. Cependant les méthodes d’évaluation communément utilisées ne rendent pas compte de toutes les propriétés de tels systèmes. Dans cet article, nous montrons qu‘un modèle simple qui repose sur une reformulation en termes d‘entropie d‘une hypothèse indépendante de la langue énoncée par Harris (1955), permet de segmenter un corpus et d‘en extraire un lexique. Testé sur le corpus de l‘Academia Sinica, notre système permet l‘induction d‘une segmentation et d‘un lexique qui ont de bonnes propriétés intrinsèques et dont les caractéristiques sont similaires à celles du lexique sous-jacent au corpus segmenté manuellement. De plus, on constate une certaine corrélation entre les résultats du modèle de segmentation et les structures syntaxiques fournies par une sous-partie arborée corpus.</abstract>
<identifier type="citekey">magistry-sagot-2011-segmentation</identifier>
<location>
<url>https://aclanthology.org/2011.jeptalnrecital-long.23/</url>
</location>
<part>
<date>2011-06</date>
<extent unit="page">
<start>258</start>
<end>269</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Segmentation et induction de lexique non-supervisées du mandarin (Unsupervised segmentation and induction of mandarin lexicon)
%A Magistry, Pierre
%A Sagot, Benoît
%Y Lafourcade, Mathieu
%Y Prince, Violaine
%S Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
%D 2011
%8 June
%I ATALA
%C Montpellier, France
%G fra
%F magistry-sagot-2011-segmentation
%X Pour la plupart des langues utilisant l‘alphabet latin, le découpage d‘un texte selon les espaces et les symboles de ponctuation est une bonne approximation d‘un découpage en unités lexicales. Bien que cette approximation cache de nombreuses difficultés, elles sont sans comparaison avec celles que l‘on rencontre lorsque l‘on veut traiter des langues qui, comme le chinois mandarin, n‘utilisent pas l‘espace. Un grand nombre de systèmes de segmentation ont été proposés parmi lesquels certains adoptent une approche non-supervisée motivée linguistiquement. Cependant les méthodes d’évaluation communément utilisées ne rendent pas compte de toutes les propriétés de tels systèmes. Dans cet article, nous montrons qu‘un modèle simple qui repose sur une reformulation en termes d‘entropie d‘une hypothèse indépendante de la langue énoncée par Harris (1955), permet de segmenter un corpus et d‘en extraire un lexique. Testé sur le corpus de l‘Academia Sinica, notre système permet l‘induction d‘une segmentation et d‘un lexique qui ont de bonnes propriétés intrinsèques et dont les caractéristiques sont similaires à celles du lexique sous-jacent au corpus segmenté manuellement. De plus, on constate une certaine corrélation entre les résultats du modèle de segmentation et les structures syntaxiques fournies par une sous-partie arborée corpus.
%U https://aclanthology.org/2011.jeptalnrecital-long.23/
%P 258-269
Markdown (Informal)
[Segmentation et induction de lexique non-supervisées du mandarin (Unsupervised segmentation and induction of mandarin lexicon)](https://aclanthology.org/2011.jeptalnrecital-long.23/) (Magistry & Sagot, JEP/TALN/RECITAL 2011)
ACL