@inproceedings{vergne-2009-un,
title = "Un chunker multilingue endog{\`e}ne",
author = "Vergne, Jacques",
editor = "Nazarenko, Adeline and
Poibeau, Thierry",
booktitle = "Actes de la 16{\`e}me conf{\'e}rence sur le Traitement Automatique des Langues Naturelles. D{\'e}monstrations",
month = jun,
year = "2009",
address = "Senlis, France",
publisher = "ATALA",
url = "https://aclanthology.org/2009.jeptalnrecital-demonstration.14/",
pages = "40--42",
language = "fra",
abstract = "Le chunking consiste {\`a} segmenter un texte en chunks, segments sous-phrastiques qu`Abney a d{\'e}fini approximativement comme des groupes accentuels. Traditionnellement, le chunking utilise des ressources monolingues, le plus souvent exhaustives, quelquefois partielles : des mots grammaticaux et des ponctuations, qui marquent souvent des d{\'e}buts et fins de chunk. Mais cette m{\'e}thode, si l`on veut l'{\'e}tendre {\`a} de nombreuses langues, n{\'e}cessite de multiplier les ressources monolingues. Nous pr{\'e}sentons une nouvelle m{\'e}thode : le chunking endog{\`e}ne, qui n`utilise aucune ressource hormis le texte analys{\'e} lui-m{\^e}me. Cette m{\'e}thode prolonge les travaux de Zipf : la minimisation de l`effort de communication conduit les locuteurs {\`a} raccourcir les mots fr{\'e}quents. On peut alors caract{\'e}riser un chunk comme {\'e}tant la p{\'e}riode des fonctions p{\'e}riodiques correll{\'e}es longueur et effectif des mots sur l`axe syntagmatique. Cette m{\'e}thode originale pr{\'e}sente l`avantage de s`appliquer {\`a} un grand nombre de langues d'{\'e}criture alphab{\'e}tique, avec le m{\^e}me algorithme, sans aucune ressource."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="vergne-2009-un">
<titleInfo>
<title>Un chunker multilingue endogène</title>
</titleInfo>
<name type="personal">
<namePart type="given">Jacques</namePart>
<namePart type="family">Vergne</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2009-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations</title>
</titleInfo>
<name type="personal">
<namePart type="given">Adeline</namePart>
<namePart type="family">Nazarenko</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Thierry</namePart>
<namePart type="family">Poibeau</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Senlis, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Le chunking consiste à segmenter un texte en chunks, segments sous-phrastiques qu‘Abney a défini approximativement comme des groupes accentuels. Traditionnellement, le chunking utilise des ressources monolingues, le plus souvent exhaustives, quelquefois partielles : des mots grammaticaux et des ponctuations, qui marquent souvent des débuts et fins de chunk. Mais cette méthode, si l‘on veut l’étendre à de nombreuses langues, nécessite de multiplier les ressources monolingues. Nous présentons une nouvelle méthode : le chunking endogène, qui n‘utilise aucune ressource hormis le texte analysé lui-même. Cette méthode prolonge les travaux de Zipf : la minimisation de l‘effort de communication conduit les locuteurs à raccourcir les mots fréquents. On peut alors caractériser un chunk comme étant la période des fonctions périodiques correllées longueur et effectif des mots sur l‘axe syntagmatique. Cette méthode originale présente l‘avantage de s‘appliquer à un grand nombre de langues d’écriture alphabétique, avec le même algorithme, sans aucune ressource.</abstract>
<identifier type="citekey">vergne-2009-un</identifier>
<location>
<url>https://aclanthology.org/2009.jeptalnrecital-demonstration.14/</url>
</location>
<part>
<date>2009-06</date>
<extent unit="page">
<start>40</start>
<end>42</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Un chunker multilingue endogène
%A Vergne, Jacques
%Y Nazarenko, Adeline
%Y Poibeau, Thierry
%S Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations
%D 2009
%8 June
%I ATALA
%C Senlis, France
%G fra
%F vergne-2009-un
%X Le chunking consiste à segmenter un texte en chunks, segments sous-phrastiques qu‘Abney a défini approximativement comme des groupes accentuels. Traditionnellement, le chunking utilise des ressources monolingues, le plus souvent exhaustives, quelquefois partielles : des mots grammaticaux et des ponctuations, qui marquent souvent des débuts et fins de chunk. Mais cette méthode, si l‘on veut l’étendre à de nombreuses langues, nécessite de multiplier les ressources monolingues. Nous présentons une nouvelle méthode : le chunking endogène, qui n‘utilise aucune ressource hormis le texte analysé lui-même. Cette méthode prolonge les travaux de Zipf : la minimisation de l‘effort de communication conduit les locuteurs à raccourcir les mots fréquents. On peut alors caractériser un chunk comme étant la période des fonctions périodiques correllées longueur et effectif des mots sur l‘axe syntagmatique. Cette méthode originale présente l‘avantage de s‘appliquer à un grand nombre de langues d’écriture alphabétique, avec le même algorithme, sans aucune ressource.
%U https://aclanthology.org/2009.jeptalnrecital-demonstration.14/
%P 40-42
Markdown (Informal)
[Un chunker multilingue endogène](https://aclanthology.org/2009.jeptalnrecital-demonstration.14/) (Vergne, JEP/TALN/RECITAL 2009)
ACL
- Jacques Vergne. 2009. Un chunker multilingue endogène. In Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations, pages 40–42, Senlis, France. ATALA.