l'
Cet article
présente les premiers
résultats d'un analyseur syntaxique de
corpus, syntex,
conçu pour effectuer une analyse
syntaxique superficielle des textes exploitable pour la constitution de
ressources lexicales. Nous décrivons la tâche
initiale de résolution du
rattachement prépositionnel, effectuée de manière
endogène, en exploitant un faisceau d'indices linguistiques. Parmi ceux-ci, nous
définissons une mesure
spécifique de productivité,
qui permet d'évaluer la régularité de l'association entre un mot recteur potentiel et
une préposition dans le corpus. Cette mesure, très efficace dans la tâche de désambiguïsation, s'avère
également prometteuse pour mettre en évidence
différents
types de rattachement
prépositionnel. Les principes de conception de cet outil sont enfin mis en regard avec quelques hypothèses
fondamentales de la théorie
syntaxique.
In this paper we report the first results of syntex, a
corpus-based syntactic analyser, which performs a shallow parsing of texts
for the construction of lexical resources. We focus on the first stage of
this process, prepositional attachment resolution, which is performed
without the use of prior knowledge; among the set of linguistic cues used by
the analyser, we define a productivity measure, allowing to assess the
degree of regularity of the association between a potential controller and a
preposition within the corpus. This measure proves to be very efficient in
the disambiguation task, and also helps to differentiate various types of
prepositional attachments. Finally, principles that have guided the
conception of the analyser are examined from the viewpoint of some syntactic
theory's hypothesis.
L'un des
Parmi les travaux
distributionnels. C'est aux travaux
A partir de la « Si on applique à un corpus de textes d'un secteur
scientifique des méthodes de linguistique descriptive
similaires à celles utilisées pour le développement
d'une grammaire d'une langue dans son ensemble, on obtient des motifs
précis de cooccurrences de mots à
partir desquels on peut définir des
sous-classes de mots et des séquences de ces sous-classes qui sont caractéristiques
[...]
. Cescatégories lexicales et
formules
syntaxiques de la grammaire du sous-langage sont étroitement
corrélées aux classes d'objets du monde et aux relations qui sont propres à ce domaine .
»(Sager, Friedman & Lyman 1987,
Dans la lexter, un
analyseur syntaxique robuste "tout
Les diverses lexter ont lexter, un
syntex. La
« Un analyseur, considéré en dehors du cadre théorique qui préside à sa conception, est une machine célibataire. Un analyseur, considéré à partir du cadre qui préside à sa conception, est le reflet de ses options fondamentales. » Nous souscrivons à cette
La alluvion, sable et lave qui sont tous les trois arguments des verbes disparaître sous et creuser dans. Ces regroupements devront être
Notre aide à l' interprétation de textes. Notre analyseur n'est pas un module dans un
Par syntex
(i) Les
(ii) Dans une telle
(iii) Le
Comme tout analyseur syntaxique, l'analyseur syntex est mis en 1 de Nom2 Adjectif'. Quand les en Nom' dans la en Nom'. Le syntagme prépositionnel 'en Nom' peut
L'analyseur est censé être a priori quelconque. Il est
La onde séismique (resp. vague d'érosion, plaine karstique) dans la onde et séismique (resp. entre vague et érosion, entre plaine et karstique). série d'occurrences non
disséquer(resp. du nom
charge, de l'adjectif
pauvre) suivi de la préposition
enque l'analyseur acquiert l'
en. Il
disséquer(resp.
charge,
pauvre) et le syntagme prépositionnel en
en. Ce
lexter, est à la
On le trouve déjà en germe dans les travaux de Fathi Debili (Debili 1982), alsf de Sophie David (David & Plante 1990), voir (Bourigault 1994, pp. 63-78).
Nous allons voir
L'
Comme nous l'avons recteur, prép, régi), pénétrer, dans, pore) ou (aptitude, à, décrire)), ou
déplacer,
à,
vitesse),
côte,
à,
fjord),
Le module de découpage a pour de). Le module de découpage livre
Tous les disséquer comme recteur de la préposition en a pour
Cette
Le module de
- le triplet dans son entier a été trouvé
- le correspondant verbal [3] d'un nom dérivé (ou vice-versa) a été trouvé en
- le recteur a été trouvé en
L'
L'érosion a disséqué (prod 5, même régi) le plateau (prod 1) rocheux en chevrons.
Des trois candidats en lice, seul le verbe en est disséquer, en, chevron) a été trouvé tel quel en plateau, en) n'est pas productif, et l'adjectif rocheux n'a jamais été trouvé avec la préposition en dans une
Cette
Le rattachement prépositionnel,
vsrecteurs productifs
Nous avons cherché à N prép N - tels que les N de N, ou Cadiot (1997) dans le N à N - et la force d'à.
L'analyseur extrait de notre à. Les N à (dét) N carte a été trouvé dans un à, sans déterminant. Les trois : carte à 1, carte à 1 200 000, carte à 1 80 000. La aval a été trouvé dans un à, ablation à l'aval, amont à l'aval, plage à l'aval, terrasse à l'aval.
Faisons Ouest à droite a été meuble, actif, sont être le cas) et pouvant
roche à l'extérieur,
au soleilet
roche à diaclase,
à feldspath,
s'zone
,zone à cristal
à pergélisolvs
,zone à l'ombre
au pied.
Si l'on
- des locutions prépositives ( à peine,
ausens ),
- des à l'aval, au dessous, à droite, au pied, à la surface),
- et minoritairement – 2 N à N (à mica, à grain).
Les recteurs productifs N à N (craie à Bélemnite, méthode au potassium), dans lesquels l'
Ces N à (dét) N à
Nous terminons cet
Parmi celles-ci, nous avons fait le a priori entre nos travaux pour l'implémentation d'un analyseur syntaxique et des travaux
La
- son
- sa
- sa
La à mon fils occupe des places faire en (7a), complément de donner en (7b) (Milner op. cit., p. 298).
Les « le terme lexical X qui, pour l'observation immédiate, occupe la place Y, occupe une position syntaxique Z ». Les places sont perceptibles, elles se
[PN1]
(« On prédit donc qu'il y a plus de chances qu'un élément auquel la géométrie syntaxique attribue telle position abstraite occupe effectivement une place correspondante dans le système des places observées. Réciproquement, on prédit qu'une différence de place peut signaler une différence de position. »
Les
- la récurrence. Si un
- la
Les sujet étiquetée N''est occupée par un
Mais là
[PN2]
(« Bien que l' appartenance catégorielle d'un terme X et l'étiquette catégorielle de la position Y occupée par X soient indépendantes en droit, il est naturel et normal [qu'elles soient] homonymes. »
La
[PN3]
(« Sauf circonstances particulières […]
, l'argument N'' du verbe estaussi complément proche et non mobile dans le V'' dont le verbe est le noyau. »
L'« Le programme génératif soutenait que des règles formelles [...]
étaientnon seulement nécessaires , mais aussi suffisantes . Or, l'étude empirique semble avoir montré qu'aucun ensemble de règles formelles , définissable a priori , qu'il s'agisse des règles de réécriture seules ou des règles de transformation , n'est suffisant : interviennent également certaines propriétés des termes et notamment leurs propriétés relationnelles. La théorie a du même coup dû accorder un rôle décisif à une information non déductible a priori . En effet , les propriétés des termes , qu'elles soient relationnelles ou absolues, partagent le même caractère : elles ne peuvent qu'être enregistrées une par une, de manière encyclopédique, par une mémoire individuelle . »(
En écho à la citation restreinte des étendue des
On peut alors reformuler les spécifications de l'analyseur dans les places. Selon le proximité et de
récurrencedans sa
L'un des a priori par l'analyseur.
enet le verbe
disséquerque le
Cette
Dans une
syntex
,désigner
désignation)).