Anna PAPPA

Université Paris 8
Chargée de Cours Labo IA, Dépt. Informatique, CNAM
2, rue de la Liberté
93526 Saint-Denis Cedex 02
FRANCE

Tél : (+33) 1 49 40 64 12
Fax : (+33) 1 49 40 64 10
E-mail : ap@ai.univ-paris8.fr

 
Anna Pappa
Recherches

Traitement Automatique du Langage :
Reconnaissance Automatique des parties du discours (Part-of-Speech Automatic Recognition)
Etiquetage des constituants (PoS Tagging)
Analyse syntaxique superficielle (Shallow Parsing)
Désambiguisation (Disambiguisation)
Création de dictionnaire (Creation of dictionary)
Corpus non annotés (Untagged Corpora)

Groupe de Recherche : le CSAR
Publications
[Pappa et al. 2004]
Pappa A., Bernard G., Oukerradi H. Détection automatique de frontières des phrases – Un système adaptatif multi-langues. ISDM n°13 février 2004. Permanent online Journal of Information and Communication Technologies. ISDM (Informations, Savoirs, Décisions et Médiations).
   
[Pappa 2003]
Pappa A. A 3-step algorithm for morphological disambiguation using untagged corpora. In Proceedings of the International Conference on Artificial Intelligence (IC-AI’03) vol II (eds) H.R. Arabnia, R. Joshua Y. Mun, Las Vegas, Nevada, USA, pp. 921-926, june 2003.
   
[Pappa 2003]
Pappa A. Etiquetage syntaxique automatique des parties du discours en français et en grec. In Proceedings of the 8th International Symposium of Social Communication and Applied Linguistics, Santiago Cuba, Actas – I, pp. 512 – 517, janvier 2003.
   
[Pappa 2002]
Pappa A. Reconnaissance Automatique des parties du discours. Actes du Forum des jeunes mathématiciennes et informaticiennes, Institut Henri Poincaré, Paris, mars 2002.


Résumé de Thèse

Notre recherche présente la conception et la réalisation d’un système d’analyse syntaxique de surface en français sans connaissance préalable. START est un système à base de règles qui reconnaît les groupes syntaxiques d’un corpus non annoté en français, et procède à l’étiquetage partiel des constituants. La méthode est fondée sur l’analyse distributionnelle des mots grammaticaux (comme les articles, pronoms, négation, etc.) qui sont utilisés comme le noyau des règles. Les règles sont fondées sur des statistiques effectuées sur l’ensemble du corpus, afin de définir la fonction et la distribution des mots grammaticaux. Le système effectue les tâches suivantes :

• Reconnaissance des phrases, avec mention sur les signes de ponctuation et désambiguïsation du rôle du point, cette procédure préliminaire pour tout traitement du langage naturel dépasse 99% de reconnaissance avec un taux d’erreur inférieur à 0,9%. Le même algorithme a été testé sur un corpus en grec et les résultats atteignent les mêmes taux de réussite et d’erreur respectivement.
• Détermination des frontières des constituants tels que les groupes nominaux, les groupes verbaux. Le système reconnaît des groupes syntaxiques (groupes nominaux, verbaux, prépositionnels), et procède à l’extraction des parties du discours, par exemple pour une phrase « … étendait ses bras vides. », le système reconnaît le groupe nominal /ses bras vides/. Nous insistons sur le fait que notre algorithme n’utilise ni textes étiquetés ni dictionnaire.
•Etiquetage partiel des mots qui composent les constituants détectés, par exemple pour le groupe nominal /ses bras vides/ le système étiquette le mot /bras/ comme nom.
•Désambiguïsation du cas « le, la, les, l’ », article défini ou pronom personnel ? Le système reconnaît le type grammatical et procède à l’étiquetage du contexte droit du mot ambigu soit nom (si article) soit verbe (si pronom). La réussite dépasse 98,5% et l’erreur est inférieur à 1%. Le module de désambiguïsation est un parseur à trois passages.
•Création d’un dictionnaire à partir des mots qui composent les constituants. Par exemple le mot « bras » va être ajouté dans le dictionnaire dans la catégorie grammaticale correspondante. Le dictionnaire est composé de noms, verbes, participes passés en leur forme fléchie et quelques adverbes.

Le dictionnaire est utilisé pour le troisième passage du parseur de désambiguïsation, comme une procédure d’auto- apprentissage. Nous avons également commencé à construire un dictionnaire grec avec les catégories grammaticales : nom et verbe. Les expérimentations ont été effectuées sur un corpus grec non annoté et les résultats sont satisfaisants. Ceci prouve l’adaptabilité de l’algorithme sans autre changement que la lange elle-même. Le fait que le taux d’erreur des différentes applications soit bas, nous donne la possibilité d’annoter automatiquement et partiellement des corpus non restreints, contrairement aux annotations actuelles où le taux d’erreur est si important qu’il rend intéressante l’annotation manuelle. Une autre perspective est l’étiquetage automatique du rôle syntaxique des parties du discours détectées. Si l’on considère l’exemple que nous avons mentionné plus haut, « … étendait ses bras vides. », le groupe nominal reconnu /ses bras vides/ va être étiqueté comme complément d’objet direct (COD) du verbe qui précède « étendait ». Ce qui nous intéresse également est la possibilité de générer automatiquement les règles du système.



Abstract of Phd thesis

Our research study presents a rule-based system of shallow parsing : START (System of Textual Analysis Recognition and Tagging) extracts form constituents such as noun and verb phrases from unrestricted untagged corpora and proceeds in a partially grammatical tagging. The method is based on the distributional analysis of the grammatical words (such as articles, pronouns, negation, etc.) which are used as "noyau" for the rules. The rules are based on statistics about grammatical words' distribution in large corpora. The system produces the following :

Recognition of phrases (the punctuation role is mentioned and a method of disambiguation is proposed), the accuracy exceeds 99% and the error rate is inferior to 1%. This algorithm has also been tested with success to untagged Greek corpora.
Recognition of internal phrases, constituents that form a unit, for example a noun phrase. The system determines the frontiers of the constituent and extract it. The precision is around 93 % with an error rate of 0,7% for both nominal and verbal phrases and a comparison is given with the articles that mention recognition of nominal phrases. We insist on the fact that our method uses no previous knowledge.
Tagging partially terms of the extracted constituents. For instance in the phrase "...étendait ses bras vides..." the system extracts the nominal phrase /ses bras vides/ and tags "bras" as a noun,
Disambiguates the article / pronoun ambiguity. In French "le, la, les, l'" can be article or pronoun, the accuracy is over 98,5% and the error rate inferior to 1%. The disambiguation is the result of a three-pass parsing.
Creates a lexicon which entries are the tagged terms of the constituents. For example "bras" can be added to the dictionary base as a noun. The dictionary is composed by nouns, verbs, past participles and adverbs in their flexional form.

The dictionary is used for the third pass of the disambiguation algorithm, like a self learning process. The low error rate of the different applications gives us the possibility to automatically annotate corpora (considering the existing methods of annotating corpora where the error is very high).

Other perspective is that of automatically tagging the syntactic role of the constituents, if we take for example the nominal phrase we mentioned before "... étendait ses bras vides " the system would produce the tag of "complément d'objet" for the extracted nominal phrase /ses bras vides/.

In a future work we will also consider the possibility of rules generation from the system itself.


Enseignements

Allocataire de recherche - Monitrice (1998-2001)
Introduction à l'informatique (DEUG MASS
Architecture des ordinateurs (DEUG MASS)
Programmation Logique (DEUG MASS)
Systèmes et Réseaux (DEUG MASS)

ATER Université Paris 8 (2001 - 2003)
Programmation Orientée Objet C++ (IUP MIME)
Structure de donnees (IUP MIME)
Programmation impérative, programmation en perl (IUP MIME)

Cargée de Cours Université Paris 8 (2003-2005)
Techniques de Programmation avancées (Licence - Maîtrise Informatique)
Introduction aux langages informatiques (DEUG MISASHS)
Ingénierie des langues (Licence - Maîtrise Informatique)
Programmation logique (DEUG MISASHS)

Cargée de Cours CNAM (2004-2005)
Architecture des machines
Systèmes informatiques

Utilitaires
Logiciels fonctionnant sur Windows NT et 9x
• Emacs version 20.4 : emacs.bin - emacs.lisp
• Les principales fonctions et les principaux raccourcis disponibles sous Emacs : refcard.ps
• Gcc Version 2.95 complet (Compilateur C pour PC) : gcc-2_95.exe
HowTo installer gcc et emacs sous windows : howto.txt
 
• MiKTex version 1.2 complet (LaTex pour PC) : 1.20.zip
• Ghostscript : gs600w32.exe
• Ghostview (viewer de fichier postscript (utilise ghostscript)) : gsv28w32.exe
 
• Terminal : Tera Term Pro
• SSH utilisant Tera Term Pro : SSH
• mp3 du grp aujoud'hui madame : 1 2 3 4 5 6 7