Enrichissement linguistique des données textuelles

Deux types d’enrichissement linguistique sont en cours de réalisation dans le cadre du projet.

Etiquetage morpho-syntaxique des textes

Cet étiquetage repose sur un jeu d’étiquettes original, élaboré dans le cadre du développement de la Base de Français Médiéval et des projets qui lui sont associés. Cet étiquetage est entièrement vérifié par des médiévistes. Il concerne un sous-ensemble de textes du corpus.

Balisage du discours direct dans les textes

Le balisage du discours direct est en cours dans plusieurs textes. Il permettra à terme de faire des requêtes ciblées sur le discours direct ou le récit.



Par ailleurs, plusieurs des textes du corpus CoRPTeF font actuellement l’objet d’une annotation syntaxique dans le cadre du projet franco-allemand Syntactic Reference Corpus of Medieval French.