corpus

essay A+

Vous pouvez partager vos connaissances en l’améliorant (comment ? ) selon les recommandations des projets correspondants. Un corpus est un ensemble de documents, artistiques ou non (textes, images, vidéos, etc. ), regroupés dans une optique précise. On peut utiliser des corpus dans plusieurs domaines : études littéraires, linguistiques, scientifiques, philosophiel, etc. Sommaire [masquer 1 Le corpus en lingui 2 Le corpus en littéra e Swip page 3 Le corpus dans la s 3. 1. 2 Langage armé 3. 1. 1 Taille 3. 1. 3 Temps couvert par les textes du corpus 3. 1-4 Registre de langage 3. 2 Méthodologie . Corpus parallèles et corpus comparables 3. 3. 1 Corpus parallèles 3. 3. 2 Corpus comparables 4 Autres sens 5 Notes et références 6 Voir aussi 6. 1 Articles connexes 6. 2 Liens externes 6. 3 Bibliographie Un corpus peut être constitué de documents différents (tableau, extrait de texte… ) et ces documents divers ont un point en commun. En général, c’est le thème qui fait figure de leur ressemblance. Il faut avoir une technique particulière pour le déchiffrer. Le corpus dans la science[modifier I modifier le code] Les corpus sont des outils indispensables et précieux en raitement automatique du langage naturel.

Ils permettent en effet d’extraire un ensemble d’informations utiles pour des traitements statistiques. D’un point de vue informatif, ils permettent d’extraire des tendances et notamment de construire des ensembles de n- grammes. D’un point de vue méthodologique, ils apportent une objectivité nécessaire à la validation scientifique en traitement automatique du langage naturel. ‘information n’est plus empirique, elle est vérifiée par le corpus. Il est donc possible de s’appuyer sur des corpus (à condition qu’ils soient bien formés) pour formuler et érifier des hypothèses scientifiques.

Corpus bien formé[modifier modifier le code] Plusieurs caractéristiques sont à prendre en compte pour la création d’un corpus bien formé : la taille ; le langage du corpus ; le temps couvert par les textes du corpus ; le registre. Taille[modifier I modifier le code] Le corpus doit évidemmen 2 e taille critique pour de ce langage. II existe par exemple de subtiles différences entre le français de France et le français parlé en Belgique. Il ne sera donc pas possible de tirer des conclusions fiables à partir d’un orpus franco-belge sur le français de France, ni sur le français de Belgique.

Temps couvert par les textes du corpus[modifier I modifier le code] Le temps joue un rôle important dans l’évolution du langage : le français parlé aujourd’hui ne ressemble pas au français parlé il y a 200 ans ni, de façon plus subtile, au français parlé il y a 10 ans, à cause notamment des néologismes. C’est un phénomène ? prendre en compte pour toutes les langues vivantes. Un corpus ne doit donc pas contenir de textes rédigés à des intervalles de temps trop larges, ou il doit les dater (pour un usage par les istoriens de la langue ou des concepts).

Registre de langage[modifier modifier le code] Il ne faut pas non plus mélanger des registres différents et le scientifique ne peut s’autoriser à extraire des informations d’un corpus destiné à un certain registre en les appliquant à un autre. Un corpus construit à partir de textes scientifiques ne peut être utilisé pour extraire des informations sur les textes vulgarisés, et un corpus mélangeant des textes scientifiques et vulgarisés ne permettra de tirer aucune conclusion sur ces deux registres. Méthodologie[modlfier modifier le code]

Il serait maladroit d’un point de vue méthodologique d’appliquer des traitements statistiques sur le corpus qui a permis de faire ressortir un classement ou une modélisation du langage. Lorsque l’on travaille avec des cor us il convient donc de séparer un corpus initial en deux s 3 séparer un corpus initial en deux sous-corpus : le corpus d’apprentissage, qui sert à retirer un modèle ou un classement à partir d’un nombre suffisant d’information ; le corpus de test, qui sert à vérifier la qualité de l’apprentissage ? partir du corpus d’apprentissage.

Le calibrage des volumes des corpus se discute en fonction du roblème, mais il est fréquent d’utiliser les 2/3 du corpus initial pour l’apprentissage et le tiers restant pour effectuer les tests. Lorsque le volume du corpus initial n’est pas suffisant, il est possible de croiser les corpus de tests et d’apprentissage sur plusieurs expérimentations. Par exemple, si l’on découpe le corpus initial en 10 sous-corpus, numérotés de 1 à 10 Expérience 1 : utilisation des corpus 1 à 8 en apprentissage, et 9 et 10 pour les tests; Expérience 2 : utilisation des corpus 1 à 6 et 9 et 10 en apprentissage, 7 et 8 pour les tests;

La mesure de qualité des résultats (précision ou rappel) est alors plus précise, mais en aucun cas les corpus d’apprentissage et de tests n’ont été mélangés. Corpus parallèles et corpus comparables[modifier I modifier le Corpus parallèles[modifier I modifier le code] On appelle corpus parallèle un ensemble de couples de textes tel que, pour un couple, un des textes est la traduction de l’autre.

Il est intéressant d’aligner ces corpus, c’est-à-dire de faire correspondre chaque unité du texte en langue source avec chaque unité de texte en langue cible (au niveau des paragraphes, hrases et mots) pour disposer d’un ‘eu de données bilingues, en particulier dans des do lisés où le vocabulaire et 4 et des expressions évoluent rapidement. À titre d’exemple, au 26 octobre 2006, les versions française et anglaise des articles Déclin de l’Empire romain d’occident et Decline of the Roman Empire sont des textes parallèles.

Le texte source est la version anglaise, la version française est la cible, issue de la traduction. Bien que les textes soient dits parallèles, la traduction engendre des différences structurelles entre les textes. Certaines xpressions peuvent-être traduites par un nombre différent de mots. Par exemple Theories about the decline and fall of the Roman Empire » est composé de 10 mots alors que sa traduction « Théories du déclin de l’Empire romain » n’est composée que de 7 mots. De la même façon, des phrases dans le texte source sont susceptibles d’être regroupées dans la traduction, ou, ? l’inverse, scindées.

Le parallélisme n’est donc Jamais parfait et les méthodes d’alignement doivent en tenir compte. Les corpus de textes parallèles sont toutefois relativement rares. ? titre d’exemple, citons le Hansard canadien, qui est le compte rendu des Débats de la Chambre des communes canadienne, publié en français et en anglais. Corpus comparables[modifier I modifier le code] La linguistique de corpus ayant besoin de jeux de données volumineux pour travailler, les corpus parallèles sont certes très précieux, mais trop rares pour suffire à tous les usages.

Les corpus comparables sont largement plus répandus. Déjean & Gaussier (2002)2 donnent la définition suivante de corpus comparable S du vocabulaire du corpus de langue 1_1, respectivement 2, ont la traduction se trouve dans le corpus de langue 1_2, respectivement . Un corpus comparable est donc composé de textes dans des langues différentes, mais partageant une partie du vocabulaire employé, ce qui implique généralement que les textes parlent d’un même sujet, à la même époque et dans un registre comparable.

Une sélection d’articles de journaux dans différentes langues, traitant d’une même actualité internationale et à la même époque constitue un bon exemple de corpus comparable. L’alignement ne peut donc plus s’appuyer sur la structure du exte (qui n’a pas à être identique dune langue à l’autre) et les approches proposées cherchent plutôt à prendre en compte le contexte de chaque terme à aligner, c’est-à-dire la façon dont ils sont employés et les mots avec lesquels ils concourent dans le texte.

Autres sens[modifier modifier le code] Le genre Corpus désigne un groupe d’insectes. Le Corpus Omnium est une dénomination américaine d’une image tirée d’un manuscrit anglais du XVIe siècle. Cette image est appelée tablette de Nalvage en français. Notes et références[modifier I modifier le code] 1. T Corpus des oeuvres de philosophie en langue francaise – Databases [archive] (de la Renaissance à 1966) 2. Hervé Dejean & Éric Gaussier, une nouvelle approche ? l’extraction de lexique bilingues à partir de corpus comparables, 2002 lire en ligne [archive] Voir aussi[modifier I modifier le code Linguistique comparée Linguistique structurale Analyse lexicale Analyse littéraire Langue française Traitement automatique du langage naturel Liens externes[modifier modifier le code] (fr) Corpus français : 700 millions de mots en ligne (fr) Centre National de Ressources Textuelles et Lexicales (fr) ciel-f.

Le premier corpus écologique du français langue mondiale (fr) Corpus français ; base de données composée de près de 37 millions de phrases, soit environ 700 millions de mots (Université de Leipzig) (fr) http://www. spl. gouv. qc. ca/languefrancaise/corpuslexicaux/ Corpus lexicaux québécois – Secrétariat à la politique linguistique] (15 corpus, en juin 2013) Bibliographie[modifier I modifier le code] (fr) Damon Mayaffre (2002), Les corpus réflexifs : entre architextualité et hyypertextualité ; Corpus, 1 , Corpus et recherches linguistiques, Université de Nice. (fr) Équipe DECLIC (2004).

Présentation du corpus de référence du français parlé (440 000 mots), par (PDF, 30p) (en) SvartvikJ (1990) The London Corpus of Spoken English Description and Research. Lund Studies in English 82 Lund, Lund University press Guillaume Wisniewski, Aurélien Max et François Yvon (2010) TALN Recueil et analyse d’un corpus écologique de corrections orthographiques extrait des révisions de Wikipédia ; Montréal, 19- 23 juillet 201 0 Portail de la littérature Portail de la littérature Lire Modifier Modifier le code Historique Accueil Portails thématiques Article au hasard Contact Contribuer 8