el 
Inicio
Descripción del proyecto
Aprender:
Corpus
Mapa del sitio
Contáctenos

Codificación del corpus

Esta página explica los nombres de los textos del Corpus de Lenguaje Académico en español (CLAE).

Institución Universidad Nacional Autónoma de México (UNAM) Universidad de California, Davis (UCD)
Código por institución M C
Disciplinas Lt (Literatura)
G (Geografía)
H (Historia)
Li (Lingüística)
Lg (Lengua)
Lt (Literatura y cultura)
Géneros En (Ensayo)
Pr (Pregunta-Respuesta)
Rp (Reporte)
Mg (Monografía)
Rm (Resumen)
Rs (Reseña)
Número Número que corresponde al estudiante
Trabajo

Una letra representa un trabajo escrito por el estudiante particular.

Los casos en los que hay más de un texto escrito por el mismo estudiante  (por ejemplo el mismo género pero de diferente curso) se distingue cada texto con letras minúsculas.

  • a= un trabajo durante el curso
  • ab = dos textos escritos durante el mismo curso (a=ensayo1; b= ensayo 2)
  • aa= la duplicación significa que el texto proviene de la misma disciplina y corresponde al mismo género, pero de cursos diferentes: aa=literatura 1, bb=literatura 2

Ejemplo: MLtEn1a

Diagrama de la codificación

Información técnica del corpus

El corpus consiste en textos convertido al formato texto (.txt). Los textos están codificado en UTF/8 (Unicode) para mantener los acentos y otros rasgos que no se puede mantener en ASCII.