Corpus

Corpus, Colecciones y Lenguajes CLICC

El proyecto Corpus, Colecciones y Lenguajes (CLICC) inició en 2017 con el objetivo de contar con un espacio lo suficientemente flexible para el almacenamiento, sistematización, divulgación y explotación de corpus de diferentes fuentes y registros. Los corpus son conjuntos extensos de datos escritos, orales o visuales tomados de textos naturales y representativos de una o varias lenguas que están organizados bajo diversos criterios y que se sistematizan y analizan con la ayuda de herramientas computacionales (Hincapié y Bernal, 2017). Tras varias décadas de investigación el Instituto ha recopilado un acervo de datos sobre las lenguas de Colombia. Estos archivos se encontraban almacenados en varios formatos y estaban sistematizados de acuerdo con diversos criterios y metodologías. En consecuencia, se evidenció la necesidad de garantizar la preservación de los materiales, el uso de formatos que no se quedarán obsoletos con el paso de los años y la consolidación de un espacio donde la información estuviera sistematizada bajo criterios estándar para la salvaguarda, el fácil acceso y la divulgación de la información. Esto se consolidó en la plataforma CLICC que inició con tres corpus producto de tres investigaciones del Instituto: el Atlas Lingüístico-Etnográfico de Colombia (ALEC), el Habla Culta de Bogotá (HCB) y el Español Hablado en Bogotá (EHB). Actualmente la plataforma cuenta con corpus de investigaciones previas y actuales. CLICC está estructurada en cuatro interfaces: la interfaz administrativa para el manejo de los distintos usuarios, corpus y funcionalidades generales del sistema; la interfaz de usuario investigador para la administración, sistematización y creación de corpus; la interfaz de usuario registrado para las consultas avanzadas de los corpus; y la interfaz de usuario final que es el espacio donde cualquier usuario interesado puede conocer sobre la plataforma y consultar los corpus.