Corpus, Colecciones y Lenguajes CLICC
El proyecto Corpus, Colecciones y Lenguajes (CLICC) inició en 2017 con el objetivo de
contar con un espacio lo suficientemente flexible para el almacenamiento, sistematización,
divulgación y explotación de corpus de diferentes fuentes y registros. Los corpus son conjuntos
extensos de datos escritos, orales o visuales tomados de textos naturales y representativos de una o
varias lenguas que están organizados bajo diversos criterios y que se sistematizan y analizan con la
ayuda de herramientas computacionales (Hincapié y Bernal, 2017).
Tras varias décadas de investigación el Instituto ha recopilado un acervo de datos sobre las lenguas
de Colombia. Estos archivos se encontraban almacenados en varios formatos y estaban sistematizados
de acuerdo con diversos criterios y metodologías. En consecuencia, se evidenció la necesidad de
garantizar la preservación de los materiales, el uso de formatos que no se quedarán obsoletos con el
paso de los años y la consolidación de un espacio donde la información estuviera sistematizada bajo
criterios estándar para la salvaguarda, el fácil acceso y la divulgación de la información. Esto se
consolidó en la plataforma CLICC que inició con tres corpus producto de tres investigaciones del
Instituto: el Atlas Lingüístico-Etnográfico de Colombia (ALEC), el Habla Culta de Bogotá (HCB) y el
Español Hablado en Bogotá (EHB). Actualmente la plataforma cuenta con corpus de investigaciones
previas y actuales.
CLICC está estructurada en cuatro interfaces: la interfaz administrativa para el manejo de los
distintos usuarios, corpus y funcionalidades generales del sistema; la interfaz de usuario
investigador para la administración, sistematización y creación de corpus; la interfaz de usuario
registrado para las consultas avanzadas de los corpus; y la interfaz de usuario final que es el
espacio donde cualquier usuario interesado puede conocer sobre la plataforma y consultar los corpus.