1.- Recopilación de testos del Corpus, estremándolos en tres subcorpus: un núcleu principal escritu, un segundu oral y un tercer, históricu.
2.- Dixitalización. Cola fin d'unificar el formatu de los testos procedentes de distintos soportes (al testu planu) y da-yos una estructura asemeyada.
3.- Asignación metadata. Segmentación y marcaxe estructural básicu emplegando un sistema d'etiquetaxe XML.
4.- Marcaxe léxicu, morfolóxicu, gramatical y sintáctico-discursivu nel casu del corpus principal.
5.- Desenvolvimientu d'un motor de busca pa la obtención de datos varacionales y estadísticos.
6.- Creacción de lexicones, base nel desarrollu d'otres aplicaciones como revisores ortográficos, gramaticales, analizadores o sistemes de traducción automática.
Eslema trabaya nel desenvolvimientu ya integración del asturianu con distintos paquetes de software llingüístico (Corpus, Analizador, Traductor).
El desenvolvimientu de un Corpus ye una ferremienta fundamental nel desendolcu y ameyoramientu de futures aplicaciones como sistemes de traducción automática.
El Proyectu Eslema mira a ellaborar un Corpus llingüísticu: una colección de testos orales y/o escritos d'una llingua, en soporte electrónicu que se manden como amuesa representativa pal so estudiu sistemáticu.
Propónse, con éses, un corpus modular que pueda dir construyéndose en distintes fases, siempres a espenses de les fontes de financiación o les posibilidaes organizatives, ensin renunciar por ello a la eficiencia y al algame de llogros más o menos inmediatos.
Eslema respe por dar esos primeros pasos estableciendo un corpus llingüísticu col que la llingua asturiana entre nel selectivu grupu de llingües en disposición de valise plenamente de les virtualidaes ufiertaes poles nueves tecnoloxíes.
Pente medies d'un corpus etiquetáu de más de 10.000.000 de palabres aspírase a un tratamientu informáticu básicu de los testos col envís d’algamar un sistema potente de cata d’información, disponible parcialmente en Internet dende 2006.
En casu del corpus principal, el marcaxe al traviés d’etiquetes XML va faese dende’l nivel léxicu (raíces léxiques, locuciones, perífrasis y frases), hasta el morfolóxicu (afixos y morfemes verbales y nominales) y gramatical (especificación de categoríes).
Con eses bases puede entamase la ellaboración d' aplicaciones informátiques empuestes tanto al ámbitu investigador como a la normalización llingüística, casu del Traductor.