El proyecto ILENIA (Impulso de las lenguas en Inteligencia Artificial) es una iniciativa estratégica para el impulso de las lenguas cooficiales en el ámbito tecnológico y digital.
El proyecto, que cuenta con una financiación de 7 millones de euros, está enmarcado en el componente 16 “Estrategia Nacional de Inteligencia Artificial” del Plan de Recuperación, Transformación y Resiliencia, en el eje 11 de la Agenda España Digital 2026 y en el PERTE Nueva economía de la lengua.
El proyecto ILENIA tiene por objeto impulsar en España la nueva economía digital basada en el lenguaje natural, aprovechando el potencial del español y del resto de lenguas oficiales como factor de crecimiento económico y de competitividad internacional en áreas tales como la inteligencia artificial, la traducción, la enseñanza, la producción y divulgación cultural, la investigación y la ciencia.
ILENIA es un proyecto común y coordinado entre las diferentes lenguas oficiales del estado cuyo objetivo último es el desarrollo de recursos multilingües, en especial modelos multilingües de texto, voz y traducción automática que den respuesta a las necesidades de la sociedad y estén en línea con la tecnología actual, en la que el multilingüismo y la transferencia entre lenguas juegan un papel primordial.
El proyecto ILENIA se articula en torno a cuatro proyectos: AINA en catalán, el proyecto NÓS en gallego, el proyecto GAITU en euskera, y el proyecto VIVES en valenciano, como iniciativas de referencia para el PERTE de la Nueva Economía de la Lengua en el desarrollo de la economía digital.
En esta línea, se busca favorecer las sinergias entre las distintas iniciativas y multiplicar así su impacto en la sociedad para lograr el objetivo estatal de apoyar a las industrias en su transformación digital, liderando el desarrollo y la integración de la inteligencia artificial en el tejido productivo, la economía y la sociedad, según establece la Estrategia Nacional de Inteligencia Artificial:
– AINA es un proyecto de inteligencia artificial que tiene por objetivo generar corpus y modelos informáticos de la lengua catalana para que las empresas que crean aplicaciones basadas en inteligencia artificial (IA), como asistentes de voz, buscadores de Internet, traductores y correctores automáticos, agentes conversacionales, etc., puedan hacerlo fácilmente en catalán.
– El Proyecto GAITU es una iniciativa tractora de la administración vasca que, a través de tecnología de la lengua de calidad en euskera, pretende desarrollar y ofrecer servicios lingüísticos básicos y transversales para utilizarlos en todas las administraciones públicas y, en definitiva, para ofrecer mejores servicios públicos a la ciudadanía. El plan de acción recoge los proyectos concretos que utilizan tecnología lingüística y que se están desarrollando en diferentes áreas estratégicas del Gobierno Vasco.
– El Proyecto NÓS pretende crear los recursos digitales y lingüísticos necesarios para facilitar el desarrollo de aplicaciones basadas en inteligencia artificial (IA) y tecnologías del lenguaje (TL) tales como asistentes de voz, traductores automáticos y agentes conversacionales en gallego, permitiendo colocar el gallego en la vanguardia de las tecnologías inteligentes, especialmente en aquellas áreas relacionadas con las tecnologías lingüísticas y, en general, en la sociedad y en la economía de la inteligencia artificial.
– El Plan VIVES de tecnologías del lenguaje tiene como objeto la creación de corpus masivos a través de campañas de adquisición de datos de voz y textos, de la participación ciudadana y de los recursos existentes en la administración pública valenciana.
El presupuesto total asignado al proyecto asciende a 7 millones de euros que se han distribuido a las principales universidades y centros de investigación que previamente han sido tomadas como referente por cada una de las comunidades autónomas participantes, habiendo acreditado el mandato para cada uno de los proyectos como entidades de referencia regional para la ejecución de los mismos.
Estos centros son:
– El Consorcio Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC-CNS), coordinador de ILENIA y responsable de NEL-AINA. Se le ha otorgado una financiación de 3 millones de euros.
– La Universidad de Alicante, a través del Centro de Inteligencia Digital (CENID), responsable de VIVES. Se le ha otorgado una financiación de 500.000 €.
– La Universidad del País Vasco, a través del Centro Vasco de Tecnología de la Lengua (HiTZ), responsable de NEL-GAITU. Se le ha asignado una financiación de 2 millones de euros.
– La Universidad de Santiago de Compostela, responsable de NÓS. Se le ha asignado una financiación de dos millones de euros.
Las ayudas adjudicadas consisten en dotar a los proyectos anteriormente señalados de herramientas y recursos básicos suficientes (corpus multimodales, datos anotados, modelos de lenguaje neuronal, motores de traducción, reconocedores del habla, entre otros), para que su inclusión en las aplicaciones de inteligencia artificial y tecnologías del lenguaje sea rentable y atractiva para la Administración y las empresas del sector, tanto a nivel local como global.
La infraestructura lingüística generada:
– Permitirá dar un salto cualitativo en la digitalización de la Administración pública.
– Facilitará la digitalización y la internacionalización de las empresas.
– Hará más competitiva a la industria del ámbito, beneficiándose de las oportunidades que ofrece actualmente la inteligencia artificial y las tecnologías del lenguaje.
– Generará nuevos puestos de trabajos cualificados.
La duración del proyecto NEL/ILENIA es de 36 meses y coordinación general se lleva a cabo por parte del Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC-CNS).
En la tarea de desarrollo de recursos lingüísticos, ILENIA trabaja con datos de texto y de voz que recibe a través de distintas voces. Los modelos de lenguaje son clave para el desarrollo de nuevas apps, así que se trabaja en la generación y actualización de estos modelos, ya sean mono o multilingües o multimodales.
ILENIA colabora en la implementación e inclusión de módulos y bibliotecas para el catalán, el euskera, el valenciano y el gallego, en entornos y plataformas de referencia.
La generación de los modelos conocidos como Large Language Model (LLM) es un proceso progresivo que permite avanzar rápidamente en la creación de nuevos modelos, reduciendo el costo y los recursos para entrenarlos. Ya se puede acceder a los enlaces de los datos y metadatos publicados hasta ahora por ILENIA a través de los enlaces disponibles en la plataforma Hugging Face.
Están disponibles en la página web del proyecto que, de hecho, ha sido traducida a las cuatro lenguas disponibles, parcialmente, con los modelos de traducción generados en el marco del proyecto.
vía: Plan de Recuperación Gobierno de España