Ámbitos de trabajo

Con el objetivo de promover el avance de la IA en español, se ha elaborado un índice que establece cuantitativa y cualitativamente la diferencia entre las tecnologías del lenguaje en español e inglés en cuanto a cuatro ámbitos.

Estado del
arte

Soluciones de
mercado

Nivel de
adopción
Experiencia de
usuario

ESTADO DEL ARTE

En el ámbito del estado del arte, cercano al mundo académico, se crean infraestructuras que incluyen:

1 Datasets bilingües y metodologías para la evaluación comparada de modelos de lenguaje pre-entrenados.
2 Una plataforma que facilite la evaluación comparativa entre sistemas del estado del arte.
3 Un portal informativo sobre el estado del arte del español para las aplicaciones más relevantes de las tecnologías del lenguaje.

Portal ODESIA

Ofrece información sobre el estado del arte del procesamiento de lenguaje natural en español. Se puede consultar información sobre datasets, tareas para las que existen datos en español y los resultados de evaluación obtenidos para cada tarea.

Leaderboard

Evaluación de modelos de lenguaje en inglés y español.

EvALL

Herramienta de evaluación para sistemas de información que permite evaluar sobre un extenso conjunto de métricas que abarcan multitud de contextos de evaluación.

Metodología   

1Recopilación de información sobre recursos disponibles y resultados obtenidos para las tareas de procesamiento de lenguaje natural en las que el español ha sido objeto de estudio con el fin de determinar cual es el estado del arte en cada momento.

 2Definición de indicadores para medir el desarrollo comparativo del español frente al inglés en lo relativo a diseminación de resultados científicos, recursos de procesamiento de lenguaje natural (modelos de lenguaje, datos anotados, herramientas), y efectividad de sistemas en diversas tareas.

3Desarrollo de medidas de evaluación para diferentes tipos de tareas abstractas de aprendizaje automático e implementación de las mismas en una aplicación que permitirá evaluar cada tarea con las métricas más apropiadas.

4 Experimentación sistemática con modelos de lenguaje para comparar resultados en español e inglés y publicación de resultados en un leaderboard.

Resultados del proyecto

65%

Brecha en Estado del arte

98%

Publicaciones

88%

Proyectos subvencionados

90%

Texto en internet

76%

Modelos de lenguaje

54%

Datos anotados

18%

Efectividad de modelos de lenguaje