Ámbitos de trabajo

Con el objetivo de promover el avance de la IA en español, se ha elaborado un índice que establece cuantitativa y cualitativamente la diferencia entre las tecnologías del lenguaje en español e inglés en cuanto a cuatro ámbitos.

Estado del
arte

Soluciones de
mercado

Nivel de
adopción

Experiencia de
usuario

ESTADO DEL ARTE

En el ámbito del estado del arte, cercano al mundo académico, se crean infraestructuras que incluyen:

1 Datasets bilingües y metodologías para la evaluación comparada de modelos de lenguaje pre-entrenados.

2 Una plataforma que facilite la evaluación comparativa entre sistemas del estado del arte.

3 Un portal informativo sobre el estado del arte del español para las aplicaciones más relevantes de las tecnologías del lenguaje.

Portal ODESIA

Ofrece información sobre el estado del arte del procesamiento de lenguaje natural en español. Se puede consultar información sobre datasets, tareas para las que existen datos en español y los resultados de evaluación obtenidos para cada tarea.

Ir al sitio

Leaderboard

Evaluación de modelos de lenguaje en inglés y español.

Ir al sitio

EvALL

Herramienta de evaluación para sistemas de información que permite evaluar sobre un extenso conjunto de métricas que abarcan multitud de contextos de evaluación.

Ir al sitio

Metodología

1Recopilación de información sobre recursos disponibles y resultados obtenidos para las tareas de procesamiento de lenguaje natural en las que el español ha sido objeto de estudio con el fin de determinar cual es el estado del arte en cada momento.

2Definición de indicadores para medir el desarrollo comparativo del español frente al inglés en lo relativo a diseminación de resultados científicos, recursos de procesamiento de lenguaje natural (modelos de lenguaje, datos anotados, herramientas), y efectividad de sistemas en diversas tareas.

3Desarrollo de medidas de evaluación para diferentes tipos de tareas abstractas de aprendizaje automático e implementación de las mismas en una aplicación que permitirá evaluar cada tarea con las métricas más apropiadas.

4 Experimentación sistemática con modelos de lenguaje para comparar resultados en español e inglés y publicación de resultados en un leaderboard.