José Ángel Martínez Huertas

Mi tesis doctoral, defendida en octubre de 2020, trata sobre la evaluación de respuestas construidas con modelos de espacio vectorial. Concretamente, esta tesis se centró en el estudio de la evaluación automática de resúmenes utilizando modelos distribucionales del lenguaje como Análisis Semántico Latente o Latent Semantic Analysis. La idea general propone que los métodos computacionales del lenguaje son una herramienta óptima con propiedades psicométricas adecuadas para la evaluación de contenidos semánticos en respuestas construidas.

Los modelos de espacio vectorial nos permiten representar el conocimiento a través de vectores. Así, esta propiedad se ha utilizado para la evaluación automática de textos donde un espacio vectorial, llamado espacio semántico, es utilizado para representar las propiedades semánticas de un texto determinado. En esta tesis doctoral, se han comparado dos métodos computacionales, el método de la similitud basada en el coseno y el método Inbuilt Rubric, en diferentes tareas de Evaluación Automática de Resúmenes. El interés de esta comparación reside en que ambos métodos utilizan el mismo espacio semántico, pero producen representaciones de los textos cualitativamente distintas para evaluar los mismos conceptos semánticos. La Figura 1 presenta un ejemplo sobre la evaluación del resumen de un estudiante (ver también Martínez-Huertas et al., 2021). El método de la similitud basada en el coseno analiza el coseno entre las representaciones vectoriales de distintos conceptos semánticos y el resumen del estudiante (también existe una versión de este método, llamada Golden Summary, que compara el coseno de los resúmenes de los estudiantes con respuestas ideales para evaluar la calidad global de la respuesta). El método Inbuilt Rubric, por el contrario, transforma el espacio semántico a través de una operación matricial que permite obtener una evaluación multi-vectorial de cada resumen que es más analítica. Dicha transformación del espacio semántico permite dotar a las coordenadas del espacio semántico con una interpretación directa de los conceptos que se están representando (por ejemplo, la primera dimensión del espacio semántico puede representar el conocimiento referido a “Darwin” o “automóvil”).

Figura 1. Representación gráfica del método de la similitud basada en el coseno (izquierda) y el método Inbuilt Rubric (derecha).

Nota. Figuras extraídas de Martínez-Huertas et al. (2021).

En esta tesis doctoral, el rendimiento de ambos métodos computacionales ha sido comparado en un total de 1,236 resúmenes de 726 estudiantes de instituto y de universidad. Los resultados de los distintos estudios mostraron que el rendimiento del método Inbuilt Rubric era mejor que el rendimiento del método de la similitud basada en el coseno en el ámbito de la Evaluación Automática de Resúmenes. Así, estos estudios permitieron mostrar la validez de este método utilizando un acercamiento basado en la validez muy relacionado con conceptos psicométricos clásicos que normalmente no se utilizan en ciencia computacional (como validez convergente y discriminante o validez de constructo y análisis factorial).

Estos hallazgos pueden llevar a diseñar mejores evaluaciones psicoeducativas utilizando modelos computacionales del lenguaje y, además, extender la utilización de estos métodos a la evaluación de otros constructos psicológicos. En mi opinión, el marco teórico y metodológico de esta tesis doctoral supone el inicio de nuevas líneas de investigación que generen herramientas de evaluación de constructos psicológicos relevantes utilizando modelos computacionales del lenguaje a través de la combinación de la semántica computacional y la psicometría.

Referencias
Martínez-Huertas, J.A., Olmos, R., & León, J.A. (2021). Enhancing topic-detection in computerized assessments of constructed responses with distributional models of language. Expert Systems with Applications, 185(115621), 1-12. https://doi.org/10.1016/j.eswa.2021.115621.