
Los modelos de IA Gemini y DeepSeek ocuparon el segundo y tercer lugar en un ranking de respuestas a preguntas científicas.
Crédito: Andrey Rudakov/Bloomberg via Getty
Ranking de Herramientas de IA en Ciencias
El modelo de inteligencia artificial o3, desarrollado por los creadores de ChatGPT, ha sido clasificado como la mejor herramienta de IA para responder preguntas científicas según una plataforma de evaluación lanzada la semana pasada.
SciArena, creada por el Instituto Allen para la Inteligencia Artificial (Ai2) en Seattle, ha evaluado 23 modelos de lenguaje grande (LLMs) basándose en sus respuestas a preguntas científicas. La calidad de las respuestas fue evaluada por 102 investigadores. O3, desarrollado por OpenAI en San Francisco, fue el mejor en áreas como las ciencias naturales, salud, ingeniería y ciencias sociales, tras recibir más de 13,000 votos.
El modelo DeepSeek-R1, de la empresa DeepSeek en Hangzhou, China, ocupó el segundo lugar en preguntas sobre ciencias naturales y el cuarto en ingeniería. Por su parte, Gemini-2.5-Pro de Google se situó tercero en ciencias naturales y quinto en ingeniería y salud.
La preferencia de los usuarios por o3 podría deberse a su capacidad de proporcionar detalles sobre la literatura consultada y respuestas técnicas más profundas, según Arman Cohan, científico investigador en Ai2. Sin embargo, entender por qué los modelos tienen un rendimiento diferente es complicado, ya que muchos son secretos comerciales. Diferencias en los datos de entrenamiento y en la optimización del modelo podrían ser factores que expliquen estas variaciones.
SciArena es una de las últimas plataformas evaluativas que mide cómo los modelos de IA realizan ciertas tareas, y es especialmente novedosa ya que utiliza retroalimentación del público para evaluar la efectividad en las tareas científicas. «SciArena es un esfuerzo positivo que fomenta una evaluación cuidadosa de las tareas asistidas por LLM», comenta Rahul Shome, investigador en robótica e IA de la Universidad Nacional de Australia en Canberra.
Selección y Evaluación de Modelos
Para realizar el ranking de los 23 LLM, SciArena solicitó a los investigadores que enviaran preguntas científicas. Luego, recibieron respuestas de dos modelos seleccionados al azar, que respaldaron sus respuestas con referencias obtenidas de Semantic Scholar, una herramienta de investigación de IA también desarrollada por Ai2. Los usuarios votaron para determinar cuál modelo proporcionó la mejor respuesta, si ambos eran comparables o si ambos fallaron.
La plataforma está ahora disponible públicamente y permite a los usuarios hacer preguntas de investigación de manera gratuita. Todos los usuarios reciben respuestas de dos modelos y pueden votar sobre su rendimiento, pero únicamente los votos de usuarios verificados que acepten los términos se tienen en cuenta en la tabla de posiciones, la cual la empresa planea actualizar frecuentemente.
La habilidad de cuestionar a los LLM sobre temas científicos y tener confianza en las respuestas ayudará a los investigadores a mantenerse al día con la literatura más reciente en sus campos, señala Jonathan Kummerfeld, investigador de IA en la Universidad de Sydney, Australia. «Esto ayudará a los investigadores a encontrar trabajos que de otro modo podrían haber pasado por alto.»