Fecha: 22 de febrero de 2026
El panorama de la Inteligencia Artificial ha alcanzado una nueva frontera. Gemini 3 Pro, el modelo insignia de Google DeepMind, se ha posicionado oficialmente como el líder indiscutible del Humanity Last Exam (HLE), logrando una precisión del 38.3%. Aunque la cifra pueda parecer baja en comparación con otros tests, el HLE está diseñado específicamente para ser "imposible" de resolver mediante simple memorización, consolidándose como el examen definitivo de razonamiento complejo.
Desarrollado por el Center for AI Safety (CAIS) y Scale AI, el HLE nació como respuesta a la saturación de benchmarks tradicionales como el MMLU, donde los modelos ya superan el 90% de acierto.
Dificultad Extrema: Se compone de 2,500 preguntas diseñadas por más de 1,000 expertos de 50 países.
Multimodalidad: El 14% de las preguntas requieren interpretar diagramas, gráficos o imágenes complejas para ser respondidas.
Áreas de conocimiento: Abarca desde matemáticas avanzadas y física cuántica hasta análisis profundo de literatura y bioética.
Los resultados publicados sitúan a Google por delante de sus principales rivales en la carrera por la Inteligencia Artificial General (AGI). En la última evaluación:
Lograr casi un 40% en el HLE significa que Gemini 3 Pro no solo "recuerda" datos, sino que es capaz de articular razonamientos de nivel de posgrado. Según analistas de MIT Technology Review y expertos como Jon Hernández, este avance sugiere que estamos pasando de una "IA de chat" a una "IA de razonamiento científico", capaz de ayudar en investigaciones donde no existen respuestas previas en Internet.
Sin embargo, el debate está servido en foros como arXiv y comunidades de expertos. Algunos críticos sugieren que el alto rendimiento podría deberse a un "entrenamiento específico" para el examen, mientras que Google defiende que su arquitectura de razonamiento profundo (Deep Think Mode) es la verdadera responsable de esta ventaja competitiva.
"El HLE demuestra que aún existen preguntas expertas que las máquinas no pueden responder, pero la brecha se cierra más rápido de lo previsto", afirma el equipo de CAIS.
Fuentes: MIT Technology Review, Center for AI Safety (CAIS), Google DeepMind Blog, Xataka, Jon Hernández, arXiv.org, The Verge.