Gemini 2.5-Pro lidera ranking de modelos de IA, ChatGPT en 8º lugar | Tecnología

En un reciente análisis sobre modelos de inteligencia artificial, Gemini 2.5-Pro se ha destacado como el líder indiscutible, mientras que ChatGPT ocupa un modesto octavo lugar. Esta clasificación es parte de un esfuerzo más amplio para evaluar las experiencias de usuarios con diferentes herramientas de IA, desafiando la percepción de popularidad y utilidad que a menudo rodea a estos modelos.

La dinámica del ranking de modelos de IA

Aunque el campo de la inteligencia artificial puede asemejarse a un "salvaje oeste", hay un considerable trabajo detrás de escena en análisis, pruebas y evaluaciones de desempeño. No solo las empresas organizan estas valoraciones, sino que también se forman grupos independientes dedicados a establecer sus propios rankings.

Estos grupos examinan la capacidad de los chatbots para resolver problemas matemáticos, generar imágenes, razonar, ofrecer consejos médicos y mostrar inteligencia emocional, entre otros. Las variaciones en los resultados revelan las fortalezas y debilidades de los diferentes modelos en diversos contextos.

Lee también

Hugging Face integra LLMs de código abierto a GitHub Copilot Chat en VS Code

ChatGPT y los Nuevos Cambios: ¿Sacrificaremos Privacidad por Seguridad?

Por ejemplo, aunque el modelo GPT-5 se destaca en razonamiento científico, se queda atrás en adaptabilidad frente a competidores como Gemini y Claude. Estos análisis son cruciales para determinar qué herramienta es la más adecuada para distintas situaciones, aunque a veces falta una evaluación clave: la experiencia del usuario.

Humaine: Un nuevo sistema de clasificación

La empresa tecnológica británica Prolific ha desarrollado su propio sistema de clasificación de IA llamado Humaine. A diferencia de otros métodos que miden la eficiencia en tareas específicas, Prolific se ha enfocado en evaluar las experiencias de los usuarios con distintos modelos de IA.

A través de encuestas a 21,352 personas con diferentes interacciones de IA, se pudo identificar no solo un modelo ganador, sino también desglosar los resultados por edad, ubicación (con pruebas en el Reino Unido y Estados Unidos) y creencias políticas.

Lee también

Cómo utilizar IA de Gemini para crear imágenes hiperrealistas

Anthropic lanza la función de memoria para usuarios de Claude Team y Enterprise

Los resultados se desglosan en categorías como:

Grupos de edad en el Reino Unido
Etnias en el Reino Unido
Opiniones políticas en el Reino Unido
Grupos de edad en Estados Unidos
Etnias en Estados Unidos
Opiniones políticas en Estados Unidos

Los participantes interactuaron con dos modelos de IA diferentes de manera comparativa, brindando su retroalimentación sobre cuál preferían en cada caso. Esto dio como resultado no solo un ganador general, sino también puntajes separados para rendimiento en tareas fundamentales, razonamiento, comunicación, fluidez, confianza y ética.

Resultados de la encuesta: Un claro ganador

Los resultados de la encuesta revelaron un claro ganador, no solo en la categoría de rendimiento general, sino en la mayoría de las subcategorías. Gemini 2.5-Pro se posicionó como el modelo líder en casi todos los criterios evaluados.

Los encuestados de 18 a 34 años en el Reino Unido, los votantes demócratas y aquellos mayores de 55 años en Estados Unidos coincidieron en que Gemini 2.5-Pro era el mejor modelo. La única categoría en la que otro modelo superó a Gemini fue en confianza, ética y seguridad, donde Grok-3 se destacó, lo cual es un hallazgo irónico considerando algunos problemas de seguridad y ética recientes asociados con este modelo.

Detrás de Gemini, los siguientes modelos fueron Deepseek, Magistral Le Chat y Grok. Deepseek había ganado popularidad a principios de año, pero ha sido menos mencionado recientemente. Le Chat, aunque menos conocido, cuenta con una leal base de usuarios.

La posición de ChatGPT en el ranking

La popularidad de ChatGPT parece haber sufrido un golpe con este ranking, ocupando el octavo lugar, con el modelo GPT-4.1 siendo el más destacado entre sus versiones. El modelo Claude, por su parte, presenta un rendimiento aún más bajo, con sus versiones 4 situadas en el undécimo y duodécimo lugar en la clasificación general.

Captura de Pantalla de HUMAINE Leaderboard

Captura de Pantalla de HUMAINE Leaderboard

Implicaciones de los resultados

¿Qué significa esto para la comunidad de IA? ¿Es Gemini el mejor chatbot del mundo? ¿Significa que los usuarios deben abandonar ChatGPT? La respuesta no es tan simple.

Estos resultados no necesariamente reflejan el rendimiento de cada modelo. Al evaluarse en otras métricas, modelos como ChatGPT, Gemini, Claude y Grok suelen ubicarse entre los mejores.

Sin embargo, esta evaluación ofrece una valiosa perspectiva sobre cómo los usuarios viven la experiencia de interactuar con distintas herramientas de IA. Por ejemplo, Le Chat puede no haber destacado en benchmarks, pero es frecuentemente considerado como una opción destacada por su experiencia de uso y confianza.

A pesar de que Anthropic y OpenAI no brillan en esta ronda de pruebas, tanto Gemini como Grok han tenido un desempeño notable. Ambos modelos muestran consistencia al alcanzar altas puntuaciones en los benchmarks y también en estas evaluaciones centradas en la experiencia del usuario.

Conclusiones

En conclusión, la clasificación revela no solo la competencia entre modelos de inteligencia artificial, sino también la importancia de considerar la experiencia del usuario al evaluar estas herramientas. La evolución de la IA sigue en marcha, y la inclusión de perspectivas más humanas en estos análisis podría ser clave para entender su impacto en diversas herramientas.

Para estar al tanto de más novedades y análisis sobre inteligencia artificial y otras temáticas relevantes, no deje de seguir leyendo en Liven.

La dinámica del ranking de modelos de IA

Lee también

Hugging Face integra LLMs de código abierto a GitHub Copilot Chat en VS Code

ChatGPT y los Nuevos Cambios: ¿Sacrificaremos Privacidad por Seguridad?

Humaine: Un nuevo sistema de clasificación

Lee también

Cómo utilizar IA de Gemini para crear imágenes hiperrealistas

Anthropic lanza la función de memoria para usuarios de Claude Team y Enterprise

Resultados de la encuesta: Un claro ganador

La posición de ChatGPT en el ranking

Implicaciones de los resultados

Conclusiones

¿Te gustó esta noticia?