Content is user-generated and unverified.

El Experimento que Reveló Qué IA Es Realmente "Inteligente" con las Matemáticas

¿Cuánto vale cada esfera? Un desafío que puso a prueba la verdadera capacidad de los modelos de lenguaje

Todos nos hemos encontrado en internet con esos problemas visuales donde al final se trata de encontrar el valor de una variable oculta. La principal dificultad radica en plantear correctamente la ecuación o ecuaciones necesarias, y luego simplemente recordar nuestra álgebra básica para realizar los cálculos requeridos. Si bien algunos de estos problemas tienen "trucos" que complican ligeramente el planteamiento inicial, al final el principio fundamental sigue siendo el mismo.

Decidí realizar un experimento fascinante: enfrentar a los principales modelos de lenguaje del mercado contra un problema de álgebra visual aparentemente simple. Los resultados fueron sorprendentes y reveladores sobre las verdaderas capacidades de cada sistema.

El Laboratorio de Pruebas: Configuración del Experimento

Para garantizar un análisis exhaustivo, utilicé una variedad representativa de modelos, tanto de pago como gratuitos, que nos permitiera entender las diferencias reales en capacidades de interpretación visual y razonamiento matemático.

Versión de pago:

  • ChatGPT en su modelo O4-mini-high

Versiones estándar (gratuitas):

  • Claude en su modelo Sonnet 4
  • DeepSeek en su modelo R1
  • Gemini en su modelo Flash 2.5
  • Grok en su modelo Grok 3
  • ChatGPT en su modelo 4o

La metodología consistió en presentar la misma imagen de un problema de balanza con esferas de diferentes colores a cada modelo, acompañada de una pregunta específica sobre el valor de las esferas blancas.

Los Resultados: Un Análisis Detallado de Cada Modelo

ChatGPT con el modelo O4-mini-high: El Casi Perfecto

Subí la imagen con la pregunta inicial: "¿Cuánto valen las esferas blancas?"

Fortalezas identificadas: Lo primero que me sorprendió gratamente fue su capacidad para detectar que en la imagen había dos balanzas distintas: una principal y una sub-balanza. Hizo la distinción correcta entre ambas y resolvió primero la sub-balanza, lo cual demuestra un razonamiento lógico estructurado. Correctamente dedujo que tres esferas rojas equivalen a una esfera verde que vale 30, por lo que cada esfera roja debe valer 10.

El error crítico: Sin embargo, aquí cometió su primer error significativo. En realidad, no fue tanto un error de cálculo sino una interpretación visual deficiente. Detectó únicamente dos esferas rojas en su razonamiento e hizo los cálculos correctos basándose en esas dos esferas incorrectamente identificadas.

La corrección y el segundo tropiezo: Cuando le hice la aclaración correspondiente y volví a preguntar, revisó el procedimiento y detectó el error, pero recalculó respondiendo que las esferas blancas tenían un valor de 50, lo cual era incorrecto ya que cada esfera blanca vale 25. Al revisar nuevamente el procedimiento, me di cuenta de que ChatGPT estaba respondiendo de forma técnicamente correcta, puesto que mi pregunta inicial fue "¿Cuánto valen las esferas blancas?" en plural, no el valor individual.

La prueba definitiva: Abrí un nuevo chat con la misma imagen y la pregunta reformulada: "¿Cuánto vale cada esfera blanca?" Efectivamente, me respondió con la ecuación correcta, pero persistió en su falla de interpretación visual, siguiendo viendo únicamente dos esferas rojas en lugar de tres.

DeepSeek modelo R1: Limitaciones Fundamentales

Este modelo reveló una limitación crucial que debemos entender: no tiene capacidad para interpretar imágenes de manera integral, únicamente puede extraer texto de ellas. Por lo tanto, no fue posible desarrollar el experimento visual completo.

Capacidad compensatoria: Curiosamente, cuando le planteé la ecuación únicamente con lenguaje natural (sin imágenes), la resolvió sin ningún problema, demostrando que sus capacidades de razonamiento algebraico puro están intactas.

Claude modelo Sonnet 4: El Cauteloso

Análisis de la respuesta: Claude no fue capaz de detectar inicialmente que había una sub-balanza dentro de la balanza principal, por lo que me pidió información adicional para resolver el problema. Esta respuesta, aunque inicialmente frustrante, revela una característica importante: prefiere solicitar clarificación antes que asumir incorrectamente.

Desempeño tras la clarificación: Una vez que le expliqué que había una sub-balanza y cómo estaban distribuidas las esferas en cada balanza, lo resolvió sin ningún problema, demostrando excelentes capacidades de razonamiento una vez que cuenta con la información completa.

Gemini modelo 2.5 Flash: La Revelación

El desempeño perfecto: Gemini fue el único modelo que logró resolver el problema a la perfección sin requerir explicaciones adicionales. Detectó correctamente las dos balanzas, identificó la cantidad precisa de esferas en cada una de ellas, resolvió la ecuación paso a paso y mostró el resultado correcto. Todo esto en su versión Flash, que es completamente gratuita.

Implicaciones importantes: Este resultado desafía las suposiciones comunes sobre que los modelos de pago necesariamente superan a los gratuitos en todas las tareas. Gemini demostró que la optimización específica para tareas visuales puede ser más importante que el nivel de acceso.

Grok modelo Grok 3: La Confusión Total

Falla completa en interpretación visual: Grok no logró interpretar la imagen de manera coherente. No distinguió entre diferentes tipos de esferas ni comprendió el concepto de balanza. Su respuesta fue completamente desconectada del problema real, inventando un escenario con esferas blancas y negras que no existían en la imagen.

Capacidad algebraica básica: Al igual que DeepSeek, cuando le planteé una ecuación directamente en lenguaje natural, la resolvió sin dificultad, confirmando que el problema radica específicamente en la interpretación visual.

ChatGPT modelo 4o: Inconsistencias Sorprendentes

Desempeño inferior a su versión premium: Resulta paradójico que este modelo, siendo una versión más accesible del mismo sistema, mostró un rendimiento inferior al O4-mini-high. No detectó las dos balanzas y, al igual que su hermano más avanzado, tampoco distinguió que había tres esferas rojas del lado derecho de la balanza.

Errores acumulativos: Además, no detectó que dichas esferas estaban equilibradas con la esfera verde en la sub-balanza, llevando a un resultado completamente equivocado que demuestra cómo los errores de interpretación visual se amplifican en el proceso de razonamiento.

El Veredicto: Gemini Flash 2.5 Como Campeón Inesperado

And the winner is... Gemini en su modelo 2.5 Flash.

Este resultado es particularmente significativo porque fue el único modelo que logró resolver el problema de forma completamente correcta sin requerir explicaciones adicionales, y además, lo hizo en su versión gratuita. Esto desafía nuestras percepciones sobre la correlación entre precio y capacidad en el mundo de la inteligencia artificial.

Reflexiones Profundas Sobre el Futuro de la IA

La evolución continua: Hace apenas un par de meses, en una presentación de uno de estos modelos de lenguaje, había observado cómo resolvían un problema de triángulo rectángulo a partir de una imagen, lo cual me sorprendió en su momento. Hoy, después de probar esta capacidad en diferentes LLMs, me sigue asombrando los alcances reales de la inteligencia artificial, pero también sus limitaciones específicas.

El desafío de la interpretación visual: Este experimento revela que la interpretación visual sigue siendo uno de los retos más complejos para la IA. No basta con procesar una imagen; es necesario entender relaciones espaciales, identificar patrones, y traducir información visual en razonamiento lógico coherente.

Aplicaciones más allá del entretenimiento: La pregunta fundamental que surge es: ¿cuándo veremos estas capacidades aplicadas a problemas reales más allá de resolver acertijos por entretenimiento? La respuesta está en entender que cada pequeño avance en interpretación visual y razonamiento lógico nos acerca a aplicaciones en diagnóstico médico, análisis de ingeniería, educación personalizada y resolución de problemas complejos del mundo real.

Tu Momento de Reflexión

¿Qué nos enseña este experimento sobre nuestras expectativas de la IA?

Este análisis comparativo nos demuestra que la inteligencia artificial no es un fenómeno monolítico. Cada modelo tiene fortalezas y debilidades específicas, y el "mejor" modelo depende completamente de la tarea específica que necesitemos resolver.

¿Estás preparado para un futuro donde la elección del modelo correcto sea tan importante como la formulación correcta del problema?

La lección más valiosa no es que un modelo sea superior a otro, sino que debemos desarrollar la sabiduría para saber cuándo y cómo utilizar cada herramienta según sus capacidades específicas. El futuro pertenece a quienes dominen esta distinción fundamental.


@guatecham - Carlos Hugo
8 de julio, 2025

Content is user-generated and unverified.
    Experimento: LLMs vs Álgebra Visual - Versión Corregida | Claude