Modelos de inteligencia artificial de frontera pierden dinero en apuestas de fútbol, muestra un estudio

Un nuevo documento de General Reasoning encuentra que los principales modelos de inteligencia artificial, incluidos Anthropic's Claude Opus, OpenAI's GPT y Google's Gemini, todos perdieron dinero cuando se les asignó la tarea de apostar en una temporada completa de partidos de fútbol. Cada sistema comenzó con un banco de £100,000 y terminó con déficits significativos, algunos se agotaron por completo. Los autores afirman que los resultados exponen una brecha entre las afirmaciones impulsadas por la publicidad de la automatización de la inteligencia artificial y el rendimiento en el mundo real en tareas a largo plazo y dinámicas.

General Reasoning publicó un documento que pone a prueba varios modelos de inteligencia artificial de alto perfil en un problema del mundo real: apostar en una temporada de partidos de fútbol. El estudio dio a cada modelo un banco normalizado de £100,000 y lo dejó hacer apuestas en tres intentos simulados. Todos los sistemas perdieron dinero, y unos cuantos se agotaron por completo.

Anthropic's Claude Opus 4.6 registró la menor pérdida, con un retorno promedio de la inversión (ROI) de –11,0 por ciento. Su mejor intento apenas alcanzó el equilibrio en –0,2 por ciento, mientras que el peor vio una caída de –18,8 por ciento, dejando un banco final de £89,035. OpenAI's GPT obtuvo un resultado peor, con un ROI promedio de –13,6 por ciento y terminando con £86,365 después de su peor carrera, que se hundió 31,6 por ciento.

La serie Gemini de Google obtuvo un resultado dramáticamente peor. Gemini 3.1 Pro registró un ROI promedio de –43,3 por ciento, pero logró una ganancia de +33,7 por ciento en su ensayo más exitoso antes de una pérdida total en su peor, terminando con £56,715. El Gemini Flash 3.1 LP más ligero registró un ROI promedio de –58,4 por ciento, con un mejor caso de aumento de 24,7 por ciento y un banco final de £41,605 después de un agotamiento completo en otro ensayo.

Otros contendientes lucharon aún más. Z.AI's GLM-5 registró un ROI de –58,8 por ciento, terminando con £41,221. Moonshot's Kimi K2.5 registró una pérdida promedio de –68,3 por ciento y terminó con solo £7,420. Tanto xAI's Grok 4.20 como Acree's Trinity no lograron sobrevivir a ninguno de los tres intentos, cada uno terminando con un banco de £0.

"Hay mucha publicidad sobre la automatización de la inteligencia artificial, pero no hay mucha medición de la implementación de la inteligencia artificial en un entorno de horizonte a largo plazo", dijo Ross Taylor, director ejecutivo de General Reasoning y coautor del documento. Agregó que muchos benchmarks existentes prueban la inteligencia artificial en entornos estáticos que no reflejan el caos de la toma de decisiones en el mundo real.

Los autores argumentan que, si bien la inteligencia artificial ha hecho avances impresionantes en tareas como la generación de código, su rendimiento en actividades complejas y dinámicas sigue sin probarse. "Si se intenta la inteligencia artificial en algunas tareas del mundo real, funciona muy mal", señaló Taylor. "La ingeniería de software es muy importante y económicamente valiosa, pero hay muchas otras actividades con horizontes más largos que son importantes de considerar".

Los hallazgos de General Reasoning, que aún no han pasado la revisión por pares, proporcionan un contrapunto sobrio a la optimismo que a menudo rodea los avances de la inteligencia artificial. El estudio sugiere que las empresas y los profesionales deben moderar sus expectativas al considerar la inteligencia artificial para la toma de decisiones a largo plazo y de alto riesgo.

Modelos de inteligencia artificial de frontera pierden dinero en apuestas de fútbol, muestra un estudio

Puntos clave

También disponible en: