Modelos de inteligencia artificial de frontera pierden dinero en apuestas de fútbol, muestra un estudio

Frontier AI models lose money on soccer betting, study shows

Puntos clave

  • El estudio evaluó 9 modelos de inteligencia artificial líderes en una tarea de apuestas de fútbol en una temporada completa.
  • Todos los modelos comenzaron con un banco de £100,000 y terminaron con pérdidas.
  • Anthropic Claude Opus 4.6 perdió lo menos, terminando con £89,035.
  • Google Gemini 3.1 Pro y Flash 3.1 LP experimentaron pérdidas totales en los peores casos.
  • xAI Grok 4.20 y Acree Trinity perdieron todo su banco.
  • Los autores afirman que los benchmarks actuales de inteligencia artificial no reflejan los desafíos del mundo real a largo plazo.
  • Ross Taylor, director ejecutivo de General Reasoning, advirtió contra la publicidad excesiva de la automatización de la inteligencia artificial.

Un nuevo documento de General Reasoning encuentra que los principales modelos de inteligencia artificial, incluidos Anthropic's Claude Opus, OpenAI's GPT y Google's Gemini, todos perdieron dinero cuando se les asignó la tarea de apostar en una temporada completa de partidos de fútbol. Cada sistema comenzó con un banco de £100,000 y terminó con déficits significativos, algunos se agotaron por completo. Los autores afirman que los resultados exponen una brecha entre las afirmaciones impulsadas por la publicidad de la automatización de la inteligencia artificial y el rendimiento en el mundo real en tareas a largo plazo y dinámicas.

General Reasoning publicó un documento que pone a prueba varios modelos de inteligencia artificial de alto perfil en un problema del mundo real: apostar en una temporada de partidos de fútbol. El estudio dio a cada modelo un banco normalizado de £100,000 y lo dejó hacer apuestas en tres intentos simulados. Todos los sistemas perdieron dinero, y unos cuantos se agotaron por completo.

Anthropic's Claude Opus 4.6 registró la menor pérdida, con un retorno promedio de la inversión (ROI) de –11,0 por ciento. Su mejor intento apenas alcanzó el equilibrio en –0,2 por ciento, mientras que el peor vio una caída de –18,8 por ciento, dejando un banco final de £89,035. OpenAI's GPT obtuvo un resultado peor, con un ROI promedio de –13,6 por ciento y terminando con £86,365 después de su peor carrera, que se hundió 31,6 por ciento.

La serie Gemini de Google obtuvo un resultado dramáticamente peor. Gemini 3.1 Pro registró un ROI promedio de –43,3 por ciento, pero logró una ganancia de +33,7 por ciento en su ensayo más exitoso antes de una pérdida total en su peor, terminando con £56,715. El Gemini Flash 3.1 LP más ligero registró un ROI promedio de –58,4 por ciento, con un mejor caso de aumento de 24,7 por ciento y un banco final de £41,605 después de un agotamiento completo en otro ensayo.

Otros contendientes lucharon aún más. Z.AI's GLM-5 registró un ROI de –58,8 por ciento, terminando con £41,221. Moonshot's Kimi K2.5 registró una pérdida promedio de –68,3 por ciento y terminó con solo £7,420. Tanto xAI's Grok 4.20 como Acree's Trinity no lograron sobrevivir a ninguno de los tres intentos, cada uno terminando con un banco de £0.

"Hay mucha publicidad sobre la automatización de la inteligencia artificial, pero no hay mucha medición de la implementación de la inteligencia artificial en un entorno de horizonte a largo plazo", dijo Ross Taylor, director ejecutivo de General Reasoning y coautor del documento. Agregó que muchos benchmarks existentes prueban la inteligencia artificial en entornos estáticos que no reflejan el caos de la toma de decisiones en el mundo real.

Los autores argumentan que, si bien la inteligencia artificial ha hecho avances impresionantes en tareas como la generación de código, su rendimiento en actividades complejas y dinámicas sigue sin probarse. "Si se intenta la inteligencia artificial en algunas tareas del mundo real, funciona muy mal", señaló Taylor. "La ingeniería de software es muy importante y económicamente valiosa, pero hay muchas otras actividades con horizontes más largos que son importantes de considerar".

Los hallazgos de General Reasoning, que aún no han pasado la revisión por pares, proporcionan un contrapunto sobrio a la optimismo que a menudo rodea los avances de la inteligencia artificial. El estudio sugiere que las empresas y los profesionales deben moderar sus expectativas al considerar la inteligencia artificial para la toma de decisiones a largo plazo y de alto riesgo.

#artificial intelligence#machine learning#sports betting#soccer#AI model performance#General Reasoning#Ross Taylor#Anthropic#OpenAI#Google#xAI#Moonshot#Z.AI

También disponible en:

Modelos de inteligencia artificial de frontera pierden dinero en apuestas de fútbol, muestra un estudio | AI News