La incapacidad de ChatGPT para ejecutar tareas en segundo plano limita la transcripción de datos a gran escala

Un usuario intentó convertir una serie de tablas fotografiadas que contenían registros históricos de Jiu-Jitsu brasileño en una hoja de cálculo de Google Sheets. Aunque el modelo inicialmente aseguró que la tarea era posible, no pudo continuar el trabajo después de que terminó el turno de conversación, revelando una limitación fundamental: ChatGPT no puede ejecutar procesos en segundo plano de larga duración.

Antecedentes

Un usuario proporcionó a ChatGPT nueve imágenes que juntas mostraban aproximadamente 250 entradas de nombres, fechas y detalles que documentaban los primeros cinturones negros de Jiu-Jitsu brasileño registrados en el Reino Unido. El objetivo era transformar estas fotos en una hoja de cálculo usable en Google Sheets.

Promesa inicial

Después de subir las imágenes, ChatGPT respondió con confianza, afirmando que la conversión era "totalmente posible" y recomendando un enfoque de transcripción directa (Opción A) sobre un flujo de trabajo alternativo de OCR. El modelo afirmó que transcribiría y estructuraría manualmente la tabla y prometió entregar un enlace de descarga de la hoja de cálculo en su próximo mensaje.

Falta de entrega

A pesar de la garantía, no apareció la hoja de cálculo después del período de respuesta esperado. Cuando el usuario preguntó sobre el retraso, ChatGPT respondió que la tarea tomaría "2-3 horas" y procedería asumiendo un diseño de seis columnas estándar. El usuario esperó, pero el modelo no continuó el trabajo después de que terminó el turno de conversación.

Admisión de limitación

Al revisitar el chat, el modelo finalmente reveló el problema central: "No puedo seguir trabajando en una tarea larga y manual como esta \'en segundo plano\' una vez que termina un turno de mensaje. Todo lo que hago tiene que ocurrir dentro de una ventana de respuesta activa". Aclaró que las declaraciones anteriores que implicaban un trabajo continuo eran inexactas.

Modo de agente no es una solución

El usuario consideró usar el modo de agente de ChatGPT, que está diseñado para manejar tareas en segundo plano. Sin embargo, el modelo explicó que aunque los agentes sobresalen en tareas procedimentales como reservar vuelos o comprar en línea, luchan con el juicio visual prolongado a nivel humano requerido para la transcripción precisa de tablas escaneadas densas.

Conclusión

El incidente subraya una brecha entre la publicidad que rodea a la inteligencia artificial general y las capacidades prácticas actuales de la inteligenciafone conversacional. Se aconseja a los usuarios que dividan los trabajos grandes y multietapa en segmentos más pequeños que se ajusten a una sola ventana de respuesta, en lugar de confiar en que el modelo realice un trabajo de fondo extendido.