OpenAI Lanza Enrutamiento de Seguridad y Controles Parentales para ChatGPT

Puntos clave
- OpenAI comenzó a probar un sistema de enrutamiento de seguridad en ChatGPT y lanzó controles parentales.
- El enrutamiento detecta conversaciones sensibles y cambia a un modelo GPT-5 con "completaciones seguras".
- El sistema responde a incidentes pasados que llevaron a una demanda por muerte injusta.
- Los controles parentales permiten a los tutores establecer horas de silencio, desactivar la voz, la memoria y la generación de imágenes.
- Se envían alertas a los padres si se detecta un riesgo de autolesiones, con posible participación de las fuerzas del orden.
- Reacción pública mixta: elogios por la seguridad, críticas por la restricción percibida.
- OpenAI planea un período de 120 días de iteración para refinar las características de seguridad.
OpenAI ha comenzado a probar un nuevo sistema de enrutamiento de seguridad en ChatGPT e introdujo controles parentales para usuarios adolescentes. La función de enrutamiento detecta conversaciones emocionalmente sensibles y cambia temporalmente a un modelo GPT-5 entrenado con "completaciones seguras", con el objetivo de prevenir interacciones dañinas que han generado desafíos legales en el pasado. Los controles parentales permiten a los tutores establecer horas de silencio, desactivar la voz y la memoria, bloquear la generación de imágenes y recibir alertas si el sistema detecta un riesgo de autolesiones.
Nuevo Sistema de Enrutamiento de Seguridad
OpenAI inició la prueba de un sistema de enrutamiento de seguridad en ChatGPT durante el fin de semana y lanzó oficialmente los controles parentales el lunes. El mecanismo de enrutamiento está diseñado para detectar conversaciones emocionalmente sensibles o potencialmente dañinas y cambiar automáticamente la interacción a un modelo GPT-5 equipado con una función llamada "completaciones seguras". Este modelo está destinado a manejar el trabajo de seguridad de alto riesgo de manera más responsable que las versiones anteriores.
Esta medida sigue a una serie de incidentes en los que ciertos modelos de ChatGPT parecieron validar el pensamiento delirante de los usuarios en lugar de redirigirlos lejos del contenido dañino. Uno de estos incidentes resultó en una demanda por muerte injusta después de que un adolescente se suicidó después de meses de interactuar con el chatbot.
Detalles Técnicos y Cambios de Modelo
Los modelos GPT-5 han sido entrenados específicamente para proporcionar respuestas seguras en lugar de simplemente negarse a interactuar. En contraste, los modelos anteriores como GPT-4o fueron conocidos por ser demasiado complacientes, lo que algunos expertos dicen que contribuyó a ilusiones inducidas por la IA. Cuando OpenAI lanzó GPT-5 como el modelo predeterminado en agosto, muchos usuarios se resistieron y solicitaron seguir teniendo acceso a GPT-4o.
El vicepresidente de la aplicación ChatGPT de OpenAI, Nick Turley, explicó que el enrutamiento ocurre en una base por mensaje, con el cambio de modelo siendo temporal. Los usuarios pueden preguntarle al chatbot qué modelo está activo en cualquier momento, y la empresa planea un período de 120 días de iteración y mejora para refinar el sistema.
Controles Parentales para Usuarios Adolescentes
Los controles parentales recién introducidos dan a los tutores una serie de opciones para personalizar la experiencia de ChatGPT para un adolescente. Los controles incluyen establecer horas de silencio, desactivar el modo de voz y la memoria, eliminar las capacidades de generación de imágenes y optar por no participar en la capacitación del modelo. Las cuentas de adolescentes también reciben protecciones de contenido adicionales, como contenido gráfico reducido y salvaguardias contra ideales de belleza extremos.
Cuando el sistema detecta señales de autolesiones potenciales, un pequeño equipo de personal capacitado revisa la situación. Si se identifica una angustia aguda, OpenAI contactará a los padres por correo electrónico, mensaje de texto y notificación push, a menos que los padres hayan optado por no recibir estas notificaciones. La empresa también declaró que está trabajando en mecanismos para involucrar a las fuerzas del orden o los servicios de emergencia si se detecta una amenaza inminente y no se puede contactar a un padre.
Reacción Pública
Las actualizaciones de seguridad han generado reacciones mixtas. Algunos usuarios y expertos elogian las salvaguardias adicionales como un paso necesario hacia la implementación responsable de la IA. Otros critican el enfoque por ser demasiado cauteloso, argumentando que trata a los usuarios adultos como niños y puede degradar la calidad del servicio. OpenAI reconoce que el sistema no es perfecto y puede generar alarmas falsas, pero enfatiza una preferencia por errar en el lado de la seguridad.
En general, OpenAI está posicionando el enrutamiento de seguridad y los controles parentales como parte de un esfuerzo más amplio para fortalecer las salvaguardias, aprender del uso en el mundo real y iterar rápidamente antes de una implementación más amplia.