El Nuevo Plan de Google para Verificar los Estándares Éticos de la Inteligencia Artificial

Puntos clave
- Las pruebas actuales de ética de la inteligencia artificial miden las respuestas superficiales, no la comprensión moral subyacente.
- Los grandes modelos de lenguaje predicen texto basado en patrones, careciendo de módulos de razonamiento moral dedicados.
- Tres desafíos clave identificados: problema de facsímil, multidimensionalidad y pluralismo cultural.
- Las pruebas adversarias propuestas incluyen escenarios éticos novedosos y tareas de cambio de marco.
- Las comprobaciones de robustez implican cambios menores en la redacción para asegurar juicios morales consistentes.
- DeepMind llama a colaboraciones globales, culturalmente específicas para mejorar la seguridad de la inteligencia artificial.
- Hasta que se adopten pruebas rigurosas, el asesoramiento de la inteligencia artificial debe ser visto como predicción estadística, no como orientación moral genuina.
Google está impulsando un nuevo enfoque para evaluar si los sistemas de inteligencia artificial realmente entienden el razonamiento moral. Los investigadores de DeepMind argumentan que las pruebas actuales solo miden cómo bien un modelo imita el lenguaje ético, no si comprende los principios morales subyacentes.
Reevaluando la Evaluación Moral para la Inteligencia Artificial
Google está abogando por un cambio fundamental en la forma en que se evalúan los sistemas de inteligencia artificial para el comportamiento ético. El paradigma actual se centra en si un modelo puede producir respuestas que parecen correctas, una métrica que los investigadores se refieren como "desempeño moral". Sin embargo, este enfoque no revela si el sistema realmente entiende las razones detrás de un juicio moral.
Análisis de DeepMind de las Limitaciones Existentes
Los científicos de DeepMind explican que los grandes modelos de lenguaje funcionan como predictores de tokens, basándose en patrones estadísticos de grandes conjuntos de datos de entrenamiento. Debido a que carecen de módulos de razonamiento moral dedicados, sus salidas pueden simplemente reflejar patrones existentes en lugar de reflejar un análisis ético genuino. Este "problema de facsímil" significa que una respuesta aparentemente reflexiva podría ser el resultado de la coincidencia de patrones en lugar de razonamiento.
Además, las decisiones del mundo real a menudo involucran múltiples valores en competencia, como la honestidad versus la amabilidad o el costo versus la equidad. Las evaluaciones actuales rara vez prueban si la inteligencia artificial puede reconocer y equilibrar estas dimensiones, una deficiencia denominada "multidimensionalidad moral". Finalmente, los estándares morales difieren a través de culturas y dominios profesionales, un desafío etiquetado como "pluralismo moral". Un sistema que ofrece una respuesta universal puede no respetar las nuances culturales o los códigos específicos de la industria.
Propuesta de Hoja de Ruta para la Competencia Moral Genuina
DeepMind propone una serie de pruebas adversarias diseñadas para exponer la imitación superficial. Una sugerencia implica presentar escenarios poco probables de aparecer en los datos de entrenamiento, como un caso complejo de donación de esperma intergeneracional. Si un modelo rechaza el escenario basado en una regla simplista, indica la coincidencia de patrones; si navega las consideraciones éticas matizadas, demuestra una competencia más profunda.
Otra recomendación es requerir que la inteligencia artificial cambie entre marcos éticos distintos, como la ética biomédica versus las reglas militares, y proporcione respuestas coherentes alineadas con cada uno. Las pruebas también deben evaluar cómo los pequeños cambios en la redacción o la etiqueta afectan el juicio del modelo, asegurando la robustez contra variaciones triviales.
Implicaciones para la Implementación de la Inteligencia Artificial
La hoja de ruta enfatiza que, sin pruebas rigurosas y culturalmente conscientes, implementar la inteligencia artificial en contextos de alto riesgo, como el asesoramiento médico, la terapia o la recomendación de políticas, sigue siendo riesgoso. Se insta a los desarrolladores a financiar colaboraciones globales que creen evaluaciones culturalmente específicas y a diseñar puntos de referencia que puedan diferenciar de manera confiable el razonamiento moral genuino de la imitación estadística.
Aunque los estándares propuestos son exigentes, tienen como objetivo establecer una base científica para la competencia moral comparable a la forma en que se miden las habilidades matemáticas. Hasta que los sistemas de inteligencia artificial puedan pasar consistentemente estas pruebas más rigurosas, los usuarios deben reconocer que los chatbots actuales proporcionan predicciones estadísticas en lugar de orientación ética auténtica.