Google Photos lanza edición de voz y texto con inteligencia artificial en Android

Google ha introducido una función de edición impulsada por inteligencia artificial en Google Photos para usuarios de Android. Utilizando el modelo Gemini, la herramienta permite a los usuarios describir los cambios deseados a través de voz o texto, manejando tareas desde ajustes básicos de iluminación hasta la eliminación avanzada de objetos y mejoras creativas.

Función de edición de inteligencia artificial presentada

Google anunció que los usuarios de Android ahora pueden editar fotos en Google Photos utilizando inteligencia artificial. La nueva capacidad permite a los usuarios describir los cambios que desean mediante comandos de voz o texto en lenguaje natural. Al hacer clic en "Ayúdame a editar", los usuarios pueden solicitar al modelo Gemini que ajuste la iluminación, elimine distracciones, elimine objetos de fondo, restaure imágenes antiguas o incluso agregue elementos generados por inteligencia artificial imaginativos. El sistema también ofrece ediciones sugeridas y admite solicitudes de seguimiento, lo que permite afinar los resultados.

Cómo funciona la interacción

La interfaz acepta comandos de voz o entrada de texto, lo que permite a los usuarios que no estén familiarizados con herramientas de edición tradicionales lograr resultados deseados rápidamente. Los usuarios pueden simplemente decir o escribir "mejóralo", o proporcionar instrucciones más específicas como "ilumina el cielo" o "elimina la línea de energía". La inteligencia artificial interpreta la solicitud, aplica la edición y presenta la imagen actualizada para ajustes adicionales si es necesario.

Fundamentos técnicos

La función está impulsada por el modelo Gemini de Google, que se introdujo por primera vez en los teléfonos Pixel 10 en los Estados Unidos. Si bien el motor Gemini se lanzó inicialmente en esos dispositivos, Google ha ampliado su disponibilidad al ecosistema Android más amplio. Además de las capacidades de edición, la actualización incluye compatibilidad con credenciales de contenido C2PA, que etiquetan las imágenes creadas o alteradas con inteligencia artificial, lo que ayuda a los usuarios a identificar el contenido generado por inteligencia artificial.

Lanzamiento y elegibilidad

Al lanzar, las herramientas de edición de inteligencia artificial están disponibles para usuarios de 18 años o más que se encuentran en los Estados Unidos y utilizan la versión en inglés de la aplicación. La función se está implementando en teléfonos Android más allá de la línea Pixel 10, extendiendo la funcionalidad a una audiencia más amplia de usuarios de Google Photos.

Ediciones sugeridas y solicitudes de seguimiento

La inteligencia artificial también presenta un conjunto de sugerencias pregeneradas que los usuarios pueden seleccionar con un solo toque, brindando opciones de mejora rápida para problemas comunes. Después de una edición inicial, los usuarios pueden emitir solicitudes de seguimiento, como "aumenta el contraste un poco más" o "elimina el defecto de la izquierda", y el sistema refinará la imagen en consecuencia. Este enfoque iterativo imita un flujo de trabajo conversacional, reduciendo la necesidad de ajustes de control deslizante manual.

Implicaciones para los usuarios

Al simplificar ediciones complejas a través de la interacción conversacional, Google busca hacer que la mejora de fotos sea más accesible. La capacidad de solicitar cambios avanzados, como la eliminación de objetos o adiciones creativas, sin navegar por menús podría fomentar un uso más frecuente de las funciones de edición y ampliar la expresión creativa entre los fotógrafos casuales.

Mirando hacia adelante

La integración de Gemini en Google Photos señala un impulso más amplio para integrar inteligencia artificial generativa en los servicios de consumo de la empresa. Al combinar la edición de inteligencia artificial con metadatos de credenciales de contenido, la empresa aborda tanto la conveniencia creativa como la transparencia sobre los medios generados por inteligencia artificial. Si bien el lanzamiento actual está limitado a los Estados Unidos y a los hablantes de inglés, la funcionalidad puede expandirse a regiones y idiomas adicionales a medida que la tecnología madura.