Si por algo han destacado los Pixel 2 y Pixel 2 XL de Google ha sido por su excelente cámara y su sorprendente capacidad para conseguir el modo retrato vía software con una sola lente, sin necesidad de un segundo sensor como hacen otros fabricantes. Ahora, Google ha dado un paso clave para la comunidad: ha liberado el código de una herramienta fundamental que hace posible este efecto de desenfoque de fondo tipo bokeh mediante fotografía computacional e inteligencia artificial.
Google libera el código fuente de una herramienta clave para el modo retrato del Pixel 2
![]()
Las cámaras de los Google Pixel 2 y Google Pixel 2 XL fueron consideradas durante mucho tiempo referencia absoluta en fotografía móvil Android. A pesar de contar única y exclusivamente con una lente trasera, el teléfono de Google batía a muchos de sus rivales en el terreno fotográfico, incluidos modelos con doble cámara. Una de sus principales virtudes era que, sin recurrir a un segundo sensor, era capaz de lograr fotografías en modo retrato desde Google Fotos vía software, tanto con la cámara trasera principal como con la cámara frontal para selfies.
Además, el sistema conseguía todo esto sin necesidad de activar de forma constante el chip gráfico especial de estos teléfonos, lo que despertó el interés de muchos desarrolladores y dio lugar a múltiples proyectos para portear la app de Cámara de Google a otros móviles, como por ejemplo el Xiaomi Mi A1 y otros terminales muy populares en la comunidad de Android y a explorar otras apps de modo retrato.
Ahora, Google se ha decidido a liberar parte del código fuente que hace esto posible. Es preciso señalar que no se ha liberado el código fuente completo del modo retrato en sí, sino que se ha publicado el código fuente de la herramienta de segmentación de imagen que lo hace posible. Por tanto, queda en manos de los desarrolladores y fabricantes el trabajo de replicar y adaptar este efecto mediante software y aprender a aplicar el efecto bokeh, ya que Google no ofrece un modo retrato empaquetado listo para usar, sino la tecnología base para construirlo.
Esta apertura del código implica que cualquier empresa, marca o desarrollador independiente puede estudiar cómo funciona la segmentación semántica usada por Google, integrarla en sus propios proyectos e incluso intentar mejorarla. Según la filosofía de la compañía, al compartir esta tecnología se fomenta que la comunidad aporte nuevos usos, mejoras de precisión y aplicaciones más allá de la fotografía móvil tradicional.

Segmentación semántica de imagen: la base del modo retrato por software
Segmentación Semántica de Imagen. Esta es la clave para conseguir el modo retrato vía software de los móviles de Google. Lo que esto significa es que la fotografía se separa en diferentes planos con significado, y que utilizando inteligencia artificial y machine learning se consigue separar las partes relevantes de la escena. Los perros se identifican como perros, las personas como personas, los coches como coches, etc. Para lograr este objetivo es necesario determinar de forma muy precisa las figuras de los elementos fotografiados y separarlos del fondo.
El proceso no se limita solo a distinguir entre sujeto y fondo; el modelo es capaz de reconocer detalles muy finos como el pelo, los labios, las orejas o los bordes de la ropa, algo crítico para que el desenfoque no tenga recortes extraños. Esta comprensión semántica va mucho más allá de un simple análisis de profundidad: el algoritmo interpreta qué hay en cada píxel y lo etiqueta con una categoría lógica.
Tenéis un ejemplo de este comportamiento en la siguiente imagen:
En este tipo de esquema se aprecia cómo el sistema de Google es capaz de generar un mapa de segmentación en el que cada área de la fotografía queda asociada a un tipo de objeto. A partir de ese mapa, el software aplica el desenfoque de fondo solo donde corresponde, conservando con nitidez el primer plano y evitando que el sujeto se mezcle con el entorno, incluso cuando hay elementos complejos como ramas, pelo rizado o fondos con muchos detalles.
Frente al modo retrato tradicional de muchos móviles con doble cámara -que se apoya en un sensor telefoto para recoger información extra y suele introducir ruido o pérdida de calidad al combinar las imágenes-, la propuesta de Google se basa casi por completo en cálculo algorítmico. Esto evita tener que depender de un segundo sensor de peor calidad y reduce los problemas típicos de recorte erróneo alrededor de los bordes del sujeto.
DeepLab-v3+: el modelo que Google ha abierto a la comunidad
El modelo de Segmentación Semántica de Imagen más actualizado y la herramienta que está liberando Google se llama DeepLab-v3+. Se trata de una plataforma de segmentación de imágenes creada con redes neuronales convolucionales (CNN), un método de machine learning especialmente eficaz para analizar datos visuales y extraer patrones complejos en fotografías.
DeepLab-v3+ analiza los datos visuales de una escena para determinar qué objetos están presentes y separarlos en capas. Una vez identificados, el siguiente paso es dividir los elementos de primer plano de los elementos del fondo. Esta tarea es relativamente sencilla cuando se tienen dos sensores de imagen que aportan información de profundidad, pero cuando solo se dispone de una cámara es la inteligencia artificial la que tiene que hacer todo el trabajo de deducción.
Lo impresionante de todo este proceso es que el análisis y la separación se realizan en cuestión de segundos, directamente en el dispositivo y sin que el usuario perciba un retraso excesivo al hacer la foto. El resultado son retratos con un fondo difuminado y un sujeto en primer plano con una apariencia muy cercana a lo que se conseguiría con lentes de cámaras profesionales, pero usando únicamente el móvil.
Junto a este modelo, Google también va a distribuir otras herramientas relacionadas con el procesamiento de imagen y la interpretación semántica, pero más allá de nombres y versiones concretas, todas están dirigidas a mejorar este efecto de desenfoque selectivo y la separación inteligente de elementos de una fotografía. La esperanza de Google es que, al liberar el código, el desarrollo siga vivo y se produzcan mejoras constantes por parte de toda la comunidad.
Ingenieros de Google como Liang-Chieh Chen y Yukun Zhu han explicado que las herramientas basadas en deep learning han avanzado de manera notable en los últimos años, hasta el punto de permitir niveles de precisión en segmentación de imágenes que antes eran impensables. Precisamente por esta madurez tecnológica, la compañía considera que es el momento de abrir estas herramientas a todos y favorecer que más personas se interesen por estas tareas, llevándolas a niveles de mejora todavía mayores.
Impacto en la fotografía móvil y oportunidades para desarrolladores
La liberación del código de DeepLab-v3+ supone que, desde este momento, cualquier desarrollador puede hacer uso de la herramienta e incorporarla en sus proyectos, aplicaciones o dispositivos. No garantiza que vayamos a ver de inmediato smartphones o apps capaces de ofrecer retratos con la misma calidad que los Pixel 2, pero sí abre la puerta a que otros fabricantes alcancen un nivel muy similar si son capaces de integrar y optimizar bien esta tecnología.
Esto también significa que la inteligencia artificial aplicada a la cámara, que hasta ahora era una de las bazas más exclusivas de Google, puede empezar a aparecer en cámaras de terceros e incluso en modo retrato en videollamadas. Los fabricantes podrán aprovechar este código para mejorar el recorte de sujetos, reducir errores en los bordes y mantener una calidad de imagen alta incluso al aplicar modos creativos de desenfoque.
Para los usuarios avanzados y la comunidad de desarrollo independiente, se abre una gran oportunidad: adaptar estas técnicas a ports de la cámara de Google, crear aplicaciones específicas de modo retrato o incluso experimentar con usos alternativos, como sustitución de fondos, editar el desenfoque en Google Photos, efectos artísticos selectivos o herramientas de edición en tiempo real en otras plataformas.
También es relevante el impacto a nivel de investigación. Al compartir el código, Google anima a que otros equipos de trabajo lo utilicen como base para comparar modelos, proponer mejoras y explorar nuevos enfoques de segmentación semántica, no solo en móviles, sino también en ámbitos como la realidad aumentada, la visión artificial para robots o la edición de vídeo.
Con la cámara del Pixel 2, Google demostró que la doble cámara no era imprescindible para lograr un modo retrato de calidad y que la auténtica revolución estaba en la fotografía computacional. Al liberar el código de DeepLab-v3+, esta filosofía sale del ecosistema Pixel y pasa a estar al alcance de cualquier desarrollador decidido a llevar el modo retrato por software a nuevos dispositivos y a elevar el listón de la fotografía móvil en todo el ecosistema Android.
