Hasta ahora tú ya podías transcribir a texto lo que dictabas con tu voz con Gboard con el dictado por voz, pero ahora la cosa ha cambiado para los usuarios de los teléfonos Pixel. Google ha llevado la transcripción por voz un paso más allá con funciones avanzadas que funcionan en tiempo real y directamente en el dispositivo. ¿Cómo exactamente? ¿Cuáles son los cambios? Lee atentamente.
Hasta ahora para transcribir el texto tenías que tener conexión a Internet y la velocidad, si bien no es nada despreciable, quizás no es todo lo rápida que nos gustaría. Pero ahora en los teléfonos Pixel, podremos tener la transcripción incorporada en el dispositivo… y eso abre la puerta a funciones como subtítulos automáticos, traducción en tiempo real y grabadoras inteligentes que no dependen de la nube.
Transcripción en el dispositivo. ¿Qué me aporta?

A priori puede parecer que no tiene mucha importancia, pero no es así. Para empezar, y si sois un poco avispados ya os habréis dado cuenta, no necesitaremos Internet para poder usar la transcripción por voz, así que si estamos en un sitio sin conexión pero queremos escribir rápido una nota o algo parecido, podremos hacerlo sin problemas.
Además, la transcripción por voz en tiempo real de los Pixel no se limita a dictar texto en Gboard. Google integra estas capacidades en diferentes partes del sistema: desde la app de Teléfono con traducción de llamadas, hasta los subtítulos automáticos de cualquier contenido multimedia o la app de Transcripción instantánea para accesibilidad.
Pero no se quedan aquí las mejoras, es que además la velocidad de transcripción será más rápida. Hasta ahora, y al estar conectado a Internet, sufrías la latencia que tenía enviar el texto a los servidores de Google y que volviera, ahora, al tenerlo integrado en el dispositivo la velocidad aumentará de forma exponencial y obtendrás texto prácticamente al mismo ritmo al que hablas.
Otra ventaja clave es la privacidad. Cuando el reconocimiento y la transcripción se hacen en el propio teléfono, el audio no tiene por qué salir del dispositivo para convertirse en texto, algo especialmente importante en conversaciones sensibles, llamadas profesionales o documentos de trabajo.
Además se ha mejorado intensamente el peso de esta mejora, pesa 85MB, que aunque para tu teléfono Android te pueda parecer bastante, versiones anteriores habían pesado 450MB e incluso 2GB. Ese tamaño más contenido permite descargar modelos de voz sin ocupar tanto espacio, a la vez que se mantienen una buena precisión y soporte para varios idiomas.
¿A qué se debe esta mejora?

Pues esta novedad se debe a lo que ahora está en boca de todos, la Inteligencia Artificial. Así es, la IA ha permitido poder usar offline esta opción. Y es que aunque en un principio podía parecer que no aportaba mucho a los teléfonos móviles, está claro que la dirección que tomará la telefonía móvil va hacia modelos de IA locales capaces de entender voz, texto y contexto sin depender de la nube.
El modelo de machine learning de la grabadora de los Pixel, por ejemplo, se basa en el sistema de reconocimiento de voz que Google implementó en Gboard. Este sistema utiliza la tecnología RNN Transducer, que permite llevar toda la inteligencia artificial al dispositivo y ejecutarla en local carácter a carácter, de forma similar a como escribes en el teclado.
Estos modelos indexan las conversaciones por palabras, lo que permite al usuario pulsar en cualquiera de las palabras de la transcripción y escuchar exactamente la parte de la grabación donde se pronunció. Al mismo tiempo, el sistema puede detectar audio contextual como aplausos, risas o música, marcándolo visualmente durante la grabación para que sea fácil localizar esos momentos.
Aunque lo que realmente esperamos con muchas ganas por el momento es que esta novedad llegue a todos los teléfonos Android en breves, puesto que ahora solo está disponible, como hemos dicho, para los teléfonos Pixel y algunos dispositivos Android concretos con versiones recientes del sistema.
Así que si tienes un Google Pixel, Google Pixel 2 o Google Pixel 3 (o sus respectivas versiones XL, por supuesto) ya puedes correr a las opciones de tu Gboard ir a Voice Typing > Faster Voice Typing. En modelos más recientes encontrarás además ajustes específicos de accesibilidad y de traducción instantánea que aprovechan estos mismos modelos de IA para ofrecer subtítulos, traducción de llamadas y mucho más, siempre priorizando que el procesamiento se haga en el dispositivo.
Bueno no vayas tan rápido, puesto que de momento solo está disponible para inglés americano. Si tienes el teléfono en este idioma sin problemas, pero si lo tienes en español o en algún otro idioma, de nuevo, nos tocará esperar. Con el tiempo, Google va incorporando nuevos idiomas tanto para dictado como para transcripción offline y funciones de accesibilidad, así que conviene revisar periódicamente los ajustes de idioma y las actualizaciones del sistema.
¿Ganas de que llegue?
La evolución de estas funciones también se ve en herramientas como Transcripción instantánea o los subtítulos automáticos. Con Transcripción instantánea puedes captar voces y sonidos y verlos en formato de texto en la pantalla, y en algunos modelos Pixel incluso descargar idiomas para usar sin conexión. Puedes gestionar el historial de transcripciones, copiar fragmentos concretos, buscar palabras dentro de la conversación, ocultar sonidos no verbales o pausar la transcripción para leer más cómodamente.
Por otro lado, la función de subtítulos automáticos en los Pixel te permite ver en texto lo que se dice en vídeos, pódcasts, llamadas, videollamadas o mensajes de audio. Puedes activarla desde Ajustes > Accesibilidad o directamente desde los controles de volumen. Esta opción es especialmente útil cuando estás en lugares donde no puedes subir el volumen, cuando el audio está en otro idioma o si tienes problemas de audición.
La integración de voz e IA en los Pixel también llega a las llamadas. Funciones como la traducción de voz en tiempo real o servicios tipo Take a Message ofrecen traducción directa de lo que dice la otra persona o transcripción en tiempo real de los mensajes que dejan cuando no puedes contestar. Todo ello se ejecuta en el propio teléfono, de modo que las conversaciones no se envían a los servidores de Google y se mantienen privadas.
Algo parecido sucede con la grabadora de los Pixel, cuya descarga del APK del Google Recorder permite instalar un modelo de machine learning para transcribir las grabaciones y detectar eventos de audio. Este modelo combina redes neuronales convolucionales con una gran base de datos de audios llamada AudioSet, con miles de horas de ejemplos etiquetados en cientos de categorías. Gracias a ello puede diferenciar entre voz, música, aplausos u otros sonidos y sugerir incluso palabras clave representativas para titular tus grabaciones.
Todo este conjunto de funciones demuestra que la transcripción por voz en tiempo real en teléfonos Pixel no es solo dictar texto más rápido. Es un ecosistema completo de herramientas para entender, traducir y aprovechar mejor el audio de tu día a día, desde tomar notas sin usar las manos hasta seguir una conferencia, traducir una llamada o revisar un mensaje importante sin tener que escucharlo.