INNOVACIÓN

Gemini 3.1 Flash TTS: el nuevo modelo de voz con IA de Google

abril 16, 2026

La generación de voz con inteligencia artificial da un nuevo paso con el lanzamiento de Gemini 3.1 Flash TTS, el modelo más reciente de Google enfocado en convertir texto en audio con mayor control sobre la entonación y la expresión.

Disponible en versión preliminar, esta herramienta forma parte del ecosistema de Gemini y ya puede utilizarse a través de su API, además de integrarse en plataformas como Google AI Studio, Vertex AI y Google Vids para usuarios de Workspace.

El objetivo es ofrecer una experiencia de síntesis de voz más cercana a la interpretación humana, con herramientas que permitan ajustar cada detalle del audio generado.

Universidades en México apuestan por IA ante crisis laboral
Más de 200 etiquetas para moldear la voz
Una de las principales novedades del modelo es la incorporación de más de 200 etiquetas de audio, diseñadas para insertarse directamente en el texto de entrada.

Estas etiquetas permiten controlar aspectos como:

Emoción (determinación, curiosidad, entusiasmo)
Estilo de entrega (susurros, risas, énfasis)
Ritmo y acento
Intensidad y matices de la voz
Este sistema introduce lo que la compañía describe como un enfoque “autorial”, en el que los desarrolladores pueden dirigir la interpretación de la voz casi como si se tratara de un guion.

El resultado es un mayor nivel de personalización en aplicaciones como narraciones, asistentes virtuales o contenido audiovisual.

Soporte multilingüe y diálogos más naturales
El modelo también amplía su alcance en términos de idioma. Gemini 3.1 Flash TTS admite más de 70 idiomas, incluyendo opciones como hindi, japonés y alemán, lo que lo posiciona como una herramienta adaptable a mercados globales.

Además, incorpora una función relevante para creadores de contenido: la capacidad de manejar diálogos con múltiples interlocutores de forma nativa. Esto significa que el sistema puede generar conversaciones completas sin necesidad de separar voces mediante múltiples llamadas a la API.

Esta característica apunta directamente a usos como:

Producción de podcasts
Guiones dramatizados
Interfaces conversacionales
Asistentes de voz más dinámicos

El objetivo es mantener un flujo conversacional continuo, evitando interrupciones o inconsistencias en la entonación.

Rendimiento y posicionamiento frente a la competencia
En términos de evaluación, el modelo ha sido medido dentro del clasificador de texto a voz de Artificial Analysis, donde obtuvo una puntuación Elo de 1,211.

Dentro del ranking conocido como Speech Arena Leaderboard, Gemini 3.1 Flash TTS se ubicó en segundo lugar, superando a sistemas como Eleven v3 de ElevenLabs, uno de sus competidores directos en el sector.

Estos resultados lo posicionan como una de las opciones más avanzadas disponibles actualmente en el mercado de síntesis de voz.

Otro de los elementos integrados en el modelo es el uso de SynthID, la tecnología de marca de agua desarrollada por Google.

Esta herramienta permite insertar una señal imperceptible en el audio generado, con el objetivo de identificar contenido creado con inteligencia artificial y contribuir a la prevención de desinformación.

De acuerdo con la compañía, esta marca de agua no afecta la calidad del audio, lo que permite mantener la fidelidad del resultado final sin comprometer su trazabilidad.

Acceso y capacidades técnicas

Gemini 3.1 Flash TTS está disponible para desarrolladores mediante la API de Gemini bajo el identificador gemini-3.1-flash-tts-preview.

Entre sus especificaciones destacan:

8 mil 192 tokens de entrada
16 mil 384 tokens de salida
El lanzamiento se produce semanas después de la llegada de Gemini 3.1 Flash Live, el modelo enfocado en diálogo en tiempo real, lo que refuerza la estrategia de Google por expandir sus capacidades en interfaces basadas en voz.

Un paso más en la evolución de la voz sintética
Con este lanzamiento, Google amplía su presencia en el desarrollo de herramientas de inteligencia artificial orientadas a audio. Gemini 3.1 Flash TTS se enfoca en ofrecer mayor control creativo, integración con plataformas existentes y soporte multilingüe en un solo modelo.

La combinación de personalización, rendimiento técnico y herramientas de identificación de contenido sitúa a esta tecnología como una de las más completas dentro de su categoría en esta etapa inicial de disponibilidad.