TecnoConocimientoAccesible: Gemini 2.5 Speech Generation, Voces (IA) super realistas!

Hola gente, ¿qué tal les va?

Muy atentos, nueva función de Gemini 2.5: Native Speech Generation!

Pero ¿Qué es Native Speech Generation?

En mayo de 2025, Google presentó en su evento I/O una de sus funciones más destacadas: la generación nativa de voz (Native Speech Generation), integrada en Gemini 2.5 y disponible directamente desde Google AI Studio.

Native Speech Generation es una tecnología de texto a voz (TTS) que permite convertir texto en audio de forma natural, expresiva y personalizable. No solo transforma el texto en voz, sino que lo hace controlando el estilo, el tono y las emociones mediante instrucciones escritas en lenguaje natural. Por ejemplo, puedes pedir que la voz suene “alegre”, “seria”, “susurrando” o con un acento específico.

Además, ofrece dos modos de generación:

•

Single-speaker: la narración completa es realizada por una sola voz.

•

Multi-speaker: permite combinar hasta dos voces diferentes en un mismo audio, ideal para diálogos, podcasts o narraciones más dinámicas.

Principales ventajas

•

Calidad de audio en alta definición y baja latencia, ideal para respuestas en tiempo real.

•

Narraciones naturales: con pausas, ritmo y entonación similares al habla humana.

•

Aplicaciones accesibles: mejora la lectura de contenido para personas con discapacidad visual.

•

Multilingüe y con variedad de acentos, adaptado a un mundo global.

•

Integración directa en el flujo de trabajo dentro de Google AI Studio, sin necesidad de herramientas externas.

¿Por qué es tan relevante?

A diferencia de las voces robóticas del pasado, esta tecnología logra un nivel de realismo impresionante. Gracias al uso de redes neuronales avanzadas y aprendizaje profundo, las voces no solo suenan claras, sino también humanas y emocionales. Esto abre un mundo de posibilidades para desarrolladores, creadores de contenido, educadores y proyectos inclusivos.

Hoy te vamos a enseñar, como utilizar esta fantástica herramienta, de forma sencilla, accesible y totalmente gratuita.

¿Qué necesitamos para utilizar: Native Speech Generation?

Solo necesitaremos:

• Una cuenta de Google (Gmail).

• Un navegador de internet (mejor los basados en chromium).

• Conexión a internet.

Tutorial: Gemini 2.5 Speech Generation, Voces (IA) super realistas!

En este tutorial les mostraré:

• Recomendación de que, navegadores utilizar para que este servicio (Native Speech Generation) funcione de forma correcta.

• Como llegar mas rápido al botón: Native Speech Generation, en Google AI Studio.

• Como convertir de texto a voz (TTS) en el modo Single Speaker Audio (una sola voz o persona).

• Como darle las instrucciones para que la voz se comporte o tenga las inflexiones que nosotros le indiquemos.

• Como escribir, o pegar el texto del diálogo que deseamos que convierta Speech Generation.

• Como seleccionar el modelo de Gemini a utilizar para la conversión TTS.

• Como seleccionar una voz.

• Como lanzar la conversión (Run Prompt).

• Como descargar el archivo de audio resultante de la conversión de texto a voz con: Speech Generation.

• Como crear un diálogo con Speech Generation (modo Multi Speaker Audio).

• Muestra de como estructurar el texto, para que Gemini Speech Generation, lo interprete como un diálogo entre dos personas.

• Como colocar el texto que queremos convertir a voz (en el Speaker 1).

• Como cambiar el nombre del Speaker 1 y el Speaker 2.

• Como seleccionarlas voces 1 y la 2.

• Ejecución, muestra del diálogo, descarga del audio resultante.

La descarga.

Les dejaré en la descarga:

• El audio tutorial (en los canales Odysse y YouTube estará en video tutorial).

• Link a la web de: Google AI Studio.

Espero disfruten de este fantástico servicio de Google que sigue creciendo en cuestión de inteligencia artificial.

Estas voces, y generar estos diálogos es de lo más realista que habíamos podido conocer en materia de TTS. Espero le saquen todo el partido, seguramente así será.

Y ya sabes, Si te gusta este contenido,

Apóyanos haciendo una donación:

Dona aquí en PayPal.

compártelo en: Facebook, X.

Deja un comentario sobre esta entrada.

Síguenos en X:

Abajo tienes el botón.

Ahora puedes seguirnos también en Facebook:

Entra aquí a nuestro Facebook.

Suscríbete al blog:

Ahora puedes unirte a nuestros grupos de WhatsApp o Telegram:

Puedes escribir al mail del blog con tus datos si deseas ingresar a los mismos.

Escucha todos nuestros audio tutoriales, cómodamente:

Entrando desde aquí, a nuestro canal en YouTube.

Ahora también, en nuestro canal en Odysse:

Entra al canal de Tecnoconocimiento Accesible en Odysse.

O si prefieres escúchanos en:

Anchor:

Escúchanos en Anchor.

Ponte en contacto con nosotros, déjanos tus sugerencias, dudas, o comentarios,

abajo tienes un sencillo formulario,

o si lo prefieres,

escríbenos al correo del blog:

tecnoconocimientoaccesible@gmail.com

Los aportes siempre serán bienvenidos.

cuando nos escribas por uno de los medios con alguna sugerencia, se publicará con tu nombre.

además, como ya se sabe, puedes publicar esta entrada en otro sitio, pero no te olvides citar la fuente.

Saludos, y hasta otro post.

Descarga aquí el tutorial.

Ve aquí a Google AI Studio.

3 comentarios:

Anónimo3 de julio de 2025 a las 18:14
Hola, Peter y compañeros.
Me parece maravilloso este tutorial. Sin embargo, a la hora de querer hacerlo, me sale el aviso en inglés de que ha ocurrido un error, que lo intente nuevamente.
Así lo hago, pero el error persiste. he realizado todos los pasos tal y como lo explicó Peter en el tutorial, pero nada, no me funciona.
¿alguna idea de qué podrá estar pasando?
Agradezco la atención prestada a este comentario.
Feliz día, Mauro desde Colombia.
ResponderEliminar
Respuestas
Anónimo29 de julio de 2025 a las 19:17
Hola saludos y muchas bendiciones, precisamente estoy utilizando estas voces como locutores en vivo para mi radio. son realmente muy buenas y el prompt inicial es bastante importante, saludos y bendiciones sigan adelante.
ResponderEliminar
Respuestas

Añadir comentario

TecnoConocimientoAccesible

Categorías

lunes, 23 de junio de 2025

Gemini 2.5 Speech Generation, Voces (IA) super realistas!