lunes, 9 de febrero de 2026

Voces de GeminiTTS en NVDA, con: Native Speech Generation!

Hola gente, ¿qué tal les va?

Hoy muy atentos: ¡Native Speech Generation para NVDA!

Pero ¿Qué es Native Speech Generation?

Native Speech Generation es un complemento (add-on) para el lector de pantalla NVDA que permite convertir texto en voz natural de alta calidad aprovechando la inteligencia artificial de Google Gemini.

Este complemento integra directamente los servicios de text-to-speech (TTS) de Google Gemini dentro de NVDA, ofreciendo una forma accesible, moderna y flexible de generar audio — ideal para personas con discapacidad visual, creadores de contenido o desarrolladores que quieren narración asistida por IA.

Principales características

Voz natural con IA de Google

El complemento usa los modelos de Google Gemini, que generan audio muy realista a partir de texto. Puedes elegir entre distintos modos de voz, desde narración estándar hasta voces más expresivas o realistas según el modelo que selecciones.

Modo de un solo hablante y múltiples voces

Puedes generar audio con:

Una sola voz: perfecto para lectura de textos largos o narraciones continuas.

Modo de varios hablantes: lo que permite crear diálogos donde cada personaje tiene su propia voz distinta.

Control avanzado de estilo y expresividad

El complemento no solo lee texto, sino que te permite dar “instrucciones de estilo” — por ejemplo, indicarle que hable con tono alegre, serio o pausado — y también controlar parámetros como la “temperatura”, lo que afecta el carácter de la voz generada.

 

A continuación les dejo el tutorial: Como conseguir una clave API gratuita  de Gemini:

https://www.youtube.com/watch?v=2uNJGHQENSE&t=31s

 

Requisitos para utilizar: Native Speech Generation:

 

Se necesitan:

NVDA (Probado en la versión: 2025.3).

Una clave API de Google Gemini AI (que obtienes desde Google AI Studio).

Conexión a Internet, ya que la voz se genera en la nube.

 

Tutorial: 🎙️ Voces de GeminiTTS en NVDA, con: Native Speech Generation!

En este tutorial les mostraré:

• Instalación del complemento Native Speech Generation.

• Descarga de dependencias de: Native Speech Generation.

• Como colocar la clave API de Gemini, en Native Speech Generation.

• Como convertir de texto a voz con Native Speech Generation, con un solo hablante (single speaker), configurar estilo del habla, temperatura, selección de modelo y seleccionar una voz).

• Como empezar a generar de texto a voz con Native Speech Generation.

• Muestra del resultado de la generación de texto a voz.

• Como guardar el audio generado.

• Como crear un diálogo entre dos personas con Native Speech Generation (multi speaker), (estilo, temperatura, cambiar nombre a personas, elección de las voces).

• Como generar el audio de texto a voz del diálogo, y como guardarlo.

• Como utilizar la función: hablar con IA (una especie de asistente), de Native Speech Generation.

 

La descarga.

Les dejaré en la descarga:

• El audio tutorial (en los canales Odysse y YouTube estará en video tutorial).

• Descarga del complemento Native Speech Generation.

• Enlace al repositorio de Native Speech Generation.

 

Espero lo disfruten y les sea de mucha utilidad.

Este es una forma de utilizar las excelentes voces de Google Gemini TTS, cómodamente desde nuestro lector NVDA.

 

Y ya sabes, Si te gusta este contenido,

Apóyanos haciendo una donación:

Dona aquí en PayPal.

compártelo en: Facebook, X.

Deja un comentario sobre esta entrada.

Síguenos en X:

Abajo tienes el botón.

Ahora puedes seguirnos también en Facebook:

Entra aquí a nuestro Facebook.

Suscríbete al blog:

Ahora puedes unirte a nuestros grupos de WhatsApp o Telegram:

Puedes escribir al mail del blog con tus datos si deseas ingresar a los mismos.

Escucha todos nuestros audio tutoriales, cómodamente:

Entrando desde aquí, a nuestro canal en YouTube.

Ahora también, en nuestro canal en Odysse:

Entra al canal de Tecnoconocimiento Accesible en Odysse.

O si prefieres escúchanos en:

Anchor:

Escúchanos en Anchor.

Ponte en contacto con nosotros, déjanos tus sugerencias, dudas, o comentarios,

abajo tienes un sencillo formulario,

o si lo prefieres,

 escríbenos al correo del blog:

tecnoconocimientoaccesible@gmail.com

Los aportes siempre serán bienvenidos.

cuando nos escribas por uno de los medios con alguna sugerencia, se publicará con tu nombre.

además, como ya se sabe, puedes publicar esta entrada en otro sitio, pero no te olvides citar la fuente.

Saludos, y hasta otro post.

 

Descarga aquí el tutorial.

 

Descarga aquí el complemento.

 

Entra aquí al repositorio de Native Speech Generation.


10 comentarios:

  1. Saludos, y qué ventaja tiene con respecto a usarlo desde la web? Y esto de la clave api es ilimitado? Me solucionaría el problema de los créditos y el límite de caracteres? Google AI Studio el modelo 2.5 pro a la cuarta o quinta conversión últimamente me dice que ya he pasado la cuota y lo intente más tarde.

    ResponderEliminar
    Respuestas
    1. hay un mundo de diferencia , alutilizar este servicio de texto a voz desde la interfaz enredada, cambiante y hasta poco amigable para un lector de pantalla de Google AI Studio.
      que usarlas cómodamente 100% accesible, directo sin buscar y sin enredos desde este complemento.
      saludos

      Eliminar
  2. Hola, esto es ilimitado? Usando este método sería más generoso y me solucionaría lo de el límite de caracteres y la conversión? Porque últimamente a la cuarta o quinta conversión en Google Ai Studio me decía que ya me he pasado la cuota gratuita y que lo intente más adelante. Si me creo una clave de API, sería ilimitado y podría hacer todos los libros que yo quiera sin límite de caracteres, o solamente es usarlo con el lector y ya está?

    ResponderEliminar
  3. Hola, esto es ilimitado? Usando este método me solucionaría lo de el límite de caracteres y la conversión? Porque últimamente a la cuarta o quinta conversión en Google Ai Studio me decía que ya me he pasado la cuota gratuita y que lo intente más adelante. Si me creo una clave de API, sería ilimitado y podría hacer todos los libros que yo quiera sin límite de caracteres, o solamente es usarlo con el lector y ya está?

    ResponderEliminar
    Respuestas
    1. te recomiendo escuchar el tutorial
      allí saldrás de esta y otras dudas, se dan ejemlos inclincluso.

      Eliminar
  4. Hasta donde yo se los créditos no son ilimitados. Hay que pagar al menos para reconocer imágenes los créditos de Open AI hay que pagar sí o sí.

    ResponderEliminar
    Respuestas
    1. no entiendo qe tiene que ver aquí OpenAI, ny tampoco lo de imágenes?
      esto es Google Gemini, y texto a voz.

      Eliminar
  5. Lo decía porque preguntaron sobre los créditos de las IAS y daba un ejemplo de lo que sucede con Open AI y el complemento AI content describer de NVDA, donde hay que pagar para que te hagan un reconocimiento de imágenes, por eso lo ponía a colación.
    Ahora una curiosidad. ¿Esto es un complemento para NVDA? o es solo una muestra.

    ResponderEliminar
    Respuestas
    1. con el título solo de la entrada ya está respondido
      te invito a leer la entrada, y si gustas escuchar el tuto.
      saludos

      Eliminar
  6. Este complemento es muy útil, ojalá no quede en el olvido.

    ResponderEliminar