Hola gente, ¿qué tal les va?
Hoy muy atentos: ¡Native Speech Generation para NVDA!
Pero ¿Qué es Native Speech Generation?
Native Speech Generation es un complemento (add-on) para el lector de pantalla NVDA que permite convertir texto en voz natural de alta calidad aprovechando la inteligencia artificial de Google Gemini.
Este complemento integra directamente los servicios de text-to-speech (TTS) de Google Gemini dentro de NVDA, ofreciendo una forma accesible, moderna y flexible de generar audio — ideal para personas con discapacidad visual, creadores de contenido o desarrolladores que quieren narración asistida por IA.
Principales características
Voz natural con IA de Google
El complemento usa los modelos de Google Gemini, que generan audio muy realista a partir de texto. Puedes elegir entre distintos modos de voz, desde narración estándar hasta voces más expresivas o realistas según el modelo que selecciones.
Modo de un solo hablante y múltiples voces
Puedes generar audio con:
•
Una sola voz: perfecto para lectura de textos largos o narraciones continuas.
•
Modo de varios hablantes: lo que permite crear diálogos donde cada personaje tiene su propia voz distinta.
Control avanzado de estilo y expresividad
El complemento no solo lee texto, sino que te permite dar “instrucciones de estilo” — por ejemplo, indicarle que hable con tono alegre, serio o pausado — y también controlar parámetros como la “temperatura”, lo que afecta el carácter de la voz generada.
A continuación les dejo el tutorial: Como conseguir una clave API gratuita de Gemini:
https://www.youtube.com/watch?v=2uNJGHQENSE&t=31s
Requisitos para utilizar: Native Speech Generation:
Se necesitan:
•
NVDA (Probado en la versión: 2025.3).
•
Una clave API de Google Gemini AI (que obtienes desde Google AI Studio).
•
Conexión a Internet, ya que la voz se genera en la nube.
Tutorial: 🎙️ Voces de GeminiTTS en NVDA, con: Native Speech Generation!
En este tutorial les mostraré:
• Instalación del complemento Native Speech Generation.
• Descarga de dependencias de: Native Speech Generation.
• Como colocar la clave API de Gemini, en Native Speech Generation.
• Como convertir de texto a voz con Native Speech Generation, con un solo hablante (single speaker), configurar estilo del habla, temperatura, selección de modelo y seleccionar una voz).
• Como empezar a generar de texto a voz con Native Speech Generation.
• Muestra del resultado de la generación de texto a voz.
• Como guardar el audio generado.
• Como crear un diálogo entre dos personas con Native Speech Generation (multi speaker), (estilo, temperatura, cambiar nombre a personas, elección de las voces).
• Como generar el audio de texto a voz del diálogo, y como guardarlo.
• Como utilizar la función: hablar con IA (una especie de asistente), de Native Speech Generation.
La descarga.
Les dejaré en la descarga:
• El audio tutorial (en los canales Odysse y YouTube estará en video tutorial).
• Descarga del complemento Native Speech Generation.
• Enlace al repositorio de Native Speech Generation.
Espero lo disfruten y les sea de mucha utilidad.
Este es una forma de utilizar las excelentes voces de Google Gemini TTS, cómodamente desde nuestro lector NVDA.
Y ya sabes, Si te gusta este contenido,
Apóyanos haciendo una donación:
compártelo en: Facebook, X.
Deja un comentario sobre esta entrada.
Síguenos en X:
Abajo tienes el botón.
Ahora puedes seguirnos también en Facebook:
Entra aquí a nuestro Facebook.
Suscríbete al blog:
Ahora puedes unirte a nuestros grupos de WhatsApp o Telegram:
Puedes escribir al mail del blog con tus datos si deseas ingresar a los mismos.
Escucha todos nuestros audio tutoriales, cómodamente:
Entrando desde aquí, a nuestro canal en YouTube.
Ahora también, en nuestro canal en Odysse:
Entra al canal de Tecnoconocimiento Accesible en Odysse.
O si prefieres escúchanos en:
Anchor:
Ponte en contacto con nosotros, déjanos tus sugerencias, dudas, o comentarios,
abajo tienes un sencillo formulario,
o si lo prefieres,
escríbenos al correo del blog:
tecnoconocimientoaccesible@gmail.com
Los aportes siempre serán bienvenidos.
cuando nos escribas por uno de los medios con alguna sugerencia, se publicará con tu nombre.
además, como ya se sabe, puedes publicar esta entrada en otro sitio, pero no te olvides citar la fuente.
Saludos, y hasta otro post.
Entra aquí al repositorio de Native Speech Generation.
Saludos, y qué ventaja tiene con respecto a usarlo desde la web? Y esto de la clave api es ilimitado? Me solucionaría el problema de los créditos y el límite de caracteres? Google AI Studio el modelo 2.5 pro a la cuarta o quinta conversión últimamente me dice que ya he pasado la cuota y lo intente más tarde.
ResponderEliminarhay un mundo de diferencia , alutilizar este servicio de texto a voz desde la interfaz enredada, cambiante y hasta poco amigable para un lector de pantalla de Google AI Studio.
Eliminarque usarlas cómodamente 100% accesible, directo sin buscar y sin enredos desde este complemento.
saludos
Hola, esto es ilimitado? Usando este método sería más generoso y me solucionaría lo de el límite de caracteres y la conversión? Porque últimamente a la cuarta o quinta conversión en Google Ai Studio me decía que ya me he pasado la cuota gratuita y que lo intente más adelante. Si me creo una clave de API, sería ilimitado y podría hacer todos los libros que yo quiera sin límite de caracteres, o solamente es usarlo con el lector y ya está?
ResponderEliminarHola, esto es ilimitado? Usando este método me solucionaría lo de el límite de caracteres y la conversión? Porque últimamente a la cuarta o quinta conversión en Google Ai Studio me decía que ya me he pasado la cuota gratuita y que lo intente más adelante. Si me creo una clave de API, sería ilimitado y podría hacer todos los libros que yo quiera sin límite de caracteres, o solamente es usarlo con el lector y ya está?
ResponderEliminarte recomiendo escuchar el tutorial
Eliminarallí saldrás de esta y otras dudas, se dan ejemlos inclincluso.
Hasta donde yo se los créditos no son ilimitados. Hay que pagar al menos para reconocer imágenes los créditos de Open AI hay que pagar sí o sí.
ResponderEliminarno entiendo qe tiene que ver aquí OpenAI, ny tampoco lo de imágenes?
Eliminaresto es Google Gemini, y texto a voz.
Lo decía porque preguntaron sobre los créditos de las IAS y daba un ejemplo de lo que sucede con Open AI y el complemento AI content describer de NVDA, donde hay que pagar para que te hagan un reconocimiento de imágenes, por eso lo ponía a colación.
ResponderEliminarAhora una curiosidad. ¿Esto es un complemento para NVDA? o es solo una muestra.
con el título solo de la entrada ya está respondido
Eliminarte invito a leer la entrada, y si gustas escuchar el tuto.
saludos
Este complemento es muy útil, ojalá no quede en el olvido.
ResponderEliminarhola, no tiene nada que ver con esto pero para un usuario que preguntó sobre el TCA media downloader, cámbialo a la rama beta y temprana, si eso no soluciona que puedas actualizar la librería o te de fallo con el certificado, dos cosas, el programa va a tardar en actualizarse, youtube está en constantes cambios para que la gente no descargue vídeos de su plataforma, lo mismo ocurre con los bloqueadores de publicidad, no funcionan ni en google chrome ni en edge para bloquear los anuncios en youtube, yo tengo un amigo que hizo un programa que descargas canciones o vídeos, aún así, como yo siempre recomiendo, que uno o una quiere descargar canciones, pues existe el programa, deemix, que es algo difícil obtener un código de usuario o toquen, se puede hacer y si no pues a lo fácil, para canciones y vídeos, usar los programas p2p tipo, emule, hay mas ejemplos, con dicho programa yo descargo canciones, discos, discografías, series, vídeos, documentales, etc y si no, pues con la red torrent y usando el programa, q bittorrent también se puede hacer y así me evito a google y su empeño con que paguemos por ver anuncios en youtube, además con el programa q bittorrent, puedo crear semillas de todo tipo de archivos y que los demás se las descarguen de mi ordenador, así me evito a google o a microsoft con sus nubes y querer limitarlo todo, otro consejo, no penséis que google chrome o edge son los mejores navegadores, porque ni respetan tu privacidad y como he dicho, no permiten el bloqueo de los anuncios ni en la web, ni en youtube, alternativa, mozilla firefox, brave o ópera, saludos
ResponderEliminarUna preguntita ya que hablan del TCA downloader, había por 2016 un programa llamado Songr cuyo desarrollador murió; pero en la sala de juegos si lo han logrado descargar. Qué diferencia hay entre ese programa y el original. Por experiencias pasadas en una lista de correo opté por ya no compartir sitios web sin antes verificarlos. Gracias a Dios existe la IA que nos puede ayudar con eso; pero en 2021 no era posible saberlo.
ResponderEliminarHola que tal, buenos días. Tengo un pproblema: a la hora de instalar el complemento y querer instalar lo que se requiere que solicita el complemento, me marca un error y de ahí ya no permite avanzar. Tengo la versión mas reciente de NVDA, pero no se cual sea el problema. Si alguien me pudiese echar la mano, por favor, porque si me interesa. Saludos y a la orden.
ResponderEliminarcual exacamente es la versión de NVDA?
Eliminarse específico , porque de eso puede depender la respuesta.
saludos
Es la 2025.3.3. Saludos!
Eliminarvale, y cuál es el error que te arroja?
EliminarEl error dice: certificate verifi failed SSLC1006
Eliminarah mmm vale, supongo tendrás Windows 10
Eliminarerrores de falta de actualización de los certificados de Windows,
en breve les compartiré una solución con esta se solucionarán este problema
que lo tienen un montón de personas y creen que es de TCA Media, pero no lo es.