opendub.ai
#ai-dubbing#krillinai#voice-pro#open-source

Por fin doblé un vídeo entero con IA de código abierto

Los doblajes que antes funcionaban se me volvieron a romper, y aun así te cuento cómo saqué dos vídeos terminados.

opendub · 2026-06-05 · 4 min de lectura

Ya había conseguido doblar con estas herramientas antes, pero al sentarme a hacer exactamente lo mismo otra vez, los errores volvieron de inmediato. Esta vez me abrí paso a través de todos ellos, y las dos herramientas produjeron un doblaje real, de los que se pueden ver. La mayor parte del día la pasé igualmente atascado y, aun así, funcionó: por fin tengo vídeos terminados que enseñar, en lugar de un relato sobre quedarme a punto.

El mismo clip, doblado de dos maneras

Las dos herramientas doblaron el mismo clip, un breve vídeo de dominio público de la NASA sobre la misión Artemis a la Luna, así que puedes compararlos directamente. Funcionan de maneras completamente distintas:

  • KrillinAI transcribe, traduce y dobla con una voz prefabricada, y además incrusta los subtítulos.
  • Voice-Pro clona una voz a partir de una muestra corta y dobla con esa voz.

Este es el original, antes de que ninguna de las dos lo tocara:

Original: clip de la NASA, en inglés (antes del doblaje)

KrillinAI: el fallo silencioso que me asustó

KrillinAI soltó una cadena de errores antes de ponerse a doblar, casi todos por entrar en conflicto con otra app de doblaje que tenía instalada. Pero el que de verdad me inquietó no era ni siquiera un error: las traducciones me salían en inglés llano, sin traducir, sin ningún aviso y sin nada en rojo en la pantalla. El motor de traducción sencillamente no estaba funcionando y, en lugar de quejarse, KrillinAI dejaba pasar el texto original tal cual, como si fuera la traducción. Para alguien como yo, ese es el tipo de bug más temible: el resultado parece terminado, así que jamás se te ocurriría comprobarlo.

KrillinAI: doblado con una voz de Edge-TTS

Unas cuantas notas sinceras. En el plan gratuito estás limitado a las voces de Microsoft, y eliges la voz escribiendo su código en lugar de elegirla de un menú, una pequeña rareza a la que te acostumbras enseguida. Pero la calidad del doblaje era bastante sólida para una herramienta de código abierto, y la traducción también aguantó bien. La interfaz es más sencilla que la de Voice-Pro, y a mí me gustó más por eso. Lo que más agradecí: incrusta él solo unos subtítulos limpios y bien sincronizados, así que no tuve que cuadrar nada. La experiencia gratis fue lo bastante buena como para que me tiente probar algún día su clonación de voz de pago.

Voice-Pro: arreglar el motor a mano

Los errores de Voice-Pro estaban más adentro, en el interior de las pequeñas bibliotecas con las que está construido. Una insistía en pedir un componente que ni siquiera se usa para doblar, y se caía antes de poder arrancar. Arreglarlos de uno en uno no tenía fin: cada vez que tapaba uno, saltaba otro parecido. Lo que al final funcionó fue arreglarlo en un único punto por el que todos pasan: saltarse la pieza opcional que faltaba en lugar de caerse. Un solo cambio, y toda esa tanda de errores desapareció de golpe.

Lo probé de dos maneras para que la comparación fuera justa. Primero con la misma voz de Microsoft que usa KrillinAI, igualando las condiciones todo lo posible:

Voice-Pro: la misma voz de Edge-TTS que KrillinAI

Y después con la propia clonación de voz de Voice-Pro, la función en torno a la que está realmente construido:

Voice-Pro: clonación de voz con CosyVoice

La clonación es genuinamente buena, lo mejor que hace cualquiera de las dos herramientas. Tarda bastante más en ejecutarse que la voz de Microsoft a secas, pero el resultado bien merece esa espera. Y aquí está la diferencia de fondo entre ellas: Voice-Pro te lo da todo gratis, clonación incluida, mientras que KrillinAI deja la clonación detrás de una API de pago. Para alguien decidido a quedarse en lo completamente gratuito, como yo, eso decide muchísimo.

Una al lado de la otra, las dos tenían un carácter muy distinto. La verdadera comodidad de KrillinAI son sus subtítulos: salen limpios y bien partidos por sí solos, sin necesidad de editarlos. El punto flojo es el ritmo: para que la voz doblada encaje con la sincronización original, acelera y frena, y ese constante estirar y encoger acabó sonando bastante poco natural. Conseguir que la sincronización quede fina seguramente exigiría algo de trabajo extra. Lo otro que eché en falta fue que el vídeo terminado salió con el audio de fondo eliminado.

Voice-Pro fue por el camino contrario. Los subtítulos sí tienes que arreglarlos tú, pero todo lo demás me dejó satisfecho. La duración de la voz se ajustó automáticamente, así que el ritmo se mantuvo estable y natural y, como ya dije, la clonación sonaba muy bien. Y lo mejor de todo: el audio de fondo se conservó en el vídeo terminado, así que el resultado quedó listo para publicarlo en cualquier sitio tal cual. Para mí, esa última parte marcó la mayor diferencia.

Cuánto tardó cada una

En una RTX 3080, doblando el clip entero desde cero:

Herramienta y voz Tiempo
KrillinAI (Edge-TTS) 1 min 56 s
Voice-Pro (Edge-TTS, misma voz) 4 min 4 s
Voice-Pro (clonación con CosyVoice) 4 min 32 s

Con la misma voz de Edge-TTS, KrillinAI fue unas dos veces más rápido, sobre todo porque Voice-Pro hace un trabajo extra más pesado, como separar el audio de fondo. Clonar una voz con CosyVoice es lo más lento, porque ejecuta un modelo en la GPU línea a línea. Aun así, nada de esto es lento en términos absolutos: en cualquier caso estamos hablando de un par de minutos.

Lo que me enseñó el día

Pensé que lo difícil sería el espacio en disco o esperar a las descargas. No lo fue. Todo se había descargado bien. Lo más difícil fue que todo había funcionado antes y, al sentarme a hacer exactamente lo mismo otra vez, sencillamente no arrancaba. Eso es lo que te vuelve loco: no un problema totalmente nuevo, sino algo que la última vez funcionó a la perfección y que ahora, sin hacer ruido, se niega a funcionar. La otra lección que vale la pena guardar: cuidado con los fallos silenciosos. Que KrillinAI te devuelva inglés sin traducir sin decir ni pío es la trampa perfecta, porque el resultado parece terminado.

Sigo siendo alguien que no programa, dando tumbos en la oscuridad en casi todo esto. Pero esta vez los tumbos acabaron en algo real: dos doblajes terminados del mismo clip, hechos enteramente con herramientas gratuitas y de código abierto.

Valoración

instalación enredada · muchos fallos pequeños · pero sirve cuando le coges el tranquillo
comentarios

Comentarios (0)

Aún no hay comentarios: sé el primero.