Volví a usar OmniVoice, cronometré el doblaje y me topé con errores rarísimos

Esta vez doblé un vídeo en inglés al coreano. Cronometré cada paso de un solo doblaje, e incluso me salió ruido robótico donde debería haber una voz.

Siguiendo con el artículo anterior, pasé un poco más de tiempo con OmniVoice. Esta vez tenía curiosidad por dos cosas. Una era cuánto tarda en realidad en doblar un solo vídeo. La otra era la dirección contraria a la de la última vez: qué pasa si convierto un vídeo en inglés al coreano.

Así que cogí un clip corto de un discurso de Trump (en inglés) y lo doblé al coreano. Aquí está primero el original:

Original: el clip en inglés que quería doblar al coreano

Y aquí está el resultado después de que OmniVoice lo doblara al coreano. Clonó la voz original y la puso a hablar en coreano:

OmniVoice: doblado de inglés a coreano, con la voz original clonada

Cuánto tarda un doblaje

Llevar un clip de 22 segundos por todo el recorrido, desde la transcripción a la traducción, a la síntesis de voz y a la exportación, tardó unos 3 minutos en total. Todo se ejecutó en mi MacBook, sin internet. Desglosado por pasos, queda así:

Preparación (sacar el audio del vídeo y separar la voz del fondo): unos 7 segundos
Transcripción (convertir el habla en texto): unos 29 segundos
Traducción (de inglés a coreano): unos 90 segundos
Crear el perfil de voz (registrar la voz original): unos 5 segundos
Síntesis de voz + clonación: unos 49 segundos
Exportación (volver a unirlo con el vídeo): unos 2 segundos

Un detalle curioso: la primera vez que se ejecuta la síntesis tarda más, pero al volver a ejecutarla el tiempo se reduce más o menos a la mitad. Eso es porque el tiempo de cargar por primera vez el modelo de IA en memoria solo cuenta en esa primera vez.

Qué modelo se encargó de cada paso

El doblaje se divide en pasos, y un modelo distinto se ocupa de cada uno:

Separar la voz del fondo: Demucs
Transcripción: WhisperX
Ajuste de tiempos por palabra: wav2vec2
Separación de hablantes (distinguir quién habla): WavLM
Traducción: gemma2:27b (mejor calidad que el traductor integrado)
Síntesis de voz + clonación: OmniVoice

No todo fue sobre ruedas

Dos cosas me dieron problemas por el camino.

Una, a veces, donde debería haber una voz, lo que me salía era un ruido distorsionado y entrecortado en lugar de una voz humana. Esta vez le pedí que generara coreano a partir de una muestra de voz en inglés, y esa voz, al intentar imitar el coreano, un idioma que nunca había hablado, a veces salía rota. Así que cambié a un ajuste que pule la síntesis con más pasadas, lo volví a ejecutar, y el vídeo de Trump salió bien.

Dos, cuando ejecuté la traducción, una frase salió completamente distinta de lo que decía el original, así que tuve que entrar y corregirla a mano.

Entonces, la conclusión

De todas las herramientas de doblaje de código abierto que he usado, esta fue casi tan fácil de instalar como un solo clic. También funcionó con más fluidez que cualquiera de las otras que he probado, algo que agradecí. Dicho esto, la calidad del resultado todavía no está a un nivel que me deje satisfecho.

¿Alguien más por aquí ha usado OmniVoice? Me encantaría saber qué tipo de vídeos probaste y qué tal salió la calidad. Yo lo ejecuté en un Mac, así que también tengo curiosidad por escuchar a quienes lo hayan usado en otros equipos.

Volví a usar OmniVoice, cronometré el doblaje y me topé con errores rarísimos

Cuánto tarda un doblaje

Qué modelo se encargó de cada paso

No todo fue sobre ruedas

Entonces, la conclusión

Lo que me gustó

Lo que no

Valoración

Comentarios (0)

Volví a usar OmniVoice, cronometré el doblaje y me topé con errores rarísimos

Cuánto tarda un doblaje

Qué modelo se encargó de cada paso

No todo fue sobre ruedas

Entonces, la conclusión

Lo que me gustó

Lo que no

Valoración

Recibe el resumen semanal de doblaje con IA

Comentarios (0)