Volví a usar OmniVoice, cronometré el doblaje y me topé con errores rarísimos
Esta vez doblé un vídeo en inglés al coreano. Cronometré cada paso de un solo doblaje, e incluso me salió ruido robótico donde debería haber una voz.
Siguiendo con el artículo anterior, pasé un poco más de tiempo con OmniVoice. Esta vez tenía curiosidad por dos cosas. Una era cuánto tarda en realidad en doblar un solo vídeo. La otra era la dirección contraria a la de la última vez: qué pasa si convierto un vídeo en inglés al coreano.
Así que cogí un clip corto de un discurso de Trump (en inglés) y lo doblé al coreano. Aquí está primero el original:
Original: el clip en inglés que quería doblar al coreano
Y aquí está el resultado después de que OmniVoice lo doblara al coreano. Clonó la voz original y la puso a hablar en coreano:
OmniVoice: doblado de inglés a coreano, con la voz original clonada
Cuánto tarda un doblaje
Llevar un clip de 22 segundos por todo el recorrido, desde la transcripción a la traducción, a la síntesis de voz y a la exportación, tardó unos 3 minutos en total. Todo se ejecutó en mi MacBook, sin internet. Desglosado por pasos, queda así:
- Preparación (sacar el audio del vídeo y separar la voz del fondo): unos 7 segundos
- Transcripción (convertir el habla en texto): unos 29 segundos
- Traducción (de inglés a coreano): unos 90 segundos
- Crear el perfil de voz (registrar la voz original): unos 5 segundos
- Síntesis de voz + clonación: unos 49 segundos
- Exportación (volver a unirlo con el vídeo): unos 2 segundos
Un detalle curioso: la primera vez que se ejecuta la síntesis tarda más, pero al volver a ejecutarla el tiempo se reduce más o menos a la mitad. Eso es porque el tiempo de cargar por primera vez el modelo de IA en memoria solo cuenta en esa primera vez.
Qué modelo se encargó de cada paso
El doblaje se divide en pasos, y un modelo distinto se ocupa de cada uno:
- Separar la voz del fondo: Demucs
- Transcripción: WhisperX
- Ajuste de tiempos por palabra: wav2vec2
- Separación de hablantes (distinguir quién habla): WavLM
- Traducción: gemma2:27b (mejor calidad que el traductor integrado)
- Síntesis de voz + clonación: OmniVoice
No todo fue sobre ruedas
Dos cosas me dieron problemas por el camino.
Una, a veces, donde debería haber una voz, lo que me salía era un ruido distorsionado y entrecortado en lugar de una voz humana. Esta vez le pedí que generara coreano a partir de una muestra de voz en inglés, y esa voz, al intentar imitar el coreano, un idioma que nunca había hablado, a veces salía rota. Así que cambié a un ajuste que pule la síntesis con más pasadas, lo volví a ejecutar, y el vídeo de Trump salió bien.
Dos, cuando ejecuté la traducción, una frase salió completamente distinta de lo que decía el original, así que tuve que entrar y corregirla a mano.
Entonces, la conclusión
De todas las herramientas de doblaje de código abierto que he usado, esta fue casi tan fácil de instalar como un solo clic. También funcionó con más fluidez que cualquiera de las otras que he probado, algo que agradecí. Dicho esto, la calidad del resultado todavía no está a un nivel que me deje satisfecho.
¿Alguien más por aquí ha usado OmniVoice? Me encantaría saber qué tipo de vídeos probaste y qué tal salió la calidad. Yo lo ejecuté en un Mac, así que también tengo curiosidad por escuchar a quienes lo hayan usado en otros equipos.
Lo que me gustó
- Casi tan fácil de instalar como un solo clic (la más fácil de todas las herramientas de código abierto que he probado)
- Funcionó con más fluidez que cualquier herramienta de código abierto que haya probado hasta ahora
- Procesamiento rápido (unos 3 minutos para un clip de 22 segundos)
Lo que no
- La calidad del resultado todavía no me convence
- La clonación entre idiomas (la voz de un idioma hablando en otro) a veces se rompe en ruido robótico
Valoración
Recibe el resumen semanal de doblaje con IA
Un repaso semanal del doblaje con IA y las novedades. Sin spam, te puedes dar de baja cuando quieras.
Comentarios (0)
Aún no hay comentarios: sé el primero.