我又跑了一遍 OmniVoice,给配音掐了表,还撞上几个莫名其妙的错误
这回我把一段英语视频配成了韩语。我给一整次配音的每个步骤都掐了表,甚至还碰上了本该是人声的地方变成机器噪音的怪事。
接着上一篇,我又花了点时间跟 OmniVoice 折腾。这回我好奇两件事。一是给一段视频配音,到底要花多长时间。二是跟上次反着来:要是把一段英语视频配成韩语,会怎么样。
于是我找了一小段 Trump 演讲的片段(英语的),把它配成了韩语。先看原片:
原始:我想配成韩语的那段英语片段
下面是 OmniVoice 把它配成韩语之后的效果。它克隆了原声,让它来说韩语:
OmniVoice:把英语配成韩语,并克隆了原声
配一次音要花多长时间
把一段 22 秒的片段,从转文字、翻译、语音合成到导出,整套走下来一共大约 3 分钟。这些全都在我的 MacBook 上跑,没联网。按步骤拆开来看,大致是这样:
- 准备(把音频从视频里抽出来,再把人声和背景声分开):约 7 秒
- 转文字(把语音变成文字):约 29 秒
- 翻译(英语转韩语):约 90 秒
- 建立音色档案(录入原声):约 5 秒
- 语音合成 + 克隆:约 49 秒
- 导出(重新合回视频里):约 2 秒
有个有意思的小细节:第一次合成会久一点,再跑一次时间差不多能减半。这是因为把 AI 模型第一次加载进内存的时间,只算在第一次那一遍里。
每一步分别用的是哪个模型
配音是分步骤进行的,每一步交给不同的模型来处理:
- 分离人声和背景声:Demucs
- 转文字:WhisperX
- 单词时间对齐:wav2vec2
- 说话人分离(分清是谁在说话):WavLM
- 翻译:gemma2:27b(质量比自带的翻译器好)
- 语音合成 + 克隆:OmniVoice
也不是一路顺风
中途有两件事把我绊了一下。
一,有时候本该出人声的地方,传出来的却是一团压扁了的、滋滋作响的噪音,而不是人声。这回我让它拿一段英语声音样本去生成韩语,而这个声音要去模仿一门它从没说过的语言,也就是韩语,有时候就崩了。于是我换成了一个会多跑几遍、把合成结果打磨得更细的设定,重新跑了一遍,这段 Trump 视频就出来得好好的了。
二,跑翻译的时候,有一句话出来的意思跟原文完全不一样,我只好自己进去手动改了过来。
那么,结论是
在我用过的所有开源配音工具里,这个几乎是一键就能装好的。它跑起来也比我到目前为止试过的其他工具都顺,这点我挺欣赏。话虽如此,出来的质量还没到让我满意的程度。
这里有没有人也用过 OmniVoice?我很想听听你拿什么样的视频试过、质量出来怎么样。我是在 Mac 上跑的,所以也很好奇在别的环境下用过的人有什么感受。
喜欢的地方
- 几乎一键就能装好(在我试过的开源工具里最省事)
- 跑起来比我到目前为止试过的所有开源工具都顺
- 处理速度快(22 秒的片段大约 3 分钟)
美中不足
- 出来的质量还不太让人满意
- 跨语言克隆(让一种语言的声音去说另一种语言)有时会崩成机器噪音
评分
订阅每周 AI 配音简报
每周帮你梳理 AI 配音动态和新鲜事。绝不发垃圾邮件,随时可以退订。
评论 (0)
还没有评论,来抢个沙发吧。