opendub.ai
#ai-dubbing#omnivoice#open-source#voice-cloning

我又跑了一遍 OmniVoice,给配音掐了表,还撞上几个莫名其妙的错误

这回我把一段英语视频配成了韩语。我给一整次配音的每个步骤都掐了表,甚至还碰上了本该是人声的地方变成机器噪音的怪事。

opendub · 2026-06-23 · 约 4 分钟

接着上一篇,我又花了点时间跟 OmniVoice 折腾。这回我好奇两件事。一是给一段视频配音,到底要花多长时间。二是跟上次反着来:要是把一段英语视频配成韩语,会怎么样。

于是我找了一小段 Trump 演讲的片段(英语的),把它配成了韩语。先看原片:

原始:我想配成韩语的那段英语片段

下面是 OmniVoice 把它配成韩语之后的效果。它克隆了原声,让它来说韩语:

OmniVoice:把英语配成韩语,并克隆了原声

配一次音要花多长时间

把一段 22 秒的片段,从转文字、翻译、语音合成到导出,整套走下来一共大约 3 分钟。这些全都在我的 MacBook 上跑,没联网。按步骤拆开来看,大致是这样:

  • 准备(把音频从视频里抽出来,再把人声和背景声分开):约 7 秒
  • 转文字(把语音变成文字):约 29 秒
  • 翻译(英语转韩语):约 90 秒
  • 建立音色档案(录入原声):约 5 秒
  • 语音合成 + 克隆:约 49 秒
  • 导出(重新合回视频里):约 2 秒

有个有意思的小细节:第一次合成会久一点,再跑一次时间差不多能减半。这是因为把 AI 模型第一次加载进内存的时间,只算在第一次那一遍里。

每一步分别用的是哪个模型

配音是分步骤进行的,每一步交给不同的模型来处理:

  • 分离人声和背景声:Demucs
  • 转文字:WhisperX
  • 单词时间对齐:wav2vec2
  • 说话人分离(分清是谁在说话):WavLM
  • 翻译:gemma2:27b(质量比自带的翻译器好)
  • 语音合成 + 克隆:OmniVoice

也不是一路顺风

中途有两件事把我绊了一下。

一,有时候本该出人声的地方,传出来的却是一团压扁了的、滋滋作响的噪音,而不是人声。这回我让它拿一段英语声音样本去生成韩语,而这个声音要去模仿一门它从没说过的语言,也就是韩语,有时候就崩了。于是我换成了一个会多跑几遍、把合成结果打磨得更细的设定,重新跑了一遍,这段 Trump 视频就出来得好好的了。

二,跑翻译的时候,有一句话出来的意思跟原文完全不一样,我只好自己进去手动改了过来。

那么,结论是

在我用过的所有开源配音工具里,这个几乎是一键就能装好的。它跑起来也比我到目前为止试过的其他工具都顺,这点我挺欣赏。话虽如此,出来的质量还没到让我满意的程度。

这里有没有人也用过 OmniVoice?我很想听听你拿什么样的视频试过、质量出来怎么样。我是在 Mac 上跑的,所以也很好奇在别的环境下用过的人有什么感受。

喜欢的地方

  • 几乎一键就能装好(在我试过的开源工具里最省事)
  • 跑起来比我到目前为止试过的所有开源工具都顺
  • 处理速度快(22 秒的片段大约 3 分钟)

美中不足

  • 出来的质量还不太让人满意
  • 跨语言克隆(让一种语言的声音去说另一种语言)有时会崩成机器噪音

评分

安装省事、跑得顺 · 但质量还差点意思
条评论

评论 (0)

还没有评论,来抢个沙发吧。