我又跑了一遍 OmniVoice，给配音掐了表，还撞上几个莫名其妙的错误

这回我把一段英语视频配成了韩语。我给一整次配音的每个步骤都掐了表，甚至还碰上了本该是人声的地方变成机器噪音的怪事。

接着上一篇，我又花了点时间跟 OmniVoice 折腾。这回我好奇两件事。一是给一段视频配音，到底要花多长时间。二是跟上次反着来：要是把一段英语视频配成韩语，会怎么样。

于是我找了一小段 Trump 演讲的片段（英语的），把它配成了韩语。先看原片：

原始：我想配成韩语的那段英语片段

下面是 OmniVoice 把它配成韩语之后的效果。它克隆了原声，让它来说韩语：

OmniVoice：把英语配成韩语，并克隆了原声

配一次音要花多长时间

把一段 22 秒的片段，从转文字、翻译、语音合成到导出，整套走下来一共大约 3 分钟。这些全都在我的 MacBook 上跑，没联网。按步骤拆开来看，大致是这样：

有个有意思的小细节：第一次合成会久一点，再跑一次时间差不多能减半。这是因为把 AI 模型第一次加载进内存的时间，只算在第一次那一遍里。

配音是分步骤进行的，每一步交给不同的模型来处理：

中途有两件事把我绊了一下。

一，有时候本该出人声的地方，传出来的却是一团压扁了的、滋滋作响的噪音，而不是人声。这回我让它拿一段英语声音样本去生成韩语，而这个声音要去模仿一门它从没说过的语言，也就是韩语，有时候就崩了。于是我换成了一个会多跑几遍、把合成结果打磨得更细的设定，重新跑了一遍，这段 Trump 视频就出来得好好的了。

二，跑翻译的时候，有一句话出来的意思跟原文完全不一样，我只好自己进去手动改了过来。

在我用过的所有开源配音工具里，这个几乎是一键就能装好的。它跑起来也比我到目前为止试过的其他工具都顺，这点我挺欣赏。话虽如此，出来的质量还没到让我满意的程度。

这里有没有人也用过 OmniVoice？我很想听听你拿什么样的视频试过、质量出来怎么样。我是在 Mac 上跑的，所以也很好奇在别的环境下用过的人有什么感受。