opendub.ai
#ai-dubbing#krillinai#voice-pro#open-source

我终于用开源 AI 把一整个视频从头到尾配完音了

之前能跑的配音又崩在了我手里,但这回我照样做出了两个成品视频,下面说说是怎么做到的。

opendub · 2026-06-05 · 约 4 分钟

之前我用这些工具配过音,可这次坐下来想原样再做一遍,那些报错又一个不落地全回来了。这一回我把它们一个一个全啃了下来,两个工具都做出了真正能看的配音。一天里大半时间照样是卡着过来的,但最后总算成了,我手里也终于有了做完的成品视频,而不是又一个「差一点就成」的故事。

同一段视频,两种配音方式

两个工具配的是同一段视频,是 NASA 关于阿尔忒弥斯登月任务的一小段公有领域(无版权)素材,所以你可以直接拿来对比。它俩的工作方式完全不同:

  • KrillinAI 会把语音转成文字、翻译,再用现成的嗓音配音,还会顺手把字幕也压进画面里。
  • Voice-Pro 会从一小段样本里克隆出一个声音,再用那个声音来配音。

这是两个工具都还没动过的原始视频:

原始:NASA 素材,英语(配音前)

KrillinAI:那个把我吓到的、悄无声息的失败

KrillinAI 在真正开始配音前,先甩出了一串报错,大多是跟我之前装的另一个配音软件冲突闹的。但真正让我心里发毛的那个,根本算不上报错:翻译出来是一整段没动过的英文原文,压根没翻,没有任何警告,屏幕上也没有一点红。翻译引擎根本就没在跑,而 KrillinAI 非但不吭一声,还把原文照原样递了出来,就好像那就是译文一样。对我这种人来说,这是最吓人的一类 bug:结果看上去做完了,于是你压根想不到要去检查。

KrillinAI:用 Edge-TTS 嗓音配音

几句老实话。免费档里只能用微软的嗓音,而且选嗓音不是从菜单里挑,而是要敲一段代码进去——是个小怪癖,但很快就习惯了。不过作为一个开源工具,它的配音质量相当扎实,翻译也撑得住。界面比 Voice-Pro 简单,我反倒更喜欢这点。最让我领情的是:它会自己把干净、卡点又准的字幕压进画面,我什么都不用对。免费用下来体验够好,好到我都有点想哪天去试试它那个付费的语音克隆了。

Voice-Pro:动手去修引擎

Voice-Pro 的报错藏得更深,一直深到搭起它的那些底层程序库里。其中一个库老是要一个配音根本用不上的零件,结果还没跑起来就崩了。一个一个去修,是没有尽头的:我刚堵上一个,另一个差不多的又冒了出来。最后管用的办法,是在它们都要经过的同一个地方动手:缺了的那个可有可无的零件,别崩,直接跳过就行。就改这一处,那一窝报错一下子全没了。

为了让这个对比公平点,我用两种方式各跑了一遍。先用跟 KrillinAI 一样的微软嗓音,把条件尽量调成一致,做一次最公道的对比:

Voice-Pro:和 KrillinAI 相同的 Edge-TTS 嗓音

然后再用 Voice-Pro 真正的看家本事——它自己的语音克隆:

Voice-Pro:CosyVoice 语音克隆

克隆是真的好,是这两个工具里最能打的本事。它跑起来确实比单纯用微软嗓音明显要慢,但出来的结果,绝对对得起多等的这点时间。而它俩最核心的区别就在这儿:Voice-Pro 把所有功能、连克隆都白送给你,KrillinAI 却把克隆锁在了付费 API 的后面。对我这种铁了心要全程一分钱不花的人来说,光这一点就基本定了胜负。

把它俩摆在一起看,性子相当不一样。KrillinAI 真正方便的地方是字幕:它生成的字幕干净又利落,根本不用你去改。短板在节奏:为了让配音对上原来的时间点,它一会儿加快、一会儿放慢,这么不停地一伸一缩,听着就挺不自然的。想让时间真正卡准,估计还得另花点功夫。另一个让我觉得可惜的地方,是做完的视频里背景声音被抽掉了。

Voice-Pro 走的是反方向。字幕得你自己去修,但除此之外,它哪儿都让我满意。声音长度是自动对齐的,所以节奏稳稳的、自然,而且像我说的,克隆出来的声音是真好。最棒的是,做完的视频把背景声音原封不动地留住了,所以成品拿出去哪儿都能直接发。对我来说,正是这最后一点,拉开了最大的差距。

各自花了多长时间

在一块 RTX 3080 上,把整段视频从头配完,用时是这样:

工具和嗓音 用时
KrillinAI(Edge-TTS) 1 分 56 秒
Voice-Pro(Edge-TTS,同一个嗓音) 4 分 4 秒
Voice-Pro(CosyVoice 克隆) 4 分 32 秒

用同一个 Edge-TTS 嗓音来比,KrillinAI 大概快了一倍,主要是因为 Voice-Pro 干了更重的额外活儿,比如把背景声音单独分离出来。用 CosyVoice 克隆声音是最慢的,因为它要在 GPU 上一行一行地把模型跑一遍。不过这些都算不上绝对意义上的慢——反正横竖也就几分钟的事。

这一天教会我的事

我本以为难的地方会是硬盘空间,或者干等下载。结果不是。文件其实都好好地下下来了。最难的,是这一切之前明明都跑通过,可当我坐下来想原样再做一遍,它就是不肯动了。真正让人脑子发懵的就是这个:不是什么全新的难题,而是上次还好端端的东西,这次悄无声息地就不干了。另一条值得记下的教训:当心那些悄无声息的失败。KrillinAI 一声不吭地把没翻译的英文还给你,就是个完美的陷阱,因为那结果看上去是做完了的。

我到现在还是个不会写代码的人,这些事,大半都是我在黑灯瞎火里一点点摸出来的。但这一回,这通乱摸,摸到了一个实打实的结果:同一段视频的两个做完的配音,全程只用免费的开源工具做出来。

评分

安装麻烦 · 小 bug 不少 · 但上手了还挺好用
条评论

评论 (0)

还没有评论,来抢个沙发吧。