ついに、オープンソースの AI で動画をまるごと吹き替えできました

前は動いた吹き替えがまた壊れたけれど、それでも完成した動画を二本どうやって作ったか、お話しします。

前にこのツールたちで吹き替えはできていました。でも、まったく同じことをもう一度やろうと腰を据えたら、エラーがそっくり戻ってきたんです。今回はその一つひとつを最後まで突破して、両方のツールから、ちゃんと見られる吹き替えが出てきました。一日の大半は相変わらず行き詰まって過ごしたけれど、それでも動いて、「あと一歩のところまで行った」という話ではなく、今度こそ完成した動画をお見せできます。

同じ動画を、二つのやり方で吹き替える

二つのツールは同じ動画を吹き替えました。アルテミス計画の月ミッションについての短い NASA の映像で、パブリックドメイン（著作権フリー）なので、そのまま見比べられます。二つはまったく違うやり方で動きます。

KrillinAI は、音声を文字起こしし、翻訳して、あらかじめ用意された声で吹き替えます。字幕も一緒に焼き込んでくれます。
Voice-Pro は、短いサンプルから声をクローンして、その声で吹き替えます。

どちらのツールも手をつける前の、元の動画です：

オリジナル：NASA の映像、英語（吹き替え前）

KrillinAI：私を怖がらせた、静かな失敗

KrillinAI は、吹き替えを始める前にエラーを次々と吐き出しました。大半は、私が入れていた別の吹き替えアプリとぶつかって起きたものです。でも、本当に私をゾッとさせたのは、エラーですらありませんでした。翻訳したはずの結果が、訳されないまま、ただの英語で出てきていたんです。警告もなく、画面に赤いものも何も出ないまま。翻訳エンジンがそもそも動いていなくて、KrillinAI はエラーを出す代わりに、元のテキストをまるで翻訳結果みたいに、そのまま素通しさせていたんです。私のような人間には、これが一番こわいタイプのバグです。結果が完成しているように見えるので、確かめようという発想すら浮かばないのですから。

KrillinAI：Edge-TTS の声で吹き替え

正直なメモをいくつか。無料プランでは Microsoft の声しか使えなくて、しかも声はメニューから選ぶのではなく、コードを打ち込んで選びます。小さなクセですが、すぐ慣れます。それでも、オープンソースのツールとしては吹き替えの品質はかなりしっかりしていたし、翻訳も十分通用しました。インターフェースは Voice-Pro よりシンプルで、私はその分こちらが気に入りました。一番ありがたかったのは、きれいで、タイミングもちゃんと合った字幕を勝手に焼き込んでくれて、自分で合わせる必要がなかったことです。無料で使ってみた感触が良かったので、いつか有料の音声クローンも試してみたくなりました。

Voice-Pro：エンジンを手で直す

Voice-Pro のエラーは、もっと深いところ、このツールを組み立てている小さなライブラリの内側にありました。そのうちの一つは、吹き替えには使いもしない部品をしつこく要求して、起動する前に落ちてしまうんです。一つずつ直していてもキリがなくて、一つふさぐと、また同じ仲間の別のエラーが噴き出すんです。最後に効いたのは、それらが全部通る一か所で直すことでした。足りない部品が任意のものなら、落ちる代わりにただ飛ばす。たった一つの変更で、その手のエラーが一度に全部消えました。

比較が公平になるよう、二つのやり方で動かしました。まずは KrillinAI と同じ Microsoft の声で。できるかぎり真っ向勝負に近づけた形です：

Voice-Pro：KrillinAI と同じ Edge-TTS の声

次に、Voice-Pro の本領である、自前の音声クローンで：

Voice-Pro：CosyVoice による音声クローン

クローンは本当に良くて、二つのツールがやることの中で一番強力です。ただの Microsoft の声より実行時間ははっきり長くかかりますが、その結果は、余分に待つ価値が十分あります。そして、二つの核心的な違いがここにあります。Voice-Pro はクローンまで含めて全部無料で使わせてくれるのに対し、KrillinAI はクローンを有料の API の向こうに置いています。私のように、最後まで完全無料でいこうと決めている人間には、これが多くを決めてしまいます。

並べてみると、二つはずいぶん違う性格でした。KrillinAI の本当の便利さは字幕です。勝手にきれいに、うまく区切られて出てきて、編集の必要がありません。短所はテンポです。吹き替えた声を元の尺に合わせようとして、速くなったり遅くなったりするので、その絶え間ない伸び縮みが、かなり不自然に聞こえてしまいました。タイミングをきっちり合わせるには、たぶん追加の作業がいるでしょう。もう一つ物足りなかったのは、完成した動画から背景の音が抜き取られていたことです。

Voice-Pro は逆でした。字幕は自分で直さないといけませんが、それ以外はすべて満足でした。声の長さは自動で合わせてくれるので、テンポは一定で自然なまま保たれましたし、さっき言ったとおり、クローンの声も本当に良かったです。何より、背景の音が完成した動画にそのまま残っていたので、結果をそのままどこかに投稿できる状態でした。私にとっては、この最後の点が一番大きな違いでした。

それぞれにかかった時間

RTX 3080 で、動画全体を一から吹き替えるのにかかった時間です：

ツールと声	時間
KrillinAI (Edge-TTS)	1分56秒
Voice-Pro (Edge-TTS、同じ声)	4分4秒
Voice-Pro (CosyVoice クローン)	4分32秒

同じ Edge-TTS の声で比べると、KrillinAI はおよそ二倍速かったです。主に、Voice-Pro が背景の音を分離するような、重たい追加作業をしているからです。CosyVoice で声をクローンするのが一番遅くて、GPU の上でモデルを一行ずつ動かすからです。とはいえ、どれも絶対的に遅いわけではありません。どちらにしても、数分という話です。

その一日が教えてくれたこと

難しいのはディスクの空きとか、ダウンロード待ちだろうと思っていました。違いました。ファイルは全部ちゃんと落ちていたんです。一番大変だったのは、前は全部動いていたのに、まったく同じことをやろうと腰を据えたら、ただ動かない、ということでした。いちばん気が滅入るのはこれなんです。まったく新しい問題ならまだしも、前回は完璧に動いたものが、今回はしれっと動くのを拒む。もう一つ、覚えておく価値のある教訓は、静かな失敗に気をつけること。KrillinAI が、翻訳されていない英語を何も言わずに返してくるのは、完璧な罠です。出力が完成して見えるのですから。

私は相変わらずコードの書けない人間で、この大半を暗闇の中で手探りしています。でも今回は、その手探りが、ちゃんとした結果にたどり着きました。同じ動画の完成した吹き替えが二本、まるごと無料のオープンソースツールだけで作れたのです。

ついに、オープンソースの AI で動画をまるごと吹き替えできました

同じ動画を、二つのやり方で吹き替える

KrillinAI：私を怖がらせた、静かな失敗

Voice-Pro：エンジンを手で直す

それぞれにかかった時間

その一日が教えてくれたこと

評価

コメント (0)

ついに、オープンソースの AI で動画をまるごと吹き替えできました

同じ動画を、二つのやり方で吹き替える

KrillinAI：私を怖がらせた、静かな失敗

Voice-Pro：エンジンを手で直す

それぞれにかかった時間

その一日が教えてくれたこと

評価

週イチのAI吹き替えダイジェストを受け取る

コメント (0)