OmniVoice をもう一度動かして、吹き替えの時間を計り、奇妙なエラーにぶつかりました
今回は英語の動画を韓国語に吹き替えました。一本の吹き替えを工程ごとに時間を計り、声が出るはずの場所からロボットのようなノイズが出る現象にも遭遇しました。
前回の記事の続きで、OmniVoice をもう少し触ってみました。今回気になっていたのは二つです。一つは、動画を一本吹き替えるのに、実際どれくらい時間がかかるのか。もう一つは、前回とは逆向きで、英語の動画を韓国語にしたらどうなるのか、ということです。
そこで、Trump の演説の短いクリップ(英語)を持ってきて、韓国語に吹き替えてみました。まずはオリジナルです:
オリジナル:韓国語に吹き替えたかった英語のクリップ
そして、OmniVoice が韓国語に吹き替えた結果がこちらです。元の声をクローンして、韓国語を話させています:
OmniVoice:英語→韓国語に吹き替え、元の声をクローン
一本の吹き替えにどれくらいかかるのか
22秒のクリップ一本を、文字起こしから翻訳、音声合成、書き出しまで通しでやって、合計でだいたい3分でした。すべて私の MacBook 上で、ネットなしで動きました。工程ごとに分けると、こうなります:
- 下準備(動画から音声を抜き出して、声と背景音に分ける):約7秒
- 文字起こし(話し声を文字にする):約29秒
- 翻訳(英語から韓国語):約90秒
- 音声プロファイルの作成(元の声を登録する):約5秒
- 音声合成+クローン:約49秒
- 書き出し(動画に戻して合成する):約2秒
おもしろい点が一つあって、最初の合成は時間がかかりますが、もう一度走らせると、その時間がだいたい半分になります。これは、AI モデルをメモリに読み込む時間が、最初の一回だけ計上されるからです。
各工程でどのモデルが動いたか
吹き替えは工程に分かれていて、それぞれを別のモデルが担当します:
- 声と背景音を分ける:Demucs
- 文字起こし:WhisperX
- 単語のタイミング:wav2vec2
- 話者の分離(誰が話しているかを見分ける):WavLM
- 翻訳:gemma2:27b(内蔵の翻訳より品質が良い)
- 音声合成+クローン:OmniVoice
すべてが順調だったわけではありません
途中で二つ、つまずいたことがあります。
一つ目は、声が出るはずの場所から、人の声ではなく、つぶれてザラついたノイズが出ることがありました。今回は英語の声サンプルから韓国語を作らせたのですが、その声が、一度も話したことのない韓国語をまねしようとして、ときどき崩れてしまったんです。そこで、合成をより多くの回数かけて仕上げる設定に切り替えて走らせ直したら、Trump の動画はきれいに仕上がりました。
二つ目は、翻訳を走らせたとき、ある一文が元とまったく違う内容で出てきてしまったので、手で直す必要がありました。
まとめると
これまで使ってきたオープンソースの吹き替えツールの中で、このツールはほぼワンクリックと言えるくらい簡単にインストールできました。しかも、これまで試したどのツールよりもスムーズに動いてくれて、そこはありがたかったです。とはいえ、出来上がりの品質は、まだ自分が満足できるレベルではありません。
ほかにも OmniVoice を使った方はいますか。どんな動画を試して、品質がどうだったか、ぜひ聞いてみたいです。私は Mac で動かしたので、ほかの環境で使った方の話も気になっています。
良かったところ
- ほぼワンクリックと言えるくらい簡単にインストールできる(これまで試したオープンソースのツールの中で一番ラク)
- これまで試したどのオープンソースのツールよりもスムーズに動いた
- 処理が速い(22秒のクリップで約3分)
いまいちだったところ
- 出来上がりの品質はまだ満足できるレベルではない
- 言語をまたぐクローン(ある言語の声に別の言語を話させる)が、ときどきロボットのようなノイズに崩れる
評価
週イチのAI吹き替えダイジェストを受け取る
AI吹き替えとニュースを週イチでまとめてお届けします。スパムは送りませんし、いつでも解除できます。
コメント (0)
まだコメントはありません。最初のひとことをどうぞ。