Aku menjalankan OmniVoice lagi, ngukur waktu sulih suaranya, dan ketemu beberapa error aneh

Kali ini aku membuat sulih suara video bahasa Inggris ke bahasa Korea. Aku ngukur waktu tiap langkah dari satu sulih suara, dan bahkan ketemu suara robotik di tempat yang seharusnya ada suara manusia.

Nyambung dari tulisan sebelumnya, aku main-main lagi sebentar sama OmniVoice. Kali ini aku penasaran sama dua hal. Pertama, sebenarnya berapa lama sih waktu buat men-dubbing satu video. Kedua, arah yang kebalikan dari kemarin: apa yang terjadi kalau aku ubah video bahasa Inggris jadi bahasa Korea.

Jadi aku ambil klip pendek pidato Trump (dalam bahasa Inggris) dan men-dubbing-nya ke bahasa Korea. Ini yang aslinya dulu:

Asli: klip bahasa Inggris yang mau kubuat sulih suaranya ke bahasa Korea

Dan ini hasilnya setelah OmniVoice membuat sulih suaranya ke bahasa Korea. OmniVoice mengkloning suara aslinya lalu bikin suara itu bicara bahasa Korea:

OmniVoice: di-dubbing dari Inggris → Korea, dengan suara asli yang dikloning

Berapa lama waktu untuk satu sulih suara?

Buat ngebawa satu klip 22 detik mulai dari transkripsi, terjemahan, sintesis suara, sampai ekspor, totalnya makan waktu sekitar 3 menit. Semuanya jalan di MacBook-ku, tanpa internet. Kalau dirinci per langkah, kira-kira begini:

Persiapan (mengambil audio dari video dan memisahkan suara dari latar): sekitar 7 detik
Transkripsi (mengubah ucapan jadi teks): sekitar 29 detik
Terjemahan (Inggris ke Korea): sekitar 90 detik
Bikin profil suara (mendaftarkan suara aslinya): sekitar 5 detik
Sintesis suara + kloning: sekitar 49 detik
Ekspor (menggabungkannya lagi ke video): sekitar 2 detik

Satu detail seru: sintesis pertama makan waktu lebih lama, tapi kalau dijalankan lagi waktunya kepotong kira-kira setengah. Soalnya waktu buat memuat model AI ke memori cuma terhitung sekali, di putaran pertama.

Model mana yang jalan di tiap langkah

Sulih suaranya dipecah jadi beberapa langkah, dan tiap langkah ditangani model yang beda:

Memisahkan suara dan latar: Demucs
Transkripsi: WhisperX
Penentuan waktu per kata: wav2vec2
Pemisahan penutur (membedakan siapa yang bicara): WavLM
Terjemahan: gemma2:27b (kualitasnya lebih bagus daripada penerjemah bawaan)
Sintesis suara + kloning: OmniVoice

Nggak semuanya mulus

Ada dua hal yang sempat bikin aku tersandung di tengah jalan.

Pertama, kadang di tempat yang seharusnya ada suara, yang kudapat malah suara berisik yang remuk dan penuh statik, bukan suara manusia. Kali ini aku minta dia bikin bahasa Korea dari sampel suara bahasa Inggris, dan suara itu nyoba niru bahasa Korea, bahasa yang belum pernah dia ucapkan, jadi kadang keluarnya rusak. Akhirnya aku ganti ke pengaturan yang menghaluskan sintesis lewat lebih banyak putaran, kujalankan ulang, dan video Trump pun keluar dengan baik.

Kedua, pas aku jalankan terjemahannya, satu kalimat keluar benar-benar beda dari aslinya, jadi aku harus masuk dan benerin sendiri pakai tangan.

Jadi, kesimpulannya

Dari semua alat sulih suara open-source yang pernah kupakai, yang satu ini pemasangannya hampir semudah satu klik. Jalannya juga lebih mulus daripada alat-alat lain yang pernah kucoba, dan itu kusuka. Tapi kualitas hasilnya masih belum memuaskan.

Ada yang di sini pernah pakai OmniVoice? Aku pengin banget dengar jenis video apa yang kamu coba dan gimana kualitas hasilnya. Aku jalanin di Mac, jadi aku juga penasaran dengar dari orang-orang yang pakai di perangkat lain.

Aku menjalankan OmniVoice lagi, ngukur waktu sulih suaranya, dan ketemu beberapa error aneh

Berapa lama waktu untuk satu sulih suara?

Model mana yang jalan di tiap langkah

Nggak semuanya mulus

Jadi, kesimpulannya

Yang aku suka

Yang kurang sreg

Penilaian

Komentar (0)

Aku menjalankan OmniVoice lagi, ngukur waktu sulih suaranya, dan ketemu beberapa error aneh

Berapa lama waktu untuk satu sulih suara?

Model mana yang jalan di tiap langkah

Nggak semuanya mulus

Jadi, kesimpulannya

Yang aku suka

Yang kurang sreg

Penilaian

Dapatkan rangkuman dubbing AI mingguan

Komentar (0)