Aku menjalankan OmniVoice lagi, ngukur waktu sulih suaranya, dan ketemu beberapa error aneh
Kali ini aku membuat sulih suara video bahasa Inggris ke bahasa Korea. Aku ngukur waktu tiap langkah dari satu sulih suara, dan bahkan ketemu suara robotik di tempat yang seharusnya ada suara manusia.
Nyambung dari tulisan sebelumnya, aku main-main lagi sebentar sama OmniVoice. Kali ini aku penasaran sama dua hal. Pertama, sebenarnya berapa lama sih waktu buat men-dubbing satu video. Kedua, arah yang kebalikan dari kemarin: apa yang terjadi kalau aku ubah video bahasa Inggris jadi bahasa Korea.
Jadi aku ambil klip pendek pidato Trump (dalam bahasa Inggris) dan men-dubbing-nya ke bahasa Korea. Ini yang aslinya dulu:
Asli: klip bahasa Inggris yang mau kubuat sulih suaranya ke bahasa Korea
Dan ini hasilnya setelah OmniVoice membuat sulih suaranya ke bahasa Korea. OmniVoice mengkloning suara aslinya lalu bikin suara itu bicara bahasa Korea:
OmniVoice: di-dubbing dari Inggris → Korea, dengan suara asli yang dikloning
Berapa lama waktu untuk satu sulih suara?
Buat ngebawa satu klip 22 detik mulai dari transkripsi, terjemahan, sintesis suara, sampai ekspor, totalnya makan waktu sekitar 3 menit. Semuanya jalan di MacBook-ku, tanpa internet. Kalau dirinci per langkah, kira-kira begini:
- Persiapan (mengambil audio dari video dan memisahkan suara dari latar): sekitar 7 detik
- Transkripsi (mengubah ucapan jadi teks): sekitar 29 detik
- Terjemahan (Inggris ke Korea): sekitar 90 detik
- Bikin profil suara (mendaftarkan suara aslinya): sekitar 5 detik
- Sintesis suara + kloning: sekitar 49 detik
- Ekspor (menggabungkannya lagi ke video): sekitar 2 detik
Satu detail seru: sintesis pertama makan waktu lebih lama, tapi kalau dijalankan lagi waktunya kepotong kira-kira setengah. Soalnya waktu buat memuat model AI ke memori cuma terhitung sekali, di putaran pertama.
Model mana yang jalan di tiap langkah
Sulih suaranya dipecah jadi beberapa langkah, dan tiap langkah ditangani model yang beda:
- Memisahkan suara dan latar: Demucs
- Transkripsi: WhisperX
- Penentuan waktu per kata: wav2vec2
- Pemisahan penutur (membedakan siapa yang bicara): WavLM
- Terjemahan: gemma2:27b (kualitasnya lebih bagus daripada penerjemah bawaan)
- Sintesis suara + kloning: OmniVoice
Nggak semuanya mulus
Ada dua hal yang sempat bikin aku tersandung di tengah jalan.
Pertama, kadang di tempat yang seharusnya ada suara, yang kudapat malah suara berisik yang remuk dan penuh statik, bukan suara manusia. Kali ini aku minta dia bikin bahasa Korea dari sampel suara bahasa Inggris, dan suara itu nyoba niru bahasa Korea, bahasa yang belum pernah dia ucapkan, jadi kadang keluarnya rusak. Akhirnya aku ganti ke pengaturan yang menghaluskan sintesis lewat lebih banyak putaran, kujalankan ulang, dan video Trump pun keluar dengan baik.
Kedua, pas aku jalankan terjemahannya, satu kalimat keluar benar-benar beda dari aslinya, jadi aku harus masuk dan benerin sendiri pakai tangan.
Jadi, kesimpulannya
Dari semua alat sulih suara open-source yang pernah kupakai, yang satu ini pemasangannya hampir semudah satu klik. Jalannya juga lebih mulus daripada alat-alat lain yang pernah kucoba, dan itu kusuka. Tapi kualitas hasilnya masih belum memuaskan.
Ada yang di sini pernah pakai OmniVoice? Aku pengin banget dengar jenis video apa yang kamu coba dan gimana kualitas hasilnya. Aku jalanin di Mac, jadi aku juga penasaran dengar dari orang-orang yang pakai di perangkat lain.
Yang aku suka
- Pemasangannya hampir semudah satu klik (yang paling gampang dari semua alat open-source yang pernah kucoba)
- Jalannya lebih mulus daripada alat open-source mana pun yang pernah kucoba sejauh ini
- Pemrosesannya cepat (sekitar 3 menit untuk klip 22 detik)
Yang kurang sreg
- Kualitas hasilnya masih belum memuaskan
- Kloning lintas bahasa (suara dari satu bahasa yang bicara bahasa lain) kadang pecah jadi suara robotik
Penilaian
Dapatkan rangkuman dubbing AI mingguan
Rangkuman mingguan soal dubbing AI & berita terbaru. Tanpa spam, bisa berhenti kapan aja.
Komentar (0)
Belum ada komentar — jadi yang pertama, yuk.