opendub.ai
#ai-dubbing#krillinai#voice-pro#open-source

Akhirnya aku berhasil menyulihsuarakan satu video utuh dengan AI open-source

Sulih suara yang dulu berhasil malah rusak lagi di tanganku, dan ini caraku tetap berhasil mengeluarkan dua video yang jadi.

opendub · 2026-06-05 · 4 menit baca

Dulu aku sudah pernah berhasil membuat alat-alat ini menyulihsuarakan, tapi saat duduk untuk melakukan hal yang persis sama lagi, error-nya langsung balik. Kali ini aku berjuang menembus satu per satu, dan kedua alat menghasilkan sulih suara yang nyata dan benar-benar layak ditonton. Sebagian besar hari itu tetap kuhabiskan dengan mentok, tapi toh berhasil, dan akhirnya aku punya video yang jadi untuk dipamerkan, bukan cuma cerita soal nyaris berhasil.

Klip yang sama, disulihsuarakan dengan dua cara

Kedua alat menyulihsuarakan klip yang sama, sebuah video pendek domain publik (bebas hak cipta) dari NASA tentang misi Bulan Artemis, jadi kamu bisa membandingkannya langsung. Keduanya bekerja dengan cara yang sama sekali berbeda:

  • KrillinAI mentranskripsi, menerjemahkan, dan menyulihsuarakan dengan suara siap-pakai, lalu membakar subtitle ke video juga.
  • Voice-Pro mengkloning sebuah suara dari sampel pendek lalu menyulihsuarakan dengan suara itu.

Ini videonya yang asli, sebelum salah satu alat menyentuhnya:

Asli: klip NASA, bahasa Inggris (sebelum disulihsuarakan)

KrillinAI: kegagalan senyap yang membuatku takut

KrillinAI memuntahkan serentetan error sebelum mau menyulihsuarakan, kebanyakan karena bentrok dengan aplikasi sulih suara lain yang sudah kupasang. Tapi yang benar-benar membuatku ciut justru bukan error sama sekali: terjemahanku keluar dalam bahasa Inggris polos, tak diterjemahkan, tanpa peringatan dan tanpa apa pun berwarna merah di layar. Mesin terjemahannya memang tidak jalan, dan alih-alih protes, KrillinAI meneruskan teks asli apa adanya seolah itu adalah terjemahannya. Bagi orang sepertiku, itu jenis bug yang paling menakutkan: hasilnya tampak sudah jadi, jadi kamu takkan pernah terpikir untuk memeriksanya.

KrillinAI: disulihsuarakan dengan suara Edge-TTS

Beberapa catatan jujur. Di paket gratis, kamu dibatasi pada suara-suara Microsoft, dan kamu memilih suara dengan mengetik kodenya, bukan memilih dari menu, satu keanehan kecil yang cepat kamu biasakan. Tapi kualitas sulih suaranya cukup kokoh untuk sebuah alat open-source, dan terjemahannya pun bertahan dengan baik. Antarmukanya lebih sederhana daripada Voice-Pro, dan justru karena itu aku lebih suka. Yang paling kuhargai: ia membakar subtitle yang bersih dan tepat waktunya sendiri, jadi aku tak perlu menyelaraskan apa pun. Pengalaman memakainya secara gratis cukup menyenangkan sampai aku tergoda untuk mencoba fitur kloning suaranya yang berbayar suatu hari nanti.

Voice-Pro: memperbaiki mesinnya dengan tangan

Error Voice-Pro letaknya lebih dalam, jauh di dalam pustaka-pustaka kecil penyusunnya. Salah satunya terus-menerus menuntut sebuah komponen yang bahkan tak dipakai untuk menyulihsuarakan, dan ia crash sebelum sempat mulai. Memperbaikinya satu per satu nggak ada habisnya: setiap kali aku menutup satu, muncul lagi satu yang serupa. Yang akhirnya berhasil adalah memperbaikinya di satu titik yang dilewati mereka semua: lewati saja bagian opsional yang hilang itu ketimbang crash. Satu perubahan, dan seluruh kawanan error itu lenyap sekaligus.

Aku menjalankannya dengan dua cara supaya perbandingannya adil. Pertama dengan suara Microsoft yang sama dengan yang dipakai KrillinAI, menyamakan kondisinya semaksimal mungkin:

Voice-Pro: suara Edge-TTS yang sama dengan KrillinAI

Lalu dengan kloning suara milik Voice-Pro sendiri, fitur yang benar-benar jadi inti rancangannya:

Voice-Pro: kloning suara CosyVoice

Kloningnya sungguh bagus, hal terkuat yang bisa dilakukan salah satu dari kedua alat ini. Prosesnya memang jelas lebih lama daripada suara Microsoft biasa, tapi hasilnya benar-benar sepadan dengan tambahan waktu tunggunya. Dan inilah perbedaan inti di antara keduanya: Voice-Pro memberimu semuanya gratis, termasuk kloning, sementara KrillinAI menahan kloning di balik API berbayar. Buat orang yang bertekad tetap sepenuhnya gratis sepertiku, hal itu sangat menentukan.

Disandingkan, keduanya berkarakter sangat berbeda. Kepraktisan KrillinAI yang sesungguhnya ada pada subtitle-nya: keluar bersih dan terpenggal rapi dengan sendirinya, tanpa perlu diedit. Kelemahannya ada pada temponya: untuk membuat suara sulihan pas dengan timing aslinya, ia mempercepat lalu memperlambat, dan tarik-ulur tanpa henti itu pada akhirnya terdengar cukup tidak natural. Membuat timing-nya benar-benar pas mungkin butuh kerja tambahan. Hal lain yang kusayangkan, video jadinya keluar tanpa audio latar karena sudah dibuang.

Voice-Pro mengambil arah sebaliknya. Subtitle-nya memang harus kamu perbaiki sendiri, tapi segala hal lainnya membuatku puas. Panjang suaranya disesuaikan otomatis, jadi temponya tetap stabil dan natural, dan seperti kubilang tadi, suara kloningnya terdengar sangat bagus. Yang terbaik, audio latarnya dipertahankan di video yang jadi, jadi hasilnya siap diunggah ke mana pun apa adanya. Bagiku, bagian terakhir itulah yang membuat perbedaan terbesar.

Berapa lama waktu masing-masing

Di sebuah RTX 3080, menyulihsuarakan klip utuh dari nol:

Alat & suara Waktu
KrillinAI (Edge-TTS) 1 mnt 56 dtk
Voice-Pro (Edge-TTS, suara sama) 4 mnt 4 dtk
Voice-Pro (kloning CosyVoice) 4 mnt 32 dtk

Dengan suara Edge-TTS yang sama, KrillinAI kira-kira dua kali lebih cepat, terutama karena Voice-Pro mengerjakan kerja tambahan yang lebih berat, seperti memisahkan audio latar. Mengkloning suara dengan CosyVoice yang paling lambat, sebab ia menjalankan model di GPU baris demi baris. Meski begitu, tak satu pun lambat dalam ukuran mutlak. Semuanya cuma soal beberapa menit.

Apa yang diajarkan hari itu kepadaku

Kukira bagian sulitnya bakal ruang disk atau menunggu unduhan. Ternyata bukan. Semuanya sudah terunduh dengan baik. Bagian tersulitnya adalah semua ini sebelumnya sudah berhasil, dan ketika aku duduk untuk melakukan hal yang persis sama lagi, ia begitu saja menolak berjalan. Itulah yang bikin pusing: bukan masalah yang benar-benar baru, melainkan sesuatu yang terakhir kali jalan sempurna, sekarang diam-diam menolak jalan. Pelajaran lain yang layak disimpan: waspadai kegagalan yang senyap. KrillinAI mengembalikan bahasa Inggris yang tak diterjemahkan tanpa bersuara sedikit pun adalah jebakan yang sempurna, karena keluarannya tampak sudah jadi.

Aku masih seorang non-programmer yang meraba-raba dalam gelap di hampir semua hal ini. Tapi kali ini, raba-rabanya berakhir di sesuatu yang nyata: dua sulih suara yang jadi dari klip yang sama, dibuat sepenuhnya dengan alat open-source gratis.

Penilaian

pemasangan ribet · banyak bug kecil · tapi enak dipakai kalau udah biasa
komentar

Komentar (0)

Belum ada komentar — jadi yang pertama, yuk.