opendub.ai
#ai-dubbing#omnivoice#open-source#voice-cloning

ผมลองรัน OmniVoice อีกครั้ง จับเวลาการพากย์ และเจอข้อผิดพลาดแปลกๆ

คราวนี้ผมพากย์วิดีโอภาษาอังกฤษเป็นภาษาเกาหลี ผมจับเวลาแต่ละขั้นตอนของการพากย์หนึ่งครั้ง และยังเจอเสียงรบกวนแบบหุ่นยนต์ในจุดที่ควรจะเป็นเสียงคนด้วย

opendub · 2026-06-23 · อ่าน 4 นาที

ต่อจากบทความที่แล้ว ผมใช้เวลากับ OmniVoice เพิ่มอีกหน่อย คราวนี้ผมสงสัยอยู่สองเรื่อง เรื่องหนึ่งคือจริงๆ แล้วการพากย์วิดีโอหนึ่งคลิปใช้เวลานานแค่ไหน อีกเรื่องคือทิศทางตรงข้ามกับคราวที่แล้ว นั่นคือจะเกิดอะไรขึ้นถ้าผมเอาวิดีโอภาษาอังกฤษมาเปลี่ยนเป็นภาษาเกาหลี

ผมเลยหยิบคลิปสุนทรพจน์ของ Trump สั้นๆ มา (เป็นภาษาอังกฤษ) แล้วพากย์เป็นภาษาเกาหลี นี่คือต้นฉบับก่อน:

ต้นฉบับ: คลิปภาษาอังกฤษที่ผมอยากพากย์เป็นภาษาเกาหลี

และนี่คือผลลัพธ์หลังจากที่ OmniVoice พากย์เป็นภาษาเกาหลีแล้ว มันโคลนเสียงต้นฉบับแล้วให้พูดภาษาเกาหลี:

OmniVoice: พากย์อังกฤษ → เกาหลี พร้อมโคลนเสียงต้นฉบับ

การพากย์หนึ่งครั้งใช้เวลานานแค่ไหน

การเอาคลิป 22 วินาทีหนึ่งคลิปไปจนครบทุกขั้นตอน ตั้งแต่ถอดเสียงเป็นข้อความ แปล สังเคราะห์เสียง ไปจนถึงส่งออก ใช้เวลา ประมาณ 3 นาทีรวมทั้งหมด ทุกอย่างรันบน MacBook ของผม โดยไม่ต้องต่ออินเทอร์เน็ต ถ้าแยกดูเป็นขั้นตอน ก็จะได้แบบนี้:

  • เตรียมข้อมูล (ดึงเสียงออกจากวิดีโอ และแยกเสียงคนออกจากเสียงพื้นหลัง): ประมาณ 7 วินาที
  • ถอดเสียงเป็นข้อความ (เปลี่ยนคำพูดให้เป็นตัวหนังสือ): ประมาณ 29 วินาที
  • แปล (อังกฤษเป็นเกาหลี): ประมาณ 90 วินาที
  • สร้างโปรไฟล์เสียง (บันทึกเสียงต้นฉบับเอาไว้): ประมาณ 5 วินาที
  • สังเคราะห์เสียง + โคลนเสียง: ประมาณ 49 วินาที
  • ส่งออก (รวมกลับเข้าไปในวิดีโอ): ประมาณ 2 วินาที

มีรายละเอียดสนุกๆ อยู่อย่างหนึ่ง การสังเคราะห์เสียงรอบแรกใช้เวลานานกว่า แต่พอรันอีกครั้งเวลาจะลดลงเหลือประมาณครึ่งเดียว นั่นเป็นเพราะเวลาที่ใช้โหลดโมเดล AI เข้าหน่วยความจำครั้งแรกจะถูกนับเฉพาะในรอบแรกเท่านั้น

แต่ละขั้นตอนใช้โมเดลอะไร

การพากย์ถูกแบ่งออกเป็นขั้นตอน และแต่ละขั้นตอนก็มีโมเดลคนละตัวมาจัดการ:

  • แยกเสียงคนออกจากเสียงพื้นหลัง: Demucs
  • ถอดเสียงเป็นข้อความ: WhisperX
  • กำหนดจังหวะของแต่ละคำ: wav2vec2
  • แยกผู้พูด (แยกว่าใครเป็นคนพูด): WavLM
  • แปล: gemma2:27b (คุณภาพดีกว่าตัวแปลที่ติดมากับเครื่องมือ)
  • สังเคราะห์เสียง + โคลนเสียง: OmniVoice

ไม่ได้ราบรื่นไปทั้งหมด

มีอยู่สองเรื่องที่ทำผมสะดุดระหว่างทาง

หนึ่ง บางครั้งในจุดที่ควรจะเป็นเสียงคน ผมกลับได้ยินเสียงแตกๆ คล้ายสัญญาณกวนแทน คราวนี้ผมให้มันสร้างภาษาเกาหลีจากตัวอย่างเสียงภาษาอังกฤษ และเสียงนั้นที่พยายามเลียนแบบภาษาเกาหลี ซึ่งเป็นภาษาที่มันไม่เคยพูดมาก่อน บางครั้งก็ออกมาพัง ผมเลยเปลี่ยนไปใช้การตั้งค่าที่ประมวลผลหลายรอบขึ้นเพื่อขัดเกลาเสียงให้ดีขึ้น แล้วรันใหม่ คราวนี้วิดีโอของ Trump ก็ออกมาดี

สอง ตอนที่ผมรันการแปล มีอยู่ประโยคหนึ่งที่ออกมาต่างจากต้นฉบับโดยสิ้นเชิง ผมเลยต้องเข้าไปแก้เอง

สรุปแล้ว

ในบรรดาเครื่องมือพากย์เสียงโอเพนซอร์สทั้งหมดที่ผมเคยใช้มา ตัวนี้ติดตั้งง่ายแทบจะคลิกเดียว แล้วมันยังรันได้ลื่นกว่าตัวอื่นๆ ทุกตัวที่ผมเคยลอง ซึ่งผมชอบมาก แต่ถึงอย่างนั้น คุณภาพของผลลัพธ์ก็ยังไม่อยู่ในระดับที่ผมพอใจ

มีใครที่นี่เคยใช้ OmniVoice บ้างไหม ผมอยากฟังว่าคุณลองกับวิดีโอแบบไหน แล้วคุณภาพออกมาเป็นยังไง ผมรันมันบน Mac เลยอยากฟังจากคนที่ใช้บนเครื่องแบบอื่นด้วยเหมือนกัน

จุดที่ชอบ

  • ติดตั้งง่ายแทบจะคลิกเดียว (ง่ายที่สุดในบรรดาเครื่องมือโอเพนซอร์สที่ผมเคยลองมา)
  • รันได้ลื่นกว่าเครื่องมือโอเพนซอร์สทุกตัวที่ผมเคยลองมาจนถึงตอนนี้
  • ประมวลผลเร็ว (ประมาณ 3 นาทีสำหรับคลิป 22 วินาที)

จุดที่ยังไม่โดนใจ

  • คุณภาพของผลลัพธ์ยังไม่น่าพอใจ
  • การโคลนข้ามภาษา (เสียงของภาษาหนึ่งมาพูดอีกภาษาหนึ่ง) บางครั้งก็พังกลายเป็นเสียงรบกวนแบบหุ่นยนต์

คะแนน

ติดตั้งง่าย รันได้ลื่น · แต่คุณภาพยังไม่ถึง

ความคิดเห็น (0)

ยังไม่มีความคิดเห็นเลย มาเป็นคนแรกกันไหมครับ