ผมลองรัน OmniVoice อีกครั้ง จับเวลาการพากย์ และเจอข้อผิดพลาดแปลกๆ

คราวนี้ผมพากย์วิดีโอภาษาอังกฤษเป็นภาษาเกาหลี ผมจับเวลาแต่ละขั้นตอนของการพากย์หนึ่งครั้ง และยังเจอเสียงรบกวนแบบหุ่นยนต์ในจุดที่ควรจะเป็นเสียงคนด้วย

ต่อจากบทความที่แล้ว ผมใช้เวลากับ OmniVoice เพิ่มอีกหน่อย คราวนี้ผมสงสัยอยู่สองเรื่อง เรื่องหนึ่งคือจริงๆ แล้วการพากย์วิดีโอหนึ่งคลิปใช้เวลานานแค่ไหน อีกเรื่องคือทิศทางตรงข้ามกับคราวที่แล้ว นั่นคือจะเกิดอะไรขึ้นถ้าผมเอาวิดีโอภาษาอังกฤษมาเปลี่ยนเป็นภาษาเกาหลี

ผมเลยหยิบคลิปสุนทรพจน์ของ Trump สั้นๆ มา (เป็นภาษาอังกฤษ) แล้วพากย์เป็นภาษาเกาหลี นี่คือต้นฉบับก่อน:

ต้นฉบับ: คลิปภาษาอังกฤษที่ผมอยากพากย์เป็นภาษาเกาหลี

และนี่คือผลลัพธ์หลังจากที่ OmniVoice พากย์เป็นภาษาเกาหลีแล้ว มันโคลนเสียงต้นฉบับแล้วให้พูดภาษาเกาหลี:

OmniVoice: พากย์อังกฤษ → เกาหลี พร้อมโคลนเสียงต้นฉบับ

การพากย์หนึ่งครั้งใช้เวลานานแค่ไหน

การเอาคลิป 22 วินาทีหนึ่งคลิปไปจนครบทุกขั้นตอน ตั้งแต่ถอดเสียงเป็นข้อความ แปล สังเคราะห์เสียง ไปจนถึงส่งออก ใช้เวลา ประมาณ 3 นาทีรวมทั้งหมด ทุกอย่างรันบน MacBook ของผม โดยไม่ต้องต่ออินเทอร์เน็ต ถ้าแยกดูเป็นขั้นตอน ก็จะได้แบบนี้:

เตรียมข้อมูล (ดึงเสียงออกจากวิดีโอ และแยกเสียงคนออกจากเสียงพื้นหลัง): ประมาณ 7 วินาที
ถอดเสียงเป็นข้อความ (เปลี่ยนคำพูดให้เป็นตัวหนังสือ): ประมาณ 29 วินาที
แปล (อังกฤษเป็นเกาหลี): ประมาณ 90 วินาที
สร้างโปรไฟล์เสียง (บันทึกเสียงต้นฉบับเอาไว้): ประมาณ 5 วินาที
สังเคราะห์เสียง + โคลนเสียง: ประมาณ 49 วินาที
ส่งออก (รวมกลับเข้าไปในวิดีโอ): ประมาณ 2 วินาที

มีรายละเอียดสนุกๆ อยู่อย่างหนึ่ง การสังเคราะห์เสียงรอบแรกใช้เวลานานกว่า แต่พอรันอีกครั้งเวลาจะลดลงเหลือประมาณครึ่งเดียว นั่นเป็นเพราะเวลาที่ใช้โหลดโมเดล AI เข้าหน่วยความจำครั้งแรกจะถูกนับเฉพาะในรอบแรกเท่านั้น

แต่ละขั้นตอนใช้โมเดลอะไร

การพากย์ถูกแบ่งออกเป็นขั้นตอน และแต่ละขั้นตอนก็มีโมเดลคนละตัวมาจัดการ:

แยกเสียงคนออกจากเสียงพื้นหลัง: Demucs
ถอดเสียงเป็นข้อความ: WhisperX
กำหนดจังหวะของแต่ละคำ: wav2vec2
แยกผู้พูด (แยกว่าใครเป็นคนพูด): WavLM
แปล: gemma2:27b (คุณภาพดีกว่าตัวแปลที่ติดมากับเครื่องมือ)
สังเคราะห์เสียง + โคลนเสียง: OmniVoice

ไม่ได้ราบรื่นไปทั้งหมด

มีอยู่สองเรื่องที่ทำผมสะดุดระหว่างทาง

หนึ่ง บางครั้งในจุดที่ควรจะเป็นเสียงคน ผมกลับได้ยินเสียงแตกๆ คล้ายสัญญาณกวนแทน คราวนี้ผมให้มันสร้างภาษาเกาหลีจากตัวอย่างเสียงภาษาอังกฤษ และเสียงนั้นที่พยายามเลียนแบบภาษาเกาหลี ซึ่งเป็นภาษาที่มันไม่เคยพูดมาก่อน บางครั้งก็ออกมาพัง ผมเลยเปลี่ยนไปใช้การตั้งค่าที่ประมวลผลหลายรอบขึ้นเพื่อขัดเกลาเสียงให้ดีขึ้น แล้วรันใหม่ คราวนี้วิดีโอของ Trump ก็ออกมาดี

สอง ตอนที่ผมรันการแปล มีอยู่ประโยคหนึ่งที่ออกมาต่างจากต้นฉบับโดยสิ้นเชิง ผมเลยต้องเข้าไปแก้เอง

สรุปแล้ว

ในบรรดาเครื่องมือพากย์เสียงโอเพนซอร์สทั้งหมดที่ผมเคยใช้มา ตัวนี้ติดตั้งง่ายแทบจะคลิกเดียว แล้วมันยังรันได้ลื่นกว่าตัวอื่นๆ ทุกตัวที่ผมเคยลอง ซึ่งผมชอบมาก แต่ถึงอย่างนั้น คุณภาพของผลลัพธ์ก็ยังไม่อยู่ในระดับที่ผมพอใจ

มีใครที่นี่เคยใช้ OmniVoice บ้างไหม ผมอยากฟังว่าคุณลองกับวิดีโอแบบไหน แล้วคุณภาพออกมาเป็นยังไง ผมรันมันบน Mac เลยอยากฟังจากคนที่ใช้บนเครื่องแบบอื่นด้วยเหมือนกัน

ผมลองรัน OmniVoice อีกครั้ง จับเวลาการพากย์ และเจอข้อผิดพลาดแปลกๆ

การพากย์หนึ่งครั้งใช้เวลานานแค่ไหน

แต่ละขั้นตอนใช้โมเดลอะไร

ไม่ได้ราบรื่นไปทั้งหมด

สรุปแล้ว

จุดที่ชอบ

จุดที่ยังไม่โดนใจ

คะแนน

ความคิดเห็น (0)

ผมลองรัน OmniVoice อีกครั้ง จับเวลาการพากย์ และเจอข้อผิดพลาดแปลกๆ

การพากย์หนึ่งครั้งใช้เวลานานแค่ไหน

แต่ละขั้นตอนใช้โมเดลอะไร

ไม่ได้ราบรื่นไปทั้งหมด

สรุปแล้ว

จุดที่ชอบ

จุดที่ยังไม่โดนใจ

คะแนน

รับสรุปข่าวพากย์เสียงด้วย AI รายสัปดาห์

ความคิดเห็น (0)